diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,4244 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.759526938239159,
+  "eval_steps": 10240,
+  "global_step": 2100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.001314060446780552,
+      "grad_norm": 6.0887322425842285,
+      "learning_rate": 1.4492753623188408e-07,
+      "loss": 1.0770764350891113,
+      "memory(GiB)": 39.15,
+      "step": 1,
+      "token_acc": 0.7469458987783595,
+      "train_speed(iter/s)": 0.013712
+    },
+    {
+      "epoch": 0.006570302233902759,
+      "grad_norm": 6.300453186035156,
+      "learning_rate": 7.246376811594204e-07,
+      "loss": 1.0886579751968384,
+      "memory(GiB)": 84.21,
+      "step": 5,
+      "token_acc": 0.7434342087721637,
+      "train_speed(iter/s)": 0.026613
+    },
+    {
+      "epoch": 0.013140604467805518,
+      "grad_norm": 5.09555196762085,
+      "learning_rate": 1.4492753623188408e-06,
+      "loss": 1.0676928520202638,
+      "memory(GiB)": 84.21,
+      "step": 10,
+      "token_acc": 0.740495867768595,
+      "train_speed(iter/s)": 0.030047
+    },
+    {
+      "epoch": 0.01971090670170828,
+      "grad_norm": 3.2556324005126953,
+      "learning_rate": 2.173913043478261e-06,
+      "loss": 0.9635882377624512,
+      "memory(GiB)": 84.21,
+      "step": 15,
+      "token_acc": 0.7701234008830522,
+      "train_speed(iter/s)": 0.031287
+    },
+    {
+      "epoch": 0.026281208935611037,
+      "grad_norm": 1.6578456163406372,
+      "learning_rate": 2.8985507246376816e-06,
+      "loss": 0.8276536941528321,
+      "memory(GiB)": 84.21,
+      "step": 20,
+      "token_acc": 0.7827149763702537,
+      "train_speed(iter/s)": 0.031906
+    },
+    {
+      "epoch": 0.0328515111695138,
+      "grad_norm": 1.177905797958374,
+      "learning_rate": 3.6231884057971017e-06,
+      "loss": 0.7361048221588135,
+      "memory(GiB)": 84.21,
+      "step": 25,
+      "token_acc": 0.7906462683962538,
+      "train_speed(iter/s)": 0.032398
+    },
+    {
+      "epoch": 0.03942181340341656,
+      "grad_norm": 0.6714381575584412,
+      "learning_rate": 4.347826086956522e-06,
+      "loss": 0.6780746459960938,
+      "memory(GiB)": 84.21,
+      "step": 30,
+      "token_acc": 0.8038660725039143,
+      "train_speed(iter/s)": 0.032405
+    },
+    {
+      "epoch": 0.045992115637319315,
+      "grad_norm": 0.6768696904182434,
+      "learning_rate": 5.072463768115943e-06,
+      "loss": 0.6487759590148926,
+      "memory(GiB)": 84.21,
+      "step": 35,
+      "token_acc": 0.833314147576839,
+      "train_speed(iter/s)": 0.03272
+    },
+    {
+      "epoch": 0.052562417871222074,
+      "grad_norm": 0.5112195611000061,
+      "learning_rate": 5.797101449275363e-06,
+      "loss": 0.6321969032287598,
+      "memory(GiB)": 84.21,
+      "step": 40,
+      "token_acc": 0.8408800826596973,
+      "train_speed(iter/s)": 0.032903
+    },
+    {
+      "epoch": 0.05913272010512484,
+      "grad_norm": 0.4675757586956024,
+      "learning_rate": 6.521739130434783e-06,
+      "loss": 0.6117629528045654,
+      "memory(GiB)": 84.21,
+      "step": 45,
+      "token_acc": 0.8229637648856907,
+      "train_speed(iter/s)": 0.033031
+    },
+    {
+      "epoch": 0.0657030223390276,
+      "grad_norm": 0.4107670783996582,
+      "learning_rate": 7.246376811594203e-06,
+      "loss": 0.5980951309204101,
+      "memory(GiB)": 84.21,
+      "step": 50,
+      "token_acc": 0.8370074882776961,
+      "train_speed(iter/s)": 0.033154
+    },
+    {
+      "epoch": 0.07227332457293036,
+      "grad_norm": 0.37559813261032104,
+      "learning_rate": 7.971014492753623e-06,
+      "loss": 0.5822395801544189,
+      "memory(GiB)": 84.21,
+      "step": 55,
+      "token_acc": 0.8410229088971763,
+      "train_speed(iter/s)": 0.033226
+    },
+    {
+      "epoch": 0.07884362680683311,
+      "grad_norm": 0.4154057502746582,
+      "learning_rate": 8.695652173913044e-06,
+      "loss": 0.5758543968200683,
+      "memory(GiB)": 84.21,
+      "step": 60,
+      "token_acc": 0.8529284789178299,
+      "train_speed(iter/s)": 0.033321
+    },
+    {
+      "epoch": 0.08541392904073587,
+      "grad_norm": 0.42753836512565613,
+      "learning_rate": 9.420289855072464e-06,
+      "loss": 0.5728845596313477,
+      "memory(GiB)": 84.21,
+      "step": 65,
+      "token_acc": 0.8387224954055531,
+      "train_speed(iter/s)": 0.033349
+    },
+    {
+      "epoch": 0.09198423127463863,
+      "grad_norm": 0.42457839846611023,
+      "learning_rate": 9.999994966333388e-06,
+      "loss": 0.564476203918457,
+      "memory(GiB)": 84.21,
+      "step": 70,
+      "token_acc": 0.8388107377603047,
+      "train_speed(iter/s)": 0.033448
+    },
+    {
+      "epoch": 0.09855453350854139,
+      "grad_norm": 0.36299943923950195,
+      "learning_rate": 9.999818789066164e-06,
+      "loss": 0.555049991607666,
+      "memory(GiB)": 84.21,
+      "step": 75,
+      "token_acc": 0.8408914844169001,
+      "train_speed(iter/s)": 0.033455
+    },
+    {
+      "epoch": 0.10512483574244415,
+      "grad_norm": 0.3913320302963257,
+      "learning_rate": 9.99939093860338e-06,
+      "loss": 0.5565983772277832,
+      "memory(GiB)": 84.21,
+      "step": 80,
+      "token_acc": 0.8320722084099016,
+      "train_speed(iter/s)": 0.03343
+    },
+    {
+      "epoch": 0.1116951379763469,
+      "grad_norm": 0.36235758662223816,
+      "learning_rate": 9.998711436481519e-06,
+      "loss": 0.5525528907775878,
+      "memory(GiB)": 84.21,
+      "step": 85,
+      "token_acc": 0.8355197947641537,
+      "train_speed(iter/s)": 0.033468
+    },
+    {
+      "epoch": 0.11826544021024968,
+      "grad_norm": 0.38250720500946045,
+      "learning_rate": 9.99778031690431e-06,
+      "loss": 0.5516636848449707,
+      "memory(GiB)": 84.21,
+      "step": 90,
+      "token_acc": 0.8384240551461849,
+      "train_speed(iter/s)": 0.033529
+    },
+    {
+      "epoch": 0.12483574244415244,
+      "grad_norm": 0.37428662180900574,
+      "learning_rate": 9.996597626741023e-06,
+      "loss": 0.5437192440032959,
+      "memory(GiB)": 84.21,
+      "step": 95,
+      "token_acc": 0.8406958239587334,
+      "train_speed(iter/s)": 0.033585
+    },
+    {
+      "epoch": 0.1314060446780552,
+      "grad_norm": 0.3782438635826111,
+      "learning_rate": 9.995163425524097e-06,
+      "loss": 0.5443241119384765,
+      "memory(GiB)": 84.21,
+      "step": 100,
+      "token_acc": 0.834660268295343,
+      "train_speed(iter/s)": 0.03366
+    },
+    {
+      "epoch": 0.13797634691195795,
+      "grad_norm": 0.38486766815185547,
+      "learning_rate": 9.993477785446151e-06,
+      "loss": 0.5410516738891602,
+      "memory(GiB)": 86.38,
+      "step": 105,
+      "token_acc": 0.8449431198379305,
+      "train_speed(iter/s)": 0.033686
+    },
+    {
+      "epoch": 0.1445466491458607,
+      "grad_norm": 0.38819748163223267,
+      "learning_rate": 9.991540791356342e-06,
+      "loss": 0.5370469093322754,
+      "memory(GiB)": 86.38,
+      "step": 110,
+      "token_acc": 0.8543880362062181,
+      "train_speed(iter/s)": 0.033712
+    },
+    {
+      "epoch": 0.15111695137976347,
+      "grad_norm": 0.39973896741867065,
+      "learning_rate": 9.989352540756103e-06,
+      "loss": 0.5358469486236572,
+      "memory(GiB)": 86.38,
+      "step": 115,
+      "token_acc": 0.8282656701206047,
+      "train_speed(iter/s)": 0.033757
+    },
+    {
+      "epoch": 0.15768725361366623,
+      "grad_norm": 0.34199291467666626,
+      "learning_rate": 9.986913143794232e-06,
+      "loss": 0.5350133895874023,
+      "memory(GiB)": 86.38,
+      "step": 120,
+      "token_acc": 0.8469218989280245,
+      "train_speed(iter/s)": 0.033788
+    },
+    {
+      "epoch": 0.164257555847569,
+      "grad_norm": 0.41273701190948486,
+      "learning_rate": 9.984222723261344e-06,
+      "loss": 0.5307738304138183,
+      "memory(GiB)": 86.38,
+      "step": 125,
+      "token_acc": 0.8481556913328807,
+      "train_speed(iter/s)": 0.033799
+    },
+    {
+      "epoch": 0.17082785808147175,
+      "grad_norm": 0.4566132724285126,
+      "learning_rate": 9.981281414583693e-06,
+      "loss": 0.5298214912414551,
+      "memory(GiB)": 86.38,
+      "step": 130,
+      "token_acc": 0.840121171322787,
+      "train_speed(iter/s)": 0.033812
+    },
+    {
+      "epoch": 0.1773981603153745,
+      "grad_norm": 0.3990865647792816,
+      "learning_rate": 9.978089365816357e-06,
+      "loss": 0.5284788131713867,
+      "memory(GiB)": 86.38,
+      "step": 135,
+      "token_acc": 0.844040404040404,
+      "train_speed(iter/s)": 0.033875
+    },
+    {
+      "epoch": 0.18396846254927726,
+      "grad_norm": 0.36237913370132446,
+      "learning_rate": 9.974646737635781e-06,
+      "loss": 0.530832576751709,
+      "memory(GiB)": 86.38,
+      "step": 140,
+      "token_acc": 0.8354903823319877,
+      "train_speed(iter/s)": 0.033929
+    },
+    {
+      "epoch": 0.19053876478318002,
+      "grad_norm": 0.4100829064846039,
+      "learning_rate": 9.970953703331692e-06,
+      "loss": 0.5266030788421631,
+      "memory(GiB)": 86.38,
+      "step": 145,
+      "token_acc": 0.8457928481723842,
+      "train_speed(iter/s)": 0.033964
+    },
+    {
+      "epoch": 0.19710906701708278,
+      "grad_norm": 0.3652012050151825,
+      "learning_rate": 9.967010448798376e-06,
+      "loss": 0.5251831531524658,
+      "memory(GiB)": 86.38,
+      "step": 150,
+      "token_acc": 0.8387645380732939,
+      "train_speed(iter/s)": 0.033991
+    },
+    {
+      "epoch": 0.20367936925098554,
+      "grad_norm": 0.39163169264793396,
+      "learning_rate": 9.962817172525323e-06,
+      "loss": 0.5267560958862305,
+      "memory(GiB)": 86.38,
+      "step": 155,
+      "token_acc": 0.8567956034664975,
+      "train_speed(iter/s)": 0.03401
+    },
+    {
+      "epoch": 0.2102496714848883,
+      "grad_norm": 0.41479626297950745,
+      "learning_rate": 9.958374085587228e-06,
+      "loss": 0.519415283203125,
+      "memory(GiB)": 86.38,
+      "step": 160,
+      "token_acc": 0.8440078352228884,
+      "train_speed(iter/s)": 0.034022
+    },
+    {
+      "epoch": 0.21681997371879105,
+      "grad_norm": 0.3581003248691559,
+      "learning_rate": 9.953681411633376e-06,
+      "loss": 0.5208570480346679,
+      "memory(GiB)": 86.38,
+      "step": 165,
+      "token_acc": 0.8545801997287634,
+      "train_speed(iter/s)": 0.034026
+    },
+    {
+      "epoch": 0.2233902759526938,
+      "grad_norm": 0.44018271565437317,
+      "learning_rate": 9.948739386876376e-06,
+      "loss": 0.5224351406097412,
+      "memory(GiB)": 86.38,
+      "step": 170,
+      "token_acc": 0.8500869565217392,
+      "train_speed(iter/s)": 0.034009
+    },
+    {
+      "epoch": 0.22996057818659657,
+      "grad_norm": 0.40481236577033997,
+      "learning_rate": 9.943548260080277e-06,
+      "loss": 0.5226601600646973,
+      "memory(GiB)": 86.38,
+      "step": 175,
+      "token_acc": 0.8479028560807881,
+      "train_speed(iter/s)": 0.033953
+    },
+    {
+      "epoch": 0.23653088042049936,
+      "grad_norm": 0.3878992199897766,
+      "learning_rate": 9.938108292548044e-06,
+      "loss": 0.5180087566375733,
+      "memory(GiB)": 86.38,
+      "step": 180,
+      "token_acc": 0.8407539640869474,
+      "train_speed(iter/s)": 0.033944
+    },
+    {
+      "epoch": 0.24310118265440211,
+      "grad_norm": 0.3512628674507141,
+      "learning_rate": 9.932419758108403e-06,
+      "loss": 0.5186543464660645,
+      "memory(GiB)": 86.38,
+      "step": 185,
+      "token_acc": 0.8444778362133734,
+      "train_speed(iter/s)": 0.03394
+    },
+    {
+      "epoch": 0.24967148488830487,
+      "grad_norm": 0.4015056788921356,
+      "learning_rate": 9.92648294310206e-06,
+      "loss": 0.5142830848693848,
+      "memory(GiB)": 86.38,
+      "step": 190,
+      "token_acc": 0.8457510387614549,
+      "train_speed(iter/s)": 0.033952
+    },
+    {
+      "epoch": 0.25624178712220763,
+      "grad_norm": 0.4097774624824524,
+      "learning_rate": 9.920298146367287e-06,
+      "loss": 0.5161718368530274,
+      "memory(GiB)": 86.38,
+      "step": 195,
+      "token_acc": 0.8548741619958237,
+      "train_speed(iter/s)": 0.033951
+    },
+    {
+      "epoch": 0.2628120893561104,
+      "grad_norm": 0.3440331816673279,
+      "learning_rate": 9.913865679224876e-06,
+      "loss": 0.5165815353393555,
+      "memory(GiB)": 86.38,
+      "step": 200,
+      "token_acc": 0.8569646310273844,
+      "train_speed(iter/s)": 0.033922
+    },
+    {
+      "epoch": 0.26938239159001315,
+      "grad_norm": 0.37692517042160034,
+      "learning_rate": 9.907185865462476e-06,
+      "loss": 0.5182360649108887,
+      "memory(GiB)": 86.38,
+      "step": 205,
+      "token_acc": 0.85995085995086,
+      "train_speed(iter/s)": 0.033952
+    },
+    {
+      "epoch": 0.2759526938239159,
+      "grad_norm": 0.37486883997917175,
+      "learning_rate": 9.90025904131829e-06,
+      "loss": 0.5185696125030518,
+      "memory(GiB)": 86.38,
+      "step": 210,
+      "token_acc": 0.8403378378378379,
+      "train_speed(iter/s)": 0.033943
+    },
+    {
+      "epoch": 0.28252299605781866,
+      "grad_norm": 0.37737980484962463,
+      "learning_rate": 9.893085555464143e-06,
+      "loss": 0.5123628616333008,
+      "memory(GiB)": 86.38,
+      "step": 215,
+      "token_acc": 0.8524216190921853,
+      "train_speed(iter/s)": 0.033965
+    },
+    {
+      "epoch": 0.2890932982917214,
+      "grad_norm": 0.4532665014266968,
+      "learning_rate": 9.885665768987947e-06,
+      "loss": 0.5087783813476563,
+      "memory(GiB)": 86.38,
+      "step": 220,
+      "token_acc": 0.8544157346702661,
+      "train_speed(iter/s)": 0.033986
+    },
+    {
+      "epoch": 0.2956636005256242,
+      "grad_norm": 0.3860194683074951,
+      "learning_rate": 9.878000055375512e-06,
+      "loss": 0.5123799324035645,
+      "memory(GiB)": 86.38,
+      "step": 225,
+      "token_acc": 0.842546362339515,
+      "train_speed(iter/s)": 0.03397
+    },
+    {
+      "epoch": 0.30223390275952694,
+      "grad_norm": 0.3862650692462921,
+      "learning_rate": 9.87008880049175e-06,
+      "loss": 0.50973482131958,
+      "memory(GiB)": 86.38,
+      "step": 230,
+      "token_acc": 0.8520688830423344,
+      "train_speed(iter/s)": 0.033961
+    },
+    {
+      "epoch": 0.3088042049934297,
+      "grad_norm": 0.37506306171417236,
+      "learning_rate": 9.861932402561253e-06,
+      "loss": 0.5082354545593262,
+      "memory(GiB)": 86.38,
+      "step": 235,
+      "token_acc": 0.8468783963289458,
+      "train_speed(iter/s)": 0.033958
+    },
+    {
+      "epoch": 0.31537450722733246,
+      "grad_norm": 0.3809449076652527,
+      "learning_rate": 9.853531272148248e-06,
+      "loss": 0.5086749076843262,
+      "memory(GiB)": 86.38,
+      "step": 240,
+      "token_acc": 0.8515756420320736,
+      "train_speed(iter/s)": 0.033967
+    },
+    {
+      "epoch": 0.3219448094612352,
+      "grad_norm": 0.4132705628871918,
+      "learning_rate": 9.844885832135928e-06,
+      "loss": 0.5116987228393555,
+      "memory(GiB)": 86.38,
+      "step": 245,
+      "token_acc": 0.8335253065925876,
+      "train_speed(iter/s)": 0.033937
+    },
+    {
+      "epoch": 0.328515111695138,
+      "grad_norm": 0.4488829970359802,
+      "learning_rate": 9.83599651770517e-06,
+      "loss": 0.5052802085876464,
+      "memory(GiB)": 86.38,
+      "step": 250,
+      "token_acc": 0.8370962333743154,
+      "train_speed(iter/s)": 0.033926
+    },
+    {
+      "epoch": 0.33508541392904073,
+      "grad_norm": 0.39081957936286926,
+      "learning_rate": 9.826863776312621e-06,
+      "loss": 0.5067138671875,
+      "memory(GiB)": 86.38,
+      "step": 255,
+      "token_acc": 0.8409980116734013,
+      "train_speed(iter/s)": 0.033929
+    },
+    {
+      "epoch": 0.3416557161629435,
+      "grad_norm": 0.35503068566322327,
+      "learning_rate": 9.817488067668186e-06,
+      "loss": 0.503065824508667,
+      "memory(GiB)": 86.38,
+      "step": 260,
+      "token_acc": 0.8459525843656557,
+      "train_speed(iter/s)": 0.033938
+    },
+    {
+      "epoch": 0.34822601839684625,
+      "grad_norm": 0.36853545904159546,
+      "learning_rate": 9.807869863711878e-06,
+      "loss": 0.5073853015899659,
+      "memory(GiB)": 86.38,
+      "step": 265,
+      "token_acc": 0.8587078651685394,
+      "train_speed(iter/s)": 0.033943
+    },
+    {
+      "epoch": 0.354796320630749,
+      "grad_norm": 0.36008450388908386,
+      "learning_rate": 9.798009648590073e-06,
+      "loss": 0.5045706748962402,
+      "memory(GiB)": 86.38,
+      "step": 270,
+      "token_acc": 0.861764007597341,
+      "train_speed(iter/s)": 0.033959
+    },
+    {
+      "epoch": 0.36136662286465177,
+      "grad_norm": 0.3388707637786865,
+      "learning_rate": 9.787907918631125e-06,
+      "loss": 0.5048944473266601,
+      "memory(GiB)": 86.38,
+      "step": 275,
+      "token_acc": 0.8515256760109154,
+      "train_speed(iter/s)": 0.033951
+    },
+    {
+      "epoch": 0.3679369250985545,
+      "grad_norm": 0.36713555455207825,
+      "learning_rate": 9.777565182320396e-06,
+      "loss": 0.501971435546875,
+      "memory(GiB)": 86.38,
+      "step": 280,
+      "token_acc": 0.8557236741555861,
+      "train_speed(iter/s)": 0.033953
+    },
+    {
+      "epoch": 0.3745072273324573,
+      "grad_norm": 0.3958764970302582,
+      "learning_rate": 9.766981960274653e-06,
+      "loss": 0.5066198825836181,
+      "memory(GiB)": 86.38,
+      "step": 285,
+      "token_acc": 0.8477457935158585,
+      "train_speed(iter/s)": 0.033957
+    },
+    {
+      "epoch": 0.38107752956636004,
+      "grad_norm": 0.3786795139312744,
+      "learning_rate": 9.756158785215866e-06,
+      "loss": 0.5043275833129883,
+      "memory(GiB)": 86.38,
+      "step": 290,
+      "token_acc": 0.8627160493827161,
+      "train_speed(iter/s)": 0.033965
+    },
+    {
+      "epoch": 0.3876478318002628,
+      "grad_norm": 0.3754529058933258,
+      "learning_rate": 9.745096201944391e-06,
+      "loss": 0.5016345977783203,
+      "memory(GiB)": 86.38,
+      "step": 295,
+      "token_acc": 0.8560241897968678,
+      "train_speed(iter/s)": 0.033947
+    },
+    {
+      "epoch": 0.39421813403416556,
+      "grad_norm": 0.32459399104118347,
+      "learning_rate": 9.733794767311545e-06,
+      "loss": 0.5030747890472412,
+      "memory(GiB)": 86.38,
+      "step": 300,
+      "token_acc": 0.8558913059618383,
+      "train_speed(iter/s)": 0.033938
+    },
+    {
+      "epoch": 0.4007884362680683,
+      "grad_norm": 0.37864384055137634,
+      "learning_rate": 9.72225505019158e-06,
+      "loss": 0.5041725158691406,
+      "memory(GiB)": 86.38,
+      "step": 305,
+      "token_acc": 0.8588684699566385,
+      "train_speed(iter/s)": 0.033755
+    },
+    {
+      "epoch": 0.4073587385019711,
+      "grad_norm": 0.39976298809051514,
+      "learning_rate": 9.710477631453044e-06,
+      "loss": 0.49967308044433595,
+      "memory(GiB)": 86.38,
+      "step": 310,
+      "token_acc": 0.8473580002474941,
+      "train_speed(iter/s)": 0.033765
+    },
+    {
+      "epoch": 0.41392904073587383,
+      "grad_norm": 0.4079159200191498,
+      "learning_rate": 9.698463103929542e-06,
+      "loss": 0.5030883312225342,
+      "memory(GiB)": 86.38,
+      "step": 315,
+      "token_acc": 0.8564925878083287,
+      "train_speed(iter/s)": 0.033776
+    },
+    {
+      "epoch": 0.4204993429697766,
+      "grad_norm": 0.4643027186393738,
+      "learning_rate": 9.686212072389904e-06,
+      "loss": 0.5033651351928711,
+      "memory(GiB)": 86.38,
+      "step": 320,
+      "token_acc": 0.8536913611894386,
+      "train_speed(iter/s)": 0.033774
+    },
+    {
+      "epoch": 0.42706964520367935,
+      "grad_norm": 0.37644535303115845,
+      "learning_rate": 9.673725153507727e-06,
+      "loss": 0.4978950500488281,
+      "memory(GiB)": 86.38,
+      "step": 325,
+      "token_acc": 0.8490523718739487,
+      "train_speed(iter/s)": 0.033788
+    },
+    {
+      "epoch": 0.4336399474375821,
+      "grad_norm": 0.3504714369773865,
+      "learning_rate": 9.66100297583035e-06,
+      "loss": 0.503141212463379,
+      "memory(GiB)": 86.38,
+      "step": 330,
+      "token_acc": 0.8508279539713725,
+      "train_speed(iter/s)": 0.033789
+    },
+    {
+      "epoch": 0.44021024967148487,
+      "grad_norm": 0.3424312174320221,
+      "learning_rate": 9.6480461797472e-06,
+      "loss": 0.5007185459136962,
+      "memory(GiB)": 86.38,
+      "step": 335,
+      "token_acc": 0.8463611859838275,
+      "train_speed(iter/s)": 0.03379
+    },
+    {
+      "epoch": 0.4467805519053876,
+      "grad_norm": 0.3270646631717682,
+      "learning_rate": 9.63485541745757e-06,
+      "loss": 0.4969663143157959,
+      "memory(GiB)": 86.38,
+      "step": 340,
+      "token_acc": 0.8463258785942492,
+      "train_speed(iter/s)": 0.033791
+    },
+    {
+      "epoch": 0.4533508541392904,
+      "grad_norm": 0.3828498423099518,
+      "learning_rate": 9.62143135293779e-06,
+      "loss": 0.49769058227539065,
+      "memory(GiB)": 86.38,
+      "step": 345,
+      "token_acc": 0.8501317996645099,
+      "train_speed(iter/s)": 0.033805
+    },
+    {
+      "epoch": 0.45992115637319314,
+      "grad_norm": 0.38863444328308105,
+      "learning_rate": 9.607774661907783e-06,
+      "loss": 0.49465193748474123,
+      "memory(GiB)": 86.38,
+      "step": 350,
+      "token_acc": 0.8597788232418891,
+      "train_speed(iter/s)": 0.033787
+    },
+    {
+      "epoch": 0.4664914586070959,
+      "grad_norm": 0.34471848607063293,
+      "learning_rate": 9.593886031797081e-06,
+      "loss": 0.4969064712524414,
+      "memory(GiB)": 86.38,
+      "step": 355,
+      "token_acc": 0.8570174985804986,
+      "train_speed(iter/s)": 0.033791
+    },
+    {
+      "epoch": 0.4730617608409987,
+      "grad_norm": 0.32791054248809814,
+      "learning_rate": 9.579766161710209e-06,
+      "loss": 0.5029778480529785,
+      "memory(GiB)": 86.38,
+      "step": 360,
+      "token_acc": 0.8601830935679468,
+      "train_speed(iter/s)": 0.033798
+    },
+    {
+      "epoch": 0.47963206307490147,
+      "grad_norm": 0.3596540093421936,
+      "learning_rate": 9.565415762391485e-06,
+      "loss": 0.49364757537841797,
+      "memory(GiB)": 86.38,
+      "step": 365,
+      "token_acc": 0.8599964223958023,
+      "train_speed(iter/s)": 0.033808
+    },
+    {
+      "epoch": 0.48620236530880423,
+      "grad_norm": 0.3652913570404053,
+      "learning_rate": 9.550835556189264e-06,
+      "loss": 0.4974925994873047,
+      "memory(GiB)": 86.38,
+      "step": 370,
+      "token_acc": 0.8650134518657153,
+      "train_speed(iter/s)": 0.033823
+    },
+    {
+      "epoch": 0.492772667542707,
+      "grad_norm": 0.3590964674949646,
+      "learning_rate": 9.536026277019562e-06,
+      "loss": 0.49645166397094725,
+      "memory(GiB)": 86.38,
+      "step": 375,
+      "token_acc": 0.8576561956647734,
+      "train_speed(iter/s)": 0.033837
+    },
+    {
+      "epoch": 0.49934296977660975,
+      "grad_norm": 0.3402176797389984,
+      "learning_rate": 9.520988670329114e-06,
+      "loss": 0.4980118751525879,
+      "memory(GiB)": 86.38,
+      "step": 380,
+      "token_acc": 0.8511267926246301,
+      "train_speed(iter/s)": 0.033834
+    },
+    {
+      "epoch": 0.5059132720105125,
+      "grad_norm": 0.3765329122543335,
+      "learning_rate": 9.505723493057862e-06,
+      "loss": 0.49571590423583983,
+      "memory(GiB)": 86.38,
+      "step": 385,
+      "token_acc": 0.8535285568175701,
+      "train_speed(iter/s)": 0.033843
+    },
+    {
+      "epoch": 0.5124835742444153,
+      "grad_norm": 0.3668725788593292,
+      "learning_rate": 9.490231513600842e-06,
+      "loss": 0.4947934150695801,
+      "memory(GiB)": 86.38,
+      "step": 390,
+      "token_acc": 0.8614418845456899,
+      "train_speed(iter/s)": 0.033846
+    },
+    {
+      "epoch": 0.519053876478318,
+      "grad_norm": 0.3342001140117645,
+      "learning_rate": 9.474513511769513e-06,
+      "loss": 0.4992271900177002,
+      "memory(GiB)": 86.38,
+      "step": 395,
+      "token_acc": 0.8471820311423454,
+      "train_speed(iter/s)": 0.033854
+    },
+    {
+      "epoch": 0.5256241787122208,
+      "grad_norm": 0.3347104787826538,
+      "learning_rate": 9.458570278752501e-06,
+      "loss": 0.4942744731903076,
+      "memory(GiB)": 86.38,
+      "step": 400,
+      "token_acc": 0.8615504682622268,
+      "train_speed(iter/s)": 0.033853
+    },
+    {
+      "epoch": 0.5321944809461235,
+      "grad_norm": 0.3521013855934143,
+      "learning_rate": 9.442402617075765e-06,
+      "loss": 0.4942043304443359,
+      "memory(GiB)": 86.38,
+      "step": 405,
+      "token_acc": 0.8467462686567164,
+      "train_speed(iter/s)": 0.033851
+    },
+    {
+      "epoch": 0.5387647831800263,
+      "grad_norm": 0.35290876030921936,
+      "learning_rate": 9.426011340562222e-06,
+      "loss": 0.4902125358581543,
+      "memory(GiB)": 86.38,
+      "step": 410,
+      "token_acc": 0.8508040849865007,
+      "train_speed(iter/s)": 0.033855
+    },
+    {
+      "epoch": 0.545335085413929,
+      "grad_norm": 0.3326910436153412,
+      "learning_rate": 9.409397274290756e-06,
+      "loss": 0.4964996337890625,
+      "memory(GiB)": 86.38,
+      "step": 415,
+      "token_acc": 0.8513913558318532,
+      "train_speed(iter/s)": 0.03386
+    },
+    {
+      "epoch": 0.5519053876478318,
+      "grad_norm": 0.3406986892223358,
+      "learning_rate": 9.392561254554712e-06,
+      "loss": 0.4953129768371582,
+      "memory(GiB)": 86.38,
+      "step": 420,
+      "token_acc": 0.8444802578565673,
+      "train_speed(iter/s)": 0.03387
+    },
+    {
+      "epoch": 0.5584756898817346,
+      "grad_norm": 0.33178892731666565,
+      "learning_rate": 9.375504128819779e-06,
+      "loss": 0.4913620471954346,
+      "memory(GiB)": 86.38,
+      "step": 425,
+      "token_acc": 0.8482620320855615,
+      "train_speed(iter/s)": 0.033876
+    },
+    {
+      "epoch": 0.5650459921156373,
+      "grad_norm": 0.33092719316482544,
+      "learning_rate": 9.358226755681342e-06,
+      "loss": 0.4906820297241211,
+      "memory(GiB)": 86.38,
+      "step": 430,
+      "token_acc": 0.8481144343302991,
+      "train_speed(iter/s)": 0.033885
+    },
+    {
+      "epoch": 0.5716162943495401,
+      "grad_norm": 0.34297481179237366,
+      "learning_rate": 9.340730004821266e-06,
+      "loss": 0.49637956619262696,
+      "memory(GiB)": 86.38,
+      "step": 435,
+      "token_acc": 0.8484118291347207,
+      "train_speed(iter/s)": 0.03389
+    },
+    {
+      "epoch": 0.5781865965834428,
+      "grad_norm": 0.32844671607017517,
+      "learning_rate": 9.323014756964104e-06,
+      "loss": 0.4932809352874756,
+      "memory(GiB)": 86.38,
+      "step": 440,
+      "token_acc": 0.8545686404967842,
+      "train_speed(iter/s)": 0.03389
+    },
+    {
+      "epoch": 0.5847568988173456,
+      "grad_norm": 0.3436914086341858,
+      "learning_rate": 9.305081903832784e-06,
+      "loss": 0.49259676933288576,
+      "memory(GiB)": 86.38,
+      "step": 445,
+      "token_acc": 0.8611830312686716,
+      "train_speed(iter/s)": 0.03388
+    },
+    {
+      "epoch": 0.5913272010512484,
+      "grad_norm": 0.32494404911994934,
+      "learning_rate": 9.286932348103716e-06,
+      "loss": 0.4914635181427002,
+      "memory(GiB)": 86.38,
+      "step": 450,
+      "token_acc": 0.8426534209261336,
+      "train_speed(iter/s)": 0.033884
+    },
+    {
+      "epoch": 0.5978975032851511,
+      "grad_norm": 0.31298619508743286,
+      "learning_rate": 9.268567003361341e-06,
+      "loss": 0.49518795013427735,
+      "memory(GiB)": 86.38,
+      "step": 455,
+      "token_acc": 0.8555702841334794,
+      "train_speed(iter/s)": 0.033881
+    },
+    {
+      "epoch": 0.6044678055190539,
+      "grad_norm": 0.3161918818950653,
+      "learning_rate": 9.249986794052168e-06,
+      "loss": 0.4909826278686523,
+      "memory(GiB)": 86.38,
+      "step": 460,
+      "token_acc": 0.8514960996623588,
+      "train_speed(iter/s)": 0.033883
+    },
+    {
+      "epoch": 0.6110381077529566,
+      "grad_norm": 0.32942476868629456,
+      "learning_rate": 9.231192655438222e-06,
+      "loss": 0.49195499420166017,
+      "memory(GiB)": 86.38,
+      "step": 465,
+      "token_acc": 0.8575532549189658,
+      "train_speed(iter/s)": 0.033886
+    },
+    {
+      "epoch": 0.6176084099868594,
+      "grad_norm": 0.3199692666530609,
+      "learning_rate": 9.21218553354997e-06,
+      "loss": 0.48216657638549804,
+      "memory(GiB)": 86.38,
+      "step": 470,
+      "token_acc": 0.8621787172711987,
+      "train_speed(iter/s)": 0.033885
+    },
+    {
+      "epoch": 0.6241787122207622,
+      "grad_norm": 0.33308735489845276,
+      "learning_rate": 9.192966385138714e-06,
+      "loss": 0.49132823944091797,
+      "memory(GiB)": 86.38,
+      "step": 475,
+      "token_acc": 0.8502202643171806,
+      "train_speed(iter/s)": 0.033894
+    },
+    {
+      "epoch": 0.6307490144546649,
+      "grad_norm": 0.34672704339027405,
+      "learning_rate": 9.17353617762841e-06,
+      "loss": 0.49529352188110354,
+      "memory(GiB)": 86.38,
+      "step": 480,
+      "token_acc": 0.8439504061564771,
+      "train_speed(iter/s)": 0.033881
+    },
+    {
+      "epoch": 0.6373193166885677,
+      "grad_norm": 0.391335666179657,
+      "learning_rate": 9.153895889066988e-06,
+      "loss": 0.4896709442138672,
+      "memory(GiB)": 86.38,
+      "step": 485,
+      "token_acc": 0.8555057299451918,
+      "train_speed(iter/s)": 0.033888
+    },
+    {
+      "epoch": 0.6438896189224704,
+      "grad_norm": 0.32497450709342957,
+      "learning_rate": 9.134046508077116e-06,
+      "loss": 0.48676557540893556,
+      "memory(GiB)": 86.38,
+      "step": 490,
+      "token_acc": 0.8605180168536422,
+      "train_speed(iter/s)": 0.033894
+    },
+    {
+      "epoch": 0.6504599211563732,
+      "grad_norm": 0.3421924114227295,
+      "learning_rate": 9.113989033806434e-06,
+      "loss": 0.49125194549560547,
+      "memory(GiB)": 86.38,
+      "step": 495,
+      "token_acc": 0.8528348991524867,
+      "train_speed(iter/s)": 0.033897
+    },
+    {
+      "epoch": 0.657030223390276,
+      "grad_norm": 0.3321194350719452,
+      "learning_rate": 9.093724475877262e-06,
+      "loss": 0.4898836135864258,
+      "memory(GiB)": 86.38,
+      "step": 500,
+      "token_acc": 0.8522178943084704,
+      "train_speed(iter/s)": 0.033898
+    },
+    {
+      "epoch": 0.6636005256241787,
+      "grad_norm": 0.32021504640579224,
+      "learning_rate": 9.073253854335777e-06,
+      "loss": 0.48738608360290525,
+      "memory(GiB)": 86.38,
+      "step": 505,
+      "token_acc": 0.8417130814391088,
+      "train_speed(iter/s)": 0.033901
+    },
+    {
+      "epoch": 0.6701708278580815,
+      "grad_norm": 0.32002168893814087,
+      "learning_rate": 9.052578199600675e-06,
+      "loss": 0.49272966384887695,
+      "memory(GiB)": 86.38,
+      "step": 510,
+      "token_acc": 0.8602219376867264,
+      "train_speed(iter/s)": 0.033901
+    },
+    {
+      "epoch": 0.6767411300919842,
+      "grad_norm": 0.31045857071876526,
+      "learning_rate": 9.03169855241129e-06,
+      "loss": 0.4898507118225098,
+      "memory(GiB)": 86.38,
+      "step": 515,
+      "token_acc": 0.8575417434522812,
+      "train_speed(iter/s)": 0.033907
+    },
+    {
+      "epoch": 0.683311432325887,
+      "grad_norm": 0.3088115453720093,
+      "learning_rate": 9.01061596377522e-06,
+      "loss": 0.4901163578033447,
+      "memory(GiB)": 86.38,
+      "step": 520,
+      "token_acc": 0.8511583445793972,
+      "train_speed(iter/s)": 0.033899
+    },
+    {
+      "epoch": 0.6898817345597897,
+      "grad_norm": 0.34883564710617065,
+      "learning_rate": 8.989331494915417e-06,
+      "loss": 0.49116034507751466,
+      "memory(GiB)": 86.38,
+      "step": 525,
+      "token_acc": 0.8551282847735603,
+      "train_speed(iter/s)": 0.033901
+    },
+    {
+      "epoch": 0.6964520367936925,
+      "grad_norm": 0.32082292437553406,
+      "learning_rate": 8.967846217216771e-06,
+      "loss": 0.48834967613220215,
+      "memory(GiB)": 86.38,
+      "step": 530,
+      "token_acc": 0.8506810071870131,
+      "train_speed(iter/s)": 0.033906
+    },
+    {
+      "epoch": 0.7030223390275953,
+      "grad_norm": 0.3607739806175232,
+      "learning_rate": 8.946161212172172e-06,
+      "loss": 0.48694772720336915,
+      "memory(GiB)": 86.38,
+      "step": 535,
+      "token_acc": 0.8500481340959284,
+      "train_speed(iter/s)": 0.033908
+    },
+    {
+      "epoch": 0.709592641261498,
+      "grad_norm": 0.3413682281970978,
+      "learning_rate": 8.924277571328091e-06,
+      "loss": 0.48662757873535156,
+      "memory(GiB)": 86.38,
+      "step": 540,
+      "token_acc": 0.8603295945861269,
+      "train_speed(iter/s)": 0.033909
+    },
+    {
+      "epoch": 0.7161629434954008,
+      "grad_norm": 0.3510483503341675,
+      "learning_rate": 8.902196396229605e-06,
+      "loss": 0.48763227462768555,
+      "memory(GiB)": 86.38,
+      "step": 545,
+      "token_acc": 0.8508162458340395,
+      "train_speed(iter/s)": 0.03392
+    },
+    {
+      "epoch": 0.7227332457293035,
+      "grad_norm": 0.31174516677856445,
+      "learning_rate": 8.879918798364984e-06,
+      "loss": 0.48741979598999025,
+      "memory(GiB)": 86.38,
+      "step": 550,
+      "token_acc": 0.8652033455768465,
+      "train_speed(iter/s)": 0.033921
+    },
+    {
+      "epoch": 0.7293035479632063,
+      "grad_norm": 0.37009692192077637,
+      "learning_rate": 8.857445899109716e-06,
+      "loss": 0.48439769744873046,
+      "memory(GiB)": 86.38,
+      "step": 555,
+      "token_acc": 0.8583586264357556,
+      "train_speed(iter/s)": 0.033917
+    },
+    {
+      "epoch": 0.735873850197109,
+      "grad_norm": 0.32648202776908875,
+      "learning_rate": 8.83477882967007e-06,
+      "loss": 0.4858428955078125,
+      "memory(GiB)": 86.38,
+      "step": 560,
+      "token_acc": 0.8660503897045496,
+      "train_speed(iter/s)": 0.03392
+    },
+    {
+      "epoch": 0.7424441524310118,
+      "grad_norm": 0.3123824894428253,
+      "learning_rate": 8.81191873102616e-06,
+      "loss": 0.4876396179199219,
+      "memory(GiB)": 86.38,
+      "step": 565,
+      "token_acc": 0.8565744150136596,
+      "train_speed(iter/s)": 0.033919
+    },
+    {
+      "epoch": 0.7490144546649146,
+      "grad_norm": 0.3010823428630829,
+      "learning_rate": 8.788866753874504e-06,
+      "loss": 0.48569602966308595,
+      "memory(GiB)": 86.38,
+      "step": 570,
+      "token_acc": 0.846796506265936,
+      "train_speed(iter/s)": 0.033922
+    },
+    {
+      "epoch": 0.7555847568988173,
+      "grad_norm": 0.32120397686958313,
+      "learning_rate": 8.765624058570106e-06,
+      "loss": 0.4865298271179199,
+      "memory(GiB)": 86.38,
+      "step": 575,
+      "token_acc": 0.8490352484639431,
+      "train_speed(iter/s)": 0.033924
+    },
+    {
+      "epoch": 0.7621550591327201,
+      "grad_norm": 0.33722633123397827,
+      "learning_rate": 8.742191815068048e-06,
+      "loss": 0.4867109298706055,
+      "memory(GiB)": 86.38,
+      "step": 580,
+      "token_acc": 0.8612191958495461,
+      "train_speed(iter/s)": 0.033917
+    },
+    {
+      "epoch": 0.7687253613666228,
+      "grad_norm": 0.32410791516304016,
+      "learning_rate": 8.718571202864598e-06,
+      "loss": 0.4851318359375,
+      "memory(GiB)": 86.38,
+      "step": 585,
+      "token_acc": 0.8603109706993743,
+      "train_speed(iter/s)": 0.033921
+    },
+    {
+      "epoch": 0.7752956636005256,
+      "grad_norm": 0.326885461807251,
+      "learning_rate": 8.69476341093784e-06,
+      "loss": 0.4805999755859375,
+      "memory(GiB)": 86.38,
+      "step": 590,
+      "token_acc": 0.8454463103616473,
+      "train_speed(iter/s)": 0.033929
+    },
+    {
+      "epoch": 0.7818659658344284,
+      "grad_norm": 0.3168047070503235,
+      "learning_rate": 8.67076963768782e-06,
+      "loss": 0.48687124252319336,
+      "memory(GiB)": 86.38,
+      "step": 595,
+      "token_acc": 0.8451851851851852,
+      "train_speed(iter/s)": 0.033931
+    },
+    {
+      "epoch": 0.7884362680683311,
+      "grad_norm": 0.3170868456363678,
+      "learning_rate": 8.646591090876225e-06,
+      "loss": 0.48125357627868653,
+      "memory(GiB)": 86.38,
+      "step": 600,
+      "token_acc": 0.8502272038776129,
+      "train_speed(iter/s)": 0.033925
+    },
+    {
+      "epoch": 0.7950065703022339,
+      "grad_norm": 0.3512137532234192,
+      "learning_rate": 8.622228987565597e-06,
+      "loss": 0.48726634979248046,
+      "memory(GiB)": 86.38,
+      "step": 605,
+      "token_acc": 0.8433869839048286,
+      "train_speed(iter/s)": 0.033836
+    },
+    {
+      "epoch": 0.8015768725361366,
+      "grad_norm": 0.34979116916656494,
+      "learning_rate": 8.597684554058053e-06,
+      "loss": 0.4839656829833984,
+      "memory(GiB)": 86.38,
+      "step": 610,
+      "token_acc": 0.8488303749853062,
+      "train_speed(iter/s)": 0.033836
+    },
+    {
+      "epoch": 0.8081471747700394,
+      "grad_norm": 0.33397239446640015,
+      "learning_rate": 8.572959025833573e-06,
+      "loss": 0.4833966255187988,
+      "memory(GiB)": 86.38,
+      "step": 615,
+      "token_acc": 0.8552229366501528,
+      "train_speed(iter/s)": 0.03383
+    },
+    {
+      "epoch": 0.8147174770039421,
+      "grad_norm": 0.31006062030792236,
+      "learning_rate": 8.548053647487808e-06,
+      "loss": 0.4889863967895508,
+      "memory(GiB)": 86.38,
+      "step": 620,
+      "token_acc": 0.8452540855160062,
+      "train_speed(iter/s)": 0.033832
+    },
+    {
+      "epoch": 0.8212877792378449,
+      "grad_norm": 0.3102535307407379,
+      "learning_rate": 8.522969672669419e-06,
+      "loss": 0.48553314208984377,
+      "memory(GiB)": 86.38,
+      "step": 625,
+      "token_acc": 0.8545072273324573,
+      "train_speed(iter/s)": 0.033831
+    },
+    {
+      "epoch": 0.8278580814717477,
+      "grad_norm": 0.3058727979660034,
+      "learning_rate": 8.49770836401699e-06,
+      "loss": 0.47721147537231445,
+      "memory(GiB)": 86.38,
+      "step": 630,
+      "token_acc": 0.8590224444841341,
+      "train_speed(iter/s)": 0.033834
+    },
+    {
+      "epoch": 0.8344283837056504,
+      "grad_norm": 0.3120846152305603,
+      "learning_rate": 8.47227099309546e-06,
+      "loss": 0.48225932121276854,
+      "memory(GiB)": 86.38,
+      "step": 635,
+      "token_acc": 0.854253918870408,
+      "train_speed(iter/s)": 0.033836
+    },
+    {
+      "epoch": 0.8409986859395532,
+      "grad_norm": 0.3198888301849365,
+      "learning_rate": 8.446658840332115e-06,
+      "loss": 0.4882974624633789,
+      "memory(GiB)": 86.38,
+      "step": 640,
+      "token_acc": 0.8472647079746746,
+      "train_speed(iter/s)": 0.033841
+    },
+    {
+      "epoch": 0.8475689881734559,
+      "grad_norm": 0.3015914857387543,
+      "learning_rate": 8.420873194952153e-06,
+      "loss": 0.483825159072876,
+      "memory(GiB)": 86.38,
+      "step": 645,
+      "token_acc": 0.8493750329623965,
+      "train_speed(iter/s)": 0.033848
+    },
+    {
+      "epoch": 0.8541392904073587,
+      "grad_norm": 0.33040115237236023,
+      "learning_rate": 8.394915354913763e-06,
+      "loss": 0.48243865966796873,
+      "memory(GiB)": 86.38,
+      "step": 650,
+      "token_acc": 0.8504132231404958,
+      "train_speed(iter/s)": 0.033849
+    },
+    {
+      "epoch": 0.8607095926412615,
+      "grad_norm": 0.3229842782020569,
+      "learning_rate": 8.368786626842815e-06,
+      "loss": 0.4843127250671387,
+      "memory(GiB)": 86.38,
+      "step": 655,
+      "token_acc": 0.8529356357927786,
+      "train_speed(iter/s)": 0.033853
+    },
+    {
+      "epoch": 0.8672798948751642,
+      "grad_norm": 0.31925421953201294,
+      "learning_rate": 8.342488325967068e-06,
+      "loss": 0.48301048278808595,
+      "memory(GiB)": 86.38,
+      "step": 660,
+      "token_acc": 0.8582582960770733,
+      "train_speed(iter/s)": 0.033854
+    },
+    {
+      "epoch": 0.873850197109067,
+      "grad_norm": 0.30799737572669983,
+      "learning_rate": 8.31602177604999e-06,
+      "loss": 0.48166284561157224,
+      "memory(GiB)": 86.38,
+      "step": 665,
+      "token_acc": 0.8686445412895295,
+      "train_speed(iter/s)": 0.033865
+    },
+    {
+      "epoch": 0.8804204993429697,
+      "grad_norm": 0.31392061710357666,
+      "learning_rate": 8.289388309324094e-06,
+      "loss": 0.483530855178833,
+      "memory(GiB)": 86.38,
+      "step": 670,
+      "token_acc": 0.8583989950896426,
+      "train_speed(iter/s)": 0.033868
+    },
+    {
+      "epoch": 0.8869908015768725,
+      "grad_norm": 0.33349302411079407,
+      "learning_rate": 8.262589266423908e-06,
+      "loss": 0.48435115814208984,
+      "memory(GiB)": 86.38,
+      "step": 675,
+      "token_acc": 0.8416313213703099,
+      "train_speed(iter/s)": 0.033874
+    },
+    {
+      "epoch": 0.8935611038107752,
+      "grad_norm": 0.3091382086277008,
+      "learning_rate": 8.235625996318475e-06,
+      "loss": 0.4799081802368164,
+      "memory(GiB)": 86.38,
+      "step": 680,
+      "token_acc": 0.8609777777777777,
+      "train_speed(iter/s)": 0.033877
+    },
+    {
+      "epoch": 0.900131406044678,
+      "grad_norm": 0.3427553176879883,
+      "learning_rate": 8.208499856243453e-06,
+      "loss": 0.48143601417541504,
+      "memory(GiB)": 86.38,
+      "step": 685,
+      "token_acc": 0.8536925941249482,
+      "train_speed(iter/s)": 0.033876
+    },
+    {
+      "epoch": 0.9067017082785808,
+      "grad_norm": 0.3548396825790405,
+      "learning_rate": 8.1812122116328e-06,
+      "loss": 0.48082866668701174,
+      "memory(GiB)": 86.38,
+      "step": 690,
+      "token_acc": 0.8531232091690545,
+      "train_speed(iter/s)": 0.033877
+    },
+    {
+      "epoch": 0.9132720105124835,
+      "grad_norm": 0.3253563940525055,
+      "learning_rate": 8.15376443605004e-06,
+      "loss": 0.4795668601989746,
+      "memory(GiB)": 86.38,
+      "step": 695,
+      "token_acc": 0.853655830467103,
+      "train_speed(iter/s)": 0.033883
+    },
+    {
+      "epoch": 0.9198423127463863,
+      "grad_norm": 0.2970241606235504,
+      "learning_rate": 8.126157911119124e-06,
+      "loss": 0.479010009765625,
+      "memory(GiB)": 86.38,
+      "step": 700,
+      "token_acc": 0.859375,
+      "train_speed(iter/s)": 0.033891
+    },
+    {
+      "epoch": 0.926412614980289,
+      "grad_norm": 0.3558485805988312,
+      "learning_rate": 8.098394026454886e-06,
+      "loss": 0.4783782482147217,
+      "memory(GiB)": 86.38,
+      "step": 705,
+      "token_acc": 0.8596869328493648,
+      "train_speed(iter/s)": 0.033894
+    },
+    {
+      "epoch": 0.9329829172141918,
+      "grad_norm": 0.3010825514793396,
+      "learning_rate": 8.070474179593088e-06,
+      "loss": 0.47974371910095215,
+      "memory(GiB)": 86.38,
+      "step": 710,
+      "token_acc": 0.8615735767991407,
+      "train_speed(iter/s)": 0.033899
+    },
+    {
+      "epoch": 0.9395532194480947,
+      "grad_norm": 0.31274092197418213,
+      "learning_rate": 8.042399775920084e-06,
+      "loss": 0.48296613693237306,
+      "memory(GiB)": 86.38,
+      "step": 715,
+      "token_acc": 0.8443671593590858,
+      "train_speed(iter/s)": 0.033904
+    },
+    {
+      "epoch": 0.9461235216819974,
+      "grad_norm": 0.30195385217666626,
+      "learning_rate": 8.014172228602063e-06,
+      "loss": 0.48566722869873047,
+      "memory(GiB)": 86.38,
+      "step": 720,
+      "token_acc": 0.8442668136714443,
+      "train_speed(iter/s)": 0.033907
+    },
+    {
+      "epoch": 0.9526938239159002,
+      "grad_norm": 0.29728612303733826,
+      "learning_rate": 7.985792958513932e-06,
+      "loss": 0.4842525005340576,
+      "memory(GiB)": 86.38,
+      "step": 725,
+      "token_acc": 0.8693410760843802,
+      "train_speed(iter/s)": 0.03391
+    },
+    {
+      "epoch": 0.9592641261498029,
+      "grad_norm": 0.3458816707134247,
+      "learning_rate": 7.957263394167778e-06,
+      "loss": 0.47885870933532715,
+      "memory(GiB)": 86.38,
+      "step": 730,
+      "token_acc": 0.8596500419111484,
+      "train_speed(iter/s)": 0.033899
+    },
+    {
+      "epoch": 0.9658344283837057,
+      "grad_norm": 0.3230541944503784,
+      "learning_rate": 7.928584971640974e-06,
+      "loss": 0.4798708915710449,
+      "memory(GiB)": 86.38,
+      "step": 735,
+      "token_acc": 0.8699983578739942,
+      "train_speed(iter/s)": 0.033899
+    },
+    {
+      "epoch": 0.9724047306176085,
+      "grad_norm": 0.3110128939151764,
+      "learning_rate": 7.899759134503888e-06,
+      "loss": 0.4790318489074707,
+      "memory(GiB)": 86.38,
+      "step": 740,
+      "token_acc": 0.8630462405391968,
+      "train_speed(iter/s)": 0.033907
+    },
+    {
+      "epoch": 0.9789750328515112,
+      "grad_norm": 0.3367188274860382,
+      "learning_rate": 7.870787333747216e-06,
+      "loss": 0.47907276153564454,
+      "memory(GiB)": 86.38,
+      "step": 745,
+      "token_acc": 0.8586263243898582,
+      "train_speed(iter/s)": 0.03391
+    },
+    {
+      "epoch": 0.985545335085414,
+      "grad_norm": 0.3082112967967987,
+      "learning_rate": 7.841671027708945e-06,
+      "loss": 0.481706428527832,
+      "memory(GiB)": 86.38,
+      "step": 750,
+      "token_acc": 0.8511583011583012,
+      "train_speed(iter/s)": 0.033906
+    },
+    {
+      "epoch": 0.9921156373193167,
+      "grad_norm": 0.332453191280365,
+      "learning_rate": 7.81241168200095e-06,
+      "loss": 0.4739673137664795,
+      "memory(GiB)": 86.38,
+      "step": 755,
+      "token_acc": 0.8551256316190212,
+      "train_speed(iter/s)": 0.033908
+    },
+    {
+      "epoch": 0.9986859395532195,
+      "grad_norm": 0.28533536195755005,
+      "learning_rate": 7.783010769435216e-06,
+      "loss": 0.4861409664154053,
+      "memory(GiB)": 86.38,
+      "step": 760,
+      "token_acc": 0.8556530110172211,
+      "train_speed(iter/s)": 0.033911
+    },
+    {
+      "epoch": 1.0052562417871223,
+      "grad_norm": 0.33001649379730225,
+      "learning_rate": 7.753469769949701e-06,
+      "loss": 0.46169567108154297,
+      "memory(GiB)": 86.38,
+      "step": 765,
+      "token_acc": 0.8602941176470589,
+      "train_speed(iter/s)": 0.033926
+    },
+    {
+      "epoch": 1.011826544021025,
+      "grad_norm": 0.305500328540802,
+      "learning_rate": 7.723790170533848e-06,
+      "loss": 0.46022186279296873,
+      "memory(GiB)": 86.38,
+      "step": 770,
+      "token_acc": 0.8599308445173768,
+      "train_speed(iter/s)": 0.033928
+    },
+    {
+      "epoch": 1.0183968462549278,
+      "grad_norm": 0.2889300584793091,
+      "learning_rate": 7.693973465153724e-06,
+      "loss": 0.46282401084899905,
+      "memory(GiB)": 86.38,
+      "step": 775,
+      "token_acc": 0.862350683914093,
+      "train_speed(iter/s)": 0.03393
+    },
+    {
+      "epoch": 1.0249671484888305,
+      "grad_norm": 0.33990442752838135,
+      "learning_rate": 7.664021154676828e-06,
+      "loss": 0.4604497909545898,
+      "memory(GiB)": 86.38,
+      "step": 780,
+      "token_acc": 0.8684050268504678,
+      "train_speed(iter/s)": 0.033928
+    },
+    {
+      "epoch": 1.0315374507227333,
+      "grad_norm": 0.31965604424476624,
+      "learning_rate": 7.633934746796545e-06,
+      "loss": 0.46096210479736327,
+      "memory(GiB)": 86.38,
+      "step": 785,
+      "token_acc": 0.8674027168912702,
+      "train_speed(iter/s)": 0.033927
+    },
+    {
+      "epoch": 1.038107752956636,
+      "grad_norm": 0.32439425587654114,
+      "learning_rate": 7.603715755956243e-06,
+      "loss": 0.45728340148925783,
+      "memory(GiB)": 86.38,
+      "step": 790,
+      "token_acc": 0.8674415479709755,
+      "train_speed(iter/s)": 0.033927
+    },
+    {
+      "epoch": 1.0446780551905388,
+      "grad_norm": 0.3270528018474579,
+      "learning_rate": 7.573365703273045e-06,
+      "loss": 0.46488609313964846,
+      "memory(GiB)": 86.38,
+      "step": 795,
+      "token_acc": 0.850026525198939,
+      "train_speed(iter/s)": 0.033931
+    },
+    {
+      "epoch": 1.0512483574244416,
+      "grad_norm": 0.2934127748012543,
+      "learning_rate": 7.542886116461272e-06,
+      "loss": 0.45778141021728513,
+      "memory(GiB)": 86.38,
+      "step": 800,
+      "token_acc": 0.8622505823964347,
+      "train_speed(iter/s)": 0.033934
+    },
+    {
+      "epoch": 1.0578186596583443,
+      "grad_norm": 0.31371569633483887,
+      "learning_rate": 7.512278529755529e-06,
+      "loss": 0.45838513374328616,
+      "memory(GiB)": 86.38,
+      "step": 805,
+      "token_acc": 0.8530397056400681,
+      "train_speed(iter/s)": 0.033931
+    },
+    {
+      "epoch": 1.064388961892247,
+      "grad_norm": 0.2872871160507202,
+      "learning_rate": 7.481544483833485e-06,
+      "loss": 0.4574404239654541,
+      "memory(GiB)": 86.38,
+      "step": 810,
+      "token_acc": 0.8523446658851114,
+      "train_speed(iter/s)": 0.033933
+    },
+    {
+      "epoch": 1.0709592641261498,
+      "grad_norm": 0.2994791865348816,
+      "learning_rate": 7.450685525738315e-06,
+      "loss": 0.45713510513305666,
+      "memory(GiB)": 86.38,
+      "step": 815,
+      "token_acc": 0.8546161825726141,
+      "train_speed(iter/s)": 0.033938
+    },
+    {
+      "epoch": 1.0775295663600526,
+      "grad_norm": 0.29632824659347534,
+      "learning_rate": 7.419703208800839e-06,
+      "loss": 0.45964574813842773,
+      "memory(GiB)": 86.38,
+      "step": 820,
+      "token_acc": 0.8663826261908989,
+      "train_speed(iter/s)": 0.033941
+    },
+    {
+      "epoch": 1.0840998685939554,
+      "grad_norm": 0.30519089102745056,
+      "learning_rate": 7.388599092561315e-06,
+      "loss": 0.4573044776916504,
+      "memory(GiB)": 86.38,
+      "step": 825,
+      "token_acc": 0.8629596640793994,
+      "train_speed(iter/s)": 0.033938
+    },
+    {
+      "epoch": 1.090670170827858,
+      "grad_norm": 0.29544419050216675,
+      "learning_rate": 7.357374742690956e-06,
+      "loss": 0.45876827239990237,
+      "memory(GiB)": 86.38,
+      "step": 830,
+      "token_acc": 0.8560570320280967,
+      "train_speed(iter/s)": 0.033938
+    },
+    {
+      "epoch": 1.0972404730617609,
+      "grad_norm": 0.3168863356113434,
+      "learning_rate": 7.326031730913107e-06,
+      "loss": 0.4636601448059082,
+      "memory(GiB)": 86.38,
+      "step": 835,
+      "token_acc": 0.8670317181527017,
+      "train_speed(iter/s)": 0.033943
+    },
+    {
+      "epoch": 1.1038107752956636,
+      "grad_norm": 0.30908459424972534,
+      "learning_rate": 7.2945716349241305e-06,
+      "loss": 0.4574262619018555,
+      "memory(GiB)": 86.38,
+      "step": 840,
+      "token_acc": 0.8620744343412984,
+      "train_speed(iter/s)": 0.03394
+    },
+    {
+      "epoch": 1.1103810775295664,
+      "grad_norm": 0.3176266551017761,
+      "learning_rate": 7.262996038314001e-06,
+      "loss": 0.461370849609375,
+      "memory(GiB)": 86.38,
+      "step": 845,
+      "token_acc": 0.8680333119795003,
+      "train_speed(iter/s)": 0.033941
+    },
+    {
+      "epoch": 1.1169513797634691,
+      "grad_norm": 0.302416056394577,
+      "learning_rate": 7.231306530486579e-06,
+      "loss": 0.45732645988464354,
+      "memory(GiB)": 86.38,
+      "step": 850,
+      "token_acc": 0.8647487633428794,
+      "train_speed(iter/s)": 0.033935
+    },
+    {
+      "epoch": 1.123521681997372,
+      "grad_norm": 0.30254605412483215,
+      "learning_rate": 7.199504706579617e-06,
+      "loss": 0.46079111099243164,
+      "memory(GiB)": 86.38,
+      "step": 855,
+      "token_acc": 0.8521696665271383,
+      "train_speed(iter/s)": 0.033936
+    },
+    {
+      "epoch": 1.1300919842312747,
+      "grad_norm": 0.29616811871528625,
+      "learning_rate": 7.167592167384461e-06,
+      "loss": 0.45458307266235354,
+      "memory(GiB)": 86.38,
+      "step": 860,
+      "token_acc": 0.8740381023533806,
+      "train_speed(iter/s)": 0.033936
+    },
+    {
+      "epoch": 1.1366622864651774,
+      "grad_norm": 0.2893197238445282,
+      "learning_rate": 7.135570519265473e-06,
+      "loss": 0.4566815853118896,
+      "memory(GiB)": 86.38,
+      "step": 865,
+      "token_acc": 0.8525364274150027,
+      "train_speed(iter/s)": 0.033926
+    },
+    {
+      "epoch": 1.1432325886990802,
+      "grad_norm": 0.30079302191734314,
+      "learning_rate": 7.1034413740791705e-06,
+      "loss": 0.4587052345275879,
+      "memory(GiB)": 86.38,
+      "step": 870,
+      "token_acc": 0.8628954358850519,
+      "train_speed(iter/s)": 0.033926
+    },
+    {
+      "epoch": 1.149802890932983,
+      "grad_norm": 0.3086967170238495,
+      "learning_rate": 7.071206349093097e-06,
+      "loss": 0.45635190010070803,
+      "memory(GiB)": 86.38,
+      "step": 875,
+      "token_acc": 0.859285550721319,
+      "train_speed(iter/s)": 0.033929
+    },
+    {
+      "epoch": 1.1563731931668857,
+      "grad_norm": 0.3067159354686737,
+      "learning_rate": 7.038867066904407e-06,
+      "loss": 0.45715036392211916,
+      "memory(GiB)": 86.38,
+      "step": 880,
+      "token_acc": 0.8618468146027202,
+      "train_speed(iter/s)": 0.033924
+    },
+    {
+      "epoch": 1.1629434954007885,
+      "grad_norm": 0.28498393297195435,
+      "learning_rate": 7.006425155358195e-06,
+      "loss": 0.4554757118225098,
+      "memory(GiB)": 86.38,
+      "step": 885,
+      "token_acc": 0.8687036756920284,
+      "train_speed(iter/s)": 0.033921
+    },
+    {
+      "epoch": 1.1695137976346912,
+      "grad_norm": 0.2907336950302124,
+      "learning_rate": 6.9738822474655555e-06,
+      "loss": 0.45355930328369143,
+      "memory(GiB)": 86.38,
+      "step": 890,
+      "token_acc": 0.8599979554283378,
+      "train_speed(iter/s)": 0.033924
+    },
+    {
+      "epoch": 1.176084099868594,
+      "grad_norm": 0.29509079456329346,
+      "learning_rate": 6.941239981321379e-06,
+      "loss": 0.45787954330444336,
+      "memory(GiB)": 86.38,
+      "step": 895,
+      "token_acc": 0.8733064370446197,
+      "train_speed(iter/s)": 0.033929
+    },
+    {
+      "epoch": 1.1826544021024967,
+      "grad_norm": 0.2977595031261444,
+      "learning_rate": 6.908500000021905e-06,
+      "loss": 0.456469202041626,
+      "memory(GiB)": 86.38,
+      "step": 900,
+      "token_acc": 0.8686904761904762,
+      "train_speed(iter/s)": 0.03393
+    },
+    {
+      "epoch": 1.1892247043363995,
+      "grad_norm": 0.28251177072525024,
+      "learning_rate": 6.875663951582e-06,
+      "loss": 0.45859241485595703,
+      "memory(GiB)": 86.38,
+      "step": 905,
+      "token_acc": 0.8703482454975884,
+      "train_speed(iter/s)": 0.033871
+    },
+    {
+      "epoch": 1.1957950065703022,
+      "grad_norm": 0.30164870619773865,
+      "learning_rate": 6.842733488852218e-06,
+      "loss": 0.45961766242980956,
+      "memory(GiB)": 86.38,
+      "step": 910,
+      "token_acc": 0.8695999018163967,
+      "train_speed(iter/s)": 0.033871
+    },
+    {
+      "epoch": 1.202365308804205,
+      "grad_norm": 0.2958962023258209,
+      "learning_rate": 6.80971026943559e-06,
+      "loss": 0.45937299728393555,
+      "memory(GiB)": 86.38,
+      "step": 915,
+      "token_acc": 0.8646010935387148,
+      "train_speed(iter/s)": 0.033864
+    },
+    {
+      "epoch": 1.2089356110381078,
+      "grad_norm": 0.305772989988327,
+      "learning_rate": 6.776595955604192e-06,
+      "loss": 0.4570772171020508,
+      "memory(GiB)": 86.38,
+      "step": 920,
+      "token_acc": 0.861623201438849,
+      "train_speed(iter/s)": 0.033866
+    },
+    {
+      "epoch": 1.2155059132720105,
+      "grad_norm": 0.29926493763923645,
+      "learning_rate": 6.743392214215473e-06,
+      "loss": 0.45430717468261717,
+      "memory(GiB)": 86.38,
+      "step": 925,
+      "token_acc": 0.8663976363767385,
+      "train_speed(iter/s)": 0.033865
+    },
+    {
+      "epoch": 1.2220762155059133,
+      "grad_norm": 0.3044881522655487,
+      "learning_rate": 6.710100716628345e-06,
+      "loss": 0.455517578125,
+      "memory(GiB)": 86.38,
+      "step": 930,
+      "token_acc": 0.8511478910838227,
+      "train_speed(iter/s)": 0.033863
+    },
+    {
+      "epoch": 1.228646517739816,
+      "grad_norm": 0.3772009313106537,
+      "learning_rate": 6.676723138619056e-06,
+      "loss": 0.46090059280395507,
+      "memory(GiB)": 86.38,
+      "step": 935,
+      "token_acc": 0.8711496746203905,
+      "train_speed(iter/s)": 0.033858
+    },
+    {
+      "epoch": 1.2352168199737188,
+      "grad_norm": 0.29388174414634705,
+      "learning_rate": 6.6432611602968445e-06,
+      "loss": 0.456877326965332,
+      "memory(GiB)": 86.38,
+      "step": 940,
+      "token_acc": 0.8651419558359621,
+      "train_speed(iter/s)": 0.03386
+    },
+    {
+      "epoch": 1.2417871222076216,
+      "grad_norm": 0.29652050137519836,
+      "learning_rate": 6.609716466019356e-06,
+      "loss": 0.45618433952331544,
+      "memory(GiB)": 86.38,
+      "step": 945,
+      "token_acc": 0.8603668915085418,
+      "train_speed(iter/s)": 0.033859
+    },
+    {
+      "epoch": 1.2483574244415243,
+      "grad_norm": 0.28154268860816956,
+      "learning_rate": 6.576090744307866e-06,
+      "loss": 0.45843868255615233,
+      "memory(GiB)": 86.38,
+      "step": 950,
+      "token_acc": 0.8659341793046529,
+      "train_speed(iter/s)": 0.033861
+    },
+    {
+      "epoch": 1.254927726675427,
+      "grad_norm": 0.284541517496109,
+      "learning_rate": 6.542385687762287e-06,
+      "loss": 0.4614737033843994,
+      "memory(GiB)": 86.38,
+      "step": 955,
+      "token_acc": 0.8557089929269114,
+      "train_speed(iter/s)": 0.033856
+    },
+    {
+      "epoch": 1.2614980289093298,
+      "grad_norm": 0.2883804142475128,
+      "learning_rate": 6.508602992975963e-06,
+      "loss": 0.4575353622436523,
+      "memory(GiB)": 86.38,
+      "step": 960,
+      "token_acc": 0.862012703222423,
+      "train_speed(iter/s)": 0.03385
+    },
+    {
+      "epoch": 1.2680683311432326,
+      "grad_norm": 0.2853713035583496,
+      "learning_rate": 6.474744360450274e-06,
+      "loss": 0.4590480804443359,
+      "memory(GiB)": 86.38,
+      "step": 965,
+      "token_acc": 0.8613731343283582,
+      "train_speed(iter/s)": 0.033851
+    },
+    {
+      "epoch": 1.2746386333771353,
+      "grad_norm": 0.2936136722564697,
+      "learning_rate": 6.44081149450904e-06,
+      "loss": 0.45726985931396485,
+      "memory(GiB)": 86.38,
+      "step": 970,
+      "token_acc": 0.8545799374647599,
+      "train_speed(iter/s)": 0.033849
+    },
+    {
+      "epoch": 1.281208935611038,
+      "grad_norm": 0.31412455439567566,
+      "learning_rate": 6.406806103212725e-06,
+      "loss": 0.45641331672668456,
+      "memory(GiB)": 86.38,
+      "step": 975,
+      "token_acc": 0.8715530697190427,
+      "train_speed(iter/s)": 0.033845
+    },
+    {
+      "epoch": 1.2877792378449409,
+      "grad_norm": 0.31974250078201294,
+      "learning_rate": 6.372729898272463e-06,
+      "loss": 0.46121625900268554,
+      "memory(GiB)": 86.38,
+      "step": 980,
+      "token_acc": 0.8484265561803295,
+      "train_speed(iter/s)": 0.033852
+    },
+    {
+      "epoch": 1.2943495400788436,
+      "grad_norm": 0.29389360547065735,
+      "learning_rate": 6.338584594963898e-06,
+      "loss": 0.4556922435760498,
+      "memory(GiB)": 86.38,
+      "step": 985,
+      "token_acc": 0.8639753820476712,
+      "train_speed(iter/s)": 0.033848
+    },
+    {
+      "epoch": 1.3009198423127464,
+      "grad_norm": 0.30771321058273315,
+      "learning_rate": 6.30437191204084e-06,
+      "loss": 0.46083745956420896,
+      "memory(GiB)": 86.38,
+      "step": 990,
+      "token_acc": 0.8666952159549737,
+      "train_speed(iter/s)": 0.033849
+    },
+    {
+      "epoch": 1.3074901445466491,
+      "grad_norm": 0.29386404156684875,
+      "learning_rate": 6.270093571648752e-06,
+      "loss": 0.45865530967712403,
+      "memory(GiB)": 86.38,
+      "step": 995,
+      "token_acc": 0.8546142578125,
+      "train_speed(iter/s)": 0.033849
+    },
+    {
+      "epoch": 1.314060446780552,
+      "grad_norm": 0.2929444909095764,
+      "learning_rate": 6.23575129923806e-06,
+      "loss": 0.45972671508789065,
+      "memory(GiB)": 86.38,
+      "step": 1000,
+      "token_acc": 0.8530415342981528,
+      "train_speed(iter/s)": 0.033851
+    },
+    {
+      "epoch": 1.3206307490144547,
+      "grad_norm": 0.2973506450653076,
+      "learning_rate": 6.2013468234773034e-06,
+      "loss": 0.45803632736206057,
+      "memory(GiB)": 86.38,
+      "step": 1005,
+      "token_acc": 0.857928142355208,
+      "train_speed(iter/s)": 0.033853
+    },
+    {
+      "epoch": 1.3272010512483574,
+      "grad_norm": 0.30529940128326416,
+      "learning_rate": 6.166881876166119e-06,
+      "loss": 0.4576756000518799,
+      "memory(GiB)": 86.38,
+      "step": 1010,
+      "token_acc": 0.8755669493196608,
+      "train_speed(iter/s)": 0.03385
+    },
+    {
+      "epoch": 1.3337713534822602,
+      "grad_norm": 0.293550968170166,
+      "learning_rate": 6.132358192148065e-06,
+      "loss": 0.4561765670776367,
+      "memory(GiB)": 86.38,
+      "step": 1015,
+      "token_acc": 0.8672781599610868,
+      "train_speed(iter/s)": 0.033849
+    },
+    {
+      "epoch": 1.340341655716163,
+      "grad_norm": 0.29839423298835754,
+      "learning_rate": 6.097777509223299e-06,
+      "loss": 0.455903148651123,
+      "memory(GiB)": 86.38,
+      "step": 1020,
+      "token_acc": 0.8684119278779473,
+      "train_speed(iter/s)": 0.033847
+    },
+    {
+      "epoch": 1.3469119579500657,
+      "grad_norm": 0.3058245778083801,
+      "learning_rate": 6.063141568061104e-06,
+      "loss": 0.4578727722167969,
+      "memory(GiB)": 86.38,
+      "step": 1025,
+      "token_acc": 0.8626132709733996,
+      "train_speed(iter/s)": 0.033852
+    },
+    {
+      "epoch": 1.3534822601839684,
+      "grad_norm": 0.2938694357872009,
+      "learning_rate": 6.02845211211226e-06,
+      "loss": 0.45619792938232423,
+      "memory(GiB)": 86.38,
+      "step": 1030,
+      "token_acc": 0.864321608040201,
+      "train_speed(iter/s)": 0.033855
+    },
+    {
+      "epoch": 1.3600525624178712,
+      "grad_norm": 0.33827096223831177,
+      "learning_rate": 5.993710887521302e-06,
+      "loss": 0.45999650955200194,
+      "memory(GiB)": 86.38,
+      "step": 1035,
+      "token_acc": 0.8575886524822695,
+      "train_speed(iter/s)": 0.033856
+    },
+    {
+      "epoch": 1.366622864651774,
+      "grad_norm": 0.2824879586696625,
+      "learning_rate": 5.958919643038609e-06,
+      "loss": 0.45719089508056643,
+      "memory(GiB)": 86.38,
+      "step": 1040,
+      "token_acc": 0.8549390889830508,
+      "train_speed(iter/s)": 0.033856
+    },
+    {
+      "epoch": 1.3731931668856767,
+      "grad_norm": 0.2904459238052368,
+      "learning_rate": 5.924080129932386e-06,
+      "loss": 0.4534614562988281,
+      "memory(GiB)": 86.38,
+      "step": 1045,
+      "token_acc": 0.8642217245240762,
+      "train_speed(iter/s)": 0.033848
+    },
+    {
+      "epoch": 1.3797634691195795,
+      "grad_norm": 0.31164076924324036,
+      "learning_rate": 5.8891941019005095e-06,
+      "loss": 0.4557456970214844,
+      "memory(GiB)": 86.38,
+      "step": 1050,
+      "token_acc": 0.8531942479962282,
+      "train_speed(iter/s)": 0.033847
+    },
+    {
+      "epoch": 1.3863337713534822,
+      "grad_norm": 0.2827838063240051,
+      "learning_rate": 5.854263314982252e-06,
+      "loss": 0.4562164306640625,
+      "memory(GiB)": 86.38,
+      "step": 1055,
+      "token_acc": 0.8564340588988476,
+      "train_speed(iter/s)": 0.033846
+    },
+    {
+      "epoch": 1.392904073587385,
+      "grad_norm": 0.29443469643592834,
+      "learning_rate": 5.819289527469897e-06,
+      "loss": 0.45438013076782224,
+      "memory(GiB)": 86.38,
+      "step": 1060,
+      "token_acc": 0.8631507279773751,
+      "train_speed(iter/s)": 0.033851
+    },
+    {
+      "epoch": 1.3994743758212878,
+      "grad_norm": 0.2858130633831024,
+      "learning_rate": 5.784274499820214e-06,
+      "loss": 0.45337843894958496,
+      "memory(GiB)": 86.38,
+      "step": 1065,
+      "token_acc": 0.8435270132517839,
+      "train_speed(iter/s)": 0.033852
+    },
+    {
+      "epoch": 1.4060446780551905,
+      "grad_norm": 0.2949610650539398,
+      "learning_rate": 5.749219994565863e-06,
+      "loss": 0.4539140224456787,
+      "memory(GiB)": 86.38,
+      "step": 1070,
+      "token_acc": 0.8618331826401446,
+      "train_speed(iter/s)": 0.033854
+    },
+    {
+      "epoch": 1.4126149802890933,
+      "grad_norm": 0.2909865081310272,
+      "learning_rate": 5.714127776226667e-06,
+      "loss": 0.4557938575744629,
+      "memory(GiB)": 86.38,
+      "step": 1075,
+      "token_acc": 0.8680278588011191,
+      "train_speed(iter/s)": 0.033856
+    },
+    {
+      "epoch": 1.419185282522996,
+      "grad_norm": 0.28090617060661316,
+      "learning_rate": 5.6789996112207865e-06,
+      "loss": 0.4519779205322266,
+      "memory(GiB)": 86.38,
+      "step": 1080,
+      "token_acc": 0.8621539840860697,
+      "train_speed(iter/s)": 0.033857
+    },
+    {
+      "epoch": 1.4257555847568988,
+      "grad_norm": 0.26703914999961853,
+      "learning_rate": 5.64383726777582e-06,
+      "loss": 0.4575533866882324,
+      "memory(GiB)": 86.38,
+      "step": 1085,
+      "token_acc": 0.8600892222150385,
+      "train_speed(iter/s)": 0.03386
+    },
+    {
+      "epoch": 1.4323258869908015,
+      "grad_norm": 0.29428642988204956,
+      "learning_rate": 5.608642515839777e-06,
+      "loss": 0.4562852382659912,
+      "memory(GiB)": 86.38,
+      "step": 1090,
+      "token_acc": 0.8570395907473309,
+      "train_speed(iter/s)": 0.033858
+    },
+    {
+      "epoch": 1.4388961892247043,
+      "grad_norm": 0.2922196090221405,
+      "learning_rate": 5.573417126992004e-06,
+      "loss": 0.455198860168457,
+      "memory(GiB)": 86.38,
+      "step": 1095,
+      "token_acc": 0.8534050553582619,
+      "train_speed(iter/s)": 0.033859
+    },
+    {
+      "epoch": 1.445466491458607,
+      "grad_norm": 0.2833230793476105,
+      "learning_rate": 5.538162874353994e-06,
+      "loss": 0.45499043464660643,
+      "memory(GiB)": 86.38,
+      "step": 1100,
+      "token_acc": 0.8599968372779505,
+      "train_speed(iter/s)": 0.033861
+    },
+    {
+      "epoch": 1.4520367936925098,
+      "grad_norm": 0.30704233050346375,
+      "learning_rate": 5.502881532500149e-06,
+      "loss": 0.4561596870422363,
+      "memory(GiB)": 86.38,
+      "step": 1105,
+      "token_acc": 0.8647945610404966,
+      "train_speed(iter/s)": 0.033863
+    },
+    {
+      "epoch": 1.4586070959264126,
+      "grad_norm": 0.2708365321159363,
+      "learning_rate": 5.467574877368441e-06,
+      "loss": 0.45220632553100587,
+      "memory(GiB)": 86.38,
+      "step": 1110,
+      "token_acc": 0.86642938687798,
+      "train_speed(iter/s)": 0.033866
+    },
+    {
+      "epoch": 1.4651773981603153,
+      "grad_norm": 0.28449153900146484,
+      "learning_rate": 5.432244686171025e-06,
+      "loss": 0.45653414726257324,
+      "memory(GiB)": 86.38,
+      "step": 1115,
+      "token_acc": 0.8675830627892519,
+      "train_speed(iter/s)": 0.033865
+    },
+    {
+      "epoch": 1.471747700394218,
+      "grad_norm": 0.28766512870788574,
+      "learning_rate": 5.396892737304779e-06,
+      "loss": 0.4552262783050537,
+      "memory(GiB)": 86.38,
+      "step": 1120,
+      "token_acc": 0.8638403990024938,
+      "train_speed(iter/s)": 0.033865
+    },
+    {
+      "epoch": 1.4783180026281209,
+      "grad_norm": 0.28682559728622437,
+      "learning_rate": 5.361520810261779e-06,
+      "loss": 0.45450830459594727,
+      "memory(GiB)": 86.38,
+      "step": 1125,
+      "token_acc": 0.860114404576183,
+      "train_speed(iter/s)": 0.033865
+    },
+    {
+      "epoch": 1.4848883048620236,
+      "grad_norm": 0.30013778805732727,
+      "learning_rate": 5.3261306855397395e-06,
+      "loss": 0.45503602027893064,
+      "memory(GiB)": 86.38,
+      "step": 1130,
+      "token_acc": 0.8707037643207856,
+      "train_speed(iter/s)": 0.033864
+    },
+    {
+      "epoch": 1.4914586070959264,
+      "grad_norm": 0.28545552492141724,
+      "learning_rate": 5.290724144552379e-06,
+      "loss": 0.45638151168823243,
+      "memory(GiB)": 86.38,
+      "step": 1135,
+      "token_acc": 0.8654683330992838,
+      "train_speed(iter/s)": 0.033865
+    },
+    {
+      "epoch": 1.4980289093298291,
+      "grad_norm": 0.2808593213558197,
+      "learning_rate": 5.255302969539753e-06,
+      "loss": 0.454376745223999,
+      "memory(GiB)": 86.38,
+      "step": 1140,
+      "token_acc": 0.8695363037301251,
+      "train_speed(iter/s)": 0.033865
+    },
+    {
+      "epoch": 1.5045992115637319,
+      "grad_norm": 0.30250662565231323,
+      "learning_rate": 5.219868943478542e-06,
+      "loss": 0.45623059272766114,
+      "memory(GiB)": 86.38,
+      "step": 1145,
+      "token_acc": 0.8605342850962578,
+      "train_speed(iter/s)": 0.033865
+    },
+    {
+      "epoch": 1.5111695137976346,
+      "grad_norm": 0.296613484621048,
+      "learning_rate": 5.184423849992299e-06,
+      "loss": 0.4548806190490723,
+      "memory(GiB)": 86.38,
+      "step": 1150,
+      "token_acc": 0.8635175178664808,
+      "train_speed(iter/s)": 0.033865
+    },
+    {
+      "epoch": 1.5177398160315374,
+      "grad_norm": 0.28246545791625977,
+      "learning_rate": 5.1489694732616805e-06,
+      "loss": 0.4554699420928955,
+      "memory(GiB)": 86.38,
+      "step": 1155,
+      "token_acc": 0.862121567707111,
+      "train_speed(iter/s)": 0.033866
+    },
+    {
+      "epoch": 1.5243101182654402,
+      "grad_norm": 0.26761719584465027,
+      "learning_rate": 5.11350759793462e-06,
+      "loss": 0.45384392738342283,
+      "memory(GiB)": 86.38,
+      "step": 1160,
+      "token_acc": 0.8527565417365902,
+      "train_speed(iter/s)": 0.033865
+    },
+    {
+      "epoch": 1.530880420499343,
+      "grad_norm": 0.2766062021255493,
+      "learning_rate": 5.078040009036509e-06,
+      "loss": 0.45311508178710935,
+      "memory(GiB)": 86.38,
+      "step": 1165,
+      "token_acc": 0.860136895026955,
+      "train_speed(iter/s)": 0.033865
+    },
+    {
+      "epoch": 1.5374507227332457,
+      "grad_norm": 0.2843003571033478,
+      "learning_rate": 5.042568491880338e-06,
+      "loss": 0.455690860748291,
+      "memory(GiB)": 86.38,
+      "step": 1170,
+      "token_acc": 0.8672405980969642,
+      "train_speed(iter/s)": 0.033867
+    },
+    {
+      "epoch": 1.5440210249671484,
+      "grad_norm": 0.2944943308830261,
+      "learning_rate": 5.007094831976832e-06,
+      "loss": 0.45423293113708496,
+      "memory(GiB)": 86.38,
+      "step": 1175,
+      "token_acc": 0.865735444638449,
+      "train_speed(iter/s)": 0.033867
+    },
+    {
+      "epoch": 1.5505913272010512,
+      "grad_norm": 0.2819548547267914,
+      "learning_rate": 4.9716208149445776e-06,
+      "loss": 0.45132970809936523,
+      "memory(GiB)": 86.38,
+      "step": 1180,
+      "token_acc": 0.8634401381427476,
+      "train_speed(iter/s)": 0.033869
+    },
+    {
+      "epoch": 1.557161629434954,
+      "grad_norm": 0.27042356133461,
+      "learning_rate": 4.936148226420133e-06,
+      "loss": 0.45566673278808595,
+      "memory(GiB)": 86.38,
+      "step": 1185,
+      "token_acc": 0.8692132269099202,
+      "train_speed(iter/s)": 0.033865
+    },
+    {
+      "epoch": 1.563731931668857,
+      "grad_norm": 0.29058489203453064,
+      "learning_rate": 4.900678851968152e-06,
+      "loss": 0.4520698070526123,
+      "memory(GiB)": 86.38,
+      "step": 1190,
+      "token_acc": 0.8643418665591615,
+      "train_speed(iter/s)": 0.033866
+    },
+    {
+      "epoch": 1.5703022339027597,
+      "grad_norm": 0.274539053440094,
+      "learning_rate": 4.865214476991506e-06,
+      "loss": 0.4568329811096191,
+      "memory(GiB)": 86.38,
+      "step": 1195,
+      "token_acc": 0.8561119477911646,
+      "train_speed(iter/s)": 0.033867
+    },
+    {
+      "epoch": 1.5768725361366625,
+      "grad_norm": 0.2732899785041809,
+      "learning_rate": 4.829756886641408e-06,
+      "loss": 0.45705676078796387,
+      "memory(GiB)": 86.38,
+      "step": 1200,
+      "token_acc": 0.8784363482569029,
+      "train_speed(iter/s)": 0.033866
+    },
+    {
+      "epoch": 1.5834428383705652,
+      "grad_norm": 0.27467477321624756,
+      "learning_rate": 4.794307865727555e-06,
+      "loss": 0.45558509826660154,
+      "memory(GiB)": 86.38,
+      "step": 1205,
+      "token_acc": 0.8533988533988534,
+      "train_speed(iter/s)": 0.033825
+    },
+    {
+      "epoch": 1.590013140604468,
+      "grad_norm": 0.2909936308860779,
+      "learning_rate": 4.758869198628296e-06,
+      "loss": 0.45391244888305665,
+      "memory(GiB)": 86.38,
+      "step": 1210,
+      "token_acc": 0.8756224804363292,
+      "train_speed(iter/s)": 0.033824
+    },
+    {
+      "epoch": 1.5965834428383707,
+      "grad_norm": 0.2969980835914612,
+      "learning_rate": 4.7234426692007985e-06,
+      "loss": 0.454874324798584,
+      "memory(GiB)": 86.38,
+      "step": 1215,
+      "token_acc": 0.8589074167649206,
+      "train_speed(iter/s)": 0.033825
+    },
+    {
+      "epoch": 1.6031537450722735,
+      "grad_norm": 0.2968142032623291,
+      "learning_rate": 4.688030060691264e-06,
+      "loss": 0.4513202667236328,
+      "memory(GiB)": 86.38,
+      "step": 1220,
+      "token_acc": 0.8506660149089575,
+      "train_speed(iter/s)": 0.033824
+    },
+    {
+      "epoch": 1.6097240473061762,
+      "grad_norm": 0.28620168566703796,
+      "learning_rate": 4.6526331556451674e-06,
+      "loss": 0.44993081092834475,
+      "memory(GiB)": 86.38,
+      "step": 1225,
+      "token_acc": 0.8493528096896605,
+      "train_speed(iter/s)": 0.033826
+    },
+    {
+      "epoch": 1.616294349540079,
+      "grad_norm": 0.2923036515712738,
+      "learning_rate": 4.617253735817522e-06,
+      "loss": 0.4529541492462158,
+      "memory(GiB)": 86.38,
+      "step": 1230,
+      "token_acc": 0.8594011423296601,
+      "train_speed(iter/s)": 0.033823
+    },
+    {
+      "epoch": 1.6228646517739818,
+      "grad_norm": 0.29773661494255066,
+      "learning_rate": 4.5818935820832014e-06,
+      "loss": 0.4512050151824951,
+      "memory(GiB)": 86.38,
+      "step": 1235,
+      "token_acc": 0.8610426631879017,
+      "train_speed(iter/s)": 0.033826
+    },
+    {
+      "epoch": 1.6294349540078845,
+      "grad_norm": 0.2810444235801697,
+      "learning_rate": 4.546554474347291e-06,
+      "loss": 0.4555663108825684,
+      "memory(GiB)": 86.38,
+      "step": 1240,
+      "token_acc": 0.8596368270149729,
+      "train_speed(iter/s)": 0.033828
+    },
+    {
+      "epoch": 1.6360052562417873,
+      "grad_norm": 0.2784985601902008,
+      "learning_rate": 4.511238191455491e-06,
+      "loss": 0.45386524200439454,
+      "memory(GiB)": 86.38,
+      "step": 1245,
+      "token_acc": 0.866062264796442,
+      "train_speed(iter/s)": 0.033827
+    },
+    {
+      "epoch": 1.64257555847569,
+      "grad_norm": 0.27828744053840637,
+      "learning_rate": 4.475946511104588e-06,
+      "loss": 0.45246143341064454,
+      "memory(GiB)": 86.38,
+      "step": 1250,
+      "token_acc": 0.8584367661858436,
+      "train_speed(iter/s)": 0.033828
+    },
+    {
+      "epoch": 1.6491458607095928,
+      "grad_norm": 0.2854389250278473,
+      "learning_rate": 4.440681209752955e-06,
+      "loss": 0.4526336669921875,
+      "memory(GiB)": 86.38,
+      "step": 1255,
+      "token_acc": 0.851116058685848,
+      "train_speed(iter/s)": 0.033825
+    },
+    {
+      "epoch": 1.6557161629434956,
+      "grad_norm": 0.29449641704559326,
+      "learning_rate": 4.405444062531145e-06,
+      "loss": 0.4575493812561035,
+      "memory(GiB)": 86.38,
+      "step": 1260,
+      "token_acc": 0.8626177520332339,
+      "train_speed(iter/s)": 0.033821
+    },
+    {
+      "epoch": 1.6622864651773983,
+      "grad_norm": 0.28538015484809875,
+      "learning_rate": 4.37023684315253e-06,
+      "loss": 0.45549468994140624,
+      "memory(GiB)": 86.38,
+      "step": 1265,
+      "token_acc": 0.8691069738087724,
+      "train_speed(iter/s)": 0.03382
+    },
+    {
+      "epoch": 1.668856767411301,
+      "grad_norm": 0.27826598286628723,
+      "learning_rate": 4.335061323824019e-06,
+      "loss": 0.44781084060668946,
+      "memory(GiB)": 86.38,
+      "step": 1270,
+      "token_acc": 0.8674536256323777,
+      "train_speed(iter/s)": 0.033821
+    },
+    {
+      "epoch": 1.6754270696452038,
+      "grad_norm": 0.2691604495048523,
+      "learning_rate": 4.299919275156857e-06,
+      "loss": 0.4545548439025879,
+      "memory(GiB)": 86.38,
+      "step": 1275,
+      "token_acc": 0.8644137364892598,
+      "train_speed(iter/s)": 0.033824
+    },
+    {
+      "epoch": 1.6819973718791066,
+      "grad_norm": 0.27578890323638916,
+      "learning_rate": 4.264812466077486e-06,
+      "loss": 0.4538686752319336,
+      "memory(GiB)": 86.38,
+      "step": 1280,
+      "token_acc": 0.8544989775051125,
+      "train_speed(iter/s)": 0.033826
+    },
+    {
+      "epoch": 1.6885676741130093,
+      "grad_norm": 0.2718227803707123,
+      "learning_rate": 4.229742663738521e-06,
+      "loss": 0.4527297496795654,
+      "memory(GiB)": 86.38,
+      "step": 1285,
+      "token_acc": 0.8661887694145759,
+      "train_speed(iter/s)": 0.033825
+    },
+    {
+      "epoch": 1.695137976346912,
+      "grad_norm": 0.2723022997379303,
+      "learning_rate": 4.194711633429782e-06,
+      "loss": 0.4542956829071045,
+      "memory(GiB)": 86.38,
+      "step": 1290,
+      "token_acc": 0.8571600048013444,
+      "train_speed(iter/s)": 0.033826
+    },
+    {
+      "epoch": 1.7017082785808149,
+      "grad_norm": 0.2890985310077667,
+      "learning_rate": 4.159721138489445e-06,
+      "loss": 0.449599027633667,
+      "memory(GiB)": 86.38,
+      "step": 1295,
+      "token_acc": 0.8626619837713455,
+      "train_speed(iter/s)": 0.033827
+    },
+    {
+      "epoch": 1.7082785808147176,
+      "grad_norm": 0.279776394367218,
+      "learning_rate": 4.124772940215279e-06,
+      "loss": 0.4549734115600586,
+      "memory(GiB)": 86.38,
+      "step": 1300,
+      "token_acc": 0.8570111173728162,
+      "train_speed(iter/s)": 0.033827
+    },
+    {
+      "epoch": 1.7148488830486204,
+      "grad_norm": 0.2932436168193817,
+      "learning_rate": 4.0898687977759895e-06,
+      "loss": 0.45325145721435545,
+      "memory(GiB)": 86.38,
+      "step": 1305,
+      "token_acc": 0.8666294359547139,
+      "train_speed(iter/s)": 0.033831
+    },
+    {
+      "epoch": 1.7214191852825231,
+      "grad_norm": 0.2910197675228119,
+      "learning_rate": 4.0550104681226635e-06,
+      "loss": 0.45451927185058594,
+      "memory(GiB)": 86.38,
+      "step": 1310,
+      "token_acc": 0.8454388043379204,
+      "train_speed(iter/s)": 0.033828
+    },
+    {
+      "epoch": 1.727989487516426,
+      "grad_norm": 0.2771059274673462,
+      "learning_rate": 4.020199705900335e-06,
+      "loss": 0.45571699142456057,
+      "memory(GiB)": 86.38,
+      "step": 1315,
+      "token_acc": 0.8857914854356136,
+      "train_speed(iter/s)": 0.033827
+    },
+    {
+      "epoch": 1.7345597897503287,
+      "grad_norm": 0.27845674753189087,
+      "learning_rate": 3.985438263359667e-06,
+      "loss": 0.4508528709411621,
+      "memory(GiB)": 86.38,
+      "step": 1320,
+      "token_acc": 0.8715719063545151,
+      "train_speed(iter/s)": 0.033829
+    },
+    {
+      "epoch": 1.7411300919842314,
+      "grad_norm": 0.2838834524154663,
+      "learning_rate": 3.950727890268736e-06,
+      "loss": 0.45130367279052735,
+      "memory(GiB)": 86.38,
+      "step": 1325,
+      "token_acc": 0.8547756346523497,
+      "train_speed(iter/s)": 0.033827
+    },
+    {
+      "epoch": 1.7477003942181342,
+      "grad_norm": 0.27185139060020447,
+      "learning_rate": 3.91607033382497e-06,
+      "loss": 0.4526374340057373,
+      "memory(GiB)": 86.38,
+      "step": 1330,
+      "token_acc": 0.8633136094674556,
+      "train_speed(iter/s)": 0.033824
+    },
+    {
+      "epoch": 1.754270696452037,
+      "grad_norm": 0.28836262226104736,
+      "learning_rate": 3.88146733856719e-06,
+      "loss": 0.4543032646179199,
+      "memory(GiB)": 86.38,
+      "step": 1335,
+      "token_acc": 0.8587059705221084,
+      "train_speed(iter/s)": 0.033827
+    },
+    {
+      "epoch": 1.7608409986859397,
+      "grad_norm": 0.27373170852661133,
+      "learning_rate": 3.8469206462878e-06,
+      "loss": 0.4514758586883545,
+      "memory(GiB)": 86.38,
+      "step": 1340,
+      "token_acc": 0.861223101957546,
+      "train_speed(iter/s)": 0.033826
+    },
+    {
+      "epoch": 1.7674113009198424,
+      "grad_norm": 0.26478344202041626,
+      "learning_rate": 3.8124319959451133e-06,
+      "loss": 0.45225229263305666,
+      "memory(GiB)": 86.38,
+      "step": 1345,
+      "token_acc": 0.8613606419930531,
+      "train_speed(iter/s)": 0.033822
+    },
+    {
+      "epoch": 1.7739816031537452,
+      "grad_norm": 0.31700122356414795,
+      "learning_rate": 3.778003123575815e-06,
+      "loss": 0.45349550247192383,
+      "memory(GiB)": 86.38,
+      "step": 1350,
+      "token_acc": 0.8643513203214696,
+      "train_speed(iter/s)": 0.033818
+    },
+    {
+      "epoch": 1.780551905387648,
+      "grad_norm": 0.26822659373283386,
+      "learning_rate": 3.743635762207582e-06,
+      "loss": 0.44829654693603516,
+      "memory(GiB)": 86.38,
+      "step": 1355,
+      "token_acc": 0.8705515383524741,
+      "train_speed(iter/s)": 0.03382
+    },
+    {
+      "epoch": 1.7871222076215507,
+      "grad_norm": 0.2593797445297241,
+      "learning_rate": 3.7093316417718407e-06,
+      "loss": 0.45132102966308596,
+      "memory(GiB)": 86.38,
+      "step": 1360,
+      "token_acc": 0.8722857336129338,
+      "train_speed(iter/s)": 0.033822
+    },
+    {
+      "epoch": 1.7936925098554535,
+      "grad_norm": 0.2924158275127411,
+      "learning_rate": 3.675092489016693e-06,
+      "loss": 0.4512333869934082,
+      "memory(GiB)": 86.38,
+      "step": 1365,
+      "token_acc": 0.86383098856632,
+      "train_speed(iter/s)": 0.033825
+    },
+    {
+      "epoch": 1.8002628120893562,
+      "grad_norm": 0.2746325135231018,
+      "learning_rate": 3.640920027420001e-06,
+      "loss": 0.4558290481567383,
+      "memory(GiB)": 86.38,
+      "step": 1370,
+      "token_acc": 0.8634496357561483,
+      "train_speed(iter/s)": 0.033824
+    },
+    {
+      "epoch": 1.806833114323259,
+      "grad_norm": 0.27387329936027527,
+      "learning_rate": 3.6068159771026267e-06,
+      "loss": 0.4523761749267578,
+      "memory(GiB)": 86.38,
+      "step": 1375,
+      "token_acc": 0.8614295741693964,
+      "train_speed(iter/s)": 0.033825
+    },
+    {
+      "epoch": 1.8134034165571618,
+      "grad_norm": 0.2677063047885895,
+      "learning_rate": 3.5727820547418525e-06,
+      "loss": 0.4497382640838623,
+      "memory(GiB)": 86.38,
+      "step": 1380,
+      "token_acc": 0.8671490051768228,
+      "train_speed(iter/s)": 0.033826
+    },
+    {
+      "epoch": 1.8199737187910645,
+      "grad_norm": 0.26505404710769653,
+      "learning_rate": 3.5388199734849626e-06,
+      "loss": 0.45242948532104493,
+      "memory(GiB)": 86.38,
+      "step": 1385,
+      "token_acc": 0.8609067954770008,
+      "train_speed(iter/s)": 0.033825
+    },
+    {
+      "epoch": 1.8265440210249673,
+      "grad_norm": 0.28987395763397217,
+      "learning_rate": 3.504931442863023e-06,
+      "loss": 0.45121097564697266,
+      "memory(GiB)": 86.38,
+      "step": 1390,
+      "token_acc": 0.8593791633359978,
+      "train_speed(iter/s)": 0.033826
+    },
+    {
+      "epoch": 1.83311432325887,
+      "grad_norm": 0.2953889071941376,
+      "learning_rate": 3.4711181687048114e-06,
+      "loss": 0.4545147895812988,
+      "memory(GiB)": 86.38,
+      "step": 1395,
+      "token_acc": 0.8520735098537057,
+      "train_speed(iter/s)": 0.033826
+    },
+    {
+      "epoch": 1.8396846254927728,
+      "grad_norm": 0.27598556876182556,
+      "learning_rate": 3.4373818530509686e-06,
+      "loss": 0.45116052627563474,
+      "memory(GiB)": 86.38,
+      "step": 1400,
+      "token_acc": 0.866229439933375,
+      "train_speed(iter/s)": 0.033827
+    },
+    {
+      "epoch": 1.8462549277266755,
+      "grad_norm": 0.27450037002563477,
+      "learning_rate": 3.40372419406831e-06,
+      "loss": 0.4568813323974609,
+      "memory(GiB)": 86.38,
+      "step": 1405,
+      "token_acc": 0.86804211035818,
+      "train_speed(iter/s)": 0.033826
+    },
+    {
+      "epoch": 1.8528252299605783,
+      "grad_norm": 0.2719385027885437,
+      "learning_rate": 3.3701468859643583e-06,
+      "loss": 0.4519033432006836,
+      "memory(GiB)": 86.38,
+      "step": 1410,
+      "token_acc": 0.8648355441589822,
+      "train_speed(iter/s)": 0.033827
+    },
+    {
+      "epoch": 1.859395532194481,
+      "grad_norm": 0.2851196825504303,
+      "learning_rate": 3.336651618902054e-06,
+      "loss": 0.4524543762207031,
+      "memory(GiB)": 86.38,
+      "step": 1415,
+      "token_acc": 0.8464139526606158,
+      "train_speed(iter/s)": 0.033828
+    },
+    {
+      "epoch": 1.8659658344283838,
+      "grad_norm": 0.2691018879413605,
+      "learning_rate": 3.303240078914679e-06,
+      "loss": 0.45388317108154297,
+      "memory(GiB)": 86.38,
+      "step": 1420,
+      "token_acc": 0.8622832288312715,
+      "train_speed(iter/s)": 0.033828
+    },
+    {
+      "epoch": 1.8725361366622866,
+      "grad_norm": 0.2715182900428772,
+      "learning_rate": 3.2699139478209987e-06,
+      "loss": 0.4549809455871582,
+      "memory(GiB)": 86.38,
+      "step": 1425,
+      "token_acc": 0.8636651870640456,
+      "train_speed(iter/s)": 0.03383
+    },
+    {
+      "epoch": 1.8791064388961893,
+      "grad_norm": 0.2916743755340576,
+      "learning_rate": 3.2366749031405875e-06,
+      "loss": 0.4505608558654785,
+      "memory(GiB)": 86.38,
+      "step": 1430,
+      "token_acc": 0.8645326192794547,
+      "train_speed(iter/s)": 0.033829
+    },
+    {
+      "epoch": 1.885676741130092,
+      "grad_norm": 0.2814328968524933,
+      "learning_rate": 3.203524618009403e-06,
+      "loss": 0.4522216796875,
+      "memory(GiB)": 86.38,
+      "step": 1435,
+      "token_acc": 0.8565567219054724,
+      "train_speed(iter/s)": 0.033831
+    },
+    {
+      "epoch": 1.8922470433639949,
+      "grad_norm": 0.29333144426345825,
+      "learning_rate": 3.1704647610955618e-06,
+      "loss": 0.4518414497375488,
+      "memory(GiB)": 86.38,
+      "step": 1440,
+      "token_acc": 0.8547056199821588,
+      "train_speed(iter/s)": 0.033834
+    },
+    {
+      "epoch": 1.8988173455978976,
+      "grad_norm": 0.26604127883911133,
+      "learning_rate": 3.137496996515339e-06,
+      "loss": 0.4495247840881348,
+      "memory(GiB)": 86.38,
+      "step": 1445,
+      "token_acc": 0.8561262009251571,
+      "train_speed(iter/s)": 0.033832
+    },
+    {
+      "epoch": 1.9053876478318004,
+      "grad_norm": 0.26928678154945374,
+      "learning_rate": 3.1046229837494123e-06,
+      "loss": 0.44922027587890623,
+      "memory(GiB)": 86.38,
+      "step": 1450,
+      "token_acc": 0.8630366102954841,
+      "train_speed(iter/s)": 0.033835
+    },
+    {
+      "epoch": 1.9119579500657031,
+      "grad_norm": 0.2921224534511566,
+      "learning_rate": 3.0718443775593233e-06,
+      "loss": 0.44977540969848634,
+      "memory(GiB)": 86.38,
+      "step": 1455,
+      "token_acc": 0.8656272709255467,
+      "train_speed(iter/s)": 0.033835
+    },
+    {
+      "epoch": 1.9185282522996059,
+      "grad_norm": 0.2801390290260315,
+      "learning_rate": 3.0391628279041797e-06,
+      "loss": 0.45065975189208984,
+      "memory(GiB)": 86.38,
+      "step": 1460,
+      "token_acc": 0.8713450292397661,
+      "train_speed(iter/s)": 0.033836
+    },
+    {
+      "epoch": 1.9250985545335086,
+      "grad_norm": 0.28972676396369934,
+      "learning_rate": 3.0065799798576146e-06,
+      "loss": 0.4490159034729004,
+      "memory(GiB)": 86.38,
+      "step": 1465,
+      "token_acc": 0.8605760938308515,
+      "train_speed(iter/s)": 0.033833
+    },
+    {
+      "epoch": 1.9316688567674114,
+      "grad_norm": 0.2788577675819397,
+      "learning_rate": 2.9740974735249627e-06,
+      "loss": 0.45141172409057617,
+      "memory(GiB)": 86.38,
+      "step": 1470,
+      "token_acc": 0.8731429833765947,
+      "train_speed(iter/s)": 0.033833
+    },
+    {
+      "epoch": 1.9382391590013142,
+      "grad_norm": 0.27176031470298767,
+      "learning_rate": 2.941716943960716e-06,
+      "loss": 0.4523900508880615,
+      "memory(GiB)": 86.38,
+      "step": 1475,
+      "token_acc": 0.8687188222411486,
+      "train_speed(iter/s)": 0.033835
+    },
+    {
+      "epoch": 1.944809461235217,
+      "grad_norm": 0.2714715003967285,
+      "learning_rate": 2.9094400210862206e-06,
+      "loss": 0.4515875816345215,
+      "memory(GiB)": 86.38,
+      "step": 1480,
+      "token_acc": 0.8687481415402915,
+      "train_speed(iter/s)": 0.033837
+    },
+    {
+      "epoch": 1.9513797634691197,
+      "grad_norm": 0.272011399269104,
+      "learning_rate": 2.8772683296076197e-06,
+      "loss": 0.44769134521484377,
+      "memory(GiB)": 86.38,
+      "step": 1485,
+      "token_acc": 0.8557253110726099,
+      "train_speed(iter/s)": 0.033839
+    },
+    {
+      "epoch": 1.9579500657030224,
+      "grad_norm": 0.2830789089202881,
+      "learning_rate": 2.8452034889340874e-06,
+      "loss": 0.4503666877746582,
+      "memory(GiB)": 86.38,
+      "step": 1490,
+      "token_acc": 0.8650519031141869,
+      "train_speed(iter/s)": 0.033839
+    },
+    {
+      "epoch": 1.9645203679369252,
+      "grad_norm": 0.27117088437080383,
+      "learning_rate": 2.8132471130962997e-06,
+      "loss": 0.44952926635742185,
+      "memory(GiB)": 86.38,
+      "step": 1495,
+      "token_acc": 0.8653084323712507,
+      "train_speed(iter/s)": 0.033838
+    },
+    {
+      "epoch": 1.971090670170828,
+      "grad_norm": 0.2866286337375641,
+      "learning_rate": 2.781400810665201e-06,
+      "loss": 0.45142645835876466,
+      "memory(GiB)": 86.38,
+      "step": 1500,
+      "token_acc": 0.8606049336804265,
+      "train_speed(iter/s)": 0.033839
+    },
+    {
+      "epoch": 1.9776609724047307,
+      "grad_norm": 0.25524598360061646,
+      "learning_rate": 2.749666184671032e-06,
+      "loss": 0.45200319290161134,
+      "memory(GiB)": 86.38,
+      "step": 1505,
+      "token_acc": 0.8672011511974509,
+      "train_speed(iter/s)": 0.033802
+    },
+    {
+      "epoch": 1.9842312746386335,
+      "grad_norm": 0.269008070230484,
+      "learning_rate": 2.7180448325226283e-06,
+      "loss": 0.449237060546875,
+      "memory(GiB)": 86.38,
+      "step": 1510,
+      "token_acc": 0.8631796690307328,
+      "train_speed(iter/s)": 0.0338
+    },
+    {
+      "epoch": 1.9908015768725362,
+      "grad_norm": 0.2759488821029663,
+      "learning_rate": 2.686538345927027e-06,
+      "loss": 0.454377269744873,
+      "memory(GiB)": 86.38,
+      "step": 1515,
+      "token_acc": 0.8493589743589743,
+      "train_speed(iter/s)": 0.033795
+    },
+    {
+      "epoch": 1.997371879106439,
+      "grad_norm": 0.2774396538734436,
+      "learning_rate": 2.6551483108093378e-06,
+      "loss": 0.45154151916503904,
+      "memory(GiB)": 86.38,
+      "step": 1520,
+      "token_acc": 0.854857977170162,
+      "train_speed(iter/s)": 0.033795
+    },
+    {
+      "epoch": 2.0039421813403417,
+      "grad_norm": 0.2865091860294342,
+      "learning_rate": 2.623876307232919e-06,
+      "loss": 0.43844971656799314,
+      "memory(GiB)": 86.38,
+      "step": 1525,
+      "token_acc": 0.8616791354945968,
+      "train_speed(iter/s)": 0.0338
+    },
+    {
+      "epoch": 2.0105124835742445,
+      "grad_norm": 0.28435423970222473,
+      "learning_rate": 2.5927239093198273e-06,
+      "loss": 0.4346470832824707,
+      "memory(GiB)": 86.38,
+      "step": 1530,
+      "token_acc": 0.8676384460206937,
+      "train_speed(iter/s)": 0.033799
+    },
+    {
+      "epoch": 2.0170827858081473,
+      "grad_norm": 0.2833334505558014,
+      "learning_rate": 2.5616926851716055e-06,
+      "loss": 0.43649768829345703,
+      "memory(GiB)": 86.38,
+      "step": 1535,
+      "token_acc": 0.8553893161942894,
+      "train_speed(iter/s)": 0.033798
+    },
+    {
+      "epoch": 2.02365308804205,
+      "grad_norm": 0.2661850154399872,
+      "learning_rate": 2.5307841967903337e-06,
+      "loss": 0.4341902732849121,
+      "memory(GiB)": 86.38,
+      "step": 1540,
+      "token_acc": 0.853354760948172,
+      "train_speed(iter/s)": 0.033796
+    },
+    {
+      "epoch": 2.0302233902759528,
+      "grad_norm": 0.2832602262496948,
+      "learning_rate": 2.5000000000000015e-06,
+      "loss": 0.4348430633544922,
+      "memory(GiB)": 86.38,
+      "step": 1545,
+      "token_acc": 0.8529144141733126,
+      "train_speed(iter/s)": 0.033797
+    },
+    {
+      "epoch": 2.0367936925098555,
+      "grad_norm": 0.26590895652770996,
+      "learning_rate": 2.4693416443682074e-06,
+      "loss": 0.431856632232666,
+      "memory(GiB)": 86.38,
+      "step": 1550,
+      "token_acc": 0.8682563338301044,
+      "train_speed(iter/s)": 0.033797
+    },
+    {
+      "epoch": 2.0433639947437583,
+      "grad_norm": 0.28006982803344727,
+      "learning_rate": 2.4388106731281496e-06,
+      "loss": 0.43282361030578614,
+      "memory(GiB)": 86.38,
+      "step": 1555,
+      "token_acc": 0.869759845139435,
+      "train_speed(iter/s)": 0.0338
+    },
+    {
+      "epoch": 2.049934296977661,
+      "grad_norm": 0.2961016893386841,
+      "learning_rate": 2.40840862310094e-06,
+      "loss": 0.43299617767333987,
+      "memory(GiB)": 86.38,
+      "step": 1560,
+      "token_acc": 0.8845442367799962,
+      "train_speed(iter/s)": 0.033797
+    },
+    {
+      "epoch": 2.056504599211564,
+      "grad_norm": 0.2669562101364136,
+      "learning_rate": 2.378137024618262e-06,
+      "loss": 0.4347973823547363,
+      "memory(GiB)": 86.38,
+      "step": 1565,
+      "token_acc": 0.8502078945947406,
+      "train_speed(iter/s)": 0.033798
+    },
+    {
+      "epoch": 2.0630749014454666,
+      "grad_norm": 0.2754296362400055,
+      "learning_rate": 2.3479974014453255e-06,
+      "loss": 0.43701701164245604,
+      "memory(GiB)": 86.38,
+      "step": 1570,
+      "token_acc": 0.8600905562742561,
+      "train_speed(iter/s)": 0.033799
+    },
+    {
+      "epoch": 2.0696452036793693,
+      "grad_norm": 0.2642713189125061,
+      "learning_rate": 2.317991270704167e-06,
+      "loss": 0.43048667907714844,
+      "memory(GiB)": 86.38,
+      "step": 1575,
+      "token_acc": 0.8709290926914279,
+      "train_speed(iter/s)": 0.033802
+    },
+    {
+      "epoch": 2.076215505913272,
+      "grad_norm": 0.2664032280445099,
+      "learning_rate": 2.2881201427972894e-06,
+      "loss": 0.43495759963989256,
+      "memory(GiB)": 86.38,
+      "step": 1580,
+      "token_acc": 0.8594156340829127,
+      "train_speed(iter/s)": 0.033803
+    },
+    {
+      "epoch": 2.082785808147175,
+      "grad_norm": 0.27893051505088806,
+      "learning_rate": 2.2583855213316326e-06,
+      "loss": 0.4322032928466797,
+      "memory(GiB)": 86.38,
+      "step": 1585,
+      "token_acc": 0.8674502122102514,
+      "train_speed(iter/s)": 0.0338
+    },
+    {
+      "epoch": 2.0893561103810776,
+      "grad_norm": 0.25695356726646423,
+      "learning_rate": 2.228788903042877e-06,
+      "loss": 0.4315330505371094,
+      "memory(GiB)": 86.38,
+      "step": 1590,
+      "token_acc": 0.8767547253233116,
+      "train_speed(iter/s)": 0.033798
+    },
+    {
+      "epoch": 2.0959264126149804,
+      "grad_norm": 0.2659642696380615,
+      "learning_rate": 2.1993317777201197e-06,
+      "loss": 0.43229498863220217,
+      "memory(GiB)": 86.38,
+      "step": 1595,
+      "token_acc": 0.8707460370247201,
+      "train_speed(iter/s)": 0.033796
+    },
+    {
+      "epoch": 2.102496714848883,
+      "grad_norm": 0.2697013020515442,
+      "learning_rate": 2.170015628130871e-06,
+      "loss": 0.4357916355133057,
+      "memory(GiB)": 86.38,
+      "step": 1600,
+      "token_acc": 0.8637946662850055,
+      "train_speed(iter/s)": 0.033796
+    },
+    {
+      "epoch": 2.109067017082786,
+      "grad_norm": 0.27165451645851135,
+      "learning_rate": 2.1408419299464245e-06,
+      "loss": 0.4324627876281738,
+      "memory(GiB)": 86.38,
+      "step": 1605,
+      "token_acc": 0.8698603817087229,
+      "train_speed(iter/s)": 0.033795
+    },
+    {
+      "epoch": 2.1156373193166886,
+      "grad_norm": 0.2767409384250641,
+      "learning_rate": 2.111812151667567e-06,
+      "loss": 0.433492374420166,
+      "memory(GiB)": 86.38,
+      "step": 1610,
+      "token_acc": 0.8622224420157262,
+      "train_speed(iter/s)": 0.033795
+    },
+    {
+      "epoch": 2.1222076215505914,
+      "grad_norm": 0.2886437177658081,
+      "learning_rate": 2.0829277545506736e-06,
+      "loss": 0.4330601692199707,
+      "memory(GiB)": 86.38,
+      "step": 1615,
+      "token_acc": 0.87356944538498,
+      "train_speed(iter/s)": 0.033795
+    },
+    {
+      "epoch": 2.128777923784494,
+      "grad_norm": 0.27543848752975464,
+      "learning_rate": 2.0541901925341446e-06,
+      "loss": 0.4322654724121094,
+      "memory(GiB)": 86.38,
+      "step": 1620,
+      "token_acc": 0.8578295433536698,
+      "train_speed(iter/s)": 0.033796
+    },
+    {
+      "epoch": 2.135348226018397,
+      "grad_norm": 0.2620643675327301,
+      "learning_rate": 2.0256009121652147e-06,
+      "loss": 0.43578500747680665,
+      "memory(GiB)": 86.38,
+      "step": 1625,
+      "token_acc": 0.868349382355802,
+      "train_speed(iter/s)": 0.033789
+    },
+    {
+      "epoch": 2.1419185282522997,
+      "grad_norm": 0.28385990858078003,
+      "learning_rate": 1.9971613525271523e-06,
+      "loss": 0.43427586555480957,
+      "memory(GiB)": 86.38,
+      "step": 1630,
+      "token_acc": 0.8664960419022677,
+      "train_speed(iter/s)": 0.033789
+    },
+    {
+      "epoch": 2.1484888304862024,
+      "grad_norm": 0.2743207514286041,
+      "learning_rate": 1.9688729451668116e-06,
+      "loss": 0.43171100616455077,
+      "memory(GiB)": 86.38,
+      "step": 1635,
+      "token_acc": 0.8658852104123765,
+      "train_speed(iter/s)": 0.033789
+    },
+    {
+      "epoch": 2.155059132720105,
+      "grad_norm": 0.27282217144966125,
+      "learning_rate": 1.940737114022572e-06,
+      "loss": 0.43387999534606936,
+      "memory(GiB)": 86.38,
+      "step": 1640,
+      "token_acc": 0.8552638446683021,
+      "train_speed(iter/s)": 0.033785
+    },
+    {
+      "epoch": 2.161629434954008,
+      "grad_norm": 0.26848945021629333,
+      "learning_rate": 1.9127552753526683e-06,
+      "loss": 0.4308422565460205,
+      "memory(GiB)": 86.38,
+      "step": 1645,
+      "token_acc": 0.8723747980613893,
+      "train_speed(iter/s)": 0.033783
+    },
+    {
+      "epoch": 2.1681997371879107,
+      "grad_norm": 0.2596457600593567,
+      "learning_rate": 1.884928837663902e-06,
+      "loss": 0.4331303596496582,
+      "memory(GiB)": 86.38,
+      "step": 1650,
+      "token_acc": 0.8620848945234307,
+      "train_speed(iter/s)": 0.033785
+    },
+    {
+      "epoch": 2.1747700394218135,
+      "grad_norm": 0.2749711871147156,
+      "learning_rate": 1.8572592016407337e-06,
+      "loss": 0.4339931488037109,
+      "memory(GiB)": 86.38,
+      "step": 1655,
+      "token_acc": 0.8706686188384578,
+      "train_speed(iter/s)": 0.033784
+    },
+    {
+      "epoch": 2.181340341655716,
+      "grad_norm": 0.26862356066703796,
+      "learning_rate": 1.8297477600747854e-06,
+      "loss": 0.43131422996520996,
+      "memory(GiB)": 86.38,
+      "step": 1660,
+      "token_acc": 0.8703601718250908,
+      "train_speed(iter/s)": 0.033783
+    },
+    {
+      "epoch": 2.187910643889619,
+      "grad_norm": 0.28293994069099426,
+      "learning_rate": 1.8023958977947303e-06,
+      "loss": 0.4327284812927246,
+      "memory(GiB)": 86.38,
+      "step": 1665,
+      "token_acc": 0.8674884437596302,
+      "train_speed(iter/s)": 0.033781
+    },
+    {
+      "epoch": 2.1944809461235217,
+      "grad_norm": 0.2755849063396454,
+      "learning_rate": 1.7752049915965807e-06,
+      "loss": 0.43210086822509763,
+      "memory(GiB)": 86.38,
+      "step": 1670,
+      "token_acc": 0.8653022928516977,
+      "train_speed(iter/s)": 0.033781
+    },
+    {
+      "epoch": 2.2010512483574245,
+      "grad_norm": 0.2687658965587616,
+      "learning_rate": 1.7481764101743925e-06,
+      "loss": 0.4309385776519775,
+      "memory(GiB)": 86.38,
+      "step": 1675,
+      "token_acc": 0.8708192896033187,
+      "train_speed(iter/s)": 0.033778
+    },
+    {
+      "epoch": 2.2076215505913273,
+      "grad_norm": 0.2643987536430359,
+      "learning_rate": 1.7213115140513687e-06,
+      "loss": 0.43217859268188474,
+      "memory(GiB)": 86.38,
+      "step": 1680,
+      "token_acc": 0.8690569923081582,
+      "train_speed(iter/s)": 0.033776
+    },
+    {
+      "epoch": 2.21419185282523,
+      "grad_norm": 0.27602747082710266,
+      "learning_rate": 1.694611655511365e-06,
+      "loss": 0.42904300689697267,
+      "memory(GiB)": 86.38,
+      "step": 1685,
+      "token_acc": 0.8896275737429807,
+      "train_speed(iter/s)": 0.033776
+    },
+    {
+      "epoch": 2.2207621550591328,
+      "grad_norm": 0.25782617926597595,
+      "learning_rate": 1.668078178530837e-06,
+      "loss": 0.4349325180053711,
+      "memory(GiB)": 86.38,
+      "step": 1690,
+      "token_acc": 0.8658529694298469,
+      "train_speed(iter/s)": 0.033775
+    },
+    {
+      "epoch": 2.2273324572930355,
+      "grad_norm": 0.26953521370887756,
+      "learning_rate": 1.6417124187111778e-06,
+      "loss": 0.4276991844177246,
+      "memory(GiB)": 86.38,
+      "step": 1695,
+      "token_acc": 0.8727225739759659,
+      "train_speed(iter/s)": 0.033775
+    },
+    {
+      "epoch": 2.2339027595269383,
+      "grad_norm": 0.2712646424770355,
+      "learning_rate": 1.6155157032114926e-06,
+      "loss": 0.4300542831420898,
+      "memory(GiB)": 86.38,
+      "step": 1700,
+      "token_acc": 0.8694365753855838,
+      "train_speed(iter/s)": 0.033776
+    },
+    {
+      "epoch": 2.240473061760841,
+      "grad_norm": 0.28259536623954773,
+      "learning_rate": 1.589489350681791e-06,
+      "loss": 0.43476276397705077,
+      "memory(GiB)": 86.38,
+      "step": 1705,
+      "token_acc": 0.8633074766964344,
+      "train_speed(iter/s)": 0.033776
+    },
+    {
+      "epoch": 2.247043363994744,
+      "grad_norm": 0.2692559063434601,
+      "learning_rate": 1.5636346711966154e-06,
+      "loss": 0.4304978847503662,
+      "memory(GiB)": 86.38,
+      "step": 1710,
+      "token_acc": 0.8691604140423901,
+      "train_speed(iter/s)": 0.033776
+    },
+    {
+      "epoch": 2.2536136662286466,
+      "grad_norm": 0.26556524634361267,
+      "learning_rate": 1.5379529661890956e-06,
+      "loss": 0.4372213363647461,
+      "memory(GiB)": 86.38,
+      "step": 1715,
+      "token_acc": 0.8606243830207305,
+      "train_speed(iter/s)": 0.033778
+    },
+    {
+      "epoch": 2.2601839684625493,
+      "grad_norm": 0.26940152049064636,
+      "learning_rate": 1.512445528385434e-06,
+      "loss": 0.4369645118713379,
+      "memory(GiB)": 86.38,
+      "step": 1720,
+      "token_acc": 0.857104328673529,
+      "train_speed(iter/s)": 0.033779
+    },
+    {
+      "epoch": 2.266754270696452,
+      "grad_norm": 0.2632419466972351,
+      "learning_rate": 1.4871136417398407e-06,
+      "loss": 0.43130922317504883,
+      "memory(GiB)": 86.38,
+      "step": 1725,
+      "token_acc": 0.8684261345349211,
+      "train_speed(iter/s)": 0.033776
+    },
+    {
+      "epoch": 2.273324572930355,
+      "grad_norm": 0.27120915055274963,
+      "learning_rate": 1.4619585813699032e-06,
+      "loss": 0.436324405670166,
+      "memory(GiB)": 86.38,
+      "step": 1730,
+      "token_acc": 0.8729593158849442,
+      "train_speed(iter/s)": 0.033776
+    },
+    {
+      "epoch": 2.2798948751642576,
+      "grad_norm": 0.28977081179618835,
+      "learning_rate": 1.436981613492394e-06,
+      "loss": 0.434481143951416,
+      "memory(GiB)": 86.38,
+      "step": 1735,
+      "token_acc": 0.863697705802969,
+      "train_speed(iter/s)": 0.033771
+    },
+    {
+      "epoch": 2.2864651773981604,
+      "grad_norm": 0.27072688937187195,
+      "learning_rate": 1.412183995359544e-06,
+      "loss": 0.43726301193237305,
+      "memory(GiB)": 86.38,
+      "step": 1740,
+      "token_acc": 0.8646803900325027,
+      "train_speed(iter/s)": 0.033769
+    },
+    {
+      "epoch": 2.293035479632063,
+      "grad_norm": 0.2683422863483429,
+      "learning_rate": 1.3875669751957548e-06,
+      "loss": 0.4344059467315674,
+      "memory(GiB)": 86.38,
+      "step": 1745,
+      "token_acc": 0.8645030938249779,
+      "train_speed(iter/s)": 0.03377
+    },
+    {
+      "epoch": 2.299605781865966,
+      "grad_norm": 0.2548208236694336,
+      "learning_rate": 1.3631317921347564e-06,
+      "loss": 0.4341590881347656,
+      "memory(GiB)": 86.38,
+      "step": 1750,
+      "token_acc": 0.8695078031212485,
+      "train_speed(iter/s)": 0.033772
+    },
+    {
+      "epoch": 2.3061760840998686,
+      "grad_norm": 0.25699329376220703,
+      "learning_rate": 1.3388796761572493e-06,
+      "loss": 0.43475918769836425,
+      "memory(GiB)": 86.38,
+      "step": 1755,
+      "token_acc": 0.8668202539091221,
+      "train_speed(iter/s)": 0.033773
+    },
+    {
+      "epoch": 2.3127463863337714,
+      "grad_norm": 0.284801721572876,
+      "learning_rate": 1.3148118480289834e-06,
+      "loss": 0.43476195335388185,
+      "memory(GiB)": 86.38,
+      "step": 1760,
+      "token_acc": 0.872836719337848,
+      "train_speed(iter/s)": 0.033772
+    },
+    {
+      "epoch": 2.319316688567674,
+      "grad_norm": 0.2635682225227356,
+      "learning_rate": 1.2909295192393057e-06,
+      "loss": 0.4339436531066895,
+      "memory(GiB)": 86.38,
+      "step": 1765,
+      "token_acc": 0.8698166676305592,
+      "train_speed(iter/s)": 0.033774
+    },
+    {
+      "epoch": 2.325886990801577,
+      "grad_norm": 0.25871872901916504,
+      "learning_rate": 1.2672338919401866e-06,
+      "loss": 0.4373739719390869,
+      "memory(GiB)": 86.38,
+      "step": 1770,
+      "token_acc": 0.8606108452163616,
+      "train_speed(iter/s)": 0.033775
+    },
+    {
+      "epoch": 2.3324572930354797,
+      "grad_norm": 0.26007142663002014,
+      "learning_rate": 1.2437261588857037e-06,
+      "loss": 0.432224702835083,
+      "memory(GiB)": 86.38,
+      "step": 1775,
+      "token_acc": 0.8673443326352352,
+      "train_speed(iter/s)": 0.033776
+    },
+    {
+      "epoch": 2.3390275952693824,
+      "grad_norm": 0.26318100094795227,
+      "learning_rate": 1.2204075033720025e-06,
+      "loss": 0.4342185020446777,
+      "memory(GiB)": 86.38,
+      "step": 1780,
+      "token_acc": 0.8722417109878918,
+      "train_speed(iter/s)": 0.033777
+    },
+    {
+      "epoch": 2.345597897503285,
+      "grad_norm": 0.25941622257232666,
+      "learning_rate": 1.197279099177731e-06,
+      "loss": 0.43193416595458983,
+      "memory(GiB)": 86.38,
+      "step": 1785,
+      "token_acc": 0.8598272926295305,
+      "train_speed(iter/s)": 0.033777
+    },
+    {
+      "epoch": 2.352168199737188,
+      "grad_norm": 0.2658545970916748,
+      "learning_rate": 1.1743421105049612e-06,
+      "loss": 0.432745361328125,
+      "memory(GiB)": 86.38,
+      "step": 1790,
+      "token_acc": 0.8685264027451229,
+      "train_speed(iter/s)": 0.033774
+    },
+    {
+      "epoch": 2.3587385019710907,
+      "grad_norm": 0.2550273537635803,
+      "learning_rate": 1.1515976919205869e-06,
+      "loss": 0.43065509796142576,
+      "memory(GiB)": 86.38,
+      "step": 1795,
+      "token_acc": 0.8694100591056094,
+      "train_speed(iter/s)": 0.033774
+    },
+    {
+      "epoch": 2.3653088042049935,
+      "grad_norm": 0.27043265104293823,
+      "learning_rate": 1.1290469882981987e-06,
+      "loss": 0.4335516929626465,
+      "memory(GiB)": 86.38,
+      "step": 1800,
+      "token_acc": 0.8756407695892418,
+      "train_speed(iter/s)": 0.033772
+    },
+    {
+      "epoch": 2.371879106438896,
+      "grad_norm": 0.2714201509952545,
+      "learning_rate": 1.1066911347604653e-06,
+      "loss": 0.43355650901794435,
+      "memory(GiB)": 86.38,
+      "step": 1805,
+      "token_acc": 0.8681369627127624,
+      "train_speed(iter/s)": 0.033741
+    },
+    {
+      "epoch": 2.378449408672799,
+      "grad_norm": 0.2614336311817169,
+      "learning_rate": 1.0845312566219924e-06,
+      "loss": 0.4319025993347168,
+      "memory(GiB)": 86.38,
+      "step": 1810,
+      "token_acc": 0.869137266528313,
+      "train_speed(iter/s)": 0.033739
+    },
+    {
+      "epoch": 2.3850197109067017,
+      "grad_norm": 0.258635014295578,
+      "learning_rate": 1.0625684693326727e-06,
+      "loss": 0.4368411064147949,
+      "memory(GiB)": 86.38,
+      "step": 1815,
+      "token_acc": 0.8626625620405856,
+      "train_speed(iter/s)": 0.033739
+    },
+    {
+      "epoch": 2.3915900131406045,
+      "grad_norm": 0.2613593637943268,
+      "learning_rate": 1.0408038784215462e-06,
+      "loss": 0.43021059036254883,
+      "memory(GiB)": 86.38,
+      "step": 1820,
+      "token_acc": 0.8690397350993377,
+      "train_speed(iter/s)": 0.033738
+    },
+    {
+      "epoch": 2.3981603153745072,
+      "grad_norm": 0.2565341889858246,
+      "learning_rate": 1.019238579441148e-06,
+      "loss": 0.43543272018432616,
+      "memory(GiB)": 86.38,
+      "step": 1825,
+      "token_acc": 0.8536611843890789,
+      "train_speed(iter/s)": 0.033739
+    },
+    {
+      "epoch": 2.40473061760841,
+      "grad_norm": 0.27332931756973267,
+      "learning_rate": 9.978736579123577e-07,
+      "loss": 0.43721885681152345,
+      "memory(GiB)": 86.38,
+      "step": 1830,
+      "token_acc": 0.8662766830870279,
+      "train_speed(iter/s)": 0.03374
+    },
+    {
+      "epoch": 2.4113009198423128,
+      "grad_norm": 0.25557610392570496,
+      "learning_rate": 9.7671018926977e-07,
+      "loss": 0.4312717914581299,
+      "memory(GiB)": 86.38,
+      "step": 1835,
+      "token_acc": 0.8687478440841669,
+      "train_speed(iter/s)": 0.033742
+    },
+    {
+      "epoch": 2.4178712220762155,
+      "grad_norm": 0.2686271071434021,
+      "learning_rate": 9.5574923880755e-07,
+      "loss": 0.43270196914672854,
+      "memory(GiB)": 86.38,
+      "step": 1840,
+      "token_acc": 0.8766914011348756,
+      "train_speed(iter/s)": 0.033742
+    },
+    {
+      "epoch": 2.4244415243101183,
+      "grad_norm": 0.27892932295799255,
+      "learning_rate": 9.349918616258113e-07,
+      "loss": 0.43126745223999025,
+      "memory(GiB)": 86.38,
+      "step": 1845,
+      "token_acc": 0.8783595334685599,
+      "train_speed(iter/s)": 0.033743
+    },
+    {
+      "epoch": 2.431011826544021,
+      "grad_norm": 0.258810430765152,
+      "learning_rate": 9.144391025775123e-07,
+      "loss": 0.4329942226409912,
+      "memory(GiB)": 86.38,
+      "step": 1850,
+      "token_acc": 0.8575249047268837,
+      "train_speed(iter/s)": 0.033743
+    },
+    {
+      "epoch": 2.437582128777924,
+      "grad_norm": 0.2641558051109314,
+      "learning_rate": 8.940919962158584e-07,
+      "loss": 0.4300084114074707,
+      "memory(GiB)": 86.38,
+      "step": 1855,
+      "token_acc": 0.8717879906071788,
+      "train_speed(iter/s)": 0.033743
+    },
+    {
+      "epoch": 2.4441524310118266,
+      "grad_norm": 0.27095404267311096,
+      "learning_rate": 8.739515667422211e-07,
+      "loss": 0.42922472953796387,
+      "memory(GiB)": 86.38,
+      "step": 1860,
+      "token_acc": 0.8675078864353313,
+      "train_speed(iter/s)": 0.033745
+    },
+    {
+      "epoch": 2.4507227332457293,
+      "grad_norm": 0.25571873784065247,
+      "learning_rate": 8.540188279545942e-07,
+      "loss": 0.4320818901062012,
+      "memory(GiB)": 86.38,
+      "step": 1865,
+      "token_acc": 0.8654411764705883,
+      "train_speed(iter/s)": 0.033748
+    },
+    {
+      "epoch": 2.457293035479632,
+      "grad_norm": 0.260748952627182,
+      "learning_rate": 8.342947831965537e-07,
+      "loss": 0.4332849979400635,
+      "memory(GiB)": 86.38,
+      "step": 1870,
+      "token_acc": 0.8596434777012678,
+      "train_speed(iter/s)": 0.033746
+    },
+    {
+      "epoch": 2.463863337713535,
+      "grad_norm": 0.26162466406822205,
+      "learning_rate": 8.147804253067581e-07,
+      "loss": 0.4324943065643311,
+      "memory(GiB)": 86.38,
+      "step": 1875,
+      "token_acc": 0.8610932130584192,
+      "train_speed(iter/s)": 0.033746
+    },
+    {
+      "epoch": 2.4704336399474376,
+      "grad_norm": 0.2608964443206787,
+      "learning_rate": 7.954767365689675e-07,
+      "loss": 0.43703885078430177,
+      "memory(GiB)": 86.38,
+      "step": 1880,
+      "token_acc": 0.8689590565933764,
+      "train_speed(iter/s)": 0.033743
+    },
+    {
+      "epoch": 2.4770039421813403,
+      "grad_norm": 0.2531532943248749,
+      "learning_rate": 7.763846886626048e-07,
+      "loss": 0.4334650993347168,
+      "memory(GiB)": 86.38,
+      "step": 1885,
+      "token_acc": 0.8626056024899955,
+      "train_speed(iter/s)": 0.033744
+    },
+    {
+      "epoch": 2.483574244415243,
+      "grad_norm": 0.25901561975479126,
+      "learning_rate": 7.575052426138424e-07,
+      "loss": 0.43249049186706545,
+      "memory(GiB)": 86.38,
+      "step": 1890,
+      "token_acc": 0.8670503026093859,
+      "train_speed(iter/s)": 0.033743
+    },
+    {
+      "epoch": 2.490144546649146,
+      "grad_norm": 0.2607087194919586,
+      "learning_rate": 7.388393487472223e-07,
+      "loss": 0.4332951545715332,
+      "memory(GiB)": 86.38,
+      "step": 1895,
+      "token_acc": 0.8609271523178808,
+      "train_speed(iter/s)": 0.033744
+    },
+    {
+      "epoch": 2.4967148488830486,
+      "grad_norm": 0.24934022128582,
+      "learning_rate": 7.203879466378311e-07,
+      "loss": 0.43254899978637695,
+      "memory(GiB)": 86.38,
+      "step": 1900,
+      "token_acc": 0.8726016035388443,
+      "train_speed(iter/s)": 0.033742
+    },
+    {
+      "epoch": 2.5032851511169514,
+      "grad_norm": 0.274565726518631,
+      "learning_rate": 7.021519650639952e-07,
+      "loss": 0.42643136978149415,
+      "memory(GiB)": 86.38,
+      "step": 1905,
+      "token_acc": 0.8752810932364643,
+      "train_speed(iter/s)": 0.033745
+    },
+    {
+      "epoch": 2.509855453350854,
+      "grad_norm": 0.2578328847885132,
+      "learning_rate": 6.841323219605333e-07,
+      "loss": 0.43291406631469725,
+      "memory(GiB)": 86.38,
+      "step": 1910,
+      "token_acc": 0.8636747967479674,
+      "train_speed(iter/s)": 0.033744
+    },
+    {
+      "epoch": 2.516425755584757,
+      "grad_norm": 0.248977929353714,
+      "learning_rate": 6.663299243725512e-07,
+      "loss": 0.42647299766540525,
+      "memory(GiB)": 86.38,
+      "step": 1915,
+      "token_acc": 0.8544173576906291,
+      "train_speed(iter/s)": 0.033743
+    },
+    {
+      "epoch": 2.5229960578186597,
+      "grad_norm": 0.2570980191230774,
+      "learning_rate": 6.487456684097848e-07,
+      "loss": 0.43337106704711914,
+      "memory(GiB)": 86.38,
+      "step": 1920,
+      "token_acc": 0.8634151992585728,
+      "train_speed(iter/s)": 0.033741
+    },
+    {
+      "epoch": 2.5295663600525624,
+      "grad_norm": 0.2565690875053406,
+      "learning_rate": 6.313804392014905e-07,
+      "loss": 0.4316126823425293,
+      "memory(GiB)": 86.38,
+      "step": 1925,
+      "token_acc": 0.8810017459624618,
+      "train_speed(iter/s)": 0.033741
+    },
+    {
+      "epoch": 2.536136662286465,
+      "grad_norm": 0.2750677168369293,
+      "learning_rate": 6.142351108518929e-07,
+      "loss": 0.4336524963378906,
+      "memory(GiB)": 86.38,
+      "step": 1930,
+      "token_acc": 0.8709823449524672,
+      "train_speed(iter/s)": 0.03374
+    },
+    {
+      "epoch": 2.542706964520368,
+      "grad_norm": 0.2661495506763458,
+      "learning_rate": 5.973105463961864e-07,
+      "loss": 0.43224172592163085,
+      "memory(GiB)": 86.38,
+      "step": 1935,
+      "token_acc": 0.8723215768783567,
+      "train_speed(iter/s)": 0.033739
+    },
+    {
+      "epoch": 2.5492772667542707,
+      "grad_norm": 0.2650693655014038,
+      "learning_rate": 5.806075977570886e-07,
+      "loss": 0.43565120697021487,
+      "memory(GiB)": 86.38,
+      "step": 1940,
+      "token_acc": 0.868112798264642,
+      "train_speed(iter/s)": 0.033737
+    },
+    {
+      "epoch": 2.5558475689881734,
+      "grad_norm": 0.26757803559303284,
+      "learning_rate": 5.641271057019637e-07,
+      "loss": 0.4298720359802246,
+      "memory(GiB)": 86.38,
+      "step": 1945,
+      "token_acc": 0.8649701539428213,
+      "train_speed(iter/s)": 0.03374
+    },
+    {
+      "epoch": 2.562417871222076,
+      "grad_norm": 0.2645432949066162,
+      "learning_rate": 5.478698998004967e-07,
+      "loss": 0.4320925235748291,
+      "memory(GiB)": 86.38,
+      "step": 1950,
+      "token_acc": 0.8747405689171042,
+      "train_speed(iter/s)": 0.033741
+    },
+    {
+      "epoch": 2.568988173455979,
+      "grad_norm": 0.2562493085861206,
+      "learning_rate": 5.318367983829393e-07,
+      "loss": 0.43427433967590334,
+      "memory(GiB)": 86.38,
+      "step": 1955,
+      "token_acc": 0.8623294224281183,
+      "train_speed(iter/s)": 0.033742
+    },
+    {
+      "epoch": 2.5755584756898817,
+      "grad_norm": 0.2527105212211609,
+      "learning_rate": 5.160286084989119e-07,
+      "loss": 0.4341059684753418,
+      "memory(GiB)": 86.38,
+      "step": 1960,
+      "token_acc": 0.8693252448908557,
+      "train_speed(iter/s)": 0.033744
+    },
+    {
+      "epoch": 2.5821287779237845,
+      "grad_norm": 0.2574499249458313,
+      "learning_rate": 5.004461258767873e-07,
+      "loss": 0.43187813758850097,
+      "memory(GiB)": 86.38,
+      "step": 1965,
+      "token_acc": 0.866506053867062,
+      "train_speed(iter/s)": 0.033744
+    },
+    {
+      "epoch": 2.5886990801576872,
+      "grad_norm": 0.2509396970272064,
+      "learning_rate": 4.850901348836328e-07,
+      "loss": 0.4363058090209961,
+      "memory(GiB)": 86.38,
+      "step": 1970,
+      "token_acc": 0.8651067174557108,
+      "train_speed(iter/s)": 0.033744
+    },
+    {
+      "epoch": 2.59526938239159,
+      "grad_norm": 0.25620976090431213,
+      "learning_rate": 4.699614084857257e-07,
+      "loss": 0.43309574127197265,
+      "memory(GiB)": 86.38,
+      "step": 1975,
+      "token_acc": 0.8586676260718354,
+      "train_speed(iter/s)": 0.033748
+    },
+    {
+      "epoch": 2.6018396846254928,
+      "grad_norm": 0.26240846514701843,
+      "learning_rate": 4.5506070820964973e-07,
+      "loss": 0.4343746185302734,
+      "memory(GiB)": 86.38,
+      "step": 1980,
+      "token_acc": 0.8798804986092511,
+      "train_speed(iter/s)": 0.033746
+    },
+    {
+      "epoch": 2.6084099868593955,
+      "grad_norm": 0.2610469460487366,
+      "learning_rate": 4.4038878410396003e-07,
+      "loss": 0.43410425186157225,
+      "memory(GiB)": 86.38,
+      "step": 1985,
+      "token_acc": 0.8795611253711813,
+      "train_speed(iter/s)": 0.033747
+    },
+    {
+      "epoch": 2.6149802890932983,
+      "grad_norm": 0.26572689414024353,
+      "learning_rate": 4.2594637470142587e-07,
+      "loss": 0.4306765556335449,
+      "memory(GiB)": 86.38,
+      "step": 1990,
+      "token_acc": 0.8712702886577899,
+      "train_speed(iter/s)": 0.033746
+    },
+    {
+      "epoch": 2.621550591327201,
+      "grad_norm": 0.2641327381134033,
+      "learning_rate": 4.1173420698186027e-07,
+      "loss": 0.4300968647003174,
+      "memory(GiB)": 86.38,
+      "step": 1995,
+      "token_acc": 0.8624918094168305,
+      "train_speed(iter/s)": 0.033745
+    },
+    {
+      "epoch": 2.628120893561104,
+      "grad_norm": 0.2534749507904053,
+      "learning_rate": 3.9775299633552535e-07,
+      "loss": 0.43284106254577637,
+      "memory(GiB)": 86.38,
+      "step": 2000,
+      "token_acc": 0.8643312431984246,
+      "train_speed(iter/s)": 0.033744
+    },
+    {
+      "epoch": 2.6346911957950065,
+      "grad_norm": 0.2566858232021332,
+      "learning_rate": 3.840034465271164e-07,
+      "loss": 0.4347895622253418,
+      "memory(GiB)": 86.38,
+      "step": 2005,
+      "token_acc": 0.8744274109814939,
+      "train_speed(iter/s)": 0.033742
+    },
+    {
+      "epoch": 2.6412614980289093,
+      "grad_norm": 0.2541216313838959,
+      "learning_rate": 3.7048624966034506e-07,
+      "loss": 0.4313460350036621,
+      "memory(GiB)": 86.38,
+      "step": 2010,
+      "token_acc": 0.8607475533545572,
+      "train_speed(iter/s)": 0.033742
+    },
+    {
+      "epoch": 2.647831800262812,
+      "grad_norm": 0.2455441802740097,
+      "learning_rate": 3.572020861430997e-07,
+      "loss": 0.429301118850708,
+      "memory(GiB)": 86.38,
+      "step": 2015,
+      "token_acc": 0.8699587080717235,
+      "train_speed(iter/s)": 0.033745
+    },
+    {
+      "epoch": 2.654402102496715,
+      "grad_norm": 0.2605392336845398,
+      "learning_rate": 3.4415162465318843e-07,
+      "loss": 0.43214893341064453,
+      "memory(GiB)": 86.38,
+      "step": 2020,
+      "token_acc": 0.8749286122215877,
+      "train_speed(iter/s)": 0.033746
+    },
+    {
+      "epoch": 2.6609724047306176,
+      "grad_norm": 0.25466424226760864,
+      "learning_rate": 3.313355221046888e-07,
+      "loss": 0.4351536273956299,
+      "memory(GiB)": 86.38,
+      "step": 2025,
+      "token_acc": 0.8606416722999324,
+      "train_speed(iter/s)": 0.033747
+    },
+    {
+      "epoch": 2.6675427069645203,
+      "grad_norm": 0.26080095767974854,
+      "learning_rate": 3.1875442361487987e-07,
+      "loss": 0.43200006484985354,
+      "memory(GiB)": 86.38,
+      "step": 2030,
+      "token_acc": 0.8577261487147047,
+      "train_speed(iter/s)": 0.033746
+    },
+    {
+      "epoch": 2.674113009198423,
+      "grad_norm": 0.2586158215999603,
+      "learning_rate": 3.0640896247176257e-07,
+      "loss": 0.4336066246032715,
+      "memory(GiB)": 86.38,
+      "step": 2035,
+      "token_acc": 0.8641052229438411,
+      "train_speed(iter/s)": 0.033748
+    },
+    {
+      "epoch": 2.680683311432326,
+      "grad_norm": 0.25608712434768677,
+      "learning_rate": 2.942997601021924e-07,
+      "loss": 0.431638240814209,
+      "memory(GiB)": 86.38,
+      "step": 2040,
+      "token_acc": 0.8686192034065534,
+      "train_speed(iter/s)": 0.033749
+    },
+    {
+      "epoch": 2.6872536136662286,
+      "grad_norm": 0.2741917669773102,
+      "learning_rate": 2.824274260405896e-07,
+      "loss": 0.43211984634399414,
+      "memory(GiB)": 86.38,
+      "step": 2045,
+      "token_acc": 0.8671380975045897,
+      "train_speed(iter/s)": 0.03375
+    },
+    {
+      "epoch": 2.6938239159001314,
+      "grad_norm": 0.25155529379844666,
+      "learning_rate": 2.7079255789826565e-07,
+      "loss": 0.4306828022003174,
+      "memory(GiB)": 86.38,
+      "step": 2050,
+      "token_acc": 0.8573598004121922,
+      "train_speed(iter/s)": 0.03375
+    },
+    {
+      "epoch": 2.700394218134034,
+      "grad_norm": 0.2564401924610138,
+      "learning_rate": 2.593957413333331e-07,
+      "loss": 0.435395622253418,
+      "memory(GiB)": 86.38,
+      "step": 2055,
+      "token_acc": 0.8754750443374715,
+      "train_speed(iter/s)": 0.033751
+    },
+    {
+      "epoch": 2.706964520367937,
+      "grad_norm": 0.26199498772621155,
+      "learning_rate": 2.4823755002123253e-07,
+      "loss": 0.43353948593139646,
+      "memory(GiB)": 86.38,
+      "step": 2060,
+      "token_acc": 0.864589503613316,
+      "train_speed(iter/s)": 0.033752
+    },
+    {
+      "epoch": 2.7135348226018396,
+      "grad_norm": 0.25014081597328186,
+      "learning_rate": 2.373185456258531e-07,
+      "loss": 0.43132529258728025,
+      "memory(GiB)": 86.38,
+      "step": 2065,
+      "token_acc": 0.8730107001249253,
+      "train_speed(iter/s)": 0.033753
+    },
+    {
+      "epoch": 2.7201051248357424,
+      "grad_norm": 0.26392775774002075,
+      "learning_rate": 2.266392777712595e-07,
+      "loss": 0.4323751926422119,
+      "memory(GiB)": 86.38,
+      "step": 2070,
+      "token_acc": 0.8591085068536152,
+      "train_speed(iter/s)": 0.033755
+    },
+    {
+      "epoch": 2.726675427069645,
+      "grad_norm": 0.2512003779411316,
+      "learning_rate": 2.1620028401402815e-07,
+      "loss": 0.42936067581176757,
+      "memory(GiB)": 86.38,
+      "step": 2075,
+      "token_acc": 0.8530398736675878,
+      "train_speed(iter/s)": 0.033755
+    },
+    {
+      "epoch": 2.733245729303548,
+      "grad_norm": 0.2585814893245697,
+      "learning_rate": 2.060020898161863e-07,
+      "loss": 0.4324427604675293,
+      "memory(GiB)": 86.38,
+      "step": 2080,
+      "token_acc": 0.8682577296321372,
+      "train_speed(iter/s)": 0.033755
+    },
+    {
+      "epoch": 2.7398160315374507,
+      "grad_norm": 0.2547103464603424,
+      "learning_rate": 1.9604520851876196e-07,
+      "loss": 0.42908296585083006,
+      "memory(GiB)": 86.38,
+      "step": 2085,
+      "token_acc": 0.876189898744922,
+      "train_speed(iter/s)": 0.033753
+    },
+    {
+      "epoch": 2.7463863337713534,
+      "grad_norm": 0.25863251090049744,
+      "learning_rate": 1.863301413159474e-07,
+      "loss": 0.43100652694702146,
+      "memory(GiB)": 86.38,
+      "step": 2090,
+      "token_acc": 0.8747226144845672,
+      "train_speed(iter/s)": 0.033756
+    },
+    {
+      "epoch": 2.752956636005256,
+      "grad_norm": 0.2541860044002533,
+      "learning_rate": 1.768573772298665e-07,
+      "loss": 0.43143587112426757,
+      "memory(GiB)": 86.38,
+      "step": 2095,
+      "token_acc": 0.8809481163054511,
+      "train_speed(iter/s)": 0.033757
+    },
+    {
+      "epoch": 2.759526938239159,
+      "grad_norm": 0.24803873896598816,
+      "learning_rate": 1.6762739308596343e-07,
+      "loss": 0.4299370765686035,
+      "memory(GiB)": 86.38,
+      "step": 2100,
+      "token_acc": 0.8700363353231249,
+      "train_speed(iter/s)": 0.033756
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 2283,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 300,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.4827819580022116e+20,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}