| { | |
| "best_global_step": null, | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 2.5, | |
| "eval_steps": 30, | |
| "global_step": 300, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.008333333333333333, | |
| "grad_norm": 0.9462232657835241, | |
| "learning_rate": 8.142857142857143e-07, | |
| "loss": 2.5443, | |
| "step": 1 | |
| }, | |
| { | |
| "epoch": 0.008333333333333333, | |
| "eval_loss": 2.5896365642547607, | |
| "eval_runtime": 96.0059, | |
| "eval_samples_per_second": 4.271, | |
| "eval_steps_per_second": 0.271, | |
| "step": 1 | |
| }, | |
| { | |
| "epoch": 0.016666666666666666, | |
| "grad_norm": 0.9597143397960513, | |
| "learning_rate": 1.6285714285714286e-06, | |
| "loss": 2.5524, | |
| "step": 2 | |
| }, | |
| { | |
| "epoch": 0.025, | |
| "grad_norm": 0.9246258453027174, | |
| "learning_rate": 2.442857142857143e-06, | |
| "loss": 2.5411, | |
| "step": 3 | |
| }, | |
| { | |
| "epoch": 0.03333333333333333, | |
| "grad_norm": 0.9822285829186661, | |
| "learning_rate": 3.2571428571428572e-06, | |
| "loss": 2.5518, | |
| "step": 4 | |
| }, | |
| { | |
| "epoch": 0.041666666666666664, | |
| "grad_norm": 0.9044329068814566, | |
| "learning_rate": 4.071428571428572e-06, | |
| "loss": 2.4922, | |
| "step": 5 | |
| }, | |
| { | |
| "epoch": 0.05, | |
| "grad_norm": 0.9131300887744053, | |
| "learning_rate": 4.885714285714286e-06, | |
| "loss": 2.5713, | |
| "step": 6 | |
| }, | |
| { | |
| "epoch": 0.058333333333333334, | |
| "grad_norm": 0.8336298309675122, | |
| "learning_rate": 5.7000000000000005e-06, | |
| "loss": 2.4959, | |
| "step": 7 | |
| }, | |
| { | |
| "epoch": 0.06666666666666667, | |
| "grad_norm": 0.810775409605909, | |
| "learning_rate": 6.5142857142857145e-06, | |
| "loss": 2.4943, | |
| "step": 8 | |
| }, | |
| { | |
| "epoch": 0.075, | |
| "grad_norm": 0.6993505055921954, | |
| "learning_rate": 7.3285714285714285e-06, | |
| "loss": 2.5022, | |
| "step": 9 | |
| }, | |
| { | |
| "epoch": 0.08333333333333333, | |
| "grad_norm": 0.5909140859664664, | |
| "learning_rate": 8.142857142857143e-06, | |
| "loss": 2.468, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.09166666666666666, | |
| "grad_norm": 0.5464791893738283, | |
| "learning_rate": 8.957142857142857e-06, | |
| "loss": 2.5203, | |
| "step": 11 | |
| }, | |
| { | |
| "epoch": 0.1, | |
| "grad_norm": 0.41153668995149084, | |
| "learning_rate": 9.771428571428571e-06, | |
| "loss": 2.4912, | |
| "step": 12 | |
| }, | |
| { | |
| "epoch": 0.10833333333333334, | |
| "grad_norm": 0.35433353277028035, | |
| "learning_rate": 1.0585714285714287e-05, | |
| "loss": 2.4467, | |
| "step": 13 | |
| }, | |
| { | |
| "epoch": 0.11666666666666667, | |
| "grad_norm": 0.27579908222756766, | |
| "learning_rate": 1.1400000000000001e-05, | |
| "loss": 2.4599, | |
| "step": 14 | |
| }, | |
| { | |
| "epoch": 0.125, | |
| "grad_norm": 0.22636758420678307, | |
| "learning_rate": 1.2214285714285715e-05, | |
| "loss": 2.4357, | |
| "step": 15 | |
| }, | |
| { | |
| "epoch": 0.13333333333333333, | |
| "grad_norm": 0.22309908436920517, | |
| "learning_rate": 1.3028571428571429e-05, | |
| "loss": 2.368, | |
| "step": 16 | |
| }, | |
| { | |
| "epoch": 0.14166666666666666, | |
| "grad_norm": 0.2384290311446137, | |
| "learning_rate": 1.3842857142857143e-05, | |
| "loss": 2.4054, | |
| "step": 17 | |
| }, | |
| { | |
| "epoch": 0.15, | |
| "grad_norm": 0.2279055472006466, | |
| "learning_rate": 1.4657142857142857e-05, | |
| "loss": 2.4162, | |
| "step": 18 | |
| }, | |
| { | |
| "epoch": 0.15833333333333333, | |
| "grad_norm": 0.24659885813398136, | |
| "learning_rate": 1.547142857142857e-05, | |
| "loss": 2.4109, | |
| "step": 19 | |
| }, | |
| { | |
| "epoch": 0.16666666666666666, | |
| "grad_norm": 0.21920560481126147, | |
| "learning_rate": 1.6285714285714287e-05, | |
| "loss": 2.4344, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.175, | |
| "grad_norm": 0.21340860355678012, | |
| "learning_rate": 1.71e-05, | |
| "loss": 2.4532, | |
| "step": 21 | |
| }, | |
| { | |
| "epoch": 0.18333333333333332, | |
| "grad_norm": 0.1775246176788835, | |
| "learning_rate": 1.7914285714285715e-05, | |
| "loss": 2.4398, | |
| "step": 22 | |
| }, | |
| { | |
| "epoch": 0.19166666666666668, | |
| "grad_norm": 0.15469100364725502, | |
| "learning_rate": 1.872857142857143e-05, | |
| "loss": 2.4275, | |
| "step": 23 | |
| }, | |
| { | |
| "epoch": 0.2, | |
| "grad_norm": 0.1261136620302219, | |
| "learning_rate": 1.9542857142857143e-05, | |
| "loss": 2.3855, | |
| "step": 24 | |
| }, | |
| { | |
| "epoch": 0.20833333333333334, | |
| "grad_norm": 0.1251566381945981, | |
| "learning_rate": 2.0357142857142858e-05, | |
| "loss": 2.4008, | |
| "step": 25 | |
| }, | |
| { | |
| "epoch": 0.21666666666666667, | |
| "grad_norm": 0.12280228065778742, | |
| "learning_rate": 2.1171428571428574e-05, | |
| "loss": 2.4086, | |
| "step": 26 | |
| }, | |
| { | |
| "epoch": 0.225, | |
| "grad_norm": 0.1362748806421765, | |
| "learning_rate": 2.1985714285714286e-05, | |
| "loss": 2.3642, | |
| "step": 27 | |
| }, | |
| { | |
| "epoch": 0.23333333333333334, | |
| "grad_norm": 0.12370426656542512, | |
| "learning_rate": 2.2800000000000002e-05, | |
| "loss": 2.4168, | |
| "step": 28 | |
| }, | |
| { | |
| "epoch": 0.24166666666666667, | |
| "grad_norm": 0.12077140199925576, | |
| "learning_rate": 2.3614285714285718e-05, | |
| "loss": 2.3502, | |
| "step": 29 | |
| }, | |
| { | |
| "epoch": 0.25, | |
| "grad_norm": 0.10854652278245232, | |
| "learning_rate": 2.442857142857143e-05, | |
| "loss": 2.323, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.25, | |
| "eval_loss": 2.4455511569976807, | |
| "eval_runtime": 82.5732, | |
| "eval_samples_per_second": 4.965, | |
| "eval_steps_per_second": 0.315, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.25833333333333336, | |
| "grad_norm": 0.10286886191993252, | |
| "learning_rate": 2.5242857142857142e-05, | |
| "loss": 2.4007, | |
| "step": 31 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "grad_norm": 0.09687340891245565, | |
| "learning_rate": 2.6057142857142858e-05, | |
| "loss": 2.4088, | |
| "step": 32 | |
| }, | |
| { | |
| "epoch": 0.275, | |
| "grad_norm": 0.09653492248714694, | |
| "learning_rate": 2.6871428571428574e-05, | |
| "loss": 2.3906, | |
| "step": 33 | |
| }, | |
| { | |
| "epoch": 0.2833333333333333, | |
| "grad_norm": 0.09022900019263645, | |
| "learning_rate": 2.7685714285714286e-05, | |
| "loss": 2.4065, | |
| "step": 34 | |
| }, | |
| { | |
| "epoch": 0.2916666666666667, | |
| "grad_norm": 0.0912409242342349, | |
| "learning_rate": 2.85e-05, | |
| "loss": 2.3699, | |
| "step": 35 | |
| }, | |
| { | |
| "epoch": 0.3, | |
| "grad_norm": 0.09592020125185927, | |
| "learning_rate": 2.8499644890093217e-05, | |
| "loss": 2.3587, | |
| "step": 36 | |
| }, | |
| { | |
| "epoch": 0.30833333333333335, | |
| "grad_norm": 0.0907084429462166, | |
| "learning_rate": 2.8498579578071537e-05, | |
| "loss": 2.4259, | |
| "step": 37 | |
| }, | |
| { | |
| "epoch": 0.31666666666666665, | |
| "grad_norm": 0.09390099422567517, | |
| "learning_rate": 2.8496804117030106e-05, | |
| "loss": 2.3232, | |
| "step": 38 | |
| }, | |
| { | |
| "epoch": 0.325, | |
| "grad_norm": 0.08704027284958313, | |
| "learning_rate": 2.849431859545787e-05, | |
| "loss": 2.4027, | |
| "step": 39 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "grad_norm": 0.08787482564111378, | |
| "learning_rate": 2.849112313723319e-05, | |
| "loss": 2.3827, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.3416666666666667, | |
| "grad_norm": 0.08422520058818864, | |
| "learning_rate": 2.8487217901617672e-05, | |
| "loss": 2.353, | |
| "step": 41 | |
| }, | |
| { | |
| "epoch": 0.35, | |
| "grad_norm": 0.07979320980153469, | |
| "learning_rate": 2.84826030832482e-05, | |
| "loss": 2.3519, | |
| "step": 42 | |
| }, | |
| { | |
| "epoch": 0.35833333333333334, | |
| "grad_norm": 0.07814774416810645, | |
| "learning_rate": 2.8477278912127266e-05, | |
| "loss": 2.3708, | |
| "step": 43 | |
| }, | |
| { | |
| "epoch": 0.36666666666666664, | |
| "grad_norm": 0.07237049854036091, | |
| "learning_rate": 2.847124565361149e-05, | |
| "loss": 2.388, | |
| "step": 44 | |
| }, | |
| { | |
| "epoch": 0.375, | |
| "grad_norm": 0.07354258492789081, | |
| "learning_rate": 2.8464503608398385e-05, | |
| "loss": 2.3586, | |
| "step": 45 | |
| }, | |
| { | |
| "epoch": 0.38333333333333336, | |
| "grad_norm": 0.0771281784161838, | |
| "learning_rate": 2.845705311251141e-05, | |
| "loss": 2.3993, | |
| "step": 46 | |
| }, | |
| { | |
| "epoch": 0.39166666666666666, | |
| "grad_norm": 0.0763264062020341, | |
| "learning_rate": 2.844889453728318e-05, | |
| "loss": 2.3838, | |
| "step": 47 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "grad_norm": 0.07082143620733677, | |
| "learning_rate": 2.8440028289336977e-05, | |
| "loss": 2.3628, | |
| "step": 48 | |
| }, | |
| { | |
| "epoch": 0.4083333333333333, | |
| "grad_norm": 0.0715578975320661, | |
| "learning_rate": 2.8430454810566477e-05, | |
| "loss": 2.361, | |
| "step": 49 | |
| }, | |
| { | |
| "epoch": 0.4166666666666667, | |
| "grad_norm": 0.06881630985450242, | |
| "learning_rate": 2.8420174578113747e-05, | |
| "loss": 2.4392, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.425, | |
| "grad_norm": 0.0689279893077156, | |
| "learning_rate": 2.8409188104345426e-05, | |
| "loss": 2.3519, | |
| "step": 51 | |
| }, | |
| { | |
| "epoch": 0.43333333333333335, | |
| "grad_norm": 0.07069081407018309, | |
| "learning_rate": 2.8397495936827232e-05, | |
| "loss": 2.3981, | |
| "step": 52 | |
| }, | |
| { | |
| "epoch": 0.44166666666666665, | |
| "grad_norm": 0.07092917277421104, | |
| "learning_rate": 2.8385098658296637e-05, | |
| "loss": 2.355, | |
| "step": 53 | |
| }, | |
| { | |
| "epoch": 0.45, | |
| "grad_norm": 0.0703607034709259, | |
| "learning_rate": 2.8371996886633843e-05, | |
| "loss": 2.3793, | |
| "step": 54 | |
| }, | |
| { | |
| "epoch": 0.4583333333333333, | |
| "grad_norm": 0.07124199690967324, | |
| "learning_rate": 2.8358191274830974e-05, | |
| "loss": 2.4275, | |
| "step": 55 | |
| }, | |
| { | |
| "epoch": 0.4666666666666667, | |
| "grad_norm": 0.07099804346309355, | |
| "learning_rate": 2.8343682510959552e-05, | |
| "loss": 2.3323, | |
| "step": 56 | |
| }, | |
| { | |
| "epoch": 0.475, | |
| "grad_norm": 0.06967632308939245, | |
| "learning_rate": 2.8328471318136165e-05, | |
| "loss": 2.3883, | |
| "step": 57 | |
| }, | |
| { | |
| "epoch": 0.48333333333333334, | |
| "grad_norm": 0.07156300179553134, | |
| "learning_rate": 2.831255845448647e-05, | |
| "loss": 2.3298, | |
| "step": 58 | |
| }, | |
| { | |
| "epoch": 0.49166666666666664, | |
| "grad_norm": 0.0704201532980033, | |
| "learning_rate": 2.8295944713107387e-05, | |
| "loss": 2.331, | |
| "step": 59 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "grad_norm": 0.06794782460291071, | |
| "learning_rate": 2.8278630922027563e-05, | |
| "loss": 2.3776, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "eval_loss": 2.4216628074645996, | |
| "eval_runtime": 82.3879, | |
| "eval_samples_per_second": 4.976, | |
| "eval_steps_per_second": 0.316, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.5083333333333333, | |
| "grad_norm": 0.07045949082426937, | |
| "learning_rate": 2.8260617944166123e-05, | |
| "loss": 2.3319, | |
| "step": 61 | |
| }, | |
| { | |
| "epoch": 0.5166666666666667, | |
| "grad_norm": 0.0702234192794877, | |
| "learning_rate": 2.824190667728965e-05, | |
| "loss": 2.3647, | |
| "step": 62 | |
| }, | |
| { | |
| "epoch": 0.525, | |
| "grad_norm": 0.06946814214632402, | |
| "learning_rate": 2.8222498053967434e-05, | |
| "loss": 2.3967, | |
| "step": 63 | |
| }, | |
| { | |
| "epoch": 0.5333333333333333, | |
| "grad_norm": 0.06563265580127577, | |
| "learning_rate": 2.8202393041525005e-05, | |
| "loss": 2.3863, | |
| "step": 64 | |
| }, | |
| { | |
| "epoch": 0.5416666666666666, | |
| "grad_norm": 0.0723770670150652, | |
| "learning_rate": 2.8181592641995933e-05, | |
| "loss": 2.3823, | |
| "step": 65 | |
| }, | |
| { | |
| "epoch": 0.55, | |
| "grad_norm": 0.06870429029917037, | |
| "learning_rate": 2.8160097892071847e-05, | |
| "loss": 2.3241, | |
| "step": 66 | |
| }, | |
| { | |
| "epoch": 0.5583333333333333, | |
| "grad_norm": 0.08615444480664787, | |
| "learning_rate": 2.8137909863050806e-05, | |
| "loss": 2.3504, | |
| "step": 67 | |
| }, | |
| { | |
| "epoch": 0.5666666666666667, | |
| "grad_norm": 0.06980417460436542, | |
| "learning_rate": 2.8115029660783887e-05, | |
| "loss": 2.3762, | |
| "step": 68 | |
| }, | |
| { | |
| "epoch": 0.575, | |
| "grad_norm": 0.0691283200064781, | |
| "learning_rate": 2.809145842562007e-05, | |
| "loss": 2.3202, | |
| "step": 69 | |
| }, | |
| { | |
| "epoch": 0.5833333333333334, | |
| "grad_norm": 0.06434433998677834, | |
| "learning_rate": 2.8067197332349406e-05, | |
| "loss": 2.4117, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 0.5916666666666667, | |
| "grad_norm": 0.06712521054811822, | |
| "learning_rate": 2.8042247590144472e-05, | |
| "loss": 2.4234, | |
| "step": 71 | |
| }, | |
| { | |
| "epoch": 0.6, | |
| "grad_norm": 0.07781170630767965, | |
| "learning_rate": 2.8016610442500087e-05, | |
| "loss": 2.3614, | |
| "step": 72 | |
| }, | |
| { | |
| "epoch": 0.6083333333333333, | |
| "grad_norm": 0.07179449259884696, | |
| "learning_rate": 2.7990287167171357e-05, | |
| "loss": 2.327, | |
| "step": 73 | |
| }, | |
| { | |
| "epoch": 0.6166666666666667, | |
| "grad_norm": 0.0666012429917219, | |
| "learning_rate": 2.7963279076109976e-05, | |
| "loss": 2.3606, | |
| "step": 74 | |
| }, | |
| { | |
| "epoch": 0.625, | |
| "grad_norm": 0.07042352420672252, | |
| "learning_rate": 2.7935587515398855e-05, | |
| "loss": 2.387, | |
| "step": 75 | |
| }, | |
| { | |
| "epoch": 0.6333333333333333, | |
| "grad_norm": 0.07141219809062525, | |
| "learning_rate": 2.7907213865185014e-05, | |
| "loss": 2.3975, | |
| "step": 76 | |
| }, | |
| { | |
| "epoch": 0.6416666666666667, | |
| "grad_norm": 0.07530038535140655, | |
| "learning_rate": 2.787815953961081e-05, | |
| "loss": 2.3975, | |
| "step": 77 | |
| }, | |
| { | |
| "epoch": 0.65, | |
| "grad_norm": 0.06873021297298251, | |
| "learning_rate": 2.784842598674345e-05, | |
| "loss": 2.3724, | |
| "step": 78 | |
| }, | |
| { | |
| "epoch": 0.6583333333333333, | |
| "grad_norm": 0.06853494667979494, | |
| "learning_rate": 2.781801468850282e-05, | |
| "loss": 2.3994, | |
| "step": 79 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "grad_norm": 0.07164446612343163, | |
| "learning_rate": 2.778692716058762e-05, | |
| "loss": 2.3448, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 0.675, | |
| "grad_norm": 0.07112624750325054, | |
| "learning_rate": 2.7755164952399844e-05, | |
| "loss": 2.2984, | |
| "step": 81 | |
| }, | |
| { | |
| "epoch": 0.6833333333333333, | |
| "grad_norm": 0.07679055297227524, | |
| "learning_rate": 2.7722729646967527e-05, | |
| "loss": 2.3699, | |
| "step": 82 | |
| }, | |
| { | |
| "epoch": 0.6916666666666667, | |
| "grad_norm": 0.07270378630883641, | |
| "learning_rate": 2.768962286086587e-05, | |
| "loss": 2.3436, | |
| "step": 83 | |
| }, | |
| { | |
| "epoch": 0.7, | |
| "grad_norm": 0.06869524209312625, | |
| "learning_rate": 2.7655846244136654e-05, | |
| "loss": 2.3856, | |
| "step": 84 | |
| }, | |
| { | |
| "epoch": 0.7083333333333334, | |
| "grad_norm": 0.07006104211903366, | |
| "learning_rate": 2.762140148020602e-05, | |
| "loss": 2.3852, | |
| "step": 85 | |
| }, | |
| { | |
| "epoch": 0.7166666666666667, | |
| "grad_norm": 0.07264285304887648, | |
| "learning_rate": 2.758629028580055e-05, | |
| "loss": 2.3834, | |
| "step": 86 | |
| }, | |
| { | |
| "epoch": 0.725, | |
| "grad_norm": 0.07253530482477301, | |
| "learning_rate": 2.7550514410861718e-05, | |
| "loss": 2.3573, | |
| "step": 87 | |
| }, | |
| { | |
| "epoch": 0.7333333333333333, | |
| "grad_norm": 0.07265955522289944, | |
| "learning_rate": 2.751407563845866e-05, | |
| "loss": 2.3163, | |
| "step": 88 | |
| }, | |
| { | |
| "epoch": 0.7416666666666667, | |
| "grad_norm": 0.07374626234739601, | |
| "learning_rate": 2.747697578469931e-05, | |
| "loss": 2.3851, | |
| "step": 89 | |
| }, | |
| { | |
| "epoch": 0.75, | |
| "grad_norm": 0.07255481420091238, | |
| "learning_rate": 2.7439216698639904e-05, | |
| "loss": 2.3345, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 0.75, | |
| "eval_loss": 2.4115521907806396, | |
| "eval_runtime": 82.0248, | |
| "eval_samples_per_second": 4.998, | |
| "eval_steps_per_second": 0.317, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 0.7583333333333333, | |
| "grad_norm": 0.06817548300510701, | |
| "learning_rate": 2.7400800262192788e-05, | |
| "loss": 2.3449, | |
| "step": 91 | |
| }, | |
| { | |
| "epoch": 0.7666666666666667, | |
| "grad_norm": 0.07336990573663302, | |
| "learning_rate": 2.7361728390032657e-05, | |
| "loss": 2.3448, | |
| "step": 92 | |
| }, | |
| { | |
| "epoch": 0.775, | |
| "grad_norm": 0.07822885886131264, | |
| "learning_rate": 2.732200302950111e-05, | |
| "loss": 2.3217, | |
| "step": 93 | |
| }, | |
| { | |
| "epoch": 0.7833333333333333, | |
| "grad_norm": 0.07296512071361201, | |
| "learning_rate": 2.728162616050959e-05, | |
| "loss": 2.3329, | |
| "step": 94 | |
| }, | |
| { | |
| "epoch": 0.7916666666666666, | |
| "grad_norm": 0.07367928865175823, | |
| "learning_rate": 2.724059979544072e-05, | |
| "loss": 2.3208, | |
| "step": 95 | |
| }, | |
| { | |
| "epoch": 0.8, | |
| "grad_norm": 0.07504139519989858, | |
| "learning_rate": 2.719892597904801e-05, | |
| "loss": 2.3483, | |
| "step": 96 | |
| }, | |
| { | |
| "epoch": 0.8083333333333333, | |
| "grad_norm": 0.06790757702451031, | |
| "learning_rate": 2.7156606788353906e-05, | |
| "loss": 2.4128, | |
| "step": 97 | |
| }, | |
| { | |
| "epoch": 0.8166666666666667, | |
| "grad_norm": 0.07011160737870108, | |
| "learning_rate": 2.7113644332546336e-05, | |
| "loss": 2.3832, | |
| "step": 98 | |
| }, | |
| { | |
| "epoch": 0.825, | |
| "grad_norm": 0.08077329808935288, | |
| "learning_rate": 2.707004075287352e-05, | |
| "loss": 2.3308, | |
| "step": 99 | |
| }, | |
| { | |
| "epoch": 0.8333333333333334, | |
| "grad_norm": 0.0719496280235162, | |
| "learning_rate": 2.7025798222537306e-05, | |
| "loss": 2.3254, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.8416666666666667, | |
| "grad_norm": 0.07275409855582728, | |
| "learning_rate": 2.698091894658483e-05, | |
| "loss": 2.3967, | |
| "step": 101 | |
| }, | |
| { | |
| "epoch": 0.85, | |
| "grad_norm": 0.07201531734077336, | |
| "learning_rate": 2.693540516179861e-05, | |
| "loss": 2.3346, | |
| "step": 102 | |
| }, | |
| { | |
| "epoch": 0.8583333333333333, | |
| "grad_norm": 0.0765467775604243, | |
| "learning_rate": 2.6889259136585094e-05, | |
| "loss": 2.3336, | |
| "step": 103 | |
| }, | |
| { | |
| "epoch": 0.8666666666666667, | |
| "grad_norm": 0.077223728318478, | |
| "learning_rate": 2.6842483170861568e-05, | |
| "loss": 2.3313, | |
| "step": 104 | |
| }, | |
| { | |
| "epoch": 0.875, | |
| "grad_norm": 0.07639332869289207, | |
| "learning_rate": 2.6795079595941553e-05, | |
| "loss": 2.4008, | |
| "step": 105 | |
| }, | |
| { | |
| "epoch": 0.8833333333333333, | |
| "grad_norm": 0.07440505813328589, | |
| "learning_rate": 2.6747050774418605e-05, | |
| "loss": 2.3425, | |
| "step": 106 | |
| }, | |
| { | |
| "epoch": 0.8916666666666667, | |
| "grad_norm": 0.06937810484842656, | |
| "learning_rate": 2.6698399100048556e-05, | |
| "loss": 2.3349, | |
| "step": 107 | |
| }, | |
| { | |
| "epoch": 0.9, | |
| "grad_norm": 0.07336400555418392, | |
| "learning_rate": 2.6649126997630225e-05, | |
| "loss": 2.3792, | |
| "step": 108 | |
| }, | |
| { | |
| "epoch": 0.9083333333333333, | |
| "grad_norm": 0.07442564570941794, | |
| "learning_rate": 2.6599236922884547e-05, | |
| "loss": 2.3683, | |
| "step": 109 | |
| }, | |
| { | |
| "epoch": 0.9166666666666666, | |
| "grad_norm": 0.07470689463768693, | |
| "learning_rate": 2.65487313623322e-05, | |
| "loss": 2.3036, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 0.925, | |
| "grad_norm": 0.07096997017300663, | |
| "learning_rate": 2.649761283316966e-05, | |
| "loss": 2.3682, | |
| "step": 111 | |
| }, | |
| { | |
| "epoch": 0.9333333333333333, | |
| "grad_norm": 0.07511821034386772, | |
| "learning_rate": 2.6445883883143744e-05, | |
| "loss": 2.3346, | |
| "step": 112 | |
| }, | |
| { | |
| "epoch": 0.9416666666666667, | |
| "grad_norm": 0.07057540374817312, | |
| "learning_rate": 2.639354709042466e-05, | |
| "loss": 2.3502, | |
| "step": 113 | |
| }, | |
| { | |
| "epoch": 0.95, | |
| "grad_norm": 0.07300364605060353, | |
| "learning_rate": 2.6340605063477456e-05, | |
| "loss": 2.3711, | |
| "step": 114 | |
| }, | |
| { | |
| "epoch": 0.9583333333333334, | |
| "grad_norm": 0.06925480258849577, | |
| "learning_rate": 2.628706044093207e-05, | |
| "loss": 2.3816, | |
| "step": 115 | |
| }, | |
| { | |
| "epoch": 0.9666666666666667, | |
| "grad_norm": 0.0705107307569524, | |
| "learning_rate": 2.623291589145179e-05, | |
| "loss": 2.2958, | |
| "step": 116 | |
| }, | |
| { | |
| "epoch": 0.975, | |
| "grad_norm": 0.07331112076487026, | |
| "learning_rate": 2.6178174113600252e-05, | |
| "loss": 2.3279, | |
| "step": 117 | |
| }, | |
| { | |
| "epoch": 0.9833333333333333, | |
| "grad_norm": 0.06780655482074792, | |
| "learning_rate": 2.612283783570695e-05, | |
| "loss": 2.4117, | |
| "step": 118 | |
| }, | |
| { | |
| "epoch": 0.9916666666666667, | |
| "grad_norm": 0.07485055181125701, | |
| "learning_rate": 2.606690981573125e-05, | |
| "loss": 2.303, | |
| "step": 119 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 0.07276467760742707, | |
| "learning_rate": 2.6010392841124932e-05, | |
| "loss": 2.3608, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "eval_loss": 2.4049572944641113, | |
| "eval_runtime": 82.3343, | |
| "eval_samples_per_second": 4.98, | |
| "eval_steps_per_second": 0.316, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 1.0083333333333333, | |
| "grad_norm": 0.07548790321925977, | |
| "learning_rate": 2.5953289728693274e-05, | |
| "loss": 2.3185, | |
| "step": 121 | |
| }, | |
| { | |
| "epoch": 1.0166666666666666, | |
| "grad_norm": 0.0730570698984131, | |
| "learning_rate": 2.5895603324454647e-05, | |
| "loss": 2.2877, | |
| "step": 122 | |
| }, | |
| { | |
| "epoch": 1.025, | |
| "grad_norm": 0.07345139782586493, | |
| "learning_rate": 2.5837336503498694e-05, | |
| "loss": 2.2836, | |
| "step": 123 | |
| }, | |
| { | |
| "epoch": 1.0333333333333334, | |
| "grad_norm": 0.07299378924326991, | |
| "learning_rate": 2.5778492169843003e-05, | |
| "loss": 2.3436, | |
| "step": 124 | |
| }, | |
| { | |
| "epoch": 1.0416666666666667, | |
| "grad_norm": 0.07154250149880004, | |
| "learning_rate": 2.5719073256288394e-05, | |
| "loss": 2.3822, | |
| "step": 125 | |
| }, | |
| { | |
| "epoch": 1.05, | |
| "grad_norm": 0.0720748804004234, | |
| "learning_rate": 2.565908272427274e-05, | |
| "loss": 2.2708, | |
| "step": 126 | |
| }, | |
| { | |
| "epoch": 1.0583333333333333, | |
| "grad_norm": 0.07269892036621302, | |
| "learning_rate": 2.5598523563723373e-05, | |
| "loss": 2.3377, | |
| "step": 127 | |
| }, | |
| { | |
| "epoch": 1.0666666666666667, | |
| "grad_norm": 0.0756770863265576, | |
| "learning_rate": 2.5537398792908062e-05, | |
| "loss": 2.352, | |
| "step": 128 | |
| }, | |
| { | |
| "epoch": 1.075, | |
| "grad_norm": 0.07397323539112335, | |
| "learning_rate": 2.547571145828459e-05, | |
| "loss": 2.3643, | |
| "step": 129 | |
| }, | |
| { | |
| "epoch": 1.0833333333333333, | |
| "grad_norm": 0.07438211371538549, | |
| "learning_rate": 2.54134646343489e-05, | |
| "loss": 2.3387, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 1.0916666666666666, | |
| "grad_norm": 0.07094248712059498, | |
| "learning_rate": 2.5350661423481885e-05, | |
| "loss": 2.3221, | |
| "step": 131 | |
| }, | |
| { | |
| "epoch": 1.1, | |
| "grad_norm": 0.0771622686218861, | |
| "learning_rate": 2.5287304955794754e-05, | |
| "loss": 2.3183, | |
| "step": 132 | |
| }, | |
| { | |
| "epoch": 1.1083333333333334, | |
| "grad_norm": 0.07495056480159959, | |
| "learning_rate": 2.5223398388973028e-05, | |
| "loss": 2.3697, | |
| "step": 133 | |
| }, | |
| { | |
| "epoch": 1.1166666666666667, | |
| "grad_norm": 0.07629199954207538, | |
| "learning_rate": 2.515894490811916e-05, | |
| "loss": 2.3529, | |
| "step": 134 | |
| }, | |
| { | |
| "epoch": 1.125, | |
| "grad_norm": 0.0762534542729489, | |
| "learning_rate": 2.5093947725593792e-05, | |
| "loss": 2.3208, | |
| "step": 135 | |
| }, | |
| { | |
| "epoch": 1.1333333333333333, | |
| "grad_norm": 0.07587427933984144, | |
| "learning_rate": 2.502841008085565e-05, | |
| "loss": 2.3448, | |
| "step": 136 | |
| }, | |
| { | |
| "epoch": 1.1416666666666666, | |
| "grad_norm": 0.07490456619530689, | |
| "learning_rate": 2.49623352403001e-05, | |
| "loss": 2.3435, | |
| "step": 137 | |
| }, | |
| { | |
| "epoch": 1.15, | |
| "grad_norm": 0.0744781797534131, | |
| "learning_rate": 2.4895726497096315e-05, | |
| "loss": 2.4, | |
| "step": 138 | |
| }, | |
| { | |
| "epoch": 1.1583333333333332, | |
| "grad_norm": 0.07464944817741491, | |
| "learning_rate": 2.482858717102319e-05, | |
| "loss": 2.318, | |
| "step": 139 | |
| }, | |
| { | |
| "epoch": 1.1666666666666667, | |
| "grad_norm": 0.07309033869975678, | |
| "learning_rate": 2.4760920608303867e-05, | |
| "loss": 2.2891, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 1.175, | |
| "grad_norm": 0.07284517336177344, | |
| "learning_rate": 2.469273018143894e-05, | |
| "loss": 2.3051, | |
| "step": 141 | |
| }, | |
| { | |
| "epoch": 1.1833333333333333, | |
| "grad_norm": 0.07652064520411771, | |
| "learning_rate": 2.462401928903839e-05, | |
| "loss": 2.3555, | |
| "step": 142 | |
| }, | |
| { | |
| "epoch": 1.1916666666666667, | |
| "grad_norm": 0.07701974074136966, | |
| "learning_rate": 2.45547913556522e-05, | |
| "loss": 2.3015, | |
| "step": 143 | |
| }, | |
| { | |
| "epoch": 1.2, | |
| "grad_norm": 0.08108352272511765, | |
| "learning_rate": 2.448504983159966e-05, | |
| "loss": 2.3221, | |
| "step": 144 | |
| }, | |
| { | |
| "epoch": 1.2083333333333333, | |
| "grad_norm": 0.07752288456105606, | |
| "learning_rate": 2.441479819279742e-05, | |
| "loss": 2.3684, | |
| "step": 145 | |
| }, | |
| { | |
| "epoch": 1.2166666666666668, | |
| "grad_norm": 0.07881711814524053, | |
| "learning_rate": 2.4344039940586235e-05, | |
| "loss": 2.3011, | |
| "step": 146 | |
| }, | |
| { | |
| "epoch": 1.225, | |
| "grad_norm": 0.07757542042787384, | |
| "learning_rate": 2.4272778601556472e-05, | |
| "loss": 2.3509, | |
| "step": 147 | |
| }, | |
| { | |
| "epoch": 1.2333333333333334, | |
| "grad_norm": 0.07228965364348439, | |
| "learning_rate": 2.4201017727372336e-05, | |
| "loss": 2.3801, | |
| "step": 148 | |
| }, | |
| { | |
| "epoch": 1.2416666666666667, | |
| "grad_norm": 0.07389812003829682, | |
| "learning_rate": 2.4128760894594853e-05, | |
| "loss": 2.3359, | |
| "step": 149 | |
| }, | |
| { | |
| "epoch": 1.25, | |
| "grad_norm": 0.08146218033856112, | |
| "learning_rate": 2.4056011704503633e-05, | |
| "loss": 2.3096, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 1.25, | |
| "eval_loss": 2.400259494781494, | |
| "eval_runtime": 81.604, | |
| "eval_samples_per_second": 5.024, | |
| "eval_steps_per_second": 0.319, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 1.2583333333333333, | |
| "grad_norm": 0.07407260421175128, | |
| "learning_rate": 2.3982773782917347e-05, | |
| "loss": 2.3418, | |
| "step": 151 | |
| }, | |
| { | |
| "epoch": 1.2666666666666666, | |
| "grad_norm": 0.07827237096687646, | |
| "learning_rate": 2.390905078001306e-05, | |
| "loss": 2.2778, | |
| "step": 152 | |
| }, | |
| { | |
| "epoch": 1.275, | |
| "grad_norm": 0.07699758244967876, | |
| "learning_rate": 2.383484637014426e-05, | |
| "loss": 2.3245, | |
| "step": 153 | |
| }, | |
| { | |
| "epoch": 1.2833333333333332, | |
| "grad_norm": 0.07805943021524937, | |
| "learning_rate": 2.3760164251657773e-05, | |
| "loss": 2.3782, | |
| "step": 154 | |
| }, | |
| { | |
| "epoch": 1.2916666666666667, | |
| "grad_norm": 0.0741687347632035, | |
| "learning_rate": 2.368500814670941e-05, | |
| "loss": 2.3765, | |
| "step": 155 | |
| }, | |
| { | |
| "epoch": 1.3, | |
| "grad_norm": 0.07696079818166807, | |
| "learning_rate": 2.3609381801078448e-05, | |
| "loss": 2.3958, | |
| "step": 156 | |
| }, | |
| { | |
| "epoch": 1.3083333333333333, | |
| "grad_norm": 0.08864860865623735, | |
| "learning_rate": 2.3533288983980964e-05, | |
| "loss": 2.3482, | |
| "step": 157 | |
| }, | |
| { | |
| "epoch": 1.3166666666666667, | |
| "grad_norm": 0.07676755572584443, | |
| "learning_rate": 2.3456733487881978e-05, | |
| "loss": 2.3511, | |
| "step": 158 | |
| }, | |
| { | |
| "epoch": 1.325, | |
| "grad_norm": 0.07754541163995884, | |
| "learning_rate": 2.337971912830641e-05, | |
| "loss": 2.3754, | |
| "step": 159 | |
| }, | |
| { | |
| "epoch": 1.3333333333333333, | |
| "grad_norm": 0.08430746433268149, | |
| "learning_rate": 2.3302249743648926e-05, | |
| "loss": 2.4063, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 1.3416666666666668, | |
| "grad_norm": 0.08113759941899056, | |
| "learning_rate": 2.322432919498265e-05, | |
| "loss": 2.3352, | |
| "step": 161 | |
| }, | |
| { | |
| "epoch": 1.35, | |
| "grad_norm": 0.08147516272984133, | |
| "learning_rate": 2.3145961365866708e-05, | |
| "loss": 2.3119, | |
| "step": 162 | |
| }, | |
| { | |
| "epoch": 1.3583333333333334, | |
| "grad_norm": 0.07749688842544009, | |
| "learning_rate": 2.3067150162152675e-05, | |
| "loss": 2.3547, | |
| "step": 163 | |
| }, | |
| { | |
| "epoch": 1.3666666666666667, | |
| "grad_norm": 0.08640326754187048, | |
| "learning_rate": 2.298789951178992e-05, | |
| "loss": 2.3389, | |
| "step": 164 | |
| }, | |
| { | |
| "epoch": 1.375, | |
| "grad_norm": 0.0795137333109577, | |
| "learning_rate": 2.2908213364629812e-05, | |
| "loss": 2.3778, | |
| "step": 165 | |
| }, | |
| { | |
| "epoch": 1.3833333333333333, | |
| "grad_norm": 0.07739334763959965, | |
| "learning_rate": 2.2828095692228886e-05, | |
| "loss": 2.3658, | |
| "step": 166 | |
| }, | |
| { | |
| "epoch": 1.3916666666666666, | |
| "grad_norm": 0.07783031237693959, | |
| "learning_rate": 2.2747550487650887e-05, | |
| "loss": 2.3575, | |
| "step": 167 | |
| }, | |
| { | |
| "epoch": 1.4, | |
| "grad_norm": 0.07682655233706284, | |
| "learning_rate": 2.2666581765267758e-05, | |
| "loss": 2.2825, | |
| "step": 168 | |
| }, | |
| { | |
| "epoch": 1.4083333333333332, | |
| "grad_norm": 0.08359081032268273, | |
| "learning_rate": 2.2585193560559563e-05, | |
| "loss": 2.261, | |
| "step": 169 | |
| }, | |
| { | |
| "epoch": 1.4166666666666667, | |
| "grad_norm": 0.0826940676306091, | |
| "learning_rate": 2.250338992991335e-05, | |
| "loss": 2.3069, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 1.425, | |
| "grad_norm": 0.08462619097403327, | |
| "learning_rate": 2.2421174950421017e-05, | |
| "loss": 2.2864, | |
| "step": 171 | |
| }, | |
| { | |
| "epoch": 1.4333333333333333, | |
| "grad_norm": 0.07990029642375193, | |
| "learning_rate": 2.233855271967606e-05, | |
| "loss": 2.3033, | |
| "step": 172 | |
| }, | |
| { | |
| "epoch": 1.4416666666666667, | |
| "grad_norm": 0.08051779058857793, | |
| "learning_rate": 2.2255527355569372e-05, | |
| "loss": 2.3166, | |
| "step": 173 | |
| }, | |
| { | |
| "epoch": 1.45, | |
| "grad_norm": 0.08604667339713809, | |
| "learning_rate": 2.217210299608402e-05, | |
| "loss": 2.387, | |
| "step": 174 | |
| }, | |
| { | |
| "epoch": 1.4583333333333333, | |
| "grad_norm": 0.07829742536277012, | |
| "learning_rate": 2.208828379908899e-05, | |
| "loss": 2.311, | |
| "step": 175 | |
| }, | |
| { | |
| "epoch": 1.4666666666666668, | |
| "grad_norm": 0.07850219342360719, | |
| "learning_rate": 2.200407394213196e-05, | |
| "loss": 2.3384, | |
| "step": 176 | |
| }, | |
| { | |
| "epoch": 1.475, | |
| "grad_norm": 0.08531707041033702, | |
| "learning_rate": 2.19194776222311e-05, | |
| "loss": 2.3107, | |
| "step": 177 | |
| }, | |
| { | |
| "epoch": 1.4833333333333334, | |
| "grad_norm": 0.07652853009760147, | |
| "learning_rate": 2.183449905566589e-05, | |
| "loss": 2.3494, | |
| "step": 178 | |
| }, | |
| { | |
| "epoch": 1.4916666666666667, | |
| "grad_norm": 0.0797336095546633, | |
| "learning_rate": 2.1749142477766972e-05, | |
| "loss": 2.3291, | |
| "step": 179 | |
| }, | |
| { | |
| "epoch": 1.5, | |
| "grad_norm": 0.08700079540422817, | |
| "learning_rate": 2.166341214270507e-05, | |
| "loss": 2.3132, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 1.5, | |
| "eval_loss": 2.3966128826141357, | |
| "eval_runtime": 83.184, | |
| "eval_samples_per_second": 4.929, | |
| "eval_steps_per_second": 0.313, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 1.5083333333333333, | |
| "grad_norm": 0.07925581040107615, | |
| "learning_rate": 2.157731232327897e-05, | |
| "loss": 2.3578, | |
| "step": 181 | |
| }, | |
| { | |
| "epoch": 1.5166666666666666, | |
| "grad_norm": 0.07873086864048841, | |
| "learning_rate": 2.1490847310702544e-05, | |
| "loss": 2.3229, | |
| "step": 182 | |
| }, | |
| { | |
| "epoch": 1.525, | |
| "grad_norm": 0.07775316849537767, | |
| "learning_rate": 2.1404021414390874e-05, | |
| "loss": 2.3756, | |
| "step": 183 | |
| }, | |
| { | |
| "epoch": 1.5333333333333332, | |
| "grad_norm": 0.07949428482523528, | |
| "learning_rate": 2.1316838961745518e-05, | |
| "loss": 2.3535, | |
| "step": 184 | |
| }, | |
| { | |
| "epoch": 1.5416666666666665, | |
| "grad_norm": 0.08423278187074197, | |
| "learning_rate": 2.1229304297938755e-05, | |
| "loss": 2.3517, | |
| "step": 185 | |
| }, | |
| { | |
| "epoch": 1.55, | |
| "grad_norm": 0.07930583119038707, | |
| "learning_rate": 2.1141421785697097e-05, | |
| "loss": 2.3929, | |
| "step": 186 | |
| }, | |
| { | |
| "epoch": 1.5583333333333333, | |
| "grad_norm": 0.07736840323261199, | |
| "learning_rate": 2.1053195805083803e-05, | |
| "loss": 2.3194, | |
| "step": 187 | |
| }, | |
| { | |
| "epoch": 1.5666666666666667, | |
| "grad_norm": 0.08306421066524537, | |
| "learning_rate": 2.0964630753280584e-05, | |
| "loss": 2.3131, | |
| "step": 188 | |
| }, | |
| { | |
| "epoch": 1.575, | |
| "grad_norm": 0.0805185815818936, | |
| "learning_rate": 2.0875731044368472e-05, | |
| "loss": 2.3238, | |
| "step": 189 | |
| }, | |
| { | |
| "epoch": 1.5833333333333335, | |
| "grad_norm": 0.07729948838070921, | |
| "learning_rate": 2.078650110910779e-05, | |
| "loss": 2.3279, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 1.5916666666666668, | |
| "grad_norm": 0.08053951644296133, | |
| "learning_rate": 2.0696945394717355e-05, | |
| "loss": 2.3343, | |
| "step": 191 | |
| }, | |
| { | |
| "epoch": 1.6, | |
| "grad_norm": 0.08184664333069269, | |
| "learning_rate": 2.0607068364652783e-05, | |
| "loss": 2.3441, | |
| "step": 192 | |
| }, | |
| { | |
| "epoch": 1.6083333333333334, | |
| "grad_norm": 0.07894699650259683, | |
| "learning_rate": 2.051687449838409e-05, | |
| "loss": 2.3384, | |
| "step": 193 | |
| }, | |
| { | |
| "epoch": 1.6166666666666667, | |
| "grad_norm": 0.08288692832517489, | |
| "learning_rate": 2.042636829117239e-05, | |
| "loss": 2.3219, | |
| "step": 194 | |
| }, | |
| { | |
| "epoch": 1.625, | |
| "grad_norm": 0.09061769591669266, | |
| "learning_rate": 2.033555425384586e-05, | |
| "loss": 2.3168, | |
| "step": 195 | |
| }, | |
| { | |
| "epoch": 1.6333333333333333, | |
| "grad_norm": 0.07607427061534017, | |
| "learning_rate": 2.0244436912574938e-05, | |
| "loss": 2.3592, | |
| "step": 196 | |
| }, | |
| { | |
| "epoch": 1.6416666666666666, | |
| "grad_norm": 0.08827457673533141, | |
| "learning_rate": 2.0153020808646715e-05, | |
| "loss": 2.3177, | |
| "step": 197 | |
| }, | |
| { | |
| "epoch": 1.65, | |
| "grad_norm": 0.0757688204165182, | |
| "learning_rate": 2.0061310498238618e-05, | |
| "loss": 2.2366, | |
| "step": 198 | |
| }, | |
| { | |
| "epoch": 1.6583333333333332, | |
| "grad_norm": 0.07815852114026649, | |
| "learning_rate": 1.996931055219132e-05, | |
| "loss": 2.3161, | |
| "step": 199 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "grad_norm": 0.08058901889279678, | |
| "learning_rate": 1.9877025555780927e-05, | |
| "loss": 2.3749, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 1.675, | |
| "grad_norm": 0.07708027281441528, | |
| "learning_rate": 1.978446010849045e-05, | |
| "loss": 2.2854, | |
| "step": 201 | |
| }, | |
| { | |
| "epoch": 1.6833333333333333, | |
| "grad_norm": 0.08312283019758401, | |
| "learning_rate": 1.969161882378058e-05, | |
| "loss": 2.3524, | |
| "step": 202 | |
| }, | |
| { | |
| "epoch": 1.6916666666666667, | |
| "grad_norm": 0.07784046601849169, | |
| "learning_rate": 1.9598506328859717e-05, | |
| "loss": 2.3418, | |
| "step": 203 | |
| }, | |
| { | |
| "epoch": 1.7, | |
| "grad_norm": 0.07906237498578873, | |
| "learning_rate": 1.95051272644534e-05, | |
| "loss": 2.3514, | |
| "step": 204 | |
| }, | |
| { | |
| "epoch": 1.7083333333333335, | |
| "grad_norm": 0.08323464269988524, | |
| "learning_rate": 1.9411486284572977e-05, | |
| "loss": 2.3133, | |
| "step": 205 | |
| }, | |
| { | |
| "epoch": 1.7166666666666668, | |
| "grad_norm": 0.08153670371604982, | |
| "learning_rate": 1.931758805628366e-05, | |
| "loss": 2.3388, | |
| "step": 206 | |
| }, | |
| { | |
| "epoch": 1.725, | |
| "grad_norm": 0.08152589045596419, | |
| "learning_rate": 1.9223437259471912e-05, | |
| "loss": 2.3309, | |
| "step": 207 | |
| }, | |
| { | |
| "epoch": 1.7333333333333334, | |
| "grad_norm": 0.08382345786042532, | |
| "learning_rate": 1.9129038586612224e-05, | |
| "loss": 2.3282, | |
| "step": 208 | |
| }, | |
| { | |
| "epoch": 1.7416666666666667, | |
| "grad_norm": 0.0835609429134592, | |
| "learning_rate": 1.903439674253321e-05, | |
| "loss": 2.3567, | |
| "step": 209 | |
| }, | |
| { | |
| "epoch": 1.75, | |
| "grad_norm": 0.08252984125014622, | |
| "learning_rate": 1.8939516444183143e-05, | |
| "loss": 2.3352, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 1.75, | |
| "eval_loss": 2.3933684825897217, | |
| "eval_runtime": 83.3063, | |
| "eval_samples_per_second": 4.922, | |
| "eval_steps_per_second": 0.312, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 1.7583333333333333, | |
| "grad_norm": 0.0815481053340795, | |
| "learning_rate": 1.884440242039485e-05, | |
| "loss": 2.3262, | |
| "step": 211 | |
| }, | |
| { | |
| "epoch": 1.7666666666666666, | |
| "grad_norm": 0.08258761118218041, | |
| "learning_rate": 1.8749059411650034e-05, | |
| "loss": 2.3396, | |
| "step": 212 | |
| }, | |
| { | |
| "epoch": 1.775, | |
| "grad_norm": 0.0884999967331726, | |
| "learning_rate": 1.8653492169843003e-05, | |
| "loss": 2.3176, | |
| "step": 213 | |
| }, | |
| { | |
| "epoch": 1.7833333333333332, | |
| "grad_norm": 0.0824785010834098, | |
| "learning_rate": 1.8557705458043838e-05, | |
| "loss": 2.3272, | |
| "step": 214 | |
| }, | |
| { | |
| "epoch": 1.7916666666666665, | |
| "grad_norm": 0.08727167025374602, | |
| "learning_rate": 1.8461704050261e-05, | |
| "loss": 2.2298, | |
| "step": 215 | |
| }, | |
| { | |
| "epoch": 1.8, | |
| "grad_norm": 0.0768016904891171, | |
| "learning_rate": 1.8365492731203398e-05, | |
| "loss": 2.3554, | |
| "step": 216 | |
| }, | |
| { | |
| "epoch": 1.8083333333333333, | |
| "grad_norm": 0.07709533586121158, | |
| "learning_rate": 1.8269076296041917e-05, | |
| "loss": 2.3702, | |
| "step": 217 | |
| }, | |
| { | |
| "epoch": 1.8166666666666667, | |
| "grad_norm": 0.0806446736093232, | |
| "learning_rate": 1.8172459550170424e-05, | |
| "loss": 2.3585, | |
| "step": 218 | |
| }, | |
| { | |
| "epoch": 1.825, | |
| "grad_norm": 0.07523532523458193, | |
| "learning_rate": 1.8075647308966268e-05, | |
| "loss": 2.3609, | |
| "step": 219 | |
| }, | |
| { | |
| "epoch": 1.8333333333333335, | |
| "grad_norm": 0.07497201271988578, | |
| "learning_rate": 1.797864439755028e-05, | |
| "loss": 2.3755, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 1.8416666666666668, | |
| "grad_norm": 0.08249074177996166, | |
| "learning_rate": 1.7881455650546303e-05, | |
| "loss": 2.372, | |
| "step": 221 | |
| }, | |
| { | |
| "epoch": 1.85, | |
| "grad_norm": 0.0780160636961897, | |
| "learning_rate": 1.7784085911840214e-05, | |
| "loss": 2.3823, | |
| "step": 222 | |
| }, | |
| { | |
| "epoch": 1.8583333333333334, | |
| "grad_norm": 0.08148680526536918, | |
| "learning_rate": 1.7686540034338513e-05, | |
| "loss": 2.3314, | |
| "step": 223 | |
| }, | |
| { | |
| "epoch": 1.8666666666666667, | |
| "grad_norm": 0.0795864595636552, | |
| "learning_rate": 1.758882287972646e-05, | |
| "loss": 2.2853, | |
| "step": 224 | |
| }, | |
| { | |
| "epoch": 1.875, | |
| "grad_norm": 0.08198344669246531, | |
| "learning_rate": 1.749093931822577e-05, | |
| "loss": 2.3605, | |
| "step": 225 | |
| }, | |
| { | |
| "epoch": 1.8833333333333333, | |
| "grad_norm": 0.08138145213474299, | |
| "learning_rate": 1.739289422835185e-05, | |
| "loss": 2.2721, | |
| "step": 226 | |
| }, | |
| { | |
| "epoch": 1.8916666666666666, | |
| "grad_norm": 0.08306015511124677, | |
| "learning_rate": 1.7294692496670715e-05, | |
| "loss": 2.2889, | |
| "step": 227 | |
| }, | |
| { | |
| "epoch": 1.9, | |
| "grad_norm": 0.07478727556401082, | |
| "learning_rate": 1.7196339017555378e-05, | |
| "loss": 2.3416, | |
| "step": 228 | |
| }, | |
| { | |
| "epoch": 1.9083333333333332, | |
| "grad_norm": 0.08858459574829487, | |
| "learning_rate": 1.709783869294196e-05, | |
| "loss": 2.3081, | |
| "step": 229 | |
| }, | |
| { | |
| "epoch": 1.9166666666666665, | |
| "grad_norm": 0.08175368181940743, | |
| "learning_rate": 1.699919643208533e-05, | |
| "loss": 2.3304, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 1.925, | |
| "grad_norm": 0.07630479738636474, | |
| "learning_rate": 1.6900417151314503e-05, | |
| "loss": 2.3454, | |
| "step": 231 | |
| }, | |
| { | |
| "epoch": 1.9333333333333333, | |
| "grad_norm": 0.07687273996639293, | |
| "learning_rate": 1.6801505773787527e-05, | |
| "loss": 2.3901, | |
| "step": 232 | |
| }, | |
| { | |
| "epoch": 1.9416666666666667, | |
| "grad_norm": 0.08600269874202937, | |
| "learning_rate": 1.670246722924616e-05, | |
| "loss": 2.3081, | |
| "step": 233 | |
| }, | |
| { | |
| "epoch": 1.95, | |
| "grad_norm": 0.07737694968965858, | |
| "learning_rate": 1.660330645377018e-05, | |
| "loss": 2.3643, | |
| "step": 234 | |
| }, | |
| { | |
| "epoch": 1.9583333333333335, | |
| "grad_norm": 0.08165758061569027, | |
| "learning_rate": 1.6504028389531333e-05, | |
| "loss": 2.355, | |
| "step": 235 | |
| }, | |
| { | |
| "epoch": 1.9666666666666668, | |
| "grad_norm": 0.08264378429137093, | |
| "learning_rate": 1.640463798454704e-05, | |
| "loss": 2.3219, | |
| "step": 236 | |
| }, | |
| { | |
| "epoch": 1.975, | |
| "grad_norm": 0.0858368818345628, | |
| "learning_rate": 1.6305140192433787e-05, | |
| "loss": 2.3329, | |
| "step": 237 | |
| }, | |
| { | |
| "epoch": 1.9833333333333334, | |
| "grad_norm": 0.07616999163161729, | |
| "learning_rate": 1.620553997216023e-05, | |
| "loss": 2.3523, | |
| "step": 238 | |
| }, | |
| { | |
| "epoch": 1.9916666666666667, | |
| "grad_norm": 0.08241527325980988, | |
| "learning_rate": 1.6105842287800046e-05, | |
| "loss": 2.2982, | |
| "step": 239 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "grad_norm": 0.08007891750583127, | |
| "learning_rate": 1.600605210828451e-05, | |
| "loss": 2.2785, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "eval_loss": 2.3910558223724365, | |
| "eval_runtime": 83.4904, | |
| "eval_samples_per_second": 4.911, | |
| "eval_steps_per_second": 0.311, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 2.0083333333333333, | |
| "grad_norm": 0.08108687194604622, | |
| "learning_rate": 1.5906174407154883e-05, | |
| "loss": 2.3367, | |
| "step": 241 | |
| }, | |
| { | |
| "epoch": 2.0166666666666666, | |
| "grad_norm": 0.0806511417182259, | |
| "learning_rate": 1.5806214162314463e-05, | |
| "loss": 2.3011, | |
| "step": 242 | |
| }, | |
| { | |
| "epoch": 2.025, | |
| "grad_norm": 0.08264392219751603, | |
| "learning_rate": 1.5706176355780556e-05, | |
| "loss": 2.3036, | |
| "step": 243 | |
| }, | |
| { | |
| "epoch": 2.033333333333333, | |
| "grad_norm": 0.07958409681135217, | |
| "learning_rate": 1.5606065973436132e-05, | |
| "loss": 2.3056, | |
| "step": 244 | |
| }, | |
| { | |
| "epoch": 2.0416666666666665, | |
| "grad_norm": 0.07856642651007223, | |
| "learning_rate": 1.550588800478133e-05, | |
| "loss": 2.3692, | |
| "step": 245 | |
| }, | |
| { | |
| "epoch": 2.05, | |
| "grad_norm": 0.08350216798892127, | |
| "learning_rate": 1.5405647442684794e-05, | |
| "loss": 2.2697, | |
| "step": 246 | |
| }, | |
| { | |
| "epoch": 2.058333333333333, | |
| "grad_norm": 0.08390645284684875, | |
| "learning_rate": 1.530534928313484e-05, | |
| "loss": 2.2425, | |
| "step": 247 | |
| }, | |
| { | |
| "epoch": 2.066666666666667, | |
| "grad_norm": 0.07883358190907572, | |
| "learning_rate": 1.5204998524990423e-05, | |
| "loss": 2.3281, | |
| "step": 248 | |
| }, | |
| { | |
| "epoch": 2.075, | |
| "grad_norm": 0.07994560560782488, | |
| "learning_rate": 1.5104600169732015e-05, | |
| "loss": 2.3285, | |
| "step": 249 | |
| }, | |
| { | |
| "epoch": 2.0833333333333335, | |
| "grad_norm": 0.08345016891314849, | |
| "learning_rate": 1.5004159221212325e-05, | |
| "loss": 2.3252, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 2.091666666666667, | |
| "grad_norm": 0.0767244585605165, | |
| "learning_rate": 1.490368068540692e-05, | |
| "loss": 2.3176, | |
| "step": 251 | |
| }, | |
| { | |
| "epoch": 2.1, | |
| "grad_norm": 0.07853322933102938, | |
| "learning_rate": 1.4803169570164703e-05, | |
| "loss": 2.286, | |
| "step": 252 | |
| }, | |
| { | |
| "epoch": 2.1083333333333334, | |
| "grad_norm": 0.07885223855237164, | |
| "learning_rate": 1.4702630884958345e-05, | |
| "loss": 2.3293, | |
| "step": 253 | |
| }, | |
| { | |
| "epoch": 2.1166666666666667, | |
| "grad_norm": 0.07786083611140765, | |
| "learning_rate": 1.4602069640634605e-05, | |
| "loss": 2.3241, | |
| "step": 254 | |
| }, | |
| { | |
| "epoch": 2.125, | |
| "grad_norm": 0.07961379829842732, | |
| "learning_rate": 1.4501490849164585e-05, | |
| "loss": 2.3218, | |
| "step": 255 | |
| }, | |
| { | |
| "epoch": 2.1333333333333333, | |
| "grad_norm": 0.0812119479291348, | |
| "learning_rate": 1.4400899523393928e-05, | |
| "loss": 2.3101, | |
| "step": 256 | |
| }, | |
| { | |
| "epoch": 2.1416666666666666, | |
| "grad_norm": 0.07820228956836967, | |
| "learning_rate": 1.4300300676793e-05, | |
| "loss": 2.3105, | |
| "step": 257 | |
| }, | |
| { | |
| "epoch": 2.15, | |
| "grad_norm": 0.0787354321940814, | |
| "learning_rate": 1.4199699323207e-05, | |
| "loss": 2.2921, | |
| "step": 258 | |
| }, | |
| { | |
| "epoch": 2.158333333333333, | |
| "grad_norm": 0.0821168083039209, | |
| "learning_rate": 1.4099100476606071e-05, | |
| "loss": 2.3449, | |
| "step": 259 | |
| }, | |
| { | |
| "epoch": 2.1666666666666665, | |
| "grad_norm": 0.08227570212622978, | |
| "learning_rate": 1.3998509150835417e-05, | |
| "loss": 2.2804, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 2.175, | |
| "grad_norm": 0.07956552166316343, | |
| "learning_rate": 1.3897930359365397e-05, | |
| "loss": 2.2798, | |
| "step": 261 | |
| }, | |
| { | |
| "epoch": 2.183333333333333, | |
| "grad_norm": 0.08355971196343313, | |
| "learning_rate": 1.3797369115041656e-05, | |
| "loss": 2.3121, | |
| "step": 262 | |
| }, | |
| { | |
| "epoch": 2.191666666666667, | |
| "grad_norm": 0.07664615523847712, | |
| "learning_rate": 1.3696830429835303e-05, | |
| "loss": 2.3511, | |
| "step": 263 | |
| }, | |
| { | |
| "epoch": 2.2, | |
| "grad_norm": 0.07875754809310784, | |
| "learning_rate": 1.3596319314593088e-05, | |
| "loss": 2.276, | |
| "step": 264 | |
| }, | |
| { | |
| "epoch": 2.2083333333333335, | |
| "grad_norm": 0.07805417721469433, | |
| "learning_rate": 1.3495840778787675e-05, | |
| "loss": 2.3156, | |
| "step": 265 | |
| }, | |
| { | |
| "epoch": 2.216666666666667, | |
| "grad_norm": 0.08500867883177173, | |
| "learning_rate": 1.339539983026799e-05, | |
| "loss": 2.3304, | |
| "step": 266 | |
| }, | |
| { | |
| "epoch": 2.225, | |
| "grad_norm": 0.08575986404103182, | |
| "learning_rate": 1.3295001475009578e-05, | |
| "loss": 2.3171, | |
| "step": 267 | |
| }, | |
| { | |
| "epoch": 2.2333333333333334, | |
| "grad_norm": 0.0796424885760881, | |
| "learning_rate": 1.3194650716865163e-05, | |
| "loss": 2.3488, | |
| "step": 268 | |
| }, | |
| { | |
| "epoch": 2.2416666666666667, | |
| "grad_norm": 0.07791982790558008, | |
| "learning_rate": 1.3094352557315207e-05, | |
| "loss": 2.3806, | |
| "step": 269 | |
| }, | |
| { | |
| "epoch": 2.25, | |
| "grad_norm": 0.0840055290628465, | |
| "learning_rate": 1.299411199521868e-05, | |
| "loss": 2.3277, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 2.25, | |
| "eval_loss": 2.3895957469940186, | |
| "eval_runtime": 83.1157, | |
| "eval_samples_per_second": 4.933, | |
| "eval_steps_per_second": 0.313, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 2.2583333333333333, | |
| "grad_norm": 0.07770712903979533, | |
| "learning_rate": 1.2893934026563873e-05, | |
| "loss": 2.2666, | |
| "step": 271 | |
| }, | |
| { | |
| "epoch": 2.2666666666666666, | |
| "grad_norm": 0.07846164594226922, | |
| "learning_rate": 1.2793823644219445e-05, | |
| "loss": 2.2855, | |
| "step": 272 | |
| }, | |
| { | |
| "epoch": 2.275, | |
| "grad_norm": 0.08498339693180243, | |
| "learning_rate": 1.269378583768554e-05, | |
| "loss": 2.2733, | |
| "step": 273 | |
| }, | |
| { | |
| "epoch": 2.283333333333333, | |
| "grad_norm": 0.07834222258922019, | |
| "learning_rate": 1.2593825592845122e-05, | |
| "loss": 2.3193, | |
| "step": 274 | |
| }, | |
| { | |
| "epoch": 2.2916666666666665, | |
| "grad_norm": 0.08132580954052983, | |
| "learning_rate": 1.2493947891715491e-05, | |
| "loss": 2.3085, | |
| "step": 275 | |
| }, | |
| { | |
| "epoch": 2.3, | |
| "grad_norm": 0.07883697009265064, | |
| "learning_rate": 1.239415771219996e-05, | |
| "loss": 2.3545, | |
| "step": 276 | |
| }, | |
| { | |
| "epoch": 2.3083333333333336, | |
| "grad_norm": 0.08023901828387182, | |
| "learning_rate": 1.2294460027839779e-05, | |
| "loss": 2.3489, | |
| "step": 277 | |
| }, | |
| { | |
| "epoch": 2.3166666666666664, | |
| "grad_norm": 0.08930364086676225, | |
| "learning_rate": 1.2194859807566216e-05, | |
| "loss": 2.2591, | |
| "step": 278 | |
| }, | |
| { | |
| "epoch": 2.325, | |
| "grad_norm": 0.08343332964333285, | |
| "learning_rate": 1.2095362015452961e-05, | |
| "loss": 2.3404, | |
| "step": 279 | |
| }, | |
| { | |
| "epoch": 2.3333333333333335, | |
| "grad_norm": 0.08292455976075656, | |
| "learning_rate": 1.199597161046867e-05, | |
| "loss": 2.3028, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 2.341666666666667, | |
| "grad_norm": 0.08627078651851632, | |
| "learning_rate": 1.189669354622982e-05, | |
| "loss": 2.343, | |
| "step": 281 | |
| }, | |
| { | |
| "epoch": 2.35, | |
| "grad_norm": 0.08202097516344958, | |
| "learning_rate": 1.1797532770753842e-05, | |
| "loss": 2.326, | |
| "step": 282 | |
| }, | |
| { | |
| "epoch": 2.3583333333333334, | |
| "grad_norm": 0.08362611496815728, | |
| "learning_rate": 1.169849422621248e-05, | |
| "loss": 2.3035, | |
| "step": 283 | |
| }, | |
| { | |
| "epoch": 2.3666666666666667, | |
| "grad_norm": 0.08888611458113292, | |
| "learning_rate": 1.1599582848685506e-05, | |
| "loss": 2.2812, | |
| "step": 284 | |
| }, | |
| { | |
| "epoch": 2.375, | |
| "grad_norm": 0.08217261091117088, | |
| "learning_rate": 1.1500803567914671e-05, | |
| "loss": 2.3378, | |
| "step": 285 | |
| }, | |
| { | |
| "epoch": 2.3833333333333333, | |
| "grad_norm": 0.07985728135451624, | |
| "learning_rate": 1.1402161307058047e-05, | |
| "loss": 2.3522, | |
| "step": 286 | |
| }, | |
| { | |
| "epoch": 2.3916666666666666, | |
| "grad_norm": 0.08014525439116486, | |
| "learning_rate": 1.1303660982444624e-05, | |
| "loss": 2.2256, | |
| "step": 287 | |
| }, | |
| { | |
| "epoch": 2.4, | |
| "grad_norm": 0.08787593050595495, | |
| "learning_rate": 1.1205307503329286e-05, | |
| "loss": 2.2974, | |
| "step": 288 | |
| }, | |
| { | |
| "epoch": 2.408333333333333, | |
| "grad_norm": 0.08195162040998395, | |
| "learning_rate": 1.1107105771648151e-05, | |
| "loss": 2.353, | |
| "step": 289 | |
| }, | |
| { | |
| "epoch": 2.4166666666666665, | |
| "grad_norm": 0.08267743479386988, | |
| "learning_rate": 1.1009060681774236e-05, | |
| "loss": 2.3274, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 2.425, | |
| "grad_norm": 0.08798947281948663, | |
| "learning_rate": 1.0911177120273537e-05, | |
| "loss": 2.3404, | |
| "step": 291 | |
| }, | |
| { | |
| "epoch": 2.4333333333333336, | |
| "grad_norm": 0.08828111892887862, | |
| "learning_rate": 1.0813459965661489e-05, | |
| "loss": 2.3348, | |
| "step": 292 | |
| }, | |
| { | |
| "epoch": 2.4416666666666664, | |
| "grad_norm": 0.08102528742267785, | |
| "learning_rate": 1.0715914088159789e-05, | |
| "loss": 2.2863, | |
| "step": 293 | |
| }, | |
| { | |
| "epoch": 2.45, | |
| "grad_norm": 0.0866645702075036, | |
| "learning_rate": 1.06185443494537e-05, | |
| "loss": 2.3357, | |
| "step": 294 | |
| }, | |
| { | |
| "epoch": 2.4583333333333335, | |
| "grad_norm": 0.08290121294865929, | |
| "learning_rate": 1.0521355602449723e-05, | |
| "loss": 2.3537, | |
| "step": 295 | |
| }, | |
| { | |
| "epoch": 2.466666666666667, | |
| "grad_norm": 0.08332374744178081, | |
| "learning_rate": 1.042435269103374e-05, | |
| "loss": 2.3554, | |
| "step": 296 | |
| }, | |
| { | |
| "epoch": 2.475, | |
| "grad_norm": 0.08367195510948358, | |
| "learning_rate": 1.0327540449829583e-05, | |
| "loss": 2.3384, | |
| "step": 297 | |
| }, | |
| { | |
| "epoch": 2.4833333333333334, | |
| "grad_norm": 0.08673119537467149, | |
| "learning_rate": 1.0230923703958083e-05, | |
| "loss": 2.2725, | |
| "step": 298 | |
| }, | |
| { | |
| "epoch": 2.4916666666666667, | |
| "grad_norm": 0.08235186060858125, | |
| "learning_rate": 1.0134507268796605e-05, | |
| "loss": 2.328, | |
| "step": 299 | |
| }, | |
| { | |
| "epoch": 2.5, | |
| "grad_norm": 0.08408079009588813, | |
| "learning_rate": 1.0038295949739004e-05, | |
| "loss": 2.3403, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 2.5, | |
| "eval_loss": 2.3881967067718506, | |
| "eval_runtime": 82.1489, | |
| "eval_samples_per_second": 4.991, | |
| "eval_steps_per_second": 0.316, | |
| "step": 300 | |
| } | |
| ], | |
| "logging_steps": 1, | |
| "max_steps": 480, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 4, | |
| "save_steps": 60, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": false | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 3.7220359996440576e+17, | |
| "train_batch_size": 4, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |