| { | |
| "best_global_step": null, | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 4.32, | |
| "eval_steps": 500, | |
| "global_step": 648, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.006666666666666667, | |
| "grad_norm": 2.1375420093536377, | |
| "learning_rate": 8.695652173913044e-07, | |
| "loss": 0.6337, | |
| "step": 1 | |
| }, | |
| { | |
| "epoch": 0.013333333333333334, | |
| "grad_norm": 1.3867141008377075, | |
| "learning_rate": 1.7391304347826088e-06, | |
| "loss": 0.4949, | |
| "step": 2 | |
| }, | |
| { | |
| "epoch": 0.02, | |
| "grad_norm": 2.0555808544158936, | |
| "learning_rate": 2.6086956521739132e-06, | |
| "loss": 0.8126, | |
| "step": 3 | |
| }, | |
| { | |
| "epoch": 0.02666666666666667, | |
| "grad_norm": 2.612351179122925, | |
| "learning_rate": 3.4782608695652175e-06, | |
| "loss": 0.7339, | |
| "step": 4 | |
| }, | |
| { | |
| "epoch": 0.03333333333333333, | |
| "grad_norm": 1.3486746549606323, | |
| "learning_rate": 4.347826086956522e-06, | |
| "loss": 0.2616, | |
| "step": 5 | |
| }, | |
| { | |
| "epoch": 0.04, | |
| "grad_norm": 1.0544432401657104, | |
| "learning_rate": 5.2173913043478265e-06, | |
| "loss": 0.3067, | |
| "step": 6 | |
| }, | |
| { | |
| "epoch": 0.04666666666666667, | |
| "grad_norm": 1.7482120990753174, | |
| "learning_rate": 6.086956521739132e-06, | |
| "loss": 0.5077, | |
| "step": 7 | |
| }, | |
| { | |
| "epoch": 0.05333333333333334, | |
| "grad_norm": 1.1587380170822144, | |
| "learning_rate": 6.956521739130435e-06, | |
| "loss": 0.3569, | |
| "step": 8 | |
| }, | |
| { | |
| "epoch": 0.06, | |
| "grad_norm": 0.9702258706092834, | |
| "learning_rate": 7.82608695652174e-06, | |
| "loss": 0.2481, | |
| "step": 9 | |
| }, | |
| { | |
| "epoch": 0.06666666666666667, | |
| "grad_norm": 2.1485090255737305, | |
| "learning_rate": 8.695652173913044e-06, | |
| "loss": 0.8677, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.07333333333333333, | |
| "grad_norm": 1.8601247072219849, | |
| "learning_rate": 9.565217391304349e-06, | |
| "loss": 0.7287, | |
| "step": 11 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "grad_norm": 0.7620797753334045, | |
| "learning_rate": 1.0434782608695653e-05, | |
| "loss": 0.2058, | |
| "step": 12 | |
| }, | |
| { | |
| "epoch": 0.08666666666666667, | |
| "grad_norm": 1.5065464973449707, | |
| "learning_rate": 1.1304347826086957e-05, | |
| "loss": 0.3753, | |
| "step": 13 | |
| }, | |
| { | |
| "epoch": 0.09333333333333334, | |
| "grad_norm": 2.2056727409362793, | |
| "learning_rate": 1.2173913043478263e-05, | |
| "loss": 0.5868, | |
| "step": 14 | |
| }, | |
| { | |
| "epoch": 0.1, | |
| "grad_norm": 1.4034738540649414, | |
| "learning_rate": 1.3043478260869566e-05, | |
| "loss": 0.4816, | |
| "step": 15 | |
| }, | |
| { | |
| "epoch": 0.10666666666666667, | |
| "grad_norm": 1.3337379693984985, | |
| "learning_rate": 1.391304347826087e-05, | |
| "loss": 0.3676, | |
| "step": 16 | |
| }, | |
| { | |
| "epoch": 0.11333333333333333, | |
| "grad_norm": 1.246992588043213, | |
| "learning_rate": 1.4782608695652174e-05, | |
| "loss": 0.5706, | |
| "step": 17 | |
| }, | |
| { | |
| "epoch": 0.12, | |
| "grad_norm": 1.2821959257125854, | |
| "learning_rate": 1.565217391304348e-05, | |
| "loss": 0.3634, | |
| "step": 18 | |
| }, | |
| { | |
| "epoch": 0.12666666666666668, | |
| "grad_norm": 1.5053499937057495, | |
| "learning_rate": 1.6521739130434785e-05, | |
| "loss": 0.5677, | |
| "step": 19 | |
| }, | |
| { | |
| "epoch": 0.13333333333333333, | |
| "grad_norm": 1.814946174621582, | |
| "learning_rate": 1.739130434782609e-05, | |
| "loss": 0.3515, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.14, | |
| "grad_norm": 1.469709873199463, | |
| "learning_rate": 1.8260869565217393e-05, | |
| "loss": 0.4288, | |
| "step": 21 | |
| }, | |
| { | |
| "epoch": 0.14666666666666667, | |
| "grad_norm": 2.078496217727661, | |
| "learning_rate": 1.9130434782608697e-05, | |
| "loss": 0.5581, | |
| "step": 22 | |
| }, | |
| { | |
| "epoch": 0.15333333333333332, | |
| "grad_norm": 0.9332765340805054, | |
| "learning_rate": 2e-05, | |
| "loss": 0.2232, | |
| "step": 23 | |
| }, | |
| { | |
| "epoch": 0.16, | |
| "grad_norm": 2.065216064453125, | |
| "learning_rate": 1.999991596837507e-05, | |
| "loss": 0.615, | |
| "step": 24 | |
| }, | |
| { | |
| "epoch": 0.16666666666666666, | |
| "grad_norm": 1.0639126300811768, | |
| "learning_rate": 1.999966387506947e-05, | |
| "loss": 0.4299, | |
| "step": 25 | |
| }, | |
| { | |
| "epoch": 0.17333333333333334, | |
| "grad_norm": 1.2220447063446045, | |
| "learning_rate": 1.9999243724790705e-05, | |
| "loss": 0.333, | |
| "step": 26 | |
| }, | |
| { | |
| "epoch": 0.18, | |
| "grad_norm": 1.0556367635726929, | |
| "learning_rate": 1.9998655525384534e-05, | |
| "loss": 0.2706, | |
| "step": 27 | |
| }, | |
| { | |
| "epoch": 0.18666666666666668, | |
| "grad_norm": 1.2605373859405518, | |
| "learning_rate": 1.999789928783482e-05, | |
| "loss": 0.3138, | |
| "step": 28 | |
| }, | |
| { | |
| "epoch": 0.19333333333333333, | |
| "grad_norm": 1.5340529680252075, | |
| "learning_rate": 1.9996975026263304e-05, | |
| "loss": 0.2929, | |
| "step": 29 | |
| }, | |
| { | |
| "epoch": 0.2, | |
| "grad_norm": 1.2613033056259155, | |
| "learning_rate": 1.9995882757929367e-05, | |
| "loss": 0.4769, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.20666666666666667, | |
| "grad_norm": 1.3187987804412842, | |
| "learning_rate": 1.9994622503229694e-05, | |
| "loss": 0.3597, | |
| "step": 31 | |
| }, | |
| { | |
| "epoch": 0.21333333333333335, | |
| "grad_norm": 1.2319542169570923, | |
| "learning_rate": 1.9993194285697898e-05, | |
| "loss": 0.394, | |
| "step": 32 | |
| }, | |
| { | |
| "epoch": 0.22, | |
| "grad_norm": 1.3756078481674194, | |
| "learning_rate": 1.9991598132004072e-05, | |
| "loss": 0.4712, | |
| "step": 33 | |
| }, | |
| { | |
| "epoch": 0.22666666666666666, | |
| "grad_norm": 1.537395715713501, | |
| "learning_rate": 1.998983407195431e-05, | |
| "loss": 0.7394, | |
| "step": 34 | |
| }, | |
| { | |
| "epoch": 0.23333333333333334, | |
| "grad_norm": 2.503176212310791, | |
| "learning_rate": 1.9987902138490118e-05, | |
| "loss": 0.7219, | |
| "step": 35 | |
| }, | |
| { | |
| "epoch": 0.24, | |
| "grad_norm": 2.753596544265747, | |
| "learning_rate": 1.9985802367687844e-05, | |
| "loss": 0.7032, | |
| "step": 36 | |
| }, | |
| { | |
| "epoch": 0.24666666666666667, | |
| "grad_norm": 1.8421489000320435, | |
| "learning_rate": 1.9983534798757964e-05, | |
| "loss": 0.6088, | |
| "step": 37 | |
| }, | |
| { | |
| "epoch": 0.25333333333333335, | |
| "grad_norm": 1.8208023309707642, | |
| "learning_rate": 1.9981099474044362e-05, | |
| "loss": 0.4845, | |
| "step": 38 | |
| }, | |
| { | |
| "epoch": 0.26, | |
| "grad_norm": 1.356024146080017, | |
| "learning_rate": 1.997849643902355e-05, | |
| "loss": 0.487, | |
| "step": 39 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "grad_norm": 1.470805048942566, | |
| "learning_rate": 1.997572574230381e-05, | |
| "loss": 0.54, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.2733333333333333, | |
| "grad_norm": 1.4851891994476318, | |
| "learning_rate": 1.9972787435624282e-05, | |
| "loss": 0.4076, | |
| "step": 41 | |
| }, | |
| { | |
| "epoch": 0.28, | |
| "grad_norm": 0.803066074848175, | |
| "learning_rate": 1.996968157385401e-05, | |
| "loss": 0.1891, | |
| "step": 42 | |
| }, | |
| { | |
| "epoch": 0.2866666666666667, | |
| "grad_norm": 1.5581703186035156, | |
| "learning_rate": 1.996640821499091e-05, | |
| "loss": 0.3365, | |
| "step": 43 | |
| }, | |
| { | |
| "epoch": 0.29333333333333333, | |
| "grad_norm": 1.6261980533599854, | |
| "learning_rate": 1.9962967420160683e-05, | |
| "loss": 0.4267, | |
| "step": 44 | |
| }, | |
| { | |
| "epoch": 0.3, | |
| "grad_norm": 1.4385892152786255, | |
| "learning_rate": 1.9959359253615676e-05, | |
| "loss": 0.3899, | |
| "step": 45 | |
| }, | |
| { | |
| "epoch": 0.30666666666666664, | |
| "grad_norm": 1.3031079769134521, | |
| "learning_rate": 1.9955583782733693e-05, | |
| "loss": 0.4338, | |
| "step": 46 | |
| }, | |
| { | |
| "epoch": 0.31333333333333335, | |
| "grad_norm": 1.2695931196212769, | |
| "learning_rate": 1.9951641078016725e-05, | |
| "loss": 0.6285, | |
| "step": 47 | |
| }, | |
| { | |
| "epoch": 0.32, | |
| "grad_norm": 1.1178261041641235, | |
| "learning_rate": 1.994753121308963e-05, | |
| "loss": 0.4285, | |
| "step": 48 | |
| }, | |
| { | |
| "epoch": 0.32666666666666666, | |
| "grad_norm": 1.6929885149002075, | |
| "learning_rate": 1.9943254264698775e-05, | |
| "loss": 0.4132, | |
| "step": 49 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "grad_norm": 0.9805382490158081, | |
| "learning_rate": 1.9938810312710585e-05, | |
| "loss": 0.3083, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.34, | |
| "grad_norm": 0.9645007848739624, | |
| "learning_rate": 1.993419944011006e-05, | |
| "loss": 0.1915, | |
| "step": 51 | |
| }, | |
| { | |
| "epoch": 0.3466666666666667, | |
| "grad_norm": 1.752095103263855, | |
| "learning_rate": 1.992942173299923e-05, | |
| "loss": 0.4278, | |
| "step": 52 | |
| }, | |
| { | |
| "epoch": 0.35333333333333333, | |
| "grad_norm": 1.3025977611541748, | |
| "learning_rate": 1.9924477280595533e-05, | |
| "loss": 0.3838, | |
| "step": 53 | |
| }, | |
| { | |
| "epoch": 0.36, | |
| "grad_norm": 1.117335557937622, | |
| "learning_rate": 1.9919366175230163e-05, | |
| "loss": 0.392, | |
| "step": 54 | |
| }, | |
| { | |
| "epoch": 0.36666666666666664, | |
| "grad_norm": 1.9283711910247803, | |
| "learning_rate": 1.9914088512346344e-05, | |
| "loss": 0.632, | |
| "step": 55 | |
| }, | |
| { | |
| "epoch": 0.37333333333333335, | |
| "grad_norm": 1.0203382968902588, | |
| "learning_rate": 1.9908644390497535e-05, | |
| "loss": 0.205, | |
| "step": 56 | |
| }, | |
| { | |
| "epoch": 0.38, | |
| "grad_norm": 0.7649632692337036, | |
| "learning_rate": 1.9903033911345607e-05, | |
| "loss": 0.2475, | |
| "step": 57 | |
| }, | |
| { | |
| "epoch": 0.38666666666666666, | |
| "grad_norm": 1.1519532203674316, | |
| "learning_rate": 1.9897257179658936e-05, | |
| "loss": 0.4095, | |
| "step": 58 | |
| }, | |
| { | |
| "epoch": 0.3933333333333333, | |
| "grad_norm": 1.232419729232788, | |
| "learning_rate": 1.9891314303310435e-05, | |
| "loss": 0.4682, | |
| "step": 59 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "grad_norm": 1.3041213750839233, | |
| "learning_rate": 1.9885205393275572e-05, | |
| "loss": 0.5696, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.4066666666666667, | |
| "grad_norm": 1.5985859632492065, | |
| "learning_rate": 1.9878930563630257e-05, | |
| "loss": 0.3258, | |
| "step": 61 | |
| }, | |
| { | |
| "epoch": 0.41333333333333333, | |
| "grad_norm": 1.4802793264389038, | |
| "learning_rate": 1.9872489931548743e-05, | |
| "loss": 0.4622, | |
| "step": 62 | |
| }, | |
| { | |
| "epoch": 0.42, | |
| "grad_norm": 1.4201364517211914, | |
| "learning_rate": 1.9865883617301433e-05, | |
| "loss": 0.3725, | |
| "step": 63 | |
| }, | |
| { | |
| "epoch": 0.4266666666666667, | |
| "grad_norm": 0.6913735270500183, | |
| "learning_rate": 1.9859111744252615e-05, | |
| "loss": 0.3119, | |
| "step": 64 | |
| }, | |
| { | |
| "epoch": 0.43333333333333335, | |
| "grad_norm": 1.1920121908187866, | |
| "learning_rate": 1.9852174438858177e-05, | |
| "loss": 0.3138, | |
| "step": 65 | |
| }, | |
| { | |
| "epoch": 0.44, | |
| "grad_norm": 1.9476704597473145, | |
| "learning_rate": 1.9845071830663237e-05, | |
| "loss": 0.6468, | |
| "step": 66 | |
| }, | |
| { | |
| "epoch": 0.44666666666666666, | |
| "grad_norm": 1.4647783041000366, | |
| "learning_rate": 1.9837804052299737e-05, | |
| "loss": 0.5353, | |
| "step": 67 | |
| }, | |
| { | |
| "epoch": 0.4533333333333333, | |
| "grad_norm": 1.4652175903320312, | |
| "learning_rate": 1.9830371239483942e-05, | |
| "loss": 0.5751, | |
| "step": 68 | |
| }, | |
| { | |
| "epoch": 0.46, | |
| "grad_norm": 1.1322413682937622, | |
| "learning_rate": 1.9822773531013932e-05, | |
| "loss": 0.3728, | |
| "step": 69 | |
| }, | |
| { | |
| "epoch": 0.4666666666666667, | |
| "grad_norm": 1.4815658330917358, | |
| "learning_rate": 1.9815011068766996e-05, | |
| "loss": 0.5075, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 0.47333333333333333, | |
| "grad_norm": 1.5985065698623657, | |
| "learning_rate": 1.9807083997696977e-05, | |
| "loss": 0.3835, | |
| "step": 71 | |
| }, | |
| { | |
| "epoch": 0.48, | |
| "grad_norm": 1.1205939054489136, | |
| "learning_rate": 1.979899246583158e-05, | |
| "loss": 0.5067, | |
| "step": 72 | |
| }, | |
| { | |
| "epoch": 0.4866666666666667, | |
| "grad_norm": 0.9271765947341919, | |
| "learning_rate": 1.9790736624269596e-05, | |
| "loss": 0.2899, | |
| "step": 73 | |
| }, | |
| { | |
| "epoch": 0.49333333333333335, | |
| "grad_norm": 1.379699468612671, | |
| "learning_rate": 1.9782316627178088e-05, | |
| "loss": 0.5131, | |
| "step": 74 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "grad_norm": 1.1322109699249268, | |
| "learning_rate": 1.977373263178951e-05, | |
| "loss": 0.4466, | |
| "step": 75 | |
| }, | |
| { | |
| "epoch": 0.5066666666666667, | |
| "grad_norm": 1.5308328866958618, | |
| "learning_rate": 1.9764984798398773e-05, | |
| "loss": 0.5935, | |
| "step": 76 | |
| }, | |
| { | |
| "epoch": 0.5133333333333333, | |
| "grad_norm": 1.3057100772857666, | |
| "learning_rate": 1.9756073290360236e-05, | |
| "loss": 0.3564, | |
| "step": 77 | |
| }, | |
| { | |
| "epoch": 0.52, | |
| "grad_norm": 1.281868815422058, | |
| "learning_rate": 1.9746998274084683e-05, | |
| "loss": 0.3617, | |
| "step": 78 | |
| }, | |
| { | |
| "epoch": 0.5266666666666666, | |
| "grad_norm": 1.5658316612243652, | |
| "learning_rate": 1.9737759919036196e-05, | |
| "loss": 0.6316, | |
| "step": 79 | |
| }, | |
| { | |
| "epoch": 0.5333333333333333, | |
| "grad_norm": 1.439375400543213, | |
| "learning_rate": 1.972835839772899e-05, | |
| "loss": 0.6616, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 0.54, | |
| "grad_norm": 1.483205795288086, | |
| "learning_rate": 1.9718793885724202e-05, | |
| "loss": 0.5403, | |
| "step": 81 | |
| }, | |
| { | |
| "epoch": 0.5466666666666666, | |
| "grad_norm": 1.778740406036377, | |
| "learning_rate": 1.970906656162661e-05, | |
| "loss": 0.7721, | |
| "step": 82 | |
| }, | |
| { | |
| "epoch": 0.5533333333333333, | |
| "grad_norm": 0.937252402305603, | |
| "learning_rate": 1.9699176607081287e-05, | |
| "loss": 0.2401, | |
| "step": 83 | |
| }, | |
| { | |
| "epoch": 0.56, | |
| "grad_norm": 1.55841064453125, | |
| "learning_rate": 1.9689124206770222e-05, | |
| "loss": 0.5495, | |
| "step": 84 | |
| }, | |
| { | |
| "epoch": 0.5666666666666667, | |
| "grad_norm": 1.2646422386169434, | |
| "learning_rate": 1.9678909548408873e-05, | |
| "loss": 0.6683, | |
| "step": 85 | |
| }, | |
| { | |
| "epoch": 0.5733333333333334, | |
| "grad_norm": 1.0748180150985718, | |
| "learning_rate": 1.9668532822742642e-05, | |
| "loss": 0.6502, | |
| "step": 86 | |
| }, | |
| { | |
| "epoch": 0.58, | |
| "grad_norm": 1.4940849542617798, | |
| "learning_rate": 1.965799422354334e-05, | |
| "loss": 0.6965, | |
| "step": 87 | |
| }, | |
| { | |
| "epoch": 0.5866666666666667, | |
| "grad_norm": 1.8773472309112549, | |
| "learning_rate": 1.964729394760554e-05, | |
| "loss": 0.9707, | |
| "step": 88 | |
| }, | |
| { | |
| "epoch": 0.5933333333333334, | |
| "grad_norm": 1.481740951538086, | |
| "learning_rate": 1.9636432194742935e-05, | |
| "loss": 0.6744, | |
| "step": 89 | |
| }, | |
| { | |
| "epoch": 0.6, | |
| "grad_norm": 1.9039676189422607, | |
| "learning_rate": 1.9625409167784567e-05, | |
| "loss": 0.5523, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 0.6066666666666667, | |
| "grad_norm": 2.01161789894104, | |
| "learning_rate": 1.961422507257108e-05, | |
| "loss": 0.6468, | |
| "step": 91 | |
| }, | |
| { | |
| "epoch": 0.6133333333333333, | |
| "grad_norm": 1.891059160232544, | |
| "learning_rate": 1.9602880117950853e-05, | |
| "loss": 0.5114, | |
| "step": 92 | |
| }, | |
| { | |
| "epoch": 0.62, | |
| "grad_norm": 1.6588637828826904, | |
| "learning_rate": 1.9591374515776097e-05, | |
| "loss": 0.7309, | |
| "step": 93 | |
| }, | |
| { | |
| "epoch": 0.6266666666666667, | |
| "grad_norm": 1.320695161819458, | |
| "learning_rate": 1.9579708480898914e-05, | |
| "loss": 0.5601, | |
| "step": 94 | |
| }, | |
| { | |
| "epoch": 0.6333333333333333, | |
| "grad_norm": 1.2667829990386963, | |
| "learning_rate": 1.9567882231167272e-05, | |
| "loss": 0.7936, | |
| "step": 95 | |
| }, | |
| { | |
| "epoch": 0.64, | |
| "grad_norm": 1.051637887954712, | |
| "learning_rate": 1.9555895987420947e-05, | |
| "loss": 0.3095, | |
| "step": 96 | |
| }, | |
| { | |
| "epoch": 0.6466666666666666, | |
| "grad_norm": 1.4688889980316162, | |
| "learning_rate": 1.954374997348739e-05, | |
| "loss": 0.7503, | |
| "step": 97 | |
| }, | |
| { | |
| "epoch": 0.6533333333333333, | |
| "grad_norm": 1.4855245351791382, | |
| "learning_rate": 1.9531444416177558e-05, | |
| "loss": 0.4592, | |
| "step": 98 | |
| }, | |
| { | |
| "epoch": 0.66, | |
| "grad_norm": 1.0585805177688599, | |
| "learning_rate": 1.951897954528166e-05, | |
| "loss": 0.3554, | |
| "step": 99 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "grad_norm": 1.1536904573440552, | |
| "learning_rate": 1.9506355593564898e-05, | |
| "loss": 0.3669, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.6733333333333333, | |
| "grad_norm": 0.9789953827857971, | |
| "learning_rate": 1.949357279676308e-05, | |
| "loss": 0.2606, | |
| "step": 101 | |
| }, | |
| { | |
| "epoch": 0.68, | |
| "grad_norm": 0.9956246018409729, | |
| "learning_rate": 1.9480631393578246e-05, | |
| "loss": 0.2972, | |
| "step": 102 | |
| }, | |
| { | |
| "epoch": 0.6866666666666666, | |
| "grad_norm": 0.9574293494224548, | |
| "learning_rate": 1.946753162567421e-05, | |
| "loss": 0.3348, | |
| "step": 103 | |
| }, | |
| { | |
| "epoch": 0.6933333333333334, | |
| "grad_norm": 1.3523496389389038, | |
| "learning_rate": 1.9454273737672033e-05, | |
| "loss": 0.5854, | |
| "step": 104 | |
| }, | |
| { | |
| "epoch": 0.7, | |
| "grad_norm": 1.3378841876983643, | |
| "learning_rate": 1.9440857977145463e-05, | |
| "loss": 0.5229, | |
| "step": 105 | |
| }, | |
| { | |
| "epoch": 0.7066666666666667, | |
| "grad_norm": 1.2634233236312866, | |
| "learning_rate": 1.9427284594616315e-05, | |
| "loss": 0.5069, | |
| "step": 106 | |
| }, | |
| { | |
| "epoch": 0.7133333333333334, | |
| "grad_norm": 1.3043968677520752, | |
| "learning_rate": 1.9413553843549783e-05, | |
| "loss": 0.4777, | |
| "step": 107 | |
| }, | |
| { | |
| "epoch": 0.72, | |
| "grad_norm": 1.2690622806549072, | |
| "learning_rate": 1.939966598034972e-05, | |
| "loss": 0.5222, | |
| "step": 108 | |
| }, | |
| { | |
| "epoch": 0.7266666666666667, | |
| "grad_norm": 0.7248203754425049, | |
| "learning_rate": 1.938562126435384e-05, | |
| "loss": 0.2711, | |
| "step": 109 | |
| }, | |
| { | |
| "epoch": 0.7333333333333333, | |
| "grad_norm": 1.478192687034607, | |
| "learning_rate": 1.937141995782888e-05, | |
| "loss": 0.6443, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 0.74, | |
| "grad_norm": 1.3677293062210083, | |
| "learning_rate": 1.935706232596569e-05, | |
| "loss": 0.5191, | |
| "step": 111 | |
| }, | |
| { | |
| "epoch": 0.7466666666666667, | |
| "grad_norm": 1.9942638874053955, | |
| "learning_rate": 1.9342548636874306e-05, | |
| "loss": 0.3518, | |
| "step": 112 | |
| }, | |
| { | |
| "epoch": 0.7533333333333333, | |
| "grad_norm": 1.235351800918579, | |
| "learning_rate": 1.9327879161578925e-05, | |
| "loss": 0.5076, | |
| "step": 113 | |
| }, | |
| { | |
| "epoch": 0.76, | |
| "grad_norm": 1.0605601072311401, | |
| "learning_rate": 1.9313054174012843e-05, | |
| "loss": 0.2477, | |
| "step": 114 | |
| }, | |
| { | |
| "epoch": 0.7666666666666667, | |
| "grad_norm": 0.9347406029701233, | |
| "learning_rate": 1.9298073951013347e-05, | |
| "loss": 0.1881, | |
| "step": 115 | |
| }, | |
| { | |
| "epoch": 0.7733333333333333, | |
| "grad_norm": 1.2547634840011597, | |
| "learning_rate": 1.9282938772316546e-05, | |
| "loss": 0.7121, | |
| "step": 116 | |
| }, | |
| { | |
| "epoch": 0.78, | |
| "grad_norm": 1.9678044319152832, | |
| "learning_rate": 1.926764892055214e-05, | |
| "loss": 0.5544, | |
| "step": 117 | |
| }, | |
| { | |
| "epoch": 0.7866666666666666, | |
| "grad_norm": 1.6250430345535278, | |
| "learning_rate": 1.925220468123815e-05, | |
| "loss": 0.6912, | |
| "step": 118 | |
| }, | |
| { | |
| "epoch": 0.7933333333333333, | |
| "grad_norm": 2.5969297885894775, | |
| "learning_rate": 1.9236606342775587e-05, | |
| "loss": 0.7151, | |
| "step": 119 | |
| }, | |
| { | |
| "epoch": 0.8, | |
| "grad_norm": 1.6487793922424316, | |
| "learning_rate": 1.9220854196443043e-05, | |
| "loss": 0.6429, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 0.8066666666666666, | |
| "grad_norm": 1.015533447265625, | |
| "learning_rate": 1.92049485363913e-05, | |
| "loss": 0.3685, | |
| "step": 121 | |
| }, | |
| { | |
| "epoch": 0.8133333333333334, | |
| "grad_norm": 1.0150421857833862, | |
| "learning_rate": 1.9188889659637785e-05, | |
| "loss": 0.3759, | |
| "step": 122 | |
| }, | |
| { | |
| "epoch": 0.82, | |
| "grad_norm": 1.318854570388794, | |
| "learning_rate": 1.9172677866061055e-05, | |
| "loss": 0.2665, | |
| "step": 123 | |
| }, | |
| { | |
| "epoch": 0.8266666666666667, | |
| "grad_norm": 1.4001891613006592, | |
| "learning_rate": 1.9156313458395194e-05, | |
| "loss": 0.4919, | |
| "step": 124 | |
| }, | |
| { | |
| "epoch": 0.8333333333333334, | |
| "grad_norm": 1.5555373430252075, | |
| "learning_rate": 1.9139796742224148e-05, | |
| "loss": 0.6645, | |
| "step": 125 | |
| }, | |
| { | |
| "epoch": 0.84, | |
| "grad_norm": 1.693493366241455, | |
| "learning_rate": 1.912312802597603e-05, | |
| "loss": 0.5109, | |
| "step": 126 | |
| }, | |
| { | |
| "epoch": 0.8466666666666667, | |
| "grad_norm": 1.7915582656860352, | |
| "learning_rate": 1.910630762091735e-05, | |
| "loss": 0.3969, | |
| "step": 127 | |
| }, | |
| { | |
| "epoch": 0.8533333333333334, | |
| "grad_norm": 2.0322561264038086, | |
| "learning_rate": 1.9089335841147213e-05, | |
| "loss": 1.0327, | |
| "step": 128 | |
| }, | |
| { | |
| "epoch": 0.86, | |
| "grad_norm": 1.2844659090042114, | |
| "learning_rate": 1.9072213003591453e-05, | |
| "loss": 0.4539, | |
| "step": 129 | |
| }, | |
| { | |
| "epoch": 0.8666666666666667, | |
| "grad_norm": 1.2939919233322144, | |
| "learning_rate": 1.9054939427996698e-05, | |
| "loss": 0.2601, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 0.8733333333333333, | |
| "grad_norm": 1.130388855934143, | |
| "learning_rate": 1.903751543692443e-05, | |
| "loss": 0.2817, | |
| "step": 131 | |
| }, | |
| { | |
| "epoch": 0.88, | |
| "grad_norm": 1.6023472547531128, | |
| "learning_rate": 1.9019941355744923e-05, | |
| "loss": 0.5606, | |
| "step": 132 | |
| }, | |
| { | |
| "epoch": 0.8866666666666667, | |
| "grad_norm": 1.2601792812347412, | |
| "learning_rate": 1.900221751263121e-05, | |
| "loss": 0.4864, | |
| "step": 133 | |
| }, | |
| { | |
| "epoch": 0.8933333333333333, | |
| "grad_norm": 1.3938170671463013, | |
| "learning_rate": 1.8984344238552912e-05, | |
| "loss": 0.2505, | |
| "step": 134 | |
| }, | |
| { | |
| "epoch": 0.9, | |
| "grad_norm": 1.1963953971862793, | |
| "learning_rate": 1.896632186727009e-05, | |
| "loss": 0.5056, | |
| "step": 135 | |
| }, | |
| { | |
| "epoch": 0.9066666666666666, | |
| "grad_norm": 1.211414098739624, | |
| "learning_rate": 1.8948150735327004e-05, | |
| "loss": 0.4258, | |
| "step": 136 | |
| }, | |
| { | |
| "epoch": 0.9133333333333333, | |
| "grad_norm": 1.3093147277832031, | |
| "learning_rate": 1.8929831182045816e-05, | |
| "loss": 0.423, | |
| "step": 137 | |
| }, | |
| { | |
| "epoch": 0.92, | |
| "grad_norm": 1.446154236793518, | |
| "learning_rate": 1.891136354952026e-05, | |
| "loss": 0.5993, | |
| "step": 138 | |
| }, | |
| { | |
| "epoch": 0.9266666666666666, | |
| "grad_norm": 1.2222667932510376, | |
| "learning_rate": 1.8892748182609276e-05, | |
| "loss": 0.4825, | |
| "step": 139 | |
| }, | |
| { | |
| "epoch": 0.9333333333333333, | |
| "grad_norm": 1.3734275102615356, | |
| "learning_rate": 1.8873985428930523e-05, | |
| "loss": 0.4597, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 0.94, | |
| "grad_norm": 1.3745826482772827, | |
| "learning_rate": 1.885507563885394e-05, | |
| "loss": 0.3534, | |
| "step": 141 | |
| }, | |
| { | |
| "epoch": 0.9466666666666667, | |
| "grad_norm": 1.0396696329116821, | |
| "learning_rate": 1.883601916549516e-05, | |
| "loss": 0.2591, | |
| "step": 142 | |
| }, | |
| { | |
| "epoch": 0.9533333333333334, | |
| "grad_norm": 1.2262800931930542, | |
| "learning_rate": 1.881681636470895e-05, | |
| "loss": 0.6013, | |
| "step": 143 | |
| }, | |
| { | |
| "epoch": 0.96, | |
| "grad_norm": 0.9334357976913452, | |
| "learning_rate": 1.879746759508254e-05, | |
| "loss": 0.189, | |
| "step": 144 | |
| }, | |
| { | |
| "epoch": 0.9666666666666667, | |
| "grad_norm": 0.9975462555885315, | |
| "learning_rate": 1.8777973217928948e-05, | |
| "loss": 0.3069, | |
| "step": 145 | |
| }, | |
| { | |
| "epoch": 0.9733333333333334, | |
| "grad_norm": 1.211124300956726, | |
| "learning_rate": 1.875833359728021e-05, | |
| "loss": 0.406, | |
| "step": 146 | |
| }, | |
| { | |
| "epoch": 0.98, | |
| "grad_norm": 1.4741225242614746, | |
| "learning_rate": 1.87385490998806e-05, | |
| "loss": 0.5005, | |
| "step": 147 | |
| }, | |
| { | |
| "epoch": 0.9866666666666667, | |
| "grad_norm": 0.9569060802459717, | |
| "learning_rate": 1.8718620095179783e-05, | |
| "loss": 0.2188, | |
| "step": 148 | |
| }, | |
| { | |
| "epoch": 0.9933333333333333, | |
| "grad_norm": 1.4691638946533203, | |
| "learning_rate": 1.86985469553259e-05, | |
| "loss": 0.5834, | |
| "step": 149 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 1.1948105096817017, | |
| "learning_rate": 1.8678330055158625e-05, | |
| "loss": 0.3058, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 1.0066666666666666, | |
| "grad_norm": 1.1320759057998657, | |
| "learning_rate": 1.8657969772202182e-05, | |
| "loss": 0.3591, | |
| "step": 151 | |
| }, | |
| { | |
| "epoch": 1.0133333333333334, | |
| "grad_norm": 0.9014932513237, | |
| "learning_rate": 1.863746648665827e-05, | |
| "loss": 0.2829, | |
| "step": 152 | |
| }, | |
| { | |
| "epoch": 1.02, | |
| "grad_norm": 1.4449048042297363, | |
| "learning_rate": 1.861682058139898e-05, | |
| "loss": 0.5636, | |
| "step": 153 | |
| }, | |
| { | |
| "epoch": 1.0266666666666666, | |
| "grad_norm": 0.9455937743186951, | |
| "learning_rate": 1.8596032441959634e-05, | |
| "loss": 0.3461, | |
| "step": 154 | |
| }, | |
| { | |
| "epoch": 1.0333333333333334, | |
| "grad_norm": 1.3910088539123535, | |
| "learning_rate": 1.8575102456531602e-05, | |
| "loss": 0.6239, | |
| "step": 155 | |
| }, | |
| { | |
| "epoch": 1.04, | |
| "grad_norm": 1.3249852657318115, | |
| "learning_rate": 1.8554031015955028e-05, | |
| "loss": 0.5565, | |
| "step": 156 | |
| }, | |
| { | |
| "epoch": 1.0466666666666666, | |
| "grad_norm": 1.2149033546447754, | |
| "learning_rate": 1.853281851371156e-05, | |
| "loss": 0.4763, | |
| "step": 157 | |
| }, | |
| { | |
| "epoch": 1.0533333333333332, | |
| "grad_norm": 1.4447301626205444, | |
| "learning_rate": 1.8511465345916988e-05, | |
| "loss": 0.4467, | |
| "step": 158 | |
| }, | |
| { | |
| "epoch": 1.06, | |
| "grad_norm": 1.64676034450531, | |
| "learning_rate": 1.848997191131383e-05, | |
| "loss": 0.3383, | |
| "step": 159 | |
| }, | |
| { | |
| "epoch": 1.0666666666666667, | |
| "grad_norm": 1.7825281620025635, | |
| "learning_rate": 1.8468338611263923e-05, | |
| "loss": 0.4622, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 1.0733333333333333, | |
| "grad_norm": 4.348494052886963, | |
| "learning_rate": 1.8446565849740903e-05, | |
| "loss": 0.3509, | |
| "step": 161 | |
| }, | |
| { | |
| "epoch": 1.08, | |
| "grad_norm": 1.304581880569458, | |
| "learning_rate": 1.842465403332266e-05, | |
| "loss": 0.4308, | |
| "step": 162 | |
| }, | |
| { | |
| "epoch": 1.0866666666666667, | |
| "grad_norm": 2.1287167072296143, | |
| "learning_rate": 1.8402603571183766e-05, | |
| "loss": 0.4359, | |
| "step": 163 | |
| }, | |
| { | |
| "epoch": 1.0933333333333333, | |
| "grad_norm": 1.2464728355407715, | |
| "learning_rate": 1.838041487508781e-05, | |
| "loss": 0.493, | |
| "step": 164 | |
| }, | |
| { | |
| "epoch": 1.1, | |
| "grad_norm": 1.1451174020767212, | |
| "learning_rate": 1.835808835937972e-05, | |
| "loss": 0.5766, | |
| "step": 165 | |
| }, | |
| { | |
| "epoch": 1.1066666666666667, | |
| "grad_norm": 1.1933729648590088, | |
| "learning_rate": 1.833562444097802e-05, | |
| "loss": 0.3886, | |
| "step": 166 | |
| }, | |
| { | |
| "epoch": 1.1133333333333333, | |
| "grad_norm": 0.916282594203949, | |
| "learning_rate": 1.831302353936708e-05, | |
| "loss": 0.3395, | |
| "step": 167 | |
| }, | |
| { | |
| "epoch": 1.12, | |
| "grad_norm": 1.248387098312378, | |
| "learning_rate": 1.8290286076589212e-05, | |
| "loss": 0.3477, | |
| "step": 168 | |
| }, | |
| { | |
| "epoch": 1.1266666666666667, | |
| "grad_norm": 2.040144920349121, | |
| "learning_rate": 1.8267412477236855e-05, | |
| "loss": 0.6722, | |
| "step": 169 | |
| }, | |
| { | |
| "epoch": 1.1333333333333333, | |
| "grad_norm": 3.5974485874176025, | |
| "learning_rate": 1.824440316844461e-05, | |
| "loss": 0.5693, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 1.1400000000000001, | |
| "grad_norm": 1.369241714477539, | |
| "learning_rate": 1.8221258579881286e-05, | |
| "loss": 0.6999, | |
| "step": 171 | |
| }, | |
| { | |
| "epoch": 1.1466666666666667, | |
| "grad_norm": 1.1438101530075073, | |
| "learning_rate": 1.8197979143741847e-05, | |
| "loss": 0.4588, | |
| "step": 172 | |
| }, | |
| { | |
| "epoch": 1.1533333333333333, | |
| "grad_norm": 1.1206167936325073, | |
| "learning_rate": 1.817456529473938e-05, | |
| "loss": 0.3783, | |
| "step": 173 | |
| }, | |
| { | |
| "epoch": 1.16, | |
| "grad_norm": 0.9800361394882202, | |
| "learning_rate": 1.815101747009694e-05, | |
| "loss": 0.2017, | |
| "step": 174 | |
| }, | |
| { | |
| "epoch": 1.1666666666666667, | |
| "grad_norm": 0.9270554184913635, | |
| "learning_rate": 1.8127336109539412e-05, | |
| "loss": 0.4449, | |
| "step": 175 | |
| }, | |
| { | |
| "epoch": 1.1733333333333333, | |
| "grad_norm": 1.3902397155761719, | |
| "learning_rate": 1.8103521655285282e-05, | |
| "loss": 0.3596, | |
| "step": 176 | |
| }, | |
| { | |
| "epoch": 1.18, | |
| "grad_norm": 0.6287861466407776, | |
| "learning_rate": 1.8079574552038397e-05, | |
| "loss": 0.1432, | |
| "step": 177 | |
| }, | |
| { | |
| "epoch": 1.1866666666666668, | |
| "grad_norm": 0.9718913435935974, | |
| "learning_rate": 1.8055495246979645e-05, | |
| "loss": 0.3516, | |
| "step": 178 | |
| }, | |
| { | |
| "epoch": 1.1933333333333334, | |
| "grad_norm": 0.9533777832984924, | |
| "learning_rate": 1.803128418975861e-05, | |
| "loss": 0.352, | |
| "step": 179 | |
| }, | |
| { | |
| "epoch": 1.2, | |
| "grad_norm": 0.9674003720283508, | |
| "learning_rate": 1.8006941832485174e-05, | |
| "loss": 0.4614, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 1.2066666666666666, | |
| "grad_norm": 1.3588773012161255, | |
| "learning_rate": 1.798246862972108e-05, | |
| "loss": 0.3159, | |
| "step": 181 | |
| }, | |
| { | |
| "epoch": 1.2133333333333334, | |
| "grad_norm": 1.5350672006607056, | |
| "learning_rate": 1.795786503847144e-05, | |
| "loss": 0.7129, | |
| "step": 182 | |
| }, | |
| { | |
| "epoch": 1.22, | |
| "grad_norm": 0.9531151056289673, | |
| "learning_rate": 1.7933131518176194e-05, | |
| "loss": 0.2486, | |
| "step": 183 | |
| }, | |
| { | |
| "epoch": 1.2266666666666666, | |
| "grad_norm": 0.45034581422805786, | |
| "learning_rate": 1.790826853070155e-05, | |
| "loss": 0.1061, | |
| "step": 184 | |
| }, | |
| { | |
| "epoch": 1.2333333333333334, | |
| "grad_norm": 0.9796707034111023, | |
| "learning_rate": 1.7883276540331333e-05, | |
| "loss": 0.3613, | |
| "step": 185 | |
| }, | |
| { | |
| "epoch": 1.24, | |
| "grad_norm": 1.3566935062408447, | |
| "learning_rate": 1.7858156013758333e-05, | |
| "loss": 0.593, | |
| "step": 186 | |
| }, | |
| { | |
| "epoch": 1.2466666666666666, | |
| "grad_norm": 1.1837201118469238, | |
| "learning_rate": 1.783290742007559e-05, | |
| "loss": 0.3495, | |
| "step": 187 | |
| }, | |
| { | |
| "epoch": 1.2533333333333334, | |
| "grad_norm": 1.8410696983337402, | |
| "learning_rate": 1.7807531230767628e-05, | |
| "loss": 0.9237, | |
| "step": 188 | |
| }, | |
| { | |
| "epoch": 1.26, | |
| "grad_norm": 0.9960632920265198, | |
| "learning_rate": 1.7782027919701646e-05, | |
| "loss": 0.3333, | |
| "step": 189 | |
| }, | |
| { | |
| "epoch": 1.2666666666666666, | |
| "grad_norm": 1.4033161401748657, | |
| "learning_rate": 1.775639796311869e-05, | |
| "loss": 0.5075, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 1.2733333333333334, | |
| "grad_norm": 1.4755662679672241, | |
| "learning_rate": 1.7730641839624738e-05, | |
| "loss": 0.4519, | |
| "step": 191 | |
| }, | |
| { | |
| "epoch": 1.28, | |
| "grad_norm": 1.597719430923462, | |
| "learning_rate": 1.7704760030181757e-05, | |
| "loss": 0.5983, | |
| "step": 192 | |
| }, | |
| { | |
| "epoch": 1.2866666666666666, | |
| "grad_norm": 1.7625118494033813, | |
| "learning_rate": 1.7678753018098762e-05, | |
| "loss": 0.5879, | |
| "step": 193 | |
| }, | |
| { | |
| "epoch": 1.2933333333333334, | |
| "grad_norm": 1.2640427350997925, | |
| "learning_rate": 1.765262128902274e-05, | |
| "loss": 0.2558, | |
| "step": 194 | |
| }, | |
| { | |
| "epoch": 1.3, | |
| "grad_norm": 1.67387855052948, | |
| "learning_rate": 1.7626365330929622e-05, | |
| "loss": 0.4961, | |
| "step": 195 | |
| }, | |
| { | |
| "epoch": 1.3066666666666666, | |
| "grad_norm": 0.45266011357307434, | |
| "learning_rate": 1.759998563411514e-05, | |
| "loss": 0.1, | |
| "step": 196 | |
| }, | |
| { | |
| "epoch": 1.3133333333333335, | |
| "grad_norm": 1.11092209815979, | |
| "learning_rate": 1.7573482691185696e-05, | |
| "loss": 0.538, | |
| "step": 197 | |
| }, | |
| { | |
| "epoch": 1.32, | |
| "grad_norm": 1.505696177482605, | |
| "learning_rate": 1.7546856997049146e-05, | |
| "loss": 0.6605, | |
| "step": 198 | |
| }, | |
| { | |
| "epoch": 1.3266666666666667, | |
| "grad_norm": 1.3943895101547241, | |
| "learning_rate": 1.7520109048905568e-05, | |
| "loss": 0.6217, | |
| "step": 199 | |
| }, | |
| { | |
| "epoch": 1.3333333333333333, | |
| "grad_norm": 1.5668399333953857, | |
| "learning_rate": 1.7493239346237965e-05, | |
| "loss": 0.6787, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 1.34, | |
| "grad_norm": 1.3335319757461548, | |
| "learning_rate": 1.7466248390802964e-05, | |
| "loss": 0.5902, | |
| "step": 201 | |
| }, | |
| { | |
| "epoch": 1.3466666666666667, | |
| "grad_norm": 6.383098602294922, | |
| "learning_rate": 1.7439136686621416e-05, | |
| "loss": 0.4211, | |
| "step": 202 | |
| }, | |
| { | |
| "epoch": 1.3533333333333333, | |
| "grad_norm": 1.140836238861084, | |
| "learning_rate": 1.7411904739968995e-05, | |
| "loss": 0.4312, | |
| "step": 203 | |
| }, | |
| { | |
| "epoch": 1.3599999999999999, | |
| "grad_norm": 1.1934757232666016, | |
| "learning_rate": 1.7384553059366758e-05, | |
| "loss": 0.3965, | |
| "step": 204 | |
| }, | |
| { | |
| "epoch": 1.3666666666666667, | |
| "grad_norm": 1.870481014251709, | |
| "learning_rate": 1.735708215557163e-05, | |
| "loss": 0.4525, | |
| "step": 205 | |
| }, | |
| { | |
| "epoch": 1.3733333333333333, | |
| "grad_norm": 0.9946874380111694, | |
| "learning_rate": 1.7329492541566865e-05, | |
| "loss": 0.3907, | |
| "step": 206 | |
| }, | |
| { | |
| "epoch": 1.38, | |
| "grad_norm": 1.037879228591919, | |
| "learning_rate": 1.7301784732552494e-05, | |
| "loss": 0.2094, | |
| "step": 207 | |
| }, | |
| { | |
| "epoch": 1.3866666666666667, | |
| "grad_norm": 0.8867761492729187, | |
| "learning_rate": 1.727395924593568e-05, | |
| "loss": 0.292, | |
| "step": 208 | |
| }, | |
| { | |
| "epoch": 1.3933333333333333, | |
| "grad_norm": 1.338649034500122, | |
| "learning_rate": 1.7246016601321047e-05, | |
| "loss": 0.5353, | |
| "step": 209 | |
| }, | |
| { | |
| "epoch": 1.4, | |
| "grad_norm": 1.353572964668274, | |
| "learning_rate": 1.7217957320501003e-05, | |
| "loss": 0.5069, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 1.4066666666666667, | |
| "grad_norm": 1.1685672998428345, | |
| "learning_rate": 1.7189781927445994e-05, | |
| "loss": 0.3327, | |
| "step": 211 | |
| }, | |
| { | |
| "epoch": 1.4133333333333333, | |
| "grad_norm": 1.3291776180267334, | |
| "learning_rate": 1.7161490948294687e-05, | |
| "loss": 0.6335, | |
| "step": 212 | |
| }, | |
| { | |
| "epoch": 1.42, | |
| "grad_norm": 1.2127482891082764, | |
| "learning_rate": 1.7133084911344188e-05, | |
| "loss": 0.493, | |
| "step": 213 | |
| }, | |
| { | |
| "epoch": 1.4266666666666667, | |
| "grad_norm": 1.2240782976150513, | |
| "learning_rate": 1.710456434704015e-05, | |
| "loss": 0.5325, | |
| "step": 214 | |
| }, | |
| { | |
| "epoch": 1.4333333333333333, | |
| "grad_norm": 1.698709487915039, | |
| "learning_rate": 1.707592978796688e-05, | |
| "loss": 0.4999, | |
| "step": 215 | |
| }, | |
| { | |
| "epoch": 1.44, | |
| "grad_norm": 1.0113152265548706, | |
| "learning_rate": 1.7047181768837376e-05, | |
| "loss": 0.2821, | |
| "step": 216 | |
| }, | |
| { | |
| "epoch": 1.4466666666666668, | |
| "grad_norm": 0.9742848873138428, | |
| "learning_rate": 1.7018320826483373e-05, | |
| "loss": 0.4345, | |
| "step": 217 | |
| }, | |
| { | |
| "epoch": 1.4533333333333334, | |
| "grad_norm": 1.7382066249847412, | |
| "learning_rate": 1.6989347499845284e-05, | |
| "loss": 0.6513, | |
| "step": 218 | |
| }, | |
| { | |
| "epoch": 1.46, | |
| "grad_norm": 1.3588602542877197, | |
| "learning_rate": 1.6960262329962152e-05, | |
| "loss": 0.662, | |
| "step": 219 | |
| }, | |
| { | |
| "epoch": 1.4666666666666668, | |
| "grad_norm": 1.4204033613204956, | |
| "learning_rate": 1.693106585996156e-05, | |
| "loss": 0.4216, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 1.4733333333333334, | |
| "grad_norm": 1.6735905408859253, | |
| "learning_rate": 1.6901758635049464e-05, | |
| "loss": 0.5573, | |
| "step": 221 | |
| }, | |
| { | |
| "epoch": 1.48, | |
| "grad_norm": 1.4119937419891357, | |
| "learning_rate": 1.6872341202500028e-05, | |
| "loss": 0.4, | |
| "step": 222 | |
| }, | |
| { | |
| "epoch": 1.4866666666666668, | |
| "grad_norm": 0.8888566493988037, | |
| "learning_rate": 1.6842814111645392e-05, | |
| "loss": 0.1802, | |
| "step": 223 | |
| }, | |
| { | |
| "epoch": 1.4933333333333334, | |
| "grad_norm": 1.1101222038269043, | |
| "learning_rate": 1.6813177913865436e-05, | |
| "loss": 0.3547, | |
| "step": 224 | |
| }, | |
| { | |
| "epoch": 1.5, | |
| "grad_norm": 1.1994966268539429, | |
| "learning_rate": 1.6783433162577457e-05, | |
| "loss": 0.4721, | |
| "step": 225 | |
| }, | |
| { | |
| "epoch": 1.5066666666666668, | |
| "grad_norm": 0.8427855968475342, | |
| "learning_rate": 1.6753580413225854e-05, | |
| "loss": 0.3638, | |
| "step": 226 | |
| }, | |
| { | |
| "epoch": 1.5133333333333332, | |
| "grad_norm": 1.6891529560089111, | |
| "learning_rate": 1.6723620223271747e-05, | |
| "loss": 0.3422, | |
| "step": 227 | |
| }, | |
| { | |
| "epoch": 1.52, | |
| "grad_norm": 1.614018201828003, | |
| "learning_rate": 1.669355315218256e-05, | |
| "loss": 0.5234, | |
| "step": 228 | |
| }, | |
| { | |
| "epoch": 1.5266666666666666, | |
| "grad_norm": 1.6598495244979858, | |
| "learning_rate": 1.6663379761421602e-05, | |
| "loss": 0.6544, | |
| "step": 229 | |
| }, | |
| { | |
| "epoch": 1.5333333333333332, | |
| "grad_norm": 1.2119078636169434, | |
| "learning_rate": 1.6633100614437546e-05, | |
| "loss": 0.4101, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 1.54, | |
| "grad_norm": 1.2607935667037964, | |
| "learning_rate": 1.660271627665393e-05, | |
| "loss": 0.5589, | |
| "step": 231 | |
| }, | |
| { | |
| "epoch": 1.5466666666666666, | |
| "grad_norm": 1.1111940145492554, | |
| "learning_rate": 1.6572227315458594e-05, | |
| "loss": 0.3733, | |
| "step": 232 | |
| }, | |
| { | |
| "epoch": 1.5533333333333332, | |
| "grad_norm": 1.5404767990112305, | |
| "learning_rate": 1.6541634300193085e-05, | |
| "loss": 0.3923, | |
| "step": 233 | |
| }, | |
| { | |
| "epoch": 1.56, | |
| "grad_norm": 0.8019644618034363, | |
| "learning_rate": 1.6510937802142023e-05, | |
| "loss": 0.1475, | |
| "step": 234 | |
| }, | |
| { | |
| "epoch": 1.5666666666666667, | |
| "grad_norm": 1.1884678602218628, | |
| "learning_rate": 1.6480138394522423e-05, | |
| "loss": 0.5737, | |
| "step": 235 | |
| }, | |
| { | |
| "epoch": 1.5733333333333333, | |
| "grad_norm": 0.7711490988731384, | |
| "learning_rate": 1.6449236652473023e-05, | |
| "loss": 0.4035, | |
| "step": 236 | |
| }, | |
| { | |
| "epoch": 1.58, | |
| "grad_norm": 0.9433121681213379, | |
| "learning_rate": 1.6418233153043504e-05, | |
| "loss": 0.2971, | |
| "step": 237 | |
| }, | |
| { | |
| "epoch": 1.5866666666666667, | |
| "grad_norm": 1.5755349397659302, | |
| "learning_rate": 1.6387128475183743e-05, | |
| "loss": 0.6917, | |
| "step": 238 | |
| }, | |
| { | |
| "epoch": 1.5933333333333333, | |
| "grad_norm": 0.8864415287971497, | |
| "learning_rate": 1.6355923199732988e-05, | |
| "loss": 0.3182, | |
| "step": 239 | |
| }, | |
| { | |
| "epoch": 1.6, | |
| "grad_norm": 1.2354004383087158, | |
| "learning_rate": 1.6324617909409022e-05, | |
| "loss": 0.3832, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 1.6066666666666667, | |
| "grad_norm": 1.0824851989746094, | |
| "learning_rate": 1.6293213188797265e-05, | |
| "loss": 0.5409, | |
| "step": 241 | |
| }, | |
| { | |
| "epoch": 1.6133333333333333, | |
| "grad_norm": 1.129772663116455, | |
| "learning_rate": 1.6261709624339876e-05, | |
| "loss": 0.3416, | |
| "step": 242 | |
| }, | |
| { | |
| "epoch": 1.62, | |
| "grad_norm": 1.2783231735229492, | |
| "learning_rate": 1.6230107804324792e-05, | |
| "loss": 0.4821, | |
| "step": 243 | |
| }, | |
| { | |
| "epoch": 1.6266666666666667, | |
| "grad_norm": 0.8684279918670654, | |
| "learning_rate": 1.6198408318874744e-05, | |
| "loss": 0.3528, | |
| "step": 244 | |
| }, | |
| { | |
| "epoch": 1.6333333333333333, | |
| "grad_norm": 1.0495837926864624, | |
| "learning_rate": 1.6166611759936234e-05, | |
| "loss": 0.4966, | |
| "step": 245 | |
| }, | |
| { | |
| "epoch": 1.6400000000000001, | |
| "grad_norm": 1.158725619316101, | |
| "learning_rate": 1.6134718721268486e-05, | |
| "loss": 0.255, | |
| "step": 246 | |
| }, | |
| { | |
| "epoch": 1.6466666666666665, | |
| "grad_norm": 1.063276767730713, | |
| "learning_rate": 1.6102729798432362e-05, | |
| "loss": 0.644, | |
| "step": 247 | |
| }, | |
| { | |
| "epoch": 1.6533333333333333, | |
| "grad_norm": 0.7704464793205261, | |
| "learning_rate": 1.6070645588779234e-05, | |
| "loss": 0.2915, | |
| "step": 248 | |
| }, | |
| { | |
| "epoch": 1.6600000000000001, | |
| "grad_norm": 1.0192077159881592, | |
| "learning_rate": 1.603846669143982e-05, | |
| "loss": 0.5738, | |
| "step": 249 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "grad_norm": 0.6719574928283691, | |
| "learning_rate": 1.6006193707313026e-05, | |
| "loss": 0.1746, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 1.6733333333333333, | |
| "grad_norm": 0.9879522919654846, | |
| "learning_rate": 1.597382723905469e-05, | |
| "loss": 0.3991, | |
| "step": 251 | |
| }, | |
| { | |
| "epoch": 1.6800000000000002, | |
| "grad_norm": 1.384028673171997, | |
| "learning_rate": 1.5941367891066354e-05, | |
| "loss": 0.5644, | |
| "step": 252 | |
| }, | |
| { | |
| "epoch": 1.6866666666666665, | |
| "grad_norm": 1.8280025720596313, | |
| "learning_rate": 1.5908816269483965e-05, | |
| "loss": 0.6819, | |
| "step": 253 | |
| }, | |
| { | |
| "epoch": 1.6933333333333334, | |
| "grad_norm": 1.1063525676727295, | |
| "learning_rate": 1.587617298216655e-05, | |
| "loss": 0.4249, | |
| "step": 254 | |
| }, | |
| { | |
| "epoch": 1.7, | |
| "grad_norm": 3.4740898609161377, | |
| "learning_rate": 1.5843438638684888e-05, | |
| "loss": 0.4314, | |
| "step": 255 | |
| }, | |
| { | |
| "epoch": 1.7066666666666666, | |
| "grad_norm": 0.9208361506462097, | |
| "learning_rate": 1.58106138503101e-05, | |
| "loss": 0.2783, | |
| "step": 256 | |
| }, | |
| { | |
| "epoch": 1.7133333333333334, | |
| "grad_norm": 1.0024452209472656, | |
| "learning_rate": 1.5777699230002263e-05, | |
| "loss": 0.367, | |
| "step": 257 | |
| }, | |
| { | |
| "epoch": 1.72, | |
| "grad_norm": 1.7223882675170898, | |
| "learning_rate": 1.574469539239893e-05, | |
| "loss": 0.4302, | |
| "step": 258 | |
| }, | |
| { | |
| "epoch": 1.7266666666666666, | |
| "grad_norm": 0.8658112287521362, | |
| "learning_rate": 1.5711602953803682e-05, | |
| "loss": 0.2135, | |
| "step": 259 | |
| }, | |
| { | |
| "epoch": 1.7333333333333334, | |
| "grad_norm": 1.1215999126434326, | |
| "learning_rate": 1.5678422532174608e-05, | |
| "loss": 0.4406, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 1.74, | |
| "grad_norm": 1.734351634979248, | |
| "learning_rate": 1.564515474711276e-05, | |
| "loss": 0.4807, | |
| "step": 261 | |
| }, | |
| { | |
| "epoch": 1.7466666666666666, | |
| "grad_norm": 1.429038643836975, | |
| "learning_rate": 1.56118002198506e-05, | |
| "loss": 0.5597, | |
| "step": 262 | |
| }, | |
| { | |
| "epoch": 1.7533333333333334, | |
| "grad_norm": 1.6158004999160767, | |
| "learning_rate": 1.557835957324036e-05, | |
| "loss": 0.6275, | |
| "step": 263 | |
| }, | |
| { | |
| "epoch": 1.76, | |
| "grad_norm": 1.3200069665908813, | |
| "learning_rate": 1.554483343174247e-05, | |
| "loss": 0.5552, | |
| "step": 264 | |
| }, | |
| { | |
| "epoch": 1.7666666666666666, | |
| "grad_norm": 0.9847660064697266, | |
| "learning_rate": 1.5511222421413845e-05, | |
| "loss": 0.2985, | |
| "step": 265 | |
| }, | |
| { | |
| "epoch": 1.7733333333333334, | |
| "grad_norm": 1.8030058145523071, | |
| "learning_rate": 1.5477527169896228e-05, | |
| "loss": 0.6832, | |
| "step": 266 | |
| }, | |
| { | |
| "epoch": 1.78, | |
| "grad_norm": 1.4984818696975708, | |
| "learning_rate": 1.5443748306404442e-05, | |
| "loss": 0.5897, | |
| "step": 267 | |
| }, | |
| { | |
| "epoch": 1.7866666666666666, | |
| "grad_norm": 1.6027628183364868, | |
| "learning_rate": 1.5409886461714662e-05, | |
| "loss": 0.6302, | |
| "step": 268 | |
| }, | |
| { | |
| "epoch": 1.7933333333333334, | |
| "grad_norm": 1.1679726839065552, | |
| "learning_rate": 1.5375942268152635e-05, | |
| "loss": 0.8119, | |
| "step": 269 | |
| }, | |
| { | |
| "epoch": 1.8, | |
| "grad_norm": 2.1344714164733887, | |
| "learning_rate": 1.5341916359581858e-05, | |
| "loss": 0.355, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 1.8066666666666666, | |
| "grad_norm": 1.595517635345459, | |
| "learning_rate": 1.5307809371391747e-05, | |
| "loss": 0.8738, | |
| "step": 271 | |
| }, | |
| { | |
| "epoch": 1.8133333333333335, | |
| "grad_norm": 1.3305667638778687, | |
| "learning_rate": 1.5273621940485777e-05, | |
| "loss": 0.4503, | |
| "step": 272 | |
| }, | |
| { | |
| "epoch": 1.8199999999999998, | |
| "grad_norm": 0.977202296257019, | |
| "learning_rate": 1.5239354705269587e-05, | |
| "loss": 0.2329, | |
| "step": 273 | |
| }, | |
| { | |
| "epoch": 1.8266666666666667, | |
| "grad_norm": 1.3563309907913208, | |
| "learning_rate": 1.520500830563906e-05, | |
| "loss": 0.4367, | |
| "step": 274 | |
| }, | |
| { | |
| "epoch": 1.8333333333333335, | |
| "grad_norm": 1.2666316032409668, | |
| "learning_rate": 1.5170583382968363e-05, | |
| "loss": 0.5034, | |
| "step": 275 | |
| }, | |
| { | |
| "epoch": 1.8399999999999999, | |
| "grad_norm": 0.9950445294380188, | |
| "learning_rate": 1.5136080580097982e-05, | |
| "loss": 0.3498, | |
| "step": 276 | |
| }, | |
| { | |
| "epoch": 1.8466666666666667, | |
| "grad_norm": 1.3694396018981934, | |
| "learning_rate": 1.510150054132272e-05, | |
| "loss": 0.3353, | |
| "step": 277 | |
| }, | |
| { | |
| "epoch": 1.8533333333333335, | |
| "grad_norm": 1.4402964115142822, | |
| "learning_rate": 1.5066843912379649e-05, | |
| "loss": 0.354, | |
| "step": 278 | |
| }, | |
| { | |
| "epoch": 1.8599999999999999, | |
| "grad_norm": 1.7509251832962036, | |
| "learning_rate": 1.5032111340436073e-05, | |
| "loss": 0.4484, | |
| "step": 279 | |
| }, | |
| { | |
| "epoch": 1.8666666666666667, | |
| "grad_norm": 1.5764682292938232, | |
| "learning_rate": 1.499730347407742e-05, | |
| "loss": 0.5111, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 1.8733333333333333, | |
| "grad_norm": 2.0803394317626953, | |
| "learning_rate": 1.496242096329516e-05, | |
| "loss": 0.6957, | |
| "step": 281 | |
| }, | |
| { | |
| "epoch": 1.88, | |
| "grad_norm": 1.8646881580352783, | |
| "learning_rate": 1.492746445947463e-05, | |
| "loss": 0.7925, | |
| "step": 282 | |
| }, | |
| { | |
| "epoch": 1.8866666666666667, | |
| "grad_norm": 0.9404792785644531, | |
| "learning_rate": 1.4892434615382905e-05, | |
| "loss": 0.2242, | |
| "step": 283 | |
| }, | |
| { | |
| "epoch": 1.8933333333333333, | |
| "grad_norm": 1.6398634910583496, | |
| "learning_rate": 1.4857332085156591e-05, | |
| "loss": 0.6085, | |
| "step": 284 | |
| }, | |
| { | |
| "epoch": 1.9, | |
| "grad_norm": 1.3513060808181763, | |
| "learning_rate": 1.4822157524289609e-05, | |
| "loss": 0.4406, | |
| "step": 285 | |
| }, | |
| { | |
| "epoch": 1.9066666666666667, | |
| "grad_norm": 0.8963049650192261, | |
| "learning_rate": 1.478691158962096e-05, | |
| "loss": 0.2038, | |
| "step": 286 | |
| }, | |
| { | |
| "epoch": 1.9133333333333333, | |
| "grad_norm": 1.437309741973877, | |
| "learning_rate": 1.4751594939322462e-05, | |
| "loss": 0.3276, | |
| "step": 287 | |
| }, | |
| { | |
| "epoch": 1.92, | |
| "grad_norm": 1.9788297414779663, | |
| "learning_rate": 1.4716208232886447e-05, | |
| "loss": 1.0759, | |
| "step": 288 | |
| }, | |
| { | |
| "epoch": 1.9266666666666667, | |
| "grad_norm": 1.3424140214920044, | |
| "learning_rate": 1.4680752131113455e-05, | |
| "loss": 0.6213, | |
| "step": 289 | |
| }, | |
| { | |
| "epoch": 1.9333333333333333, | |
| "grad_norm": 1.2345807552337646, | |
| "learning_rate": 1.4645227296099902e-05, | |
| "loss": 0.3295, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 1.94, | |
| "grad_norm": 1.2396150827407837, | |
| "learning_rate": 1.4609634391225702e-05, | |
| "loss": 0.4937, | |
| "step": 291 | |
| }, | |
| { | |
| "epoch": 1.9466666666666668, | |
| "grad_norm": 1.2589573860168457, | |
| "learning_rate": 1.4573974081141877e-05, | |
| "loss": 0.3115, | |
| "step": 292 | |
| }, | |
| { | |
| "epoch": 1.9533333333333334, | |
| "grad_norm": 1.3282593488693237, | |
| "learning_rate": 1.453824703175817e-05, | |
| "loss": 0.4194, | |
| "step": 293 | |
| }, | |
| { | |
| "epoch": 1.96, | |
| "grad_norm": 1.7631460428237915, | |
| "learning_rate": 1.4502453910230575e-05, | |
| "loss": 0.408, | |
| "step": 294 | |
| }, | |
| { | |
| "epoch": 1.9666666666666668, | |
| "grad_norm": 1.4355448484420776, | |
| "learning_rate": 1.4466595384948913e-05, | |
| "loss": 0.3947, | |
| "step": 295 | |
| }, | |
| { | |
| "epoch": 1.9733333333333334, | |
| "grad_norm": 1.1702021360397339, | |
| "learning_rate": 1.4430672125524327e-05, | |
| "loss": 0.5111, | |
| "step": 296 | |
| }, | |
| { | |
| "epoch": 1.98, | |
| "grad_norm": 0.7956981062889099, | |
| "learning_rate": 1.4394684802776784e-05, | |
| "loss": 0.2917, | |
| "step": 297 | |
| }, | |
| { | |
| "epoch": 1.9866666666666668, | |
| "grad_norm": 1.3731566667556763, | |
| "learning_rate": 1.4358634088722552e-05, | |
| "loss": 0.4538, | |
| "step": 298 | |
| }, | |
| { | |
| "epoch": 1.9933333333333332, | |
| "grad_norm": 1.1730948686599731, | |
| "learning_rate": 1.4322520656561652e-05, | |
| "loss": 0.4561, | |
| "step": 299 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "grad_norm": 0.7473224997520447, | |
| "learning_rate": 1.4286345180665277e-05, | |
| "loss": 0.2062, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 2.006666666666667, | |
| "grad_norm": 1.4702370166778564, | |
| "learning_rate": 1.4250108336563212e-05, | |
| "loss": 0.4982, | |
| "step": 301 | |
| }, | |
| { | |
| "epoch": 2.013333333333333, | |
| "grad_norm": 2.2533392906188965, | |
| "learning_rate": 1.4213810800931209e-05, | |
| "loss": 0.7325, | |
| "step": 302 | |
| }, | |
| { | |
| "epoch": 2.02, | |
| "grad_norm": 1.4618300199508667, | |
| "learning_rate": 1.4177453251578361e-05, | |
| "loss": 0.9485, | |
| "step": 303 | |
| }, | |
| { | |
| "epoch": 2.026666666666667, | |
| "grad_norm": 0.9844323992729187, | |
| "learning_rate": 1.4141036367434433e-05, | |
| "loss": 0.2536, | |
| "step": 304 | |
| }, | |
| { | |
| "epoch": 2.033333333333333, | |
| "grad_norm": 1.3822338581085205, | |
| "learning_rate": 1.4104560828537188e-05, | |
| "loss": 0.3164, | |
| "step": 305 | |
| }, | |
| { | |
| "epoch": 2.04, | |
| "grad_norm": 1.3014678955078125, | |
| "learning_rate": 1.40680273160197e-05, | |
| "loss": 0.4012, | |
| "step": 306 | |
| }, | |
| { | |
| "epoch": 2.046666666666667, | |
| "grad_norm": 1.521849274635315, | |
| "learning_rate": 1.4031436512097612e-05, | |
| "loss": 0.5446, | |
| "step": 307 | |
| }, | |
| { | |
| "epoch": 2.0533333333333332, | |
| "grad_norm": 1.182312250137329, | |
| "learning_rate": 1.3994789100056421e-05, | |
| "loss": 0.4388, | |
| "step": 308 | |
| }, | |
| { | |
| "epoch": 2.06, | |
| "grad_norm": 1.3692355155944824, | |
| "learning_rate": 1.3958085764238694e-05, | |
| "loss": 0.5179, | |
| "step": 309 | |
| }, | |
| { | |
| "epoch": 2.066666666666667, | |
| "grad_norm": 1.7040317058563232, | |
| "learning_rate": 1.3921327190031315e-05, | |
| "loss": 0.5444, | |
| "step": 310 | |
| }, | |
| { | |
| "epoch": 2.0733333333333333, | |
| "grad_norm": 1.5850881338119507, | |
| "learning_rate": 1.3884514063852661e-05, | |
| "loss": 0.527, | |
| "step": 311 | |
| }, | |
| { | |
| "epoch": 2.08, | |
| "grad_norm": 1.0130246877670288, | |
| "learning_rate": 1.3847647073139806e-05, | |
| "loss": 0.2265, | |
| "step": 312 | |
| }, | |
| { | |
| "epoch": 2.086666666666667, | |
| "grad_norm": 1.9094117879867554, | |
| "learning_rate": 1.3810726906335664e-05, | |
| "loss": 0.4572, | |
| "step": 313 | |
| }, | |
| { | |
| "epoch": 2.0933333333333333, | |
| "grad_norm": 1.2002707719802856, | |
| "learning_rate": 1.377375425287616e-05, | |
| "loss": 0.2674, | |
| "step": 314 | |
| }, | |
| { | |
| "epoch": 2.1, | |
| "grad_norm": 1.5485289096832275, | |
| "learning_rate": 1.373672980317731e-05, | |
| "loss": 0.563, | |
| "step": 315 | |
| }, | |
| { | |
| "epoch": 2.1066666666666665, | |
| "grad_norm": 1.884822130203247, | |
| "learning_rate": 1.3699654248622382e-05, | |
| "loss": 0.6168, | |
| "step": 316 | |
| }, | |
| { | |
| "epoch": 2.1133333333333333, | |
| "grad_norm": 1.6859358549118042, | |
| "learning_rate": 1.3662528281548954e-05, | |
| "loss": 0.5328, | |
| "step": 317 | |
| }, | |
| { | |
| "epoch": 2.12, | |
| "grad_norm": 2.261037826538086, | |
| "learning_rate": 1.3625352595235992e-05, | |
| "loss": 0.5648, | |
| "step": 318 | |
| }, | |
| { | |
| "epoch": 2.1266666666666665, | |
| "grad_norm": 1.7818392515182495, | |
| "learning_rate": 1.3588127883890898e-05, | |
| "loss": 0.5394, | |
| "step": 319 | |
| }, | |
| { | |
| "epoch": 2.1333333333333333, | |
| "grad_norm": 1.2540154457092285, | |
| "learning_rate": 1.3550854842636558e-05, | |
| "loss": 0.5572, | |
| "step": 320 | |
| }, | |
| { | |
| "epoch": 2.14, | |
| "grad_norm": 1.7134149074554443, | |
| "learning_rate": 1.3513534167498355e-05, | |
| "loss": 0.4855, | |
| "step": 321 | |
| }, | |
| { | |
| "epoch": 2.1466666666666665, | |
| "grad_norm": 1.232763409614563, | |
| "learning_rate": 1.3476166555391174e-05, | |
| "loss": 0.3799, | |
| "step": 322 | |
| }, | |
| { | |
| "epoch": 2.1533333333333333, | |
| "grad_norm": 1.330854058265686, | |
| "learning_rate": 1.3438752704106386e-05, | |
| "loss": 0.367, | |
| "step": 323 | |
| }, | |
| { | |
| "epoch": 2.16, | |
| "grad_norm": 1.4032166004180908, | |
| "learning_rate": 1.340129331229881e-05, | |
| "loss": 0.6345, | |
| "step": 324 | |
| }, | |
| { | |
| "epoch": 2.1666666666666665, | |
| "grad_norm": 1.3411375284194946, | |
| "learning_rate": 1.336378907947369e-05, | |
| "loss": 0.2647, | |
| "step": 325 | |
| }, | |
| { | |
| "epoch": 2.1733333333333333, | |
| "grad_norm": 1.103200078010559, | |
| "learning_rate": 1.3326240705973605e-05, | |
| "loss": 0.1682, | |
| "step": 326 | |
| }, | |
| { | |
| "epoch": 2.18, | |
| "grad_norm": 0.830708384513855, | |
| "learning_rate": 1.328864889296541e-05, | |
| "loss": 0.1622, | |
| "step": 327 | |
| }, | |
| { | |
| "epoch": 2.1866666666666665, | |
| "grad_norm": 1.2569397687911987, | |
| "learning_rate": 1.3251014342427134e-05, | |
| "loss": 0.3398, | |
| "step": 328 | |
| }, | |
| { | |
| "epoch": 2.1933333333333334, | |
| "grad_norm": 1.1822941303253174, | |
| "learning_rate": 1.3213337757134871e-05, | |
| "loss": 0.1937, | |
| "step": 329 | |
| }, | |
| { | |
| "epoch": 2.2, | |
| "grad_norm": 1.551056981086731, | |
| "learning_rate": 1.317561984064967e-05, | |
| "loss": 0.4919, | |
| "step": 330 | |
| }, | |
| { | |
| "epoch": 2.2066666666666666, | |
| "grad_norm": 1.3554848432540894, | |
| "learning_rate": 1.3137861297304367e-05, | |
| "loss": 0.5676, | |
| "step": 331 | |
| }, | |
| { | |
| "epoch": 2.2133333333333334, | |
| "grad_norm": 0.9740996956825256, | |
| "learning_rate": 1.310006283219047e-05, | |
| "loss": 0.3267, | |
| "step": 332 | |
| }, | |
| { | |
| "epoch": 2.22, | |
| "grad_norm": 1.5028480291366577, | |
| "learning_rate": 1.3062225151144964e-05, | |
| "loss": 0.6523, | |
| "step": 333 | |
| }, | |
| { | |
| "epoch": 2.2266666666666666, | |
| "grad_norm": 1.5713306665420532, | |
| "learning_rate": 1.302434896073714e-05, | |
| "loss": 0.3911, | |
| "step": 334 | |
| }, | |
| { | |
| "epoch": 2.2333333333333334, | |
| "grad_norm": 2.664703607559204, | |
| "learning_rate": 1.2986434968255413e-05, | |
| "loss": 0.6158, | |
| "step": 335 | |
| }, | |
| { | |
| "epoch": 2.24, | |
| "grad_norm": 1.2363102436065674, | |
| "learning_rate": 1.2948483881694083e-05, | |
| "loss": 0.3986, | |
| "step": 336 | |
| }, | |
| { | |
| "epoch": 2.2466666666666666, | |
| "grad_norm": 2.5949816703796387, | |
| "learning_rate": 1.2910496409740147e-05, | |
| "loss": 0.7931, | |
| "step": 337 | |
| }, | |
| { | |
| "epoch": 2.2533333333333334, | |
| "grad_norm": 1.4112695455551147, | |
| "learning_rate": 1.287247326176005e-05, | |
| "loss": 0.3628, | |
| "step": 338 | |
| }, | |
| { | |
| "epoch": 2.26, | |
| "grad_norm": 1.946993350982666, | |
| "learning_rate": 1.2834415147786434e-05, | |
| "loss": 0.6038, | |
| "step": 339 | |
| }, | |
| { | |
| "epoch": 2.2666666666666666, | |
| "grad_norm": 1.3219523429870605, | |
| "learning_rate": 1.2796322778504899e-05, | |
| "loss": 0.6566, | |
| "step": 340 | |
| }, | |
| { | |
| "epoch": 2.2733333333333334, | |
| "grad_norm": 1.262119174003601, | |
| "learning_rate": 1.27581968652407e-05, | |
| "loss": 0.2201, | |
| "step": 341 | |
| }, | |
| { | |
| "epoch": 2.2800000000000002, | |
| "grad_norm": 1.1588819026947021, | |
| "learning_rate": 1.2720038119945496e-05, | |
| "loss": 0.3104, | |
| "step": 342 | |
| }, | |
| { | |
| "epoch": 2.2866666666666666, | |
| "grad_norm": 1.4515700340270996, | |
| "learning_rate": 1.2681847255184035e-05, | |
| "loss": 0.375, | |
| "step": 343 | |
| }, | |
| { | |
| "epoch": 2.2933333333333334, | |
| "grad_norm": 1.5760196447372437, | |
| "learning_rate": 1.264362498412085e-05, | |
| "loss": 0.3785, | |
| "step": 344 | |
| }, | |
| { | |
| "epoch": 2.3, | |
| "grad_norm": 1.2922861576080322, | |
| "learning_rate": 1.260537202050696e-05, | |
| "loss": 0.5141, | |
| "step": 345 | |
| }, | |
| { | |
| "epoch": 2.3066666666666666, | |
| "grad_norm": 1.482051968574524, | |
| "learning_rate": 1.2567089078666517e-05, | |
| "loss": 0.5309, | |
| "step": 346 | |
| }, | |
| { | |
| "epoch": 2.3133333333333335, | |
| "grad_norm": 1.1617043018341064, | |
| "learning_rate": 1.2528776873483474e-05, | |
| "loss": 0.3671, | |
| "step": 347 | |
| }, | |
| { | |
| "epoch": 2.32, | |
| "grad_norm": 2.644411325454712, | |
| "learning_rate": 1.2490436120388249e-05, | |
| "loss": 0.375, | |
| "step": 348 | |
| }, | |
| { | |
| "epoch": 2.3266666666666667, | |
| "grad_norm": 0.6887607574462891, | |
| "learning_rate": 1.2452067535344344e-05, | |
| "loss": 0.1441, | |
| "step": 349 | |
| }, | |
| { | |
| "epoch": 2.3333333333333335, | |
| "grad_norm": 1.5477890968322754, | |
| "learning_rate": 1.2413671834834997e-05, | |
| "loss": 0.6918, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 2.34, | |
| "grad_norm": 1.377488374710083, | |
| "learning_rate": 1.2375249735849785e-05, | |
| "loss": 0.3714, | |
| "step": 351 | |
| }, | |
| { | |
| "epoch": 2.3466666666666667, | |
| "grad_norm": 1.730989933013916, | |
| "learning_rate": 1.2336801955871241e-05, | |
| "loss": 0.2917, | |
| "step": 352 | |
| }, | |
| { | |
| "epoch": 2.3533333333333335, | |
| "grad_norm": 1.2716642618179321, | |
| "learning_rate": 1.2298329212861461e-05, | |
| "loss": 0.3776, | |
| "step": 353 | |
| }, | |
| { | |
| "epoch": 2.36, | |
| "grad_norm": 1.3299543857574463, | |
| "learning_rate": 1.2259832225248693e-05, | |
| "loss": 0.3653, | |
| "step": 354 | |
| }, | |
| { | |
| "epoch": 2.3666666666666667, | |
| "grad_norm": 1.766775369644165, | |
| "learning_rate": 1.222131171191392e-05, | |
| "loss": 0.4566, | |
| "step": 355 | |
| }, | |
| { | |
| "epoch": 2.3733333333333335, | |
| "grad_norm": 1.3671021461486816, | |
| "learning_rate": 1.2182768392177437e-05, | |
| "loss": 0.3764, | |
| "step": 356 | |
| }, | |
| { | |
| "epoch": 2.38, | |
| "grad_norm": 1.1871297359466553, | |
| "learning_rate": 1.2144202985785418e-05, | |
| "loss": 0.2786, | |
| "step": 357 | |
| }, | |
| { | |
| "epoch": 2.3866666666666667, | |
| "grad_norm": 1.684607744216919, | |
| "learning_rate": 1.2105616212896478e-05, | |
| "loss": 0.6335, | |
| "step": 358 | |
| }, | |
| { | |
| "epoch": 2.3933333333333335, | |
| "grad_norm": 1.1292977333068848, | |
| "learning_rate": 1.2067008794068226e-05, | |
| "loss": 0.2257, | |
| "step": 359 | |
| }, | |
| { | |
| "epoch": 2.4, | |
| "grad_norm": 1.4422345161437988, | |
| "learning_rate": 1.2028381450243798e-05, | |
| "loss": 0.5768, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 2.4066666666666667, | |
| "grad_norm": 1.675971269607544, | |
| "learning_rate": 1.1989734902738414e-05, | |
| "loss": 0.8085, | |
| "step": 361 | |
| }, | |
| { | |
| "epoch": 2.413333333333333, | |
| "grad_norm": 1.3154922723770142, | |
| "learning_rate": 1.195106987322589e-05, | |
| "loss": 0.3328, | |
| "step": 362 | |
| }, | |
| { | |
| "epoch": 2.42, | |
| "grad_norm": 1.4331287145614624, | |
| "learning_rate": 1.1912387083725174e-05, | |
| "loss": 0.3854, | |
| "step": 363 | |
| }, | |
| { | |
| "epoch": 2.4266666666666667, | |
| "grad_norm": 1.7648396492004395, | |
| "learning_rate": 1.1873687256586856e-05, | |
| "loss": 0.2884, | |
| "step": 364 | |
| }, | |
| { | |
| "epoch": 2.4333333333333336, | |
| "grad_norm": 1.2717833518981934, | |
| "learning_rate": 1.1834971114479683e-05, | |
| "loss": 0.5703, | |
| "step": 365 | |
| }, | |
| { | |
| "epoch": 2.44, | |
| "grad_norm": 1.749265432357788, | |
| "learning_rate": 1.1796239380377064e-05, | |
| "loss": 0.5033, | |
| "step": 366 | |
| }, | |
| { | |
| "epoch": 2.4466666666666668, | |
| "grad_norm": 1.6598306894302368, | |
| "learning_rate": 1.175749277754356e-05, | |
| "loss": 0.5986, | |
| "step": 367 | |
| }, | |
| { | |
| "epoch": 2.453333333333333, | |
| "grad_norm": 1.461147665977478, | |
| "learning_rate": 1.1718732029521393e-05, | |
| "loss": 0.4069, | |
| "step": 368 | |
| }, | |
| { | |
| "epoch": 2.46, | |
| "grad_norm": 1.7880187034606934, | |
| "learning_rate": 1.1679957860116939e-05, | |
| "loss": 0.6559, | |
| "step": 369 | |
| }, | |
| { | |
| "epoch": 2.466666666666667, | |
| "grad_norm": 0.9079005122184753, | |
| "learning_rate": 1.1641170993387177e-05, | |
| "loss": 0.3556, | |
| "step": 370 | |
| }, | |
| { | |
| "epoch": 2.473333333333333, | |
| "grad_norm": 1.3653432130813599, | |
| "learning_rate": 1.1602372153626207e-05, | |
| "loss": 0.3396, | |
| "step": 371 | |
| }, | |
| { | |
| "epoch": 2.48, | |
| "grad_norm": 1.1392285823822021, | |
| "learning_rate": 1.156356206535171e-05, | |
| "loss": 0.3157, | |
| "step": 372 | |
| }, | |
| { | |
| "epoch": 2.486666666666667, | |
| "grad_norm": 1.6712108850479126, | |
| "learning_rate": 1.152474145329141e-05, | |
| "loss": 0.4391, | |
| "step": 373 | |
| }, | |
| { | |
| "epoch": 2.493333333333333, | |
| "grad_norm": 1.0093735456466675, | |
| "learning_rate": 1.148591104236956e-05, | |
| "loss": 0.2155, | |
| "step": 374 | |
| }, | |
| { | |
| "epoch": 2.5, | |
| "grad_norm": 1.4134020805358887, | |
| "learning_rate": 1.1447071557693384e-05, | |
| "loss": 0.4543, | |
| "step": 375 | |
| }, | |
| { | |
| "epoch": 2.506666666666667, | |
| "grad_norm": 1.3809040784835815, | |
| "learning_rate": 1.1408223724539555e-05, | |
| "loss": 0.5361, | |
| "step": 376 | |
| }, | |
| { | |
| "epoch": 2.513333333333333, | |
| "grad_norm": 1.4754438400268555, | |
| "learning_rate": 1.136936826834063e-05, | |
| "loss": 0.6066, | |
| "step": 377 | |
| }, | |
| { | |
| "epoch": 2.52, | |
| "grad_norm": 2.5914015769958496, | |
| "learning_rate": 1.1330505914671535e-05, | |
| "loss": 0.3635, | |
| "step": 378 | |
| }, | |
| { | |
| "epoch": 2.5266666666666664, | |
| "grad_norm": 27.5980167388916, | |
| "learning_rate": 1.1291637389235983e-05, | |
| "loss": 0.5019, | |
| "step": 379 | |
| }, | |
| { | |
| "epoch": 2.533333333333333, | |
| "grad_norm": 1.1598241329193115, | |
| "learning_rate": 1.1252763417852936e-05, | |
| "loss": 0.264, | |
| "step": 380 | |
| }, | |
| { | |
| "epoch": 2.54, | |
| "grad_norm": 1.512192726135254, | |
| "learning_rate": 1.1213884726443068e-05, | |
| "loss": 0.2953, | |
| "step": 381 | |
| }, | |
| { | |
| "epoch": 2.546666666666667, | |
| "grad_norm": 3.973635673522949, | |
| "learning_rate": 1.1175002041015171e-05, | |
| "loss": 0.4391, | |
| "step": 382 | |
| }, | |
| { | |
| "epoch": 2.5533333333333332, | |
| "grad_norm": 22.423179626464844, | |
| "learning_rate": 1.1136116087652637e-05, | |
| "loss": 0.5173, | |
| "step": 383 | |
| }, | |
| { | |
| "epoch": 2.56, | |
| "grad_norm": 7.488842964172363, | |
| "learning_rate": 1.1097227592499873e-05, | |
| "loss": 0.467, | |
| "step": 384 | |
| }, | |
| { | |
| "epoch": 2.5666666666666664, | |
| "grad_norm": 3.525569200515747, | |
| "learning_rate": 1.1058337281748759e-05, | |
| "loss": 0.8528, | |
| "step": 385 | |
| }, | |
| { | |
| "epoch": 2.5733333333333333, | |
| "grad_norm": 1.4925084114074707, | |
| "learning_rate": 1.1019445881625071e-05, | |
| "loss": 0.6664, | |
| "step": 386 | |
| }, | |
| { | |
| "epoch": 2.58, | |
| "grad_norm": 1.5013151168823242, | |
| "learning_rate": 1.0980554118374933e-05, | |
| "loss": 0.5361, | |
| "step": 387 | |
| }, | |
| { | |
| "epoch": 2.586666666666667, | |
| "grad_norm": 0.9918359518051147, | |
| "learning_rate": 1.0941662718251242e-05, | |
| "loss": 0.3384, | |
| "step": 388 | |
| }, | |
| { | |
| "epoch": 2.5933333333333333, | |
| "grad_norm": 1.7358088493347168, | |
| "learning_rate": 1.0902772407500128e-05, | |
| "loss": 0.5748, | |
| "step": 389 | |
| }, | |
| { | |
| "epoch": 2.6, | |
| "grad_norm": 1.6578431129455566, | |
| "learning_rate": 1.0863883912347368e-05, | |
| "loss": 0.6826, | |
| "step": 390 | |
| }, | |
| { | |
| "epoch": 2.6066666666666665, | |
| "grad_norm": 1.4427716732025146, | |
| "learning_rate": 1.082499795898483e-05, | |
| "loss": 0.4823, | |
| "step": 391 | |
| }, | |
| { | |
| "epoch": 2.6133333333333333, | |
| "grad_norm": 1.0902202129364014, | |
| "learning_rate": 1.0786115273556937e-05, | |
| "loss": 0.2488, | |
| "step": 392 | |
| }, | |
| { | |
| "epoch": 2.62, | |
| "grad_norm": 1.3405840396881104, | |
| "learning_rate": 1.0747236582147067e-05, | |
| "loss": 0.4914, | |
| "step": 393 | |
| }, | |
| { | |
| "epoch": 2.626666666666667, | |
| "grad_norm": 1.1086082458496094, | |
| "learning_rate": 1.070836261076402e-05, | |
| "loss": 0.3075, | |
| "step": 394 | |
| }, | |
| { | |
| "epoch": 2.6333333333333333, | |
| "grad_norm": 2.0136094093322754, | |
| "learning_rate": 1.066949408532847e-05, | |
| "loss": 0.5934, | |
| "step": 395 | |
| }, | |
| { | |
| "epoch": 2.64, | |
| "grad_norm": 1.2072879076004028, | |
| "learning_rate": 1.0630631731659373e-05, | |
| "loss": 0.5477, | |
| "step": 396 | |
| }, | |
| { | |
| "epoch": 2.6466666666666665, | |
| "grad_norm": 0.8952162265777588, | |
| "learning_rate": 1.0591776275460451e-05, | |
| "loss": 0.2464, | |
| "step": 397 | |
| }, | |
| { | |
| "epoch": 2.6533333333333333, | |
| "grad_norm": 1.2537075281143188, | |
| "learning_rate": 1.055292844230662e-05, | |
| "loss": 0.3748, | |
| "step": 398 | |
| }, | |
| { | |
| "epoch": 2.66, | |
| "grad_norm": 1.2542909383773804, | |
| "learning_rate": 1.0514088957630441e-05, | |
| "loss": 0.3341, | |
| "step": 399 | |
| }, | |
| { | |
| "epoch": 2.6666666666666665, | |
| "grad_norm": 1.4922471046447754, | |
| "learning_rate": 1.0475258546708593e-05, | |
| "loss": 0.6402, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 2.6733333333333333, | |
| "grad_norm": 0.8682767152786255, | |
| "learning_rate": 1.0436437934648296e-05, | |
| "loss": 0.2332, | |
| "step": 401 | |
| }, | |
| { | |
| "epoch": 2.68, | |
| "grad_norm": 1.1290216445922852, | |
| "learning_rate": 1.0397627846373794e-05, | |
| "loss": 0.2642, | |
| "step": 402 | |
| }, | |
| { | |
| "epoch": 2.6866666666666665, | |
| "grad_norm": 0.9641014933586121, | |
| "learning_rate": 1.0358829006612828e-05, | |
| "loss": 0.1645, | |
| "step": 403 | |
| }, | |
| { | |
| "epoch": 2.6933333333333334, | |
| "grad_norm": 1.260378122329712, | |
| "learning_rate": 1.0320042139883069e-05, | |
| "loss": 0.5079, | |
| "step": 404 | |
| }, | |
| { | |
| "epoch": 2.7, | |
| "grad_norm": 1.3906245231628418, | |
| "learning_rate": 1.0281267970478608e-05, | |
| "loss": 0.4817, | |
| "step": 405 | |
| }, | |
| { | |
| "epoch": 2.7066666666666666, | |
| "grad_norm": 1.1177834272384644, | |
| "learning_rate": 1.0242507222456446e-05, | |
| "loss": 0.2653, | |
| "step": 406 | |
| }, | |
| { | |
| "epoch": 2.7133333333333334, | |
| "grad_norm": 1.3878509998321533, | |
| "learning_rate": 1.0203760619622944e-05, | |
| "loss": 0.6585, | |
| "step": 407 | |
| }, | |
| { | |
| "epoch": 2.7199999999999998, | |
| "grad_norm": 1.9874647855758667, | |
| "learning_rate": 1.016502888552032e-05, | |
| "loss": 0.9263, | |
| "step": 408 | |
| }, | |
| { | |
| "epoch": 2.7266666666666666, | |
| "grad_norm": 0.9233214855194092, | |
| "learning_rate": 1.0126312743413146e-05, | |
| "loss": 0.3941, | |
| "step": 409 | |
| }, | |
| { | |
| "epoch": 2.7333333333333334, | |
| "grad_norm": 0.6271530389785767, | |
| "learning_rate": 1.0087612916274827e-05, | |
| "loss": 0.1383, | |
| "step": 410 | |
| }, | |
| { | |
| "epoch": 2.74, | |
| "grad_norm": 1.5185457468032837, | |
| "learning_rate": 1.0048930126774112e-05, | |
| "loss": 0.4791, | |
| "step": 411 | |
| }, | |
| { | |
| "epoch": 2.7466666666666666, | |
| "grad_norm": 1.0689821243286133, | |
| "learning_rate": 1.001026509726159e-05, | |
| "loss": 0.2481, | |
| "step": 412 | |
| }, | |
| { | |
| "epoch": 2.7533333333333334, | |
| "grad_norm": 0.5559907555580139, | |
| "learning_rate": 9.971618549756203e-06, | |
| "loss": 0.1159, | |
| "step": 413 | |
| }, | |
| { | |
| "epoch": 2.76, | |
| "grad_norm": 0.8540818095207214, | |
| "learning_rate": 9.932991205931777e-06, | |
| "loss": 0.271, | |
| "step": 414 | |
| }, | |
| { | |
| "epoch": 2.7666666666666666, | |
| "grad_norm": 0.8246598243713379, | |
| "learning_rate": 9.894383787103525e-06, | |
| "loss": 0.3051, | |
| "step": 415 | |
| }, | |
| { | |
| "epoch": 2.7733333333333334, | |
| "grad_norm": 1.019100308418274, | |
| "learning_rate": 9.855797014214583e-06, | |
| "loss": 0.2954, | |
| "step": 416 | |
| }, | |
| { | |
| "epoch": 2.7800000000000002, | |
| "grad_norm": 1.2697210311889648, | |
| "learning_rate": 9.817231607822565e-06, | |
| "loss": 0.4386, | |
| "step": 417 | |
| }, | |
| { | |
| "epoch": 2.7866666666666666, | |
| "grad_norm": 0.604729413986206, | |
| "learning_rate": 9.778688288086084e-06, | |
| "loss": 0.182, | |
| "step": 418 | |
| }, | |
| { | |
| "epoch": 2.7933333333333334, | |
| "grad_norm": 0.758552074432373, | |
| "learning_rate": 9.740167774751308e-06, | |
| "loss": 0.2463, | |
| "step": 419 | |
| }, | |
| { | |
| "epoch": 2.8, | |
| "grad_norm": 1.0425121784210205, | |
| "learning_rate": 9.701670787138541e-06, | |
| "loss": 0.3408, | |
| "step": 420 | |
| }, | |
| { | |
| "epoch": 2.8066666666666666, | |
| "grad_norm": 1.4029688835144043, | |
| "learning_rate": 9.663198044128764e-06, | |
| "loss": 0.4963, | |
| "step": 421 | |
| }, | |
| { | |
| "epoch": 2.8133333333333335, | |
| "grad_norm": 1.0565751791000366, | |
| "learning_rate": 9.624750264150218e-06, | |
| "loss": 0.464, | |
| "step": 422 | |
| }, | |
| { | |
| "epoch": 2.82, | |
| "grad_norm": 1.4994906187057495, | |
| "learning_rate": 9.586328165165006e-06, | |
| "loss": 0.4685, | |
| "step": 423 | |
| }, | |
| { | |
| "epoch": 2.8266666666666667, | |
| "grad_norm": 1.6354223489761353, | |
| "learning_rate": 9.547932464655656e-06, | |
| "loss": 0.6198, | |
| "step": 424 | |
| }, | |
| { | |
| "epoch": 2.8333333333333335, | |
| "grad_norm": 0.9175460934638977, | |
| "learning_rate": 9.509563879611754e-06, | |
| "loss": 0.2814, | |
| "step": 425 | |
| }, | |
| { | |
| "epoch": 2.84, | |
| "grad_norm": 1.322573184967041, | |
| "learning_rate": 9.471223126516529e-06, | |
| "loss": 0.6169, | |
| "step": 426 | |
| }, | |
| { | |
| "epoch": 2.8466666666666667, | |
| "grad_norm": 1.3356101512908936, | |
| "learning_rate": 9.432910921333485e-06, | |
| "loss": 0.4999, | |
| "step": 427 | |
| }, | |
| { | |
| "epoch": 2.8533333333333335, | |
| "grad_norm": 1.3007878065109253, | |
| "learning_rate": 9.394627979493042e-06, | |
| "loss": 0.6857, | |
| "step": 428 | |
| }, | |
| { | |
| "epoch": 2.86, | |
| "grad_norm": 1.3256639242172241, | |
| "learning_rate": 9.356375015879156e-06, | |
| "loss": 0.7061, | |
| "step": 429 | |
| }, | |
| { | |
| "epoch": 2.8666666666666667, | |
| "grad_norm": 1.3235509395599365, | |
| "learning_rate": 9.318152744815971e-06, | |
| "loss": 0.508, | |
| "step": 430 | |
| }, | |
| { | |
| "epoch": 2.873333333333333, | |
| "grad_norm": 1.214378833770752, | |
| "learning_rate": 9.279961880054509e-06, | |
| "loss": 0.4439, | |
| "step": 431 | |
| }, | |
| { | |
| "epoch": 2.88, | |
| "grad_norm": 1.6435545682907104, | |
| "learning_rate": 9.241803134759301e-06, | |
| "loss": 0.4739, | |
| "step": 432 | |
| }, | |
| { | |
| "epoch": 2.8866666666666667, | |
| "grad_norm": 1.198081612586975, | |
| "learning_rate": 9.203677221495104e-06, | |
| "loss": 0.482, | |
| "step": 433 | |
| }, | |
| { | |
| "epoch": 2.8933333333333335, | |
| "grad_norm": 1.0145066976547241, | |
| "learning_rate": 9.165584852213567e-06, | |
| "loss": 0.291, | |
| "step": 434 | |
| }, | |
| { | |
| "epoch": 2.9, | |
| "grad_norm": 1.1571218967437744, | |
| "learning_rate": 9.127526738239954e-06, | |
| "loss": 0.3399, | |
| "step": 435 | |
| }, | |
| { | |
| "epoch": 2.9066666666666667, | |
| "grad_norm": 1.5985193252563477, | |
| "learning_rate": 9.089503590259856e-06, | |
| "loss": 0.4166, | |
| "step": 436 | |
| }, | |
| { | |
| "epoch": 2.913333333333333, | |
| "grad_norm": 1.3233163356781006, | |
| "learning_rate": 9.05151611830592e-06, | |
| "loss": 0.3521, | |
| "step": 437 | |
| }, | |
| { | |
| "epoch": 2.92, | |
| "grad_norm": 1.175849199295044, | |
| "learning_rate": 9.013565031744591e-06, | |
| "loss": 0.2808, | |
| "step": 438 | |
| }, | |
| { | |
| "epoch": 2.9266666666666667, | |
| "grad_norm": 1.094506859779358, | |
| "learning_rate": 8.97565103926286e-06, | |
| "loss": 0.3877, | |
| "step": 439 | |
| }, | |
| { | |
| "epoch": 2.9333333333333336, | |
| "grad_norm": 1.6014549732208252, | |
| "learning_rate": 8.937774848855039e-06, | |
| "loss": 0.8784, | |
| "step": 440 | |
| }, | |
| { | |
| "epoch": 2.94, | |
| "grad_norm": 1.521243929862976, | |
| "learning_rate": 8.899937167809531e-06, | |
| "loss": 0.3261, | |
| "step": 441 | |
| }, | |
| { | |
| "epoch": 2.9466666666666668, | |
| "grad_norm": 0.7121770977973938, | |
| "learning_rate": 8.862138702695638e-06, | |
| "loss": 0.198, | |
| "step": 442 | |
| }, | |
| { | |
| "epoch": 2.953333333333333, | |
| "grad_norm": 1.736828327178955, | |
| "learning_rate": 8.824380159350331e-06, | |
| "loss": 0.3529, | |
| "step": 443 | |
| }, | |
| { | |
| "epoch": 2.96, | |
| "grad_norm": 0.8017225861549377, | |
| "learning_rate": 8.78666224286513e-06, | |
| "loss": 0.2061, | |
| "step": 444 | |
| }, | |
| { | |
| "epoch": 2.966666666666667, | |
| "grad_norm": 0.7904080152511597, | |
| "learning_rate": 8.74898565757287e-06, | |
| "loss": 0.233, | |
| "step": 445 | |
| }, | |
| { | |
| "epoch": 2.9733333333333336, | |
| "grad_norm": 1.1955089569091797, | |
| "learning_rate": 8.711351107034592e-06, | |
| "loss": 0.4218, | |
| "step": 446 | |
| }, | |
| { | |
| "epoch": 2.98, | |
| "grad_norm": 1.5457146167755127, | |
| "learning_rate": 8.673759294026398e-06, | |
| "loss": 0.6544, | |
| "step": 447 | |
| }, | |
| { | |
| "epoch": 2.986666666666667, | |
| "grad_norm": 1.797101616859436, | |
| "learning_rate": 8.636210920526316e-06, | |
| "loss": 0.608, | |
| "step": 448 | |
| }, | |
| { | |
| "epoch": 2.993333333333333, | |
| "grad_norm": 1.7683017253875732, | |
| "learning_rate": 8.598706687701192e-06, | |
| "loss": 0.3743, | |
| "step": 449 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "grad_norm": 1.03306245803833, | |
| "learning_rate": 8.561247295893619e-06, | |
| "loss": 0.4658, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 3.006666666666667, | |
| "grad_norm": 1.5889688730239868, | |
| "learning_rate": 8.523833444608829e-06, | |
| "loss": 0.4378, | |
| "step": 451 | |
| }, | |
| { | |
| "epoch": 3.013333333333333, | |
| "grad_norm": 1.2329561710357666, | |
| "learning_rate": 8.486465832501646e-06, | |
| "loss": 0.5694, | |
| "step": 452 | |
| }, | |
| { | |
| "epoch": 3.02, | |
| "grad_norm": 0.9243837594985962, | |
| "learning_rate": 8.449145157363446e-06, | |
| "loss": 0.2193, | |
| "step": 453 | |
| }, | |
| { | |
| "epoch": 3.026666666666667, | |
| "grad_norm": 1.3126856088638306, | |
| "learning_rate": 8.411872116109103e-06, | |
| "loss": 0.3749, | |
| "step": 454 | |
| }, | |
| { | |
| "epoch": 3.033333333333333, | |
| "grad_norm": 4.9260172843933105, | |
| "learning_rate": 8.374647404764011e-06, | |
| "loss": 0.799, | |
| "step": 455 | |
| }, | |
| { | |
| "epoch": 3.04, | |
| "grad_norm": 1.811789631843567, | |
| "learning_rate": 8.337471718451047e-06, | |
| "loss": 0.5854, | |
| "step": 456 | |
| }, | |
| { | |
| "epoch": 3.046666666666667, | |
| "grad_norm": 1.3995670080184937, | |
| "learning_rate": 8.300345751377619e-06, | |
| "loss": 0.5222, | |
| "step": 457 | |
| }, | |
| { | |
| "epoch": 3.0533333333333332, | |
| "grad_norm": 1.1551918983459473, | |
| "learning_rate": 8.263270196822695e-06, | |
| "loss": 0.5921, | |
| "step": 458 | |
| }, | |
| { | |
| "epoch": 3.06, | |
| "grad_norm": 2.39064884185791, | |
| "learning_rate": 8.226245747123848e-06, | |
| "loss": 0.7184, | |
| "step": 459 | |
| }, | |
| { | |
| "epoch": 3.066666666666667, | |
| "grad_norm": 1.081977128982544, | |
| "learning_rate": 8.189273093664337e-06, | |
| "loss": 0.3812, | |
| "step": 460 | |
| }, | |
| { | |
| "epoch": 3.0733333333333333, | |
| "grad_norm": 1.8248965740203857, | |
| "learning_rate": 8.152352926860196e-06, | |
| "loss": 0.821, | |
| "step": 461 | |
| }, | |
| { | |
| "epoch": 3.08, | |
| "grad_norm": 1.4115440845489502, | |
| "learning_rate": 8.115485936147343e-06, | |
| "loss": 0.5272, | |
| "step": 462 | |
| }, | |
| { | |
| "epoch": 3.086666666666667, | |
| "grad_norm": 1.4327605962753296, | |
| "learning_rate": 8.078672809968689e-06, | |
| "loss": 0.3913, | |
| "step": 463 | |
| }, | |
| { | |
| "epoch": 3.0933333333333333, | |
| "grad_norm": 1.493831753730774, | |
| "learning_rate": 8.04191423576131e-06, | |
| "loss": 0.2475, | |
| "step": 464 | |
| }, | |
| { | |
| "epoch": 3.1, | |
| "grad_norm": 1.761871099472046, | |
| "learning_rate": 8.005210899943584e-06, | |
| "loss": 0.7439, | |
| "step": 465 | |
| }, | |
| { | |
| "epoch": 3.1066666666666665, | |
| "grad_norm": 1.76626455783844, | |
| "learning_rate": 7.96856348790239e-06, | |
| "loss": 0.2467, | |
| "step": 466 | |
| }, | |
| { | |
| "epoch": 3.1133333333333333, | |
| "grad_norm": 1.0549607276916504, | |
| "learning_rate": 7.931972683980302e-06, | |
| "loss": 0.2511, | |
| "step": 467 | |
| }, | |
| { | |
| "epoch": 3.12, | |
| "grad_norm": 1.141783356666565, | |
| "learning_rate": 7.895439171462813e-06, | |
| "loss": 0.2277, | |
| "step": 468 | |
| }, | |
| { | |
| "epoch": 3.1266666666666665, | |
| "grad_norm": 1.5863436460494995, | |
| "learning_rate": 7.85896363256557e-06, | |
| "loss": 0.6327, | |
| "step": 469 | |
| }, | |
| { | |
| "epoch": 3.1333333333333333, | |
| "grad_norm": 1.0976667404174805, | |
| "learning_rate": 7.822546748421642e-06, | |
| "loss": 0.234, | |
| "step": 470 | |
| }, | |
| { | |
| "epoch": 3.14, | |
| "grad_norm": 1.4860919713974, | |
| "learning_rate": 7.786189199068792e-06, | |
| "loss": 0.6891, | |
| "step": 471 | |
| }, | |
| { | |
| "epoch": 3.1466666666666665, | |
| "grad_norm": 0.7435470223426819, | |
| "learning_rate": 7.749891663436793e-06, | |
| "loss": 0.2411, | |
| "step": 472 | |
| }, | |
| { | |
| "epoch": 3.1533333333333333, | |
| "grad_norm": 4.428133010864258, | |
| "learning_rate": 7.713654819334729e-06, | |
| "loss": 0.4466, | |
| "step": 473 | |
| }, | |
| { | |
| "epoch": 3.16, | |
| "grad_norm": 1.174668550491333, | |
| "learning_rate": 7.677479343438351e-06, | |
| "loss": 0.5557, | |
| "step": 474 | |
| }, | |
| { | |
| "epoch": 3.1666666666666665, | |
| "grad_norm": 0.9828451871871948, | |
| "learning_rate": 7.641365911277452e-06, | |
| "loss": 0.2084, | |
| "step": 475 | |
| }, | |
| { | |
| "epoch": 3.1733333333333333, | |
| "grad_norm": 1.3933385610580444, | |
| "learning_rate": 7.6053151972232176e-06, | |
| "loss": 0.4478, | |
| "step": 476 | |
| }, | |
| { | |
| "epoch": 3.18, | |
| "grad_norm": 0.8962238430976868, | |
| "learning_rate": 7.569327874475676e-06, | |
| "loss": 0.227, | |
| "step": 477 | |
| }, | |
| { | |
| "epoch": 3.1866666666666665, | |
| "grad_norm": 1.3221912384033203, | |
| "learning_rate": 7.533404615051087e-06, | |
| "loss": 0.6136, | |
| "step": 478 | |
| }, | |
| { | |
| "epoch": 3.1933333333333334, | |
| "grad_norm": 1.0276908874511719, | |
| "learning_rate": 7.497546089769425e-06, | |
| "loss": 0.503, | |
| "step": 479 | |
| }, | |
| { | |
| "epoch": 3.2, | |
| "grad_norm": 2.4918477535247803, | |
| "learning_rate": 7.461752968241833e-06, | |
| "loss": 0.5958, | |
| "step": 480 | |
| }, | |
| { | |
| "epoch": 3.2066666666666666, | |
| "grad_norm": 1.168184757232666, | |
| "learning_rate": 7.426025918858124e-06, | |
| "loss": 0.3046, | |
| "step": 481 | |
| }, | |
| { | |
| "epoch": 3.2133333333333334, | |
| "grad_norm": 1.3157926797866821, | |
| "learning_rate": 7.390365608774302e-06, | |
| "loss": 0.3903, | |
| "step": 482 | |
| }, | |
| { | |
| "epoch": 3.22, | |
| "grad_norm": 1.9632258415222168, | |
| "learning_rate": 7.354772703900101e-06, | |
| "loss": 0.6696, | |
| "step": 483 | |
| }, | |
| { | |
| "epoch": 3.2266666666666666, | |
| "grad_norm": 1.479067087173462, | |
| "learning_rate": 7.319247868886548e-06, | |
| "loss": 0.4173, | |
| "step": 484 | |
| }, | |
| { | |
| "epoch": 3.2333333333333334, | |
| "grad_norm": 1.6428669691085815, | |
| "learning_rate": 7.283791767113557e-06, | |
| "loss": 0.4193, | |
| "step": 485 | |
| }, | |
| { | |
| "epoch": 3.24, | |
| "grad_norm": 1.5472806692123413, | |
| "learning_rate": 7.248405060677543e-06, | |
| "loss": 0.3571, | |
| "step": 486 | |
| }, | |
| { | |
| "epoch": 3.2466666666666666, | |
| "grad_norm": 1.653496503829956, | |
| "learning_rate": 7.2130884103790436e-06, | |
| "loss": 0.5062, | |
| "step": 487 | |
| }, | |
| { | |
| "epoch": 3.2533333333333334, | |
| "grad_norm": 1.4190384149551392, | |
| "learning_rate": 7.177842475710395e-06, | |
| "loss": 0.4817, | |
| "step": 488 | |
| }, | |
| { | |
| "epoch": 3.26, | |
| "grad_norm": 1.7448099851608276, | |
| "learning_rate": 7.142667914843413e-06, | |
| "loss": 0.6035, | |
| "step": 489 | |
| }, | |
| { | |
| "epoch": 3.2666666666666666, | |
| "grad_norm": 3.215625524520874, | |
| "learning_rate": 7.107565384617097e-06, | |
| "loss": 0.5041, | |
| "step": 490 | |
| }, | |
| { | |
| "epoch": 3.2733333333333334, | |
| "grad_norm": 1.41063392162323, | |
| "learning_rate": 7.072535540525374e-06, | |
| "loss": 0.5266, | |
| "step": 491 | |
| }, | |
| { | |
| "epoch": 3.2800000000000002, | |
| "grad_norm": 1.3160585165023804, | |
| "learning_rate": 7.0375790367048466e-06, | |
| "loss": 0.266, | |
| "step": 492 | |
| }, | |
| { | |
| "epoch": 3.2866666666666666, | |
| "grad_norm": 1.9032337665557861, | |
| "learning_rate": 7.002696525922579e-06, | |
| "loss": 0.7686, | |
| "step": 493 | |
| }, | |
| { | |
| "epoch": 3.2933333333333334, | |
| "grad_norm": 1.593665361404419, | |
| "learning_rate": 6.96788865956393e-06, | |
| "loss": 0.3888, | |
| "step": 494 | |
| }, | |
| { | |
| "epoch": 3.3, | |
| "grad_norm": 2.1388587951660156, | |
| "learning_rate": 6.933156087620352e-06, | |
| "loss": 0.9322, | |
| "step": 495 | |
| }, | |
| { | |
| "epoch": 3.3066666666666666, | |
| "grad_norm": 1.3527288436889648, | |
| "learning_rate": 6.898499458677281e-06, | |
| "loss": 0.3768, | |
| "step": 496 | |
| }, | |
| { | |
| "epoch": 3.3133333333333335, | |
| "grad_norm": 2.0020318031311035, | |
| "learning_rate": 6.863919419902019e-06, | |
| "loss": 0.6772, | |
| "step": 497 | |
| }, | |
| { | |
| "epoch": 3.32, | |
| "grad_norm": 1.247876763343811, | |
| "learning_rate": 6.829416617031642e-06, | |
| "loss": 0.5892, | |
| "step": 498 | |
| }, | |
| { | |
| "epoch": 3.3266666666666667, | |
| "grad_norm": 1.814934253692627, | |
| "learning_rate": 6.794991694360942e-06, | |
| "loss": 0.5612, | |
| "step": 499 | |
| }, | |
| { | |
| "epoch": 3.3333333333333335, | |
| "grad_norm": 0.9168113470077515, | |
| "learning_rate": 6.760645294730414e-06, | |
| "loss": 0.2612, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 3.34, | |
| "grad_norm": 1.3208444118499756, | |
| "learning_rate": 6.726378059514227e-06, | |
| "loss": 0.414, | |
| "step": 501 | |
| }, | |
| { | |
| "epoch": 3.3466666666666667, | |
| "grad_norm": 1.4437954425811768, | |
| "learning_rate": 6.692190628608255e-06, | |
| "loss": 0.5539, | |
| "step": 502 | |
| }, | |
| { | |
| "epoch": 3.3533333333333335, | |
| "grad_norm": 0.7737306952476501, | |
| "learning_rate": 6.658083640418145e-06, | |
| "loss": 0.2847, | |
| "step": 503 | |
| }, | |
| { | |
| "epoch": 3.36, | |
| "grad_norm": 1.5918776988983154, | |
| "learning_rate": 6.624057731847367e-06, | |
| "loss": 0.3756, | |
| "step": 504 | |
| }, | |
| { | |
| "epoch": 3.3666666666666667, | |
| "grad_norm": 1.719836711883545, | |
| "learning_rate": 6.590113538285341e-06, | |
| "loss": 0.5776, | |
| "step": 505 | |
| }, | |
| { | |
| "epoch": 3.3733333333333335, | |
| "grad_norm": 1.6654049158096313, | |
| "learning_rate": 6.556251693595565e-06, | |
| "loss": 0.4842, | |
| "step": 506 | |
| }, | |
| { | |
| "epoch": 3.38, | |
| "grad_norm": 1.5979913473129272, | |
| "learning_rate": 6.522472830103777e-06, | |
| "loss": 0.6191, | |
| "step": 507 | |
| }, | |
| { | |
| "epoch": 3.3866666666666667, | |
| "grad_norm": 1.221519112586975, | |
| "learning_rate": 6.488777578586158e-06, | |
| "loss": 0.2814, | |
| "step": 508 | |
| }, | |
| { | |
| "epoch": 3.3933333333333335, | |
| "grad_norm": 1.6397613286972046, | |
| "learning_rate": 6.455166568257536e-06, | |
| "loss": 0.5886, | |
| "step": 509 | |
| }, | |
| { | |
| "epoch": 3.4, | |
| "grad_norm": 3.443509340286255, | |
| "learning_rate": 6.421640426759643e-06, | |
| "loss": 0.2309, | |
| "step": 510 | |
| }, | |
| { | |
| "epoch": 3.4066666666666667, | |
| "grad_norm": 1.7111133337020874, | |
| "learning_rate": 6.388199780149407e-06, | |
| "loss": 0.5086, | |
| "step": 511 | |
| }, | |
| { | |
| "epoch": 3.413333333333333, | |
| "grad_norm": 2.0990231037139893, | |
| "learning_rate": 6.354845252887237e-06, | |
| "loss": 0.5625, | |
| "step": 512 | |
| }, | |
| { | |
| "epoch": 3.42, | |
| "grad_norm": 1.8440994024276733, | |
| "learning_rate": 6.321577467825392e-06, | |
| "loss": 0.6003, | |
| "step": 513 | |
| }, | |
| { | |
| "epoch": 3.4266666666666667, | |
| "grad_norm": 1.2410833835601807, | |
| "learning_rate": 6.2883970461963205e-06, | |
| "loss": 0.2431, | |
| "step": 514 | |
| }, | |
| { | |
| "epoch": 3.4333333333333336, | |
| "grad_norm": 1.1713411808013916, | |
| "learning_rate": 6.255304607601074e-06, | |
| "loss": 0.3112, | |
| "step": 515 | |
| }, | |
| { | |
| "epoch": 3.44, | |
| "grad_norm": 1.2038061618804932, | |
| "learning_rate": 6.222300769997742e-06, | |
| "loss": 0.2356, | |
| "step": 516 | |
| }, | |
| { | |
| "epoch": 3.4466666666666668, | |
| "grad_norm": 1.1006757020950317, | |
| "learning_rate": 6.189386149689904e-06, | |
| "loss": 0.522, | |
| "step": 517 | |
| }, | |
| { | |
| "epoch": 3.453333333333333, | |
| "grad_norm": 1.234704852104187, | |
| "learning_rate": 6.156561361315116e-06, | |
| "loss": 0.2775, | |
| "step": 518 | |
| }, | |
| { | |
| "epoch": 3.46, | |
| "grad_norm": 0.9400473833084106, | |
| "learning_rate": 6.123827017833454e-06, | |
| "loss": 0.2752, | |
| "step": 519 | |
| }, | |
| { | |
| "epoch": 3.466666666666667, | |
| "grad_norm": 1.6344656944274902, | |
| "learning_rate": 6.091183730516041e-06, | |
| "loss": 0.8672, | |
| "step": 520 | |
| }, | |
| { | |
| "epoch": 3.473333333333333, | |
| "grad_norm": 1.0745573043823242, | |
| "learning_rate": 6.058632108933646e-06, | |
| "loss": 0.255, | |
| "step": 521 | |
| }, | |
| { | |
| "epoch": 3.48, | |
| "grad_norm": 0.8348417282104492, | |
| "learning_rate": 6.02617276094531e-06, | |
| "loss": 0.2658, | |
| "step": 522 | |
| }, | |
| { | |
| "epoch": 3.486666666666667, | |
| "grad_norm": 1.0123889446258545, | |
| "learning_rate": 5.993806292686975e-06, | |
| "loss": 0.3018, | |
| "step": 523 | |
| }, | |
| { | |
| "epoch": 3.493333333333333, | |
| "grad_norm": 1.6308914422988892, | |
| "learning_rate": 5.9615333085601816e-06, | |
| "loss": 0.5474, | |
| "step": 524 | |
| }, | |
| { | |
| "epoch": 3.5, | |
| "grad_norm": 1.3122121095657349, | |
| "learning_rate": 5.929354411220771e-06, | |
| "loss": 0.5754, | |
| "step": 525 | |
| }, | |
| { | |
| "epoch": 3.506666666666667, | |
| "grad_norm": 1.2715647220611572, | |
| "learning_rate": 5.897270201567638e-06, | |
| "loss": 0.296, | |
| "step": 526 | |
| }, | |
| { | |
| "epoch": 3.513333333333333, | |
| "grad_norm": 1.1369949579238892, | |
| "learning_rate": 5.865281278731516e-06, | |
| "loss": 0.1938, | |
| "step": 527 | |
| }, | |
| { | |
| "epoch": 3.52, | |
| "grad_norm": 1.461135745048523, | |
| "learning_rate": 5.833388240063771e-06, | |
| "loss": 0.5822, | |
| "step": 528 | |
| }, | |
| { | |
| "epoch": 3.5266666666666664, | |
| "grad_norm": 1.6529327630996704, | |
| "learning_rate": 5.801591681125258e-06, | |
| "loss": 0.3641, | |
| "step": 529 | |
| }, | |
| { | |
| "epoch": 3.533333333333333, | |
| "grad_norm": 1.39845871925354, | |
| "learning_rate": 5.769892195675208e-06, | |
| "loss": 0.6383, | |
| "step": 530 | |
| }, | |
| { | |
| "epoch": 3.54, | |
| "grad_norm": 1.0760791301727295, | |
| "learning_rate": 5.738290375660125e-06, | |
| "loss": 0.1791, | |
| "step": 531 | |
| }, | |
| { | |
| "epoch": 3.546666666666667, | |
| "grad_norm": 1.692541241645813, | |
| "learning_rate": 5.706786811202738e-06, | |
| "loss": 0.3221, | |
| "step": 532 | |
| }, | |
| { | |
| "epoch": 3.5533333333333332, | |
| "grad_norm": 1.1036595106124878, | |
| "learning_rate": 5.675382090590981e-06, | |
| "loss": 0.2823, | |
| "step": 533 | |
| }, | |
| { | |
| "epoch": 3.56, | |
| "grad_norm": 2.0926828384399414, | |
| "learning_rate": 5.644076800267014e-06, | |
| "loss": 0.3489, | |
| "step": 534 | |
| }, | |
| { | |
| "epoch": 3.5666666666666664, | |
| "grad_norm": 0.9293984770774841, | |
| "learning_rate": 5.612871524816262e-06, | |
| "loss": 0.319, | |
| "step": 535 | |
| }, | |
| { | |
| "epoch": 3.5733333333333333, | |
| "grad_norm": 1.2874233722686768, | |
| "learning_rate": 5.5817668469565025e-06, | |
| "loss": 0.3866, | |
| "step": 536 | |
| }, | |
| { | |
| "epoch": 3.58, | |
| "grad_norm": 1.6778782606124878, | |
| "learning_rate": 5.550763347526982e-06, | |
| "loss": 0.477, | |
| "step": 537 | |
| }, | |
| { | |
| "epoch": 3.586666666666667, | |
| "grad_norm": 0.9787458777427673, | |
| "learning_rate": 5.519861605477581e-06, | |
| "loss": 0.2394, | |
| "step": 538 | |
| }, | |
| { | |
| "epoch": 3.5933333333333333, | |
| "grad_norm": 1.3014516830444336, | |
| "learning_rate": 5.489062197857984e-06, | |
| "loss": 0.3652, | |
| "step": 539 | |
| }, | |
| { | |
| "epoch": 3.6, | |
| "grad_norm": 1.2679635286331177, | |
| "learning_rate": 5.458365699806917e-06, | |
| "loss": 0.4789, | |
| "step": 540 | |
| }, | |
| { | |
| "epoch": 3.6066666666666665, | |
| "grad_norm": 1.213794231414795, | |
| "learning_rate": 5.427772684541408e-06, | |
| "loss": 0.4622, | |
| "step": 541 | |
| }, | |
| { | |
| "epoch": 3.6133333333333333, | |
| "grad_norm": 1.1161813735961914, | |
| "learning_rate": 5.397283723346074e-06, | |
| "loss": 0.2626, | |
| "step": 542 | |
| }, | |
| { | |
| "epoch": 3.62, | |
| "grad_norm": 1.1844446659088135, | |
| "learning_rate": 5.366899385562456e-06, | |
| "loss": 0.2604, | |
| "step": 543 | |
| }, | |
| { | |
| "epoch": 3.626666666666667, | |
| "grad_norm": 0.8947194814682007, | |
| "learning_rate": 5.3366202385784005e-06, | |
| "loss": 0.1885, | |
| "step": 544 | |
| }, | |
| { | |
| "epoch": 3.6333333333333333, | |
| "grad_norm": 1.2822984457015991, | |
| "learning_rate": 5.30644684781744e-06, | |
| "loss": 0.4128, | |
| "step": 545 | |
| }, | |
| { | |
| "epoch": 3.64, | |
| "grad_norm": 1.170116901397705, | |
| "learning_rate": 5.276379776728257e-06, | |
| "loss": 0.2597, | |
| "step": 546 | |
| }, | |
| { | |
| "epoch": 3.6466666666666665, | |
| "grad_norm": 1.3510268926620483, | |
| "learning_rate": 5.24641958677415e-06, | |
| "loss": 0.7202, | |
| "step": 547 | |
| }, | |
| { | |
| "epoch": 3.6533333333333333, | |
| "grad_norm": 1.2227978706359863, | |
| "learning_rate": 5.216566837422544e-06, | |
| "loss": 0.2967, | |
| "step": 548 | |
| }, | |
| { | |
| "epoch": 3.66, | |
| "grad_norm": 1.0847147703170776, | |
| "learning_rate": 5.186822086134566e-06, | |
| "loss": 0.3016, | |
| "step": 549 | |
| }, | |
| { | |
| "epoch": 3.6666666666666665, | |
| "grad_norm": 1.683333396911621, | |
| "learning_rate": 5.157185888354612e-06, | |
| "loss": 0.7797, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 3.6733333333333333, | |
| "grad_norm": 1.3969520330429077, | |
| "learning_rate": 5.127658797499977e-06, | |
| "loss": 0.686, | |
| "step": 551 | |
| }, | |
| { | |
| "epoch": 3.68, | |
| "grad_norm": 1.5366076231002808, | |
| "learning_rate": 5.098241364950538e-06, | |
| "loss": 0.4191, | |
| "step": 552 | |
| }, | |
| { | |
| "epoch": 3.6866666666666665, | |
| "grad_norm": 0.7615384459495544, | |
| "learning_rate": 5.068934140038444e-06, | |
| "loss": 0.1628, | |
| "step": 553 | |
| }, | |
| { | |
| "epoch": 3.6933333333333334, | |
| "grad_norm": 0.9901170134544373, | |
| "learning_rate": 5.0397376700378495e-06, | |
| "loss": 0.1854, | |
| "step": 554 | |
| }, | |
| { | |
| "epoch": 3.7, | |
| "grad_norm": 1.3659517765045166, | |
| "learning_rate": 5.01065250015472e-06, | |
| "loss": 0.6739, | |
| "step": 555 | |
| }, | |
| { | |
| "epoch": 3.7066666666666666, | |
| "grad_norm": 1.0953928232192993, | |
| "learning_rate": 4.981679173516627e-06, | |
| "loss": 0.2997, | |
| "step": 556 | |
| }, | |
| { | |
| "epoch": 3.7133333333333334, | |
| "grad_norm": 1.2342252731323242, | |
| "learning_rate": 4.952818231162622e-06, | |
| "loss": 0.3711, | |
| "step": 557 | |
| }, | |
| { | |
| "epoch": 3.7199999999999998, | |
| "grad_norm": 1.350342869758606, | |
| "learning_rate": 4.924070212033122e-06, | |
| "loss": 0.4404, | |
| "step": 558 | |
| }, | |
| { | |
| "epoch": 3.7266666666666666, | |
| "grad_norm": 2.475033760070801, | |
| "learning_rate": 4.895435652959852e-06, | |
| "loss": 0.4877, | |
| "step": 559 | |
| }, | |
| { | |
| "epoch": 3.7333333333333334, | |
| "grad_norm": 1.4326213598251343, | |
| "learning_rate": 4.866915088655814e-06, | |
| "loss": 0.3355, | |
| "step": 560 | |
| }, | |
| { | |
| "epoch": 3.74, | |
| "grad_norm": 1.1125874519348145, | |
| "learning_rate": 4.838509051705317e-06, | |
| "loss": 0.3048, | |
| "step": 561 | |
| }, | |
| { | |
| "epoch": 3.7466666666666666, | |
| "grad_norm": 1.303355097770691, | |
| "learning_rate": 4.810218072554012e-06, | |
| "loss": 0.5403, | |
| "step": 562 | |
| }, | |
| { | |
| "epoch": 3.7533333333333334, | |
| "grad_norm": 3.008938789367676, | |
| "learning_rate": 4.7820426794989994e-06, | |
| "loss": 0.4871, | |
| "step": 563 | |
| }, | |
| { | |
| "epoch": 3.76, | |
| "grad_norm": 0.9627671241760254, | |
| "learning_rate": 4.7539833986789594e-06, | |
| "loss": 0.3037, | |
| "step": 564 | |
| }, | |
| { | |
| "epoch": 3.7666666666666666, | |
| "grad_norm": 0.6086631417274475, | |
| "learning_rate": 4.726040754064324e-06, | |
| "loss": 0.1383, | |
| "step": 565 | |
| }, | |
| { | |
| "epoch": 3.7733333333333334, | |
| "grad_norm": 1.2451680898666382, | |
| "learning_rate": 4.698215267447506e-06, | |
| "loss": 0.3843, | |
| "step": 566 | |
| }, | |
| { | |
| "epoch": 3.7800000000000002, | |
| "grad_norm": 1.0320932865142822, | |
| "learning_rate": 4.6705074584331355e-06, | |
| "loss": 0.325, | |
| "step": 567 | |
| }, | |
| { | |
| "epoch": 3.7866666666666666, | |
| "grad_norm": 1.2940720319747925, | |
| "learning_rate": 4.642917844428376e-06, | |
| "loss": 0.4929, | |
| "step": 568 | |
| }, | |
| { | |
| "epoch": 3.7933333333333334, | |
| "grad_norm": 0.6670101881027222, | |
| "learning_rate": 4.615446940633247e-06, | |
| "loss": 0.1388, | |
| "step": 569 | |
| }, | |
| { | |
| "epoch": 3.8, | |
| "grad_norm": 1.3660937547683716, | |
| "learning_rate": 4.588095260031007e-06, | |
| "loss": 0.3894, | |
| "step": 570 | |
| }, | |
| { | |
| "epoch": 3.8066666666666666, | |
| "grad_norm": 0.9112516045570374, | |
| "learning_rate": 4.560863313378588e-06, | |
| "loss": 0.4541, | |
| "step": 571 | |
| }, | |
| { | |
| "epoch": 3.8133333333333335, | |
| "grad_norm": 1.1540873050689697, | |
| "learning_rate": 4.53375160919704e-06, | |
| "loss": 0.4801, | |
| "step": 572 | |
| }, | |
| { | |
| "epoch": 3.82, | |
| "grad_norm": 1.5096888542175293, | |
| "learning_rate": 4.506760653762036e-06, | |
| "loss": 0.3607, | |
| "step": 573 | |
| }, | |
| { | |
| "epoch": 3.8266666666666667, | |
| "grad_norm": 1.3884817361831665, | |
| "learning_rate": 4.4798909510944365e-06, | |
| "loss": 0.6647, | |
| "step": 574 | |
| }, | |
| { | |
| "epoch": 3.8333333333333335, | |
| "grad_norm": 1.4854823350906372, | |
| "learning_rate": 4.4531430029508585e-06, | |
| "loss": 0.3727, | |
| "step": 575 | |
| }, | |
| { | |
| "epoch": 3.84, | |
| "grad_norm": 1.3827471733093262, | |
| "learning_rate": 4.4265173088143065e-06, | |
| "loss": 0.4973, | |
| "step": 576 | |
| }, | |
| { | |
| "epoch": 3.8466666666666667, | |
| "grad_norm": 1.3074723482131958, | |
| "learning_rate": 4.400014365884863e-06, | |
| "loss": 0.2892, | |
| "step": 577 | |
| }, | |
| { | |
| "epoch": 3.8533333333333335, | |
| "grad_norm": 1.4479936361312866, | |
| "learning_rate": 4.37363466907038e-06, | |
| "loss": 0.3476, | |
| "step": 578 | |
| }, | |
| { | |
| "epoch": 3.86, | |
| "grad_norm": 1.3634988069534302, | |
| "learning_rate": 4.347378710977261e-06, | |
| "loss": 0.5382, | |
| "step": 579 | |
| }, | |
| { | |
| "epoch": 3.8666666666666667, | |
| "grad_norm": 1.4852162599563599, | |
| "learning_rate": 4.3212469819012425e-06, | |
| "loss": 0.5617, | |
| "step": 580 | |
| }, | |
| { | |
| "epoch": 3.873333333333333, | |
| "grad_norm": 1.0422636270523071, | |
| "learning_rate": 4.295239969818244e-06, | |
| "loss": 0.1996, | |
| "step": 581 | |
| }, | |
| { | |
| "epoch": 3.88, | |
| "grad_norm": 0.9663172960281372, | |
| "learning_rate": 4.269358160375268e-06, | |
| "loss": 0.3191, | |
| "step": 582 | |
| }, | |
| { | |
| "epoch": 3.8866666666666667, | |
| "grad_norm": 1.2019636631011963, | |
| "learning_rate": 4.243602036881312e-06, | |
| "loss": 0.378, | |
| "step": 583 | |
| }, | |
| { | |
| "epoch": 3.8933333333333335, | |
| "grad_norm": 1.286968469619751, | |
| "learning_rate": 4.2179720802983534e-06, | |
| "loss": 0.4823, | |
| "step": 584 | |
| }, | |
| { | |
| "epoch": 3.9, | |
| "grad_norm": 1.5564239025115967, | |
| "learning_rate": 4.192468769232375e-06, | |
| "loss": 0.5717, | |
| "step": 585 | |
| }, | |
| { | |
| "epoch": 3.9066666666666667, | |
| "grad_norm": 0.8727124333381653, | |
| "learning_rate": 4.167092579924414e-06, | |
| "loss": 0.3884, | |
| "step": 586 | |
| }, | |
| { | |
| "epoch": 3.913333333333333, | |
| "grad_norm": 1.3296633958816528, | |
| "learning_rate": 4.1418439862416695e-06, | |
| "loss": 0.2578, | |
| "step": 587 | |
| }, | |
| { | |
| "epoch": 3.92, | |
| "grad_norm": 0.9148731827735901, | |
| "learning_rate": 4.116723459668671e-06, | |
| "loss": 0.3557, | |
| "step": 588 | |
| }, | |
| { | |
| "epoch": 3.9266666666666667, | |
| "grad_norm": 1.3181500434875488, | |
| "learning_rate": 4.091731469298454e-06, | |
| "loss": 0.3736, | |
| "step": 589 | |
| }, | |
| { | |
| "epoch": 3.9333333333333336, | |
| "grad_norm": 1.6612805128097534, | |
| "learning_rate": 4.066868481823808e-06, | |
| "loss": 0.5731, | |
| "step": 590 | |
| }, | |
| { | |
| "epoch": 3.94, | |
| "grad_norm": 0.894189715385437, | |
| "learning_rate": 4.042134961528563e-06, | |
| "loss": 0.3085, | |
| "step": 591 | |
| }, | |
| { | |
| "epoch": 3.9466666666666668, | |
| "grad_norm": 1.26560378074646, | |
| "learning_rate": 4.017531370278922e-06, | |
| "loss": 0.3202, | |
| "step": 592 | |
| }, | |
| { | |
| "epoch": 3.953333333333333, | |
| "grad_norm": 1.175733208656311, | |
| "learning_rate": 3.99305816751483e-06, | |
| "loss": 0.3671, | |
| "step": 593 | |
| }, | |
| { | |
| "epoch": 3.96, | |
| "grad_norm": 1.1619269847869873, | |
| "learning_rate": 3.968715810241396e-06, | |
| "loss": 0.4029, | |
| "step": 594 | |
| }, | |
| { | |
| "epoch": 3.966666666666667, | |
| "grad_norm": 1.7974544763565063, | |
| "learning_rate": 3.9445047530203575e-06, | |
| "loss": 0.5174, | |
| "step": 595 | |
| }, | |
| { | |
| "epoch": 3.9733333333333336, | |
| "grad_norm": 1.4101741313934326, | |
| "learning_rate": 3.920425447961606e-06, | |
| "loss": 0.2974, | |
| "step": 596 | |
| }, | |
| { | |
| "epoch": 3.98, | |
| "grad_norm": 1.0057168006896973, | |
| "learning_rate": 3.896478344714722e-06, | |
| "loss": 0.2508, | |
| "step": 597 | |
| }, | |
| { | |
| "epoch": 3.986666666666667, | |
| "grad_norm": 1.7521125078201294, | |
| "learning_rate": 3.872663890460593e-06, | |
| "loss": 0.7125, | |
| "step": 598 | |
| }, | |
| { | |
| "epoch": 3.993333333333333, | |
| "grad_norm": 1.1852591037750244, | |
| "learning_rate": 3.848982529903065e-06, | |
| "loss": 0.2022, | |
| "step": 599 | |
| }, | |
| { | |
| "epoch": 4.0, | |
| "grad_norm": 0.8429129123687744, | |
| "learning_rate": 3.825434705260623e-06, | |
| "loss": 0.2263, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 4.006666666666667, | |
| "grad_norm": 1.2853399515151978, | |
| "learning_rate": 3.802020856258155e-06, | |
| "loss": 0.3568, | |
| "step": 601 | |
| }, | |
| { | |
| "epoch": 4.013333333333334, | |
| "grad_norm": 1.284716010093689, | |
| "learning_rate": 3.778741420118719e-06, | |
| "loss": 0.3047, | |
| "step": 602 | |
| }, | |
| { | |
| "epoch": 4.02, | |
| "grad_norm": 1.6293946504592896, | |
| "learning_rate": 3.7555968315553916e-06, | |
| "loss": 0.6352, | |
| "step": 603 | |
| }, | |
| { | |
| "epoch": 4.026666666666666, | |
| "grad_norm": 1.3592982292175293, | |
| "learning_rate": 3.732587522763148e-06, | |
| "loss": 0.4972, | |
| "step": 604 | |
| }, | |
| { | |
| "epoch": 4.033333333333333, | |
| "grad_norm": 0.7168772220611572, | |
| "learning_rate": 3.709713923410793e-06, | |
| "loss": 0.1539, | |
| "step": 605 | |
| }, | |
| { | |
| "epoch": 4.04, | |
| "grad_norm": 0.8747243881225586, | |
| "learning_rate": 3.686976460632924e-06, | |
| "loss": 0.2995, | |
| "step": 606 | |
| }, | |
| { | |
| "epoch": 4.046666666666667, | |
| "grad_norm": 1.47053861618042, | |
| "learning_rate": 3.6643755590219796e-06, | |
| "loss": 0.3373, | |
| "step": 607 | |
| }, | |
| { | |
| "epoch": 4.053333333333334, | |
| "grad_norm": 1.6070635318756104, | |
| "learning_rate": 3.6419116406202883e-06, | |
| "loss": 0.7124, | |
| "step": 608 | |
| }, | |
| { | |
| "epoch": 4.06, | |
| "grad_norm": 1.4459311962127686, | |
| "learning_rate": 3.619585124912195e-06, | |
| "loss": 0.8205, | |
| "step": 609 | |
| }, | |
| { | |
| "epoch": 4.066666666666666, | |
| "grad_norm": 1.3801395893096924, | |
| "learning_rate": 3.597396428816236e-06, | |
| "loss": 0.4101, | |
| "step": 610 | |
| }, | |
| { | |
| "epoch": 4.073333333333333, | |
| "grad_norm": 1.5872927904129028, | |
| "learning_rate": 3.575345966677339e-06, | |
| "loss": 0.54, | |
| "step": 611 | |
| }, | |
| { | |
| "epoch": 4.08, | |
| "grad_norm": 1.1149475574493408, | |
| "learning_rate": 3.5534341502590995e-06, | |
| "loss": 0.2603, | |
| "step": 612 | |
| }, | |
| { | |
| "epoch": 4.086666666666667, | |
| "grad_norm": 1.1735680103302002, | |
| "learning_rate": 3.5316613887360794e-06, | |
| "loss": 0.3277, | |
| "step": 613 | |
| }, | |
| { | |
| "epoch": 4.093333333333334, | |
| "grad_norm": 1.1807669401168823, | |
| "learning_rate": 3.5100280886861713e-06, | |
| "loss": 0.349, | |
| "step": 614 | |
| }, | |
| { | |
| "epoch": 4.1, | |
| "grad_norm": 1.2858244180679321, | |
| "learning_rate": 3.4885346540830154e-06, | |
| "loss": 0.4824, | |
| "step": 615 | |
| }, | |
| { | |
| "epoch": 4.1066666666666665, | |
| "grad_norm": 1.3448548316955566, | |
| "learning_rate": 3.46718148628844e-06, | |
| "loss": 0.6582, | |
| "step": 616 | |
| }, | |
| { | |
| "epoch": 4.113333333333333, | |
| "grad_norm": 2.794578790664673, | |
| "learning_rate": 3.445968984044972e-06, | |
| "loss": 0.7599, | |
| "step": 617 | |
| }, | |
| { | |
| "epoch": 4.12, | |
| "grad_norm": 1.1659574508666992, | |
| "learning_rate": 3.4248975434684004e-06, | |
| "loss": 0.2854, | |
| "step": 618 | |
| }, | |
| { | |
| "epoch": 4.126666666666667, | |
| "grad_norm": 0.9521848559379578, | |
| "learning_rate": 3.403967558040367e-06, | |
| "loss": 0.4499, | |
| "step": 619 | |
| }, | |
| { | |
| "epoch": 4.133333333333334, | |
| "grad_norm": 0.8292222619056702, | |
| "learning_rate": 3.383179418601024e-06, | |
| "loss": 0.2096, | |
| "step": 620 | |
| }, | |
| { | |
| "epoch": 4.14, | |
| "grad_norm": 1.1031184196472168, | |
| "learning_rate": 3.3625335133417337e-06, | |
| "loss": 0.332, | |
| "step": 621 | |
| }, | |
| { | |
| "epoch": 4.1466666666666665, | |
| "grad_norm": 1.7812882661819458, | |
| "learning_rate": 3.34203022779782e-06, | |
| "loss": 0.3759, | |
| "step": 622 | |
| }, | |
| { | |
| "epoch": 4.153333333333333, | |
| "grad_norm": 1.1715418100357056, | |
| "learning_rate": 3.321669944841377e-06, | |
| "loss": 0.2522, | |
| "step": 623 | |
| }, | |
| { | |
| "epoch": 4.16, | |
| "grad_norm": 1.2465636730194092, | |
| "learning_rate": 3.301453044674106e-06, | |
| "loss": 0.2774, | |
| "step": 624 | |
| }, | |
| { | |
| "epoch": 4.166666666666667, | |
| "grad_norm": 1.8948891162872314, | |
| "learning_rate": 3.281379904820219e-06, | |
| "loss": 0.7832, | |
| "step": 625 | |
| }, | |
| { | |
| "epoch": 4.173333333333334, | |
| "grad_norm": 1.8957587480545044, | |
| "learning_rate": 3.261450900119401e-06, | |
| "loss": 0.7166, | |
| "step": 626 | |
| }, | |
| { | |
| "epoch": 4.18, | |
| "grad_norm": 1.3086090087890625, | |
| "learning_rate": 3.2416664027197935e-06, | |
| "loss": 0.4382, | |
| "step": 627 | |
| }, | |
| { | |
| "epoch": 4.1866666666666665, | |
| "grad_norm": 1.1486830711364746, | |
| "learning_rate": 3.2220267820710544e-06, | |
| "loss": 0.3108, | |
| "step": 628 | |
| }, | |
| { | |
| "epoch": 4.193333333333333, | |
| "grad_norm": 1.371157169342041, | |
| "learning_rate": 3.2025324049174613e-06, | |
| "loss": 0.4944, | |
| "step": 629 | |
| }, | |
| { | |
| "epoch": 4.2, | |
| "grad_norm": 1.1694400310516357, | |
| "learning_rate": 3.183183635291054e-06, | |
| "loss": 0.2286, | |
| "step": 630 | |
| }, | |
| { | |
| "epoch": 4.206666666666667, | |
| "grad_norm": 1.0180890560150146, | |
| "learning_rate": 3.1639808345048425e-06, | |
| "loss": 0.3435, | |
| "step": 631 | |
| }, | |
| { | |
| "epoch": 4.213333333333333, | |
| "grad_norm": 1.867078423500061, | |
| "learning_rate": 3.1449243611460657e-06, | |
| "loss": 0.7808, | |
| "step": 632 | |
| }, | |
| { | |
| "epoch": 4.22, | |
| "grad_norm": 1.7380026578903198, | |
| "learning_rate": 3.126014571069479e-06, | |
| "loss": 0.844, | |
| "step": 633 | |
| }, | |
| { | |
| "epoch": 4.226666666666667, | |
| "grad_norm": 1.4347327947616577, | |
| "learning_rate": 3.1072518173907277e-06, | |
| "loss": 0.6694, | |
| "step": 634 | |
| }, | |
| { | |
| "epoch": 4.233333333333333, | |
| "grad_norm": 1.4206736087799072, | |
| "learning_rate": 3.0886364504797407e-06, | |
| "loss": 0.387, | |
| "step": 635 | |
| }, | |
| { | |
| "epoch": 4.24, | |
| "grad_norm": 0.792955756187439, | |
| "learning_rate": 3.0701688179541857e-06, | |
| "loss": 0.1755, | |
| "step": 636 | |
| }, | |
| { | |
| "epoch": 4.246666666666667, | |
| "grad_norm": 1.453861117362976, | |
| "learning_rate": 3.051849264672996e-06, | |
| "loss": 0.5212, | |
| "step": 637 | |
| }, | |
| { | |
| "epoch": 4.253333333333333, | |
| "grad_norm": 1.0745089054107666, | |
| "learning_rate": 3.0336781327299105e-06, | |
| "loss": 0.2214, | |
| "step": 638 | |
| }, | |
| { | |
| "epoch": 4.26, | |
| "grad_norm": 1.3397624492645264, | |
| "learning_rate": 3.0156557614470912e-06, | |
| "loss": 0.3879, | |
| "step": 639 | |
| }, | |
| { | |
| "epoch": 4.266666666666667, | |
| "grad_norm": 1.5081578493118286, | |
| "learning_rate": 2.9977824873687943e-06, | |
| "loss": 0.5862, | |
| "step": 640 | |
| }, | |
| { | |
| "epoch": 4.273333333333333, | |
| "grad_norm": 1.453550100326538, | |
| "learning_rate": 2.98005864425508e-06, | |
| "loss": 0.4981, | |
| "step": 641 | |
| }, | |
| { | |
| "epoch": 4.28, | |
| "grad_norm": 1.5029710531234741, | |
| "learning_rate": 2.9624845630755744e-06, | |
| "loss": 0.5053, | |
| "step": 642 | |
| }, | |
| { | |
| "epoch": 4.286666666666667, | |
| "grad_norm": 1.6604195833206177, | |
| "learning_rate": 2.945060572003303e-06, | |
| "loss": 0.4623, | |
| "step": 643 | |
| }, | |
| { | |
| "epoch": 4.293333333333333, | |
| "grad_norm": 1.6119710206985474, | |
| "learning_rate": 2.92778699640855e-06, | |
| "loss": 0.6292, | |
| "step": 644 | |
| }, | |
| { | |
| "epoch": 4.3, | |
| "grad_norm": 1.020081639289856, | |
| "learning_rate": 2.9106641588527874e-06, | |
| "loss": 0.2664, | |
| "step": 645 | |
| }, | |
| { | |
| "epoch": 4.306666666666667, | |
| "grad_norm": 1.4827642440795898, | |
| "learning_rate": 2.8936923790826517e-06, | |
| "loss": 0.5484, | |
| "step": 646 | |
| }, | |
| { | |
| "epoch": 4.3133333333333335, | |
| "grad_norm": 1.4749743938446045, | |
| "learning_rate": 2.8768719740239724e-06, | |
| "loss": 0.6281, | |
| "step": 647 | |
| }, | |
| { | |
| "epoch": 4.32, | |
| "grad_norm": 1.336064338684082, | |
| "learning_rate": 2.8602032577758542e-06, | |
| "loss": 0.2808, | |
| "step": 648 | |
| } | |
| ], | |
| "logging_steps": 1.0, | |
| "max_steps": 750, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 5, | |
| "save_steps": 108, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": false | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 3.505549915772158e+18, | |
| "train_batch_size": 4, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |