Invalid JSON: Unexpected token 'N', ..."ad_norm": NaN,
"... is not valid JSON
| { | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 20.0, | |
| "eval_steps": 500, | |
| "global_step": 120, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.16666666666666666, | |
| "grad_norm": 9.996176719665527, | |
| "learning_rate": 0.00019833333333333335, | |
| "loss": 9.3055, | |
| "step": 1 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "grad_norm": NaN, | |
| "learning_rate": 0.00019833333333333335, | |
| "loss": 9.113, | |
| "step": 2 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "grad_norm": 11.601034164428711, | |
| "learning_rate": 0.00019666666666666666, | |
| "loss": 9.0898, | |
| "step": 3 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "grad_norm": 20.349306106567383, | |
| "learning_rate": 0.000195, | |
| "loss": 8.7993, | |
| "step": 4 | |
| }, | |
| { | |
| "epoch": 0.8333333333333334, | |
| "grad_norm": 25.184730529785156, | |
| "learning_rate": 0.00019333333333333333, | |
| "loss": 8.333, | |
| "step": 5 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 13.329120635986328, | |
| "learning_rate": 0.00019166666666666667, | |
| "loss": 7.9961, | |
| "step": 6 | |
| }, | |
| { | |
| "epoch": 1.1666666666666667, | |
| "grad_norm": 8.383143424987793, | |
| "learning_rate": 0.00019, | |
| "loss": 7.8197, | |
| "step": 7 | |
| }, | |
| { | |
| "epoch": 1.3333333333333333, | |
| "grad_norm": 6.8824028968811035, | |
| "learning_rate": 0.00018833333333333335, | |
| "loss": 7.6296, | |
| "step": 8 | |
| }, | |
| { | |
| "epoch": 1.5, | |
| "grad_norm": 6.662093162536621, | |
| "learning_rate": 0.0001866666666666667, | |
| "loss": 7.5766, | |
| "step": 9 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "grad_norm": 6.5743632316589355, | |
| "learning_rate": 0.00018500000000000002, | |
| "loss": 7.5354, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 1.8333333333333335, | |
| "grad_norm": 5.239775657653809, | |
| "learning_rate": 0.00018333333333333334, | |
| "loss": 7.4454, | |
| "step": 11 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "grad_norm": 3.852353811264038, | |
| "learning_rate": 0.00018166666666666667, | |
| "loss": 7.4435, | |
| "step": 12 | |
| }, | |
| { | |
| "epoch": 2.1666666666666665, | |
| "grad_norm": 4.084356784820557, | |
| "learning_rate": 0.00018, | |
| "loss": 7.3747, | |
| "step": 13 | |
| }, | |
| { | |
| "epoch": 2.3333333333333335, | |
| "grad_norm": 4.106002330780029, | |
| "learning_rate": 0.00017833333333333335, | |
| "loss": 7.3751, | |
| "step": 14 | |
| }, | |
| { | |
| "epoch": 2.5, | |
| "grad_norm": 4.112590312957764, | |
| "learning_rate": 0.00017666666666666666, | |
| "loss": 7.3905, | |
| "step": 15 | |
| }, | |
| { | |
| "epoch": 2.6666666666666665, | |
| "grad_norm": 3.850327968597412, | |
| "learning_rate": 0.000175, | |
| "loss": 7.3509, | |
| "step": 16 | |
| }, | |
| { | |
| "epoch": 2.8333333333333335, | |
| "grad_norm": 3.867799758911133, | |
| "learning_rate": 0.00017333333333333334, | |
| "loss": 7.3674, | |
| "step": 17 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "grad_norm": 3.6226632595062256, | |
| "learning_rate": 0.00017166666666666667, | |
| "loss": 7.2736, | |
| "step": 18 | |
| }, | |
| { | |
| "epoch": 3.1666666666666665, | |
| "grad_norm": 3.084348440170288, | |
| "learning_rate": 0.00017, | |
| "loss": 7.2721, | |
| "step": 19 | |
| }, | |
| { | |
| "epoch": 3.3333333333333335, | |
| "grad_norm": 3.3022353649139404, | |
| "learning_rate": 0.00016833333333333335, | |
| "loss": 7.2884, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 3.5, | |
| "grad_norm": 2.312713623046875, | |
| "learning_rate": 0.0001666666666666667, | |
| "loss": 7.2756, | |
| "step": 21 | |
| }, | |
| { | |
| "epoch": 3.6666666666666665, | |
| "grad_norm": 2.862736701965332, | |
| "learning_rate": 0.000165, | |
| "loss": 7.2789, | |
| "step": 22 | |
| }, | |
| { | |
| "epoch": 3.8333333333333335, | |
| "grad_norm": 3.960524082183838, | |
| "learning_rate": 0.00016333333333333334, | |
| "loss": 7.2941, | |
| "step": 23 | |
| }, | |
| { | |
| "epoch": 4.0, | |
| "grad_norm": 3.2837612628936768, | |
| "learning_rate": 0.00016166666666666668, | |
| "loss": 7.2624, | |
| "step": 24 | |
| }, | |
| { | |
| "epoch": 4.166666666666667, | |
| "grad_norm": 2.9246368408203125, | |
| "learning_rate": 0.00016, | |
| "loss": 7.2896, | |
| "step": 25 | |
| }, | |
| { | |
| "epoch": 4.333333333333333, | |
| "grad_norm": 3.159517526626587, | |
| "learning_rate": 0.00015833333333333332, | |
| "loss": 7.2348, | |
| "step": 26 | |
| }, | |
| { | |
| "epoch": 4.5, | |
| "grad_norm": 3.172602891921997, | |
| "learning_rate": 0.00015666666666666666, | |
| "loss": 7.2534, | |
| "step": 27 | |
| }, | |
| { | |
| "epoch": 4.666666666666667, | |
| "grad_norm": 2.349774122238159, | |
| "learning_rate": 0.000155, | |
| "loss": 7.1811, | |
| "step": 28 | |
| }, | |
| { | |
| "epoch": 4.833333333333333, | |
| "grad_norm": 2.613893747329712, | |
| "learning_rate": 0.00015333333333333334, | |
| "loss": 7.2341, | |
| "step": 29 | |
| }, | |
| { | |
| "epoch": 5.0, | |
| "grad_norm": 1.907836675643921, | |
| "learning_rate": 0.00015166666666666668, | |
| "loss": 7.2261, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 5.166666666666667, | |
| "grad_norm": 2.000274658203125, | |
| "learning_rate": 0.00015000000000000001, | |
| "loss": 7.2101, | |
| "step": 31 | |
| }, | |
| { | |
| "epoch": 5.333333333333333, | |
| "grad_norm": 1.68790864944458, | |
| "learning_rate": 0.00014833333333333335, | |
| "loss": 7.1859, | |
| "step": 32 | |
| }, | |
| { | |
| "epoch": 5.5, | |
| "grad_norm": 2.083620548248291, | |
| "learning_rate": 0.00014666666666666666, | |
| "loss": 7.2482, | |
| "step": 33 | |
| }, | |
| { | |
| "epoch": 5.666666666666667, | |
| "grad_norm": 2.451608657836914, | |
| "learning_rate": 0.000145, | |
| "loss": 7.2327, | |
| "step": 34 | |
| }, | |
| { | |
| "epoch": 5.833333333333333, | |
| "grad_norm": 2.5982701778411865, | |
| "learning_rate": 0.00014333333333333334, | |
| "loss": 7.1789, | |
| "step": 35 | |
| }, | |
| { | |
| "epoch": 6.0, | |
| "grad_norm": 2.0255370140075684, | |
| "learning_rate": 0.00014166666666666668, | |
| "loss": 7.2053, | |
| "step": 36 | |
| }, | |
| { | |
| "epoch": 6.166666666666667, | |
| "grad_norm": 2.0500452518463135, | |
| "learning_rate": 0.00014, | |
| "loss": 7.163, | |
| "step": 37 | |
| }, | |
| { | |
| "epoch": 6.333333333333333, | |
| "grad_norm": 2.657477855682373, | |
| "learning_rate": 0.00013833333333333333, | |
| "loss": 7.1961, | |
| "step": 38 | |
| }, | |
| { | |
| "epoch": 6.5, | |
| "grad_norm": 2.333373785018921, | |
| "learning_rate": 0.00013666666666666666, | |
| "loss": 7.1585, | |
| "step": 39 | |
| }, | |
| { | |
| "epoch": 6.666666666666667, | |
| "grad_norm": 2.1554603576660156, | |
| "learning_rate": 0.00013500000000000003, | |
| "loss": 7.2375, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 6.833333333333333, | |
| "grad_norm": 2.1240673065185547, | |
| "learning_rate": 0.00013333333333333334, | |
| "loss": 7.2136, | |
| "step": 41 | |
| }, | |
| { | |
| "epoch": 7.0, | |
| "grad_norm": 2.012666702270508, | |
| "learning_rate": 0.00013166666666666668, | |
| "loss": 7.1701, | |
| "step": 42 | |
| }, | |
| { | |
| "epoch": 7.166666666666667, | |
| "grad_norm": 1.942769169807434, | |
| "learning_rate": 0.00013000000000000002, | |
| "loss": 7.2061, | |
| "step": 43 | |
| }, | |
| { | |
| "epoch": 7.333333333333333, | |
| "grad_norm": 2.049074649810791, | |
| "learning_rate": 0.00012833333333333335, | |
| "loss": 7.1875, | |
| "step": 44 | |
| }, | |
| { | |
| "epoch": 7.5, | |
| "grad_norm": 2.4958574771881104, | |
| "learning_rate": 0.00012666666666666666, | |
| "loss": 7.1676, | |
| "step": 45 | |
| }, | |
| { | |
| "epoch": 7.666666666666667, | |
| "grad_norm": 1.97785222530365, | |
| "learning_rate": 0.000125, | |
| "loss": 7.1786, | |
| "step": 46 | |
| }, | |
| { | |
| "epoch": 7.833333333333333, | |
| "grad_norm": 2.810258626937866, | |
| "learning_rate": 0.00012333333333333334, | |
| "loss": 7.1568, | |
| "step": 47 | |
| }, | |
| { | |
| "epoch": 8.0, | |
| "grad_norm": 1.9358999729156494, | |
| "learning_rate": 0.00012166666666666667, | |
| "loss": 7.1832, | |
| "step": 48 | |
| }, | |
| { | |
| "epoch": 8.166666666666666, | |
| "grad_norm": 1.7094190120697021, | |
| "learning_rate": 0.00012, | |
| "loss": 7.1493, | |
| "step": 49 | |
| }, | |
| { | |
| "epoch": 8.333333333333334, | |
| "grad_norm": 1.900357961654663, | |
| "learning_rate": 0.00011833333333333334, | |
| "loss": 7.1889, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 8.5, | |
| "grad_norm": 2.7656311988830566, | |
| "learning_rate": 0.00011666666666666668, | |
| "loss": 7.148, | |
| "step": 51 | |
| }, | |
| { | |
| "epoch": 8.666666666666666, | |
| "grad_norm": 1.8277168273925781, | |
| "learning_rate": 0.00011499999999999999, | |
| "loss": 7.1962, | |
| "step": 52 | |
| }, | |
| { | |
| "epoch": 8.833333333333334, | |
| "grad_norm": 1.8862431049346924, | |
| "learning_rate": 0.00011333333333333334, | |
| "loss": 7.1534, | |
| "step": 53 | |
| }, | |
| { | |
| "epoch": 9.0, | |
| "grad_norm": 2.083066701889038, | |
| "learning_rate": 0.00011166666666666668, | |
| "loss": 7.1815, | |
| "step": 54 | |
| }, | |
| { | |
| "epoch": 9.166666666666666, | |
| "grad_norm": 2.243966579437256, | |
| "learning_rate": 0.00011000000000000002, | |
| "loss": 7.1854, | |
| "step": 55 | |
| }, | |
| { | |
| "epoch": 9.333333333333334, | |
| "grad_norm": 2.30122709274292, | |
| "learning_rate": 0.00010833333333333333, | |
| "loss": 7.1212, | |
| "step": 56 | |
| }, | |
| { | |
| "epoch": 9.5, | |
| "grad_norm": 2.0310866832733154, | |
| "learning_rate": 0.00010666666666666667, | |
| "loss": 7.1292, | |
| "step": 57 | |
| }, | |
| { | |
| "epoch": 9.666666666666666, | |
| "grad_norm": 2.3550353050231934, | |
| "learning_rate": 0.000105, | |
| "loss": 7.2215, | |
| "step": 58 | |
| }, | |
| { | |
| "epoch": 9.833333333333334, | |
| "grad_norm": 2.20973801612854, | |
| "learning_rate": 0.00010333333333333334, | |
| "loss": 7.1883, | |
| "step": 59 | |
| }, | |
| { | |
| "epoch": 10.0, | |
| "grad_norm": 1.7200679779052734, | |
| "learning_rate": 0.00010166666666666667, | |
| "loss": 7.1315, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 10.166666666666666, | |
| "grad_norm": 1.5856778621673584, | |
| "learning_rate": 0.0001, | |
| "loss": 7.1531, | |
| "step": 61 | |
| }, | |
| { | |
| "epoch": 10.333333333333334, | |
| "grad_norm": 2.5991392135620117, | |
| "learning_rate": 9.833333333333333e-05, | |
| "loss": 7.1658, | |
| "step": 62 | |
| }, | |
| { | |
| "epoch": 10.5, | |
| "grad_norm": 1.9534707069396973, | |
| "learning_rate": 9.666666666666667e-05, | |
| "loss": 7.1404, | |
| "step": 63 | |
| }, | |
| { | |
| "epoch": 10.666666666666666, | |
| "grad_norm": 1.643308401107788, | |
| "learning_rate": 9.5e-05, | |
| "loss": 7.1531, | |
| "step": 64 | |
| }, | |
| { | |
| "epoch": 10.833333333333334, | |
| "grad_norm": 1.7626416683197021, | |
| "learning_rate": 9.333333333333334e-05, | |
| "loss": 7.1786, | |
| "step": 65 | |
| }, | |
| { | |
| "epoch": 11.0, | |
| "grad_norm": 1.4250434637069702, | |
| "learning_rate": 9.166666666666667e-05, | |
| "loss": 7.1496, | |
| "step": 66 | |
| }, | |
| { | |
| "epoch": 11.166666666666666, | |
| "grad_norm": 1.87589693069458, | |
| "learning_rate": 9e-05, | |
| "loss": 7.147, | |
| "step": 67 | |
| }, | |
| { | |
| "epoch": 11.333333333333334, | |
| "grad_norm": 1.737741470336914, | |
| "learning_rate": 8.833333333333333e-05, | |
| "loss": 7.1678, | |
| "step": 68 | |
| }, | |
| { | |
| "epoch": 11.5, | |
| "grad_norm": 1.3601438999176025, | |
| "learning_rate": 8.666666666666667e-05, | |
| "loss": 7.1464, | |
| "step": 69 | |
| }, | |
| { | |
| "epoch": 11.666666666666666, | |
| "grad_norm": 1.7974656820297241, | |
| "learning_rate": 8.5e-05, | |
| "loss": 7.2134, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 11.833333333333334, | |
| "grad_norm": 2.1084883213043213, | |
| "learning_rate": 8.333333333333334e-05, | |
| "loss": 7.1072, | |
| "step": 71 | |
| }, | |
| { | |
| "epoch": 12.0, | |
| "grad_norm": 1.8446587324142456, | |
| "learning_rate": 8.166666666666667e-05, | |
| "loss": 7.1346, | |
| "step": 72 | |
| }, | |
| { | |
| "epoch": 12.166666666666666, | |
| "grad_norm": 1.8687093257904053, | |
| "learning_rate": 8e-05, | |
| "loss": 7.0995, | |
| "step": 73 | |
| }, | |
| { | |
| "epoch": 12.333333333333334, | |
| "grad_norm": 1.7230603694915771, | |
| "learning_rate": 7.833333333333333e-05, | |
| "loss": 7.2023, | |
| "step": 74 | |
| }, | |
| { | |
| "epoch": 12.5, | |
| "grad_norm": 1.7585816383361816, | |
| "learning_rate": 7.666666666666667e-05, | |
| "loss": 7.1752, | |
| "step": 75 | |
| }, | |
| { | |
| "epoch": 12.666666666666666, | |
| "grad_norm": 2.682413101196289, | |
| "learning_rate": 7.500000000000001e-05, | |
| "loss": 7.1501, | |
| "step": 76 | |
| }, | |
| { | |
| "epoch": 12.833333333333334, | |
| "grad_norm": 2.1813175678253174, | |
| "learning_rate": 7.333333333333333e-05, | |
| "loss": 7.1343, | |
| "step": 77 | |
| }, | |
| { | |
| "epoch": 13.0, | |
| "grad_norm": 1.9682540893554688, | |
| "learning_rate": 7.166666666666667e-05, | |
| "loss": 7.1303, | |
| "step": 78 | |
| }, | |
| { | |
| "epoch": 13.166666666666666, | |
| "grad_norm": 2.2799887657165527, | |
| "learning_rate": 7e-05, | |
| "loss": 7.1243, | |
| "step": 79 | |
| }, | |
| { | |
| "epoch": 13.333333333333334, | |
| "grad_norm": 1.92588472366333, | |
| "learning_rate": 6.833333333333333e-05, | |
| "loss": 7.1308, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 13.5, | |
| "grad_norm": 1.7221243381500244, | |
| "learning_rate": 6.666666666666667e-05, | |
| "loss": 7.1353, | |
| "step": 81 | |
| }, | |
| { | |
| "epoch": 13.666666666666666, | |
| "grad_norm": 2.1498842239379883, | |
| "learning_rate": 6.500000000000001e-05, | |
| "loss": 7.105, | |
| "step": 82 | |
| }, | |
| { | |
| "epoch": 13.833333333333334, | |
| "grad_norm": 2.1947121620178223, | |
| "learning_rate": 6.333333333333333e-05, | |
| "loss": 7.1263, | |
| "step": 83 | |
| }, | |
| { | |
| "epoch": 14.0, | |
| "grad_norm": 2.6071479320526123, | |
| "learning_rate": 6.166666666666667e-05, | |
| "loss": 7.2294, | |
| "step": 84 | |
| }, | |
| { | |
| "epoch": 14.166666666666666, | |
| "grad_norm": 1.9314939975738525, | |
| "learning_rate": 6e-05, | |
| "loss": 7.1078, | |
| "step": 85 | |
| }, | |
| { | |
| "epoch": 14.333333333333334, | |
| "grad_norm": 2.081263542175293, | |
| "learning_rate": 5.833333333333334e-05, | |
| "loss": 7.142, | |
| "step": 86 | |
| }, | |
| { | |
| "epoch": 14.5, | |
| "grad_norm": 1.365136742591858, | |
| "learning_rate": 5.666666666666667e-05, | |
| "loss": 7.1133, | |
| "step": 87 | |
| }, | |
| { | |
| "epoch": 14.666666666666666, | |
| "grad_norm": 3.0725936889648438, | |
| "learning_rate": 5.500000000000001e-05, | |
| "loss": 7.0743, | |
| "step": 88 | |
| }, | |
| { | |
| "epoch": 14.833333333333334, | |
| "grad_norm": 2.1740472316741943, | |
| "learning_rate": 5.333333333333333e-05, | |
| "loss": 7.155, | |
| "step": 89 | |
| }, | |
| { | |
| "epoch": 15.0, | |
| "grad_norm": 3.8192708492279053, | |
| "learning_rate": 5.166666666666667e-05, | |
| "loss": 7.2193, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 15.166666666666666, | |
| "grad_norm": 1.4506871700286865, | |
| "learning_rate": 5e-05, | |
| "loss": 7.1516, | |
| "step": 91 | |
| }, | |
| { | |
| "epoch": 15.333333333333334, | |
| "grad_norm": 2.3783648014068604, | |
| "learning_rate": 4.8333333333333334e-05, | |
| "loss": 7.1323, | |
| "step": 92 | |
| }, | |
| { | |
| "epoch": 15.5, | |
| "grad_norm": 2.0182697772979736, | |
| "learning_rate": 4.666666666666667e-05, | |
| "loss": 7.0806, | |
| "step": 93 | |
| }, | |
| { | |
| "epoch": 15.666666666666666, | |
| "grad_norm": 1.972489833831787, | |
| "learning_rate": 4.5e-05, | |
| "loss": 7.1348, | |
| "step": 94 | |
| }, | |
| { | |
| "epoch": 15.833333333333334, | |
| "grad_norm": 2.1752395629882812, | |
| "learning_rate": 4.3333333333333334e-05, | |
| "loss": 7.1774, | |
| "step": 95 | |
| }, | |
| { | |
| "epoch": 16.0, | |
| "grad_norm": 2.119612455368042, | |
| "learning_rate": 4.166666666666667e-05, | |
| "loss": 7.0916, | |
| "step": 96 | |
| }, | |
| { | |
| "epoch": 16.166666666666668, | |
| "grad_norm": 1.9465644359588623, | |
| "learning_rate": 4e-05, | |
| "loss": 7.1488, | |
| "step": 97 | |
| }, | |
| { | |
| "epoch": 16.333333333333332, | |
| "grad_norm": 1.7382686138153076, | |
| "learning_rate": 3.8333333333333334e-05, | |
| "loss": 7.0954, | |
| "step": 98 | |
| }, | |
| { | |
| "epoch": 16.5, | |
| "grad_norm": 1.5779635906219482, | |
| "learning_rate": 3.6666666666666666e-05, | |
| "loss": 7.1016, | |
| "step": 99 | |
| }, | |
| { | |
| "epoch": 16.666666666666668, | |
| "grad_norm": 2.305907726287842, | |
| "learning_rate": 3.5e-05, | |
| "loss": 7.1071, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 16.833333333333332, | |
| "grad_norm": 2.938469409942627, | |
| "learning_rate": 3.3333333333333335e-05, | |
| "loss": 7.1415, | |
| "step": 101 | |
| }, | |
| { | |
| "epoch": 17.0, | |
| "grad_norm": 2.0791733264923096, | |
| "learning_rate": 3.1666666666666666e-05, | |
| "loss": 7.142, | |
| "step": 102 | |
| }, | |
| { | |
| "epoch": 17.166666666666668, | |
| "grad_norm": 2.060059070587158, | |
| "learning_rate": 3e-05, | |
| "loss": 7.1488, | |
| "step": 103 | |
| }, | |
| { | |
| "epoch": 17.333333333333332, | |
| "grad_norm": 1.9948276281356812, | |
| "learning_rate": 2.8333333333333335e-05, | |
| "loss": 7.1139, | |
| "step": 104 | |
| }, | |
| { | |
| "epoch": 17.5, | |
| "grad_norm": 2.2282490730285645, | |
| "learning_rate": 2.6666666666666667e-05, | |
| "loss": 7.1126, | |
| "step": 105 | |
| }, | |
| { | |
| "epoch": 17.666666666666668, | |
| "grad_norm": 3.4862804412841797, | |
| "learning_rate": 2.5e-05, | |
| "loss": 7.1105, | |
| "step": 106 | |
| }, | |
| { | |
| "epoch": 17.833333333333332, | |
| "grad_norm": 2.5423128604888916, | |
| "learning_rate": 2.3333333333333336e-05, | |
| "loss": 7.1192, | |
| "step": 107 | |
| }, | |
| { | |
| "epoch": 18.0, | |
| "grad_norm": 2.4720511436462402, | |
| "learning_rate": 2.1666666666666667e-05, | |
| "loss": 7.1078, | |
| "step": 108 | |
| }, | |
| { | |
| "epoch": 18.166666666666668, | |
| "grad_norm": 2.346407651901245, | |
| "learning_rate": 2e-05, | |
| "loss": 7.1301, | |
| "step": 109 | |
| }, | |
| { | |
| "epoch": 18.333333333333332, | |
| "grad_norm": 2.01698899269104, | |
| "learning_rate": 1.8333333333333333e-05, | |
| "loss": 7.1082, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 18.5, | |
| "grad_norm": 1.6917645931243896, | |
| "learning_rate": 1.6666666666666667e-05, | |
| "loss": 7.0735, | |
| "step": 111 | |
| }, | |
| { | |
| "epoch": 18.666666666666668, | |
| "grad_norm": 2.2952117919921875, | |
| "learning_rate": 1.5e-05, | |
| "loss": 7.0548, | |
| "step": 112 | |
| }, | |
| { | |
| "epoch": 18.833333333333332, | |
| "grad_norm": 2.255409002304077, | |
| "learning_rate": 1.3333333333333333e-05, | |
| "loss": 7.1601, | |
| "step": 113 | |
| }, | |
| { | |
| "epoch": 19.0, | |
| "grad_norm": 2.1308393478393555, | |
| "learning_rate": 1.1666666666666668e-05, | |
| "loss": 7.1408, | |
| "step": 114 | |
| }, | |
| { | |
| "epoch": 19.166666666666668, | |
| "grad_norm": 2.4893856048583984, | |
| "learning_rate": 1e-05, | |
| "loss": 7.1783, | |
| "step": 115 | |
| }, | |
| { | |
| "epoch": 19.333333333333332, | |
| "grad_norm": 2.091352939605713, | |
| "learning_rate": 8.333333333333334e-06, | |
| "loss": 7.1003, | |
| "step": 116 | |
| }, | |
| { | |
| "epoch": 19.5, | |
| "grad_norm": 2.4116783142089844, | |
| "learning_rate": 6.666666666666667e-06, | |
| "loss": 7.1215, | |
| "step": 117 | |
| }, | |
| { | |
| "epoch": 19.666666666666668, | |
| "grad_norm": 1.5502471923828125, | |
| "learning_rate": 5e-06, | |
| "loss": 7.0898, | |
| "step": 118 | |
| }, | |
| { | |
| "epoch": 19.833333333333332, | |
| "grad_norm": 1.9066845178604126, | |
| "learning_rate": 3.3333333333333333e-06, | |
| "loss": 7.0796, | |
| "step": 119 | |
| }, | |
| { | |
| "epoch": 20.0, | |
| "grad_norm": 1.8975646495819092, | |
| "learning_rate": 1.6666666666666667e-06, | |
| "loss": 7.0866, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 20.0, | |
| "step": 120, | |
| "total_flos": 26107084892160.0, | |
| "train_loss": 7.272801029682159, | |
| "train_runtime": 990.0662, | |
| "train_samples_per_second": 1.939, | |
| "train_steps_per_second": 0.121 | |
| } | |
| ], | |
| "logging_steps": 1.0, | |
| "max_steps": 120, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 20, | |
| "save_steps": 500, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 26107084892160.0, | |
| "train_batch_size": 2, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |