| { |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 0.04173333333333333, |
| "eval_steps": 10, |
| "global_step": 313, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.00013333333333333334, |
| "grad_norm": 0.6006143689155579, |
| "learning_rate": 9.677419354838709e-06, |
| "loss": 0.4607, |
| "step": 1 |
| }, |
| { |
| "epoch": 0.0002666666666666667, |
| "grad_norm": 0.6198822855949402, |
| "learning_rate": 1.9354838709677417e-05, |
| "loss": 0.4716, |
| "step": 2 |
| }, |
| { |
| "epoch": 0.0004, |
| "grad_norm": 0.6413291692733765, |
| "learning_rate": 2.9032258064516126e-05, |
| "loss": 0.4842, |
| "step": 3 |
| }, |
| { |
| "epoch": 0.0005333333333333334, |
| "grad_norm": 0.5715949535369873, |
| "learning_rate": 3.8709677419354835e-05, |
| "loss": 0.4241, |
| "step": 4 |
| }, |
| { |
| "epoch": 0.0006666666666666666, |
| "grad_norm": 0.5637168884277344, |
| "learning_rate": 4.838709677419354e-05, |
| "loss": 0.4313, |
| "step": 5 |
| }, |
| { |
| "epoch": 0.0008, |
| "grad_norm": 0.5333985686302185, |
| "learning_rate": 5.806451612903225e-05, |
| "loss": 0.4227, |
| "step": 6 |
| }, |
| { |
| "epoch": 0.0009333333333333333, |
| "grad_norm": 0.6348873972892761, |
| "learning_rate": 6.774193548387096e-05, |
| "loss": 0.4592, |
| "step": 7 |
| }, |
| { |
| "epoch": 0.0010666666666666667, |
| "grad_norm": 0.6035286784172058, |
| "learning_rate": 7.741935483870967e-05, |
| "loss": 0.456, |
| "step": 8 |
| }, |
| { |
| "epoch": 0.0012, |
| "grad_norm": 0.5955594778060913, |
| "learning_rate": 8.709677419354839e-05, |
| "loss": 0.3988, |
| "step": 9 |
| }, |
| { |
| "epoch": 0.0013333333333333333, |
| "grad_norm": 0.5835692882537842, |
| "learning_rate": 9.677419354838708e-05, |
| "loss": 0.4007, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.0013333333333333333, |
| "eval_loss": 0.47229835391044617, |
| "eval_runtime": 141.6234, |
| "eval_samples_per_second": 7.061, |
| "eval_steps_per_second": 0.883, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.0014666666666666667, |
| "grad_norm": 0.66339111328125, |
| "learning_rate": 0.0001064516129032258, |
| "loss": 0.4279, |
| "step": 11 |
| }, |
| { |
| "epoch": 0.0016, |
| "grad_norm": 0.6043490171432495, |
| "learning_rate": 0.0001161290322580645, |
| "loss": 0.3994, |
| "step": 12 |
| }, |
| { |
| "epoch": 0.0017333333333333333, |
| "grad_norm": 0.6265777349472046, |
| "learning_rate": 0.00012580645161290322, |
| "loss": 0.3822, |
| "step": 13 |
| }, |
| { |
| "epoch": 0.0018666666666666666, |
| "grad_norm": 0.6240831613540649, |
| "learning_rate": 0.00013548387096774193, |
| "loss": 0.3926, |
| "step": 14 |
| }, |
| { |
| "epoch": 0.002, |
| "grad_norm": 0.5534247159957886, |
| "learning_rate": 0.00014516129032258063, |
| "loss": 0.389, |
| "step": 15 |
| }, |
| { |
| "epoch": 0.0021333333333333334, |
| "grad_norm": 0.6261595487594604, |
| "learning_rate": 0.00015483870967741934, |
| "loss": 0.3942, |
| "step": 16 |
| }, |
| { |
| "epoch": 0.002266666666666667, |
| "grad_norm": 0.6165563464164734, |
| "learning_rate": 0.00016451612903225804, |
| "loss": 0.4171, |
| "step": 17 |
| }, |
| { |
| "epoch": 0.0024, |
| "grad_norm": 0.6791590452194214, |
| "learning_rate": 0.00017419354838709678, |
| "loss": 0.3791, |
| "step": 18 |
| }, |
| { |
| "epoch": 0.002533333333333333, |
| "grad_norm": 0.6328005194664001, |
| "learning_rate": 0.00018387096774193548, |
| "loss": 0.4013, |
| "step": 19 |
| }, |
| { |
| "epoch": 0.0026666666666666666, |
| "grad_norm": 0.6946194767951965, |
| "learning_rate": 0.00019354838709677416, |
| "loss": 0.4058, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.0026666666666666666, |
| "eval_loss": 0.48361876606941223, |
| "eval_runtime": 141.2736, |
| "eval_samples_per_second": 7.078, |
| "eval_steps_per_second": 0.885, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.0028, |
| "grad_norm": 0.6082856059074402, |
| "learning_rate": 0.00020322580645161287, |
| "loss": 0.358, |
| "step": 21 |
| }, |
| { |
| "epoch": 0.0029333333333333334, |
| "grad_norm": 0.6534790396690369, |
| "learning_rate": 0.0002129032258064516, |
| "loss": 0.3906, |
| "step": 22 |
| }, |
| { |
| "epoch": 0.0030666666666666668, |
| "grad_norm": 0.8171995878219604, |
| "learning_rate": 0.0002225806451612903, |
| "loss": 0.4281, |
| "step": 23 |
| }, |
| { |
| "epoch": 0.0032, |
| "grad_norm": 0.705727219581604, |
| "learning_rate": 0.000232258064516129, |
| "loss": 0.3834, |
| "step": 24 |
| }, |
| { |
| "epoch": 0.0033333333333333335, |
| "grad_norm": 0.6787409782409668, |
| "learning_rate": 0.00024193548387096771, |
| "loss": 0.406, |
| "step": 25 |
| }, |
| { |
| "epoch": 0.0034666666666666665, |
| "grad_norm": 0.7279700636863708, |
| "learning_rate": 0.00025161290322580645, |
| "loss": 0.3765, |
| "step": 26 |
| }, |
| { |
| "epoch": 0.0036, |
| "grad_norm": 0.7276140451431274, |
| "learning_rate": 0.00026129032258064515, |
| "loss": 0.4069, |
| "step": 27 |
| }, |
| { |
| "epoch": 0.0037333333333333333, |
| "grad_norm": 0.7698902487754822, |
| "learning_rate": 0.00027096774193548386, |
| "loss": 0.3608, |
| "step": 28 |
| }, |
| { |
| "epoch": 0.0038666666666666667, |
| "grad_norm": 0.8046945929527283, |
| "learning_rate": 0.00028064516129032256, |
| "loss": 0.4095, |
| "step": 29 |
| }, |
| { |
| "epoch": 0.004, |
| "grad_norm": 0.7282766699790955, |
| "learning_rate": 0.00029032258064516127, |
| "loss": 0.3621, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.004, |
| "eval_loss": 0.5078598856925964, |
| "eval_runtime": 141.2069, |
| "eval_samples_per_second": 7.082, |
| "eval_steps_per_second": 0.885, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.0041333333333333335, |
| "grad_norm": 0.782006025314331, |
| "learning_rate": 0.0003, |
| "loss": 0.3693, |
| "step": 31 |
| }, |
| { |
| "epoch": 0.004266666666666667, |
| "grad_norm": 0.778492271900177, |
| "learning_rate": 0.00029893617021276595, |
| "loss": 0.4193, |
| "step": 32 |
| }, |
| { |
| "epoch": 0.0044, |
| "grad_norm": 0.828450620174408, |
| "learning_rate": 0.00029787234042553186, |
| "loss": 0.4269, |
| "step": 33 |
| }, |
| { |
| "epoch": 0.004533333333333334, |
| "grad_norm": 0.7799476981163025, |
| "learning_rate": 0.00029680851063829784, |
| "loss": 0.4009, |
| "step": 34 |
| }, |
| { |
| "epoch": 0.004666666666666667, |
| "grad_norm": 0.8566656708717346, |
| "learning_rate": 0.0002957446808510638, |
| "loss": 0.4134, |
| "step": 35 |
| }, |
| { |
| "epoch": 0.0048, |
| "grad_norm": 0.800376832485199, |
| "learning_rate": 0.0002946808510638298, |
| "loss": 0.4704, |
| "step": 36 |
| }, |
| { |
| "epoch": 0.004933333333333333, |
| "grad_norm": 0.8391082286834717, |
| "learning_rate": 0.0002936170212765957, |
| "loss": 0.4259, |
| "step": 37 |
| }, |
| { |
| "epoch": 0.005066666666666666, |
| "grad_norm": 0.8332396149635315, |
| "learning_rate": 0.00029255319148936167, |
| "loss": 0.3887, |
| "step": 38 |
| }, |
| { |
| "epoch": 0.0052, |
| "grad_norm": 0.8512689471244812, |
| "learning_rate": 0.00029148936170212764, |
| "loss": 0.3764, |
| "step": 39 |
| }, |
| { |
| "epoch": 0.005333333333333333, |
| "grad_norm": 0.943605899810791, |
| "learning_rate": 0.0002904255319148936, |
| "loss": 0.3861, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.005333333333333333, |
| "eval_loss": 0.5343772172927856, |
| "eval_runtime": 141.0057, |
| "eval_samples_per_second": 7.092, |
| "eval_steps_per_second": 0.886, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.0054666666666666665, |
| "grad_norm": 0.9403368830680847, |
| "learning_rate": 0.00028936170212765953, |
| "loss": 0.4365, |
| "step": 41 |
| }, |
| { |
| "epoch": 0.0056, |
| "grad_norm": 0.8685303926467896, |
| "learning_rate": 0.0002882978723404255, |
| "loss": 0.363, |
| "step": 42 |
| }, |
| { |
| "epoch": 0.005733333333333333, |
| "grad_norm": 0.8405827879905701, |
| "learning_rate": 0.0002872340425531915, |
| "loss": 0.3834, |
| "step": 43 |
| }, |
| { |
| "epoch": 0.005866666666666667, |
| "grad_norm": 0.865339994430542, |
| "learning_rate": 0.0002861702127659574, |
| "loss": 0.3519, |
| "step": 44 |
| }, |
| { |
| "epoch": 0.006, |
| "grad_norm": 1.0442298650741577, |
| "learning_rate": 0.00028510638297872336, |
| "loss": 0.4145, |
| "step": 45 |
| }, |
| { |
| "epoch": 0.0061333333333333335, |
| "grad_norm": 1.03372323513031, |
| "learning_rate": 0.00028404255319148934, |
| "loss": 0.416, |
| "step": 46 |
| }, |
| { |
| "epoch": 0.006266666666666667, |
| "grad_norm": 0.9197443723678589, |
| "learning_rate": 0.0002829787234042553, |
| "loss": 0.4074, |
| "step": 47 |
| }, |
| { |
| "epoch": 0.0064, |
| "grad_norm": 0.8739194869995117, |
| "learning_rate": 0.0002819148936170212, |
| "loss": 0.409, |
| "step": 48 |
| }, |
| { |
| "epoch": 0.006533333333333334, |
| "grad_norm": 0.9163395166397095, |
| "learning_rate": 0.0002808510638297872, |
| "loss": 0.4061, |
| "step": 49 |
| }, |
| { |
| "epoch": 0.006666666666666667, |
| "grad_norm": 0.9468728303909302, |
| "learning_rate": 0.00027978723404255317, |
| "loss": 0.3975, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.006666666666666667, |
| "eval_loss": 0.5526700615882874, |
| "eval_runtime": 141.3662, |
| "eval_samples_per_second": 7.074, |
| "eval_steps_per_second": 0.884, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.0068, |
| "grad_norm": 0.9674628973007202, |
| "learning_rate": 0.00027872340425531914, |
| "loss": 0.345, |
| "step": 51 |
| }, |
| { |
| "epoch": 0.006933333333333333, |
| "grad_norm": 1.1130850315093994, |
| "learning_rate": 0.00027765957446808506, |
| "loss": 0.4025, |
| "step": 52 |
| }, |
| { |
| "epoch": 0.007066666666666666, |
| "grad_norm": 0.9379608035087585, |
| "learning_rate": 0.00027659574468085103, |
| "loss": 0.3685, |
| "step": 53 |
| }, |
| { |
| "epoch": 0.0072, |
| "grad_norm": 0.8657750487327576, |
| "learning_rate": 0.000275531914893617, |
| "loss": 0.4105, |
| "step": 54 |
| }, |
| { |
| "epoch": 0.007333333333333333, |
| "grad_norm": 0.8662859201431274, |
| "learning_rate": 0.000274468085106383, |
| "loss": 0.3943, |
| "step": 55 |
| }, |
| { |
| "epoch": 0.007466666666666667, |
| "grad_norm": 0.9244629144668579, |
| "learning_rate": 0.00027340425531914895, |
| "loss": 0.398, |
| "step": 56 |
| }, |
| { |
| "epoch": 0.0076, |
| "grad_norm": 0.9753397703170776, |
| "learning_rate": 0.00027234042553191487, |
| "loss": 0.3954, |
| "step": 57 |
| }, |
| { |
| "epoch": 0.007733333333333333, |
| "grad_norm": 0.8762659430503845, |
| "learning_rate": 0.00027127659574468084, |
| "loss": 0.4014, |
| "step": 58 |
| }, |
| { |
| "epoch": 0.007866666666666666, |
| "grad_norm": 0.9331676363945007, |
| "learning_rate": 0.00027021276595744675, |
| "loss": 0.4185, |
| "step": 59 |
| }, |
| { |
| "epoch": 0.008, |
| "grad_norm": 0.9720389246940613, |
| "learning_rate": 0.0002691489361702127, |
| "loss": 0.3999, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.008, |
| "eval_loss": 0.5621427297592163, |
| "eval_runtime": 141.3125, |
| "eval_samples_per_second": 7.077, |
| "eval_steps_per_second": 0.885, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.008133333333333333, |
| "grad_norm": 0.927922785282135, |
| "learning_rate": 0.0002680851063829787, |
| "loss": 0.3929, |
| "step": 61 |
| }, |
| { |
| "epoch": 0.008266666666666667, |
| "grad_norm": 1.0025831460952759, |
| "learning_rate": 0.00026702127659574467, |
| "loss": 0.4546, |
| "step": 62 |
| }, |
| { |
| "epoch": 0.0084, |
| "grad_norm": 0.8520203232765198, |
| "learning_rate": 0.0002659574468085106, |
| "loss": 0.3829, |
| "step": 63 |
| }, |
| { |
| "epoch": 0.008533333333333334, |
| "grad_norm": 0.8721809387207031, |
| "learning_rate": 0.00026489361702127656, |
| "loss": 0.4053, |
| "step": 64 |
| }, |
| { |
| "epoch": 0.008666666666666666, |
| "grad_norm": 0.9921732544898987, |
| "learning_rate": 0.00026382978723404253, |
| "loss": 0.4129, |
| "step": 65 |
| }, |
| { |
| "epoch": 0.0088, |
| "grad_norm": 1.103983759880066, |
| "learning_rate": 0.0002627659574468085, |
| "loss": 0.4075, |
| "step": 66 |
| }, |
| { |
| "epoch": 0.008933333333333333, |
| "grad_norm": 1.0018322467803955, |
| "learning_rate": 0.0002617021276595745, |
| "loss": 0.3939, |
| "step": 67 |
| }, |
| { |
| "epoch": 0.009066666666666667, |
| "grad_norm": 0.9683962464332581, |
| "learning_rate": 0.0002606382978723404, |
| "loss": 0.4202, |
| "step": 68 |
| }, |
| { |
| "epoch": 0.0092, |
| "grad_norm": 0.8750381469726562, |
| "learning_rate": 0.00025957446808510637, |
| "loss": 0.4148, |
| "step": 69 |
| }, |
| { |
| "epoch": 0.009333333333333334, |
| "grad_norm": 0.9058277606964111, |
| "learning_rate": 0.0002585106382978723, |
| "loss": 0.366, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.009333333333333334, |
| "eval_loss": 0.5732277631759644, |
| "eval_runtime": 141.1543, |
| "eval_samples_per_second": 7.084, |
| "eval_steps_per_second": 0.886, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.009466666666666667, |
| "grad_norm": 1.110137939453125, |
| "learning_rate": 0.00025744680851063826, |
| "loss": 0.4412, |
| "step": 71 |
| }, |
| { |
| "epoch": 0.0096, |
| "grad_norm": 0.9088068008422852, |
| "learning_rate": 0.00025638297872340423, |
| "loss": 0.3958, |
| "step": 72 |
| }, |
| { |
| "epoch": 0.009733333333333333, |
| "grad_norm": 0.9388840794563293, |
| "learning_rate": 0.0002553191489361702, |
| "loss": 0.4404, |
| "step": 73 |
| }, |
| { |
| "epoch": 0.009866666666666666, |
| "grad_norm": 0.9287758469581604, |
| "learning_rate": 0.0002542553191489361, |
| "loss": 0.407, |
| "step": 74 |
| }, |
| { |
| "epoch": 0.01, |
| "grad_norm": 0.958987295627594, |
| "learning_rate": 0.0002531914893617021, |
| "loss": 0.4078, |
| "step": 75 |
| }, |
| { |
| "epoch": 0.010133333333333333, |
| "grad_norm": 0.9800777435302734, |
| "learning_rate": 0.00025212765957446806, |
| "loss": 0.4293, |
| "step": 76 |
| }, |
| { |
| "epoch": 0.010266666666666667, |
| "grad_norm": 0.9334179759025574, |
| "learning_rate": 0.00025106382978723403, |
| "loss": 0.3995, |
| "step": 77 |
| }, |
| { |
| "epoch": 0.0104, |
| "grad_norm": 0.9035418629646301, |
| "learning_rate": 0.00025, |
| "loss": 0.3887, |
| "step": 78 |
| }, |
| { |
| "epoch": 0.010533333333333334, |
| "grad_norm": 0.8683505654335022, |
| "learning_rate": 0.0002489361702127659, |
| "loss": 0.4115, |
| "step": 79 |
| }, |
| { |
| "epoch": 0.010666666666666666, |
| "grad_norm": 0.9107844829559326, |
| "learning_rate": 0.0002478723404255319, |
| "loss": 0.4051, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.010666666666666666, |
| "eval_loss": 0.5675532221794128, |
| "eval_runtime": 141.2008, |
| "eval_samples_per_second": 7.082, |
| "eval_steps_per_second": 0.885, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.0108, |
| "grad_norm": 0.9836252331733704, |
| "learning_rate": 0.00024680851063829787, |
| "loss": 0.3727, |
| "step": 81 |
| }, |
| { |
| "epoch": 0.010933333333333333, |
| "grad_norm": 0.942230224609375, |
| "learning_rate": 0.00024574468085106384, |
| "loss": 0.425, |
| "step": 82 |
| }, |
| { |
| "epoch": 0.011066666666666667, |
| "grad_norm": 0.8973767161369324, |
| "learning_rate": 0.00024468085106382976, |
| "loss": 0.3894, |
| "step": 83 |
| }, |
| { |
| "epoch": 0.0112, |
| "grad_norm": 0.9255136847496033, |
| "learning_rate": 0.00024361702127659573, |
| "loss": 0.3967, |
| "step": 84 |
| }, |
| { |
| "epoch": 0.011333333333333334, |
| "grad_norm": 0.9200630187988281, |
| "learning_rate": 0.00024255319148936167, |
| "loss": 0.4053, |
| "step": 85 |
| }, |
| { |
| "epoch": 0.011466666666666667, |
| "grad_norm": 0.9372026324272156, |
| "learning_rate": 0.00024148936170212765, |
| "loss": 0.4982, |
| "step": 86 |
| }, |
| { |
| "epoch": 0.0116, |
| "grad_norm": 0.8858762383460999, |
| "learning_rate": 0.00024042553191489362, |
| "loss": 0.412, |
| "step": 87 |
| }, |
| { |
| "epoch": 0.011733333333333333, |
| "grad_norm": 0.8913676142692566, |
| "learning_rate": 0.00023936170212765956, |
| "loss": 0.3919, |
| "step": 88 |
| }, |
| { |
| "epoch": 0.011866666666666666, |
| "grad_norm": 0.8229121565818787, |
| "learning_rate": 0.00023829787234042553, |
| "loss": 0.3629, |
| "step": 89 |
| }, |
| { |
| "epoch": 0.012, |
| "grad_norm": 0.9196010231971741, |
| "learning_rate": 0.00023723404255319145, |
| "loss": 0.4116, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.012, |
| "eval_loss": 0.5661309361457825, |
| "eval_runtime": 141.154, |
| "eval_samples_per_second": 7.084, |
| "eval_steps_per_second": 0.886, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.012133333333333333, |
| "grad_norm": 0.9197968244552612, |
| "learning_rate": 0.00023617021276595742, |
| "loss": 0.4206, |
| "step": 91 |
| }, |
| { |
| "epoch": 0.012266666666666667, |
| "grad_norm": 0.9500861763954163, |
| "learning_rate": 0.00023510638297872337, |
| "loss": 0.3939, |
| "step": 92 |
| }, |
| { |
| "epoch": 0.0124, |
| "grad_norm": 0.9442178606987, |
| "learning_rate": 0.00023404255319148934, |
| "loss": 0.4302, |
| "step": 93 |
| }, |
| { |
| "epoch": 0.012533333333333334, |
| "grad_norm": 0.9234870076179504, |
| "learning_rate": 0.00023297872340425529, |
| "loss": 0.4138, |
| "step": 94 |
| }, |
| { |
| "epoch": 0.012666666666666666, |
| "grad_norm": 0.8167098164558411, |
| "learning_rate": 0.00023191489361702126, |
| "loss": 0.4212, |
| "step": 95 |
| }, |
| { |
| "epoch": 0.0128, |
| "grad_norm": 0.8442054390907288, |
| "learning_rate": 0.0002308510638297872, |
| "loss": 0.4052, |
| "step": 96 |
| }, |
| { |
| "epoch": 0.012933333333333333, |
| "grad_norm": 0.9380055069923401, |
| "learning_rate": 0.00022978723404255317, |
| "loss": 0.411, |
| "step": 97 |
| }, |
| { |
| "epoch": 0.013066666666666667, |
| "grad_norm": 0.9059054255485535, |
| "learning_rate": 0.00022872340425531915, |
| "loss": 0.3607, |
| "step": 98 |
| }, |
| { |
| "epoch": 0.0132, |
| "grad_norm": 1.0604918003082275, |
| "learning_rate": 0.0002276595744680851, |
| "loss": 0.4224, |
| "step": 99 |
| }, |
| { |
| "epoch": 0.013333333333333334, |
| "grad_norm": 0.9452946186065674, |
| "learning_rate": 0.00022659574468085106, |
| "loss": 0.3924, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.013333333333333334, |
| "eval_loss": 0.5585871338844299, |
| "eval_runtime": 141.3184, |
| "eval_samples_per_second": 7.076, |
| "eval_steps_per_second": 0.885, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.013466666666666667, |
| "grad_norm": 0.93110191822052, |
| "learning_rate": 0.00022553191489361698, |
| "loss": 0.432, |
| "step": 101 |
| }, |
| { |
| "epoch": 0.0136, |
| "grad_norm": 0.9097228050231934, |
| "learning_rate": 0.00022446808510638298, |
| "loss": 0.4191, |
| "step": 102 |
| }, |
| { |
| "epoch": 0.013733333333333334, |
| "grad_norm": 0.9027892351150513, |
| "learning_rate": 0.0002234042553191489, |
| "loss": 0.4459, |
| "step": 103 |
| }, |
| { |
| "epoch": 0.013866666666666666, |
| "grad_norm": 0.7606397867202759, |
| "learning_rate": 0.00022234042553191487, |
| "loss": 0.4774, |
| "step": 104 |
| }, |
| { |
| "epoch": 0.014, |
| "grad_norm": 1.2175432443618774, |
| "learning_rate": 0.00022127659574468081, |
| "loss": 0.4321, |
| "step": 105 |
| }, |
| { |
| "epoch": 0.014133333333333333, |
| "grad_norm": 0.8743529915809631, |
| "learning_rate": 0.00022021276595744679, |
| "loss": 0.3783, |
| "step": 106 |
| }, |
| { |
| "epoch": 0.014266666666666667, |
| "grad_norm": 0.8516521453857422, |
| "learning_rate": 0.00021914893617021276, |
| "loss": 0.4041, |
| "step": 107 |
| }, |
| { |
| "epoch": 0.0144, |
| "grad_norm": 0.9458008408546448, |
| "learning_rate": 0.0002180851063829787, |
| "loss": 0.3486, |
| "step": 108 |
| }, |
| { |
| "epoch": 0.014533333333333334, |
| "grad_norm": 0.9315433502197266, |
| "learning_rate": 0.00021702127659574468, |
| "loss": 0.3847, |
| "step": 109 |
| }, |
| { |
| "epoch": 0.014666666666666666, |
| "grad_norm": 0.8763704299926758, |
| "learning_rate": 0.00021595744680851062, |
| "loss": 0.3985, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.014666666666666666, |
| "eval_loss": 0.5546203255653381, |
| "eval_runtime": 141.4121, |
| "eval_samples_per_second": 7.072, |
| "eval_steps_per_second": 0.884, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.0148, |
| "grad_norm": 0.8259232640266418, |
| "learning_rate": 0.0002148936170212766, |
| "loss": 0.4004, |
| "step": 111 |
| }, |
| { |
| "epoch": 0.014933333333333333, |
| "grad_norm": 0.8948522210121155, |
| "learning_rate": 0.00021382978723404254, |
| "loss": 0.4032, |
| "step": 112 |
| }, |
| { |
| "epoch": 0.015066666666666667, |
| "grad_norm": 0.8777422904968262, |
| "learning_rate": 0.0002127659574468085, |
| "loss": 0.4078, |
| "step": 113 |
| }, |
| { |
| "epoch": 0.0152, |
| "grad_norm": 0.8337422013282776, |
| "learning_rate": 0.00021170212765957443, |
| "loss": 0.3761, |
| "step": 114 |
| }, |
| { |
| "epoch": 0.015333333333333332, |
| "grad_norm": 0.8740651607513428, |
| "learning_rate": 0.0002106382978723404, |
| "loss": 0.416, |
| "step": 115 |
| }, |
| { |
| "epoch": 0.015466666666666667, |
| "grad_norm": 0.9091439843177795, |
| "learning_rate": 0.00020957446808510634, |
| "loss": 0.4197, |
| "step": 116 |
| }, |
| { |
| "epoch": 0.0156, |
| "grad_norm": 0.9028266072273254, |
| "learning_rate": 0.00020851063829787232, |
| "loss": 0.4151, |
| "step": 117 |
| }, |
| { |
| "epoch": 0.015733333333333332, |
| "grad_norm": 0.8935419321060181, |
| "learning_rate": 0.0002074468085106383, |
| "loss": 0.4108, |
| "step": 118 |
| }, |
| { |
| "epoch": 0.015866666666666668, |
| "grad_norm": 0.8912088871002197, |
| "learning_rate": 0.00020638297872340423, |
| "loss": 0.4114, |
| "step": 119 |
| }, |
| { |
| "epoch": 0.016, |
| "grad_norm": 0.8851146101951599, |
| "learning_rate": 0.0002053191489361702, |
| "loss": 0.404, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.016, |
| "eval_loss": 0.5506999492645264, |
| "eval_runtime": 141.1929, |
| "eval_samples_per_second": 7.083, |
| "eval_steps_per_second": 0.885, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.016133333333333333, |
| "grad_norm": 0.8932808637619019, |
| "learning_rate": 0.00020425531914893615, |
| "loss": 0.4222, |
| "step": 121 |
| }, |
| { |
| "epoch": 0.016266666666666665, |
| "grad_norm": 0.8968888521194458, |
| "learning_rate": 0.00020319148936170212, |
| "loss": 0.4527, |
| "step": 122 |
| }, |
| { |
| "epoch": 0.0164, |
| "grad_norm": 0.8441635966300964, |
| "learning_rate": 0.00020212765957446807, |
| "loss": 0.4008, |
| "step": 123 |
| }, |
| { |
| "epoch": 0.016533333333333334, |
| "grad_norm": 0.8323643803596497, |
| "learning_rate": 0.00020106382978723404, |
| "loss": 0.3668, |
| "step": 124 |
| }, |
| { |
| "epoch": 0.016666666666666666, |
| "grad_norm": 0.9084455966949463, |
| "learning_rate": 0.00019999999999999998, |
| "loss": 0.41, |
| "step": 125 |
| }, |
| { |
| "epoch": 0.0168, |
| "grad_norm": 0.8844165802001953, |
| "learning_rate": 0.00019893617021276595, |
| "loss": 0.3878, |
| "step": 126 |
| }, |
| { |
| "epoch": 0.016933333333333335, |
| "grad_norm": 0.8128172755241394, |
| "learning_rate": 0.00019787234042553187, |
| "loss": 0.3901, |
| "step": 127 |
| }, |
| { |
| "epoch": 0.017066666666666667, |
| "grad_norm": 0.8739519715309143, |
| "learning_rate": 0.00019680851063829784, |
| "loss": 0.4114, |
| "step": 128 |
| }, |
| { |
| "epoch": 0.0172, |
| "grad_norm": 0.8356694579124451, |
| "learning_rate": 0.00019574468085106382, |
| "loss": 0.4248, |
| "step": 129 |
| }, |
| { |
| "epoch": 0.017333333333333333, |
| "grad_norm": 0.8383334279060364, |
| "learning_rate": 0.00019468085106382976, |
| "loss": 0.409, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.017333333333333333, |
| "eval_loss": 0.5454820990562439, |
| "eval_runtime": 141.222, |
| "eval_samples_per_second": 7.081, |
| "eval_steps_per_second": 0.885, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.017466666666666665, |
| "grad_norm": 0.8132391571998596, |
| "learning_rate": 0.00019361702127659573, |
| "loss": 0.389, |
| "step": 131 |
| }, |
| { |
| "epoch": 0.0176, |
| "grad_norm": 0.8483821749687195, |
| "learning_rate": 0.00019255319148936168, |
| "loss": 0.4032, |
| "step": 132 |
| }, |
| { |
| "epoch": 0.017733333333333334, |
| "grad_norm": 0.8645078539848328, |
| "learning_rate": 0.00019148936170212765, |
| "loss": 0.3775, |
| "step": 133 |
| }, |
| { |
| "epoch": 0.017866666666666666, |
| "grad_norm": 0.8843973278999329, |
| "learning_rate": 0.0001904255319148936, |
| "loss": 0.4026, |
| "step": 134 |
| }, |
| { |
| "epoch": 0.018, |
| "grad_norm": 0.8225902915000916, |
| "learning_rate": 0.00018936170212765957, |
| "loss": 0.3515, |
| "step": 135 |
| }, |
| { |
| "epoch": 0.018133333333333335, |
| "grad_norm": 0.8457032442092896, |
| "learning_rate": 0.0001882978723404255, |
| "loss": 0.4158, |
| "step": 136 |
| }, |
| { |
| "epoch": 0.018266666666666667, |
| "grad_norm": 0.7120801210403442, |
| "learning_rate": 0.00018723404255319148, |
| "loss": 0.3842, |
| "step": 137 |
| }, |
| { |
| "epoch": 0.0184, |
| "grad_norm": 0.8226205706596375, |
| "learning_rate": 0.00018617021276595743, |
| "loss": 0.4017, |
| "step": 138 |
| }, |
| { |
| "epoch": 0.018533333333333332, |
| "grad_norm": 0.8248230218887329, |
| "learning_rate": 0.0001851063829787234, |
| "loss": 0.3892, |
| "step": 139 |
| }, |
| { |
| "epoch": 0.018666666666666668, |
| "grad_norm": 0.7935346364974976, |
| "learning_rate": 0.00018404255319148937, |
| "loss": 0.382, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.018666666666666668, |
| "eval_loss": 0.5466542840003967, |
| "eval_runtime": 141.4111, |
| "eval_samples_per_second": 7.072, |
| "eval_steps_per_second": 0.884, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.0188, |
| "grad_norm": 0.801705539226532, |
| "learning_rate": 0.0001829787234042553, |
| "loss": 0.4107, |
| "step": 141 |
| }, |
| { |
| "epoch": 0.018933333333333333, |
| "grad_norm": 0.8205410838127136, |
| "learning_rate": 0.00018191489361702126, |
| "loss": 0.3764, |
| "step": 142 |
| }, |
| { |
| "epoch": 0.019066666666666666, |
| "grad_norm": 0.8503196239471436, |
| "learning_rate": 0.0001808510638297872, |
| "loss": 0.367, |
| "step": 143 |
| }, |
| { |
| "epoch": 0.0192, |
| "grad_norm": 0.8816925883293152, |
| "learning_rate": 0.00017978723404255318, |
| "loss": 0.4256, |
| "step": 144 |
| }, |
| { |
| "epoch": 0.019333333333333334, |
| "grad_norm": 0.8757478594779968, |
| "learning_rate": 0.00017872340425531912, |
| "loss": 0.4198, |
| "step": 145 |
| }, |
| { |
| "epoch": 0.019466666666666667, |
| "grad_norm": 0.779212236404419, |
| "learning_rate": 0.0001776595744680851, |
| "loss": 0.3922, |
| "step": 146 |
| }, |
| { |
| "epoch": 0.0196, |
| "grad_norm": 0.8254271745681763, |
| "learning_rate": 0.00017659574468085104, |
| "loss": 0.3816, |
| "step": 147 |
| }, |
| { |
| "epoch": 0.019733333333333332, |
| "grad_norm": 0.799547553062439, |
| "learning_rate": 0.000175531914893617, |
| "loss": 0.4173, |
| "step": 148 |
| }, |
| { |
| "epoch": 0.019866666666666668, |
| "grad_norm": 0.8124542236328125, |
| "learning_rate": 0.00017446808510638296, |
| "loss": 0.4354, |
| "step": 149 |
| }, |
| { |
| "epoch": 0.02, |
| "grad_norm": 0.8514212369918823, |
| "learning_rate": 0.00017340425531914893, |
| "loss": 0.3907, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.02, |
| "eval_loss": 0.5364201664924622, |
| "eval_runtime": 141.3883, |
| "eval_samples_per_second": 7.073, |
| "eval_steps_per_second": 0.884, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.020133333333333333, |
| "grad_norm": 0.8387048244476318, |
| "learning_rate": 0.0001723404255319149, |
| "loss": 0.4026, |
| "step": 151 |
| }, |
| { |
| "epoch": 0.020266666666666665, |
| "grad_norm": 0.8056347370147705, |
| "learning_rate": 0.00017127659574468085, |
| "loss": 0.38, |
| "step": 152 |
| }, |
| { |
| "epoch": 0.0204, |
| "grad_norm": 0.816634476184845, |
| "learning_rate": 0.00017021276595744682, |
| "loss": 0.4146, |
| "step": 153 |
| }, |
| { |
| "epoch": 0.020533333333333334, |
| "grad_norm": 0.8422130942344666, |
| "learning_rate": 0.00016914893617021274, |
| "loss": 0.3812, |
| "step": 154 |
| }, |
| { |
| "epoch": 0.020666666666666667, |
| "grad_norm": 0.8215208053588867, |
| "learning_rate": 0.0001680851063829787, |
| "loss": 0.3872, |
| "step": 155 |
| }, |
| { |
| "epoch": 0.0208, |
| "grad_norm": 0.8078241944313049, |
| "learning_rate": 0.00016702127659574465, |
| "loss": 0.4068, |
| "step": 156 |
| }, |
| { |
| "epoch": 0.020933333333333335, |
| "grad_norm": 0.7864189743995667, |
| "learning_rate": 0.00016595744680851062, |
| "loss": 0.4189, |
| "step": 157 |
| }, |
| { |
| "epoch": 0.021066666666666668, |
| "grad_norm": 0.7402704358100891, |
| "learning_rate": 0.00016489361702127657, |
| "loss": 0.3894, |
| "step": 158 |
| }, |
| { |
| "epoch": 0.0212, |
| "grad_norm": 0.7902686595916748, |
| "learning_rate": 0.00016382978723404254, |
| "loss": 0.4247, |
| "step": 159 |
| }, |
| { |
| "epoch": 0.021333333333333333, |
| "grad_norm": 0.7915481328964233, |
| "learning_rate": 0.00016276595744680849, |
| "loss": 0.414, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.021333333333333333, |
| "eval_loss": 0.5295315384864807, |
| "eval_runtime": 141.3596, |
| "eval_samples_per_second": 7.074, |
| "eval_steps_per_second": 0.884, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.021466666666666665, |
| "grad_norm": 0.7913756966590881, |
| "learning_rate": 0.00016170212765957446, |
| "loss": 0.434, |
| "step": 161 |
| }, |
| { |
| "epoch": 0.0216, |
| "grad_norm": 0.8419508934020996, |
| "learning_rate": 0.00016063829787234043, |
| "loss": 0.4085, |
| "step": 162 |
| }, |
| { |
| "epoch": 0.021733333333333334, |
| "grad_norm": 0.8285740613937378, |
| "learning_rate": 0.00015957446808510637, |
| "loss": 0.429, |
| "step": 163 |
| }, |
| { |
| "epoch": 0.021866666666666666, |
| "grad_norm": 0.7917773723602295, |
| "learning_rate": 0.00015851063829787235, |
| "loss": 0.3991, |
| "step": 164 |
| }, |
| { |
| "epoch": 0.022, |
| "grad_norm": 0.7547069787979126, |
| "learning_rate": 0.0001574468085106383, |
| "loss": 0.3922, |
| "step": 165 |
| }, |
| { |
| "epoch": 0.022133333333333335, |
| "grad_norm": 0.7833614349365234, |
| "learning_rate": 0.00015638297872340426, |
| "loss": 0.4045, |
| "step": 166 |
| }, |
| { |
| "epoch": 0.022266666666666667, |
| "grad_norm": 0.7098473310470581, |
| "learning_rate": 0.00015531914893617018, |
| "loss": 0.3612, |
| "step": 167 |
| }, |
| { |
| "epoch": 0.0224, |
| "grad_norm": 0.8009598851203918, |
| "learning_rate": 0.00015425531914893615, |
| "loss": 0.3941, |
| "step": 168 |
| }, |
| { |
| "epoch": 0.022533333333333332, |
| "grad_norm": 0.7647989392280579, |
| "learning_rate": 0.0001531914893617021, |
| "loss": 0.428, |
| "step": 169 |
| }, |
| { |
| "epoch": 0.02266666666666667, |
| "grad_norm": 0.7413218021392822, |
| "learning_rate": 0.00015212765957446807, |
| "loss": 0.4004, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.02266666666666667, |
| "eval_loss": 0.5258446335792542, |
| "eval_runtime": 141.6498, |
| "eval_samples_per_second": 7.06, |
| "eval_steps_per_second": 0.882, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.0228, |
| "grad_norm": 0.8982724547386169, |
| "learning_rate": 0.00015106382978723401, |
| "loss": 0.3904, |
| "step": 171 |
| }, |
| { |
| "epoch": 0.022933333333333333, |
| "grad_norm": 0.7986995577812195, |
| "learning_rate": 0.00015, |
| "loss": 0.395, |
| "step": 172 |
| }, |
| { |
| "epoch": 0.023066666666666666, |
| "grad_norm": 0.8277859687805176, |
| "learning_rate": 0.00014893617021276593, |
| "loss": 0.4046, |
| "step": 173 |
| }, |
| { |
| "epoch": 0.0232, |
| "grad_norm": 0.7860122323036194, |
| "learning_rate": 0.0001478723404255319, |
| "loss": 0.4062, |
| "step": 174 |
| }, |
| { |
| "epoch": 0.023333333333333334, |
| "grad_norm": 0.7145754098892212, |
| "learning_rate": 0.00014680851063829785, |
| "loss": 0.3646, |
| "step": 175 |
| }, |
| { |
| "epoch": 0.023466666666666667, |
| "grad_norm": 0.7535431385040283, |
| "learning_rate": 0.00014574468085106382, |
| "loss": 0.4218, |
| "step": 176 |
| }, |
| { |
| "epoch": 0.0236, |
| "grad_norm": 0.7451829314231873, |
| "learning_rate": 0.00014468085106382977, |
| "loss": 0.4317, |
| "step": 177 |
| }, |
| { |
| "epoch": 0.023733333333333332, |
| "grad_norm": 0.7648677229881287, |
| "learning_rate": 0.00014361702127659574, |
| "loss": 0.402, |
| "step": 178 |
| }, |
| { |
| "epoch": 0.023866666666666668, |
| "grad_norm": 0.7619218230247498, |
| "learning_rate": 0.00014255319148936168, |
| "loss": 0.3876, |
| "step": 179 |
| }, |
| { |
| "epoch": 0.024, |
| "grad_norm": 0.7667227983474731, |
| "learning_rate": 0.00014148936170212765, |
| "loss": 0.4272, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.024, |
| "eval_loss": 0.5196744203567505, |
| "eval_runtime": 141.2097, |
| "eval_samples_per_second": 7.082, |
| "eval_steps_per_second": 0.885, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.024133333333333333, |
| "grad_norm": 0.762640655040741, |
| "learning_rate": 0.0001404255319148936, |
| "loss": 0.3832, |
| "step": 181 |
| }, |
| { |
| "epoch": 0.024266666666666666, |
| "grad_norm": 0.7354644536972046, |
| "learning_rate": 0.00013936170212765957, |
| "loss": 0.3842, |
| "step": 182 |
| }, |
| { |
| "epoch": 0.0244, |
| "grad_norm": 0.7519205212593079, |
| "learning_rate": 0.00013829787234042552, |
| "loss": 0.3891, |
| "step": 183 |
| }, |
| { |
| "epoch": 0.024533333333333334, |
| "grad_norm": 0.7645637392997742, |
| "learning_rate": 0.0001372340425531915, |
| "loss": 0.4175, |
| "step": 184 |
| }, |
| { |
| "epoch": 0.024666666666666667, |
| "grad_norm": 0.7095506191253662, |
| "learning_rate": 0.00013617021276595743, |
| "loss": 0.3842, |
| "step": 185 |
| }, |
| { |
| "epoch": 0.0248, |
| "grad_norm": 0.7318341732025146, |
| "learning_rate": 0.00013510638297872338, |
| "loss": 0.403, |
| "step": 186 |
| }, |
| { |
| "epoch": 0.02493333333333333, |
| "grad_norm": 0.7447018623352051, |
| "learning_rate": 0.00013404255319148935, |
| "loss": 0.4024, |
| "step": 187 |
| }, |
| { |
| "epoch": 0.025066666666666668, |
| "grad_norm": 0.7415079474449158, |
| "learning_rate": 0.0001329787234042553, |
| "loss": 0.3893, |
| "step": 188 |
| }, |
| { |
| "epoch": 0.0252, |
| "grad_norm": 0.8024099469184875, |
| "learning_rate": 0.00013191489361702127, |
| "loss": 0.3919, |
| "step": 189 |
| }, |
| { |
| "epoch": 0.025333333333333333, |
| "grad_norm": 0.7455788254737854, |
| "learning_rate": 0.00013085106382978724, |
| "loss": 0.4039, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.025333333333333333, |
| "eval_loss": 0.5126989483833313, |
| "eval_runtime": 141.4808, |
| "eval_samples_per_second": 7.068, |
| "eval_steps_per_second": 0.884, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.025466666666666665, |
| "grad_norm": 0.7716648578643799, |
| "learning_rate": 0.00012978723404255318, |
| "loss": 0.4094, |
| "step": 191 |
| }, |
| { |
| "epoch": 0.0256, |
| "grad_norm": 0.7623326182365417, |
| "learning_rate": 0.00012872340425531913, |
| "loss": 0.4072, |
| "step": 192 |
| }, |
| { |
| "epoch": 0.025733333333333334, |
| "grad_norm": 0.7241936922073364, |
| "learning_rate": 0.0001276595744680851, |
| "loss": 0.4341, |
| "step": 193 |
| }, |
| { |
| "epoch": 0.025866666666666666, |
| "grad_norm": 0.7537694573402405, |
| "learning_rate": 0.00012659574468085104, |
| "loss": 0.4064, |
| "step": 194 |
| }, |
| { |
| "epoch": 0.026, |
| "grad_norm": 0.7874061465263367, |
| "learning_rate": 0.00012553191489361702, |
| "loss": 0.4092, |
| "step": 195 |
| }, |
| { |
| "epoch": 0.026133333333333335, |
| "grad_norm": 0.7491751909255981, |
| "learning_rate": 0.00012446808510638296, |
| "loss": 0.389, |
| "step": 196 |
| }, |
| { |
| "epoch": 0.026266666666666667, |
| "grad_norm": 0.709567666053772, |
| "learning_rate": 0.00012340425531914893, |
| "loss": 0.3829, |
| "step": 197 |
| }, |
| { |
| "epoch": 0.0264, |
| "grad_norm": 0.7054778933525085, |
| "learning_rate": 0.00012234042553191488, |
| "loss": 0.4149, |
| "step": 198 |
| }, |
| { |
| "epoch": 0.026533333333333332, |
| "grad_norm": 0.6678067445755005, |
| "learning_rate": 0.00012127659574468084, |
| "loss": 0.383, |
| "step": 199 |
| }, |
| { |
| "epoch": 0.02666666666666667, |
| "grad_norm": 0.7279874086380005, |
| "learning_rate": 0.00012021276595744681, |
| "loss": 0.4076, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.02666666666666667, |
| "eval_loss": 0.5089948177337646, |
| "eval_runtime": 141.5313, |
| "eval_samples_per_second": 7.066, |
| "eval_steps_per_second": 0.883, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.0268, |
| "grad_norm": 0.7242472171783447, |
| "learning_rate": 0.00011914893617021277, |
| "loss": 0.3952, |
| "step": 201 |
| }, |
| { |
| "epoch": 0.026933333333333333, |
| "grad_norm": 0.7404840588569641, |
| "learning_rate": 0.00011808510638297871, |
| "loss": 0.367, |
| "step": 202 |
| }, |
| { |
| "epoch": 0.027066666666666666, |
| "grad_norm": 0.6994010806083679, |
| "learning_rate": 0.00011702127659574467, |
| "loss": 0.3815, |
| "step": 203 |
| }, |
| { |
| "epoch": 0.0272, |
| "grad_norm": 0.6849843859672546, |
| "learning_rate": 0.00011595744680851063, |
| "loss": 0.363, |
| "step": 204 |
| }, |
| { |
| "epoch": 0.027333333333333334, |
| "grad_norm": 0.7548534274101257, |
| "learning_rate": 0.00011489361702127659, |
| "loss": 0.375, |
| "step": 205 |
| }, |
| { |
| "epoch": 0.027466666666666667, |
| "grad_norm": 0.7027921080589294, |
| "learning_rate": 0.00011382978723404255, |
| "loss": 0.3717, |
| "step": 206 |
| }, |
| { |
| "epoch": 0.0276, |
| "grad_norm": 0.7290288209915161, |
| "learning_rate": 0.00011276595744680849, |
| "loss": 0.4277, |
| "step": 207 |
| }, |
| { |
| "epoch": 0.027733333333333332, |
| "grad_norm": 0.7112368941307068, |
| "learning_rate": 0.00011170212765957445, |
| "loss": 0.3642, |
| "step": 208 |
| }, |
| { |
| "epoch": 0.027866666666666668, |
| "grad_norm": 0.7195504903793335, |
| "learning_rate": 0.00011063829787234041, |
| "loss": 0.4139, |
| "step": 209 |
| }, |
| { |
| "epoch": 0.028, |
| "grad_norm": 0.6694400310516357, |
| "learning_rate": 0.00010957446808510638, |
| "loss": 0.3889, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.028, |
| "eval_loss": 0.5049722194671631, |
| "eval_runtime": 141.3107, |
| "eval_samples_per_second": 7.077, |
| "eval_steps_per_second": 0.885, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.028133333333333333, |
| "grad_norm": 0.6607633233070374, |
| "learning_rate": 0.00010851063829787234, |
| "loss": 0.3657, |
| "step": 211 |
| }, |
| { |
| "epoch": 0.028266666666666666, |
| "grad_norm": 0.6796385645866394, |
| "learning_rate": 0.0001074468085106383, |
| "loss": 0.3956, |
| "step": 212 |
| }, |
| { |
| "epoch": 0.0284, |
| "grad_norm": 0.7247062921524048, |
| "learning_rate": 0.00010638297872340425, |
| "loss": 0.4537, |
| "step": 213 |
| }, |
| { |
| "epoch": 0.028533333333333334, |
| "grad_norm": 0.689423143863678, |
| "learning_rate": 0.0001053191489361702, |
| "loss": 0.3886, |
| "step": 214 |
| }, |
| { |
| "epoch": 0.028666666666666667, |
| "grad_norm": 0.7083090543746948, |
| "learning_rate": 0.00010425531914893616, |
| "loss": 0.4199, |
| "step": 215 |
| }, |
| { |
| "epoch": 0.0288, |
| "grad_norm": 0.6640324592590332, |
| "learning_rate": 0.00010319148936170212, |
| "loss": 0.3593, |
| "step": 216 |
| }, |
| { |
| "epoch": 0.028933333333333332, |
| "grad_norm": 0.6480628848075867, |
| "learning_rate": 0.00010212765957446807, |
| "loss": 0.4187, |
| "step": 217 |
| }, |
| { |
| "epoch": 0.029066666666666668, |
| "grad_norm": 0.6782264709472656, |
| "learning_rate": 0.00010106382978723403, |
| "loss": 0.3837, |
| "step": 218 |
| }, |
| { |
| "epoch": 0.0292, |
| "grad_norm": 0.6657284498214722, |
| "learning_rate": 9.999999999999999e-05, |
| "loss": 0.3868, |
| "step": 219 |
| }, |
| { |
| "epoch": 0.029333333333333333, |
| "grad_norm": 0.6578888893127441, |
| "learning_rate": 9.893617021276594e-05, |
| "loss": 0.4006, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.029333333333333333, |
| "eval_loss": 0.5006869435310364, |
| "eval_runtime": 141.649, |
| "eval_samples_per_second": 7.06, |
| "eval_steps_per_second": 0.882, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.029466666666666665, |
| "grad_norm": 0.6612751483917236, |
| "learning_rate": 9.787234042553191e-05, |
| "loss": 0.3903, |
| "step": 221 |
| }, |
| { |
| "epoch": 0.0296, |
| "grad_norm": 0.7227184176445007, |
| "learning_rate": 9.680851063829787e-05, |
| "loss": 0.3962, |
| "step": 222 |
| }, |
| { |
| "epoch": 0.029733333333333334, |
| "grad_norm": 0.6638945937156677, |
| "learning_rate": 9.574468085106382e-05, |
| "loss": 0.3968, |
| "step": 223 |
| }, |
| { |
| "epoch": 0.029866666666666666, |
| "grad_norm": 0.6724333167076111, |
| "learning_rate": 9.468085106382978e-05, |
| "loss": 0.3697, |
| "step": 224 |
| }, |
| { |
| "epoch": 0.03, |
| "grad_norm": 0.7041984796524048, |
| "learning_rate": 9.361702127659574e-05, |
| "loss": 0.4536, |
| "step": 225 |
| }, |
| { |
| "epoch": 0.030133333333333335, |
| "grad_norm": 0.6924453973770142, |
| "learning_rate": 9.25531914893617e-05, |
| "loss": 0.4517, |
| "step": 226 |
| }, |
| { |
| "epoch": 0.030266666666666667, |
| "grad_norm": 0.6449741125106812, |
| "learning_rate": 9.148936170212764e-05, |
| "loss": 0.3798, |
| "step": 227 |
| }, |
| { |
| "epoch": 0.0304, |
| "grad_norm": 0.6753547191619873, |
| "learning_rate": 9.04255319148936e-05, |
| "loss": 0.3996, |
| "step": 228 |
| }, |
| { |
| "epoch": 0.030533333333333332, |
| "grad_norm": 0.6793354153633118, |
| "learning_rate": 8.936170212765956e-05, |
| "loss": 0.3933, |
| "step": 229 |
| }, |
| { |
| "epoch": 0.030666666666666665, |
| "grad_norm": 0.6322203278541565, |
| "learning_rate": 8.829787234042552e-05, |
| "loss": 0.3866, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.030666666666666665, |
| "eval_loss": 0.49291712045669556, |
| "eval_runtime": 141.463, |
| "eval_samples_per_second": 7.069, |
| "eval_steps_per_second": 0.884, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.0308, |
| "grad_norm": 0.7175498008728027, |
| "learning_rate": 8.723404255319148e-05, |
| "loss": 0.4711, |
| "step": 231 |
| }, |
| { |
| "epoch": 0.030933333333333334, |
| "grad_norm": 0.6373987793922424, |
| "learning_rate": 8.617021276595745e-05, |
| "loss": 0.3951, |
| "step": 232 |
| }, |
| { |
| "epoch": 0.031066666666666666, |
| "grad_norm": 0.7253538966178894, |
| "learning_rate": 8.510638297872341e-05, |
| "loss": 0.4169, |
| "step": 233 |
| }, |
| { |
| "epoch": 0.0312, |
| "grad_norm": 0.6647905111312866, |
| "learning_rate": 8.404255319148935e-05, |
| "loss": 0.4409, |
| "step": 234 |
| }, |
| { |
| "epoch": 0.03133333333333333, |
| "grad_norm": 0.6949893832206726, |
| "learning_rate": 8.297872340425531e-05, |
| "loss": 0.4269, |
| "step": 235 |
| }, |
| { |
| "epoch": 0.031466666666666664, |
| "grad_norm": 0.7183098196983337, |
| "learning_rate": 8.191489361702127e-05, |
| "loss": 0.3793, |
| "step": 236 |
| }, |
| { |
| "epoch": 0.0316, |
| "grad_norm": 0.6919881105422974, |
| "learning_rate": 8.085106382978723e-05, |
| "loss": 0.3937, |
| "step": 237 |
| }, |
| { |
| "epoch": 0.031733333333333336, |
| "grad_norm": 0.6800768375396729, |
| "learning_rate": 7.978723404255319e-05, |
| "loss": 0.4026, |
| "step": 238 |
| }, |
| { |
| "epoch": 0.03186666666666667, |
| "grad_norm": 0.5793167352676392, |
| "learning_rate": 7.872340425531915e-05, |
| "loss": 0.374, |
| "step": 239 |
| }, |
| { |
| "epoch": 0.032, |
| "grad_norm": 0.6842488050460815, |
| "learning_rate": 7.765957446808509e-05, |
| "loss": 0.4289, |
| "step": 240 |
| }, |
| { |
| "epoch": 0.032, |
| "eval_loss": 0.4894670844078064, |
| "eval_runtime": 141.1428, |
| "eval_samples_per_second": 7.085, |
| "eval_steps_per_second": 0.886, |
| "step": 240 |
| }, |
| { |
| "epoch": 0.03213333333333333, |
| "grad_norm": 0.6346961855888367, |
| "learning_rate": 7.659574468085105e-05, |
| "loss": 0.4015, |
| "step": 241 |
| }, |
| { |
| "epoch": 0.032266666666666666, |
| "grad_norm": 0.6182055473327637, |
| "learning_rate": 7.553191489361701e-05, |
| "loss": 0.4137, |
| "step": 242 |
| }, |
| { |
| "epoch": 0.0324, |
| "grad_norm": 0.6297070384025574, |
| "learning_rate": 7.446808510638297e-05, |
| "loss": 0.3865, |
| "step": 243 |
| }, |
| { |
| "epoch": 0.03253333333333333, |
| "grad_norm": 0.6168206930160522, |
| "learning_rate": 7.340425531914892e-05, |
| "loss": 0.4146, |
| "step": 244 |
| }, |
| { |
| "epoch": 0.03266666666666666, |
| "grad_norm": 0.64501953125, |
| "learning_rate": 7.234042553191488e-05, |
| "loss": 0.3888, |
| "step": 245 |
| }, |
| { |
| "epoch": 0.0328, |
| "grad_norm": 0.6902901530265808, |
| "learning_rate": 7.127659574468084e-05, |
| "loss": 0.4126, |
| "step": 246 |
| }, |
| { |
| "epoch": 0.032933333333333335, |
| "grad_norm": 0.6351602077484131, |
| "learning_rate": 7.02127659574468e-05, |
| "loss": 0.3936, |
| "step": 247 |
| }, |
| { |
| "epoch": 0.03306666666666667, |
| "grad_norm": 0.6310396194458008, |
| "learning_rate": 6.914893617021276e-05, |
| "loss": 0.4001, |
| "step": 248 |
| }, |
| { |
| "epoch": 0.0332, |
| "grad_norm": 0.6404752135276794, |
| "learning_rate": 6.808510638297872e-05, |
| "loss": 0.4104, |
| "step": 249 |
| }, |
| { |
| "epoch": 0.03333333333333333, |
| "grad_norm": 0.6261141896247864, |
| "learning_rate": 6.702127659574467e-05, |
| "loss": 0.3674, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.03333333333333333, |
| "eval_loss": 0.48603081703186035, |
| "eval_runtime": 141.1873, |
| "eval_samples_per_second": 7.083, |
| "eval_steps_per_second": 0.885, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.033466666666666665, |
| "grad_norm": 0.6511746048927307, |
| "learning_rate": 6.595744680851063e-05, |
| "loss": 0.4128, |
| "step": 251 |
| }, |
| { |
| "epoch": 0.0336, |
| "grad_norm": 0.6165076494216919, |
| "learning_rate": 6.489361702127659e-05, |
| "loss": 0.3904, |
| "step": 252 |
| }, |
| { |
| "epoch": 0.03373333333333333, |
| "grad_norm": 0.6632899045944214, |
| "learning_rate": 6.382978723404255e-05, |
| "loss": 0.3914, |
| "step": 253 |
| }, |
| { |
| "epoch": 0.03386666666666667, |
| "grad_norm": 0.5832062363624573, |
| "learning_rate": 6.276595744680851e-05, |
| "loss": 0.3785, |
| "step": 254 |
| }, |
| { |
| "epoch": 0.034, |
| "grad_norm": 0.6393153071403503, |
| "learning_rate": 6.170212765957447e-05, |
| "loss": 0.3972, |
| "step": 255 |
| }, |
| { |
| "epoch": 0.034133333333333335, |
| "grad_norm": 0.6468214392662048, |
| "learning_rate": 6.063829787234042e-05, |
| "loss": 0.3942, |
| "step": 256 |
| }, |
| { |
| "epoch": 0.03426666666666667, |
| "grad_norm": 0.6431373953819275, |
| "learning_rate": 5.9574468085106384e-05, |
| "loss": 0.3949, |
| "step": 257 |
| }, |
| { |
| "epoch": 0.0344, |
| "grad_norm": 0.6360663771629333, |
| "learning_rate": 5.8510638297872335e-05, |
| "loss": 0.3923, |
| "step": 258 |
| }, |
| { |
| "epoch": 0.03453333333333333, |
| "grad_norm": 0.6813873648643494, |
| "learning_rate": 5.7446808510638294e-05, |
| "loss": 0.4474, |
| "step": 259 |
| }, |
| { |
| "epoch": 0.034666666666666665, |
| "grad_norm": 0.6415489912033081, |
| "learning_rate": 5.6382978723404245e-05, |
| "loss": 0.3644, |
| "step": 260 |
| }, |
| { |
| "epoch": 0.034666666666666665, |
| "eval_loss": 0.4838036298751831, |
| "eval_runtime": 141.3865, |
| "eval_samples_per_second": 7.073, |
| "eval_steps_per_second": 0.884, |
| "step": 260 |
| }, |
| { |
| "epoch": 0.0348, |
| "grad_norm": 0.6562638282775879, |
| "learning_rate": 5.5319148936170204e-05, |
| "loss": 0.4254, |
| "step": 261 |
| }, |
| { |
| "epoch": 0.03493333333333333, |
| "grad_norm": 0.6409335136413574, |
| "learning_rate": 5.425531914893617e-05, |
| "loss": 0.4295, |
| "step": 262 |
| }, |
| { |
| "epoch": 0.03506666666666667, |
| "grad_norm": 0.6701998710632324, |
| "learning_rate": 5.319148936170213e-05, |
| "loss": 0.4103, |
| "step": 263 |
| }, |
| { |
| "epoch": 0.0352, |
| "grad_norm": 0.6443625688552856, |
| "learning_rate": 5.212765957446808e-05, |
| "loss": 0.4208, |
| "step": 264 |
| }, |
| { |
| "epoch": 0.035333333333333335, |
| "grad_norm": 0.6580439209938049, |
| "learning_rate": 5.106382978723404e-05, |
| "loss": 0.3926, |
| "step": 265 |
| }, |
| { |
| "epoch": 0.03546666666666667, |
| "grad_norm": 0.6513085961341858, |
| "learning_rate": 4.9999999999999996e-05, |
| "loss": 0.3753, |
| "step": 266 |
| }, |
| { |
| "epoch": 0.0356, |
| "grad_norm": 0.61977618932724, |
| "learning_rate": 4.8936170212765954e-05, |
| "loss": 0.356, |
| "step": 267 |
| }, |
| { |
| "epoch": 0.03573333333333333, |
| "grad_norm": 0.6972789168357849, |
| "learning_rate": 4.787234042553191e-05, |
| "loss": 0.4154, |
| "step": 268 |
| }, |
| { |
| "epoch": 0.035866666666666665, |
| "grad_norm": 0.6055701375007629, |
| "learning_rate": 4.680851063829787e-05, |
| "loss": 0.3962, |
| "step": 269 |
| }, |
| { |
| "epoch": 0.036, |
| "grad_norm": 0.6328206062316895, |
| "learning_rate": 4.574468085106382e-05, |
| "loss": 0.3887, |
| "step": 270 |
| }, |
| { |
| "epoch": 0.036, |
| "eval_loss": 0.4804232716560364, |
| "eval_runtime": 141.7017, |
| "eval_samples_per_second": 7.057, |
| "eval_steps_per_second": 0.882, |
| "step": 270 |
| }, |
| { |
| "epoch": 0.03613333333333334, |
| "grad_norm": 0.61911541223526, |
| "learning_rate": 4.468085106382978e-05, |
| "loss": 0.4025, |
| "step": 271 |
| }, |
| { |
| "epoch": 0.03626666666666667, |
| "grad_norm": 0.6735214591026306, |
| "learning_rate": 4.361702127659574e-05, |
| "loss": 0.3854, |
| "step": 272 |
| }, |
| { |
| "epoch": 0.0364, |
| "grad_norm": 0.7260206341743469, |
| "learning_rate": 4.2553191489361704e-05, |
| "loss": 0.5178, |
| "step": 273 |
| }, |
| { |
| "epoch": 0.036533333333333334, |
| "grad_norm": 0.641946017742157, |
| "learning_rate": 4.1489361702127656e-05, |
| "loss": 0.394, |
| "step": 274 |
| }, |
| { |
| "epoch": 0.03666666666666667, |
| "grad_norm": 0.6131489872932434, |
| "learning_rate": 4.0425531914893614e-05, |
| "loss": 0.4938, |
| "step": 275 |
| }, |
| { |
| "epoch": 0.0368, |
| "grad_norm": 0.6072583198547363, |
| "learning_rate": 3.936170212765957e-05, |
| "loss": 0.3852, |
| "step": 276 |
| }, |
| { |
| "epoch": 0.03693333333333333, |
| "grad_norm": 0.5903816819190979, |
| "learning_rate": 3.8297872340425525e-05, |
| "loss": 0.383, |
| "step": 277 |
| }, |
| { |
| "epoch": 0.037066666666666664, |
| "grad_norm": 0.6206436157226562, |
| "learning_rate": 3.723404255319148e-05, |
| "loss": 0.3758, |
| "step": 278 |
| }, |
| { |
| "epoch": 0.0372, |
| "grad_norm": 0.6025145649909973, |
| "learning_rate": 3.617021276595744e-05, |
| "loss": 0.3832, |
| "step": 279 |
| }, |
| { |
| "epoch": 0.037333333333333336, |
| "grad_norm": 0.6661312580108643, |
| "learning_rate": 3.51063829787234e-05, |
| "loss": 0.4168, |
| "step": 280 |
| }, |
| { |
| "epoch": 0.037333333333333336, |
| "eval_loss": 0.4782504141330719, |
| "eval_runtime": 141.7096, |
| "eval_samples_per_second": 7.057, |
| "eval_steps_per_second": 0.882, |
| "step": 280 |
| }, |
| { |
| "epoch": 0.03746666666666667, |
| "grad_norm": 0.6313883066177368, |
| "learning_rate": 3.404255319148936e-05, |
| "loss": 0.4176, |
| "step": 281 |
| }, |
| { |
| "epoch": 0.0376, |
| "grad_norm": 0.5728066563606262, |
| "learning_rate": 3.2978723404255317e-05, |
| "loss": 0.3487, |
| "step": 282 |
| }, |
| { |
| "epoch": 0.037733333333333334, |
| "grad_norm": 0.6167532205581665, |
| "learning_rate": 3.1914893617021275e-05, |
| "loss": 0.398, |
| "step": 283 |
| }, |
| { |
| "epoch": 0.037866666666666667, |
| "grad_norm": 0.6028872728347778, |
| "learning_rate": 3.085106382978723e-05, |
| "loss": 0.3588, |
| "step": 284 |
| }, |
| { |
| "epoch": 0.038, |
| "grad_norm": 0.6013098955154419, |
| "learning_rate": 2.9787234042553192e-05, |
| "loss": 0.4009, |
| "step": 285 |
| }, |
| { |
| "epoch": 0.03813333333333333, |
| "grad_norm": 0.6228728294372559, |
| "learning_rate": 2.8723404255319147e-05, |
| "loss": 0.3984, |
| "step": 286 |
| }, |
| { |
| "epoch": 0.038266666666666664, |
| "grad_norm": 0.6401664018630981, |
| "learning_rate": 2.7659574468085102e-05, |
| "loss": 0.429, |
| "step": 287 |
| }, |
| { |
| "epoch": 0.0384, |
| "grad_norm": 0.6373335719108582, |
| "learning_rate": 2.6595744680851064e-05, |
| "loss": 0.384, |
| "step": 288 |
| }, |
| { |
| "epoch": 0.038533333333333336, |
| "grad_norm": 0.6099696755409241, |
| "learning_rate": 2.553191489361702e-05, |
| "loss": 0.4116, |
| "step": 289 |
| }, |
| { |
| "epoch": 0.03866666666666667, |
| "grad_norm": 0.6114339828491211, |
| "learning_rate": 2.4468085106382977e-05, |
| "loss": 0.3991, |
| "step": 290 |
| }, |
| { |
| "epoch": 0.03866666666666667, |
| "eval_loss": 0.47486981749534607, |
| "eval_runtime": 141.6625, |
| "eval_samples_per_second": 7.059, |
| "eval_steps_per_second": 0.882, |
| "step": 290 |
| }, |
| { |
| "epoch": 0.0388, |
| "grad_norm": 0.6080420017242432, |
| "learning_rate": 2.3404255319148935e-05, |
| "loss": 0.377, |
| "step": 291 |
| }, |
| { |
| "epoch": 0.038933333333333334, |
| "grad_norm": 0.5992590188980103, |
| "learning_rate": 2.234042553191489e-05, |
| "loss": 0.3683, |
| "step": 292 |
| }, |
| { |
| "epoch": 0.039066666666666666, |
| "grad_norm": 0.6151382327079773, |
| "learning_rate": 2.1276595744680852e-05, |
| "loss": 0.3638, |
| "step": 293 |
| }, |
| { |
| "epoch": 0.0392, |
| "grad_norm": 0.5946884751319885, |
| "learning_rate": 2.0212765957446807e-05, |
| "loss": 0.3723, |
| "step": 294 |
| }, |
| { |
| "epoch": 0.03933333333333333, |
| "grad_norm": 0.6242040991783142, |
| "learning_rate": 1.9148936170212762e-05, |
| "loss": 0.4251, |
| "step": 295 |
| }, |
| { |
| "epoch": 0.039466666666666664, |
| "grad_norm": 0.6351944804191589, |
| "learning_rate": 1.808510638297872e-05, |
| "loss": 0.3701, |
| "step": 296 |
| }, |
| { |
| "epoch": 0.0396, |
| "grad_norm": 0.6054936051368713, |
| "learning_rate": 1.702127659574468e-05, |
| "loss": 0.3834, |
| "step": 297 |
| }, |
| { |
| "epoch": 0.039733333333333336, |
| "grad_norm": 0.6164801716804504, |
| "learning_rate": 1.5957446808510637e-05, |
| "loss": 0.3664, |
| "step": 298 |
| }, |
| { |
| "epoch": 0.03986666666666667, |
| "grad_norm": 0.5850508809089661, |
| "learning_rate": 1.4893617021276596e-05, |
| "loss": 0.3863, |
| "step": 299 |
| }, |
| { |
| "epoch": 0.04, |
| "grad_norm": 0.6170298457145691, |
| "learning_rate": 1.3829787234042551e-05, |
| "loss": 0.4288, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.04, |
| "eval_loss": 0.47352975606918335, |
| "eval_runtime": 141.5274, |
| "eval_samples_per_second": 7.066, |
| "eval_steps_per_second": 0.883, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.04013333333333333, |
| "grad_norm": 0.6291190981864929, |
| "learning_rate": 1.276595744680851e-05, |
| "loss": 0.4353, |
| "step": 301 |
| }, |
| { |
| "epoch": 0.040266666666666666, |
| "grad_norm": 0.6266964077949524, |
| "learning_rate": 1.1702127659574468e-05, |
| "loss": 0.3897, |
| "step": 302 |
| }, |
| { |
| "epoch": 0.0404, |
| "grad_norm": 0.552639901638031, |
| "learning_rate": 1.0638297872340426e-05, |
| "loss": 0.3519, |
| "step": 303 |
| }, |
| { |
| "epoch": 0.04053333333333333, |
| "grad_norm": 0.6493646502494812, |
| "learning_rate": 9.574468085106381e-06, |
| "loss": 0.3921, |
| "step": 304 |
| }, |
| { |
| "epoch": 0.04066666666666666, |
| "grad_norm": 0.6215342879295349, |
| "learning_rate": 8.51063829787234e-06, |
| "loss": 0.3865, |
| "step": 305 |
| }, |
| { |
| "epoch": 0.0408, |
| "grad_norm": 0.6077576875686646, |
| "learning_rate": 7.446808510638298e-06, |
| "loss": 0.3867, |
| "step": 306 |
| }, |
| { |
| "epoch": 0.040933333333333335, |
| "grad_norm": 0.6194751262664795, |
| "learning_rate": 6.382978723404255e-06, |
| "loss": 0.3794, |
| "step": 307 |
| }, |
| { |
| "epoch": 0.04106666666666667, |
| "grad_norm": 0.6333131790161133, |
| "learning_rate": 5.319148936170213e-06, |
| "loss": 0.4333, |
| "step": 308 |
| }, |
| { |
| "epoch": 0.0412, |
| "grad_norm": 0.6461464762687683, |
| "learning_rate": 4.25531914893617e-06, |
| "loss": 0.3933, |
| "step": 309 |
| }, |
| { |
| "epoch": 0.04133333333333333, |
| "grad_norm": 0.6700551509857178, |
| "learning_rate": 3.1914893617021273e-06, |
| "loss": 0.3856, |
| "step": 310 |
| }, |
| { |
| "epoch": 0.04133333333333333, |
| "eval_loss": 0.47274792194366455, |
| "eval_runtime": 141.5862, |
| "eval_samples_per_second": 7.063, |
| "eval_steps_per_second": 0.883, |
| "step": 310 |
| }, |
| { |
| "epoch": 0.041466666666666666, |
| "grad_norm": 0.5907768607139587, |
| "learning_rate": 2.127659574468085e-06, |
| "loss": 0.4333, |
| "step": 311 |
| }, |
| { |
| "epoch": 0.0416, |
| "grad_norm": 0.5912094116210938, |
| "learning_rate": 1.0638297872340424e-06, |
| "loss": 0.3698, |
| "step": 312 |
| }, |
| { |
| "epoch": 0.04173333333333333, |
| "grad_norm": 0.5533092021942139, |
| "learning_rate": 0.0, |
| "loss": 0.355, |
| "step": 313 |
| } |
| ], |
| "logging_steps": 1, |
| "max_steps": 313, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 1, |
| "save_steps": 50, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": true |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 7.623999156799734e+17, |
| "train_batch_size": 12, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|