| { |
| "best_global_step": 9375, |
| "best_metric": 0.9120535714285715, |
| "best_model_checkpoint": "./best_indobert/checkpoint-9375", |
| "epoch": 5.0, |
| "eval_steps": 500, |
| "global_step": 9375, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.02666666666666667, |
| "grad_norm": 688269.25, |
| "learning_rate": 1.9895466666666666e-05, |
| "loss": 1.2242, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.05333333333333334, |
| "grad_norm": 261862.046875, |
| "learning_rate": 1.9788800000000003e-05, |
| "loss": 0.4972, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.08, |
| "grad_norm": 41260.97265625, |
| "learning_rate": 1.9682133333333336e-05, |
| "loss": 0.309, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.10666666666666667, |
| "grad_norm": 251205.625, |
| "learning_rate": 1.957546666666667e-05, |
| "loss": 0.275, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 249921.578125, |
| "learning_rate": 1.9468800000000002e-05, |
| "loss": 0.2267, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.16, |
| "grad_norm": 370673.46875, |
| "learning_rate": 1.9362133333333336e-05, |
| "loss": 0.1926, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.18666666666666668, |
| "grad_norm": 180258.5625, |
| "learning_rate": 1.925546666666667e-05, |
| "loss": 0.1713, |
| "step": 350 |
| }, |
| { |
| "epoch": 0.21333333333333335, |
| "grad_norm": 132052.625, |
| "learning_rate": 1.9148800000000002e-05, |
| "loss": 0.1956, |
| "step": 400 |
| }, |
| { |
| "epoch": 0.24, |
| "grad_norm": 751354.4375, |
| "learning_rate": 1.9042133333333335e-05, |
| "loss": 0.1961, |
| "step": 450 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 210308.953125, |
| "learning_rate": 1.893546666666667e-05, |
| "loss": 0.1369, |
| "step": 500 |
| }, |
| { |
| "epoch": 0.29333333333333333, |
| "grad_norm": 337020.65625, |
| "learning_rate": 1.8828800000000002e-05, |
| "loss": 0.1534, |
| "step": 550 |
| }, |
| { |
| "epoch": 0.32, |
| "grad_norm": 275327.15625, |
| "learning_rate": 1.8722133333333335e-05, |
| "loss": 0.1584, |
| "step": 600 |
| }, |
| { |
| "epoch": 0.3466666666666667, |
| "grad_norm": 1131599.25, |
| "learning_rate": 1.8615466666666668e-05, |
| "loss": 0.1578, |
| "step": 650 |
| }, |
| { |
| "epoch": 0.37333333333333335, |
| "grad_norm": 207025.890625, |
| "learning_rate": 1.85088e-05, |
| "loss": 0.1519, |
| "step": 700 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 265507.46875, |
| "learning_rate": 1.8402133333333335e-05, |
| "loss": 0.1205, |
| "step": 750 |
| }, |
| { |
| "epoch": 0.4266666666666667, |
| "grad_norm": 195805.71875, |
| "learning_rate": 1.8295466666666668e-05, |
| "loss": 0.1387, |
| "step": 800 |
| }, |
| { |
| "epoch": 0.4533333333333333, |
| "grad_norm": 91437.3359375, |
| "learning_rate": 1.81888e-05, |
| "loss": 0.1338, |
| "step": 850 |
| }, |
| { |
| "epoch": 0.48, |
| "grad_norm": 236571.71875, |
| "learning_rate": 1.8082133333333334e-05, |
| "loss": 0.0898, |
| "step": 900 |
| }, |
| { |
| "epoch": 0.5066666666666667, |
| "grad_norm": 114882.0, |
| "learning_rate": 1.7975466666666668e-05, |
| "loss": 0.1089, |
| "step": 950 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 273305.40625, |
| "learning_rate": 1.78688e-05, |
| "loss": 0.1145, |
| "step": 1000 |
| }, |
| { |
| "epoch": 0.56, |
| "grad_norm": 111810.015625, |
| "learning_rate": 1.7762133333333334e-05, |
| "loss": 0.1354, |
| "step": 1050 |
| }, |
| { |
| "epoch": 0.5866666666666667, |
| "grad_norm": 3225.035400390625, |
| "learning_rate": 1.7655466666666667e-05, |
| "loss": 0.1097, |
| "step": 1100 |
| }, |
| { |
| "epoch": 0.6133333333333333, |
| "grad_norm": 20396.486328125, |
| "learning_rate": 1.75488e-05, |
| "loss": 0.121, |
| "step": 1150 |
| }, |
| { |
| "epoch": 0.64, |
| "grad_norm": 59558.78515625, |
| "learning_rate": 1.7442133333333337e-05, |
| "loss": 0.1269, |
| "step": 1200 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 66966.328125, |
| "learning_rate": 1.7335466666666667e-05, |
| "loss": 0.1205, |
| "step": 1250 |
| }, |
| { |
| "epoch": 0.6933333333333334, |
| "grad_norm": 745578.0, |
| "learning_rate": 1.72288e-05, |
| "loss": 0.1062, |
| "step": 1300 |
| }, |
| { |
| "epoch": 0.72, |
| "grad_norm": 563620.3125, |
| "learning_rate": 1.7122133333333337e-05, |
| "loss": 0.1187, |
| "step": 1350 |
| }, |
| { |
| "epoch": 0.7466666666666667, |
| "grad_norm": 146078.578125, |
| "learning_rate": 1.701546666666667e-05, |
| "loss": 0.1333, |
| "step": 1400 |
| }, |
| { |
| "epoch": 0.7733333333333333, |
| "grad_norm": 160395.140625, |
| "learning_rate": 1.69088e-05, |
| "loss": 0.1187, |
| "step": 1450 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 158077.296875, |
| "learning_rate": 1.6802133333333336e-05, |
| "loss": 0.1056, |
| "step": 1500 |
| }, |
| { |
| "epoch": 0.8266666666666667, |
| "grad_norm": 791042.125, |
| "learning_rate": 1.669546666666667e-05, |
| "loss": 0.1116, |
| "step": 1550 |
| }, |
| { |
| "epoch": 0.8533333333333334, |
| "grad_norm": 69034.3359375, |
| "learning_rate": 1.65888e-05, |
| "loss": 0.1168, |
| "step": 1600 |
| }, |
| { |
| "epoch": 0.88, |
| "grad_norm": 677101.0625, |
| "learning_rate": 1.6482133333333336e-05, |
| "loss": 0.098, |
| "step": 1650 |
| }, |
| { |
| "epoch": 0.9066666666666666, |
| "grad_norm": 38763.69921875, |
| "learning_rate": 1.637546666666667e-05, |
| "loss": 0.1193, |
| "step": 1700 |
| }, |
| { |
| "epoch": 0.9333333333333333, |
| "grad_norm": 489175.5625, |
| "learning_rate": 1.6268800000000003e-05, |
| "loss": 0.1311, |
| "step": 1750 |
| }, |
| { |
| "epoch": 0.96, |
| "grad_norm": 24677.224609375, |
| "learning_rate": 1.6162133333333336e-05, |
| "loss": 0.1012, |
| "step": 1800 |
| }, |
| { |
| "epoch": 0.9866666666666667, |
| "grad_norm": 1897.02587890625, |
| "learning_rate": 1.605546666666667e-05, |
| "loss": 0.1114, |
| "step": 1850 |
| }, |
| { |
| "epoch": 1.0, |
| "eval_accuracy": 0.9111607142857143, |
| "eval_loss": 0.2978515923023224, |
| "eval_runtime": 11.5594, |
| "eval_samples_per_second": 193.781, |
| "eval_steps_per_second": 6.056, |
| "step": 1875 |
| }, |
| { |
| "epoch": 1.0133333333333334, |
| "grad_norm": 259747.03125, |
| "learning_rate": 1.5948800000000002e-05, |
| "loss": 0.1018, |
| "step": 1900 |
| }, |
| { |
| "epoch": 1.04, |
| "grad_norm": 417155.46875, |
| "learning_rate": 1.5842133333333335e-05, |
| "loss": 0.0879, |
| "step": 1950 |
| }, |
| { |
| "epoch": 1.0666666666666667, |
| "grad_norm": 142426.296875, |
| "learning_rate": 1.573546666666667e-05, |
| "loss": 0.0921, |
| "step": 2000 |
| }, |
| { |
| "epoch": 1.0933333333333333, |
| "grad_norm": 10600.2626953125, |
| "learning_rate": 1.5628800000000002e-05, |
| "loss": 0.1348, |
| "step": 2050 |
| }, |
| { |
| "epoch": 1.12, |
| "grad_norm": 908442.875, |
| "learning_rate": 1.5522133333333335e-05, |
| "loss": 0.1319, |
| "step": 2100 |
| }, |
| { |
| "epoch": 1.1466666666666667, |
| "grad_norm": 1109.2340087890625, |
| "learning_rate": 1.541546666666667e-05, |
| "loss": 0.1181, |
| "step": 2150 |
| }, |
| { |
| "epoch": 1.1733333333333333, |
| "grad_norm": 343886.15625, |
| "learning_rate": 1.53088e-05, |
| "loss": 0.1568, |
| "step": 2200 |
| }, |
| { |
| "epoch": 1.2, |
| "grad_norm": 705.5877685546875, |
| "learning_rate": 1.5202133333333335e-05, |
| "loss": 0.0922, |
| "step": 2250 |
| }, |
| { |
| "epoch": 1.2266666666666666, |
| "grad_norm": 785678.8125, |
| "learning_rate": 1.5095466666666666e-05, |
| "loss": 0.1788, |
| "step": 2300 |
| }, |
| { |
| "epoch": 1.2533333333333334, |
| "grad_norm": 17.769765853881836, |
| "learning_rate": 1.4988800000000001e-05, |
| "loss": 0.1565, |
| "step": 2350 |
| }, |
| { |
| "epoch": 1.28, |
| "grad_norm": 482701.5625, |
| "learning_rate": 1.4882133333333334e-05, |
| "loss": 0.1313, |
| "step": 2400 |
| }, |
| { |
| "epoch": 1.3066666666666666, |
| "grad_norm": 8.33273983001709, |
| "learning_rate": 1.4775466666666668e-05, |
| "loss": 0.2037, |
| "step": 2450 |
| }, |
| { |
| "epoch": 1.3333333333333333, |
| "grad_norm": 5540.5029296875, |
| "learning_rate": 1.4668800000000001e-05, |
| "loss": 0.1736, |
| "step": 2500 |
| }, |
| { |
| "epoch": 1.3599999999999999, |
| "grad_norm": 4414895.5, |
| "learning_rate": 1.4562133333333334e-05, |
| "loss": 0.1716, |
| "step": 2550 |
| }, |
| { |
| "epoch": 1.3866666666666667, |
| "grad_norm": 516291.65625, |
| "learning_rate": 1.4455466666666669e-05, |
| "loss": 0.2212, |
| "step": 2600 |
| }, |
| { |
| "epoch": 1.4133333333333333, |
| "grad_norm": 4.569498538970947, |
| "learning_rate": 1.43488e-05, |
| "loss": 0.1377, |
| "step": 2650 |
| }, |
| { |
| "epoch": 1.44, |
| "grad_norm": 19.338191986083984, |
| "learning_rate": 1.4242133333333334e-05, |
| "loss": 0.2156, |
| "step": 2700 |
| }, |
| { |
| "epoch": 1.4666666666666668, |
| "grad_norm": 2.6600797176361084, |
| "learning_rate": 1.4135466666666669e-05, |
| "loss": 0.1839, |
| "step": 2750 |
| }, |
| { |
| "epoch": 1.4933333333333334, |
| "grad_norm": 1837290.0, |
| "learning_rate": 1.40288e-05, |
| "loss": 0.2909, |
| "step": 2800 |
| }, |
| { |
| "epoch": 1.52, |
| "grad_norm": 85438.71875, |
| "learning_rate": 1.3922133333333333e-05, |
| "loss": 0.2932, |
| "step": 2850 |
| }, |
| { |
| "epoch": 1.5466666666666666, |
| "grad_norm": 0.8132880926132202, |
| "learning_rate": 1.3815466666666668e-05, |
| "loss": 0.2069, |
| "step": 2900 |
| }, |
| { |
| "epoch": 1.5733333333333333, |
| "grad_norm": 1823927.125, |
| "learning_rate": 1.3708800000000002e-05, |
| "loss": 0.2018, |
| "step": 2950 |
| }, |
| { |
| "epoch": 1.6, |
| "grad_norm": 2.3324615955352783, |
| "learning_rate": 1.3602133333333333e-05, |
| "loss": 0.1555, |
| "step": 3000 |
| }, |
| { |
| "epoch": 1.6266666666666667, |
| "grad_norm": 0.29838573932647705, |
| "learning_rate": 1.3495466666666668e-05, |
| "loss": 0.2263, |
| "step": 3050 |
| }, |
| { |
| "epoch": 1.6533333333333333, |
| "grad_norm": 2248102.25, |
| "learning_rate": 1.3388800000000001e-05, |
| "loss": 0.2053, |
| "step": 3100 |
| }, |
| { |
| "epoch": 1.6800000000000002, |
| "grad_norm": 1505035.25, |
| "learning_rate": 1.3282133333333333e-05, |
| "loss": 0.1969, |
| "step": 3150 |
| }, |
| { |
| "epoch": 1.7066666666666666, |
| "grad_norm": 2013236.875, |
| "learning_rate": 1.3175466666666668e-05, |
| "loss": 0.2419, |
| "step": 3200 |
| }, |
| { |
| "epoch": 1.7333333333333334, |
| "grad_norm": 86133.765625, |
| "learning_rate": 1.3068800000000001e-05, |
| "loss": 0.2088, |
| "step": 3250 |
| }, |
| { |
| "epoch": 1.76, |
| "grad_norm": 231317.140625, |
| "learning_rate": 1.2962133333333336e-05, |
| "loss": 0.2395, |
| "step": 3300 |
| }, |
| { |
| "epoch": 1.7866666666666666, |
| "grad_norm": 0.7393524646759033, |
| "learning_rate": 1.2855466666666667e-05, |
| "loss": 0.221, |
| "step": 3350 |
| }, |
| { |
| "epoch": 1.8133333333333335, |
| "grad_norm": 0.18327458202838898, |
| "learning_rate": 1.27488e-05, |
| "loss": 0.2346, |
| "step": 3400 |
| }, |
| { |
| "epoch": 1.8399999999999999, |
| "grad_norm": 1187509.0, |
| "learning_rate": 1.2642133333333336e-05, |
| "loss": 0.1978, |
| "step": 3450 |
| }, |
| { |
| "epoch": 1.8666666666666667, |
| "grad_norm": 3261294.25, |
| "learning_rate": 1.2535466666666667e-05, |
| "loss": 0.2487, |
| "step": 3500 |
| }, |
| { |
| "epoch": 1.8933333333333333, |
| "grad_norm": 117.13390350341797, |
| "learning_rate": 1.24288e-05, |
| "loss": 0.1753, |
| "step": 3550 |
| }, |
| { |
| "epoch": 1.92, |
| "grad_norm": 3768869.25, |
| "learning_rate": 1.2322133333333335e-05, |
| "loss": 0.2091, |
| "step": 3600 |
| }, |
| { |
| "epoch": 1.9466666666666668, |
| "grad_norm": 0.8744126558303833, |
| "learning_rate": 1.2215466666666667e-05, |
| "loss": 0.2653, |
| "step": 3650 |
| }, |
| { |
| "epoch": 1.9733333333333334, |
| "grad_norm": 0.9841348528862, |
| "learning_rate": 1.21088e-05, |
| "loss": 0.1482, |
| "step": 3700 |
| }, |
| { |
| "epoch": 2.0, |
| "grad_norm": 0.5082505941390991, |
| "learning_rate": 1.2002133333333335e-05, |
| "loss": 0.1627, |
| "step": 3750 |
| }, |
| { |
| "epoch": 2.0, |
| "eval_accuracy": 0.9049107142857142, |
| "eval_loss": 1.1262218952178955, |
| "eval_runtime": 11.5275, |
| "eval_samples_per_second": 194.318, |
| "eval_steps_per_second": 6.072, |
| "step": 3750 |
| }, |
| { |
| "epoch": 2.026666666666667, |
| "grad_norm": 0.31380411982536316, |
| "learning_rate": 1.1895466666666668e-05, |
| "loss": 0.1433, |
| "step": 3800 |
| }, |
| { |
| "epoch": 2.0533333333333332, |
| "grad_norm": 0.11035101860761642, |
| "learning_rate": 1.17888e-05, |
| "loss": 0.1243, |
| "step": 3850 |
| }, |
| { |
| "epoch": 2.08, |
| "grad_norm": 4203.2548828125, |
| "learning_rate": 1.1682133333333335e-05, |
| "loss": 0.0973, |
| "step": 3900 |
| }, |
| { |
| "epoch": 2.1066666666666665, |
| "grad_norm": 0.5187481045722961, |
| "learning_rate": 1.1575466666666668e-05, |
| "loss": 0.064, |
| "step": 3950 |
| }, |
| { |
| "epoch": 2.1333333333333333, |
| "grad_norm": 0.06760769337415695, |
| "learning_rate": 1.14688e-05, |
| "loss": 0.1082, |
| "step": 4000 |
| }, |
| { |
| "epoch": 2.16, |
| "grad_norm": 0.08701213449239731, |
| "learning_rate": 1.1362133333333334e-05, |
| "loss": 0.0888, |
| "step": 4050 |
| }, |
| { |
| "epoch": 2.1866666666666665, |
| "grad_norm": 1.727709412574768, |
| "learning_rate": 1.1255466666666668e-05, |
| "loss": 0.1686, |
| "step": 4100 |
| }, |
| { |
| "epoch": 2.2133333333333334, |
| "grad_norm": 91633.3125, |
| "learning_rate": 1.1148800000000002e-05, |
| "loss": 0.1446, |
| "step": 4150 |
| }, |
| { |
| "epoch": 2.24, |
| "grad_norm": 0.05908648669719696, |
| "learning_rate": 1.1042133333333334e-05, |
| "loss": 0.179, |
| "step": 4200 |
| }, |
| { |
| "epoch": 2.2666666666666666, |
| "grad_norm": 0.09487118571996689, |
| "learning_rate": 1.0935466666666667e-05, |
| "loss": 0.1098, |
| "step": 4250 |
| }, |
| { |
| "epoch": 2.2933333333333334, |
| "grad_norm": 0.4354028105735779, |
| "learning_rate": 1.0828800000000002e-05, |
| "loss": 0.1291, |
| "step": 4300 |
| }, |
| { |
| "epoch": 2.32, |
| "grad_norm": 0.10301405191421509, |
| "learning_rate": 1.0722133333333334e-05, |
| "loss": 0.113, |
| "step": 4350 |
| }, |
| { |
| "epoch": 2.3466666666666667, |
| "grad_norm": 3344570.5, |
| "learning_rate": 1.0615466666666667e-05, |
| "loss": 0.1912, |
| "step": 4400 |
| }, |
| { |
| "epoch": 2.3733333333333335, |
| "grad_norm": 1185.23486328125, |
| "learning_rate": 1.0508800000000002e-05, |
| "loss": 0.1203, |
| "step": 4450 |
| }, |
| { |
| "epoch": 2.4, |
| "grad_norm": 8125336.5, |
| "learning_rate": 1.0402133333333335e-05, |
| "loss": 0.135, |
| "step": 4500 |
| }, |
| { |
| "epoch": 2.4266666666666667, |
| "grad_norm": 0.14336757361888885, |
| "learning_rate": 1.0295466666666667e-05, |
| "loss": 0.1656, |
| "step": 4550 |
| }, |
| { |
| "epoch": 2.453333333333333, |
| "grad_norm": 1.868530035018921, |
| "learning_rate": 1.0188800000000001e-05, |
| "loss": 0.2278, |
| "step": 4600 |
| }, |
| { |
| "epoch": 2.48, |
| "grad_norm": 2035748.5, |
| "learning_rate": 1.0082133333333335e-05, |
| "loss": 0.0952, |
| "step": 4650 |
| }, |
| { |
| "epoch": 2.506666666666667, |
| "grad_norm": 0.1757928878068924, |
| "learning_rate": 9.975466666666668e-06, |
| "loss": 0.0865, |
| "step": 4700 |
| }, |
| { |
| "epoch": 2.533333333333333, |
| "grad_norm": 0.13539496064186096, |
| "learning_rate": 9.868800000000001e-06, |
| "loss": 0.1566, |
| "step": 4750 |
| }, |
| { |
| "epoch": 2.56, |
| "grad_norm": 0.8924374580383301, |
| "learning_rate": 9.762133333333334e-06, |
| "loss": 0.0909, |
| "step": 4800 |
| }, |
| { |
| "epoch": 2.586666666666667, |
| "grad_norm": 0.13045360147953033, |
| "learning_rate": 9.655466666666668e-06, |
| "loss": 0.2142, |
| "step": 4850 |
| }, |
| { |
| "epoch": 2.6133333333333333, |
| "grad_norm": 0.09316132217645645, |
| "learning_rate": 9.5488e-06, |
| "loss": 0.1176, |
| "step": 4900 |
| }, |
| { |
| "epoch": 2.64, |
| "grad_norm": 0.37193986773490906, |
| "learning_rate": 9.442133333333334e-06, |
| "loss": 0.0952, |
| "step": 4950 |
| }, |
| { |
| "epoch": 2.6666666666666665, |
| "grad_norm": 0.09222503751516342, |
| "learning_rate": 9.335466666666667e-06, |
| "loss": 0.1341, |
| "step": 5000 |
| }, |
| { |
| "epoch": 2.6933333333333334, |
| "grad_norm": 0.049721408635377884, |
| "learning_rate": 9.2288e-06, |
| "loss": 0.136, |
| "step": 5050 |
| }, |
| { |
| "epoch": 2.7199999999999998, |
| "grad_norm": 16.08073616027832, |
| "learning_rate": 9.122133333333334e-06, |
| "loss": 0.1297, |
| "step": 5100 |
| }, |
| { |
| "epoch": 2.7466666666666666, |
| "grad_norm": 734384.3125, |
| "learning_rate": 9.015466666666669e-06, |
| "loss": 0.1193, |
| "step": 5150 |
| }, |
| { |
| "epoch": 2.7733333333333334, |
| "grad_norm": 0.14034302532672882, |
| "learning_rate": 8.9088e-06, |
| "loss": 0.1274, |
| "step": 5200 |
| }, |
| { |
| "epoch": 2.8, |
| "grad_norm": 0.09447590261697769, |
| "learning_rate": 8.802133333333333e-06, |
| "loss": 0.1037, |
| "step": 5250 |
| }, |
| { |
| "epoch": 2.8266666666666667, |
| "grad_norm": 0.1438613384962082, |
| "learning_rate": 8.695466666666668e-06, |
| "loss": 0.101, |
| "step": 5300 |
| }, |
| { |
| "epoch": 2.8533333333333335, |
| "grad_norm": 98627.2421875, |
| "learning_rate": 8.5888e-06, |
| "loss": 0.0726, |
| "step": 5350 |
| }, |
| { |
| "epoch": 2.88, |
| "grad_norm": 0.07541963458061218, |
| "learning_rate": 8.482133333333335e-06, |
| "loss": 0.1231, |
| "step": 5400 |
| }, |
| { |
| "epoch": 2.9066666666666667, |
| "grad_norm": 0.05360635370016098, |
| "learning_rate": 8.375466666666668e-06, |
| "loss": 0.0852, |
| "step": 5450 |
| }, |
| { |
| "epoch": 2.9333333333333336, |
| "grad_norm": 0.061111465096473694, |
| "learning_rate": 8.2688e-06, |
| "loss": 0.169, |
| "step": 5500 |
| }, |
| { |
| "epoch": 2.96, |
| "grad_norm": 0.07734135538339615, |
| "learning_rate": 8.162133333333334e-06, |
| "loss": 0.0948, |
| "step": 5550 |
| }, |
| { |
| "epoch": 2.986666666666667, |
| "grad_norm": 0.13880130648612976, |
| "learning_rate": 8.055466666666668e-06, |
| "loss": 0.0804, |
| "step": 5600 |
| }, |
| { |
| "epoch": 3.0, |
| "eval_accuracy": 0.9040178571428571, |
| "eval_loss": 1.3043714761734009, |
| "eval_runtime": 11.5743, |
| "eval_samples_per_second": 193.532, |
| "eval_steps_per_second": 6.048, |
| "step": 5625 |
| }, |
| { |
| "epoch": 3.013333333333333, |
| "grad_norm": 5361973.5, |
| "learning_rate": 7.948800000000001e-06, |
| "loss": 0.0602, |
| "step": 5650 |
| }, |
| { |
| "epoch": 3.04, |
| "grad_norm": 0.06220533698797226, |
| "learning_rate": 7.842133333333334e-06, |
| "loss": 0.0798, |
| "step": 5700 |
| }, |
| { |
| "epoch": 3.066666666666667, |
| "grad_norm": 359638.0, |
| "learning_rate": 7.735466666666667e-06, |
| "loss": 0.0656, |
| "step": 5750 |
| }, |
| { |
| "epoch": 3.0933333333333333, |
| "grad_norm": 0.10378626734018326, |
| "learning_rate": 7.6288000000000005e-06, |
| "loss": 0.0217, |
| "step": 5800 |
| }, |
| { |
| "epoch": 3.12, |
| "grad_norm": 0.06841955333948135, |
| "learning_rate": 7.522133333333334e-06, |
| "loss": 0.1074, |
| "step": 5850 |
| }, |
| { |
| "epoch": 3.1466666666666665, |
| "grad_norm": 0.6347736120223999, |
| "learning_rate": 7.415466666666668e-06, |
| "loss": 0.1178, |
| "step": 5900 |
| }, |
| { |
| "epoch": 3.1733333333333333, |
| "grad_norm": 0.03754119575023651, |
| "learning_rate": 7.3088e-06, |
| "loss": 0.0971, |
| "step": 5950 |
| }, |
| { |
| "epoch": 3.2, |
| "grad_norm": 0.07285218685865402, |
| "learning_rate": 7.202133333333334e-06, |
| "loss": 0.0703, |
| "step": 6000 |
| }, |
| { |
| "epoch": 3.2266666666666666, |
| "grad_norm": 0.056998152285814285, |
| "learning_rate": 7.0954666666666675e-06, |
| "loss": 0.0686, |
| "step": 6050 |
| }, |
| { |
| "epoch": 3.2533333333333334, |
| "grad_norm": 0.05423174053430557, |
| "learning_rate": 6.9888e-06, |
| "loss": 0.0596, |
| "step": 6100 |
| }, |
| { |
| "epoch": 3.2800000000000002, |
| "grad_norm": 381587.21875, |
| "learning_rate": 6.882133333333334e-06, |
| "loss": 0.086, |
| "step": 6150 |
| }, |
| { |
| "epoch": 3.3066666666666666, |
| "grad_norm": 0.025454135611653328, |
| "learning_rate": 6.775466666666667e-06, |
| "loss": 0.0589, |
| "step": 6200 |
| }, |
| { |
| "epoch": 3.3333333333333335, |
| "grad_norm": 0.04171492159366608, |
| "learning_rate": 6.6688e-06, |
| "loss": 0.076, |
| "step": 6250 |
| }, |
| { |
| "epoch": 3.36, |
| "grad_norm": 2.3654417991638184, |
| "learning_rate": 6.562133333333334e-06, |
| "loss": 0.0916, |
| "step": 6300 |
| }, |
| { |
| "epoch": 3.3866666666666667, |
| "grad_norm": 631819.5625, |
| "learning_rate": 6.455466666666668e-06, |
| "loss": 0.1204, |
| "step": 6350 |
| }, |
| { |
| "epoch": 3.413333333333333, |
| "grad_norm": 0.038746993988752365, |
| "learning_rate": 6.3488e-06, |
| "loss": 0.0642, |
| "step": 6400 |
| }, |
| { |
| "epoch": 3.44, |
| "grad_norm": 0.024158641695976257, |
| "learning_rate": 6.242133333333333e-06, |
| "loss": 0.0577, |
| "step": 6450 |
| }, |
| { |
| "epoch": 3.466666666666667, |
| "grad_norm": 0.03704002872109413, |
| "learning_rate": 6.135466666666667e-06, |
| "loss": 0.0489, |
| "step": 6500 |
| }, |
| { |
| "epoch": 3.493333333333333, |
| "grad_norm": 0.1601739376783371, |
| "learning_rate": 6.028800000000001e-06, |
| "loss": 0.0857, |
| "step": 6550 |
| }, |
| { |
| "epoch": 3.52, |
| "grad_norm": 0.9981697201728821, |
| "learning_rate": 5.922133333333334e-06, |
| "loss": 0.0744, |
| "step": 6600 |
| }, |
| { |
| "epoch": 3.546666666666667, |
| "grad_norm": 106048.984375, |
| "learning_rate": 5.815466666666667e-06, |
| "loss": 0.0657, |
| "step": 6650 |
| }, |
| { |
| "epoch": 3.5733333333333333, |
| "grad_norm": 0.06424351781606674, |
| "learning_rate": 5.708800000000001e-06, |
| "loss": 0.0389, |
| "step": 6700 |
| }, |
| { |
| "epoch": 3.6, |
| "grad_norm": 200265.515625, |
| "learning_rate": 5.6021333333333335e-06, |
| "loss": 0.0787, |
| "step": 6750 |
| }, |
| { |
| "epoch": 3.626666666666667, |
| "grad_norm": 7188587.0, |
| "learning_rate": 5.495466666666667e-06, |
| "loss": 0.106, |
| "step": 6800 |
| }, |
| { |
| "epoch": 3.6533333333333333, |
| "grad_norm": 0.02919538877904415, |
| "learning_rate": 5.388800000000001e-06, |
| "loss": 0.0438, |
| "step": 6850 |
| }, |
| { |
| "epoch": 3.68, |
| "grad_norm": 0.06802631169557571, |
| "learning_rate": 5.282133333333333e-06, |
| "loss": 0.065, |
| "step": 6900 |
| }, |
| { |
| "epoch": 3.7066666666666666, |
| "grad_norm": 0.1388874053955078, |
| "learning_rate": 5.175466666666667e-06, |
| "loss": 0.0744, |
| "step": 6950 |
| }, |
| { |
| "epoch": 3.7333333333333334, |
| "grad_norm": 0.06726076453924179, |
| "learning_rate": 5.0688000000000005e-06, |
| "loss": 0.0433, |
| "step": 7000 |
| }, |
| { |
| "epoch": 3.76, |
| "grad_norm": 0.028545618057250977, |
| "learning_rate": 4.962133333333334e-06, |
| "loss": 0.0102, |
| "step": 7050 |
| }, |
| { |
| "epoch": 3.7866666666666666, |
| "grad_norm": 0.023962635546922684, |
| "learning_rate": 4.855466666666667e-06, |
| "loss": 0.0488, |
| "step": 7100 |
| }, |
| { |
| "epoch": 3.8133333333333335, |
| "grad_norm": 0.028267748653888702, |
| "learning_rate": 4.748800000000001e-06, |
| "loss": 0.0677, |
| "step": 7150 |
| }, |
| { |
| "epoch": 3.84, |
| "grad_norm": 1.2111276388168335, |
| "learning_rate": 4.642133333333333e-06, |
| "loss": 0.0722, |
| "step": 7200 |
| }, |
| { |
| "epoch": 3.8666666666666667, |
| "grad_norm": 0.02122320421040058, |
| "learning_rate": 4.535466666666667e-06, |
| "loss": 0.0789, |
| "step": 7250 |
| }, |
| { |
| "epoch": 3.8933333333333335, |
| "grad_norm": 4842018.0, |
| "learning_rate": 4.428800000000001e-06, |
| "loss": 0.0396, |
| "step": 7300 |
| }, |
| { |
| "epoch": 3.92, |
| "grad_norm": 0.06693890690803528, |
| "learning_rate": 4.322133333333334e-06, |
| "loss": 0.0684, |
| "step": 7350 |
| }, |
| { |
| "epoch": 3.9466666666666668, |
| "grad_norm": 0.059567321091890335, |
| "learning_rate": 4.215466666666667e-06, |
| "loss": 0.0305, |
| "step": 7400 |
| }, |
| { |
| "epoch": 3.9733333333333336, |
| "grad_norm": 0.10959268361330032, |
| "learning_rate": 4.1088e-06, |
| "loss": 0.0807, |
| "step": 7450 |
| }, |
| { |
| "epoch": 4.0, |
| "grad_norm": 0.08191831409931183, |
| "learning_rate": 4.002133333333334e-06, |
| "loss": 0.0275, |
| "step": 7500 |
| }, |
| { |
| "epoch": 4.0, |
| "eval_accuracy": 0.90625, |
| "eval_loss": 1.3517190217971802, |
| "eval_runtime": 11.5308, |
| "eval_samples_per_second": 194.262, |
| "eval_steps_per_second": 6.071, |
| "step": 7500 |
| }, |
| { |
| "epoch": 4.026666666666666, |
| "grad_norm": 0.04715568199753761, |
| "learning_rate": 3.895466666666667e-06, |
| "loss": 0.0473, |
| "step": 7550 |
| }, |
| { |
| "epoch": 4.053333333333334, |
| "grad_norm": 0.04324677586555481, |
| "learning_rate": 3.7888e-06, |
| "loss": 0.0516, |
| "step": 7600 |
| }, |
| { |
| "epoch": 4.08, |
| "grad_norm": 17.176790237426758, |
| "learning_rate": 3.6821333333333337e-06, |
| "loss": 0.0267, |
| "step": 7650 |
| }, |
| { |
| "epoch": 4.1066666666666665, |
| "grad_norm": 0.056280963122844696, |
| "learning_rate": 3.575466666666667e-06, |
| "loss": 0.0395, |
| "step": 7700 |
| }, |
| { |
| "epoch": 4.133333333333334, |
| "grad_norm": 0.3963826596736908, |
| "learning_rate": 3.4688000000000006e-06, |
| "loss": 0.05, |
| "step": 7750 |
| }, |
| { |
| "epoch": 4.16, |
| "grad_norm": 0.09547638148069382, |
| "learning_rate": 3.3621333333333334e-06, |
| "loss": 0.037, |
| "step": 7800 |
| }, |
| { |
| "epoch": 4.1866666666666665, |
| "grad_norm": 0.023690739646553993, |
| "learning_rate": 3.2554666666666666e-06, |
| "loss": 0.0156, |
| "step": 7850 |
| }, |
| { |
| "epoch": 4.213333333333333, |
| "grad_norm": 0.054472699761390686, |
| "learning_rate": 3.1488000000000002e-06, |
| "loss": 0.0492, |
| "step": 7900 |
| }, |
| { |
| "epoch": 4.24, |
| "grad_norm": 0.0498763769865036, |
| "learning_rate": 3.0421333333333335e-06, |
| "loss": 0.0299, |
| "step": 7950 |
| }, |
| { |
| "epoch": 4.266666666666667, |
| "grad_norm": 0.027373263612389565, |
| "learning_rate": 2.935466666666667e-06, |
| "loss": 0.0196, |
| "step": 8000 |
| }, |
| { |
| "epoch": 4.293333333333333, |
| "grad_norm": 0.020007992163300514, |
| "learning_rate": 2.8288000000000003e-06, |
| "loss": 0.0108, |
| "step": 8050 |
| }, |
| { |
| "epoch": 4.32, |
| "grad_norm": 0.04263805225491524, |
| "learning_rate": 2.722133333333333e-06, |
| "loss": 0.0573, |
| "step": 8100 |
| }, |
| { |
| "epoch": 4.346666666666667, |
| "grad_norm": 0.26160237193107605, |
| "learning_rate": 2.615466666666667e-06, |
| "loss": 0.0547, |
| "step": 8150 |
| }, |
| { |
| "epoch": 4.373333333333333, |
| "grad_norm": 0.03313960134983063, |
| "learning_rate": 2.5088e-06, |
| "loss": 0.0209, |
| "step": 8200 |
| }, |
| { |
| "epoch": 4.4, |
| "grad_norm": 0.02985936962068081, |
| "learning_rate": 2.4021333333333337e-06, |
| "loss": 0.0491, |
| "step": 8250 |
| }, |
| { |
| "epoch": 4.426666666666667, |
| "grad_norm": 0.019162628799676895, |
| "learning_rate": 2.295466666666667e-06, |
| "loss": 0.0, |
| "step": 8300 |
| }, |
| { |
| "epoch": 4.453333333333333, |
| "grad_norm": 0.033493030816316605, |
| "learning_rate": 2.1888e-06, |
| "loss": 0.0644, |
| "step": 8350 |
| }, |
| { |
| "epoch": 4.48, |
| "grad_norm": 0.034382414072752, |
| "learning_rate": 2.0821333333333333e-06, |
| "loss": 0.0363, |
| "step": 8400 |
| }, |
| { |
| "epoch": 4.506666666666667, |
| "grad_norm": 0.02546636201441288, |
| "learning_rate": 1.975466666666667e-06, |
| "loss": 0.0239, |
| "step": 8450 |
| }, |
| { |
| "epoch": 4.533333333333333, |
| "grad_norm": 0.02403315342962742, |
| "learning_rate": 1.8688e-06, |
| "loss": 0.0473, |
| "step": 8500 |
| }, |
| { |
| "epoch": 4.5600000000000005, |
| "grad_norm": 0.028716716915369034, |
| "learning_rate": 1.7621333333333334e-06, |
| "loss": 0.0676, |
| "step": 8550 |
| }, |
| { |
| "epoch": 4.586666666666667, |
| "grad_norm": 0.04614453762769699, |
| "learning_rate": 1.6554666666666669e-06, |
| "loss": 0.0167, |
| "step": 8600 |
| }, |
| { |
| "epoch": 4.613333333333333, |
| "grad_norm": 0.045237552374601364, |
| "learning_rate": 1.5488e-06, |
| "loss": 0.0208, |
| "step": 8650 |
| }, |
| { |
| "epoch": 4.64, |
| "grad_norm": 0.025348730385303497, |
| "learning_rate": 1.4421333333333335e-06, |
| "loss": 0.0204, |
| "step": 8700 |
| }, |
| { |
| "epoch": 4.666666666666667, |
| "grad_norm": 0.05161307007074356, |
| "learning_rate": 1.3354666666666668e-06, |
| "loss": 0.0001, |
| "step": 8750 |
| }, |
| { |
| "epoch": 4.693333333333333, |
| "grad_norm": 0.024497687816619873, |
| "learning_rate": 1.2288000000000002e-06, |
| "loss": 0.0192, |
| "step": 8800 |
| }, |
| { |
| "epoch": 4.72, |
| "grad_norm": 0.04933403059840202, |
| "learning_rate": 1.1221333333333334e-06, |
| "loss": 0.0318, |
| "step": 8850 |
| }, |
| { |
| "epoch": 4.746666666666667, |
| "grad_norm": 0.023629814386367798, |
| "learning_rate": 1.0154666666666667e-06, |
| "loss": 0.0208, |
| "step": 8900 |
| }, |
| { |
| "epoch": 4.773333333333333, |
| "grad_norm": 0.04831130802631378, |
| "learning_rate": 9.088000000000001e-07, |
| "loss": 0.0431, |
| "step": 8950 |
| }, |
| { |
| "epoch": 4.8, |
| "grad_norm": 0.02581050433218479, |
| "learning_rate": 8.021333333333334e-07, |
| "loss": 0.0104, |
| "step": 9000 |
| }, |
| { |
| "epoch": 4.826666666666666, |
| "grad_norm": 0.02720976062119007, |
| "learning_rate": 6.954666666666668e-07, |
| "loss": 0.0584, |
| "step": 9050 |
| }, |
| { |
| "epoch": 4.8533333333333335, |
| "grad_norm": 0.037181563675403595, |
| "learning_rate": 5.888000000000001e-07, |
| "loss": 0.0283, |
| "step": 9100 |
| }, |
| { |
| "epoch": 4.88, |
| "grad_norm": 0.0378887802362442, |
| "learning_rate": 4.821333333333333e-07, |
| "loss": 0.0333, |
| "step": 9150 |
| }, |
| { |
| "epoch": 4.906666666666666, |
| "grad_norm": 0.04535235837101936, |
| "learning_rate": 3.754666666666667e-07, |
| "loss": 0.0253, |
| "step": 9200 |
| }, |
| { |
| "epoch": 4.933333333333334, |
| "grad_norm": 0.02298826165497303, |
| "learning_rate": 2.688e-07, |
| "loss": 0.0373, |
| "step": 9250 |
| }, |
| { |
| "epoch": 4.96, |
| "grad_norm": 0.8697269558906555, |
| "learning_rate": 1.6213333333333336e-07, |
| "loss": 0.0184, |
| "step": 9300 |
| }, |
| { |
| "epoch": 4.986666666666666, |
| "grad_norm": 0.03729460388422012, |
| "learning_rate": 5.5466666666666674e-08, |
| "loss": 0.025, |
| "step": 9350 |
| }, |
| { |
| "epoch": 5.0, |
| "eval_accuracy": 0.9120535714285715, |
| "eval_loss": 1.334426999092102, |
| "eval_runtime": 11.8817, |
| "eval_samples_per_second": 188.525, |
| "eval_steps_per_second": 5.891, |
| "step": 9375 |
| } |
| ], |
| "logging_steps": 50, |
| "max_steps": 9375, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 5, |
| "save_steps": 500, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": true |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 1.97340378624e+16, |
| "train_batch_size": 32, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|