| { | |
| "best_global_step": 45000, | |
| "best_metric": 0.11760604381561279, | |
| "best_model_checkpoint": "/content/drive/MyDrive/chatbot/gpt2-finetuned-uet/checkpoint-45000", | |
| "epoch": 4.0, | |
| "eval_steps": 5000, | |
| "global_step": 45000, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.008888888888888889, | |
| "grad_norm": 6.82129430770874, | |
| "learning_rate": 2.9934000000000002e-05, | |
| "loss": 0.9164, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.017777777777777778, | |
| "grad_norm": 5.949863433837891, | |
| "learning_rate": 2.9867333333333335e-05, | |
| "loss": 0.2066, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.02666666666666667, | |
| "grad_norm": 4.183337211608887, | |
| "learning_rate": 2.9800666666666667e-05, | |
| "loss": 0.1721, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.035555555555555556, | |
| "grad_norm": 4.205233573913574, | |
| "learning_rate": 2.9734e-05, | |
| "loss": 0.1537, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.044444444444444446, | |
| "grad_norm": 3.5019726753234863, | |
| "learning_rate": 2.9667333333333333e-05, | |
| "loss": 0.138, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.05333333333333334, | |
| "grad_norm": 3.7419962882995605, | |
| "learning_rate": 2.9600666666666666e-05, | |
| "loss": 0.1372, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.06222222222222222, | |
| "grad_norm": 4.127668380737305, | |
| "learning_rate": 2.9534000000000002e-05, | |
| "loss": 0.1348, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 0.07111111111111111, | |
| "grad_norm": 5.248896598815918, | |
| "learning_rate": 2.9467333333333335e-05, | |
| "loss": 0.1268, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "grad_norm": 4.989108562469482, | |
| "learning_rate": 2.9400666666666668e-05, | |
| "loss": 0.1249, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 0.08888888888888889, | |
| "grad_norm": 3.937284231185913, | |
| "learning_rate": 2.9334e-05, | |
| "loss": 0.1247, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 0.09777777777777778, | |
| "grad_norm": 4.6740522384643555, | |
| "learning_rate": 2.9267333333333334e-05, | |
| "loss": 0.1241, | |
| "step": 1100 | |
| }, | |
| { | |
| "epoch": 0.10666666666666667, | |
| "grad_norm": 5.112093448638916, | |
| "learning_rate": 2.9200666666666666e-05, | |
| "loss": 0.1237, | |
| "step": 1200 | |
| }, | |
| { | |
| "epoch": 0.11555555555555555, | |
| "grad_norm": 4.429466247558594, | |
| "learning_rate": 2.9134e-05, | |
| "loss": 0.1233, | |
| "step": 1300 | |
| }, | |
| { | |
| "epoch": 0.12444444444444444, | |
| "grad_norm": 3.7811667919158936, | |
| "learning_rate": 2.9067333333333332e-05, | |
| "loss": 0.1224, | |
| "step": 1400 | |
| }, | |
| { | |
| "epoch": 0.13333333333333333, | |
| "grad_norm": 3.949687957763672, | |
| "learning_rate": 2.9000666666666668e-05, | |
| "loss": 0.1221, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 0.14222222222222222, | |
| "grad_norm": 4.339414119720459, | |
| "learning_rate": 2.8934e-05, | |
| "loss": 0.1208, | |
| "step": 1600 | |
| }, | |
| { | |
| "epoch": 0.1511111111111111, | |
| "grad_norm": 4.27586030960083, | |
| "learning_rate": 2.8867333333333334e-05, | |
| "loss": 0.1236, | |
| "step": 1700 | |
| }, | |
| { | |
| "epoch": 0.16, | |
| "grad_norm": 3.8597822189331055, | |
| "learning_rate": 2.8800666666666667e-05, | |
| "loss": 0.1211, | |
| "step": 1800 | |
| }, | |
| { | |
| "epoch": 0.1688888888888889, | |
| "grad_norm": 4.734971046447754, | |
| "learning_rate": 2.8734e-05, | |
| "loss": 0.122, | |
| "step": 1900 | |
| }, | |
| { | |
| "epoch": 0.17777777777777778, | |
| "grad_norm": 3.8875231742858887, | |
| "learning_rate": 2.8667333333333333e-05, | |
| "loss": 0.1213, | |
| "step": 2000 | |
| }, | |
| { | |
| "epoch": 0.18666666666666668, | |
| "grad_norm": 2.6618669033050537, | |
| "learning_rate": 2.8600666666666665e-05, | |
| "loss": 0.1218, | |
| "step": 2100 | |
| }, | |
| { | |
| "epoch": 0.19555555555555557, | |
| "grad_norm": 3.809056043624878, | |
| "learning_rate": 2.8534e-05, | |
| "loss": 0.1236, | |
| "step": 2200 | |
| }, | |
| { | |
| "epoch": 0.20444444444444446, | |
| "grad_norm": 4.541649341583252, | |
| "learning_rate": 2.8467333333333334e-05, | |
| "loss": 0.1211, | |
| "step": 2300 | |
| }, | |
| { | |
| "epoch": 0.21333333333333335, | |
| "grad_norm": 3.4047656059265137, | |
| "learning_rate": 2.8400666666666667e-05, | |
| "loss": 0.1221, | |
| "step": 2400 | |
| }, | |
| { | |
| "epoch": 0.2222222222222222, | |
| "grad_norm": 3.6217405796051025, | |
| "learning_rate": 2.8334e-05, | |
| "loss": 0.1211, | |
| "step": 2500 | |
| }, | |
| { | |
| "epoch": 0.2311111111111111, | |
| "grad_norm": 3.8457906246185303, | |
| "learning_rate": 2.8267333333333333e-05, | |
| "loss": 0.122, | |
| "step": 2600 | |
| }, | |
| { | |
| "epoch": 0.24, | |
| "grad_norm": 5.507346153259277, | |
| "learning_rate": 2.8200666666666666e-05, | |
| "loss": 0.1207, | |
| "step": 2700 | |
| }, | |
| { | |
| "epoch": 0.24888888888888888, | |
| "grad_norm": 4.867903232574463, | |
| "learning_rate": 2.8134e-05, | |
| "loss": 0.1201, | |
| "step": 2800 | |
| }, | |
| { | |
| "epoch": 0.2577777777777778, | |
| "grad_norm": 3.717101573944092, | |
| "learning_rate": 2.806733333333333e-05, | |
| "loss": 0.1202, | |
| "step": 2900 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "grad_norm": 3.990020990371704, | |
| "learning_rate": 2.8000666666666668e-05, | |
| "loss": 0.1214, | |
| "step": 3000 | |
| }, | |
| { | |
| "epoch": 0.27555555555555555, | |
| "grad_norm": 3.9653103351593018, | |
| "learning_rate": 2.7934e-05, | |
| "loss": 0.1195, | |
| "step": 3100 | |
| }, | |
| { | |
| "epoch": 0.28444444444444444, | |
| "grad_norm": 3.743941068649292, | |
| "learning_rate": 2.7867333333333333e-05, | |
| "loss": 0.1209, | |
| "step": 3200 | |
| }, | |
| { | |
| "epoch": 0.29333333333333333, | |
| "grad_norm": 4.509164333343506, | |
| "learning_rate": 2.7800666666666666e-05, | |
| "loss": 0.1204, | |
| "step": 3300 | |
| }, | |
| { | |
| "epoch": 0.3022222222222222, | |
| "grad_norm": 4.283110618591309, | |
| "learning_rate": 2.7734e-05, | |
| "loss": 0.1205, | |
| "step": 3400 | |
| }, | |
| { | |
| "epoch": 0.3111111111111111, | |
| "grad_norm": 3.8113884925842285, | |
| "learning_rate": 2.7667333333333332e-05, | |
| "loss": 0.1184, | |
| "step": 3500 | |
| }, | |
| { | |
| "epoch": 0.32, | |
| "grad_norm": 3.287177801132202, | |
| "learning_rate": 2.7600666666666665e-05, | |
| "loss": 0.1201, | |
| "step": 3600 | |
| }, | |
| { | |
| "epoch": 0.3288888888888889, | |
| "grad_norm": 4.167423248291016, | |
| "learning_rate": 2.7533999999999998e-05, | |
| "loss": 0.119, | |
| "step": 3700 | |
| }, | |
| { | |
| "epoch": 0.3377777777777778, | |
| "grad_norm": 4.485795974731445, | |
| "learning_rate": 2.7467333333333334e-05, | |
| "loss": 0.121, | |
| "step": 3800 | |
| }, | |
| { | |
| "epoch": 0.3466666666666667, | |
| "grad_norm": 3.1703178882598877, | |
| "learning_rate": 2.7400666666666667e-05, | |
| "loss": 0.1186, | |
| "step": 3900 | |
| }, | |
| { | |
| "epoch": 0.35555555555555557, | |
| "grad_norm": 3.0991108417510986, | |
| "learning_rate": 2.7334e-05, | |
| "loss": 0.1201, | |
| "step": 4000 | |
| }, | |
| { | |
| "epoch": 0.36444444444444446, | |
| "grad_norm": 4.4850053787231445, | |
| "learning_rate": 2.7267333333333336e-05, | |
| "loss": 0.1193, | |
| "step": 4100 | |
| }, | |
| { | |
| "epoch": 0.37333333333333335, | |
| "grad_norm": 3.0892951488494873, | |
| "learning_rate": 2.720066666666667e-05, | |
| "loss": 0.1186, | |
| "step": 4200 | |
| }, | |
| { | |
| "epoch": 0.38222222222222224, | |
| "grad_norm": 3.4168922901153564, | |
| "learning_rate": 2.7134e-05, | |
| "loss": 0.1186, | |
| "step": 4300 | |
| }, | |
| { | |
| "epoch": 0.39111111111111113, | |
| "grad_norm": 2.864269733428955, | |
| "learning_rate": 2.7067333333333334e-05, | |
| "loss": 0.1176, | |
| "step": 4400 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "grad_norm": 4.241358280181885, | |
| "learning_rate": 2.7000666666666667e-05, | |
| "loss": 0.118, | |
| "step": 4500 | |
| }, | |
| { | |
| "epoch": 0.4088888888888889, | |
| "grad_norm": 3.6913700103759766, | |
| "learning_rate": 2.6934000000000003e-05, | |
| "loss": 0.1184, | |
| "step": 4600 | |
| }, | |
| { | |
| "epoch": 0.4177777777777778, | |
| "grad_norm": 2.865185499191284, | |
| "learning_rate": 2.6867333333333336e-05, | |
| "loss": 0.1191, | |
| "step": 4700 | |
| }, | |
| { | |
| "epoch": 0.4266666666666667, | |
| "grad_norm": 3.7335503101348877, | |
| "learning_rate": 2.680066666666667e-05, | |
| "loss": 0.1199, | |
| "step": 4800 | |
| }, | |
| { | |
| "epoch": 0.43555555555555553, | |
| "grad_norm": 3.280344009399414, | |
| "learning_rate": 2.6734000000000002e-05, | |
| "loss": 0.1184, | |
| "step": 4900 | |
| }, | |
| { | |
| "epoch": 0.4444444444444444, | |
| "grad_norm": 3.2532272338867188, | |
| "learning_rate": 2.6667333333333335e-05, | |
| "loss": 0.1188, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 0.4444444444444444, | |
| "eval_loss": 0.12208713591098785, | |
| "eval_runtime": 204.8959, | |
| "eval_samples_per_second": 48.805, | |
| "eval_steps_per_second": 6.101, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 0.4533333333333333, | |
| "grad_norm": 3.123708486557007, | |
| "learning_rate": 2.6600666666666668e-05, | |
| "loss": 0.1196, | |
| "step": 5100 | |
| }, | |
| { | |
| "epoch": 0.4622222222222222, | |
| "grad_norm": 3.468099594116211, | |
| "learning_rate": 2.6534e-05, | |
| "loss": 0.1181, | |
| "step": 5200 | |
| }, | |
| { | |
| "epoch": 0.4711111111111111, | |
| "grad_norm": 3.4722182750701904, | |
| "learning_rate": 2.6467333333333337e-05, | |
| "loss": 0.1186, | |
| "step": 5300 | |
| }, | |
| { | |
| "epoch": 0.48, | |
| "grad_norm": 3.341700792312622, | |
| "learning_rate": 2.640066666666667e-05, | |
| "loss": 0.1175, | |
| "step": 5400 | |
| }, | |
| { | |
| "epoch": 0.4888888888888889, | |
| "grad_norm": 5.254228591918945, | |
| "learning_rate": 2.6334000000000002e-05, | |
| "loss": 0.1171, | |
| "step": 5500 | |
| }, | |
| { | |
| "epoch": 0.49777777777777776, | |
| "grad_norm": 3.9166531562805176, | |
| "learning_rate": 2.6267333333333335e-05, | |
| "loss": 0.1181, | |
| "step": 5600 | |
| }, | |
| { | |
| "epoch": 0.5066666666666667, | |
| "grad_norm": 3.530609130859375, | |
| "learning_rate": 2.6200666666666668e-05, | |
| "loss": 0.118, | |
| "step": 5700 | |
| }, | |
| { | |
| "epoch": 0.5155555555555555, | |
| "grad_norm": 2.8813321590423584, | |
| "learning_rate": 2.6134e-05, | |
| "loss": 0.119, | |
| "step": 5800 | |
| }, | |
| { | |
| "epoch": 0.5244444444444445, | |
| "grad_norm": 2.88515567779541, | |
| "learning_rate": 2.6067333333333334e-05, | |
| "loss": 0.1192, | |
| "step": 5900 | |
| }, | |
| { | |
| "epoch": 0.5333333333333333, | |
| "grad_norm": 3.641014814376831, | |
| "learning_rate": 2.6000666666666667e-05, | |
| "loss": 0.1177, | |
| "step": 6000 | |
| }, | |
| { | |
| "epoch": 0.5422222222222223, | |
| "grad_norm": 3.2416274547576904, | |
| "learning_rate": 2.5934000000000003e-05, | |
| "loss": 0.1189, | |
| "step": 6100 | |
| }, | |
| { | |
| "epoch": 0.5511111111111111, | |
| "grad_norm": 3.6603827476501465, | |
| "learning_rate": 2.5867333333333336e-05, | |
| "loss": 0.12, | |
| "step": 6200 | |
| }, | |
| { | |
| "epoch": 0.56, | |
| "grad_norm": 2.7942700386047363, | |
| "learning_rate": 2.580066666666667e-05, | |
| "loss": 0.1186, | |
| "step": 6300 | |
| }, | |
| { | |
| "epoch": 0.5688888888888889, | |
| "grad_norm": 2.454925298690796, | |
| "learning_rate": 2.5734e-05, | |
| "loss": 0.1193, | |
| "step": 6400 | |
| }, | |
| { | |
| "epoch": 0.5777777777777777, | |
| "grad_norm": 3.182051420211792, | |
| "learning_rate": 2.5667333333333334e-05, | |
| "loss": 0.1179, | |
| "step": 6500 | |
| }, | |
| { | |
| "epoch": 0.5866666666666667, | |
| "grad_norm": 2.543154001235962, | |
| "learning_rate": 2.5600666666666667e-05, | |
| "loss": 0.1169, | |
| "step": 6600 | |
| }, | |
| { | |
| "epoch": 0.5955555555555555, | |
| "grad_norm": 2.878065586090088, | |
| "learning_rate": 2.5534e-05, | |
| "loss": 0.1165, | |
| "step": 6700 | |
| }, | |
| { | |
| "epoch": 0.6044444444444445, | |
| "grad_norm": 2.6504786014556885, | |
| "learning_rate": 2.5467333333333333e-05, | |
| "loss": 0.1177, | |
| "step": 6800 | |
| }, | |
| { | |
| "epoch": 0.6133333333333333, | |
| "grad_norm": 3.112470865249634, | |
| "learning_rate": 2.540066666666667e-05, | |
| "loss": 0.1188, | |
| "step": 6900 | |
| }, | |
| { | |
| "epoch": 0.6222222222222222, | |
| "grad_norm": 3.2158005237579346, | |
| "learning_rate": 2.5334000000000002e-05, | |
| "loss": 0.1182, | |
| "step": 7000 | |
| }, | |
| { | |
| "epoch": 0.6311111111111111, | |
| "grad_norm": 2.7829103469848633, | |
| "learning_rate": 2.5267333333333335e-05, | |
| "loss": 0.1182, | |
| "step": 7100 | |
| }, | |
| { | |
| "epoch": 0.64, | |
| "grad_norm": 3.6927225589752197, | |
| "learning_rate": 2.5200666666666667e-05, | |
| "loss": 0.1172, | |
| "step": 7200 | |
| }, | |
| { | |
| "epoch": 0.6488888888888888, | |
| "grad_norm": 2.701704978942871, | |
| "learning_rate": 2.5134e-05, | |
| "loss": 0.1174, | |
| "step": 7300 | |
| }, | |
| { | |
| "epoch": 0.6577777777777778, | |
| "grad_norm": 3.097184419631958, | |
| "learning_rate": 2.5067333333333333e-05, | |
| "loss": 0.1181, | |
| "step": 7400 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "grad_norm": 3.704460620880127, | |
| "learning_rate": 2.5000666666666666e-05, | |
| "loss": 0.1171, | |
| "step": 7500 | |
| }, | |
| { | |
| "epoch": 0.6755555555555556, | |
| "grad_norm": 2.7724316120147705, | |
| "learning_rate": 2.4934e-05, | |
| "loss": 0.1172, | |
| "step": 7600 | |
| }, | |
| { | |
| "epoch": 0.6844444444444444, | |
| "grad_norm": 3.8086202144622803, | |
| "learning_rate": 2.4867333333333335e-05, | |
| "loss": 0.1182, | |
| "step": 7700 | |
| }, | |
| { | |
| "epoch": 0.6933333333333334, | |
| "grad_norm": 3.596428632736206, | |
| "learning_rate": 2.4800666666666668e-05, | |
| "loss": 0.1181, | |
| "step": 7800 | |
| }, | |
| { | |
| "epoch": 0.7022222222222222, | |
| "grad_norm": 2.5893187522888184, | |
| "learning_rate": 2.4734e-05, | |
| "loss": 0.118, | |
| "step": 7900 | |
| }, | |
| { | |
| "epoch": 0.7111111111111111, | |
| "grad_norm": 2.582350730895996, | |
| "learning_rate": 2.4667333333333334e-05, | |
| "loss": 0.1185, | |
| "step": 8000 | |
| }, | |
| { | |
| "epoch": 0.72, | |
| "grad_norm": 3.3927502632141113, | |
| "learning_rate": 2.4600666666666666e-05, | |
| "loss": 0.1179, | |
| "step": 8100 | |
| }, | |
| { | |
| "epoch": 0.7288888888888889, | |
| "grad_norm": 4.322011947631836, | |
| "learning_rate": 2.4534e-05, | |
| "loss": 0.118, | |
| "step": 8200 | |
| }, | |
| { | |
| "epoch": 0.7377777777777778, | |
| "grad_norm": 2.3560194969177246, | |
| "learning_rate": 2.4467333333333332e-05, | |
| "loss": 0.1175, | |
| "step": 8300 | |
| }, | |
| { | |
| "epoch": 0.7466666666666667, | |
| "grad_norm": 3.332634925842285, | |
| "learning_rate": 2.4400666666666668e-05, | |
| "loss": 0.117, | |
| "step": 8400 | |
| }, | |
| { | |
| "epoch": 0.7555555555555555, | |
| "grad_norm": 3.440761089324951, | |
| "learning_rate": 2.4334e-05, | |
| "loss": 0.1177, | |
| "step": 8500 | |
| }, | |
| { | |
| "epoch": 0.7644444444444445, | |
| "grad_norm": 2.6699066162109375, | |
| "learning_rate": 2.4267333333333334e-05, | |
| "loss": 0.1159, | |
| "step": 8600 | |
| }, | |
| { | |
| "epoch": 0.7733333333333333, | |
| "grad_norm": 2.5748603343963623, | |
| "learning_rate": 2.4200666666666667e-05, | |
| "loss": 0.1161, | |
| "step": 8700 | |
| }, | |
| { | |
| "epoch": 0.7822222222222223, | |
| "grad_norm": 3.216967821121216, | |
| "learning_rate": 2.4134e-05, | |
| "loss": 0.1167, | |
| "step": 8800 | |
| }, | |
| { | |
| "epoch": 0.7911111111111111, | |
| "grad_norm": 2.9499289989471436, | |
| "learning_rate": 2.4067333333333333e-05, | |
| "loss": 0.1164, | |
| "step": 8900 | |
| }, | |
| { | |
| "epoch": 0.8, | |
| "grad_norm": 2.6872825622558594, | |
| "learning_rate": 2.4000666666666665e-05, | |
| "loss": 0.117, | |
| "step": 9000 | |
| }, | |
| { | |
| "epoch": 0.8088888888888889, | |
| "grad_norm": 3.444622039794922, | |
| "learning_rate": 2.3933999999999998e-05, | |
| "loss": 0.1187, | |
| "step": 9100 | |
| }, | |
| { | |
| "epoch": 0.8177777777777778, | |
| "grad_norm": 2.4359054565429688, | |
| "learning_rate": 2.3867333333333334e-05, | |
| "loss": 0.1163, | |
| "step": 9200 | |
| }, | |
| { | |
| "epoch": 0.8266666666666667, | |
| "grad_norm": 2.510025978088379, | |
| "learning_rate": 2.3800666666666667e-05, | |
| "loss": 0.117, | |
| "step": 9300 | |
| }, | |
| { | |
| "epoch": 0.8355555555555556, | |
| "grad_norm": 2.5156795978546143, | |
| "learning_rate": 2.3734e-05, | |
| "loss": 0.1177, | |
| "step": 9400 | |
| }, | |
| { | |
| "epoch": 0.8444444444444444, | |
| "grad_norm": 3.8582279682159424, | |
| "learning_rate": 2.3667333333333333e-05, | |
| "loss": 0.1188, | |
| "step": 9500 | |
| }, | |
| { | |
| "epoch": 0.8533333333333334, | |
| "grad_norm": 2.9142448902130127, | |
| "learning_rate": 2.3600666666666666e-05, | |
| "loss": 0.1201, | |
| "step": 9600 | |
| }, | |
| { | |
| "epoch": 0.8622222222222222, | |
| "grad_norm": 1.9949374198913574, | |
| "learning_rate": 2.3534e-05, | |
| "loss": 0.1173, | |
| "step": 9700 | |
| }, | |
| { | |
| "epoch": 0.8711111111111111, | |
| "grad_norm": 2.8266148567199707, | |
| "learning_rate": 2.346733333333333e-05, | |
| "loss": 0.1156, | |
| "step": 9800 | |
| }, | |
| { | |
| "epoch": 0.88, | |
| "grad_norm": 2.821716070175171, | |
| "learning_rate": 2.3400666666666664e-05, | |
| "loss": 0.114, | |
| "step": 9900 | |
| }, | |
| { | |
| "epoch": 0.8888888888888888, | |
| "grad_norm": 2.1341419219970703, | |
| "learning_rate": 2.3334e-05, | |
| "loss": 0.118, | |
| "step": 10000 | |
| }, | |
| { | |
| "epoch": 0.8888888888888888, | |
| "eval_loss": 0.11916246265172958, | |
| "eval_runtime": 209.6485, | |
| "eval_samples_per_second": 47.699, | |
| "eval_steps_per_second": 5.962, | |
| "step": 10000 | |
| }, | |
| { | |
| "epoch": 0.8977777777777778, | |
| "grad_norm": 2.4303793907165527, | |
| "learning_rate": 2.3267333333333333e-05, | |
| "loss": 0.1164, | |
| "step": 10100 | |
| }, | |
| { | |
| "epoch": 0.9066666666666666, | |
| "grad_norm": 2.23417329788208, | |
| "learning_rate": 2.3200666666666666e-05, | |
| "loss": 0.1168, | |
| "step": 10200 | |
| }, | |
| { | |
| "epoch": 0.9155555555555556, | |
| "grad_norm": 2.7402517795562744, | |
| "learning_rate": 2.3134e-05, | |
| "loss": 0.1171, | |
| "step": 10300 | |
| }, | |
| { | |
| "epoch": 0.9244444444444444, | |
| "grad_norm": 2.4961931705474854, | |
| "learning_rate": 2.3067333333333332e-05, | |
| "loss": 0.117, | |
| "step": 10400 | |
| }, | |
| { | |
| "epoch": 0.9333333333333333, | |
| "grad_norm": 3.0183095932006836, | |
| "learning_rate": 2.3000666666666668e-05, | |
| "loss": 0.1166, | |
| "step": 10500 | |
| }, | |
| { | |
| "epoch": 0.9422222222222222, | |
| "grad_norm": 3.062873125076294, | |
| "learning_rate": 2.2934e-05, | |
| "loss": 0.1167, | |
| "step": 10600 | |
| }, | |
| { | |
| "epoch": 0.9511111111111111, | |
| "grad_norm": 2.418299436569214, | |
| "learning_rate": 2.2867333333333334e-05, | |
| "loss": 0.1173, | |
| "step": 10700 | |
| }, | |
| { | |
| "epoch": 0.96, | |
| "grad_norm": 2.580348253250122, | |
| "learning_rate": 2.280066666666667e-05, | |
| "loss": 0.1173, | |
| "step": 10800 | |
| }, | |
| { | |
| "epoch": 0.9688888888888889, | |
| "grad_norm": 2.902337074279785, | |
| "learning_rate": 2.2734000000000003e-05, | |
| "loss": 0.1174, | |
| "step": 10900 | |
| }, | |
| { | |
| "epoch": 0.9777777777777777, | |
| "grad_norm": 2.1894068717956543, | |
| "learning_rate": 2.2667333333333336e-05, | |
| "loss": 0.1167, | |
| "step": 11000 | |
| }, | |
| { | |
| "epoch": 0.9866666666666667, | |
| "grad_norm": 2.944486618041992, | |
| "learning_rate": 2.260066666666667e-05, | |
| "loss": 0.1174, | |
| "step": 11100 | |
| }, | |
| { | |
| "epoch": 0.9955555555555555, | |
| "grad_norm": 2.560166835784912, | |
| "learning_rate": 2.2534e-05, | |
| "loss": 0.1179, | |
| "step": 11200 | |
| }, | |
| { | |
| "epoch": 1.0044444444444445, | |
| "grad_norm": 2.7553763389587402, | |
| "learning_rate": 2.2467333333333334e-05, | |
| "loss": 0.1158, | |
| "step": 11300 | |
| }, | |
| { | |
| "epoch": 1.0133333333333334, | |
| "grad_norm": 2.8809797763824463, | |
| "learning_rate": 2.2400666666666667e-05, | |
| "loss": 0.1175, | |
| "step": 11400 | |
| }, | |
| { | |
| "epoch": 1.0222222222222221, | |
| "grad_norm": 2.329749822616577, | |
| "learning_rate": 2.2334000000000003e-05, | |
| "loss": 0.1155, | |
| "step": 11500 | |
| }, | |
| { | |
| "epoch": 1.031111111111111, | |
| "grad_norm": 2.763226270675659, | |
| "learning_rate": 2.2267333333333336e-05, | |
| "loss": 0.1166, | |
| "step": 11600 | |
| }, | |
| { | |
| "epoch": 1.04, | |
| "grad_norm": 3.360959768295288, | |
| "learning_rate": 2.220066666666667e-05, | |
| "loss": 0.1162, | |
| "step": 11700 | |
| }, | |
| { | |
| "epoch": 1.048888888888889, | |
| "grad_norm": 2.1025476455688477, | |
| "learning_rate": 2.2134000000000002e-05, | |
| "loss": 0.1167, | |
| "step": 11800 | |
| }, | |
| { | |
| "epoch": 1.0577777777777777, | |
| "grad_norm": 2.6342437267303467, | |
| "learning_rate": 2.2067333333333335e-05, | |
| "loss": 0.1159, | |
| "step": 11900 | |
| }, | |
| { | |
| "epoch": 1.0666666666666667, | |
| "grad_norm": 2.8531672954559326, | |
| "learning_rate": 2.2000666666666668e-05, | |
| "loss": 0.1174, | |
| "step": 12000 | |
| }, | |
| { | |
| "epoch": 1.0755555555555556, | |
| "grad_norm": 2.5636589527130127, | |
| "learning_rate": 2.1934e-05, | |
| "loss": 0.1164, | |
| "step": 12100 | |
| }, | |
| { | |
| "epoch": 1.0844444444444445, | |
| "grad_norm": 2.7614545822143555, | |
| "learning_rate": 2.1867333333333333e-05, | |
| "loss": 0.1172, | |
| "step": 12200 | |
| }, | |
| { | |
| "epoch": 1.0933333333333333, | |
| "grad_norm": 2.60809063911438, | |
| "learning_rate": 2.180066666666667e-05, | |
| "loss": 0.1163, | |
| "step": 12300 | |
| }, | |
| { | |
| "epoch": 1.1022222222222222, | |
| "grad_norm": 3.316859483718872, | |
| "learning_rate": 2.1734000000000002e-05, | |
| "loss": 0.1177, | |
| "step": 12400 | |
| }, | |
| { | |
| "epoch": 1.1111111111111112, | |
| "grad_norm": 3.271606922149658, | |
| "learning_rate": 2.1667333333333335e-05, | |
| "loss": 0.1167, | |
| "step": 12500 | |
| }, | |
| { | |
| "epoch": 1.12, | |
| "grad_norm": 3.194365978240967, | |
| "learning_rate": 2.1600666666666668e-05, | |
| "loss": 0.118, | |
| "step": 12600 | |
| }, | |
| { | |
| "epoch": 1.1288888888888888, | |
| "grad_norm": 2.5785796642303467, | |
| "learning_rate": 2.1534e-05, | |
| "loss": 0.1166, | |
| "step": 12700 | |
| }, | |
| { | |
| "epoch": 1.1377777777777778, | |
| "grad_norm": 2.8842148780822754, | |
| "learning_rate": 2.1467333333333334e-05, | |
| "loss": 0.1169, | |
| "step": 12800 | |
| }, | |
| { | |
| "epoch": 1.1466666666666667, | |
| "grad_norm": 2.530769109725952, | |
| "learning_rate": 2.1400666666666667e-05, | |
| "loss": 0.1176, | |
| "step": 12900 | |
| }, | |
| { | |
| "epoch": 1.1555555555555554, | |
| "grad_norm": 2.9388973712921143, | |
| "learning_rate": 2.1334e-05, | |
| "loss": 0.1164, | |
| "step": 13000 | |
| }, | |
| { | |
| "epoch": 1.1644444444444444, | |
| "grad_norm": 3.258341073989868, | |
| "learning_rate": 2.1267333333333336e-05, | |
| "loss": 0.1161, | |
| "step": 13100 | |
| }, | |
| { | |
| "epoch": 1.1733333333333333, | |
| "grad_norm": 3.597013473510742, | |
| "learning_rate": 2.120066666666667e-05, | |
| "loss": 0.1168, | |
| "step": 13200 | |
| }, | |
| { | |
| "epoch": 1.1822222222222223, | |
| "grad_norm": 2.683460235595703, | |
| "learning_rate": 2.1134e-05, | |
| "loss": 0.1152, | |
| "step": 13300 | |
| }, | |
| { | |
| "epoch": 1.1911111111111112, | |
| "grad_norm": 3.4266109466552734, | |
| "learning_rate": 2.1067333333333334e-05, | |
| "loss": 0.1158, | |
| "step": 13400 | |
| }, | |
| { | |
| "epoch": 1.2, | |
| "grad_norm": 2.183912754058838, | |
| "learning_rate": 2.1000666666666667e-05, | |
| "loss": 0.1162, | |
| "step": 13500 | |
| }, | |
| { | |
| "epoch": 1.208888888888889, | |
| "grad_norm": 2.8540754318237305, | |
| "learning_rate": 2.0934e-05, | |
| "loss": 0.1162, | |
| "step": 13600 | |
| }, | |
| { | |
| "epoch": 1.2177777777777778, | |
| "grad_norm": 2.472102403640747, | |
| "learning_rate": 2.0867333333333333e-05, | |
| "loss": 0.1165, | |
| "step": 13700 | |
| }, | |
| { | |
| "epoch": 1.2266666666666666, | |
| "grad_norm": 2.466033697128296, | |
| "learning_rate": 2.0800666666666665e-05, | |
| "loss": 0.1171, | |
| "step": 13800 | |
| }, | |
| { | |
| "epoch": 1.2355555555555555, | |
| "grad_norm": 2.822277784347534, | |
| "learning_rate": 2.0734000000000002e-05, | |
| "loss": 0.1154, | |
| "step": 13900 | |
| }, | |
| { | |
| "epoch": 1.2444444444444445, | |
| "grad_norm": 2.0999035835266113, | |
| "learning_rate": 2.0667333333333335e-05, | |
| "loss": 0.1163, | |
| "step": 14000 | |
| }, | |
| { | |
| "epoch": 1.2533333333333334, | |
| "grad_norm": 2.3862359523773193, | |
| "learning_rate": 2.0600666666666667e-05, | |
| "loss": 0.1166, | |
| "step": 14100 | |
| }, | |
| { | |
| "epoch": 1.2622222222222224, | |
| "grad_norm": 3.0106606483459473, | |
| "learning_rate": 2.0534e-05, | |
| "loss": 0.1174, | |
| "step": 14200 | |
| }, | |
| { | |
| "epoch": 1.271111111111111, | |
| "grad_norm": 2.2720947265625, | |
| "learning_rate": 2.0467333333333333e-05, | |
| "loss": 0.1162, | |
| "step": 14300 | |
| }, | |
| { | |
| "epoch": 1.28, | |
| "grad_norm": 2.4867804050445557, | |
| "learning_rate": 2.0400666666666666e-05, | |
| "loss": 0.1167, | |
| "step": 14400 | |
| }, | |
| { | |
| "epoch": 1.2888888888888888, | |
| "grad_norm": 3.227097511291504, | |
| "learning_rate": 2.0334e-05, | |
| "loss": 0.1166, | |
| "step": 14500 | |
| }, | |
| { | |
| "epoch": 1.2977777777777777, | |
| "grad_norm": 2.6462483406066895, | |
| "learning_rate": 2.0267333333333335e-05, | |
| "loss": 0.116, | |
| "step": 14600 | |
| }, | |
| { | |
| "epoch": 1.3066666666666666, | |
| "grad_norm": 1.9896470308303833, | |
| "learning_rate": 2.0200666666666668e-05, | |
| "loss": 0.1166, | |
| "step": 14700 | |
| }, | |
| { | |
| "epoch": 1.3155555555555556, | |
| "grad_norm": 3.9435179233551025, | |
| "learning_rate": 2.0134e-05, | |
| "loss": 0.1161, | |
| "step": 14800 | |
| }, | |
| { | |
| "epoch": 1.3244444444444445, | |
| "grad_norm": 3.1520168781280518, | |
| "learning_rate": 2.0067333333333334e-05, | |
| "loss": 0.1163, | |
| "step": 14900 | |
| }, | |
| { | |
| "epoch": 1.3333333333333333, | |
| "grad_norm": 2.1935575008392334, | |
| "learning_rate": 2.0000666666666666e-05, | |
| "loss": 0.1166, | |
| "step": 15000 | |
| }, | |
| { | |
| "epoch": 1.3333333333333333, | |
| "eval_loss": 0.11884617805480957, | |
| "eval_runtime": 211.3057, | |
| "eval_samples_per_second": 47.325, | |
| "eval_steps_per_second": 5.916, | |
| "step": 15000 | |
| }, | |
| { | |
| "epoch": 1.3422222222222222, | |
| "grad_norm": 2.775670289993286, | |
| "learning_rate": 1.9934e-05, | |
| "loss": 0.1159, | |
| "step": 15100 | |
| }, | |
| { | |
| "epoch": 1.3511111111111112, | |
| "grad_norm": 2.6361074447631836, | |
| "learning_rate": 1.9867333333333332e-05, | |
| "loss": 0.1169, | |
| "step": 15200 | |
| }, | |
| { | |
| "epoch": 1.3599999999999999, | |
| "grad_norm": 2.5795843601226807, | |
| "learning_rate": 1.9800666666666665e-05, | |
| "loss": 0.1166, | |
| "step": 15300 | |
| }, | |
| { | |
| "epoch": 1.3688888888888888, | |
| "grad_norm": 3.1737446784973145, | |
| "learning_rate": 1.9734e-05, | |
| "loss": 0.1167, | |
| "step": 15400 | |
| }, | |
| { | |
| "epoch": 1.3777777777777778, | |
| "grad_norm": 2.2223973274230957, | |
| "learning_rate": 1.9667333333333334e-05, | |
| "loss": 0.1164, | |
| "step": 15500 | |
| }, | |
| { | |
| "epoch": 1.3866666666666667, | |
| "grad_norm": 2.2306268215179443, | |
| "learning_rate": 1.9600666666666667e-05, | |
| "loss": 0.1168, | |
| "step": 15600 | |
| }, | |
| { | |
| "epoch": 1.3955555555555557, | |
| "grad_norm": 2.343104600906372, | |
| "learning_rate": 1.9534e-05, | |
| "loss": 0.1169, | |
| "step": 15700 | |
| }, | |
| { | |
| "epoch": 1.4044444444444444, | |
| "grad_norm": 2.2243905067443848, | |
| "learning_rate": 1.9467333333333333e-05, | |
| "loss": 0.1168, | |
| "step": 15800 | |
| }, | |
| { | |
| "epoch": 1.4133333333333333, | |
| "grad_norm": 2.11381459236145, | |
| "learning_rate": 1.9400666666666665e-05, | |
| "loss": 0.1176, | |
| "step": 15900 | |
| }, | |
| { | |
| "epoch": 1.4222222222222223, | |
| "grad_norm": 2.713016986846924, | |
| "learning_rate": 1.9333999999999998e-05, | |
| "loss": 0.117, | |
| "step": 16000 | |
| }, | |
| { | |
| "epoch": 1.431111111111111, | |
| "grad_norm": 2.860501766204834, | |
| "learning_rate": 1.926733333333333e-05, | |
| "loss": 0.1165, | |
| "step": 16100 | |
| }, | |
| { | |
| "epoch": 1.44, | |
| "grad_norm": 2.216109037399292, | |
| "learning_rate": 1.9200666666666667e-05, | |
| "loss": 0.117, | |
| "step": 16200 | |
| }, | |
| { | |
| "epoch": 1.448888888888889, | |
| "grad_norm": 2.458571672439575, | |
| "learning_rate": 1.9134e-05, | |
| "loss": 0.1166, | |
| "step": 16300 | |
| }, | |
| { | |
| "epoch": 1.4577777777777778, | |
| "grad_norm": 2.421862840652466, | |
| "learning_rate": 1.9067333333333333e-05, | |
| "loss": 0.117, | |
| "step": 16400 | |
| }, | |
| { | |
| "epoch": 1.4666666666666668, | |
| "grad_norm": 2.4166271686553955, | |
| "learning_rate": 1.9000666666666666e-05, | |
| "loss": 0.1158, | |
| "step": 16500 | |
| }, | |
| { | |
| "epoch": 1.4755555555555555, | |
| "grad_norm": 2.1545352935791016, | |
| "learning_rate": 1.8934e-05, | |
| "loss": 0.1153, | |
| "step": 16600 | |
| }, | |
| { | |
| "epoch": 1.4844444444444445, | |
| "grad_norm": 2.041667938232422, | |
| "learning_rate": 1.886733333333333e-05, | |
| "loss": 0.1174, | |
| "step": 16700 | |
| }, | |
| { | |
| "epoch": 1.4933333333333334, | |
| "grad_norm": 2.384735584259033, | |
| "learning_rate": 1.8800666666666664e-05, | |
| "loss": 0.1163, | |
| "step": 16800 | |
| }, | |
| { | |
| "epoch": 1.5022222222222221, | |
| "grad_norm": 2.500413656234741, | |
| "learning_rate": 1.8734e-05, | |
| "loss": 0.1151, | |
| "step": 16900 | |
| }, | |
| { | |
| "epoch": 1.511111111111111, | |
| "grad_norm": 2.1342129707336426, | |
| "learning_rate": 1.8667333333333337e-05, | |
| "loss": 0.1159, | |
| "step": 17000 | |
| }, | |
| { | |
| "epoch": 1.52, | |
| "grad_norm": 1.887050986289978, | |
| "learning_rate": 1.860066666666667e-05, | |
| "loss": 0.1167, | |
| "step": 17100 | |
| }, | |
| { | |
| "epoch": 1.528888888888889, | |
| "grad_norm": 2.915043830871582, | |
| "learning_rate": 1.8534000000000002e-05, | |
| "loss": 0.1146, | |
| "step": 17200 | |
| }, | |
| { | |
| "epoch": 1.537777777777778, | |
| "grad_norm": 1.9369572401046753, | |
| "learning_rate": 1.8467333333333335e-05, | |
| "loss": 0.115, | |
| "step": 17300 | |
| }, | |
| { | |
| "epoch": 1.5466666666666666, | |
| "grad_norm": 2.6729207038879395, | |
| "learning_rate": 1.8400666666666668e-05, | |
| "loss": 0.1164, | |
| "step": 17400 | |
| }, | |
| { | |
| "epoch": 1.5555555555555556, | |
| "grad_norm": 2.3808655738830566, | |
| "learning_rate": 1.8334e-05, | |
| "loss": 0.1164, | |
| "step": 17500 | |
| }, | |
| { | |
| "epoch": 1.5644444444444443, | |
| "grad_norm": 2.073694944381714, | |
| "learning_rate": 1.8267333333333334e-05, | |
| "loss": 0.1162, | |
| "step": 17600 | |
| }, | |
| { | |
| "epoch": 1.5733333333333333, | |
| "grad_norm": 2.777702808380127, | |
| "learning_rate": 1.820066666666667e-05, | |
| "loss": 0.1165, | |
| "step": 17700 | |
| }, | |
| { | |
| "epoch": 1.5822222222222222, | |
| "grad_norm": 2.505470037460327, | |
| "learning_rate": 1.8134000000000003e-05, | |
| "loss": 0.1161, | |
| "step": 17800 | |
| }, | |
| { | |
| "epoch": 1.5911111111111111, | |
| "grad_norm": 2.718674421310425, | |
| "learning_rate": 1.8067333333333336e-05, | |
| "loss": 0.1163, | |
| "step": 17900 | |
| }, | |
| { | |
| "epoch": 1.6, | |
| "grad_norm": 2.1494431495666504, | |
| "learning_rate": 1.800066666666667e-05, | |
| "loss": 0.1156, | |
| "step": 18000 | |
| }, | |
| { | |
| "epoch": 1.608888888888889, | |
| "grad_norm": 2.116150379180908, | |
| "learning_rate": 1.7934e-05, | |
| "loss": 0.1151, | |
| "step": 18100 | |
| }, | |
| { | |
| "epoch": 1.6177777777777778, | |
| "grad_norm": 2.0484061241149902, | |
| "learning_rate": 1.7867333333333334e-05, | |
| "loss": 0.1156, | |
| "step": 18200 | |
| }, | |
| { | |
| "epoch": 1.6266666666666667, | |
| "grad_norm": 2.424205780029297, | |
| "learning_rate": 1.7800666666666667e-05, | |
| "loss": 0.1163, | |
| "step": 18300 | |
| }, | |
| { | |
| "epoch": 1.6355555555555554, | |
| "grad_norm": 1.8127673864364624, | |
| "learning_rate": 1.7734e-05, | |
| "loss": 0.1158, | |
| "step": 18400 | |
| }, | |
| { | |
| "epoch": 1.6444444444444444, | |
| "grad_norm": 1.8198715448379517, | |
| "learning_rate": 1.7667333333333336e-05, | |
| "loss": 0.1154, | |
| "step": 18500 | |
| }, | |
| { | |
| "epoch": 1.6533333333333333, | |
| "grad_norm": 2.0981502532958984, | |
| "learning_rate": 1.760066666666667e-05, | |
| "loss": 0.1151, | |
| "step": 18600 | |
| }, | |
| { | |
| "epoch": 1.6622222222222223, | |
| "grad_norm": 2.4855105876922607, | |
| "learning_rate": 1.7534000000000002e-05, | |
| "loss": 0.1159, | |
| "step": 18700 | |
| }, | |
| { | |
| "epoch": 1.6711111111111112, | |
| "grad_norm": 2.699737071990967, | |
| "learning_rate": 1.7467333333333335e-05, | |
| "loss": 0.1157, | |
| "step": 18800 | |
| }, | |
| { | |
| "epoch": 1.6800000000000002, | |
| "grad_norm": 2.327432870864868, | |
| "learning_rate": 1.7400666666666668e-05, | |
| "loss": 0.1171, | |
| "step": 18900 | |
| }, | |
| { | |
| "epoch": 1.6888888888888889, | |
| "grad_norm": 2.1968882083892822, | |
| "learning_rate": 1.7334e-05, | |
| "loss": 0.1161, | |
| "step": 19000 | |
| }, | |
| { | |
| "epoch": 1.6977777777777778, | |
| "grad_norm": 1.8226240873336792, | |
| "learning_rate": 1.7267333333333333e-05, | |
| "loss": 0.1151, | |
| "step": 19100 | |
| }, | |
| { | |
| "epoch": 1.7066666666666666, | |
| "grad_norm": 2.7223825454711914, | |
| "learning_rate": 1.7200666666666666e-05, | |
| "loss": 0.1171, | |
| "step": 19200 | |
| }, | |
| { | |
| "epoch": 1.7155555555555555, | |
| "grad_norm": 2.9477438926696777, | |
| "learning_rate": 1.7134000000000002e-05, | |
| "loss": 0.1156, | |
| "step": 19300 | |
| }, | |
| { | |
| "epoch": 1.7244444444444444, | |
| "grad_norm": 2.40928316116333, | |
| "learning_rate": 1.7067333333333335e-05, | |
| "loss": 0.1166, | |
| "step": 19400 | |
| }, | |
| { | |
| "epoch": 1.7333333333333334, | |
| "grad_norm": 1.8822649717330933, | |
| "learning_rate": 1.7000666666666668e-05, | |
| "loss": 0.1153, | |
| "step": 19500 | |
| }, | |
| { | |
| "epoch": 1.7422222222222223, | |
| "grad_norm": 2.2142670154571533, | |
| "learning_rate": 1.6934e-05, | |
| "loss": 0.1163, | |
| "step": 19600 | |
| }, | |
| { | |
| "epoch": 1.751111111111111, | |
| "grad_norm": 2.1836495399475098, | |
| "learning_rate": 1.6867333333333334e-05, | |
| "loss": 0.1151, | |
| "step": 19700 | |
| }, | |
| { | |
| "epoch": 1.76, | |
| "grad_norm": 3.2107222080230713, | |
| "learning_rate": 1.6800666666666667e-05, | |
| "loss": 0.1163, | |
| "step": 19800 | |
| }, | |
| { | |
| "epoch": 1.7688888888888887, | |
| "grad_norm": 1.8287441730499268, | |
| "learning_rate": 1.6734e-05, | |
| "loss": 0.1156, | |
| "step": 19900 | |
| }, | |
| { | |
| "epoch": 1.7777777777777777, | |
| "grad_norm": 2.0980119705200195, | |
| "learning_rate": 1.6667333333333332e-05, | |
| "loss": 0.1155, | |
| "step": 20000 | |
| }, | |
| { | |
| "epoch": 1.7777777777777777, | |
| "eval_loss": 0.11874008923768997, | |
| "eval_runtime": 211.255, | |
| "eval_samples_per_second": 47.336, | |
| "eval_steps_per_second": 5.917, | |
| "step": 20000 | |
| }, | |
| { | |
| "epoch": 1.7866666666666666, | |
| "grad_norm": 2.3383679389953613, | |
| "learning_rate": 1.660066666666667e-05, | |
| "loss": 0.1138, | |
| "step": 20100 | |
| }, | |
| { | |
| "epoch": 1.7955555555555556, | |
| "grad_norm": 2.7525901794433594, | |
| "learning_rate": 1.6534e-05, | |
| "loss": 0.116, | |
| "step": 20200 | |
| }, | |
| { | |
| "epoch": 1.8044444444444445, | |
| "grad_norm": 2.5040132999420166, | |
| "learning_rate": 1.6467333333333334e-05, | |
| "loss": 0.1161, | |
| "step": 20300 | |
| }, | |
| { | |
| "epoch": 1.8133333333333335, | |
| "grad_norm": 2.259471893310547, | |
| "learning_rate": 1.6400666666666667e-05, | |
| "loss": 0.117, | |
| "step": 20400 | |
| }, | |
| { | |
| "epoch": 1.8222222222222222, | |
| "grad_norm": 2.2679028511047363, | |
| "learning_rate": 1.6334e-05, | |
| "loss": 0.1137, | |
| "step": 20500 | |
| }, | |
| { | |
| "epoch": 1.8311111111111111, | |
| "grad_norm": 2.327155351638794, | |
| "learning_rate": 1.6267333333333333e-05, | |
| "loss": 0.1166, | |
| "step": 20600 | |
| }, | |
| { | |
| "epoch": 1.8399999999999999, | |
| "grad_norm": 1.955175757408142, | |
| "learning_rate": 1.6200666666666665e-05, | |
| "loss": 0.1166, | |
| "step": 20700 | |
| }, | |
| { | |
| "epoch": 1.8488888888888888, | |
| "grad_norm": 2.710777759552002, | |
| "learning_rate": 1.6134e-05, | |
| "loss": 0.1172, | |
| "step": 20800 | |
| }, | |
| { | |
| "epoch": 1.8577777777777778, | |
| "grad_norm": 2.216688632965088, | |
| "learning_rate": 1.6067333333333335e-05, | |
| "loss": 0.1161, | |
| "step": 20900 | |
| }, | |
| { | |
| "epoch": 1.8666666666666667, | |
| "grad_norm": 2.182429075241089, | |
| "learning_rate": 1.6000666666666667e-05, | |
| "loss": 0.1156, | |
| "step": 21000 | |
| }, | |
| { | |
| "epoch": 1.8755555555555556, | |
| "grad_norm": 1.9243407249450684, | |
| "learning_rate": 1.5934e-05, | |
| "loss": 0.1142, | |
| "step": 21100 | |
| }, | |
| { | |
| "epoch": 1.8844444444444446, | |
| "grad_norm": 2.7626757621765137, | |
| "learning_rate": 1.5867333333333333e-05, | |
| "loss": 0.1145, | |
| "step": 21200 | |
| }, | |
| { | |
| "epoch": 1.8933333333333333, | |
| "grad_norm": 2.6856908798217773, | |
| "learning_rate": 1.5800666666666666e-05, | |
| "loss": 0.1152, | |
| "step": 21300 | |
| }, | |
| { | |
| "epoch": 1.9022222222222223, | |
| "grad_norm": 1.7904895544052124, | |
| "learning_rate": 1.5734e-05, | |
| "loss": 0.1155, | |
| "step": 21400 | |
| }, | |
| { | |
| "epoch": 1.911111111111111, | |
| "grad_norm": 3.033803939819336, | |
| "learning_rate": 1.566733333333333e-05, | |
| "loss": 0.1166, | |
| "step": 21500 | |
| }, | |
| { | |
| "epoch": 1.92, | |
| "grad_norm": 2.309826612472534, | |
| "learning_rate": 1.5600666666666668e-05, | |
| "loss": 0.1158, | |
| "step": 21600 | |
| }, | |
| { | |
| "epoch": 1.9288888888888889, | |
| "grad_norm": 1.7815381288528442, | |
| "learning_rate": 1.5534e-05, | |
| "loss": 0.1162, | |
| "step": 21700 | |
| }, | |
| { | |
| "epoch": 1.9377777777777778, | |
| "grad_norm": 2.4178450107574463, | |
| "learning_rate": 1.5467333333333334e-05, | |
| "loss": 0.1148, | |
| "step": 21800 | |
| }, | |
| { | |
| "epoch": 1.9466666666666668, | |
| "grad_norm": 2.054873466491699, | |
| "learning_rate": 1.5400666666666666e-05, | |
| "loss": 0.1159, | |
| "step": 21900 | |
| }, | |
| { | |
| "epoch": 1.9555555555555557, | |
| "grad_norm": 2.2199928760528564, | |
| "learning_rate": 1.5334e-05, | |
| "loss": 0.116, | |
| "step": 22000 | |
| }, | |
| { | |
| "epoch": 1.9644444444444444, | |
| "grad_norm": 2.7613635063171387, | |
| "learning_rate": 1.5267333333333332e-05, | |
| "loss": 0.1158, | |
| "step": 22100 | |
| }, | |
| { | |
| "epoch": 1.9733333333333334, | |
| "grad_norm": 2.339095115661621, | |
| "learning_rate": 1.5200666666666667e-05, | |
| "loss": 0.1165, | |
| "step": 22200 | |
| }, | |
| { | |
| "epoch": 1.982222222222222, | |
| "grad_norm": 2.9039108753204346, | |
| "learning_rate": 1.5134e-05, | |
| "loss": 0.1161, | |
| "step": 22300 | |
| }, | |
| { | |
| "epoch": 1.991111111111111, | |
| "grad_norm": 1.7739943265914917, | |
| "learning_rate": 1.5067333333333336e-05, | |
| "loss": 0.1156, | |
| "step": 22400 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "grad_norm": 2.047527551651001, | |
| "learning_rate": 1.5000666666666669e-05, | |
| "loss": 0.1154, | |
| "step": 22500 | |
| }, | |
| { | |
| "epoch": 2.008888888888889, | |
| "grad_norm": 2.352304458618164, | |
| "learning_rate": 1.4934000000000001e-05, | |
| "loss": 0.1158, | |
| "step": 22600 | |
| }, | |
| { | |
| "epoch": 2.017777777777778, | |
| "grad_norm": 2.671964645385742, | |
| "learning_rate": 1.4867333333333334e-05, | |
| "loss": 0.1162, | |
| "step": 22700 | |
| }, | |
| { | |
| "epoch": 2.026666666666667, | |
| "grad_norm": 2.2361083030700684, | |
| "learning_rate": 1.4800666666666667e-05, | |
| "loss": 0.1159, | |
| "step": 22800 | |
| }, | |
| { | |
| "epoch": 2.0355555555555553, | |
| "grad_norm": 2.8421878814697266, | |
| "learning_rate": 1.4734e-05, | |
| "loss": 0.1165, | |
| "step": 22900 | |
| }, | |
| { | |
| "epoch": 2.0444444444444443, | |
| "grad_norm": 2.485544204711914, | |
| "learning_rate": 1.4667333333333334e-05, | |
| "loss": 0.1152, | |
| "step": 23000 | |
| }, | |
| { | |
| "epoch": 2.0533333333333332, | |
| "grad_norm": 2.96846079826355, | |
| "learning_rate": 1.4600666666666667e-05, | |
| "loss": 0.1155, | |
| "step": 23100 | |
| }, | |
| { | |
| "epoch": 2.062222222222222, | |
| "grad_norm": 2.7394907474517822, | |
| "learning_rate": 1.4534e-05, | |
| "loss": 0.1164, | |
| "step": 23200 | |
| }, | |
| { | |
| "epoch": 2.071111111111111, | |
| "grad_norm": 2.4437592029571533, | |
| "learning_rate": 1.4467333333333333e-05, | |
| "loss": 0.1156, | |
| "step": 23300 | |
| }, | |
| { | |
| "epoch": 2.08, | |
| "grad_norm": 2.2288527488708496, | |
| "learning_rate": 1.4400666666666667e-05, | |
| "loss": 0.1158, | |
| "step": 23400 | |
| }, | |
| { | |
| "epoch": 2.088888888888889, | |
| "grad_norm": 2.3188891410827637, | |
| "learning_rate": 1.4334e-05, | |
| "loss": 0.1148, | |
| "step": 23500 | |
| }, | |
| { | |
| "epoch": 2.097777777777778, | |
| "grad_norm": 2.7612464427948, | |
| "learning_rate": 1.4267333333333333e-05, | |
| "loss": 0.1171, | |
| "step": 23600 | |
| }, | |
| { | |
| "epoch": 2.1066666666666665, | |
| "grad_norm": 2.3894736766815186, | |
| "learning_rate": 1.4200666666666666e-05, | |
| "loss": 0.1148, | |
| "step": 23700 | |
| }, | |
| { | |
| "epoch": 2.1155555555555554, | |
| "grad_norm": 2.3277463912963867, | |
| "learning_rate": 1.4134e-05, | |
| "loss": 0.1153, | |
| "step": 23800 | |
| }, | |
| { | |
| "epoch": 2.1244444444444444, | |
| "grad_norm": 2.8140342235565186, | |
| "learning_rate": 1.4067333333333333e-05, | |
| "loss": 0.1137, | |
| "step": 23900 | |
| }, | |
| { | |
| "epoch": 2.1333333333333333, | |
| "grad_norm": 2.089547634124756, | |
| "learning_rate": 1.4000666666666666e-05, | |
| "loss": 0.1155, | |
| "step": 24000 | |
| }, | |
| { | |
| "epoch": 2.1422222222222222, | |
| "grad_norm": 3.302685260772705, | |
| "learning_rate": 1.3934e-05, | |
| "loss": 0.1153, | |
| "step": 24100 | |
| }, | |
| { | |
| "epoch": 2.151111111111111, | |
| "grad_norm": 4.049182415008545, | |
| "learning_rate": 1.3867333333333334e-05, | |
| "loss": 0.1157, | |
| "step": 24200 | |
| }, | |
| { | |
| "epoch": 2.16, | |
| "grad_norm": 2.8935699462890625, | |
| "learning_rate": 1.3800666666666666e-05, | |
| "loss": 0.1148, | |
| "step": 24300 | |
| }, | |
| { | |
| "epoch": 2.168888888888889, | |
| "grad_norm": 2.7473628520965576, | |
| "learning_rate": 1.3734e-05, | |
| "loss": 0.1163, | |
| "step": 24400 | |
| }, | |
| { | |
| "epoch": 2.1777777777777776, | |
| "grad_norm": 2.5902512073516846, | |
| "learning_rate": 1.3667333333333334e-05, | |
| "loss": 0.1166, | |
| "step": 24500 | |
| }, | |
| { | |
| "epoch": 2.1866666666666665, | |
| "grad_norm": 2.7223613262176514, | |
| "learning_rate": 1.3600666666666667e-05, | |
| "loss": 0.1162, | |
| "step": 24600 | |
| }, | |
| { | |
| "epoch": 2.1955555555555555, | |
| "grad_norm": 2.1939899921417236, | |
| "learning_rate": 1.3534e-05, | |
| "loss": 0.1154, | |
| "step": 24700 | |
| }, | |
| { | |
| "epoch": 2.2044444444444444, | |
| "grad_norm": 2.0452585220336914, | |
| "learning_rate": 1.3467333333333332e-05, | |
| "loss": 0.1152, | |
| "step": 24800 | |
| }, | |
| { | |
| "epoch": 2.2133333333333334, | |
| "grad_norm": 1.8646681308746338, | |
| "learning_rate": 1.3400666666666667e-05, | |
| "loss": 0.1155, | |
| "step": 24900 | |
| }, | |
| { | |
| "epoch": 2.2222222222222223, | |
| "grad_norm": 1.9449495077133179, | |
| "learning_rate": 1.3334000000000001e-05, | |
| "loss": 0.1152, | |
| "step": 25000 | |
| }, | |
| { | |
| "epoch": 2.2222222222222223, | |
| "eval_loss": 0.11821907013654709, | |
| "eval_runtime": 205.4004, | |
| "eval_samples_per_second": 48.685, | |
| "eval_steps_per_second": 6.086, | |
| "step": 25000 | |
| }, | |
| { | |
| "epoch": 2.2311111111111113, | |
| "grad_norm": 2.43855881690979, | |
| "learning_rate": 1.3267333333333334e-05, | |
| "loss": 0.1152, | |
| "step": 25100 | |
| }, | |
| { | |
| "epoch": 2.24, | |
| "grad_norm": 2.259459972381592, | |
| "learning_rate": 1.3200666666666667e-05, | |
| "loss": 0.1166, | |
| "step": 25200 | |
| }, | |
| { | |
| "epoch": 2.2488888888888887, | |
| "grad_norm": 1.6553391218185425, | |
| "learning_rate": 1.3134000000000002e-05, | |
| "loss": 0.1161, | |
| "step": 25300 | |
| }, | |
| { | |
| "epoch": 2.2577777777777777, | |
| "grad_norm": 2.632042407989502, | |
| "learning_rate": 1.3067333333333334e-05, | |
| "loss": 0.1158, | |
| "step": 25400 | |
| }, | |
| { | |
| "epoch": 2.2666666666666666, | |
| "grad_norm": 1.961142897605896, | |
| "learning_rate": 1.3000666666666667e-05, | |
| "loss": 0.1155, | |
| "step": 25500 | |
| }, | |
| { | |
| "epoch": 2.2755555555555556, | |
| "grad_norm": 3.4109835624694824, | |
| "learning_rate": 1.2934e-05, | |
| "loss": 0.1157, | |
| "step": 25600 | |
| }, | |
| { | |
| "epoch": 2.2844444444444445, | |
| "grad_norm": 1.8419948816299438, | |
| "learning_rate": 1.2867333333333335e-05, | |
| "loss": 0.1155, | |
| "step": 25700 | |
| }, | |
| { | |
| "epoch": 2.2933333333333334, | |
| "grad_norm": 1.9801756143569946, | |
| "learning_rate": 1.2800666666666668e-05, | |
| "loss": 0.1158, | |
| "step": 25800 | |
| }, | |
| { | |
| "epoch": 2.3022222222222224, | |
| "grad_norm": 2.43862247467041, | |
| "learning_rate": 1.2734e-05, | |
| "loss": 0.1153, | |
| "step": 25900 | |
| }, | |
| { | |
| "epoch": 2.311111111111111, | |
| "grad_norm": 2.5168206691741943, | |
| "learning_rate": 1.2667333333333333e-05, | |
| "loss": 0.1156, | |
| "step": 26000 | |
| }, | |
| { | |
| "epoch": 2.32, | |
| "grad_norm": 1.8565939664840698, | |
| "learning_rate": 1.2600666666666668e-05, | |
| "loss": 0.1152, | |
| "step": 26100 | |
| }, | |
| { | |
| "epoch": 2.328888888888889, | |
| "grad_norm": 2.830747127532959, | |
| "learning_rate": 1.2534e-05, | |
| "loss": 0.1162, | |
| "step": 26200 | |
| }, | |
| { | |
| "epoch": 2.3377777777777777, | |
| "grad_norm": 2.1019651889801025, | |
| "learning_rate": 1.2467333333333333e-05, | |
| "loss": 0.1133, | |
| "step": 26300 | |
| }, | |
| { | |
| "epoch": 2.3466666666666667, | |
| "grad_norm": 2.217740774154663, | |
| "learning_rate": 1.2400666666666666e-05, | |
| "loss": 0.1152, | |
| "step": 26400 | |
| }, | |
| { | |
| "epoch": 2.3555555555555556, | |
| "grad_norm": 2.361687660217285, | |
| "learning_rate": 1.2334e-05, | |
| "loss": 0.1156, | |
| "step": 26500 | |
| }, | |
| { | |
| "epoch": 2.3644444444444446, | |
| "grad_norm": 2.0507583618164062, | |
| "learning_rate": 1.2267333333333334e-05, | |
| "loss": 0.1159, | |
| "step": 26600 | |
| }, | |
| { | |
| "epoch": 2.3733333333333335, | |
| "grad_norm": 2.8861610889434814, | |
| "learning_rate": 1.2200666666666667e-05, | |
| "loss": 0.1151, | |
| "step": 26700 | |
| }, | |
| { | |
| "epoch": 2.3822222222222225, | |
| "grad_norm": 1.8134089708328247, | |
| "learning_rate": 1.2134e-05, | |
| "loss": 0.1154, | |
| "step": 26800 | |
| }, | |
| { | |
| "epoch": 2.391111111111111, | |
| "grad_norm": 2.0537240505218506, | |
| "learning_rate": 1.2067333333333334e-05, | |
| "loss": 0.1159, | |
| "step": 26900 | |
| }, | |
| { | |
| "epoch": 2.4, | |
| "grad_norm": 2.097390651702881, | |
| "learning_rate": 1.2000666666666667e-05, | |
| "loss": 0.1161, | |
| "step": 27000 | |
| }, | |
| { | |
| "epoch": 2.408888888888889, | |
| "grad_norm": 2.088944435119629, | |
| "learning_rate": 1.1934e-05, | |
| "loss": 0.1146, | |
| "step": 27100 | |
| }, | |
| { | |
| "epoch": 2.417777777777778, | |
| "grad_norm": 2.133535385131836, | |
| "learning_rate": 1.1867333333333332e-05, | |
| "loss": 0.1159, | |
| "step": 27200 | |
| }, | |
| { | |
| "epoch": 2.4266666666666667, | |
| "grad_norm": 1.7839490175247192, | |
| "learning_rate": 1.1800666666666667e-05, | |
| "loss": 0.1151, | |
| "step": 27300 | |
| }, | |
| { | |
| "epoch": 2.4355555555555557, | |
| "grad_norm": 2.6169657707214355, | |
| "learning_rate": 1.1734e-05, | |
| "loss": 0.1163, | |
| "step": 27400 | |
| }, | |
| { | |
| "epoch": 2.4444444444444446, | |
| "grad_norm": 2.3692398071289062, | |
| "learning_rate": 1.1667333333333333e-05, | |
| "loss": 0.1154, | |
| "step": 27500 | |
| }, | |
| { | |
| "epoch": 2.453333333333333, | |
| "grad_norm": 2.067922353744507, | |
| "learning_rate": 1.1600666666666667e-05, | |
| "loss": 0.1164, | |
| "step": 27600 | |
| }, | |
| { | |
| "epoch": 2.462222222222222, | |
| "grad_norm": 2.0473413467407227, | |
| "learning_rate": 1.1534e-05, | |
| "loss": 0.1163, | |
| "step": 27700 | |
| }, | |
| { | |
| "epoch": 2.471111111111111, | |
| "grad_norm": 2.808614730834961, | |
| "learning_rate": 1.1467333333333333e-05, | |
| "loss": 0.1156, | |
| "step": 27800 | |
| }, | |
| { | |
| "epoch": 2.48, | |
| "grad_norm": 2.913728713989258, | |
| "learning_rate": 1.1400666666666666e-05, | |
| "loss": 0.116, | |
| "step": 27900 | |
| }, | |
| { | |
| "epoch": 2.488888888888889, | |
| "grad_norm": 1.912876009941101, | |
| "learning_rate": 1.1334e-05, | |
| "loss": 0.1152, | |
| "step": 28000 | |
| }, | |
| { | |
| "epoch": 2.497777777777778, | |
| "grad_norm": 1.86778724193573, | |
| "learning_rate": 1.1267333333333333e-05, | |
| "loss": 0.1153, | |
| "step": 28100 | |
| }, | |
| { | |
| "epoch": 2.506666666666667, | |
| "grad_norm": 2.0126466751098633, | |
| "learning_rate": 1.1200666666666668e-05, | |
| "loss": 0.1158, | |
| "step": 28200 | |
| }, | |
| { | |
| "epoch": 2.5155555555555553, | |
| "grad_norm": 3.1814756393432617, | |
| "learning_rate": 1.1134e-05, | |
| "loss": 0.1141, | |
| "step": 28300 | |
| }, | |
| { | |
| "epoch": 2.5244444444444447, | |
| "grad_norm": 1.9883755445480347, | |
| "learning_rate": 1.1067333333333335e-05, | |
| "loss": 0.1166, | |
| "step": 28400 | |
| }, | |
| { | |
| "epoch": 2.533333333333333, | |
| "grad_norm": 2.183955192565918, | |
| "learning_rate": 1.1000666666666668e-05, | |
| "loss": 0.1148, | |
| "step": 28500 | |
| }, | |
| { | |
| "epoch": 2.542222222222222, | |
| "grad_norm": 1.8114796876907349, | |
| "learning_rate": 1.0934e-05, | |
| "loss": 0.1152, | |
| "step": 28600 | |
| }, | |
| { | |
| "epoch": 2.551111111111111, | |
| "grad_norm": 2.805391550064087, | |
| "learning_rate": 1.0867333333333334e-05, | |
| "loss": 0.1167, | |
| "step": 28700 | |
| }, | |
| { | |
| "epoch": 2.56, | |
| "grad_norm": 1.9589388370513916, | |
| "learning_rate": 1.0800666666666668e-05, | |
| "loss": 0.1159, | |
| "step": 28800 | |
| }, | |
| { | |
| "epoch": 2.568888888888889, | |
| "grad_norm": 2.483231782913208, | |
| "learning_rate": 1.0734000000000001e-05, | |
| "loss": 0.1164, | |
| "step": 28900 | |
| }, | |
| { | |
| "epoch": 2.5777777777777775, | |
| "grad_norm": 2.146597385406494, | |
| "learning_rate": 1.0667333333333334e-05, | |
| "loss": 0.1157, | |
| "step": 29000 | |
| }, | |
| { | |
| "epoch": 2.586666666666667, | |
| "grad_norm": 2.4722535610198975, | |
| "learning_rate": 1.0600666666666667e-05, | |
| "loss": 0.1152, | |
| "step": 29100 | |
| }, | |
| { | |
| "epoch": 2.5955555555555554, | |
| "grad_norm": 2.1983442306518555, | |
| "learning_rate": 1.0534000000000001e-05, | |
| "loss": 0.1157, | |
| "step": 29200 | |
| }, | |
| { | |
| "epoch": 2.6044444444444443, | |
| "grad_norm": 2.2970950603485107, | |
| "learning_rate": 1.0467333333333334e-05, | |
| "loss": 0.1157, | |
| "step": 29300 | |
| }, | |
| { | |
| "epoch": 2.6133333333333333, | |
| "grad_norm": 2.0761561393737793, | |
| "learning_rate": 1.0400666666666667e-05, | |
| "loss": 0.1158, | |
| "step": 29400 | |
| }, | |
| { | |
| "epoch": 2.6222222222222222, | |
| "grad_norm": 2.563446283340454, | |
| "learning_rate": 1.0334e-05, | |
| "loss": 0.1148, | |
| "step": 29500 | |
| }, | |
| { | |
| "epoch": 2.631111111111111, | |
| "grad_norm": 1.857676386833191, | |
| "learning_rate": 1.0267333333333334e-05, | |
| "loss": 0.1156, | |
| "step": 29600 | |
| }, | |
| { | |
| "epoch": 2.64, | |
| "grad_norm": 1.8866102695465088, | |
| "learning_rate": 1.0200666666666667e-05, | |
| "loss": 0.1161, | |
| "step": 29700 | |
| }, | |
| { | |
| "epoch": 2.648888888888889, | |
| "grad_norm": 2.0575530529022217, | |
| "learning_rate": 1.0134e-05, | |
| "loss": 0.1147, | |
| "step": 29800 | |
| }, | |
| { | |
| "epoch": 2.6577777777777776, | |
| "grad_norm": 2.034001111984253, | |
| "learning_rate": 1.0067333333333333e-05, | |
| "loss": 0.1157, | |
| "step": 29900 | |
| }, | |
| { | |
| "epoch": 2.6666666666666665, | |
| "grad_norm": 2.0795133113861084, | |
| "learning_rate": 1.0000666666666667e-05, | |
| "loss": 0.1148, | |
| "step": 30000 | |
| }, | |
| { | |
| "epoch": 2.6666666666666665, | |
| "eval_loss": 0.11856765300035477, | |
| "eval_runtime": 205.9117, | |
| "eval_samples_per_second": 48.565, | |
| "eval_steps_per_second": 6.071, | |
| "step": 30000 | |
| }, | |
| { | |
| "epoch": 2.6755555555555555, | |
| "grad_norm": 1.806398630142212, | |
| "learning_rate": 9.934e-06, | |
| "loss": 0.1157, | |
| "step": 30100 | |
| }, | |
| { | |
| "epoch": 2.6844444444444444, | |
| "grad_norm": 2.670499563217163, | |
| "learning_rate": 9.867333333333333e-06, | |
| "loss": 0.1158, | |
| "step": 30200 | |
| }, | |
| { | |
| "epoch": 2.6933333333333334, | |
| "grad_norm": 2.7029168605804443, | |
| "learning_rate": 9.800666666666666e-06, | |
| "loss": 0.1158, | |
| "step": 30300 | |
| }, | |
| { | |
| "epoch": 2.7022222222222223, | |
| "grad_norm": 2.2368838787078857, | |
| "learning_rate": 9.734e-06, | |
| "loss": 0.1158, | |
| "step": 30400 | |
| }, | |
| { | |
| "epoch": 2.7111111111111112, | |
| "grad_norm": 2.2548608779907227, | |
| "learning_rate": 9.667333333333333e-06, | |
| "loss": 0.1158, | |
| "step": 30500 | |
| }, | |
| { | |
| "epoch": 2.7199999999999998, | |
| "grad_norm": 2.935089588165283, | |
| "learning_rate": 9.600666666666666e-06, | |
| "loss": 0.1158, | |
| "step": 30600 | |
| }, | |
| { | |
| "epoch": 2.728888888888889, | |
| "grad_norm": 2.124918222427368, | |
| "learning_rate": 9.534e-06, | |
| "loss": 0.116, | |
| "step": 30700 | |
| }, | |
| { | |
| "epoch": 2.7377777777777776, | |
| "grad_norm": 2.378983736038208, | |
| "learning_rate": 9.467333333333333e-06, | |
| "loss": 0.1151, | |
| "step": 30800 | |
| }, | |
| { | |
| "epoch": 2.7466666666666666, | |
| "grad_norm": 2.25007963180542, | |
| "learning_rate": 9.400666666666666e-06, | |
| "loss": 0.1149, | |
| "step": 30900 | |
| }, | |
| { | |
| "epoch": 2.7555555555555555, | |
| "grad_norm": 2.59733510017395, | |
| "learning_rate": 9.333999999999999e-06, | |
| "loss": 0.1161, | |
| "step": 31000 | |
| }, | |
| { | |
| "epoch": 2.7644444444444445, | |
| "grad_norm": 1.812325119972229, | |
| "learning_rate": 9.267333333333334e-06, | |
| "loss": 0.1138, | |
| "step": 31100 | |
| }, | |
| { | |
| "epoch": 2.7733333333333334, | |
| "grad_norm": 1.9207689762115479, | |
| "learning_rate": 9.200666666666666e-06, | |
| "loss": 0.1147, | |
| "step": 31200 | |
| }, | |
| { | |
| "epoch": 2.7822222222222224, | |
| "grad_norm": 2.4983069896698, | |
| "learning_rate": 9.134e-06, | |
| "loss": 0.1153, | |
| "step": 31300 | |
| }, | |
| { | |
| "epoch": 2.7911111111111113, | |
| "grad_norm": 2.1139156818389893, | |
| "learning_rate": 9.067333333333334e-06, | |
| "loss": 0.1147, | |
| "step": 31400 | |
| }, | |
| { | |
| "epoch": 2.8, | |
| "grad_norm": 1.7658330202102661, | |
| "learning_rate": 9.000666666666668e-06, | |
| "loss": 0.1149, | |
| "step": 31500 | |
| }, | |
| { | |
| "epoch": 2.8088888888888888, | |
| "grad_norm": 2.7101166248321533, | |
| "learning_rate": 8.934000000000001e-06, | |
| "loss": 0.1159, | |
| "step": 31600 | |
| }, | |
| { | |
| "epoch": 2.8177777777777777, | |
| "grad_norm": 2.397491455078125, | |
| "learning_rate": 8.867333333333334e-06, | |
| "loss": 0.1145, | |
| "step": 31700 | |
| }, | |
| { | |
| "epoch": 2.8266666666666667, | |
| "grad_norm": 1.7462725639343262, | |
| "learning_rate": 8.800666666666667e-06, | |
| "loss": 0.1146, | |
| "step": 31800 | |
| }, | |
| { | |
| "epoch": 2.8355555555555556, | |
| "grad_norm": 1.9845815896987915, | |
| "learning_rate": 8.734000000000001e-06, | |
| "loss": 0.1159, | |
| "step": 31900 | |
| }, | |
| { | |
| "epoch": 2.8444444444444446, | |
| "grad_norm": 2.7019858360290527, | |
| "learning_rate": 8.667333333333334e-06, | |
| "loss": 0.1161, | |
| "step": 32000 | |
| }, | |
| { | |
| "epoch": 2.8533333333333335, | |
| "grad_norm": 2.1721303462982178, | |
| "learning_rate": 8.600666666666667e-06, | |
| "loss": 0.1158, | |
| "step": 32100 | |
| }, | |
| { | |
| "epoch": 2.862222222222222, | |
| "grad_norm": 2.018580436706543, | |
| "learning_rate": 8.534e-06, | |
| "loss": 0.1155, | |
| "step": 32200 | |
| }, | |
| { | |
| "epoch": 2.871111111111111, | |
| "grad_norm": 2.5351226329803467, | |
| "learning_rate": 8.467333333333334e-06, | |
| "loss": 0.1145, | |
| "step": 32300 | |
| }, | |
| { | |
| "epoch": 2.88, | |
| "grad_norm": 2.0548834800720215, | |
| "learning_rate": 8.400666666666667e-06, | |
| "loss": 0.1123, | |
| "step": 32400 | |
| }, | |
| { | |
| "epoch": 2.888888888888889, | |
| "grad_norm": 1.849409818649292, | |
| "learning_rate": 8.334e-06, | |
| "loss": 0.1164, | |
| "step": 32500 | |
| }, | |
| { | |
| "epoch": 2.897777777777778, | |
| "grad_norm": 1.837160348892212, | |
| "learning_rate": 8.267333333333333e-06, | |
| "loss": 0.1149, | |
| "step": 32600 | |
| }, | |
| { | |
| "epoch": 2.9066666666666667, | |
| "grad_norm": 2.0503478050231934, | |
| "learning_rate": 8.200666666666668e-06, | |
| "loss": 0.1156, | |
| "step": 32700 | |
| }, | |
| { | |
| "epoch": 2.9155555555555557, | |
| "grad_norm": 2.295761823654175, | |
| "learning_rate": 8.134e-06, | |
| "loss": 0.1161, | |
| "step": 32800 | |
| }, | |
| { | |
| "epoch": 2.924444444444444, | |
| "grad_norm": 1.939372181892395, | |
| "learning_rate": 8.067333333333333e-06, | |
| "loss": 0.1159, | |
| "step": 32900 | |
| }, | |
| { | |
| "epoch": 2.9333333333333336, | |
| "grad_norm": 2.1088409423828125, | |
| "learning_rate": 8.000666666666666e-06, | |
| "loss": 0.1151, | |
| "step": 33000 | |
| }, | |
| { | |
| "epoch": 2.942222222222222, | |
| "grad_norm": 2.3162732124328613, | |
| "learning_rate": 7.934e-06, | |
| "loss": 0.1146, | |
| "step": 33100 | |
| }, | |
| { | |
| "epoch": 2.951111111111111, | |
| "grad_norm": 2.5189192295074463, | |
| "learning_rate": 7.867333333333333e-06, | |
| "loss": 0.1153, | |
| "step": 33200 | |
| }, | |
| { | |
| "epoch": 2.96, | |
| "grad_norm": 2.011211633682251, | |
| "learning_rate": 7.800666666666666e-06, | |
| "loss": 0.1154, | |
| "step": 33300 | |
| }, | |
| { | |
| "epoch": 2.968888888888889, | |
| "grad_norm": 2.14790415763855, | |
| "learning_rate": 7.733999999999999e-06, | |
| "loss": 0.1158, | |
| "step": 33400 | |
| }, | |
| { | |
| "epoch": 2.977777777777778, | |
| "grad_norm": 1.6173288822174072, | |
| "learning_rate": 7.667333333333334e-06, | |
| "loss": 0.1154, | |
| "step": 33500 | |
| }, | |
| { | |
| "epoch": 2.986666666666667, | |
| "grad_norm": 2.406761407852173, | |
| "learning_rate": 7.6006666666666665e-06, | |
| "loss": 0.1162, | |
| "step": 33600 | |
| }, | |
| { | |
| "epoch": 2.9955555555555557, | |
| "grad_norm": 1.9551059007644653, | |
| "learning_rate": 7.533999999999999e-06, | |
| "loss": 0.1152, | |
| "step": 33700 | |
| }, | |
| { | |
| "epoch": 3.0044444444444443, | |
| "grad_norm": 3.290292263031006, | |
| "learning_rate": 7.467333333333334e-06, | |
| "loss": 0.1139, | |
| "step": 33800 | |
| }, | |
| { | |
| "epoch": 3.013333333333333, | |
| "grad_norm": 1.8533827066421509, | |
| "learning_rate": 7.400666666666668e-06, | |
| "loss": 0.115, | |
| "step": 33900 | |
| }, | |
| { | |
| "epoch": 3.022222222222222, | |
| "grad_norm": 2.736829996109009, | |
| "learning_rate": 7.3340000000000004e-06, | |
| "loss": 0.1166, | |
| "step": 34000 | |
| }, | |
| { | |
| "epoch": 3.031111111111111, | |
| "grad_norm": 1.9183787107467651, | |
| "learning_rate": 7.267333333333334e-06, | |
| "loss": 0.1156, | |
| "step": 34100 | |
| }, | |
| { | |
| "epoch": 3.04, | |
| "grad_norm": 2.566490411758423, | |
| "learning_rate": 7.200666666666667e-06, | |
| "loss": 0.1144, | |
| "step": 34200 | |
| }, | |
| { | |
| "epoch": 3.048888888888889, | |
| "grad_norm": 1.9702024459838867, | |
| "learning_rate": 7.134000000000001e-06, | |
| "loss": 0.1155, | |
| "step": 34300 | |
| }, | |
| { | |
| "epoch": 3.057777777777778, | |
| "grad_norm": 1.7992531061172485, | |
| "learning_rate": 7.0673333333333335e-06, | |
| "loss": 0.115, | |
| "step": 34400 | |
| }, | |
| { | |
| "epoch": 3.066666666666667, | |
| "grad_norm": 2.741799831390381, | |
| "learning_rate": 7.000666666666667e-06, | |
| "loss": 0.1135, | |
| "step": 34500 | |
| }, | |
| { | |
| "epoch": 3.0755555555555554, | |
| "grad_norm": 2.1746695041656494, | |
| "learning_rate": 6.934e-06, | |
| "loss": 0.1157, | |
| "step": 34600 | |
| }, | |
| { | |
| "epoch": 3.0844444444444443, | |
| "grad_norm": 2.317960023880005, | |
| "learning_rate": 6.867333333333334e-06, | |
| "loss": 0.116, | |
| "step": 34700 | |
| }, | |
| { | |
| "epoch": 3.0933333333333333, | |
| "grad_norm": 2.2601873874664307, | |
| "learning_rate": 6.8006666666666666e-06, | |
| "loss": 0.1166, | |
| "step": 34800 | |
| }, | |
| { | |
| "epoch": 3.102222222222222, | |
| "grad_norm": 2.3944337368011475, | |
| "learning_rate": 6.734e-06, | |
| "loss": 0.1148, | |
| "step": 34900 | |
| }, | |
| { | |
| "epoch": 3.111111111111111, | |
| "grad_norm": 1.8338050842285156, | |
| "learning_rate": 6.667333333333333e-06, | |
| "loss": 0.1162, | |
| "step": 35000 | |
| }, | |
| { | |
| "epoch": 3.111111111111111, | |
| "eval_loss": 0.11784859746694565, | |
| "eval_runtime": 222.7792, | |
| "eval_samples_per_second": 44.887, | |
| "eval_steps_per_second": 5.611, | |
| "step": 35000 | |
| }, | |
| { | |
| "epoch": 3.12, | |
| "grad_norm": 2.1952126026153564, | |
| "learning_rate": 6.600666666666667e-06, | |
| "loss": 0.1155, | |
| "step": 35100 | |
| }, | |
| { | |
| "epoch": 3.128888888888889, | |
| "grad_norm": 2.4511802196502686, | |
| "learning_rate": 6.534e-06, | |
| "loss": 0.1161, | |
| "step": 35200 | |
| }, | |
| { | |
| "epoch": 3.137777777777778, | |
| "grad_norm": 2.5017638206481934, | |
| "learning_rate": 6.467333333333333e-06, | |
| "loss": 0.1151, | |
| "step": 35300 | |
| }, | |
| { | |
| "epoch": 3.1466666666666665, | |
| "grad_norm": 2.345991373062134, | |
| "learning_rate": 6.400666666666667e-06, | |
| "loss": 0.1161, | |
| "step": 35400 | |
| }, | |
| { | |
| "epoch": 3.1555555555555554, | |
| "grad_norm": 2.8866028785705566, | |
| "learning_rate": 6.334000000000001e-06, | |
| "loss": 0.1156, | |
| "step": 35500 | |
| }, | |
| { | |
| "epoch": 3.1644444444444444, | |
| "grad_norm": 2.9575486183166504, | |
| "learning_rate": 6.2673333333333335e-06, | |
| "loss": 0.1142, | |
| "step": 35600 | |
| }, | |
| { | |
| "epoch": 3.1733333333333333, | |
| "grad_norm": 2.0834195613861084, | |
| "learning_rate": 6.200666666666667e-06, | |
| "loss": 0.1155, | |
| "step": 35700 | |
| }, | |
| { | |
| "epoch": 3.1822222222222223, | |
| "grad_norm": 2.265125036239624, | |
| "learning_rate": 6.134e-06, | |
| "loss": 0.1153, | |
| "step": 35800 | |
| }, | |
| { | |
| "epoch": 3.1911111111111112, | |
| "grad_norm": 1.915515661239624, | |
| "learning_rate": 6.067333333333334e-06, | |
| "loss": 0.1156, | |
| "step": 35900 | |
| }, | |
| { | |
| "epoch": 3.2, | |
| "grad_norm": 1.5453358888626099, | |
| "learning_rate": 6.000666666666667e-06, | |
| "loss": 0.1159, | |
| "step": 36000 | |
| }, | |
| { | |
| "epoch": 3.2088888888888887, | |
| "grad_norm": 3.102155923843384, | |
| "learning_rate": 5.934e-06, | |
| "loss": 0.1159, | |
| "step": 36100 | |
| }, | |
| { | |
| "epoch": 3.2177777777777776, | |
| "grad_norm": 1.9122494459152222, | |
| "learning_rate": 5.867333333333333e-06, | |
| "loss": 0.1152, | |
| "step": 36200 | |
| }, | |
| { | |
| "epoch": 3.2266666666666666, | |
| "grad_norm": 3.5081045627593994, | |
| "learning_rate": 5.800666666666667e-06, | |
| "loss": 0.1155, | |
| "step": 36300 | |
| }, | |
| { | |
| "epoch": 3.2355555555555555, | |
| "grad_norm": 2.1976592540740967, | |
| "learning_rate": 5.734e-06, | |
| "loss": 0.1153, | |
| "step": 36400 | |
| }, | |
| { | |
| "epoch": 3.2444444444444445, | |
| "grad_norm": 1.8369086980819702, | |
| "learning_rate": 5.667333333333333e-06, | |
| "loss": 0.1144, | |
| "step": 36500 | |
| }, | |
| { | |
| "epoch": 3.2533333333333334, | |
| "grad_norm": 2.886779308319092, | |
| "learning_rate": 5.600666666666666e-06, | |
| "loss": 0.1137, | |
| "step": 36600 | |
| }, | |
| { | |
| "epoch": 3.2622222222222224, | |
| "grad_norm": 2.462570905685425, | |
| "learning_rate": 5.534e-06, | |
| "loss": 0.1149, | |
| "step": 36700 | |
| }, | |
| { | |
| "epoch": 3.2711111111111113, | |
| "grad_norm": 2.79964017868042, | |
| "learning_rate": 5.467333333333333e-06, | |
| "loss": 0.1144, | |
| "step": 36800 | |
| }, | |
| { | |
| "epoch": 3.2800000000000002, | |
| "grad_norm": 2.734807014465332, | |
| "learning_rate": 5.400666666666666e-06, | |
| "loss": 0.1165, | |
| "step": 36900 | |
| }, | |
| { | |
| "epoch": 3.2888888888888888, | |
| "grad_norm": 2.096987247467041, | |
| "learning_rate": 5.334000000000001e-06, | |
| "loss": 0.1152, | |
| "step": 37000 | |
| }, | |
| { | |
| "epoch": 3.2977777777777777, | |
| "grad_norm": 2.1545772552490234, | |
| "learning_rate": 5.267333333333334e-06, | |
| "loss": 0.1159, | |
| "step": 37100 | |
| }, | |
| { | |
| "epoch": 3.3066666666666666, | |
| "grad_norm": 2.877927780151367, | |
| "learning_rate": 5.2006666666666675e-06, | |
| "loss": 0.1145, | |
| "step": 37200 | |
| }, | |
| { | |
| "epoch": 3.3155555555555556, | |
| "grad_norm": 2.041455030441284, | |
| "learning_rate": 5.134e-06, | |
| "loss": 0.1146, | |
| "step": 37300 | |
| }, | |
| { | |
| "epoch": 3.3244444444444445, | |
| "grad_norm": 3.838764190673828, | |
| "learning_rate": 5.067333333333334e-06, | |
| "loss": 0.115, | |
| "step": 37400 | |
| }, | |
| { | |
| "epoch": 3.3333333333333335, | |
| "grad_norm": 2.4776864051818848, | |
| "learning_rate": 5.000666666666667e-06, | |
| "loss": 0.1153, | |
| "step": 37500 | |
| }, | |
| { | |
| "epoch": 3.3422222222222224, | |
| "grad_norm": 2.534553050994873, | |
| "learning_rate": 4.9340000000000005e-06, | |
| "loss": 0.1154, | |
| "step": 37600 | |
| }, | |
| { | |
| "epoch": 3.351111111111111, | |
| "grad_norm": 2.8918344974517822, | |
| "learning_rate": 4.867333333333333e-06, | |
| "loss": 0.1148, | |
| "step": 37700 | |
| }, | |
| { | |
| "epoch": 3.36, | |
| "grad_norm": 2.2287111282348633, | |
| "learning_rate": 4.800666666666667e-06, | |
| "loss": 0.1154, | |
| "step": 37800 | |
| }, | |
| { | |
| "epoch": 3.368888888888889, | |
| "grad_norm": 1.7449971437454224, | |
| "learning_rate": 4.734e-06, | |
| "loss": 0.1135, | |
| "step": 37900 | |
| }, | |
| { | |
| "epoch": 3.3777777777777778, | |
| "grad_norm": 1.7717570066452026, | |
| "learning_rate": 4.667333333333334e-06, | |
| "loss": 0.1159, | |
| "step": 38000 | |
| }, | |
| { | |
| "epoch": 3.3866666666666667, | |
| "grad_norm": 2.641322135925293, | |
| "learning_rate": 4.6006666666666664e-06, | |
| "loss": 0.115, | |
| "step": 38100 | |
| }, | |
| { | |
| "epoch": 3.3955555555555557, | |
| "grad_norm": 2.314724922180176, | |
| "learning_rate": 4.534e-06, | |
| "loss": 0.1155, | |
| "step": 38200 | |
| }, | |
| { | |
| "epoch": 3.4044444444444446, | |
| "grad_norm": 2.006136894226074, | |
| "learning_rate": 4.467333333333333e-06, | |
| "loss": 0.1151, | |
| "step": 38300 | |
| }, | |
| { | |
| "epoch": 3.413333333333333, | |
| "grad_norm": 2.498370885848999, | |
| "learning_rate": 4.400666666666667e-06, | |
| "loss": 0.1135, | |
| "step": 38400 | |
| }, | |
| { | |
| "epoch": 3.422222222222222, | |
| "grad_norm": 2.1067326068878174, | |
| "learning_rate": 4.3339999999999995e-06, | |
| "loss": 0.1142, | |
| "step": 38500 | |
| }, | |
| { | |
| "epoch": 3.431111111111111, | |
| "grad_norm": 2.3120410442352295, | |
| "learning_rate": 4.267333333333334e-06, | |
| "loss": 0.1156, | |
| "step": 38600 | |
| }, | |
| { | |
| "epoch": 3.44, | |
| "grad_norm": 2.062558650970459, | |
| "learning_rate": 4.200666666666667e-06, | |
| "loss": 0.1146, | |
| "step": 38700 | |
| }, | |
| { | |
| "epoch": 3.448888888888889, | |
| "grad_norm": 1.8033158779144287, | |
| "learning_rate": 4.1340000000000006e-06, | |
| "loss": 0.1142, | |
| "step": 38800 | |
| }, | |
| { | |
| "epoch": 3.457777777777778, | |
| "grad_norm": 1.7999958992004395, | |
| "learning_rate": 4.067333333333333e-06, | |
| "loss": 0.1152, | |
| "step": 38900 | |
| }, | |
| { | |
| "epoch": 3.466666666666667, | |
| "grad_norm": 1.9380857944488525, | |
| "learning_rate": 4.000666666666667e-06, | |
| "loss": 0.1159, | |
| "step": 39000 | |
| }, | |
| { | |
| "epoch": 3.4755555555555557, | |
| "grad_norm": 2.4088852405548096, | |
| "learning_rate": 3.934e-06, | |
| "loss": 0.1142, | |
| "step": 39100 | |
| }, | |
| { | |
| "epoch": 3.4844444444444447, | |
| "grad_norm": 1.9888384342193604, | |
| "learning_rate": 3.867333333333334e-06, | |
| "loss": 0.1131, | |
| "step": 39200 | |
| }, | |
| { | |
| "epoch": 3.493333333333333, | |
| "grad_norm": 2.044527530670166, | |
| "learning_rate": 3.8006666666666665e-06, | |
| "loss": 0.1145, | |
| "step": 39300 | |
| }, | |
| { | |
| "epoch": 3.502222222222222, | |
| "grad_norm": 1.478445291519165, | |
| "learning_rate": 3.734e-06, | |
| "loss": 0.114, | |
| "step": 39400 | |
| }, | |
| { | |
| "epoch": 3.511111111111111, | |
| "grad_norm": 2.0271923542022705, | |
| "learning_rate": 3.6673333333333334e-06, | |
| "loss": 0.1148, | |
| "step": 39500 | |
| }, | |
| { | |
| "epoch": 3.52, | |
| "grad_norm": 2.7675399780273438, | |
| "learning_rate": 3.6006666666666667e-06, | |
| "loss": 0.116, | |
| "step": 39600 | |
| }, | |
| { | |
| "epoch": 3.528888888888889, | |
| "grad_norm": 1.6932669878005981, | |
| "learning_rate": 3.534e-06, | |
| "loss": 0.1142, | |
| "step": 39700 | |
| }, | |
| { | |
| "epoch": 3.537777777777778, | |
| "grad_norm": 2.0795860290527344, | |
| "learning_rate": 3.4673333333333337e-06, | |
| "loss": 0.1148, | |
| "step": 39800 | |
| }, | |
| { | |
| "epoch": 3.546666666666667, | |
| "grad_norm": 1.9962270259857178, | |
| "learning_rate": 3.400666666666667e-06, | |
| "loss": 0.1147, | |
| "step": 39900 | |
| }, | |
| { | |
| "epoch": 3.5555555555555554, | |
| "grad_norm": 1.931861400604248, | |
| "learning_rate": 3.334e-06, | |
| "loss": 0.1144, | |
| "step": 40000 | |
| }, | |
| { | |
| "epoch": 3.5555555555555554, | |
| "eval_loss": 0.11772522330284119, | |
| "eval_runtime": 222.4728, | |
| "eval_samples_per_second": 44.949, | |
| "eval_steps_per_second": 5.619, | |
| "step": 40000 | |
| }, | |
| { | |
| "epoch": 3.5644444444444443, | |
| "grad_norm": 2.4488837718963623, | |
| "learning_rate": 3.2673333333333334e-06, | |
| "loss": 0.1145, | |
| "step": 40100 | |
| }, | |
| { | |
| "epoch": 3.5733333333333333, | |
| "grad_norm": 2.099616050720215, | |
| "learning_rate": 3.2006666666666667e-06, | |
| "loss": 0.115, | |
| "step": 40200 | |
| }, | |
| { | |
| "epoch": 3.582222222222222, | |
| "grad_norm": 2.275487184524536, | |
| "learning_rate": 3.134e-06, | |
| "loss": 0.1155, | |
| "step": 40300 | |
| }, | |
| { | |
| "epoch": 3.591111111111111, | |
| "grad_norm": 2.2421047687530518, | |
| "learning_rate": 3.0673333333333332e-06, | |
| "loss": 0.1139, | |
| "step": 40400 | |
| }, | |
| { | |
| "epoch": 3.6, | |
| "grad_norm": 1.8405983448028564, | |
| "learning_rate": 3.0006666666666665e-06, | |
| "loss": 0.1132, | |
| "step": 40500 | |
| }, | |
| { | |
| "epoch": 3.608888888888889, | |
| "grad_norm": 2.1309421062469482, | |
| "learning_rate": 2.934e-06, | |
| "loss": 0.1165, | |
| "step": 40600 | |
| }, | |
| { | |
| "epoch": 3.6177777777777775, | |
| "grad_norm": 2.048819065093994, | |
| "learning_rate": 2.8673333333333335e-06, | |
| "loss": 0.1152, | |
| "step": 40700 | |
| }, | |
| { | |
| "epoch": 3.626666666666667, | |
| "grad_norm": 1.7024204730987549, | |
| "learning_rate": 2.8006666666666667e-06, | |
| "loss": 0.1156, | |
| "step": 40800 | |
| }, | |
| { | |
| "epoch": 3.6355555555555554, | |
| "grad_norm": 1.748242974281311, | |
| "learning_rate": 2.734e-06, | |
| "loss": 0.1151, | |
| "step": 40900 | |
| }, | |
| { | |
| "epoch": 3.6444444444444444, | |
| "grad_norm": 1.976176142692566, | |
| "learning_rate": 2.6673333333333333e-06, | |
| "loss": 0.1145, | |
| "step": 41000 | |
| }, | |
| { | |
| "epoch": 3.6533333333333333, | |
| "grad_norm": 2.0815675258636475, | |
| "learning_rate": 2.6006666666666665e-06, | |
| "loss": 0.115, | |
| "step": 41100 | |
| }, | |
| { | |
| "epoch": 3.6622222222222223, | |
| "grad_norm": 1.9975913763046265, | |
| "learning_rate": 2.534e-06, | |
| "loss": 0.1147, | |
| "step": 41200 | |
| }, | |
| { | |
| "epoch": 3.671111111111111, | |
| "grad_norm": 2.068807363510132, | |
| "learning_rate": 2.467333333333333e-06, | |
| "loss": 0.115, | |
| "step": 41300 | |
| }, | |
| { | |
| "epoch": 3.68, | |
| "grad_norm": 2.1508102416992188, | |
| "learning_rate": 2.4006666666666667e-06, | |
| "loss": 0.1156, | |
| "step": 41400 | |
| }, | |
| { | |
| "epoch": 3.688888888888889, | |
| "grad_norm": 2.2454254627227783, | |
| "learning_rate": 2.334e-06, | |
| "loss": 0.1153, | |
| "step": 41500 | |
| }, | |
| { | |
| "epoch": 3.6977777777777776, | |
| "grad_norm": 2.6782426834106445, | |
| "learning_rate": 2.2673333333333333e-06, | |
| "loss": 0.1147, | |
| "step": 41600 | |
| }, | |
| { | |
| "epoch": 3.7066666666666666, | |
| "grad_norm": 2.5738117694854736, | |
| "learning_rate": 2.2006666666666665e-06, | |
| "loss": 0.1152, | |
| "step": 41700 | |
| }, | |
| { | |
| "epoch": 3.7155555555555555, | |
| "grad_norm": 2.14444899559021, | |
| "learning_rate": 2.1340000000000002e-06, | |
| "loss": 0.1148, | |
| "step": 41800 | |
| }, | |
| { | |
| "epoch": 3.7244444444444444, | |
| "grad_norm": 2.488896369934082, | |
| "learning_rate": 2.0673333333333335e-06, | |
| "loss": 0.116, | |
| "step": 41900 | |
| }, | |
| { | |
| "epoch": 3.7333333333333334, | |
| "grad_norm": 1.549385905265808, | |
| "learning_rate": 2.0006666666666668e-06, | |
| "loss": 0.1143, | |
| "step": 42000 | |
| }, | |
| { | |
| "epoch": 3.7422222222222223, | |
| "grad_norm": 2.7564737796783447, | |
| "learning_rate": 1.934e-06, | |
| "loss": 0.1145, | |
| "step": 42100 | |
| }, | |
| { | |
| "epoch": 3.7511111111111113, | |
| "grad_norm": 1.8770675659179688, | |
| "learning_rate": 1.8673333333333333e-06, | |
| "loss": 0.1151, | |
| "step": 42200 | |
| }, | |
| { | |
| "epoch": 3.76, | |
| "grad_norm": 1.8028825521469116, | |
| "learning_rate": 1.8006666666666666e-06, | |
| "loss": 0.1142, | |
| "step": 42300 | |
| }, | |
| { | |
| "epoch": 3.7688888888888887, | |
| "grad_norm": 3.0894250869750977, | |
| "learning_rate": 1.734e-06, | |
| "loss": 0.113, | |
| "step": 42400 | |
| }, | |
| { | |
| "epoch": 3.7777777777777777, | |
| "grad_norm": 1.6943740844726562, | |
| "learning_rate": 1.6673333333333333e-06, | |
| "loss": 0.1158, | |
| "step": 42500 | |
| }, | |
| { | |
| "epoch": 3.7866666666666666, | |
| "grad_norm": 2.0735836029052734, | |
| "learning_rate": 1.6006666666666668e-06, | |
| "loss": 0.114, | |
| "step": 42600 | |
| }, | |
| { | |
| "epoch": 3.7955555555555556, | |
| "grad_norm": 2.2292916774749756, | |
| "learning_rate": 1.534e-06, | |
| "loss": 0.114, | |
| "step": 42700 | |
| }, | |
| { | |
| "epoch": 3.8044444444444445, | |
| "grad_norm": 2.780007839202881, | |
| "learning_rate": 1.4673333333333335e-06, | |
| "loss": 0.1149, | |
| "step": 42800 | |
| }, | |
| { | |
| "epoch": 3.8133333333333335, | |
| "grad_norm": 1.9034864902496338, | |
| "learning_rate": 1.4006666666666668e-06, | |
| "loss": 0.1149, | |
| "step": 42900 | |
| }, | |
| { | |
| "epoch": 3.822222222222222, | |
| "grad_norm": 1.8478845357894897, | |
| "learning_rate": 1.334e-06, | |
| "loss": 0.1131, | |
| "step": 43000 | |
| }, | |
| { | |
| "epoch": 3.8311111111111114, | |
| "grad_norm": 2.3863301277160645, | |
| "learning_rate": 1.2673333333333333e-06, | |
| "loss": 0.1151, | |
| "step": 43100 | |
| }, | |
| { | |
| "epoch": 3.84, | |
| "grad_norm": 2.5131964683532715, | |
| "learning_rate": 1.2006666666666668e-06, | |
| "loss": 0.1156, | |
| "step": 43200 | |
| }, | |
| { | |
| "epoch": 3.848888888888889, | |
| "grad_norm": 2.439030885696411, | |
| "learning_rate": 1.134e-06, | |
| "loss": 0.1151, | |
| "step": 43300 | |
| }, | |
| { | |
| "epoch": 3.8577777777777778, | |
| "grad_norm": 1.6926780939102173, | |
| "learning_rate": 1.0673333333333333e-06, | |
| "loss": 0.1149, | |
| "step": 43400 | |
| }, | |
| { | |
| "epoch": 3.8666666666666667, | |
| "grad_norm": 1.7866731882095337, | |
| "learning_rate": 1.0006666666666666e-06, | |
| "loss": 0.1147, | |
| "step": 43500 | |
| }, | |
| { | |
| "epoch": 3.8755555555555556, | |
| "grad_norm": 1.7567743062973022, | |
| "learning_rate": 9.34e-07, | |
| "loss": 0.1125, | |
| "step": 43600 | |
| }, | |
| { | |
| "epoch": 3.8844444444444446, | |
| "grad_norm": 1.9600574970245361, | |
| "learning_rate": 8.673333333333333e-07, | |
| "loss": 0.1145, | |
| "step": 43700 | |
| }, | |
| { | |
| "epoch": 3.8933333333333335, | |
| "grad_norm": 2.4924819469451904, | |
| "learning_rate": 8.006666666666667e-07, | |
| "loss": 0.1147, | |
| "step": 43800 | |
| }, | |
| { | |
| "epoch": 3.902222222222222, | |
| "grad_norm": 1.857824683189392, | |
| "learning_rate": 7.340000000000001e-07, | |
| "loss": 0.1144, | |
| "step": 43900 | |
| }, | |
| { | |
| "epoch": 3.911111111111111, | |
| "grad_norm": 2.3395354747772217, | |
| "learning_rate": 6.673333333333334e-07, | |
| "loss": 0.1156, | |
| "step": 44000 | |
| }, | |
| { | |
| "epoch": 3.92, | |
| "grad_norm": 2.1742966175079346, | |
| "learning_rate": 6.006666666666667e-07, | |
| "loss": 0.1149, | |
| "step": 44100 | |
| }, | |
| { | |
| "epoch": 3.928888888888889, | |
| "grad_norm": 1.9339632987976074, | |
| "learning_rate": 5.34e-07, | |
| "loss": 0.1157, | |
| "step": 44200 | |
| }, | |
| { | |
| "epoch": 3.937777777777778, | |
| "grad_norm": 2.219855785369873, | |
| "learning_rate": 4.673333333333333e-07, | |
| "loss": 0.113, | |
| "step": 44300 | |
| }, | |
| { | |
| "epoch": 3.9466666666666668, | |
| "grad_norm": 2.3561089038848877, | |
| "learning_rate": 4.006666666666667e-07, | |
| "loss": 0.1149, | |
| "step": 44400 | |
| }, | |
| { | |
| "epoch": 3.9555555555555557, | |
| "grad_norm": 1.901092529296875, | |
| "learning_rate": 3.34e-07, | |
| "loss": 0.1152, | |
| "step": 44500 | |
| }, | |
| { | |
| "epoch": 3.964444444444444, | |
| "grad_norm": 2.4958181381225586, | |
| "learning_rate": 2.673333333333333e-07, | |
| "loss": 0.1149, | |
| "step": 44600 | |
| }, | |
| { | |
| "epoch": 3.9733333333333336, | |
| "grad_norm": 1.7383066415786743, | |
| "learning_rate": 2.006666666666667e-07, | |
| "loss": 0.1153, | |
| "step": 44700 | |
| }, | |
| { | |
| "epoch": 3.982222222222222, | |
| "grad_norm": 2.181018590927124, | |
| "learning_rate": 1.34e-07, | |
| "loss": 0.1153, | |
| "step": 44800 | |
| }, | |
| { | |
| "epoch": 3.991111111111111, | |
| "grad_norm": 2.5362730026245117, | |
| "learning_rate": 6.733333333333333e-08, | |
| "loss": 0.1148, | |
| "step": 44900 | |
| }, | |
| { | |
| "epoch": 4.0, | |
| "grad_norm": 1.8079057931900024, | |
| "learning_rate": 6.666666666666667e-10, | |
| "loss": 0.1141, | |
| "step": 45000 | |
| }, | |
| { | |
| "epoch": 4.0, | |
| "eval_loss": 0.11760604381561279, | |
| "eval_runtime": 212.0163, | |
| "eval_samples_per_second": 47.166, | |
| "eval_steps_per_second": 5.896, | |
| "step": 45000 | |
| } | |
| ], | |
| "logging_steps": 100, | |
| "max_steps": 45000, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 4, | |
| "save_steps": 5000, | |
| "stateful_callbacks": { | |
| "EarlyStoppingCallback": { | |
| "args": { | |
| "early_stopping_patience": 2, | |
| "early_stopping_threshold": 0.0 | |
| }, | |
| "attributes": { | |
| "early_stopping_patience_counter": 0 | |
| } | |
| }, | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 4.703256576e+16, | |
| "train_batch_size": 8, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |