chatbot / checkpoint-40000 /trainer_state.json
MuhammadUzaires's picture
Upload folder using huggingface_hub
e6ad2e6 verified
{
"best_global_step": 40000,
"best_metric": 0.11772522330284119,
"best_model_checkpoint": "/content/drive/MyDrive/chatbot/gpt2-finetuned-uet/checkpoint-40000",
"epoch": 3.5555555555555554,
"eval_steps": 5000,
"global_step": 40000,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.008888888888888889,
"grad_norm": 6.82129430770874,
"learning_rate": 2.9934000000000002e-05,
"loss": 0.9164,
"step": 100
},
{
"epoch": 0.017777777777777778,
"grad_norm": 5.949863433837891,
"learning_rate": 2.9867333333333335e-05,
"loss": 0.2066,
"step": 200
},
{
"epoch": 0.02666666666666667,
"grad_norm": 4.183337211608887,
"learning_rate": 2.9800666666666667e-05,
"loss": 0.1721,
"step": 300
},
{
"epoch": 0.035555555555555556,
"grad_norm": 4.205233573913574,
"learning_rate": 2.9734e-05,
"loss": 0.1537,
"step": 400
},
{
"epoch": 0.044444444444444446,
"grad_norm": 3.5019726753234863,
"learning_rate": 2.9667333333333333e-05,
"loss": 0.138,
"step": 500
},
{
"epoch": 0.05333333333333334,
"grad_norm": 3.7419962882995605,
"learning_rate": 2.9600666666666666e-05,
"loss": 0.1372,
"step": 600
},
{
"epoch": 0.06222222222222222,
"grad_norm": 4.127668380737305,
"learning_rate": 2.9534000000000002e-05,
"loss": 0.1348,
"step": 700
},
{
"epoch": 0.07111111111111111,
"grad_norm": 5.248896598815918,
"learning_rate": 2.9467333333333335e-05,
"loss": 0.1268,
"step": 800
},
{
"epoch": 0.08,
"grad_norm": 4.989108562469482,
"learning_rate": 2.9400666666666668e-05,
"loss": 0.1249,
"step": 900
},
{
"epoch": 0.08888888888888889,
"grad_norm": 3.937284231185913,
"learning_rate": 2.9334e-05,
"loss": 0.1247,
"step": 1000
},
{
"epoch": 0.09777777777777778,
"grad_norm": 4.6740522384643555,
"learning_rate": 2.9267333333333334e-05,
"loss": 0.1241,
"step": 1100
},
{
"epoch": 0.10666666666666667,
"grad_norm": 5.112093448638916,
"learning_rate": 2.9200666666666666e-05,
"loss": 0.1237,
"step": 1200
},
{
"epoch": 0.11555555555555555,
"grad_norm": 4.429466247558594,
"learning_rate": 2.9134e-05,
"loss": 0.1233,
"step": 1300
},
{
"epoch": 0.12444444444444444,
"grad_norm": 3.7811667919158936,
"learning_rate": 2.9067333333333332e-05,
"loss": 0.1224,
"step": 1400
},
{
"epoch": 0.13333333333333333,
"grad_norm": 3.949687957763672,
"learning_rate": 2.9000666666666668e-05,
"loss": 0.1221,
"step": 1500
},
{
"epoch": 0.14222222222222222,
"grad_norm": 4.339414119720459,
"learning_rate": 2.8934e-05,
"loss": 0.1208,
"step": 1600
},
{
"epoch": 0.1511111111111111,
"grad_norm": 4.27586030960083,
"learning_rate": 2.8867333333333334e-05,
"loss": 0.1236,
"step": 1700
},
{
"epoch": 0.16,
"grad_norm": 3.8597822189331055,
"learning_rate": 2.8800666666666667e-05,
"loss": 0.1211,
"step": 1800
},
{
"epoch": 0.1688888888888889,
"grad_norm": 4.734971046447754,
"learning_rate": 2.8734e-05,
"loss": 0.122,
"step": 1900
},
{
"epoch": 0.17777777777777778,
"grad_norm": 3.8875231742858887,
"learning_rate": 2.8667333333333333e-05,
"loss": 0.1213,
"step": 2000
},
{
"epoch": 0.18666666666666668,
"grad_norm": 2.6618669033050537,
"learning_rate": 2.8600666666666665e-05,
"loss": 0.1218,
"step": 2100
},
{
"epoch": 0.19555555555555557,
"grad_norm": 3.809056043624878,
"learning_rate": 2.8534e-05,
"loss": 0.1236,
"step": 2200
},
{
"epoch": 0.20444444444444446,
"grad_norm": 4.541649341583252,
"learning_rate": 2.8467333333333334e-05,
"loss": 0.1211,
"step": 2300
},
{
"epoch": 0.21333333333333335,
"grad_norm": 3.4047656059265137,
"learning_rate": 2.8400666666666667e-05,
"loss": 0.1221,
"step": 2400
},
{
"epoch": 0.2222222222222222,
"grad_norm": 3.6217405796051025,
"learning_rate": 2.8334e-05,
"loss": 0.1211,
"step": 2500
},
{
"epoch": 0.2311111111111111,
"grad_norm": 3.8457906246185303,
"learning_rate": 2.8267333333333333e-05,
"loss": 0.122,
"step": 2600
},
{
"epoch": 0.24,
"grad_norm": 5.507346153259277,
"learning_rate": 2.8200666666666666e-05,
"loss": 0.1207,
"step": 2700
},
{
"epoch": 0.24888888888888888,
"grad_norm": 4.867903232574463,
"learning_rate": 2.8134e-05,
"loss": 0.1201,
"step": 2800
},
{
"epoch": 0.2577777777777778,
"grad_norm": 3.717101573944092,
"learning_rate": 2.806733333333333e-05,
"loss": 0.1202,
"step": 2900
},
{
"epoch": 0.26666666666666666,
"grad_norm": 3.990020990371704,
"learning_rate": 2.8000666666666668e-05,
"loss": 0.1214,
"step": 3000
},
{
"epoch": 0.27555555555555555,
"grad_norm": 3.9653103351593018,
"learning_rate": 2.7934e-05,
"loss": 0.1195,
"step": 3100
},
{
"epoch": 0.28444444444444444,
"grad_norm": 3.743941068649292,
"learning_rate": 2.7867333333333333e-05,
"loss": 0.1209,
"step": 3200
},
{
"epoch": 0.29333333333333333,
"grad_norm": 4.509164333343506,
"learning_rate": 2.7800666666666666e-05,
"loss": 0.1204,
"step": 3300
},
{
"epoch": 0.3022222222222222,
"grad_norm": 4.283110618591309,
"learning_rate": 2.7734e-05,
"loss": 0.1205,
"step": 3400
},
{
"epoch": 0.3111111111111111,
"grad_norm": 3.8113884925842285,
"learning_rate": 2.7667333333333332e-05,
"loss": 0.1184,
"step": 3500
},
{
"epoch": 0.32,
"grad_norm": 3.287177801132202,
"learning_rate": 2.7600666666666665e-05,
"loss": 0.1201,
"step": 3600
},
{
"epoch": 0.3288888888888889,
"grad_norm": 4.167423248291016,
"learning_rate": 2.7533999999999998e-05,
"loss": 0.119,
"step": 3700
},
{
"epoch": 0.3377777777777778,
"grad_norm": 4.485795974731445,
"learning_rate": 2.7467333333333334e-05,
"loss": 0.121,
"step": 3800
},
{
"epoch": 0.3466666666666667,
"grad_norm": 3.1703178882598877,
"learning_rate": 2.7400666666666667e-05,
"loss": 0.1186,
"step": 3900
},
{
"epoch": 0.35555555555555557,
"grad_norm": 3.0991108417510986,
"learning_rate": 2.7334e-05,
"loss": 0.1201,
"step": 4000
},
{
"epoch": 0.36444444444444446,
"grad_norm": 4.4850053787231445,
"learning_rate": 2.7267333333333336e-05,
"loss": 0.1193,
"step": 4100
},
{
"epoch": 0.37333333333333335,
"grad_norm": 3.0892951488494873,
"learning_rate": 2.720066666666667e-05,
"loss": 0.1186,
"step": 4200
},
{
"epoch": 0.38222222222222224,
"grad_norm": 3.4168922901153564,
"learning_rate": 2.7134e-05,
"loss": 0.1186,
"step": 4300
},
{
"epoch": 0.39111111111111113,
"grad_norm": 2.864269733428955,
"learning_rate": 2.7067333333333334e-05,
"loss": 0.1176,
"step": 4400
},
{
"epoch": 0.4,
"grad_norm": 4.241358280181885,
"learning_rate": 2.7000666666666667e-05,
"loss": 0.118,
"step": 4500
},
{
"epoch": 0.4088888888888889,
"grad_norm": 3.6913700103759766,
"learning_rate": 2.6934000000000003e-05,
"loss": 0.1184,
"step": 4600
},
{
"epoch": 0.4177777777777778,
"grad_norm": 2.865185499191284,
"learning_rate": 2.6867333333333336e-05,
"loss": 0.1191,
"step": 4700
},
{
"epoch": 0.4266666666666667,
"grad_norm": 3.7335503101348877,
"learning_rate": 2.680066666666667e-05,
"loss": 0.1199,
"step": 4800
},
{
"epoch": 0.43555555555555553,
"grad_norm": 3.280344009399414,
"learning_rate": 2.6734000000000002e-05,
"loss": 0.1184,
"step": 4900
},
{
"epoch": 0.4444444444444444,
"grad_norm": 3.2532272338867188,
"learning_rate": 2.6667333333333335e-05,
"loss": 0.1188,
"step": 5000
},
{
"epoch": 0.4444444444444444,
"eval_loss": 0.12208713591098785,
"eval_runtime": 204.8959,
"eval_samples_per_second": 48.805,
"eval_steps_per_second": 6.101,
"step": 5000
},
{
"epoch": 0.4533333333333333,
"grad_norm": 3.123708486557007,
"learning_rate": 2.6600666666666668e-05,
"loss": 0.1196,
"step": 5100
},
{
"epoch": 0.4622222222222222,
"grad_norm": 3.468099594116211,
"learning_rate": 2.6534e-05,
"loss": 0.1181,
"step": 5200
},
{
"epoch": 0.4711111111111111,
"grad_norm": 3.4722182750701904,
"learning_rate": 2.6467333333333337e-05,
"loss": 0.1186,
"step": 5300
},
{
"epoch": 0.48,
"grad_norm": 3.341700792312622,
"learning_rate": 2.640066666666667e-05,
"loss": 0.1175,
"step": 5400
},
{
"epoch": 0.4888888888888889,
"grad_norm": 5.254228591918945,
"learning_rate": 2.6334000000000002e-05,
"loss": 0.1171,
"step": 5500
},
{
"epoch": 0.49777777777777776,
"grad_norm": 3.9166531562805176,
"learning_rate": 2.6267333333333335e-05,
"loss": 0.1181,
"step": 5600
},
{
"epoch": 0.5066666666666667,
"grad_norm": 3.530609130859375,
"learning_rate": 2.6200666666666668e-05,
"loss": 0.118,
"step": 5700
},
{
"epoch": 0.5155555555555555,
"grad_norm": 2.8813321590423584,
"learning_rate": 2.6134e-05,
"loss": 0.119,
"step": 5800
},
{
"epoch": 0.5244444444444445,
"grad_norm": 2.88515567779541,
"learning_rate": 2.6067333333333334e-05,
"loss": 0.1192,
"step": 5900
},
{
"epoch": 0.5333333333333333,
"grad_norm": 3.641014814376831,
"learning_rate": 2.6000666666666667e-05,
"loss": 0.1177,
"step": 6000
},
{
"epoch": 0.5422222222222223,
"grad_norm": 3.2416274547576904,
"learning_rate": 2.5934000000000003e-05,
"loss": 0.1189,
"step": 6100
},
{
"epoch": 0.5511111111111111,
"grad_norm": 3.6603827476501465,
"learning_rate": 2.5867333333333336e-05,
"loss": 0.12,
"step": 6200
},
{
"epoch": 0.56,
"grad_norm": 2.7942700386047363,
"learning_rate": 2.580066666666667e-05,
"loss": 0.1186,
"step": 6300
},
{
"epoch": 0.5688888888888889,
"grad_norm": 2.454925298690796,
"learning_rate": 2.5734e-05,
"loss": 0.1193,
"step": 6400
},
{
"epoch": 0.5777777777777777,
"grad_norm": 3.182051420211792,
"learning_rate": 2.5667333333333334e-05,
"loss": 0.1179,
"step": 6500
},
{
"epoch": 0.5866666666666667,
"grad_norm": 2.543154001235962,
"learning_rate": 2.5600666666666667e-05,
"loss": 0.1169,
"step": 6600
},
{
"epoch": 0.5955555555555555,
"grad_norm": 2.878065586090088,
"learning_rate": 2.5534e-05,
"loss": 0.1165,
"step": 6700
},
{
"epoch": 0.6044444444444445,
"grad_norm": 2.6504786014556885,
"learning_rate": 2.5467333333333333e-05,
"loss": 0.1177,
"step": 6800
},
{
"epoch": 0.6133333333333333,
"grad_norm": 3.112470865249634,
"learning_rate": 2.540066666666667e-05,
"loss": 0.1188,
"step": 6900
},
{
"epoch": 0.6222222222222222,
"grad_norm": 3.2158005237579346,
"learning_rate": 2.5334000000000002e-05,
"loss": 0.1182,
"step": 7000
},
{
"epoch": 0.6311111111111111,
"grad_norm": 2.7829103469848633,
"learning_rate": 2.5267333333333335e-05,
"loss": 0.1182,
"step": 7100
},
{
"epoch": 0.64,
"grad_norm": 3.6927225589752197,
"learning_rate": 2.5200666666666667e-05,
"loss": 0.1172,
"step": 7200
},
{
"epoch": 0.6488888888888888,
"grad_norm": 2.701704978942871,
"learning_rate": 2.5134e-05,
"loss": 0.1174,
"step": 7300
},
{
"epoch": 0.6577777777777778,
"grad_norm": 3.097184419631958,
"learning_rate": 2.5067333333333333e-05,
"loss": 0.1181,
"step": 7400
},
{
"epoch": 0.6666666666666666,
"grad_norm": 3.704460620880127,
"learning_rate": 2.5000666666666666e-05,
"loss": 0.1171,
"step": 7500
},
{
"epoch": 0.6755555555555556,
"grad_norm": 2.7724316120147705,
"learning_rate": 2.4934e-05,
"loss": 0.1172,
"step": 7600
},
{
"epoch": 0.6844444444444444,
"grad_norm": 3.8086202144622803,
"learning_rate": 2.4867333333333335e-05,
"loss": 0.1182,
"step": 7700
},
{
"epoch": 0.6933333333333334,
"grad_norm": 3.596428632736206,
"learning_rate": 2.4800666666666668e-05,
"loss": 0.1181,
"step": 7800
},
{
"epoch": 0.7022222222222222,
"grad_norm": 2.5893187522888184,
"learning_rate": 2.4734e-05,
"loss": 0.118,
"step": 7900
},
{
"epoch": 0.7111111111111111,
"grad_norm": 2.582350730895996,
"learning_rate": 2.4667333333333334e-05,
"loss": 0.1185,
"step": 8000
},
{
"epoch": 0.72,
"grad_norm": 3.3927502632141113,
"learning_rate": 2.4600666666666666e-05,
"loss": 0.1179,
"step": 8100
},
{
"epoch": 0.7288888888888889,
"grad_norm": 4.322011947631836,
"learning_rate": 2.4534e-05,
"loss": 0.118,
"step": 8200
},
{
"epoch": 0.7377777777777778,
"grad_norm": 2.3560194969177246,
"learning_rate": 2.4467333333333332e-05,
"loss": 0.1175,
"step": 8300
},
{
"epoch": 0.7466666666666667,
"grad_norm": 3.332634925842285,
"learning_rate": 2.4400666666666668e-05,
"loss": 0.117,
"step": 8400
},
{
"epoch": 0.7555555555555555,
"grad_norm": 3.440761089324951,
"learning_rate": 2.4334e-05,
"loss": 0.1177,
"step": 8500
},
{
"epoch": 0.7644444444444445,
"grad_norm": 2.6699066162109375,
"learning_rate": 2.4267333333333334e-05,
"loss": 0.1159,
"step": 8600
},
{
"epoch": 0.7733333333333333,
"grad_norm": 2.5748603343963623,
"learning_rate": 2.4200666666666667e-05,
"loss": 0.1161,
"step": 8700
},
{
"epoch": 0.7822222222222223,
"grad_norm": 3.216967821121216,
"learning_rate": 2.4134e-05,
"loss": 0.1167,
"step": 8800
},
{
"epoch": 0.7911111111111111,
"grad_norm": 2.9499289989471436,
"learning_rate": 2.4067333333333333e-05,
"loss": 0.1164,
"step": 8900
},
{
"epoch": 0.8,
"grad_norm": 2.6872825622558594,
"learning_rate": 2.4000666666666665e-05,
"loss": 0.117,
"step": 9000
},
{
"epoch": 0.8088888888888889,
"grad_norm": 3.444622039794922,
"learning_rate": 2.3933999999999998e-05,
"loss": 0.1187,
"step": 9100
},
{
"epoch": 0.8177777777777778,
"grad_norm": 2.4359054565429688,
"learning_rate": 2.3867333333333334e-05,
"loss": 0.1163,
"step": 9200
},
{
"epoch": 0.8266666666666667,
"grad_norm": 2.510025978088379,
"learning_rate": 2.3800666666666667e-05,
"loss": 0.117,
"step": 9300
},
{
"epoch": 0.8355555555555556,
"grad_norm": 2.5156795978546143,
"learning_rate": 2.3734e-05,
"loss": 0.1177,
"step": 9400
},
{
"epoch": 0.8444444444444444,
"grad_norm": 3.8582279682159424,
"learning_rate": 2.3667333333333333e-05,
"loss": 0.1188,
"step": 9500
},
{
"epoch": 0.8533333333333334,
"grad_norm": 2.9142448902130127,
"learning_rate": 2.3600666666666666e-05,
"loss": 0.1201,
"step": 9600
},
{
"epoch": 0.8622222222222222,
"grad_norm": 1.9949374198913574,
"learning_rate": 2.3534e-05,
"loss": 0.1173,
"step": 9700
},
{
"epoch": 0.8711111111111111,
"grad_norm": 2.8266148567199707,
"learning_rate": 2.346733333333333e-05,
"loss": 0.1156,
"step": 9800
},
{
"epoch": 0.88,
"grad_norm": 2.821716070175171,
"learning_rate": 2.3400666666666664e-05,
"loss": 0.114,
"step": 9900
},
{
"epoch": 0.8888888888888888,
"grad_norm": 2.1341419219970703,
"learning_rate": 2.3334e-05,
"loss": 0.118,
"step": 10000
},
{
"epoch": 0.8888888888888888,
"eval_loss": 0.11916246265172958,
"eval_runtime": 209.6485,
"eval_samples_per_second": 47.699,
"eval_steps_per_second": 5.962,
"step": 10000
},
{
"epoch": 0.8977777777777778,
"grad_norm": 2.4303793907165527,
"learning_rate": 2.3267333333333333e-05,
"loss": 0.1164,
"step": 10100
},
{
"epoch": 0.9066666666666666,
"grad_norm": 2.23417329788208,
"learning_rate": 2.3200666666666666e-05,
"loss": 0.1168,
"step": 10200
},
{
"epoch": 0.9155555555555556,
"grad_norm": 2.7402517795562744,
"learning_rate": 2.3134e-05,
"loss": 0.1171,
"step": 10300
},
{
"epoch": 0.9244444444444444,
"grad_norm": 2.4961931705474854,
"learning_rate": 2.3067333333333332e-05,
"loss": 0.117,
"step": 10400
},
{
"epoch": 0.9333333333333333,
"grad_norm": 3.0183095932006836,
"learning_rate": 2.3000666666666668e-05,
"loss": 0.1166,
"step": 10500
},
{
"epoch": 0.9422222222222222,
"grad_norm": 3.062873125076294,
"learning_rate": 2.2934e-05,
"loss": 0.1167,
"step": 10600
},
{
"epoch": 0.9511111111111111,
"grad_norm": 2.418299436569214,
"learning_rate": 2.2867333333333334e-05,
"loss": 0.1173,
"step": 10700
},
{
"epoch": 0.96,
"grad_norm": 2.580348253250122,
"learning_rate": 2.280066666666667e-05,
"loss": 0.1173,
"step": 10800
},
{
"epoch": 0.9688888888888889,
"grad_norm": 2.902337074279785,
"learning_rate": 2.2734000000000003e-05,
"loss": 0.1174,
"step": 10900
},
{
"epoch": 0.9777777777777777,
"grad_norm": 2.1894068717956543,
"learning_rate": 2.2667333333333336e-05,
"loss": 0.1167,
"step": 11000
},
{
"epoch": 0.9866666666666667,
"grad_norm": 2.944486618041992,
"learning_rate": 2.260066666666667e-05,
"loss": 0.1174,
"step": 11100
},
{
"epoch": 0.9955555555555555,
"grad_norm": 2.560166835784912,
"learning_rate": 2.2534e-05,
"loss": 0.1179,
"step": 11200
},
{
"epoch": 1.0044444444444445,
"grad_norm": 2.7553763389587402,
"learning_rate": 2.2467333333333334e-05,
"loss": 0.1158,
"step": 11300
},
{
"epoch": 1.0133333333333334,
"grad_norm": 2.8809797763824463,
"learning_rate": 2.2400666666666667e-05,
"loss": 0.1175,
"step": 11400
},
{
"epoch": 1.0222222222222221,
"grad_norm": 2.329749822616577,
"learning_rate": 2.2334000000000003e-05,
"loss": 0.1155,
"step": 11500
},
{
"epoch": 1.031111111111111,
"grad_norm": 2.763226270675659,
"learning_rate": 2.2267333333333336e-05,
"loss": 0.1166,
"step": 11600
},
{
"epoch": 1.04,
"grad_norm": 3.360959768295288,
"learning_rate": 2.220066666666667e-05,
"loss": 0.1162,
"step": 11700
},
{
"epoch": 1.048888888888889,
"grad_norm": 2.1025476455688477,
"learning_rate": 2.2134000000000002e-05,
"loss": 0.1167,
"step": 11800
},
{
"epoch": 1.0577777777777777,
"grad_norm": 2.6342437267303467,
"learning_rate": 2.2067333333333335e-05,
"loss": 0.1159,
"step": 11900
},
{
"epoch": 1.0666666666666667,
"grad_norm": 2.8531672954559326,
"learning_rate": 2.2000666666666668e-05,
"loss": 0.1174,
"step": 12000
},
{
"epoch": 1.0755555555555556,
"grad_norm": 2.5636589527130127,
"learning_rate": 2.1934e-05,
"loss": 0.1164,
"step": 12100
},
{
"epoch": 1.0844444444444445,
"grad_norm": 2.7614545822143555,
"learning_rate": 2.1867333333333333e-05,
"loss": 0.1172,
"step": 12200
},
{
"epoch": 1.0933333333333333,
"grad_norm": 2.60809063911438,
"learning_rate": 2.180066666666667e-05,
"loss": 0.1163,
"step": 12300
},
{
"epoch": 1.1022222222222222,
"grad_norm": 3.316859483718872,
"learning_rate": 2.1734000000000002e-05,
"loss": 0.1177,
"step": 12400
},
{
"epoch": 1.1111111111111112,
"grad_norm": 3.271606922149658,
"learning_rate": 2.1667333333333335e-05,
"loss": 0.1167,
"step": 12500
},
{
"epoch": 1.12,
"grad_norm": 3.194365978240967,
"learning_rate": 2.1600666666666668e-05,
"loss": 0.118,
"step": 12600
},
{
"epoch": 1.1288888888888888,
"grad_norm": 2.5785796642303467,
"learning_rate": 2.1534e-05,
"loss": 0.1166,
"step": 12700
},
{
"epoch": 1.1377777777777778,
"grad_norm": 2.8842148780822754,
"learning_rate": 2.1467333333333334e-05,
"loss": 0.1169,
"step": 12800
},
{
"epoch": 1.1466666666666667,
"grad_norm": 2.530769109725952,
"learning_rate": 2.1400666666666667e-05,
"loss": 0.1176,
"step": 12900
},
{
"epoch": 1.1555555555555554,
"grad_norm": 2.9388973712921143,
"learning_rate": 2.1334e-05,
"loss": 0.1164,
"step": 13000
},
{
"epoch": 1.1644444444444444,
"grad_norm": 3.258341073989868,
"learning_rate": 2.1267333333333336e-05,
"loss": 0.1161,
"step": 13100
},
{
"epoch": 1.1733333333333333,
"grad_norm": 3.597013473510742,
"learning_rate": 2.120066666666667e-05,
"loss": 0.1168,
"step": 13200
},
{
"epoch": 1.1822222222222223,
"grad_norm": 2.683460235595703,
"learning_rate": 2.1134e-05,
"loss": 0.1152,
"step": 13300
},
{
"epoch": 1.1911111111111112,
"grad_norm": 3.4266109466552734,
"learning_rate": 2.1067333333333334e-05,
"loss": 0.1158,
"step": 13400
},
{
"epoch": 1.2,
"grad_norm": 2.183912754058838,
"learning_rate": 2.1000666666666667e-05,
"loss": 0.1162,
"step": 13500
},
{
"epoch": 1.208888888888889,
"grad_norm": 2.8540754318237305,
"learning_rate": 2.0934e-05,
"loss": 0.1162,
"step": 13600
},
{
"epoch": 1.2177777777777778,
"grad_norm": 2.472102403640747,
"learning_rate": 2.0867333333333333e-05,
"loss": 0.1165,
"step": 13700
},
{
"epoch": 1.2266666666666666,
"grad_norm": 2.466033697128296,
"learning_rate": 2.0800666666666665e-05,
"loss": 0.1171,
"step": 13800
},
{
"epoch": 1.2355555555555555,
"grad_norm": 2.822277784347534,
"learning_rate": 2.0734000000000002e-05,
"loss": 0.1154,
"step": 13900
},
{
"epoch": 1.2444444444444445,
"grad_norm": 2.0999035835266113,
"learning_rate": 2.0667333333333335e-05,
"loss": 0.1163,
"step": 14000
},
{
"epoch": 1.2533333333333334,
"grad_norm": 2.3862359523773193,
"learning_rate": 2.0600666666666667e-05,
"loss": 0.1166,
"step": 14100
},
{
"epoch": 1.2622222222222224,
"grad_norm": 3.0106606483459473,
"learning_rate": 2.0534e-05,
"loss": 0.1174,
"step": 14200
},
{
"epoch": 1.271111111111111,
"grad_norm": 2.2720947265625,
"learning_rate": 2.0467333333333333e-05,
"loss": 0.1162,
"step": 14300
},
{
"epoch": 1.28,
"grad_norm": 2.4867804050445557,
"learning_rate": 2.0400666666666666e-05,
"loss": 0.1167,
"step": 14400
},
{
"epoch": 1.2888888888888888,
"grad_norm": 3.227097511291504,
"learning_rate": 2.0334e-05,
"loss": 0.1166,
"step": 14500
},
{
"epoch": 1.2977777777777777,
"grad_norm": 2.6462483406066895,
"learning_rate": 2.0267333333333335e-05,
"loss": 0.116,
"step": 14600
},
{
"epoch": 1.3066666666666666,
"grad_norm": 1.9896470308303833,
"learning_rate": 2.0200666666666668e-05,
"loss": 0.1166,
"step": 14700
},
{
"epoch": 1.3155555555555556,
"grad_norm": 3.9435179233551025,
"learning_rate": 2.0134e-05,
"loss": 0.1161,
"step": 14800
},
{
"epoch": 1.3244444444444445,
"grad_norm": 3.1520168781280518,
"learning_rate": 2.0067333333333334e-05,
"loss": 0.1163,
"step": 14900
},
{
"epoch": 1.3333333333333333,
"grad_norm": 2.1935575008392334,
"learning_rate": 2.0000666666666666e-05,
"loss": 0.1166,
"step": 15000
},
{
"epoch": 1.3333333333333333,
"eval_loss": 0.11884617805480957,
"eval_runtime": 211.3057,
"eval_samples_per_second": 47.325,
"eval_steps_per_second": 5.916,
"step": 15000
},
{
"epoch": 1.3422222222222222,
"grad_norm": 2.775670289993286,
"learning_rate": 1.9934e-05,
"loss": 0.1159,
"step": 15100
},
{
"epoch": 1.3511111111111112,
"grad_norm": 2.6361074447631836,
"learning_rate": 1.9867333333333332e-05,
"loss": 0.1169,
"step": 15200
},
{
"epoch": 1.3599999999999999,
"grad_norm": 2.5795843601226807,
"learning_rate": 1.9800666666666665e-05,
"loss": 0.1166,
"step": 15300
},
{
"epoch": 1.3688888888888888,
"grad_norm": 3.1737446784973145,
"learning_rate": 1.9734e-05,
"loss": 0.1167,
"step": 15400
},
{
"epoch": 1.3777777777777778,
"grad_norm": 2.2223973274230957,
"learning_rate": 1.9667333333333334e-05,
"loss": 0.1164,
"step": 15500
},
{
"epoch": 1.3866666666666667,
"grad_norm": 2.2306268215179443,
"learning_rate": 1.9600666666666667e-05,
"loss": 0.1168,
"step": 15600
},
{
"epoch": 1.3955555555555557,
"grad_norm": 2.343104600906372,
"learning_rate": 1.9534e-05,
"loss": 0.1169,
"step": 15700
},
{
"epoch": 1.4044444444444444,
"grad_norm": 2.2243905067443848,
"learning_rate": 1.9467333333333333e-05,
"loss": 0.1168,
"step": 15800
},
{
"epoch": 1.4133333333333333,
"grad_norm": 2.11381459236145,
"learning_rate": 1.9400666666666665e-05,
"loss": 0.1176,
"step": 15900
},
{
"epoch": 1.4222222222222223,
"grad_norm": 2.713016986846924,
"learning_rate": 1.9333999999999998e-05,
"loss": 0.117,
"step": 16000
},
{
"epoch": 1.431111111111111,
"grad_norm": 2.860501766204834,
"learning_rate": 1.926733333333333e-05,
"loss": 0.1165,
"step": 16100
},
{
"epoch": 1.44,
"grad_norm": 2.216109037399292,
"learning_rate": 1.9200666666666667e-05,
"loss": 0.117,
"step": 16200
},
{
"epoch": 1.448888888888889,
"grad_norm": 2.458571672439575,
"learning_rate": 1.9134e-05,
"loss": 0.1166,
"step": 16300
},
{
"epoch": 1.4577777777777778,
"grad_norm": 2.421862840652466,
"learning_rate": 1.9067333333333333e-05,
"loss": 0.117,
"step": 16400
},
{
"epoch": 1.4666666666666668,
"grad_norm": 2.4166271686553955,
"learning_rate": 1.9000666666666666e-05,
"loss": 0.1158,
"step": 16500
},
{
"epoch": 1.4755555555555555,
"grad_norm": 2.1545352935791016,
"learning_rate": 1.8934e-05,
"loss": 0.1153,
"step": 16600
},
{
"epoch": 1.4844444444444445,
"grad_norm": 2.041667938232422,
"learning_rate": 1.886733333333333e-05,
"loss": 0.1174,
"step": 16700
},
{
"epoch": 1.4933333333333334,
"grad_norm": 2.384735584259033,
"learning_rate": 1.8800666666666664e-05,
"loss": 0.1163,
"step": 16800
},
{
"epoch": 1.5022222222222221,
"grad_norm": 2.500413656234741,
"learning_rate": 1.8734e-05,
"loss": 0.1151,
"step": 16900
},
{
"epoch": 1.511111111111111,
"grad_norm": 2.1342129707336426,
"learning_rate": 1.8667333333333337e-05,
"loss": 0.1159,
"step": 17000
},
{
"epoch": 1.52,
"grad_norm": 1.887050986289978,
"learning_rate": 1.860066666666667e-05,
"loss": 0.1167,
"step": 17100
},
{
"epoch": 1.528888888888889,
"grad_norm": 2.915043830871582,
"learning_rate": 1.8534000000000002e-05,
"loss": 0.1146,
"step": 17200
},
{
"epoch": 1.537777777777778,
"grad_norm": 1.9369572401046753,
"learning_rate": 1.8467333333333335e-05,
"loss": 0.115,
"step": 17300
},
{
"epoch": 1.5466666666666666,
"grad_norm": 2.6729207038879395,
"learning_rate": 1.8400666666666668e-05,
"loss": 0.1164,
"step": 17400
},
{
"epoch": 1.5555555555555556,
"grad_norm": 2.3808655738830566,
"learning_rate": 1.8334e-05,
"loss": 0.1164,
"step": 17500
},
{
"epoch": 1.5644444444444443,
"grad_norm": 2.073694944381714,
"learning_rate": 1.8267333333333334e-05,
"loss": 0.1162,
"step": 17600
},
{
"epoch": 1.5733333333333333,
"grad_norm": 2.777702808380127,
"learning_rate": 1.820066666666667e-05,
"loss": 0.1165,
"step": 17700
},
{
"epoch": 1.5822222222222222,
"grad_norm": 2.505470037460327,
"learning_rate": 1.8134000000000003e-05,
"loss": 0.1161,
"step": 17800
},
{
"epoch": 1.5911111111111111,
"grad_norm": 2.718674421310425,
"learning_rate": 1.8067333333333336e-05,
"loss": 0.1163,
"step": 17900
},
{
"epoch": 1.6,
"grad_norm": 2.1494431495666504,
"learning_rate": 1.800066666666667e-05,
"loss": 0.1156,
"step": 18000
},
{
"epoch": 1.608888888888889,
"grad_norm": 2.116150379180908,
"learning_rate": 1.7934e-05,
"loss": 0.1151,
"step": 18100
},
{
"epoch": 1.6177777777777778,
"grad_norm": 2.0484061241149902,
"learning_rate": 1.7867333333333334e-05,
"loss": 0.1156,
"step": 18200
},
{
"epoch": 1.6266666666666667,
"grad_norm": 2.424205780029297,
"learning_rate": 1.7800666666666667e-05,
"loss": 0.1163,
"step": 18300
},
{
"epoch": 1.6355555555555554,
"grad_norm": 1.8127673864364624,
"learning_rate": 1.7734e-05,
"loss": 0.1158,
"step": 18400
},
{
"epoch": 1.6444444444444444,
"grad_norm": 1.8198715448379517,
"learning_rate": 1.7667333333333336e-05,
"loss": 0.1154,
"step": 18500
},
{
"epoch": 1.6533333333333333,
"grad_norm": 2.0981502532958984,
"learning_rate": 1.760066666666667e-05,
"loss": 0.1151,
"step": 18600
},
{
"epoch": 1.6622222222222223,
"grad_norm": 2.4855105876922607,
"learning_rate": 1.7534000000000002e-05,
"loss": 0.1159,
"step": 18700
},
{
"epoch": 1.6711111111111112,
"grad_norm": 2.699737071990967,
"learning_rate": 1.7467333333333335e-05,
"loss": 0.1157,
"step": 18800
},
{
"epoch": 1.6800000000000002,
"grad_norm": 2.327432870864868,
"learning_rate": 1.7400666666666668e-05,
"loss": 0.1171,
"step": 18900
},
{
"epoch": 1.6888888888888889,
"grad_norm": 2.1968882083892822,
"learning_rate": 1.7334e-05,
"loss": 0.1161,
"step": 19000
},
{
"epoch": 1.6977777777777778,
"grad_norm": 1.8226240873336792,
"learning_rate": 1.7267333333333333e-05,
"loss": 0.1151,
"step": 19100
},
{
"epoch": 1.7066666666666666,
"grad_norm": 2.7223825454711914,
"learning_rate": 1.7200666666666666e-05,
"loss": 0.1171,
"step": 19200
},
{
"epoch": 1.7155555555555555,
"grad_norm": 2.9477438926696777,
"learning_rate": 1.7134000000000002e-05,
"loss": 0.1156,
"step": 19300
},
{
"epoch": 1.7244444444444444,
"grad_norm": 2.40928316116333,
"learning_rate": 1.7067333333333335e-05,
"loss": 0.1166,
"step": 19400
},
{
"epoch": 1.7333333333333334,
"grad_norm": 1.8822649717330933,
"learning_rate": 1.7000666666666668e-05,
"loss": 0.1153,
"step": 19500
},
{
"epoch": 1.7422222222222223,
"grad_norm": 2.2142670154571533,
"learning_rate": 1.6934e-05,
"loss": 0.1163,
"step": 19600
},
{
"epoch": 1.751111111111111,
"grad_norm": 2.1836495399475098,
"learning_rate": 1.6867333333333334e-05,
"loss": 0.1151,
"step": 19700
},
{
"epoch": 1.76,
"grad_norm": 3.2107222080230713,
"learning_rate": 1.6800666666666667e-05,
"loss": 0.1163,
"step": 19800
},
{
"epoch": 1.7688888888888887,
"grad_norm": 1.8287441730499268,
"learning_rate": 1.6734e-05,
"loss": 0.1156,
"step": 19900
},
{
"epoch": 1.7777777777777777,
"grad_norm": 2.0980119705200195,
"learning_rate": 1.6667333333333332e-05,
"loss": 0.1155,
"step": 20000
},
{
"epoch": 1.7777777777777777,
"eval_loss": 0.11874008923768997,
"eval_runtime": 211.255,
"eval_samples_per_second": 47.336,
"eval_steps_per_second": 5.917,
"step": 20000
},
{
"epoch": 1.7866666666666666,
"grad_norm": 2.3383679389953613,
"learning_rate": 1.660066666666667e-05,
"loss": 0.1138,
"step": 20100
},
{
"epoch": 1.7955555555555556,
"grad_norm": 2.7525901794433594,
"learning_rate": 1.6534e-05,
"loss": 0.116,
"step": 20200
},
{
"epoch": 1.8044444444444445,
"grad_norm": 2.5040132999420166,
"learning_rate": 1.6467333333333334e-05,
"loss": 0.1161,
"step": 20300
},
{
"epoch": 1.8133333333333335,
"grad_norm": 2.259471893310547,
"learning_rate": 1.6400666666666667e-05,
"loss": 0.117,
"step": 20400
},
{
"epoch": 1.8222222222222222,
"grad_norm": 2.2679028511047363,
"learning_rate": 1.6334e-05,
"loss": 0.1137,
"step": 20500
},
{
"epoch": 1.8311111111111111,
"grad_norm": 2.327155351638794,
"learning_rate": 1.6267333333333333e-05,
"loss": 0.1166,
"step": 20600
},
{
"epoch": 1.8399999999999999,
"grad_norm": 1.955175757408142,
"learning_rate": 1.6200666666666665e-05,
"loss": 0.1166,
"step": 20700
},
{
"epoch": 1.8488888888888888,
"grad_norm": 2.710777759552002,
"learning_rate": 1.6134e-05,
"loss": 0.1172,
"step": 20800
},
{
"epoch": 1.8577777777777778,
"grad_norm": 2.216688632965088,
"learning_rate": 1.6067333333333335e-05,
"loss": 0.1161,
"step": 20900
},
{
"epoch": 1.8666666666666667,
"grad_norm": 2.182429075241089,
"learning_rate": 1.6000666666666667e-05,
"loss": 0.1156,
"step": 21000
},
{
"epoch": 1.8755555555555556,
"grad_norm": 1.9243407249450684,
"learning_rate": 1.5934e-05,
"loss": 0.1142,
"step": 21100
},
{
"epoch": 1.8844444444444446,
"grad_norm": 2.7626757621765137,
"learning_rate": 1.5867333333333333e-05,
"loss": 0.1145,
"step": 21200
},
{
"epoch": 1.8933333333333333,
"grad_norm": 2.6856908798217773,
"learning_rate": 1.5800666666666666e-05,
"loss": 0.1152,
"step": 21300
},
{
"epoch": 1.9022222222222223,
"grad_norm": 1.7904895544052124,
"learning_rate": 1.5734e-05,
"loss": 0.1155,
"step": 21400
},
{
"epoch": 1.911111111111111,
"grad_norm": 3.033803939819336,
"learning_rate": 1.566733333333333e-05,
"loss": 0.1166,
"step": 21500
},
{
"epoch": 1.92,
"grad_norm": 2.309826612472534,
"learning_rate": 1.5600666666666668e-05,
"loss": 0.1158,
"step": 21600
},
{
"epoch": 1.9288888888888889,
"grad_norm": 1.7815381288528442,
"learning_rate": 1.5534e-05,
"loss": 0.1162,
"step": 21700
},
{
"epoch": 1.9377777777777778,
"grad_norm": 2.4178450107574463,
"learning_rate": 1.5467333333333334e-05,
"loss": 0.1148,
"step": 21800
},
{
"epoch": 1.9466666666666668,
"grad_norm": 2.054873466491699,
"learning_rate": 1.5400666666666666e-05,
"loss": 0.1159,
"step": 21900
},
{
"epoch": 1.9555555555555557,
"grad_norm": 2.2199928760528564,
"learning_rate": 1.5334e-05,
"loss": 0.116,
"step": 22000
},
{
"epoch": 1.9644444444444444,
"grad_norm": 2.7613635063171387,
"learning_rate": 1.5267333333333332e-05,
"loss": 0.1158,
"step": 22100
},
{
"epoch": 1.9733333333333334,
"grad_norm": 2.339095115661621,
"learning_rate": 1.5200666666666667e-05,
"loss": 0.1165,
"step": 22200
},
{
"epoch": 1.982222222222222,
"grad_norm": 2.9039108753204346,
"learning_rate": 1.5134e-05,
"loss": 0.1161,
"step": 22300
},
{
"epoch": 1.991111111111111,
"grad_norm": 1.7739943265914917,
"learning_rate": 1.5067333333333336e-05,
"loss": 0.1156,
"step": 22400
},
{
"epoch": 2.0,
"grad_norm": 2.047527551651001,
"learning_rate": 1.5000666666666669e-05,
"loss": 0.1154,
"step": 22500
},
{
"epoch": 2.008888888888889,
"grad_norm": 2.352304458618164,
"learning_rate": 1.4934000000000001e-05,
"loss": 0.1158,
"step": 22600
},
{
"epoch": 2.017777777777778,
"grad_norm": 2.671964645385742,
"learning_rate": 1.4867333333333334e-05,
"loss": 0.1162,
"step": 22700
},
{
"epoch": 2.026666666666667,
"grad_norm": 2.2361083030700684,
"learning_rate": 1.4800666666666667e-05,
"loss": 0.1159,
"step": 22800
},
{
"epoch": 2.0355555555555553,
"grad_norm": 2.8421878814697266,
"learning_rate": 1.4734e-05,
"loss": 0.1165,
"step": 22900
},
{
"epoch": 2.0444444444444443,
"grad_norm": 2.485544204711914,
"learning_rate": 1.4667333333333334e-05,
"loss": 0.1152,
"step": 23000
},
{
"epoch": 2.0533333333333332,
"grad_norm": 2.96846079826355,
"learning_rate": 1.4600666666666667e-05,
"loss": 0.1155,
"step": 23100
},
{
"epoch": 2.062222222222222,
"grad_norm": 2.7394907474517822,
"learning_rate": 1.4534e-05,
"loss": 0.1164,
"step": 23200
},
{
"epoch": 2.071111111111111,
"grad_norm": 2.4437592029571533,
"learning_rate": 1.4467333333333333e-05,
"loss": 0.1156,
"step": 23300
},
{
"epoch": 2.08,
"grad_norm": 2.2288527488708496,
"learning_rate": 1.4400666666666667e-05,
"loss": 0.1158,
"step": 23400
},
{
"epoch": 2.088888888888889,
"grad_norm": 2.3188891410827637,
"learning_rate": 1.4334e-05,
"loss": 0.1148,
"step": 23500
},
{
"epoch": 2.097777777777778,
"grad_norm": 2.7612464427948,
"learning_rate": 1.4267333333333333e-05,
"loss": 0.1171,
"step": 23600
},
{
"epoch": 2.1066666666666665,
"grad_norm": 2.3894736766815186,
"learning_rate": 1.4200666666666666e-05,
"loss": 0.1148,
"step": 23700
},
{
"epoch": 2.1155555555555554,
"grad_norm": 2.3277463912963867,
"learning_rate": 1.4134e-05,
"loss": 0.1153,
"step": 23800
},
{
"epoch": 2.1244444444444444,
"grad_norm": 2.8140342235565186,
"learning_rate": 1.4067333333333333e-05,
"loss": 0.1137,
"step": 23900
},
{
"epoch": 2.1333333333333333,
"grad_norm": 2.089547634124756,
"learning_rate": 1.4000666666666666e-05,
"loss": 0.1155,
"step": 24000
},
{
"epoch": 2.1422222222222222,
"grad_norm": 3.302685260772705,
"learning_rate": 1.3934e-05,
"loss": 0.1153,
"step": 24100
},
{
"epoch": 2.151111111111111,
"grad_norm": 4.049182415008545,
"learning_rate": 1.3867333333333334e-05,
"loss": 0.1157,
"step": 24200
},
{
"epoch": 2.16,
"grad_norm": 2.8935699462890625,
"learning_rate": 1.3800666666666666e-05,
"loss": 0.1148,
"step": 24300
},
{
"epoch": 2.168888888888889,
"grad_norm": 2.7473628520965576,
"learning_rate": 1.3734e-05,
"loss": 0.1163,
"step": 24400
},
{
"epoch": 2.1777777777777776,
"grad_norm": 2.5902512073516846,
"learning_rate": 1.3667333333333334e-05,
"loss": 0.1166,
"step": 24500
},
{
"epoch": 2.1866666666666665,
"grad_norm": 2.7223613262176514,
"learning_rate": 1.3600666666666667e-05,
"loss": 0.1162,
"step": 24600
},
{
"epoch": 2.1955555555555555,
"grad_norm": 2.1939899921417236,
"learning_rate": 1.3534e-05,
"loss": 0.1154,
"step": 24700
},
{
"epoch": 2.2044444444444444,
"grad_norm": 2.0452585220336914,
"learning_rate": 1.3467333333333332e-05,
"loss": 0.1152,
"step": 24800
},
{
"epoch": 2.2133333333333334,
"grad_norm": 1.8646681308746338,
"learning_rate": 1.3400666666666667e-05,
"loss": 0.1155,
"step": 24900
},
{
"epoch": 2.2222222222222223,
"grad_norm": 1.9449495077133179,
"learning_rate": 1.3334000000000001e-05,
"loss": 0.1152,
"step": 25000
},
{
"epoch": 2.2222222222222223,
"eval_loss": 0.11821907013654709,
"eval_runtime": 205.4004,
"eval_samples_per_second": 48.685,
"eval_steps_per_second": 6.086,
"step": 25000
},
{
"epoch": 2.2311111111111113,
"grad_norm": 2.43855881690979,
"learning_rate": 1.3267333333333334e-05,
"loss": 0.1152,
"step": 25100
},
{
"epoch": 2.24,
"grad_norm": 2.259459972381592,
"learning_rate": 1.3200666666666667e-05,
"loss": 0.1166,
"step": 25200
},
{
"epoch": 2.2488888888888887,
"grad_norm": 1.6553391218185425,
"learning_rate": 1.3134000000000002e-05,
"loss": 0.1161,
"step": 25300
},
{
"epoch": 2.2577777777777777,
"grad_norm": 2.632042407989502,
"learning_rate": 1.3067333333333334e-05,
"loss": 0.1158,
"step": 25400
},
{
"epoch": 2.2666666666666666,
"grad_norm": 1.961142897605896,
"learning_rate": 1.3000666666666667e-05,
"loss": 0.1155,
"step": 25500
},
{
"epoch": 2.2755555555555556,
"grad_norm": 3.4109835624694824,
"learning_rate": 1.2934e-05,
"loss": 0.1157,
"step": 25600
},
{
"epoch": 2.2844444444444445,
"grad_norm": 1.8419948816299438,
"learning_rate": 1.2867333333333335e-05,
"loss": 0.1155,
"step": 25700
},
{
"epoch": 2.2933333333333334,
"grad_norm": 1.9801756143569946,
"learning_rate": 1.2800666666666668e-05,
"loss": 0.1158,
"step": 25800
},
{
"epoch": 2.3022222222222224,
"grad_norm": 2.43862247467041,
"learning_rate": 1.2734e-05,
"loss": 0.1153,
"step": 25900
},
{
"epoch": 2.311111111111111,
"grad_norm": 2.5168206691741943,
"learning_rate": 1.2667333333333333e-05,
"loss": 0.1156,
"step": 26000
},
{
"epoch": 2.32,
"grad_norm": 1.8565939664840698,
"learning_rate": 1.2600666666666668e-05,
"loss": 0.1152,
"step": 26100
},
{
"epoch": 2.328888888888889,
"grad_norm": 2.830747127532959,
"learning_rate": 1.2534e-05,
"loss": 0.1162,
"step": 26200
},
{
"epoch": 2.3377777777777777,
"grad_norm": 2.1019651889801025,
"learning_rate": 1.2467333333333333e-05,
"loss": 0.1133,
"step": 26300
},
{
"epoch": 2.3466666666666667,
"grad_norm": 2.217740774154663,
"learning_rate": 1.2400666666666666e-05,
"loss": 0.1152,
"step": 26400
},
{
"epoch": 2.3555555555555556,
"grad_norm": 2.361687660217285,
"learning_rate": 1.2334e-05,
"loss": 0.1156,
"step": 26500
},
{
"epoch": 2.3644444444444446,
"grad_norm": 2.0507583618164062,
"learning_rate": 1.2267333333333334e-05,
"loss": 0.1159,
"step": 26600
},
{
"epoch": 2.3733333333333335,
"grad_norm": 2.8861610889434814,
"learning_rate": 1.2200666666666667e-05,
"loss": 0.1151,
"step": 26700
},
{
"epoch": 2.3822222222222225,
"grad_norm": 1.8134089708328247,
"learning_rate": 1.2134e-05,
"loss": 0.1154,
"step": 26800
},
{
"epoch": 2.391111111111111,
"grad_norm": 2.0537240505218506,
"learning_rate": 1.2067333333333334e-05,
"loss": 0.1159,
"step": 26900
},
{
"epoch": 2.4,
"grad_norm": 2.097390651702881,
"learning_rate": 1.2000666666666667e-05,
"loss": 0.1161,
"step": 27000
},
{
"epoch": 2.408888888888889,
"grad_norm": 2.088944435119629,
"learning_rate": 1.1934e-05,
"loss": 0.1146,
"step": 27100
},
{
"epoch": 2.417777777777778,
"grad_norm": 2.133535385131836,
"learning_rate": 1.1867333333333332e-05,
"loss": 0.1159,
"step": 27200
},
{
"epoch": 2.4266666666666667,
"grad_norm": 1.7839490175247192,
"learning_rate": 1.1800666666666667e-05,
"loss": 0.1151,
"step": 27300
},
{
"epoch": 2.4355555555555557,
"grad_norm": 2.6169657707214355,
"learning_rate": 1.1734e-05,
"loss": 0.1163,
"step": 27400
},
{
"epoch": 2.4444444444444446,
"grad_norm": 2.3692398071289062,
"learning_rate": 1.1667333333333333e-05,
"loss": 0.1154,
"step": 27500
},
{
"epoch": 2.453333333333333,
"grad_norm": 2.067922353744507,
"learning_rate": 1.1600666666666667e-05,
"loss": 0.1164,
"step": 27600
},
{
"epoch": 2.462222222222222,
"grad_norm": 2.0473413467407227,
"learning_rate": 1.1534e-05,
"loss": 0.1163,
"step": 27700
},
{
"epoch": 2.471111111111111,
"grad_norm": 2.808614730834961,
"learning_rate": 1.1467333333333333e-05,
"loss": 0.1156,
"step": 27800
},
{
"epoch": 2.48,
"grad_norm": 2.913728713989258,
"learning_rate": 1.1400666666666666e-05,
"loss": 0.116,
"step": 27900
},
{
"epoch": 2.488888888888889,
"grad_norm": 1.912876009941101,
"learning_rate": 1.1334e-05,
"loss": 0.1152,
"step": 28000
},
{
"epoch": 2.497777777777778,
"grad_norm": 1.86778724193573,
"learning_rate": 1.1267333333333333e-05,
"loss": 0.1153,
"step": 28100
},
{
"epoch": 2.506666666666667,
"grad_norm": 2.0126466751098633,
"learning_rate": 1.1200666666666668e-05,
"loss": 0.1158,
"step": 28200
},
{
"epoch": 2.5155555555555553,
"grad_norm": 3.1814756393432617,
"learning_rate": 1.1134e-05,
"loss": 0.1141,
"step": 28300
},
{
"epoch": 2.5244444444444447,
"grad_norm": 1.9883755445480347,
"learning_rate": 1.1067333333333335e-05,
"loss": 0.1166,
"step": 28400
},
{
"epoch": 2.533333333333333,
"grad_norm": 2.183955192565918,
"learning_rate": 1.1000666666666668e-05,
"loss": 0.1148,
"step": 28500
},
{
"epoch": 2.542222222222222,
"grad_norm": 1.8114796876907349,
"learning_rate": 1.0934e-05,
"loss": 0.1152,
"step": 28600
},
{
"epoch": 2.551111111111111,
"grad_norm": 2.805391550064087,
"learning_rate": 1.0867333333333334e-05,
"loss": 0.1167,
"step": 28700
},
{
"epoch": 2.56,
"grad_norm": 1.9589388370513916,
"learning_rate": 1.0800666666666668e-05,
"loss": 0.1159,
"step": 28800
},
{
"epoch": 2.568888888888889,
"grad_norm": 2.483231782913208,
"learning_rate": 1.0734000000000001e-05,
"loss": 0.1164,
"step": 28900
},
{
"epoch": 2.5777777777777775,
"grad_norm": 2.146597385406494,
"learning_rate": 1.0667333333333334e-05,
"loss": 0.1157,
"step": 29000
},
{
"epoch": 2.586666666666667,
"grad_norm": 2.4722535610198975,
"learning_rate": 1.0600666666666667e-05,
"loss": 0.1152,
"step": 29100
},
{
"epoch": 2.5955555555555554,
"grad_norm": 2.1983442306518555,
"learning_rate": 1.0534000000000001e-05,
"loss": 0.1157,
"step": 29200
},
{
"epoch": 2.6044444444444443,
"grad_norm": 2.2970950603485107,
"learning_rate": 1.0467333333333334e-05,
"loss": 0.1157,
"step": 29300
},
{
"epoch": 2.6133333333333333,
"grad_norm": 2.0761561393737793,
"learning_rate": 1.0400666666666667e-05,
"loss": 0.1158,
"step": 29400
},
{
"epoch": 2.6222222222222222,
"grad_norm": 2.563446283340454,
"learning_rate": 1.0334e-05,
"loss": 0.1148,
"step": 29500
},
{
"epoch": 2.631111111111111,
"grad_norm": 1.857676386833191,
"learning_rate": 1.0267333333333334e-05,
"loss": 0.1156,
"step": 29600
},
{
"epoch": 2.64,
"grad_norm": 1.8866102695465088,
"learning_rate": 1.0200666666666667e-05,
"loss": 0.1161,
"step": 29700
},
{
"epoch": 2.648888888888889,
"grad_norm": 2.0575530529022217,
"learning_rate": 1.0134e-05,
"loss": 0.1147,
"step": 29800
},
{
"epoch": 2.6577777777777776,
"grad_norm": 2.034001111984253,
"learning_rate": 1.0067333333333333e-05,
"loss": 0.1157,
"step": 29900
},
{
"epoch": 2.6666666666666665,
"grad_norm": 2.0795133113861084,
"learning_rate": 1.0000666666666667e-05,
"loss": 0.1148,
"step": 30000
},
{
"epoch": 2.6666666666666665,
"eval_loss": 0.11856765300035477,
"eval_runtime": 205.9117,
"eval_samples_per_second": 48.565,
"eval_steps_per_second": 6.071,
"step": 30000
},
{
"epoch": 2.6755555555555555,
"grad_norm": 1.806398630142212,
"learning_rate": 9.934e-06,
"loss": 0.1157,
"step": 30100
},
{
"epoch": 2.6844444444444444,
"grad_norm": 2.670499563217163,
"learning_rate": 9.867333333333333e-06,
"loss": 0.1158,
"step": 30200
},
{
"epoch": 2.6933333333333334,
"grad_norm": 2.7029168605804443,
"learning_rate": 9.800666666666666e-06,
"loss": 0.1158,
"step": 30300
},
{
"epoch": 2.7022222222222223,
"grad_norm": 2.2368838787078857,
"learning_rate": 9.734e-06,
"loss": 0.1158,
"step": 30400
},
{
"epoch": 2.7111111111111112,
"grad_norm": 2.2548608779907227,
"learning_rate": 9.667333333333333e-06,
"loss": 0.1158,
"step": 30500
},
{
"epoch": 2.7199999999999998,
"grad_norm": 2.935089588165283,
"learning_rate": 9.600666666666666e-06,
"loss": 0.1158,
"step": 30600
},
{
"epoch": 2.728888888888889,
"grad_norm": 2.124918222427368,
"learning_rate": 9.534e-06,
"loss": 0.116,
"step": 30700
},
{
"epoch": 2.7377777777777776,
"grad_norm": 2.378983736038208,
"learning_rate": 9.467333333333333e-06,
"loss": 0.1151,
"step": 30800
},
{
"epoch": 2.7466666666666666,
"grad_norm": 2.25007963180542,
"learning_rate": 9.400666666666666e-06,
"loss": 0.1149,
"step": 30900
},
{
"epoch": 2.7555555555555555,
"grad_norm": 2.59733510017395,
"learning_rate": 9.333999999999999e-06,
"loss": 0.1161,
"step": 31000
},
{
"epoch": 2.7644444444444445,
"grad_norm": 1.812325119972229,
"learning_rate": 9.267333333333334e-06,
"loss": 0.1138,
"step": 31100
},
{
"epoch": 2.7733333333333334,
"grad_norm": 1.9207689762115479,
"learning_rate": 9.200666666666666e-06,
"loss": 0.1147,
"step": 31200
},
{
"epoch": 2.7822222222222224,
"grad_norm": 2.4983069896698,
"learning_rate": 9.134e-06,
"loss": 0.1153,
"step": 31300
},
{
"epoch": 2.7911111111111113,
"grad_norm": 2.1139156818389893,
"learning_rate": 9.067333333333334e-06,
"loss": 0.1147,
"step": 31400
},
{
"epoch": 2.8,
"grad_norm": 1.7658330202102661,
"learning_rate": 9.000666666666668e-06,
"loss": 0.1149,
"step": 31500
},
{
"epoch": 2.8088888888888888,
"grad_norm": 2.7101166248321533,
"learning_rate": 8.934000000000001e-06,
"loss": 0.1159,
"step": 31600
},
{
"epoch": 2.8177777777777777,
"grad_norm": 2.397491455078125,
"learning_rate": 8.867333333333334e-06,
"loss": 0.1145,
"step": 31700
},
{
"epoch": 2.8266666666666667,
"grad_norm": 1.7462725639343262,
"learning_rate": 8.800666666666667e-06,
"loss": 0.1146,
"step": 31800
},
{
"epoch": 2.8355555555555556,
"grad_norm": 1.9845815896987915,
"learning_rate": 8.734000000000001e-06,
"loss": 0.1159,
"step": 31900
},
{
"epoch": 2.8444444444444446,
"grad_norm": 2.7019858360290527,
"learning_rate": 8.667333333333334e-06,
"loss": 0.1161,
"step": 32000
},
{
"epoch": 2.8533333333333335,
"grad_norm": 2.1721303462982178,
"learning_rate": 8.600666666666667e-06,
"loss": 0.1158,
"step": 32100
},
{
"epoch": 2.862222222222222,
"grad_norm": 2.018580436706543,
"learning_rate": 8.534e-06,
"loss": 0.1155,
"step": 32200
},
{
"epoch": 2.871111111111111,
"grad_norm": 2.5351226329803467,
"learning_rate": 8.467333333333334e-06,
"loss": 0.1145,
"step": 32300
},
{
"epoch": 2.88,
"grad_norm": 2.0548834800720215,
"learning_rate": 8.400666666666667e-06,
"loss": 0.1123,
"step": 32400
},
{
"epoch": 2.888888888888889,
"grad_norm": 1.849409818649292,
"learning_rate": 8.334e-06,
"loss": 0.1164,
"step": 32500
},
{
"epoch": 2.897777777777778,
"grad_norm": 1.837160348892212,
"learning_rate": 8.267333333333333e-06,
"loss": 0.1149,
"step": 32600
},
{
"epoch": 2.9066666666666667,
"grad_norm": 2.0503478050231934,
"learning_rate": 8.200666666666668e-06,
"loss": 0.1156,
"step": 32700
},
{
"epoch": 2.9155555555555557,
"grad_norm": 2.295761823654175,
"learning_rate": 8.134e-06,
"loss": 0.1161,
"step": 32800
},
{
"epoch": 2.924444444444444,
"grad_norm": 1.939372181892395,
"learning_rate": 8.067333333333333e-06,
"loss": 0.1159,
"step": 32900
},
{
"epoch": 2.9333333333333336,
"grad_norm": 2.1088409423828125,
"learning_rate": 8.000666666666666e-06,
"loss": 0.1151,
"step": 33000
},
{
"epoch": 2.942222222222222,
"grad_norm": 2.3162732124328613,
"learning_rate": 7.934e-06,
"loss": 0.1146,
"step": 33100
},
{
"epoch": 2.951111111111111,
"grad_norm": 2.5189192295074463,
"learning_rate": 7.867333333333333e-06,
"loss": 0.1153,
"step": 33200
},
{
"epoch": 2.96,
"grad_norm": 2.011211633682251,
"learning_rate": 7.800666666666666e-06,
"loss": 0.1154,
"step": 33300
},
{
"epoch": 2.968888888888889,
"grad_norm": 2.14790415763855,
"learning_rate": 7.733999999999999e-06,
"loss": 0.1158,
"step": 33400
},
{
"epoch": 2.977777777777778,
"grad_norm": 1.6173288822174072,
"learning_rate": 7.667333333333334e-06,
"loss": 0.1154,
"step": 33500
},
{
"epoch": 2.986666666666667,
"grad_norm": 2.406761407852173,
"learning_rate": 7.6006666666666665e-06,
"loss": 0.1162,
"step": 33600
},
{
"epoch": 2.9955555555555557,
"grad_norm": 1.9551059007644653,
"learning_rate": 7.533999999999999e-06,
"loss": 0.1152,
"step": 33700
},
{
"epoch": 3.0044444444444443,
"grad_norm": 3.290292263031006,
"learning_rate": 7.467333333333334e-06,
"loss": 0.1139,
"step": 33800
},
{
"epoch": 3.013333333333333,
"grad_norm": 1.8533827066421509,
"learning_rate": 7.400666666666668e-06,
"loss": 0.115,
"step": 33900
},
{
"epoch": 3.022222222222222,
"grad_norm": 2.736829996109009,
"learning_rate": 7.3340000000000004e-06,
"loss": 0.1166,
"step": 34000
},
{
"epoch": 3.031111111111111,
"grad_norm": 1.9183787107467651,
"learning_rate": 7.267333333333334e-06,
"loss": 0.1156,
"step": 34100
},
{
"epoch": 3.04,
"grad_norm": 2.566490411758423,
"learning_rate": 7.200666666666667e-06,
"loss": 0.1144,
"step": 34200
},
{
"epoch": 3.048888888888889,
"grad_norm": 1.9702024459838867,
"learning_rate": 7.134000000000001e-06,
"loss": 0.1155,
"step": 34300
},
{
"epoch": 3.057777777777778,
"grad_norm": 1.7992531061172485,
"learning_rate": 7.0673333333333335e-06,
"loss": 0.115,
"step": 34400
},
{
"epoch": 3.066666666666667,
"grad_norm": 2.741799831390381,
"learning_rate": 7.000666666666667e-06,
"loss": 0.1135,
"step": 34500
},
{
"epoch": 3.0755555555555554,
"grad_norm": 2.1746695041656494,
"learning_rate": 6.934e-06,
"loss": 0.1157,
"step": 34600
},
{
"epoch": 3.0844444444444443,
"grad_norm": 2.317960023880005,
"learning_rate": 6.867333333333334e-06,
"loss": 0.116,
"step": 34700
},
{
"epoch": 3.0933333333333333,
"grad_norm": 2.2601873874664307,
"learning_rate": 6.8006666666666666e-06,
"loss": 0.1166,
"step": 34800
},
{
"epoch": 3.102222222222222,
"grad_norm": 2.3944337368011475,
"learning_rate": 6.734e-06,
"loss": 0.1148,
"step": 34900
},
{
"epoch": 3.111111111111111,
"grad_norm": 1.8338050842285156,
"learning_rate": 6.667333333333333e-06,
"loss": 0.1162,
"step": 35000
},
{
"epoch": 3.111111111111111,
"eval_loss": 0.11784859746694565,
"eval_runtime": 222.7792,
"eval_samples_per_second": 44.887,
"eval_steps_per_second": 5.611,
"step": 35000
},
{
"epoch": 3.12,
"grad_norm": 2.1952126026153564,
"learning_rate": 6.600666666666667e-06,
"loss": 0.1155,
"step": 35100
},
{
"epoch": 3.128888888888889,
"grad_norm": 2.4511802196502686,
"learning_rate": 6.534e-06,
"loss": 0.1161,
"step": 35200
},
{
"epoch": 3.137777777777778,
"grad_norm": 2.5017638206481934,
"learning_rate": 6.467333333333333e-06,
"loss": 0.1151,
"step": 35300
},
{
"epoch": 3.1466666666666665,
"grad_norm": 2.345991373062134,
"learning_rate": 6.400666666666667e-06,
"loss": 0.1161,
"step": 35400
},
{
"epoch": 3.1555555555555554,
"grad_norm": 2.8866028785705566,
"learning_rate": 6.334000000000001e-06,
"loss": 0.1156,
"step": 35500
},
{
"epoch": 3.1644444444444444,
"grad_norm": 2.9575486183166504,
"learning_rate": 6.2673333333333335e-06,
"loss": 0.1142,
"step": 35600
},
{
"epoch": 3.1733333333333333,
"grad_norm": 2.0834195613861084,
"learning_rate": 6.200666666666667e-06,
"loss": 0.1155,
"step": 35700
},
{
"epoch": 3.1822222222222223,
"grad_norm": 2.265125036239624,
"learning_rate": 6.134e-06,
"loss": 0.1153,
"step": 35800
},
{
"epoch": 3.1911111111111112,
"grad_norm": 1.915515661239624,
"learning_rate": 6.067333333333334e-06,
"loss": 0.1156,
"step": 35900
},
{
"epoch": 3.2,
"grad_norm": 1.5453358888626099,
"learning_rate": 6.000666666666667e-06,
"loss": 0.1159,
"step": 36000
},
{
"epoch": 3.2088888888888887,
"grad_norm": 3.102155923843384,
"learning_rate": 5.934e-06,
"loss": 0.1159,
"step": 36100
},
{
"epoch": 3.2177777777777776,
"grad_norm": 1.9122494459152222,
"learning_rate": 5.867333333333333e-06,
"loss": 0.1152,
"step": 36200
},
{
"epoch": 3.2266666666666666,
"grad_norm": 3.5081045627593994,
"learning_rate": 5.800666666666667e-06,
"loss": 0.1155,
"step": 36300
},
{
"epoch": 3.2355555555555555,
"grad_norm": 2.1976592540740967,
"learning_rate": 5.734e-06,
"loss": 0.1153,
"step": 36400
},
{
"epoch": 3.2444444444444445,
"grad_norm": 1.8369086980819702,
"learning_rate": 5.667333333333333e-06,
"loss": 0.1144,
"step": 36500
},
{
"epoch": 3.2533333333333334,
"grad_norm": 2.886779308319092,
"learning_rate": 5.600666666666666e-06,
"loss": 0.1137,
"step": 36600
},
{
"epoch": 3.2622222222222224,
"grad_norm": 2.462570905685425,
"learning_rate": 5.534e-06,
"loss": 0.1149,
"step": 36700
},
{
"epoch": 3.2711111111111113,
"grad_norm": 2.79964017868042,
"learning_rate": 5.467333333333333e-06,
"loss": 0.1144,
"step": 36800
},
{
"epoch": 3.2800000000000002,
"grad_norm": 2.734807014465332,
"learning_rate": 5.400666666666666e-06,
"loss": 0.1165,
"step": 36900
},
{
"epoch": 3.2888888888888888,
"grad_norm": 2.096987247467041,
"learning_rate": 5.334000000000001e-06,
"loss": 0.1152,
"step": 37000
},
{
"epoch": 3.2977777777777777,
"grad_norm": 2.1545772552490234,
"learning_rate": 5.267333333333334e-06,
"loss": 0.1159,
"step": 37100
},
{
"epoch": 3.3066666666666666,
"grad_norm": 2.877927780151367,
"learning_rate": 5.2006666666666675e-06,
"loss": 0.1145,
"step": 37200
},
{
"epoch": 3.3155555555555556,
"grad_norm": 2.041455030441284,
"learning_rate": 5.134e-06,
"loss": 0.1146,
"step": 37300
},
{
"epoch": 3.3244444444444445,
"grad_norm": 3.838764190673828,
"learning_rate": 5.067333333333334e-06,
"loss": 0.115,
"step": 37400
},
{
"epoch": 3.3333333333333335,
"grad_norm": 2.4776864051818848,
"learning_rate": 5.000666666666667e-06,
"loss": 0.1153,
"step": 37500
},
{
"epoch": 3.3422222222222224,
"grad_norm": 2.534553050994873,
"learning_rate": 4.9340000000000005e-06,
"loss": 0.1154,
"step": 37600
},
{
"epoch": 3.351111111111111,
"grad_norm": 2.8918344974517822,
"learning_rate": 4.867333333333333e-06,
"loss": 0.1148,
"step": 37700
},
{
"epoch": 3.36,
"grad_norm": 2.2287111282348633,
"learning_rate": 4.800666666666667e-06,
"loss": 0.1154,
"step": 37800
},
{
"epoch": 3.368888888888889,
"grad_norm": 1.7449971437454224,
"learning_rate": 4.734e-06,
"loss": 0.1135,
"step": 37900
},
{
"epoch": 3.3777777777777778,
"grad_norm": 1.7717570066452026,
"learning_rate": 4.667333333333334e-06,
"loss": 0.1159,
"step": 38000
},
{
"epoch": 3.3866666666666667,
"grad_norm": 2.641322135925293,
"learning_rate": 4.6006666666666664e-06,
"loss": 0.115,
"step": 38100
},
{
"epoch": 3.3955555555555557,
"grad_norm": 2.314724922180176,
"learning_rate": 4.534e-06,
"loss": 0.1155,
"step": 38200
},
{
"epoch": 3.4044444444444446,
"grad_norm": 2.006136894226074,
"learning_rate": 4.467333333333333e-06,
"loss": 0.1151,
"step": 38300
},
{
"epoch": 3.413333333333333,
"grad_norm": 2.498370885848999,
"learning_rate": 4.400666666666667e-06,
"loss": 0.1135,
"step": 38400
},
{
"epoch": 3.422222222222222,
"grad_norm": 2.1067326068878174,
"learning_rate": 4.3339999999999995e-06,
"loss": 0.1142,
"step": 38500
},
{
"epoch": 3.431111111111111,
"grad_norm": 2.3120410442352295,
"learning_rate": 4.267333333333334e-06,
"loss": 0.1156,
"step": 38600
},
{
"epoch": 3.44,
"grad_norm": 2.062558650970459,
"learning_rate": 4.200666666666667e-06,
"loss": 0.1146,
"step": 38700
},
{
"epoch": 3.448888888888889,
"grad_norm": 1.8033158779144287,
"learning_rate": 4.1340000000000006e-06,
"loss": 0.1142,
"step": 38800
},
{
"epoch": 3.457777777777778,
"grad_norm": 1.7999958992004395,
"learning_rate": 4.067333333333333e-06,
"loss": 0.1152,
"step": 38900
},
{
"epoch": 3.466666666666667,
"grad_norm": 1.9380857944488525,
"learning_rate": 4.000666666666667e-06,
"loss": 0.1159,
"step": 39000
},
{
"epoch": 3.4755555555555557,
"grad_norm": 2.4088852405548096,
"learning_rate": 3.934e-06,
"loss": 0.1142,
"step": 39100
},
{
"epoch": 3.4844444444444447,
"grad_norm": 1.9888384342193604,
"learning_rate": 3.867333333333334e-06,
"loss": 0.1131,
"step": 39200
},
{
"epoch": 3.493333333333333,
"grad_norm": 2.044527530670166,
"learning_rate": 3.8006666666666665e-06,
"loss": 0.1145,
"step": 39300
},
{
"epoch": 3.502222222222222,
"grad_norm": 1.478445291519165,
"learning_rate": 3.734e-06,
"loss": 0.114,
"step": 39400
},
{
"epoch": 3.511111111111111,
"grad_norm": 2.0271923542022705,
"learning_rate": 3.6673333333333334e-06,
"loss": 0.1148,
"step": 39500
},
{
"epoch": 3.52,
"grad_norm": 2.7675399780273438,
"learning_rate": 3.6006666666666667e-06,
"loss": 0.116,
"step": 39600
},
{
"epoch": 3.528888888888889,
"grad_norm": 1.6932669878005981,
"learning_rate": 3.534e-06,
"loss": 0.1142,
"step": 39700
},
{
"epoch": 3.537777777777778,
"grad_norm": 2.0795860290527344,
"learning_rate": 3.4673333333333337e-06,
"loss": 0.1148,
"step": 39800
},
{
"epoch": 3.546666666666667,
"grad_norm": 1.9962270259857178,
"learning_rate": 3.400666666666667e-06,
"loss": 0.1147,
"step": 39900
},
{
"epoch": 3.5555555555555554,
"grad_norm": 1.931861400604248,
"learning_rate": 3.334e-06,
"loss": 0.1144,
"step": 40000
},
{
"epoch": 3.5555555555555554,
"eval_loss": 0.11772522330284119,
"eval_runtime": 222.4728,
"eval_samples_per_second": 44.949,
"eval_steps_per_second": 5.619,
"step": 40000
}
],
"logging_steps": 100,
"max_steps": 45000,
"num_input_tokens_seen": 0,
"num_train_epochs": 4,
"save_steps": 5000,
"stateful_callbacks": {
"EarlyStoppingCallback": {
"args": {
"early_stopping_patience": 2,
"early_stopping_threshold": 0.0
},
"attributes": {
"early_stopping_patience_counter": 0
}
},
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 4.180672512e+16,
"train_batch_size": 8,
"trial_name": null,
"trial_params": null
}