{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 1.0, "eval_steps": 500, "global_step": 9375, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0010666666666666667, "grad_norm": 19.19351951833338, "learning_rate": 2.8784648187633266e-08, "loss": 2.4684, "step": 10 }, { "epoch": 0.0021333333333333334, "grad_norm": 18.92337376379854, "learning_rate": 6.076759061833688e-08, "loss": 2.4692, "step": 20 }, { "epoch": 0.0032, "grad_norm": 18.39070081725417, "learning_rate": 9.275053304904052e-08, "loss": 2.4531, "step": 30 }, { "epoch": 0.004266666666666667, "grad_norm": 18.110623469581412, "learning_rate": 1.2473347547974415e-07, "loss": 2.4457, "step": 40 }, { "epoch": 0.005333333333333333, "grad_norm": 16.829744812640254, "learning_rate": 1.5671641791044775e-07, "loss": 2.4302, "step": 50 }, { "epoch": 0.0064, "grad_norm": 14.086095074710766, "learning_rate": 1.886993603411514e-07, "loss": 2.3449, "step": 60 }, { "epoch": 0.007466666666666667, "grad_norm": 9.841110946936624, "learning_rate": 2.20682302771855e-07, "loss": 2.3078, "step": 70 }, { "epoch": 0.008533333333333334, "grad_norm": 6.78430988197192, "learning_rate": 2.526652452025586e-07, "loss": 2.1706, "step": 80 }, { "epoch": 0.0096, "grad_norm": 4.333514177750633, "learning_rate": 2.846481876332623e-07, "loss": 2.1272, "step": 90 }, { "epoch": 0.010666666666666666, "grad_norm": 3.1732519039552036, "learning_rate": 3.166311300639659e-07, "loss": 2.0568, "step": 100 }, { "epoch": 0.011733333333333333, "grad_norm": 2.3810508874010594, "learning_rate": 3.486140724946695e-07, "loss": 2.0246, "step": 110 }, { "epoch": 0.0128, "grad_norm": 1.9179100694443678, "learning_rate": 3.8059701492537315e-07, "loss": 1.9983, "step": 120 }, { "epoch": 0.013866666666666666, "grad_norm": 2.3349329486093096, "learning_rate": 4.125799573560768e-07, "loss": 1.942, "step": 130 }, { "epoch": 0.014933333333333333, "grad_norm": 1.4296519104353067, "learning_rate": 4.4456289978678036e-07, "loss": 1.9013, "step": 140 }, { "epoch": 0.016, "grad_norm": 1.2824426730595104, "learning_rate": 4.7654584221748404e-07, "loss": 1.8814, "step": 150 }, { "epoch": 0.017066666666666667, "grad_norm": 1.1216154194528924, "learning_rate": 5.085287846481876e-07, "loss": 1.8666, "step": 160 }, { "epoch": 0.018133333333333335, "grad_norm": 1.2059667866990331, "learning_rate": 5.405117270788912e-07, "loss": 1.8533, "step": 170 }, { "epoch": 0.0192, "grad_norm": 1.1493902678337349, "learning_rate": 5.724946695095949e-07, "loss": 1.8506, "step": 180 }, { "epoch": 0.020266666666666665, "grad_norm": 1.0836891008436758, "learning_rate": 6.044776119402986e-07, "loss": 1.8418, "step": 190 }, { "epoch": 0.021333333333333333, "grad_norm": 1.0951533998987484, "learning_rate": 6.364605543710021e-07, "loss": 1.8254, "step": 200 }, { "epoch": 0.0224, "grad_norm": 1.2099775250080314, "learning_rate": 6.684434968017058e-07, "loss": 1.8277, "step": 210 }, { "epoch": 0.023466666666666667, "grad_norm": 1.1296459421981933, "learning_rate": 7.004264392324094e-07, "loss": 1.8267, "step": 220 }, { "epoch": 0.024533333333333334, "grad_norm": 1.0670615871346485, "learning_rate": 7.32409381663113e-07, "loss": 1.8124, "step": 230 }, { "epoch": 0.0256, "grad_norm": 1.0760214545568452, "learning_rate": 7.643923240938166e-07, "loss": 1.8295, "step": 240 }, { "epoch": 0.02666666666666667, "grad_norm": 0.9894101666354408, "learning_rate": 7.963752665245201e-07, "loss": 1.814, "step": 250 }, { "epoch": 0.027733333333333332, "grad_norm": 1.1287464355221322, "learning_rate": 8.283582089552239e-07, "loss": 1.8124, "step": 260 }, { "epoch": 0.0288, "grad_norm": 1.1348862317797481, "learning_rate": 8.603411513859275e-07, "loss": 1.8022, "step": 270 }, { "epoch": 0.029866666666666666, "grad_norm": 0.9761919582313725, "learning_rate": 8.923240938166312e-07, "loss": 1.7992, "step": 280 }, { "epoch": 0.030933333333333334, "grad_norm": 1.014871042008999, "learning_rate": 9.243070362473348e-07, "loss": 1.8102, "step": 290 }, { "epoch": 0.032, "grad_norm": 1.0301862866806937, "learning_rate": 9.562899786780384e-07, "loss": 1.8032, "step": 300 }, { "epoch": 0.03306666666666667, "grad_norm": 1.0048214186154454, "learning_rate": 9.88272921108742e-07, "loss": 1.7852, "step": 310 }, { "epoch": 0.034133333333333335, "grad_norm": 1.0376114136346828, "learning_rate": 1.0202558635394457e-06, "loss": 1.8005, "step": 320 }, { "epoch": 0.0352, "grad_norm": 0.9815201183737711, "learning_rate": 1.0522388059701493e-06, "loss": 1.7907, "step": 330 }, { "epoch": 0.03626666666666667, "grad_norm": 1.077177807922214, "learning_rate": 1.0842217484008529e-06, "loss": 1.7872, "step": 340 }, { "epoch": 0.037333333333333336, "grad_norm": 1.0062114274919118, "learning_rate": 1.1162046908315565e-06, "loss": 1.79, "step": 350 }, { "epoch": 0.0384, "grad_norm": 1.011677603731489, "learning_rate": 1.14818763326226e-06, "loss": 1.7717, "step": 360 }, { "epoch": 0.039466666666666664, "grad_norm": 1.0171488180098203, "learning_rate": 1.1801705756929636e-06, "loss": 1.7956, "step": 370 }, { "epoch": 0.04053333333333333, "grad_norm": 0.9888992252428204, "learning_rate": 1.2121535181236674e-06, "loss": 1.7864, "step": 380 }, { "epoch": 0.0416, "grad_norm": 0.9859184795384529, "learning_rate": 1.244136460554371e-06, "loss": 1.7823, "step": 390 }, { "epoch": 0.042666666666666665, "grad_norm": 1.0304450709466717, "learning_rate": 1.2761194029850748e-06, "loss": 1.7789, "step": 400 }, { "epoch": 0.04373333333333333, "grad_norm": 0.9930226616060509, "learning_rate": 1.3081023454157784e-06, "loss": 1.7789, "step": 410 }, { "epoch": 0.0448, "grad_norm": 1.0049945685138113, "learning_rate": 1.340085287846482e-06, "loss": 1.7859, "step": 420 }, { "epoch": 0.04586666666666667, "grad_norm": 0.9986856887017783, "learning_rate": 1.3720682302771855e-06, "loss": 1.7706, "step": 430 }, { "epoch": 0.046933333333333334, "grad_norm": 0.96632533926388, "learning_rate": 1.4040511727078893e-06, "loss": 1.765, "step": 440 }, { "epoch": 0.048, "grad_norm": 0.9946011180675964, "learning_rate": 1.4360341151385929e-06, "loss": 1.7802, "step": 450 }, { "epoch": 0.04906666666666667, "grad_norm": 1.0219829758585637, "learning_rate": 1.4680170575692965e-06, "loss": 1.7595, "step": 460 }, { "epoch": 0.050133333333333335, "grad_norm": 1.0050257648331358, "learning_rate": 1.5e-06, "loss": 1.7779, "step": 470 }, { "epoch": 0.0512, "grad_norm": 1.0173955839633826, "learning_rate": 1.5319829424307038e-06, "loss": 1.7662, "step": 480 }, { "epoch": 0.05226666666666667, "grad_norm": 1.0058087072458008, "learning_rate": 1.5639658848614072e-06, "loss": 1.7662, "step": 490 }, { "epoch": 0.05333333333333334, "grad_norm": 1.009772740192404, "learning_rate": 1.595948827292111e-06, "loss": 1.7629, "step": 500 }, { "epoch": 0.0544, "grad_norm": 1.0091539437017147, "learning_rate": 1.6279317697228144e-06, "loss": 1.7625, "step": 510 }, { "epoch": 0.055466666666666664, "grad_norm": 0.9766386913719629, "learning_rate": 1.6599147121535181e-06, "loss": 1.7651, "step": 520 }, { "epoch": 0.05653333333333333, "grad_norm": 0.9948665771860978, "learning_rate": 1.6918976545842217e-06, "loss": 1.7575, "step": 530 }, { "epoch": 0.0576, "grad_norm": 1.015137004488529, "learning_rate": 1.7238805970149253e-06, "loss": 1.7522, "step": 540 }, { "epoch": 0.058666666666666666, "grad_norm": 0.979130851624477, "learning_rate": 1.755863539445629e-06, "loss": 1.7491, "step": 550 }, { "epoch": 0.05973333333333333, "grad_norm": 1.028286956478857, "learning_rate": 1.7878464818763327e-06, "loss": 1.7601, "step": 560 }, { "epoch": 0.0608, "grad_norm": 1.0021135232260054, "learning_rate": 1.8198294243070365e-06, "loss": 1.7503, "step": 570 }, { "epoch": 0.06186666666666667, "grad_norm": 0.9849872333104093, "learning_rate": 1.8518123667377398e-06, "loss": 1.7567, "step": 580 }, { "epoch": 0.06293333333333333, "grad_norm": 0.966018699377993, "learning_rate": 1.8837953091684436e-06, "loss": 1.7532, "step": 590 }, { "epoch": 0.064, "grad_norm": 0.9834875314263131, "learning_rate": 1.9157782515991474e-06, "loss": 1.7527, "step": 600 }, { "epoch": 0.06506666666666666, "grad_norm": 0.9857718624604849, "learning_rate": 1.9477611940298506e-06, "loss": 1.7478, "step": 610 }, { "epoch": 0.06613333333333334, "grad_norm": 0.9750320080314833, "learning_rate": 1.9797441364605546e-06, "loss": 1.7567, "step": 620 }, { "epoch": 0.0672, "grad_norm": 0.986251223038516, "learning_rate": 2.011727078891258e-06, "loss": 1.7537, "step": 630 }, { "epoch": 0.06826666666666667, "grad_norm": 1.0589652983354991, "learning_rate": 2.0437100213219617e-06, "loss": 1.7479, "step": 640 }, { "epoch": 0.06933333333333333, "grad_norm": 0.966603804583492, "learning_rate": 2.0756929637526653e-06, "loss": 1.7553, "step": 650 }, { "epoch": 0.0704, "grad_norm": 0.9937104599025618, "learning_rate": 2.107675906183369e-06, "loss": 1.7396, "step": 660 }, { "epoch": 0.07146666666666666, "grad_norm": 0.9729344211017412, "learning_rate": 2.139658848614073e-06, "loss": 1.749, "step": 670 }, { "epoch": 0.07253333333333334, "grad_norm": 0.9684440081773728, "learning_rate": 2.171641791044776e-06, "loss": 1.7448, "step": 680 }, { "epoch": 0.0736, "grad_norm": 1.0315595656282452, "learning_rate": 2.20362473347548e-06, "loss": 1.7413, "step": 690 }, { "epoch": 0.07466666666666667, "grad_norm": 0.956255201496986, "learning_rate": 2.235607675906183e-06, "loss": 1.7343, "step": 700 }, { "epoch": 0.07573333333333333, "grad_norm": 1.0099473897982345, "learning_rate": 2.267590618336887e-06, "loss": 1.7476, "step": 710 }, { "epoch": 0.0768, "grad_norm": 0.9918013311593525, "learning_rate": 2.2995735607675903e-06, "loss": 1.7447, "step": 720 }, { "epoch": 0.07786666666666667, "grad_norm": 0.9607779066124419, "learning_rate": 2.3315565031982944e-06, "loss": 1.7461, "step": 730 }, { "epoch": 0.07893333333333333, "grad_norm": 0.9300821752164984, "learning_rate": 2.363539445628998e-06, "loss": 1.7459, "step": 740 }, { "epoch": 0.08, "grad_norm": 0.9802865773994389, "learning_rate": 2.3955223880597015e-06, "loss": 1.7289, "step": 750 }, { "epoch": 0.08106666666666666, "grad_norm": 0.968861406929428, "learning_rate": 2.427505330490405e-06, "loss": 1.734, "step": 760 }, { "epoch": 0.08213333333333334, "grad_norm": 0.931168411910361, "learning_rate": 2.4594882729211087e-06, "loss": 1.7378, "step": 770 }, { "epoch": 0.0832, "grad_norm": 0.9349432879520486, "learning_rate": 2.4914712153518122e-06, "loss": 1.7458, "step": 780 }, { "epoch": 0.08426666666666667, "grad_norm": 0.9572777712374823, "learning_rate": 2.5234541577825162e-06, "loss": 1.7299, "step": 790 }, { "epoch": 0.08533333333333333, "grad_norm": 0.9673644326074168, "learning_rate": 2.55543710021322e-06, "loss": 1.7338, "step": 800 }, { "epoch": 0.0864, "grad_norm": 0.9341236623596115, "learning_rate": 2.5874200426439234e-06, "loss": 1.7368, "step": 810 }, { "epoch": 0.08746666666666666, "grad_norm": 1.0169214342659523, "learning_rate": 2.619402985074627e-06, "loss": 1.73, "step": 820 }, { "epoch": 0.08853333333333334, "grad_norm": 0.9677599182909125, "learning_rate": 2.6513859275053306e-06, "loss": 1.7313, "step": 830 }, { "epoch": 0.0896, "grad_norm": 0.9660202276249766, "learning_rate": 2.683368869936034e-06, "loss": 1.7347, "step": 840 }, { "epoch": 0.09066666666666667, "grad_norm": 0.9689227185392472, "learning_rate": 2.7153518123667377e-06, "loss": 1.7331, "step": 850 }, { "epoch": 0.09173333333333333, "grad_norm": 1.0445222338763358, "learning_rate": 2.7473347547974417e-06, "loss": 1.7406, "step": 860 }, { "epoch": 0.0928, "grad_norm": 0.9732698184797995, "learning_rate": 2.779317697228145e-06, "loss": 1.7372, "step": 870 }, { "epoch": 0.09386666666666667, "grad_norm": 0.9397504123684303, "learning_rate": 2.811300639658849e-06, "loss": 1.7368, "step": 880 }, { "epoch": 0.09493333333333333, "grad_norm": 0.9636532387138392, "learning_rate": 2.843283582089552e-06, "loss": 1.7336, "step": 890 }, { "epoch": 0.096, "grad_norm": 0.9787282267170603, "learning_rate": 2.875266524520256e-06, "loss": 1.7395, "step": 900 }, { "epoch": 0.09706666666666666, "grad_norm": 0.9731100393389104, "learning_rate": 2.9072494669509596e-06, "loss": 1.7233, "step": 910 }, { "epoch": 0.09813333333333334, "grad_norm": 1.0218327091088006, "learning_rate": 2.939232409381663e-06, "loss": 1.7199, "step": 920 }, { "epoch": 0.0992, "grad_norm": 0.9279354105013138, "learning_rate": 2.9712153518123668e-06, "loss": 1.7351, "step": 930 }, { "epoch": 0.10026666666666667, "grad_norm": 0.9797482853345897, "learning_rate": 2.9999998960115977e-06, "loss": 1.7235, "step": 940 }, { "epoch": 0.10133333333333333, "grad_norm": 0.9693839730900363, "learning_rate": 2.999987417420771e-06, "loss": 1.7249, "step": 950 }, { "epoch": 0.1024, "grad_norm": 0.9934769517676881, "learning_rate": 2.9999541413477384e-06, "loss": 1.7214, "step": 960 }, { "epoch": 0.10346666666666667, "grad_norm": 0.9260717773699929, "learning_rate": 2.9999000682538766e-06, "loss": 1.7214, "step": 970 }, { "epoch": 0.10453333333333334, "grad_norm": 0.9590505556253277, "learning_rate": 2.9998251988889143e-06, "loss": 1.7181, "step": 980 }, { "epoch": 0.1056, "grad_norm": 0.9738157745852473, "learning_rate": 2.999729534290923e-06, "loss": 1.7284, "step": 990 }, { "epoch": 0.10666666666666667, "grad_norm": 1.0010285106665302, "learning_rate": 2.9996130757863025e-06, "loss": 1.7287, "step": 1000 }, { "epoch": 0.10773333333333333, "grad_norm": 0.9726401774081405, "learning_rate": 2.9994758249897616e-06, "loss": 1.714, "step": 1010 }, { "epoch": 0.1088, "grad_norm": 0.9704109486266078, "learning_rate": 2.9993177838042985e-06, "loss": 1.7255, "step": 1020 }, { "epoch": 0.10986666666666667, "grad_norm": 0.9343959879441444, "learning_rate": 2.9991389544211688e-06, "loss": 1.7259, "step": 1030 }, { "epoch": 0.11093333333333333, "grad_norm": 0.9412581833815676, "learning_rate": 2.998939339319862e-06, "loss": 1.712, "step": 1040 }, { "epoch": 0.112, "grad_norm": 0.9319765147324208, "learning_rate": 2.9987189412680615e-06, "loss": 1.7311, "step": 1050 }, { "epoch": 0.11306666666666666, "grad_norm": 0.9182490196452511, "learning_rate": 2.9984777633216096e-06, "loss": 1.7188, "step": 1060 }, { "epoch": 0.11413333333333334, "grad_norm": 0.9406223896042467, "learning_rate": 2.998215808824464e-06, "loss": 1.7197, "step": 1070 }, { "epoch": 0.1152, "grad_norm": 0.9791936853352362, "learning_rate": 2.9979330814086504e-06, "loss": 1.7095, "step": 1080 }, { "epoch": 0.11626666666666667, "grad_norm": 0.9378156358079694, "learning_rate": 2.9976295849942147e-06, "loss": 1.7191, "step": 1090 }, { "epoch": 0.11733333333333333, "grad_norm": 0.9828063083933306, "learning_rate": 2.997305323789166e-06, "loss": 1.7179, "step": 1100 }, { "epoch": 0.1184, "grad_norm": 0.9370575824674827, "learning_rate": 2.9969603022894198e-06, "loss": 1.7174, "step": 1110 }, { "epoch": 0.11946666666666667, "grad_norm": 0.9382352010977533, "learning_rate": 2.9965945252787354e-06, "loss": 1.7212, "step": 1120 }, { "epoch": 0.12053333333333334, "grad_norm": 1.0023541537096632, "learning_rate": 2.9962079978286493e-06, "loss": 1.7176, "step": 1130 }, { "epoch": 0.1216, "grad_norm": 0.9898668773320954, "learning_rate": 2.9958007252984044e-06, "loss": 1.706, "step": 1140 }, { "epoch": 0.12266666666666666, "grad_norm": 0.9465088451952217, "learning_rate": 2.995372713334878e-06, "loss": 1.7153, "step": 1150 }, { "epoch": 0.12373333333333333, "grad_norm": 0.9226258198430934, "learning_rate": 2.9949239678724995e-06, "loss": 1.7164, "step": 1160 }, { "epoch": 0.1248, "grad_norm": 0.9684110743028738, "learning_rate": 2.994454495133172e-06, "loss": 1.6988, "step": 1170 }, { "epoch": 0.12586666666666665, "grad_norm": 0.9304996292448394, "learning_rate": 2.9939643016261844e-06, "loss": 1.7109, "step": 1180 }, { "epoch": 0.12693333333333334, "grad_norm": 0.9846707376440544, "learning_rate": 2.9934533941481206e-06, "loss": 1.7095, "step": 1190 }, { "epoch": 0.128, "grad_norm": 0.9207516513964573, "learning_rate": 2.992921779782766e-06, "loss": 1.7191, "step": 1200 }, { "epoch": 0.12906666666666666, "grad_norm": 0.9423153994235445, "learning_rate": 2.9923694659010097e-06, "loss": 1.7059, "step": 1210 }, { "epoch": 0.13013333333333332, "grad_norm": 0.9884755675217244, "learning_rate": 2.9917964601607408e-06, "loss": 1.7188, "step": 1220 }, { "epoch": 0.1312, "grad_norm": 0.9454494428121172, "learning_rate": 2.9912027705067446e-06, "loss": 1.7074, "step": 1230 }, { "epoch": 0.13226666666666667, "grad_norm": 0.9714914541488381, "learning_rate": 2.990588405170589e-06, "loss": 1.7054, "step": 1240 }, { "epoch": 0.13333333333333333, "grad_norm": 0.9861325998085162, "learning_rate": 2.9899533726705143e-06, "loss": 1.7049, "step": 1250 }, { "epoch": 0.1344, "grad_norm": 0.9605966245230434, "learning_rate": 2.989297681811312e-06, "loss": 1.7031, "step": 1260 }, { "epoch": 0.13546666666666668, "grad_norm": 0.9997792673477949, "learning_rate": 2.9886213416842056e-06, "loss": 1.7243, "step": 1270 }, { "epoch": 0.13653333333333334, "grad_norm": 0.9586231880245414, "learning_rate": 2.98792436166672e-06, "loss": 1.7044, "step": 1280 }, { "epoch": 0.1376, "grad_norm": 0.9223749615597475, "learning_rate": 2.9872067514225564e-06, "loss": 1.7119, "step": 1290 }, { "epoch": 0.13866666666666666, "grad_norm": 0.9131094948499283, "learning_rate": 2.9864685209014564e-06, "loss": 1.7095, "step": 1300 }, { "epoch": 0.13973333333333332, "grad_norm": 0.9511212409402893, "learning_rate": 2.9857096803390627e-06, "loss": 1.706, "step": 1310 }, { "epoch": 0.1408, "grad_norm": 0.9401739920451759, "learning_rate": 2.984930240256779e-06, "loss": 1.7108, "step": 1320 }, { "epoch": 0.14186666666666667, "grad_norm": 1.0222197807634763, "learning_rate": 2.9841302114616236e-06, "loss": 1.7145, "step": 1330 }, { "epoch": 0.14293333333333333, "grad_norm": 0.9293793978889431, "learning_rate": 2.983309605046079e-06, "loss": 1.7086, "step": 1340 }, { "epoch": 0.144, "grad_norm": 0.9895898454227201, "learning_rate": 2.9824684323879395e-06, "loss": 1.709, "step": 1350 }, { "epoch": 0.14506666666666668, "grad_norm": 0.921571607810168, "learning_rate": 2.9816067051501515e-06, "loss": 1.6925, "step": 1360 }, { "epoch": 0.14613333333333334, "grad_norm": 0.9315562929482916, "learning_rate": 2.9807244352806533e-06, "loss": 1.6997, "step": 1370 }, { "epoch": 0.1472, "grad_norm": 0.9462850086043854, "learning_rate": 2.979821635012208e-06, "loss": 1.7031, "step": 1380 }, { "epoch": 0.14826666666666666, "grad_norm": 0.9764987893367897, "learning_rate": 2.9788983168622366e-06, "loss": 1.722, "step": 1390 }, { "epoch": 0.14933333333333335, "grad_norm": 0.9217362345589152, "learning_rate": 2.977954493632641e-06, "loss": 1.7024, "step": 1400 }, { "epoch": 0.1504, "grad_norm": 0.9638648863337116, "learning_rate": 2.976990178409629e-06, "loss": 1.7043, "step": 1410 }, { "epoch": 0.15146666666666667, "grad_norm": 0.9848845093876835, "learning_rate": 2.9760053845635323e-06, "loss": 1.6924, "step": 1420 }, { "epoch": 0.15253333333333333, "grad_norm": 0.9705918106114978, "learning_rate": 2.9750001257486202e-06, "loss": 1.7036, "step": 1430 }, { "epoch": 0.1536, "grad_norm": 1.0476395789667885, "learning_rate": 2.9739744159029116e-06, "loss": 1.7033, "step": 1440 }, { "epoch": 0.15466666666666667, "grad_norm": 0.9954028904161399, "learning_rate": 2.9729282692479794e-06, "loss": 1.6979, "step": 1450 }, { "epoch": 0.15573333333333333, "grad_norm": 0.9407021781934388, "learning_rate": 2.9718617002887576e-06, "loss": 1.698, "step": 1460 }, { "epoch": 0.1568, "grad_norm": 1.0164192697269847, "learning_rate": 2.9707747238133358e-06, "loss": 1.7029, "step": 1470 }, { "epoch": 0.15786666666666666, "grad_norm": 0.9377253239645678, "learning_rate": 2.9696673548927554e-06, "loss": 1.6937, "step": 1480 }, { "epoch": 0.15893333333333334, "grad_norm": 0.9514182069218455, "learning_rate": 2.9685396088808034e-06, "loss": 1.6945, "step": 1490 }, { "epoch": 0.16, "grad_norm": 1.011813239662003, "learning_rate": 2.9673915014137956e-06, "loss": 1.6914, "step": 1500 }, { "epoch": 0.16106666666666666, "grad_norm": 0.9567612096372408, "learning_rate": 2.9662230484103615e-06, "loss": 1.6952, "step": 1510 }, { "epoch": 0.16213333333333332, "grad_norm": 0.9396961373132289, "learning_rate": 2.9650342660712244e-06, "loss": 1.6951, "step": 1520 }, { "epoch": 0.1632, "grad_norm": 0.9770905317926912, "learning_rate": 2.963825170878976e-06, "loss": 1.702, "step": 1530 }, { "epoch": 0.16426666666666667, "grad_norm": 0.92979333185733, "learning_rate": 2.962595779597847e-06, "loss": 1.6798, "step": 1540 }, { "epoch": 0.16533333333333333, "grad_norm": 0.9405613280971572, "learning_rate": 2.9613461092734762e-06, "loss": 1.7138, "step": 1550 }, { "epoch": 0.1664, "grad_norm": 1.0202704121758501, "learning_rate": 2.9600761772326725e-06, "loss": 1.7004, "step": 1560 }, { "epoch": 0.16746666666666668, "grad_norm": 0.9688455606036914, "learning_rate": 2.958786001083177e-06, "loss": 1.6965, "step": 1570 }, { "epoch": 0.16853333333333334, "grad_norm": 0.9950840697611869, "learning_rate": 2.9574755987134163e-06, "loss": 1.6966, "step": 1580 }, { "epoch": 0.1696, "grad_norm": 0.954539049770782, "learning_rate": 2.956144988292256e-06, "loss": 1.693, "step": 1590 }, { "epoch": 0.17066666666666666, "grad_norm": 0.9937387363616697, "learning_rate": 2.9547941882687493e-06, "loss": 1.6974, "step": 1600 }, { "epoch": 0.17173333333333332, "grad_norm": 0.9649222658603489, "learning_rate": 2.953423217371879e-06, "loss": 1.6988, "step": 1610 }, { "epoch": 0.1728, "grad_norm": 0.9795557846153786, "learning_rate": 2.9520320946103e-06, "loss": 1.686, "step": 1620 }, { "epoch": 0.17386666666666667, "grad_norm": 0.9268977839435429, "learning_rate": 2.9506208392720747e-06, "loss": 1.6898, "step": 1630 }, { "epoch": 0.17493333333333333, "grad_norm": 0.9633986836898336, "learning_rate": 2.9491894709244054e-06, "loss": 1.6937, "step": 1640 }, { "epoch": 0.176, "grad_norm": 0.9465351110713693, "learning_rate": 2.947738009413364e-06, "loss": 1.6911, "step": 1650 }, { "epoch": 0.17706666666666668, "grad_norm": 0.9786963124481838, "learning_rate": 2.9462664748636164e-06, "loss": 1.69, "step": 1660 }, { "epoch": 0.17813333333333334, "grad_norm": 0.9729437237094272, "learning_rate": 2.944774887678142e-06, "loss": 1.6902, "step": 1670 }, { "epoch": 0.1792, "grad_norm": 0.9725804632703692, "learning_rate": 2.943263268537953e-06, "loss": 1.6903, "step": 1680 }, { "epoch": 0.18026666666666666, "grad_norm": 0.9492404386501866, "learning_rate": 2.941731638401808e-06, "loss": 1.6937, "step": 1690 }, { "epoch": 0.18133333333333335, "grad_norm": 0.9570347565215679, "learning_rate": 2.9401800185059167e-06, "loss": 1.6967, "step": 1700 }, { "epoch": 0.1824, "grad_norm": 0.9559226069159008, "learning_rate": 2.9386084303636524e-06, "loss": 1.6809, "step": 1710 }, { "epoch": 0.18346666666666667, "grad_norm": 1.0046152228862981, "learning_rate": 2.9370168957652485e-06, "loss": 1.699, "step": 1720 }, { "epoch": 0.18453333333333333, "grad_norm": 1.0287846864777574, "learning_rate": 2.935405436777499e-06, "loss": 1.6914, "step": 1730 }, { "epoch": 0.1856, "grad_norm": 0.9499657448606992, "learning_rate": 2.9337740757434496e-06, "loss": 1.6899, "step": 1740 }, { "epoch": 0.18666666666666668, "grad_norm": 0.965538829889218, "learning_rate": 2.9321228352820927e-06, "loss": 1.7062, "step": 1750 }, { "epoch": 0.18773333333333334, "grad_norm": 0.9622526488232813, "learning_rate": 2.9304517382880494e-06, "loss": 1.6922, "step": 1760 }, { "epoch": 0.1888, "grad_norm": 0.9650628440768041, "learning_rate": 2.9287608079312543e-06, "loss": 1.6808, "step": 1770 }, { "epoch": 0.18986666666666666, "grad_norm": 0.9282815046777251, "learning_rate": 2.9270500676566328e-06, "loss": 1.6969, "step": 1780 }, { "epoch": 0.19093333333333334, "grad_norm": 0.9659267189086952, "learning_rate": 2.925319541183778e-06, "loss": 1.6879, "step": 1790 }, { "epoch": 0.192, "grad_norm": 1.027207156209701, "learning_rate": 2.92356925250662e-06, "loss": 1.6968, "step": 1800 }, { "epoch": 0.19306666666666666, "grad_norm": 0.9912095201776828, "learning_rate": 2.921799225893094e-06, "loss": 1.6894, "step": 1810 }, { "epoch": 0.19413333333333332, "grad_norm": 0.9168893165374763, "learning_rate": 2.920009485884804e-06, "loss": 1.6859, "step": 1820 }, { "epoch": 0.1952, "grad_norm": 0.9476689755019561, "learning_rate": 2.918200057296682e-06, "loss": 1.6898, "step": 1830 }, { "epoch": 0.19626666666666667, "grad_norm": 1.0363217943805423, "learning_rate": 2.916370965216645e-06, "loss": 1.691, "step": 1840 }, { "epoch": 0.19733333333333333, "grad_norm": 1.018339423593827, "learning_rate": 2.914522235005245e-06, "loss": 1.6871, "step": 1850 }, { "epoch": 0.1984, "grad_norm": 0.9422092936258663, "learning_rate": 2.9126538922953194e-06, "loss": 1.6897, "step": 1860 }, { "epoch": 0.19946666666666665, "grad_norm": 0.9958834353591612, "learning_rate": 2.9107659629916356e-06, "loss": 1.687, "step": 1870 }, { "epoch": 0.20053333333333334, "grad_norm": 0.9226968417639375, "learning_rate": 2.90885847327053e-06, "loss": 1.6973, "step": 1880 }, { "epoch": 0.2016, "grad_norm": 0.993872559179678, "learning_rate": 2.9069314495795473e-06, "loss": 1.6889, "step": 1890 }, { "epoch": 0.20266666666666666, "grad_norm": 0.9751830683307856, "learning_rate": 2.904984918637072e-06, "loss": 1.6928, "step": 1900 }, { "epoch": 0.20373333333333332, "grad_norm": 0.9717638999834981, "learning_rate": 2.903018907431959e-06, "loss": 1.7012, "step": 1910 }, { "epoch": 0.2048, "grad_norm": 0.9684433892926837, "learning_rate": 2.9010334432231586e-06, "loss": 1.692, "step": 1920 }, { "epoch": 0.20586666666666667, "grad_norm": 0.9634212930019094, "learning_rate": 2.89902855353934e-06, "loss": 1.6908, "step": 1930 }, { "epoch": 0.20693333333333333, "grad_norm": 0.9762445180982307, "learning_rate": 2.897004266178508e-06, "loss": 1.6841, "step": 1940 }, { "epoch": 0.208, "grad_norm": 0.9063361096635529, "learning_rate": 2.894960609207618e-06, "loss": 1.6929, "step": 1950 }, { "epoch": 0.20906666666666668, "grad_norm": 0.9916857293203556, "learning_rate": 2.892897610962187e-06, "loss": 1.6826, "step": 1960 }, { "epoch": 0.21013333333333334, "grad_norm": 0.9098063977127645, "learning_rate": 2.8908153000459015e-06, "loss": 1.6888, "step": 1970 }, { "epoch": 0.2112, "grad_norm": 0.9253645914734241, "learning_rate": 2.8887137053302205e-06, "loss": 1.6962, "step": 1980 }, { "epoch": 0.21226666666666666, "grad_norm": 0.9413440169743281, "learning_rate": 2.886592855953974e-06, "loss": 1.698, "step": 1990 }, { "epoch": 0.21333333333333335, "grad_norm": 0.9283779660159788, "learning_rate": 2.8844527813229586e-06, "loss": 1.6931, "step": 2000 }, { "epoch": 0.2144, "grad_norm": 0.9621495489577391, "learning_rate": 2.8822935111095347e-06, "loss": 1.6936, "step": 2010 }, { "epoch": 0.21546666666666667, "grad_norm": 0.9244473657406035, "learning_rate": 2.8801150752522078e-06, "loss": 1.6805, "step": 2020 }, { "epoch": 0.21653333333333333, "grad_norm": 0.9818176829968719, "learning_rate": 2.8779175039552195e-06, "loss": 1.6937, "step": 2030 }, { "epoch": 0.2176, "grad_norm": 0.9344946484100746, "learning_rate": 2.875700827688125e-06, "loss": 1.6915, "step": 2040 }, { "epoch": 0.21866666666666668, "grad_norm": 0.9323152655731969, "learning_rate": 2.873465077185372e-06, "loss": 1.6852, "step": 2050 }, { "epoch": 0.21973333333333334, "grad_norm": 0.9671138914963243, "learning_rate": 2.871210283445875e-06, "loss": 1.6877, "step": 2060 }, { "epoch": 0.2208, "grad_norm": 0.9376647062497248, "learning_rate": 2.8689364777325847e-06, "loss": 1.7023, "step": 2070 }, { "epoch": 0.22186666666666666, "grad_norm": 0.9651018289075455, "learning_rate": 2.866643691572055e-06, "loss": 1.6843, "step": 2080 }, { "epoch": 0.22293333333333334, "grad_norm": 0.9334826541514025, "learning_rate": 2.864331956754005e-06, "loss": 1.6876, "step": 2090 }, { "epoch": 0.224, "grad_norm": 0.9647694470615409, "learning_rate": 2.86200130533088e-06, "loss": 1.6924, "step": 2100 }, { "epoch": 0.22506666666666666, "grad_norm": 0.973949157923878, "learning_rate": 2.8596517696174046e-06, "loss": 1.6878, "step": 2110 }, { "epoch": 0.22613333333333333, "grad_norm": 0.9825030352122315, "learning_rate": 2.8572833821901375e-06, "loss": 1.6969, "step": 2120 }, { "epoch": 0.2272, "grad_norm": 1.0062961911233603, "learning_rate": 2.8548961758870177e-06, "loss": 1.6864, "step": 2130 }, { "epoch": 0.22826666666666667, "grad_norm": 0.9981598126892428, "learning_rate": 2.85249018380691e-06, "loss": 1.6739, "step": 2140 }, { "epoch": 0.22933333333333333, "grad_norm": 0.9378616658810501, "learning_rate": 2.8500654393091456e-06, "loss": 1.6748, "step": 2150 }, { "epoch": 0.2304, "grad_norm": 0.9377810112291182, "learning_rate": 2.8476219760130597e-06, "loss": 1.6828, "step": 2160 }, { "epoch": 0.23146666666666665, "grad_norm": 0.9742496689830766, "learning_rate": 2.845159827797527e-06, "loss": 1.6804, "step": 2170 }, { "epoch": 0.23253333333333334, "grad_norm": 0.9437932101694276, "learning_rate": 2.8426790288004894e-06, "loss": 1.6894, "step": 2180 }, { "epoch": 0.2336, "grad_norm": 0.9876632127111694, "learning_rate": 2.8401796134184842e-06, "loss": 1.678, "step": 2190 }, { "epoch": 0.23466666666666666, "grad_norm": 0.9569257673632822, "learning_rate": 2.8376616163061665e-06, "loss": 1.6893, "step": 2200 }, { "epoch": 0.23573333333333332, "grad_norm": 0.9568838255096077, "learning_rate": 2.835125072375829e-06, "loss": 1.6781, "step": 2210 }, { "epoch": 0.2368, "grad_norm": 0.9085275995738579, "learning_rate": 2.8325700167969185e-06, "loss": 1.6927, "step": 2220 }, { "epoch": 0.23786666666666667, "grad_norm": 0.9440165945493646, "learning_rate": 2.8299964849955474e-06, "loss": 1.6908, "step": 2230 }, { "epoch": 0.23893333333333333, "grad_norm": 0.9299468654580177, "learning_rate": 2.8274045126540035e-06, "loss": 1.6787, "step": 2240 }, { "epoch": 0.24, "grad_norm": 0.9564973207072164, "learning_rate": 2.8247941357102533e-06, "loss": 1.6771, "step": 2250 }, { "epoch": 0.24106666666666668, "grad_norm": 1.0068019553448377, "learning_rate": 2.8221653903574457e-06, "loss": 1.6833, "step": 2260 }, { "epoch": 0.24213333333333334, "grad_norm": 0.9187725145774673, "learning_rate": 2.8195183130434106e-06, "loss": 1.685, "step": 2270 }, { "epoch": 0.2432, "grad_norm": 0.9405491373411125, "learning_rate": 2.81685294047015e-06, "loss": 1.6646, "step": 2280 }, { "epoch": 0.24426666666666666, "grad_norm": 0.9803755997190594, "learning_rate": 2.814169309593334e-06, "loss": 1.6924, "step": 2290 }, { "epoch": 0.24533333333333332, "grad_norm": 0.9031553792551361, "learning_rate": 2.8114674576217845e-06, "loss": 1.6782, "step": 2300 }, { "epoch": 0.2464, "grad_norm": 0.9616324782378027, "learning_rate": 2.808747422016961e-06, "loss": 1.6791, "step": 2310 }, { "epoch": 0.24746666666666667, "grad_norm": 0.9689622968063254, "learning_rate": 2.8060092404924425e-06, "loss": 1.6827, "step": 2320 }, { "epoch": 0.24853333333333333, "grad_norm": 0.9103916728377786, "learning_rate": 2.803252951013401e-06, "loss": 1.673, "step": 2330 }, { "epoch": 0.2496, "grad_norm": 0.9966753348303548, "learning_rate": 2.8004785917960776e-06, "loss": 1.6718, "step": 2340 }, { "epoch": 0.25066666666666665, "grad_norm": 0.9320106534534991, "learning_rate": 2.7976862013072533e-06, "loss": 1.6797, "step": 2350 }, { "epoch": 0.2517333333333333, "grad_norm": 0.9836380538426814, "learning_rate": 2.7948758182637134e-06, "loss": 1.6691, "step": 2360 }, { "epoch": 0.2528, "grad_norm": 0.982733481739216, "learning_rate": 2.792047481631713e-06, "loss": 1.6715, "step": 2370 }, { "epoch": 0.2538666666666667, "grad_norm": 0.9687610073423567, "learning_rate": 2.7892012306264337e-06, "loss": 1.682, "step": 2380 }, { "epoch": 0.25493333333333335, "grad_norm": 0.9605226768136803, "learning_rate": 2.7863371047114444e-06, "loss": 1.687, "step": 2390 }, { "epoch": 0.256, "grad_norm": 0.9721317861816063, "learning_rate": 2.7834551435981485e-06, "loss": 1.6786, "step": 2400 }, { "epoch": 0.25706666666666667, "grad_norm": 0.9555715027751217, "learning_rate": 2.7805553872452395e-06, "loss": 1.6813, "step": 2410 }, { "epoch": 0.2581333333333333, "grad_norm": 0.9261368860432231, "learning_rate": 2.777637875858141e-06, "loss": 1.6808, "step": 2420 }, { "epoch": 0.2592, "grad_norm": 1.004072918675185, "learning_rate": 2.7747026498884538e-06, "loss": 1.6782, "step": 2430 }, { "epoch": 0.26026666666666665, "grad_norm": 0.9636076501096617, "learning_rate": 2.7717497500333912e-06, "loss": 1.6809, "step": 2440 }, { "epoch": 0.2613333333333333, "grad_norm": 0.9420586899875296, "learning_rate": 2.7687792172352197e-06, "loss": 1.6757, "step": 2450 }, { "epoch": 0.2624, "grad_norm": 0.9705519212298509, "learning_rate": 2.7657910926806856e-06, "loss": 1.6738, "step": 2460 }, { "epoch": 0.2634666666666667, "grad_norm": 0.9443740627719142, "learning_rate": 2.762785417800449e-06, "loss": 1.6661, "step": 2470 }, { "epoch": 0.26453333333333334, "grad_norm": 0.9280026449893723, "learning_rate": 2.759762234268505e-06, "loss": 1.6745, "step": 2480 }, { "epoch": 0.2656, "grad_norm": 0.9332088171991123, "learning_rate": 2.75672158400161e-06, "loss": 1.6634, "step": 2490 }, { "epoch": 0.26666666666666666, "grad_norm": 0.9260756797146239, "learning_rate": 2.7536635091586968e-06, "loss": 1.6698, "step": 2500 }, { "epoch": 0.2677333333333333, "grad_norm": 0.9522638482173366, "learning_rate": 2.7505880521402926e-06, "loss": 1.683, "step": 2510 }, { "epoch": 0.2688, "grad_norm": 0.9194105429410604, "learning_rate": 2.74749525558793e-06, "loss": 1.674, "step": 2520 }, { "epoch": 0.26986666666666664, "grad_norm": 0.9244965754821771, "learning_rate": 2.744385162383557e-06, "loss": 1.6727, "step": 2530 }, { "epoch": 0.27093333333333336, "grad_norm": 0.9703948464521073, "learning_rate": 2.74125781564894e-06, "loss": 1.6714, "step": 2540 }, { "epoch": 0.272, "grad_norm": 0.9550773075287746, "learning_rate": 2.7381132587450685e-06, "loss": 1.6717, "step": 2550 }, { "epoch": 0.2730666666666667, "grad_norm": 0.9522791886803353, "learning_rate": 2.734951535271552e-06, "loss": 1.675, "step": 2560 }, { "epoch": 0.27413333333333334, "grad_norm": 0.9492894480374988, "learning_rate": 2.731772689066017e-06, "loss": 1.6713, "step": 2570 }, { "epoch": 0.2752, "grad_norm": 0.9610311825502869, "learning_rate": 2.728576764203498e-06, "loss": 1.6826, "step": 2580 }, { "epoch": 0.27626666666666666, "grad_norm": 0.9849494230785885, "learning_rate": 2.725363804995827e-06, "loss": 1.69, "step": 2590 }, { "epoch": 0.2773333333333333, "grad_norm": 0.9431659843820906, "learning_rate": 2.7221338559910195e-06, "loss": 1.6733, "step": 2600 }, { "epoch": 0.2784, "grad_norm": 0.9796210561747851, "learning_rate": 2.7188869619726547e-06, "loss": 1.6752, "step": 2610 }, { "epoch": 0.27946666666666664, "grad_norm": 0.934917472845763, "learning_rate": 2.7156231679592586e-06, "loss": 1.678, "step": 2620 }, { "epoch": 0.28053333333333336, "grad_norm": 0.9490174835011432, "learning_rate": 2.7123425192036746e-06, "loss": 1.6842, "step": 2630 }, { "epoch": 0.2816, "grad_norm": 0.9443529132975703, "learning_rate": 2.7090450611924418e-06, "loss": 1.6807, "step": 2640 }, { "epoch": 0.2826666666666667, "grad_norm": 0.9115384803443461, "learning_rate": 2.7057308396451587e-06, "loss": 1.6654, "step": 2650 }, { "epoch": 0.28373333333333334, "grad_norm": 0.9696075777810633, "learning_rate": 2.702399900513854e-06, "loss": 1.6701, "step": 2660 }, { "epoch": 0.2848, "grad_norm": 0.9689138887330382, "learning_rate": 2.6990522899823466e-06, "loss": 1.6739, "step": 2670 }, { "epoch": 0.28586666666666666, "grad_norm": 0.9104129289703732, "learning_rate": 2.6956880544656055e-06, "loss": 1.6636, "step": 2680 }, { "epoch": 0.2869333333333333, "grad_norm": 0.9796258881712162, "learning_rate": 2.6923072406091082e-06, "loss": 1.6818, "step": 2690 }, { "epoch": 0.288, "grad_norm": 0.9590136218069022, "learning_rate": 2.6889098952881917e-06, "loss": 1.6838, "step": 2700 }, { "epoch": 0.2890666666666667, "grad_norm": 0.9424280518197954, "learning_rate": 2.685496065607404e-06, "loss": 1.6701, "step": 2710 }, { "epoch": 0.29013333333333335, "grad_norm": 0.9463594770044005, "learning_rate": 2.6820657988998496e-06, "loss": 1.682, "step": 2720 }, { "epoch": 0.2912, "grad_norm": 0.937820302148928, "learning_rate": 2.6786191427265347e-06, "loss": 1.6777, "step": 2730 }, { "epoch": 0.2922666666666667, "grad_norm": 0.9781602988747731, "learning_rate": 2.675156144875708e-06, "loss": 1.6775, "step": 2740 }, { "epoch": 0.29333333333333333, "grad_norm": 0.9807006119595277, "learning_rate": 2.671676853362195e-06, "loss": 1.6775, "step": 2750 }, { "epoch": 0.2944, "grad_norm": 0.9210609958471703, "learning_rate": 2.668181316426737e-06, "loss": 1.6644, "step": 2760 }, { "epoch": 0.29546666666666666, "grad_norm": 0.9536343231926293, "learning_rate": 2.6646695825353185e-06, "loss": 1.6667, "step": 2770 }, { "epoch": 0.2965333333333333, "grad_norm": 0.9707143300975725, "learning_rate": 2.6611417003784966e-06, "loss": 1.6757, "step": 2780 }, { "epoch": 0.2976, "grad_norm": 0.9797043455938097, "learning_rate": 2.6575977188707255e-06, "loss": 1.6745, "step": 2790 }, { "epoch": 0.2986666666666667, "grad_norm": 0.9240894072405273, "learning_rate": 2.654037687149679e-06, "loss": 1.6652, "step": 2800 }, { "epoch": 0.29973333333333335, "grad_norm": 0.9479211087300785, "learning_rate": 2.6504616545755694e-06, "loss": 1.6687, "step": 2810 }, { "epoch": 0.3008, "grad_norm": 0.9847799255549, "learning_rate": 2.6468696707304616e-06, "loss": 1.671, "step": 2820 }, { "epoch": 0.30186666666666667, "grad_norm": 0.9666136398493494, "learning_rate": 2.6432617854175867e-06, "loss": 1.6764, "step": 2830 }, { "epoch": 0.30293333333333333, "grad_norm": 0.9252577689779522, "learning_rate": 2.6396380486606506e-06, "loss": 1.67, "step": 2840 }, { "epoch": 0.304, "grad_norm": 0.9365753697312256, "learning_rate": 2.635998510703143e-06, "loss": 1.6815, "step": 2850 }, { "epoch": 0.30506666666666665, "grad_norm": 0.9521191635640937, "learning_rate": 2.6323432220076378e-06, "loss": 1.6748, "step": 2860 }, { "epoch": 0.3061333333333333, "grad_norm": 1.004950619135525, "learning_rate": 2.628672233255093e-06, "loss": 1.6722, "step": 2870 }, { "epoch": 0.3072, "grad_norm": 0.9417169134415545, "learning_rate": 2.624985595344153e-06, "loss": 1.6754, "step": 2880 }, { "epoch": 0.3082666666666667, "grad_norm": 0.9642637394872404, "learning_rate": 2.621283359390437e-06, "loss": 1.6706, "step": 2890 }, { "epoch": 0.30933333333333335, "grad_norm": 0.977706265601939, "learning_rate": 2.617565576725832e-06, "loss": 1.6663, "step": 2900 }, { "epoch": 0.3104, "grad_norm": 0.9621224050350746, "learning_rate": 2.613832298897784e-06, "loss": 1.6733, "step": 2910 }, { "epoch": 0.31146666666666667, "grad_norm": 0.9743652661553531, "learning_rate": 2.61008357766858e-06, "loss": 1.6693, "step": 2920 }, { "epoch": 0.31253333333333333, "grad_norm": 0.9440143245728431, "learning_rate": 2.606319465014631e-06, "loss": 1.67, "step": 2930 }, { "epoch": 0.3136, "grad_norm": 0.9508265927943546, "learning_rate": 2.6025400131257525e-06, "loss": 1.6675, "step": 2940 }, { "epoch": 0.31466666666666665, "grad_norm": 0.9351205106789015, "learning_rate": 2.598745274404439e-06, "loss": 1.6786, "step": 2950 }, { "epoch": 0.3157333333333333, "grad_norm": 0.9704863356322765, "learning_rate": 2.5949353014651396e-06, "loss": 1.6718, "step": 2960 }, { "epoch": 0.3168, "grad_norm": 0.9744660485839736, "learning_rate": 2.5911101471335277e-06, "loss": 1.6694, "step": 2970 }, { "epoch": 0.3178666666666667, "grad_norm": 0.9419499107254994, "learning_rate": 2.587269864445766e-06, "loss": 1.6602, "step": 2980 }, { "epoch": 0.31893333333333335, "grad_norm": 0.9580169597960767, "learning_rate": 2.583414506647777e-06, "loss": 1.6721, "step": 2990 }, { "epoch": 0.32, "grad_norm": 0.9248908538299617, "learning_rate": 2.5795441271944975e-06, "loss": 1.6699, "step": 3000 }, { "epoch": 0.32106666666666667, "grad_norm": 0.9628754761012314, "learning_rate": 2.5756587797491437e-06, "loss": 1.6629, "step": 3010 }, { "epoch": 0.3221333333333333, "grad_norm": 0.9881339619626787, "learning_rate": 2.5717585181824638e-06, "loss": 1.6793, "step": 3020 }, { "epoch": 0.3232, "grad_norm": 0.9675342156952531, "learning_rate": 2.5678433965719917e-06, "loss": 1.666, "step": 3030 }, { "epoch": 0.32426666666666665, "grad_norm": 0.9267795503338048, "learning_rate": 2.5639134692012976e-06, "loss": 1.6756, "step": 3040 }, { "epoch": 0.3253333333333333, "grad_norm": 0.9969697191465468, "learning_rate": 2.559968790559234e-06, "loss": 1.6688, "step": 3050 }, { "epoch": 0.3264, "grad_norm": 0.9552631058916634, "learning_rate": 2.5560094153391835e-06, "loss": 1.668, "step": 3060 }, { "epoch": 0.3274666666666667, "grad_norm": 0.9528815268636649, "learning_rate": 2.552035398438296e-06, "loss": 1.6734, "step": 3070 }, { "epoch": 0.32853333333333334, "grad_norm": 0.9387963678604124, "learning_rate": 2.548046794956732e-06, "loss": 1.659, "step": 3080 }, { "epoch": 0.3296, "grad_norm": 0.9908832081608542, "learning_rate": 2.544043660196894e-06, "loss": 1.6631, "step": 3090 }, { "epoch": 0.33066666666666666, "grad_norm": 0.9394796214951054, "learning_rate": 2.540026049662665e-06, "loss": 1.6662, "step": 3100 }, { "epoch": 0.3317333333333333, "grad_norm": 0.9636157529774373, "learning_rate": 2.5359940190586337e-06, "loss": 1.6594, "step": 3110 }, { "epoch": 0.3328, "grad_norm": 0.9166497883042384, "learning_rate": 2.531947624289326e-06, "loss": 1.6632, "step": 3120 }, { "epoch": 0.33386666666666664, "grad_norm": 0.9496972498502697, "learning_rate": 2.5278869214584276e-06, "loss": 1.6616, "step": 3130 }, { "epoch": 0.33493333333333336, "grad_norm": 0.9595434384314239, "learning_rate": 2.523811966868008e-06, "loss": 1.6656, "step": 3140 }, { "epoch": 0.336, "grad_norm": 0.9171711486912808, "learning_rate": 2.5197228170177367e-06, "loss": 1.6631, "step": 3150 }, { "epoch": 0.3370666666666667, "grad_norm": 0.9696647774804794, "learning_rate": 2.515619528604106e-06, "loss": 1.6679, "step": 3160 }, { "epoch": 0.33813333333333334, "grad_norm": 0.9579805476488836, "learning_rate": 2.5115021585196357e-06, "loss": 1.674, "step": 3170 }, { "epoch": 0.3392, "grad_norm": 0.9372934344380602, "learning_rate": 2.5073707638520934e-06, "loss": 1.659, "step": 3180 }, { "epoch": 0.34026666666666666, "grad_norm": 0.9652052342102219, "learning_rate": 2.5032254018836978e-06, "loss": 1.672, "step": 3190 }, { "epoch": 0.3413333333333333, "grad_norm": 0.9536831437250712, "learning_rate": 2.4990661300903247e-06, "loss": 1.6689, "step": 3200 }, { "epoch": 0.3424, "grad_norm": 0.9549311066683952, "learning_rate": 2.4948930061407128e-06, "loss": 1.6629, "step": 3210 }, { "epoch": 0.34346666666666664, "grad_norm": 0.9948254976343271, "learning_rate": 2.490706087895661e-06, "loss": 1.6654, "step": 3220 }, { "epoch": 0.34453333333333336, "grad_norm": 0.9322272643648966, "learning_rate": 2.486505433407228e-06, "loss": 1.6616, "step": 3230 }, { "epoch": 0.3456, "grad_norm": 0.9880727100809659, "learning_rate": 2.4822911009179277e-06, "loss": 1.6703, "step": 3240 }, { "epoch": 0.3466666666666667, "grad_norm": 0.9318527493275489, "learning_rate": 2.4780631488599195e-06, "loss": 1.6794, "step": 3250 }, { "epoch": 0.34773333333333334, "grad_norm": 0.9882452577899534, "learning_rate": 2.4738216358542003e-06, "loss": 1.6653, "step": 3260 }, { "epoch": 0.3488, "grad_norm": 0.9604553555113544, "learning_rate": 2.4695666207097912e-06, "loss": 1.6594, "step": 3270 }, { "epoch": 0.34986666666666666, "grad_norm": 0.9552000465276516, "learning_rate": 2.4652981624229217e-06, "loss": 1.6615, "step": 3280 }, { "epoch": 0.3509333333333333, "grad_norm": 0.974790478141602, "learning_rate": 2.4610163201762114e-06, "loss": 1.6631, "step": 3290 }, { "epoch": 0.352, "grad_norm": 0.9564895708856161, "learning_rate": 2.4567211533378506e-06, "loss": 1.6615, "step": 3300 }, { "epoch": 0.35306666666666664, "grad_norm": 0.9544282080008821, "learning_rate": 2.4524127214607757e-06, "loss": 1.6536, "step": 3310 }, { "epoch": 0.35413333333333336, "grad_norm": 0.9384084572688003, "learning_rate": 2.448091084281845e-06, "loss": 1.6552, "step": 3320 }, { "epoch": 0.3552, "grad_norm": 0.9956987596855376, "learning_rate": 2.4437563017210093e-06, "loss": 1.6558, "step": 3330 }, { "epoch": 0.3562666666666667, "grad_norm": 0.9682948371820439, "learning_rate": 2.4394084338804813e-06, "loss": 1.6546, "step": 3340 }, { "epoch": 0.35733333333333334, "grad_norm": 0.943475234843819, "learning_rate": 2.4350475410439025e-06, "loss": 1.6574, "step": 3350 }, { "epoch": 0.3584, "grad_norm": 0.9174418157290677, "learning_rate": 2.4306736836755086e-06, "loss": 1.6576, "step": 3360 }, { "epoch": 0.35946666666666666, "grad_norm": 0.9303792721449003, "learning_rate": 2.426286922419288e-06, "loss": 1.6595, "step": 3370 }, { "epoch": 0.3605333333333333, "grad_norm": 0.9614814883452739, "learning_rate": 2.4218873180981436e-06, "loss": 1.6645, "step": 3380 }, { "epoch": 0.3616, "grad_norm": 0.9379683035581231, "learning_rate": 2.4174749317130492e-06, "loss": 1.6481, "step": 3390 }, { "epoch": 0.3626666666666667, "grad_norm": 0.957267352688115, "learning_rate": 2.413049824442203e-06, "loss": 1.6701, "step": 3400 }, { "epoch": 0.36373333333333335, "grad_norm": 0.9313578199784238, "learning_rate": 2.408612057640179e-06, "loss": 1.6728, "step": 3410 }, { "epoch": 0.3648, "grad_norm": 0.9328479610451201, "learning_rate": 2.404161692837078e-06, "loss": 1.6526, "step": 3420 }, { "epoch": 0.3658666666666667, "grad_norm": 0.9453343749724737, "learning_rate": 2.399698791737672e-06, "loss": 1.6607, "step": 3430 }, { "epoch": 0.36693333333333333, "grad_norm": 0.9161758996018701, "learning_rate": 2.3952234162205515e-06, "loss": 1.6544, "step": 3440 }, { "epoch": 0.368, "grad_norm": 0.9200352874501438, "learning_rate": 2.390735628337265e-06, "loss": 1.6659, "step": 3450 }, { "epoch": 0.36906666666666665, "grad_norm": 0.9722664695130872, "learning_rate": 2.3862354903114607e-06, "loss": 1.6677, "step": 3460 }, { "epoch": 0.3701333333333333, "grad_norm": 0.932361941429065, "learning_rate": 2.3817230645380224e-06, "loss": 1.6536, "step": 3470 }, { "epoch": 0.3712, "grad_norm": 0.8921273743250909, "learning_rate": 2.3771984135822042e-06, "loss": 1.6668, "step": 3480 }, { "epoch": 0.3722666666666667, "grad_norm": 0.94957141578939, "learning_rate": 2.3726616001787644e-06, "loss": 1.6594, "step": 3490 }, { "epoch": 0.37333333333333335, "grad_norm": 0.9730724473270143, "learning_rate": 2.368112687231095e-06, "loss": 1.6508, "step": 3500 }, { "epoch": 0.3744, "grad_norm": 0.9500947191938394, "learning_rate": 2.3635517378103487e-06, "loss": 1.6596, "step": 3510 }, { "epoch": 0.37546666666666667, "grad_norm": 0.9363069985088942, "learning_rate": 2.358978815154565e-06, "loss": 1.6625, "step": 3520 }, { "epoch": 0.37653333333333333, "grad_norm": 0.9384038854458382, "learning_rate": 2.3543939826677955e-06, "loss": 1.6559, "step": 3530 }, { "epoch": 0.3776, "grad_norm": 0.9399571115427959, "learning_rate": 2.349797303919221e-06, "loss": 1.6686, "step": 3540 }, { "epoch": 0.37866666666666665, "grad_norm": 0.9455419129400207, "learning_rate": 2.345188842642272e-06, "loss": 1.6676, "step": 3550 }, { "epoch": 0.3797333333333333, "grad_norm": 0.9437875806498135, "learning_rate": 2.3405686627337454e-06, "loss": 1.659, "step": 3560 }, { "epoch": 0.3808, "grad_norm": 0.9359587651770698, "learning_rate": 2.335936828252919e-06, "loss": 1.6488, "step": 3570 }, { "epoch": 0.3818666666666667, "grad_norm": 0.9762790605247785, "learning_rate": 2.331293403420661e-06, "loss": 1.6526, "step": 3580 }, { "epoch": 0.38293333333333335, "grad_norm": 0.9101049676264759, "learning_rate": 2.3266384526185416e-06, "loss": 1.6528, "step": 3590 }, { "epoch": 0.384, "grad_norm": 0.995265075181166, "learning_rate": 2.3219720403879404e-06, "loss": 1.6555, "step": 3600 }, { "epoch": 0.38506666666666667, "grad_norm": 0.9765860006603786, "learning_rate": 2.3172942314291494e-06, "loss": 1.6658, "step": 3610 }, { "epoch": 0.38613333333333333, "grad_norm": 0.9548271356960308, "learning_rate": 2.312605090600479e-06, "loss": 1.6602, "step": 3620 }, { "epoch": 0.3872, "grad_norm": 0.9226815998587018, "learning_rate": 2.307904682917357e-06, "loss": 1.6582, "step": 3630 }, { "epoch": 0.38826666666666665, "grad_norm": 0.9095641481656311, "learning_rate": 2.303193073551426e-06, "loss": 1.655, "step": 3640 }, { "epoch": 0.3893333333333333, "grad_norm": 0.9548114254808908, "learning_rate": 2.2984703278296427e-06, "loss": 1.6696, "step": 3650 }, { "epoch": 0.3904, "grad_norm": 0.9152119917213367, "learning_rate": 2.293736511233369e-06, "loss": 1.6537, "step": 3660 }, { "epoch": 0.3914666666666667, "grad_norm": 0.975112589653614, "learning_rate": 2.288991689397467e-06, "loss": 1.6627, "step": 3670 }, { "epoch": 0.39253333333333335, "grad_norm": 0.9641058640590225, "learning_rate": 2.2842359281093867e-06, "loss": 1.6529, "step": 3680 }, { "epoch": 0.3936, "grad_norm": 0.9663032157417576, "learning_rate": 2.2794692933082555e-06, "loss": 1.66, "step": 3690 }, { "epoch": 0.39466666666666667, "grad_norm": 0.9686318255583821, "learning_rate": 2.274691851083962e-06, "loss": 1.6703, "step": 3700 }, { "epoch": 0.3957333333333333, "grad_norm": 0.9169717419968539, "learning_rate": 2.269903667676242e-06, "loss": 1.6521, "step": 3710 }, { "epoch": 0.3968, "grad_norm": 0.9190591125148927, "learning_rate": 2.2651048094737588e-06, "loss": 1.6543, "step": 3720 }, { "epoch": 0.39786666666666665, "grad_norm": 0.9355598196341346, "learning_rate": 2.2602953430131827e-06, "loss": 1.6642, "step": 3730 }, { "epoch": 0.3989333333333333, "grad_norm": 0.8982064426983682, "learning_rate": 2.255475334978268e-06, "loss": 1.6653, "step": 3740 }, { "epoch": 0.4, "grad_norm": 0.952802472269549, "learning_rate": 2.2506448521989297e-06, "loss": 1.6631, "step": 3750 }, { "epoch": 0.4010666666666667, "grad_norm": 0.9657197267159207, "learning_rate": 2.245803961650316e-06, "loss": 1.6493, "step": 3760 }, { "epoch": 0.40213333333333334, "grad_norm": 0.8983372935487061, "learning_rate": 2.24095273045188e-06, "loss": 1.6617, "step": 3770 }, { "epoch": 0.4032, "grad_norm": 0.9603016841935108, "learning_rate": 2.236091225866449e-06, "loss": 1.6524, "step": 3780 }, { "epoch": 0.40426666666666666, "grad_norm": 0.9474430719749842, "learning_rate": 2.2312195152992916e-06, "loss": 1.6605, "step": 3790 }, { "epoch": 0.4053333333333333, "grad_norm": 0.9248886042202865, "learning_rate": 2.2263376662971834e-06, "loss": 1.6574, "step": 3800 }, { "epoch": 0.4064, "grad_norm": 0.9457662542135901, "learning_rate": 2.221445746547472e-06, "loss": 1.6517, "step": 3810 }, { "epoch": 0.40746666666666664, "grad_norm": 0.9446775892114924, "learning_rate": 2.216543823877134e-06, "loss": 1.6622, "step": 3820 }, { "epoch": 0.40853333333333336, "grad_norm": 0.9413793457808942, "learning_rate": 2.2116319662518405e-06, "loss": 1.6551, "step": 3830 }, { "epoch": 0.4096, "grad_norm": 0.9984380094017942, "learning_rate": 2.20671024177501e-06, "loss": 1.6484, "step": 3840 }, { "epoch": 0.4106666666666667, "grad_norm": 0.9078816191712434, "learning_rate": 2.201778718686866e-06, "loss": 1.6587, "step": 3850 }, { "epoch": 0.41173333333333334, "grad_norm": 0.9349798025328844, "learning_rate": 2.1968374653634916e-06, "loss": 1.6439, "step": 3860 }, { "epoch": 0.4128, "grad_norm": 0.9292522453262922, "learning_rate": 2.19188655031588e-06, "loss": 1.6451, "step": 3870 }, { "epoch": 0.41386666666666666, "grad_norm": 0.926897325440478, "learning_rate": 2.1869260421889858e-06, "loss": 1.6603, "step": 3880 }, { "epoch": 0.4149333333333333, "grad_norm": 0.9221756270285103, "learning_rate": 2.1819560097607715e-06, "loss": 1.6607, "step": 3890 }, { "epoch": 0.416, "grad_norm": 0.9691599046087757, "learning_rate": 2.176976521941257e-06, "loss": 1.6527, "step": 3900 }, { "epoch": 0.41706666666666664, "grad_norm": 0.9570839892025014, "learning_rate": 2.17198764777156e-06, "loss": 1.6569, "step": 3910 }, { "epoch": 0.41813333333333336, "grad_norm": 0.9449951479893506, "learning_rate": 2.1669894564229422e-06, "loss": 1.6492, "step": 3920 }, { "epoch": 0.4192, "grad_norm": 0.9444569418021482, "learning_rate": 2.161982017195849e-06, "loss": 1.6621, "step": 3930 }, { "epoch": 0.4202666666666667, "grad_norm": 0.9365441196661743, "learning_rate": 2.156965399518948e-06, "loss": 1.6581, "step": 3940 }, { "epoch": 0.42133333333333334, "grad_norm": 0.947840272738102, "learning_rate": 2.151939672948167e-06, "loss": 1.6691, "step": 3950 }, { "epoch": 0.4224, "grad_norm": 0.9335887149525096, "learning_rate": 2.14690490716573e-06, "loss": 1.6569, "step": 3960 }, { "epoch": 0.42346666666666666, "grad_norm": 0.9395886794512877, "learning_rate": 2.14186117197919e-06, "loss": 1.6486, "step": 3970 }, { "epoch": 0.4245333333333333, "grad_norm": 0.9175950571981922, "learning_rate": 2.136808537320463e-06, "loss": 1.6476, "step": 3980 }, { "epoch": 0.4256, "grad_norm": 0.9348127013959826, "learning_rate": 2.131747073244856e-06, "loss": 1.6581, "step": 3990 }, { "epoch": 0.4266666666666667, "grad_norm": 0.9849178608409963, "learning_rate": 2.126676849930097e-06, "loss": 1.6563, "step": 4000 }, { "epoch": 0.42773333333333335, "grad_norm": 0.9798982928207111, "learning_rate": 2.121597937675361e-06, "loss": 1.6635, "step": 4010 }, { "epoch": 0.4288, "grad_norm": 0.9070961373294885, "learning_rate": 2.1165104069002984e-06, "loss": 1.6664, "step": 4020 }, { "epoch": 0.4298666666666667, "grad_norm": 0.9322708184201282, "learning_rate": 2.1114143281440537e-06, "loss": 1.6417, "step": 4030 }, { "epoch": 0.43093333333333333, "grad_norm": 0.9134718167458606, "learning_rate": 2.106309772064291e-06, "loss": 1.6528, "step": 4040 }, { "epoch": 0.432, "grad_norm": 0.9146979558939554, "learning_rate": 2.101196809436214e-06, "loss": 1.6597, "step": 4050 }, { "epoch": 0.43306666666666666, "grad_norm": 0.9303172486502048, "learning_rate": 2.0960755111515833e-06, "loss": 1.6449, "step": 4060 }, { "epoch": 0.4341333333333333, "grad_norm": 0.9473729401572349, "learning_rate": 2.0909459482177345e-06, "loss": 1.6495, "step": 4070 }, { "epoch": 0.4352, "grad_norm": 0.9796625075867424, "learning_rate": 2.0858081917565937e-06, "loss": 1.6598, "step": 4080 }, { "epoch": 0.4362666666666667, "grad_norm": 0.9477728413378161, "learning_rate": 2.0806623130036908e-06, "loss": 1.654, "step": 4090 }, { "epoch": 0.43733333333333335, "grad_norm": 0.9088480488279257, "learning_rate": 2.0755083833071713e-06, "loss": 1.6569, "step": 4100 }, { "epoch": 0.4384, "grad_norm": 0.9590991645935932, "learning_rate": 2.0703464741268103e-06, "loss": 1.6447, "step": 4110 }, { "epoch": 0.43946666666666667, "grad_norm": 0.9465727964674131, "learning_rate": 2.065176657033016e-06, "loss": 1.6409, "step": 4120 }, { "epoch": 0.44053333333333333, "grad_norm": 0.9087278706800614, "learning_rate": 2.0599990037058436e-06, "loss": 1.6568, "step": 4130 }, { "epoch": 0.4416, "grad_norm": 0.9195751959866, "learning_rate": 2.054813585933997e-06, "loss": 1.6411, "step": 4140 }, { "epoch": 0.44266666666666665, "grad_norm": 0.9544634331775946, "learning_rate": 2.0496204756138347e-06, "loss": 1.649, "step": 4150 }, { "epoch": 0.4437333333333333, "grad_norm": 0.9277411240486287, "learning_rate": 2.044419744748374e-06, "loss": 1.6559, "step": 4160 }, { "epoch": 0.4448, "grad_norm": 0.9495135350767198, "learning_rate": 2.0392114654462914e-06, "loss": 1.6489, "step": 4170 }, { "epoch": 0.4458666666666667, "grad_norm": 0.9566408663089474, "learning_rate": 2.0339957099209238e-06, "loss": 1.6419, "step": 4180 }, { "epoch": 0.44693333333333335, "grad_norm": 0.9073842589947186, "learning_rate": 2.028772550489266e-06, "loss": 1.6482, "step": 4190 }, { "epoch": 0.448, "grad_norm": 0.9666429520321589, "learning_rate": 2.0235420595709692e-06, "loss": 1.6635, "step": 4200 }, { "epoch": 0.44906666666666667, "grad_norm": 0.9371170335680823, "learning_rate": 2.018304309687336e-06, "loss": 1.6501, "step": 4210 }, { "epoch": 0.45013333333333333, "grad_norm": 0.9991180434598096, "learning_rate": 2.013059373460315e-06, "loss": 1.6639, "step": 4220 }, { "epoch": 0.4512, "grad_norm": 0.9171794471735982, "learning_rate": 2.0078073236114964e-06, "loss": 1.6623, "step": 4230 }, { "epoch": 0.45226666666666665, "grad_norm": 0.9501990561925769, "learning_rate": 2.002548232961099e-06, "loss": 1.6435, "step": 4240 }, { "epoch": 0.4533333333333333, "grad_norm": 0.9233048063998548, "learning_rate": 1.9972821744269637e-06, "loss": 1.655, "step": 4250 }, { "epoch": 0.4544, "grad_norm": 0.9519005136157185, "learning_rate": 1.992009221023542e-06, "loss": 1.6547, "step": 4260 }, { "epoch": 0.4554666666666667, "grad_norm": 0.9552313025893657, "learning_rate": 1.9867294458608844e-06, "loss": 1.6492, "step": 4270 }, { "epoch": 0.45653333333333335, "grad_norm": 0.9199662725995568, "learning_rate": 1.9814429221436244e-06, "loss": 1.6538, "step": 4280 }, { "epoch": 0.4576, "grad_norm": 0.89696353195843, "learning_rate": 1.976149723169965e-06, "loss": 1.6583, "step": 4290 }, { "epoch": 0.45866666666666667, "grad_norm": 0.9340926664670772, "learning_rate": 1.9708499223306633e-06, "loss": 1.6587, "step": 4300 }, { "epoch": 0.4597333333333333, "grad_norm": 0.9189723996632275, "learning_rate": 1.965543593108012e-06, "loss": 1.6534, "step": 4310 }, { "epoch": 0.4608, "grad_norm": 0.9396243052925816, "learning_rate": 1.96023080907482e-06, "loss": 1.6413, "step": 4320 }, { "epoch": 0.46186666666666665, "grad_norm": 0.9702228501509886, "learning_rate": 1.9549116438933916e-06, "loss": 1.6503, "step": 4330 }, { "epoch": 0.4629333333333333, "grad_norm": 0.9066840578417386, "learning_rate": 1.9495861713145083e-06, "loss": 1.6502, "step": 4340 }, { "epoch": 0.464, "grad_norm": 0.9151212819069134, "learning_rate": 1.9442544651764036e-06, "loss": 1.659, "step": 4350 }, { "epoch": 0.4650666666666667, "grad_norm": 0.9476053207849485, "learning_rate": 1.9389165994037395e-06, "loss": 1.6525, "step": 4360 }, { "epoch": 0.46613333333333334, "grad_norm": 0.9511450393907537, "learning_rate": 1.9335726480065835e-06, "loss": 1.6473, "step": 4370 }, { "epoch": 0.4672, "grad_norm": 0.9242939318777355, "learning_rate": 1.9282226850793793e-06, "loss": 1.6515, "step": 4380 }, { "epoch": 0.46826666666666666, "grad_norm": 0.9027003684402543, "learning_rate": 1.9228667847999214e-06, "loss": 1.654, "step": 4390 }, { "epoch": 0.4693333333333333, "grad_norm": 0.9632054314980718, "learning_rate": 1.917505021428327e-06, "loss": 1.658, "step": 4400 }, { "epoch": 0.4704, "grad_norm": 0.9491990992567905, "learning_rate": 1.9121374693060044e-06, "loss": 1.6518, "step": 4410 }, { "epoch": 0.47146666666666665, "grad_norm": 0.9179144139326458, "learning_rate": 1.9067642028546256e-06, "loss": 1.6515, "step": 4420 }, { "epoch": 0.47253333333333336, "grad_norm": 0.9347533255773524, "learning_rate": 1.9013852965750902e-06, "loss": 1.651, "step": 4430 }, { "epoch": 0.4736, "grad_norm": 0.9152822869880609, "learning_rate": 1.8960008250464962e-06, "loss": 1.6433, "step": 4440 }, { "epoch": 0.4746666666666667, "grad_norm": 0.9694583452493872, "learning_rate": 1.890610862925103e-06, "loss": 1.6551, "step": 4450 }, { "epoch": 0.47573333333333334, "grad_norm": 0.9507836920978959, "learning_rate": 1.8852154849432991e-06, "loss": 1.642, "step": 4460 }, { "epoch": 0.4768, "grad_norm": 0.9253114724103457, "learning_rate": 1.8798147659085634e-06, "loss": 1.6347, "step": 4470 }, { "epoch": 0.47786666666666666, "grad_norm": 0.9497959031788862, "learning_rate": 1.8744087807024293e-06, "loss": 1.6487, "step": 4480 }, { "epoch": 0.4789333333333333, "grad_norm": 0.9885199094836411, "learning_rate": 1.8689976042794463e-06, "loss": 1.6477, "step": 4490 }, { "epoch": 0.48, "grad_norm": 0.9550202944435284, "learning_rate": 1.8635813116661405e-06, "loss": 1.6507, "step": 4500 }, { "epoch": 0.48106666666666664, "grad_norm": 0.9531489223060156, "learning_rate": 1.8581599779599755e-06, "loss": 1.6535, "step": 4510 }, { "epoch": 0.48213333333333336, "grad_norm": 0.9418556827643321, "learning_rate": 1.8527336783283087e-06, "loss": 1.6485, "step": 4520 }, { "epoch": 0.4832, "grad_norm": 0.9160185936422113, "learning_rate": 1.847302488007351e-06, "loss": 1.6487, "step": 4530 }, { "epoch": 0.4842666666666667, "grad_norm": 0.9497067863179137, "learning_rate": 1.8418664823011239e-06, "loss": 1.6517, "step": 4540 }, { "epoch": 0.48533333333333334, "grad_norm": 0.9188806450898334, "learning_rate": 1.8364257365804142e-06, "loss": 1.6417, "step": 4550 }, { "epoch": 0.4864, "grad_norm": 0.9581449915075984, "learning_rate": 1.8309803262817294e-06, "loss": 1.6581, "step": 4560 }, { "epoch": 0.48746666666666666, "grad_norm": 0.9116662116433364, "learning_rate": 1.825530326906252e-06, "loss": 1.6482, "step": 4570 }, { "epoch": 0.4885333333333333, "grad_norm": 0.9714529376329947, "learning_rate": 1.820075814018793e-06, "loss": 1.6478, "step": 4580 }, { "epoch": 0.4896, "grad_norm": 0.9210973111389842, "learning_rate": 1.8146168632467424e-06, "loss": 1.6471, "step": 4590 }, { "epoch": 0.49066666666666664, "grad_norm": 0.9602862009294374, "learning_rate": 1.8091535502790237e-06, "loss": 1.6546, "step": 4600 }, { "epoch": 0.49173333333333336, "grad_norm": 0.9707453168109123, "learning_rate": 1.8036859508650416e-06, "loss": 1.6452, "step": 4610 }, { "epoch": 0.4928, "grad_norm": 0.9448173376637843, "learning_rate": 1.7982141408136326e-06, "loss": 1.6543, "step": 4620 }, { "epoch": 0.4938666666666667, "grad_norm": 0.9717427380698243, "learning_rate": 1.792738195992015e-06, "loss": 1.6592, "step": 4630 }, { "epoch": 0.49493333333333334, "grad_norm": 0.996799247570999, "learning_rate": 1.7872581923247353e-06, "loss": 1.6652, "step": 4640 }, { "epoch": 0.496, "grad_norm": 0.9321127711436916, "learning_rate": 1.7817742057926174e-06, "loss": 1.6328, "step": 4650 }, { "epoch": 0.49706666666666666, "grad_norm": 0.9376120923556164, "learning_rate": 1.7762863124317064e-06, "loss": 1.6456, "step": 4660 }, { "epoch": 0.4981333333333333, "grad_norm": 0.9371209888480494, "learning_rate": 1.7707945883322177e-06, "loss": 1.6476, "step": 4670 }, { "epoch": 0.4992, "grad_norm": 0.9846043466828673, "learning_rate": 1.7652991096374784e-06, "loss": 1.6642, "step": 4680 }, { "epoch": 0.5002666666666666, "grad_norm": 0.9216437552084045, "learning_rate": 1.7597999525428758e-06, "loss": 1.6565, "step": 4690 }, { "epoch": 0.5013333333333333, "grad_norm": 0.9281691196973773, "learning_rate": 1.754297193294797e-06, "loss": 1.6458, "step": 4700 }, { "epoch": 0.5024, "grad_norm": 0.9327920802985391, "learning_rate": 1.7487909081895737e-06, "loss": 1.6439, "step": 4710 }, { "epoch": 0.5034666666666666, "grad_norm": 0.9207286534115989, "learning_rate": 1.743281173572424e-06, "loss": 1.6478, "step": 4720 }, { "epoch": 0.5045333333333333, "grad_norm": 0.950362978137184, "learning_rate": 1.7377680658363934e-06, "loss": 1.6586, "step": 4730 }, { "epoch": 0.5056, "grad_norm": 0.9408256784492793, "learning_rate": 1.732251661421297e-06, "loss": 1.6474, "step": 4740 }, { "epoch": 0.5066666666666667, "grad_norm": 0.9306800552688193, "learning_rate": 1.7267320368126579e-06, "loss": 1.6465, "step": 4750 }, { "epoch": 0.5077333333333334, "grad_norm": 0.8886899231377126, "learning_rate": 1.721209268540647e-06, "loss": 1.6592, "step": 4760 }, { "epoch": 0.5088, "grad_norm": 0.9598193129429311, "learning_rate": 1.715683433179025e-06, "loss": 1.6409, "step": 4770 }, { "epoch": 0.5098666666666667, "grad_norm": 0.879303588729933, "learning_rate": 1.7101546073440749e-06, "loss": 1.6447, "step": 4780 }, { "epoch": 0.5109333333333334, "grad_norm": 0.9542795365754219, "learning_rate": 1.7046228676935449e-06, "loss": 1.6366, "step": 4790 }, { "epoch": 0.512, "grad_norm": 0.9277059446108725, "learning_rate": 1.699088290925583e-06, "loss": 1.6377, "step": 4800 }, { "epoch": 0.5130666666666667, "grad_norm": 0.9545444610136414, "learning_rate": 1.693550953777674e-06, "loss": 1.6452, "step": 4810 }, { "epoch": 0.5141333333333333, "grad_norm": 0.9839302414311039, "learning_rate": 1.6880109330255759e-06, "loss": 1.6547, "step": 4820 }, { "epoch": 0.5152, "grad_norm": 0.9604114638793624, "learning_rate": 1.682468305482255e-06, "loss": 1.6419, "step": 4830 }, { "epoch": 0.5162666666666667, "grad_norm": 0.9333134889491346, "learning_rate": 1.676923147996821e-06, "loss": 1.6452, "step": 4840 }, { "epoch": 0.5173333333333333, "grad_norm": 0.9872821743552691, "learning_rate": 1.671375537453461e-06, "loss": 1.6372, "step": 4850 }, { "epoch": 0.5184, "grad_norm": 0.9711480253942462, "learning_rate": 1.665825550770376e-06, "loss": 1.6503, "step": 4860 }, { "epoch": 0.5194666666666666, "grad_norm": 0.9625223079063302, "learning_rate": 1.6602732648987098e-06, "loss": 1.6383, "step": 4870 }, { "epoch": 0.5205333333333333, "grad_norm": 0.9346557878361372, "learning_rate": 1.6547187568214867e-06, "loss": 1.6489, "step": 4880 }, { "epoch": 0.5216, "grad_norm": 0.938832982275646, "learning_rate": 1.6491621035525409e-06, "loss": 1.6492, "step": 4890 }, { "epoch": 0.5226666666666666, "grad_norm": 0.9438038086918349, "learning_rate": 1.6436033821354503e-06, "loss": 1.6507, "step": 4900 }, { "epoch": 0.5237333333333334, "grad_norm": 0.9460597775148187, "learning_rate": 1.6380426696424683e-06, "loss": 1.6513, "step": 4910 }, { "epoch": 0.5248, "grad_norm": 0.958546094826626, "learning_rate": 1.6324800431734539e-06, "loss": 1.6512, "step": 4920 }, { "epoch": 0.5258666666666667, "grad_norm": 0.927861698661494, "learning_rate": 1.6269155798548044e-06, "loss": 1.6536, "step": 4930 }, { "epoch": 0.5269333333333334, "grad_norm": 0.9136999478889338, "learning_rate": 1.621349356838384e-06, "loss": 1.6492, "step": 4940 }, { "epoch": 0.528, "grad_norm": 0.9719509217716726, "learning_rate": 1.6157814513004576e-06, "loss": 1.647, "step": 4950 }, { "epoch": 0.5290666666666667, "grad_norm": 0.9410390348841198, "learning_rate": 1.6102119404406165e-06, "loss": 1.6452, "step": 4960 }, { "epoch": 0.5301333333333333, "grad_norm": 0.9404883067410926, "learning_rate": 1.6046409014807101e-06, "loss": 1.6441, "step": 4970 }, { "epoch": 0.5312, "grad_norm": 0.9241815771688953, "learning_rate": 1.5990684116637756e-06, "loss": 1.6446, "step": 4980 }, { "epoch": 0.5322666666666667, "grad_norm": 0.9256672557316625, "learning_rate": 1.593494548252967e-06, "loss": 1.6522, "step": 4990 }, { "epoch": 0.5333333333333333, "grad_norm": 0.9246108850041412, "learning_rate": 1.5879193885304814e-06, "loss": 1.6392, "step": 5000 }, { "epoch": 0.5344, "grad_norm": 0.942194383370598, "learning_rate": 1.5823430097964913e-06, "loss": 1.6537, "step": 5010 }, { "epoch": 0.5354666666666666, "grad_norm": 0.9156367803282325, "learning_rate": 1.5767654893680705e-06, "loss": 1.6461, "step": 5020 }, { "epoch": 0.5365333333333333, "grad_norm": 0.940672239969546, "learning_rate": 1.5711869045781214e-06, "loss": 1.6481, "step": 5030 }, { "epoch": 0.5376, "grad_norm": 0.9061456345002042, "learning_rate": 1.5656073327743059e-06, "loss": 1.6444, "step": 5040 }, { "epoch": 0.5386666666666666, "grad_norm": 0.97763256942112, "learning_rate": 1.560026851317969e-06, "loss": 1.6482, "step": 5050 }, { "epoch": 0.5397333333333333, "grad_norm": 0.9598055913116468, "learning_rate": 1.5544455375830693e-06, "loss": 1.6446, "step": 5060 }, { "epoch": 0.5408, "grad_norm": 1.0052635989756642, "learning_rate": 1.5488634689551046e-06, "loss": 1.6529, "step": 5070 }, { "epoch": 0.5418666666666667, "grad_norm": 0.9517105092635382, "learning_rate": 1.5432807228300392e-06, "loss": 1.6473, "step": 5080 }, { "epoch": 0.5429333333333334, "grad_norm": 0.8905539394435706, "learning_rate": 1.5376973766132317e-06, "loss": 1.6499, "step": 5090 }, { "epoch": 0.544, "grad_norm": 0.9123057864528198, "learning_rate": 1.53211350771836e-06, "loss": 1.6503, "step": 5100 }, { "epoch": 0.5450666666666667, "grad_norm": 0.9653409477209125, "learning_rate": 1.5265291935663502e-06, "loss": 1.6561, "step": 5110 }, { "epoch": 0.5461333333333334, "grad_norm": 0.9251744902735615, "learning_rate": 1.5209445115842998e-06, "loss": 1.6508, "step": 5120 }, { "epoch": 0.5472, "grad_norm": 0.9366916012307703, "learning_rate": 1.5153595392044094e-06, "loss": 1.6494, "step": 5130 }, { "epoch": 0.5482666666666667, "grad_norm": 0.9447081853537513, "learning_rate": 1.509774353862904e-06, "loss": 1.6383, "step": 5140 }, { "epoch": 0.5493333333333333, "grad_norm": 0.8886994480186915, "learning_rate": 1.504189032998961e-06, "loss": 1.6562, "step": 5150 }, { "epoch": 0.5504, "grad_norm": 0.989438237647426, "learning_rate": 1.4986036540536382e-06, "loss": 1.6501, "step": 5160 }, { "epoch": 0.5514666666666667, "grad_norm": 0.9592524368391265, "learning_rate": 1.4930182944687976e-06, "loss": 1.6551, "step": 5170 }, { "epoch": 0.5525333333333333, "grad_norm": 0.9335871562479809, "learning_rate": 1.4874330316860336e-06, "loss": 1.6406, "step": 5180 }, { "epoch": 0.5536, "grad_norm": 0.926910208271037, "learning_rate": 1.4818479431455977e-06, "loss": 1.6516, "step": 5190 }, { "epoch": 0.5546666666666666, "grad_norm": 0.966527959372197, "learning_rate": 1.476263106285326e-06, "loss": 1.6491, "step": 5200 }, { "epoch": 0.5557333333333333, "grad_norm": 0.9346249629066673, "learning_rate": 1.4706785985395647e-06, "loss": 1.6479, "step": 5210 }, { "epoch": 0.5568, "grad_norm": 0.9378886124750219, "learning_rate": 1.4650944973380972e-06, "loss": 1.6346, "step": 5220 }, { "epoch": 0.5578666666666666, "grad_norm": 0.9107356409157437, "learning_rate": 1.4595108801050698e-06, "loss": 1.6558, "step": 5230 }, { "epoch": 0.5589333333333333, "grad_norm": 0.9447516262457282, "learning_rate": 1.4539278242579182e-06, "loss": 1.6455, "step": 5240 }, { "epoch": 0.56, "grad_norm": 0.9240813989302032, "learning_rate": 1.448345407206295e-06, "loss": 1.6365, "step": 5250 }, { "epoch": 0.5610666666666667, "grad_norm": 0.9384959493426096, "learning_rate": 1.442763706350996e-06, "loss": 1.6479, "step": 5260 }, { "epoch": 0.5621333333333334, "grad_norm": 0.9628307533598938, "learning_rate": 1.4371827990828868e-06, "loss": 1.6324, "step": 5270 }, { "epoch": 0.5632, "grad_norm": 0.9202574539474218, "learning_rate": 1.4316027627818288e-06, "loss": 1.6462, "step": 5280 }, { "epoch": 0.5642666666666667, "grad_norm": 0.9517027346541544, "learning_rate": 1.4260236748156085e-06, "loss": 1.654, "step": 5290 }, { "epoch": 0.5653333333333334, "grad_norm": 0.932652543344005, "learning_rate": 1.4204456125388636e-06, "loss": 1.6481, "step": 5300 }, { "epoch": 0.5664, "grad_norm": 0.9243403254175224, "learning_rate": 1.4148686532920094e-06, "loss": 1.6396, "step": 5310 }, { "epoch": 0.5674666666666667, "grad_norm": 0.9345629944472951, "learning_rate": 1.4092928744001686e-06, "loss": 1.653, "step": 5320 }, { "epoch": 0.5685333333333333, "grad_norm": 0.8890220158328246, "learning_rate": 1.4037183531720982e-06, "loss": 1.6574, "step": 5330 }, { "epoch": 0.5696, "grad_norm": 0.9582706614516528, "learning_rate": 1.398145166899117e-06, "loss": 1.6504, "step": 5340 }, { "epoch": 0.5706666666666667, "grad_norm": 0.926064768004215, "learning_rate": 1.3925733928540346e-06, "loss": 1.6409, "step": 5350 }, { "epoch": 0.5717333333333333, "grad_norm": 0.9293239699597686, "learning_rate": 1.3870031082900803e-06, "loss": 1.6434, "step": 5360 }, { "epoch": 0.5728, "grad_norm": 0.9190136126360794, "learning_rate": 1.3814343904398314e-06, "loss": 1.6442, "step": 5370 }, { "epoch": 0.5738666666666666, "grad_norm": 0.9816775386873235, "learning_rate": 1.375867316514142e-06, "loss": 1.6477, "step": 5380 }, { "epoch": 0.5749333333333333, "grad_norm": 0.9573922299728442, "learning_rate": 1.3703019637010744e-06, "loss": 1.6327, "step": 5390 }, { "epoch": 0.576, "grad_norm": 0.9168254588614905, "learning_rate": 1.364738409164826e-06, "loss": 1.6511, "step": 5400 }, { "epoch": 0.5770666666666666, "grad_norm": 0.9267845862889881, "learning_rate": 1.3591767300446616e-06, "loss": 1.6431, "step": 5410 }, { "epoch": 0.5781333333333334, "grad_norm": 0.9191958476482912, "learning_rate": 1.353617003453843e-06, "loss": 1.6422, "step": 5420 }, { "epoch": 0.5792, "grad_norm": 0.9397046357630816, "learning_rate": 1.3480593064785599e-06, "loss": 1.6395, "step": 5430 }, { "epoch": 0.5802666666666667, "grad_norm": 0.8938984721287658, "learning_rate": 1.3425037161768622e-06, "loss": 1.6492, "step": 5440 }, { "epoch": 0.5813333333333334, "grad_norm": 0.9450279981653136, "learning_rate": 1.336950309577589e-06, "loss": 1.6395, "step": 5450 }, { "epoch": 0.5824, "grad_norm": 0.9239482448933554, "learning_rate": 1.3313991636793027e-06, "loss": 1.6479, "step": 5460 }, { "epoch": 0.5834666666666667, "grad_norm": 0.9251470424167806, "learning_rate": 1.3258503554492213e-06, "loss": 1.6387, "step": 5470 }, { "epoch": 0.5845333333333333, "grad_norm": 0.908081306532349, "learning_rate": 1.3203039618221505e-06, "loss": 1.6405, "step": 5480 }, { "epoch": 0.5856, "grad_norm": 0.9025867747737822, "learning_rate": 1.3147600596994169e-06, "loss": 1.6355, "step": 5490 }, { "epoch": 0.5866666666666667, "grad_norm": 0.9588359293934582, "learning_rate": 1.3092187259478025e-06, "loss": 1.6525, "step": 5500 }, { "epoch": 0.5877333333333333, "grad_norm": 0.9555006859984778, "learning_rate": 1.3036800373984786e-06, "loss": 1.6392, "step": 5510 }, { "epoch": 0.5888, "grad_norm": 0.9311384464314543, "learning_rate": 1.2981440708459406e-06, "loss": 1.635, "step": 5520 }, { "epoch": 0.5898666666666667, "grad_norm": 0.9734499397095102, "learning_rate": 1.2926109030469427e-06, "loss": 1.6441, "step": 5530 }, { "epoch": 0.5909333333333333, "grad_norm": 0.9326692902405276, "learning_rate": 1.2870806107194343e-06, "loss": 1.6282, "step": 5540 }, { "epoch": 0.592, "grad_norm": 0.9544926011413847, "learning_rate": 1.2815532705414963e-06, "loss": 1.6492, "step": 5550 }, { "epoch": 0.5930666666666666, "grad_norm": 0.9415503041502752, "learning_rate": 1.2760289591502775e-06, "loss": 1.6488, "step": 5560 }, { "epoch": 0.5941333333333333, "grad_norm": 0.9661561294596271, "learning_rate": 1.2705077531409323e-06, "loss": 1.6504, "step": 5570 }, { "epoch": 0.5952, "grad_norm": 0.9484084568517012, "learning_rate": 1.2649897290655585e-06, "loss": 1.6478, "step": 5580 }, { "epoch": 0.5962666666666666, "grad_norm": 0.9296767705309394, "learning_rate": 1.2594749634321366e-06, "loss": 1.6477, "step": 5590 }, { "epoch": 0.5973333333333334, "grad_norm": 0.9251762882728181, "learning_rate": 1.2539635327034677e-06, "loss": 1.6428, "step": 5600 }, { "epoch": 0.5984, "grad_norm": 0.9500555909233835, "learning_rate": 1.2484555132961141e-06, "loss": 1.644, "step": 5610 }, { "epoch": 0.5994666666666667, "grad_norm": 0.982866027047646, "learning_rate": 1.2429509815793413e-06, "loss": 1.6359, "step": 5620 }, { "epoch": 0.6005333333333334, "grad_norm": 0.9571068827192319, "learning_rate": 1.2374500138740559e-06, "loss": 1.6359, "step": 5630 }, { "epoch": 0.6016, "grad_norm": 0.927882779336132, "learning_rate": 1.23195268645175e-06, "loss": 1.6491, "step": 5640 }, { "epoch": 0.6026666666666667, "grad_norm": 0.9654855244119447, "learning_rate": 1.2264590755334416e-06, "loss": 1.6473, "step": 5650 }, { "epoch": 0.6037333333333333, "grad_norm": 0.9433010159775556, "learning_rate": 1.2209692572886206e-06, "loss": 1.6388, "step": 5660 }, { "epoch": 0.6048, "grad_norm": 0.9095948576720422, "learning_rate": 1.21548330783419e-06, "loss": 1.6442, "step": 5670 }, { "epoch": 0.6058666666666667, "grad_norm": 0.9222050812897559, "learning_rate": 1.2100013032334122e-06, "loss": 1.6394, "step": 5680 }, { "epoch": 0.6069333333333333, "grad_norm": 1.0024937862794003, "learning_rate": 1.2045233194948532e-06, "loss": 1.6354, "step": 5690 }, { "epoch": 0.608, "grad_norm": 0.9696703833628154, "learning_rate": 1.19904943257133e-06, "loss": 1.6455, "step": 5700 }, { "epoch": 0.6090666666666666, "grad_norm": 0.9521962731752988, "learning_rate": 1.1935797183588565e-06, "loss": 1.6435, "step": 5710 }, { "epoch": 0.6101333333333333, "grad_norm": 0.9649261761199126, "learning_rate": 1.1881142526955912e-06, "loss": 1.6318, "step": 5720 }, { "epoch": 0.6112, "grad_norm": 1.0056557989470312, "learning_rate": 1.1826531113607867e-06, "loss": 1.6406, "step": 5730 }, { "epoch": 0.6122666666666666, "grad_norm": 0.9565854640409046, "learning_rate": 1.177196370073738e-06, "loss": 1.6318, "step": 5740 }, { "epoch": 0.6133333333333333, "grad_norm": 0.9257455465648255, "learning_rate": 1.1717441044927322e-06, "loss": 1.6456, "step": 5750 }, { "epoch": 0.6144, "grad_norm": 0.9172969869603425, "learning_rate": 1.166296390214002e-06, "loss": 1.6398, "step": 5760 }, { "epoch": 0.6154666666666667, "grad_norm": 0.9512453587571212, "learning_rate": 1.1608533027706746e-06, "loss": 1.6398, "step": 5770 }, { "epoch": 0.6165333333333334, "grad_norm": 0.9286767101053063, "learning_rate": 1.1554149176317254e-06, "loss": 1.632, "step": 5780 }, { "epoch": 0.6176, "grad_norm": 0.9395625997522168, "learning_rate": 1.1499813102009331e-06, "loss": 1.6427, "step": 5790 }, { "epoch": 0.6186666666666667, "grad_norm": 0.9174904578128065, "learning_rate": 1.1445525558158318e-06, "loss": 1.6344, "step": 5800 }, { "epoch": 0.6197333333333334, "grad_norm": 0.9400636953549242, "learning_rate": 1.1391287297466684e-06, "loss": 1.6259, "step": 5810 }, { "epoch": 0.6208, "grad_norm": 0.9618846525927467, "learning_rate": 1.1337099071953572e-06, "loss": 1.6376, "step": 5820 }, { "epoch": 0.6218666666666667, "grad_norm": 0.9695152057383372, "learning_rate": 1.1282961632944395e-06, "loss": 1.6476, "step": 5830 }, { "epoch": 0.6229333333333333, "grad_norm": 0.9073538822553481, "learning_rate": 1.1228875731060394e-06, "loss": 1.6412, "step": 5840 }, { "epoch": 0.624, "grad_norm": 0.9243184083175984, "learning_rate": 1.1174842116208249e-06, "loss": 1.6537, "step": 5850 }, { "epoch": 0.6250666666666667, "grad_norm": 0.9311818624737883, "learning_rate": 1.1120861537569673e-06, "loss": 1.6318, "step": 5860 }, { "epoch": 0.6261333333333333, "grad_norm": 0.9558573300672806, "learning_rate": 1.106693474359103e-06, "loss": 1.6328, "step": 5870 }, { "epoch": 0.6272, "grad_norm": 0.9296624232819808, "learning_rate": 1.1013062481972947e-06, "loss": 1.6336, "step": 5880 }, { "epoch": 0.6282666666666666, "grad_norm": 0.9498411311821265, "learning_rate": 1.0959245499659957e-06, "loss": 1.6457, "step": 5890 }, { "epoch": 0.6293333333333333, "grad_norm": 0.9777947074995257, "learning_rate": 1.0905484542830144e-06, "loss": 1.6392, "step": 5900 }, { "epoch": 0.6304, "grad_norm": 1.0004634436141713, "learning_rate": 1.0851780356884788e-06, "loss": 1.6357, "step": 5910 }, { "epoch": 0.6314666666666666, "grad_norm": 0.963160829464813, "learning_rate": 1.079813368643804e-06, "loss": 1.641, "step": 5920 }, { "epoch": 0.6325333333333333, "grad_norm": 0.980303517969504, "learning_rate": 1.0744545275306583e-06, "loss": 1.6494, "step": 5930 }, { "epoch": 0.6336, "grad_norm": 0.9109598027868125, "learning_rate": 1.0691015866499336e-06, "loss": 1.6423, "step": 5940 }, { "epoch": 0.6346666666666667, "grad_norm": 0.9258371169728175, "learning_rate": 1.0637546202207143e-06, "loss": 1.6334, "step": 5950 }, { "epoch": 0.6357333333333334, "grad_norm": 0.9711106615869038, "learning_rate": 1.0584137023792483e-06, "loss": 1.6421, "step": 5960 }, { "epoch": 0.6368, "grad_norm": 0.9491371788519555, "learning_rate": 1.0530789071779194e-06, "loss": 1.6377, "step": 5970 }, { "epoch": 0.6378666666666667, "grad_norm": 0.9284511744288078, "learning_rate": 1.0477503085842205e-06, "loss": 1.6419, "step": 5980 }, { "epoch": 0.6389333333333334, "grad_norm": 0.8952139474631282, "learning_rate": 1.0424279804797273e-06, "loss": 1.6357, "step": 5990 }, { "epoch": 0.64, "grad_norm": 0.9648287519926048, "learning_rate": 1.0371119966590752e-06, "loss": 1.6407, "step": 6000 }, { "epoch": 0.6410666666666667, "grad_norm": 0.9557165036552002, "learning_rate": 1.0318024308289345e-06, "loss": 1.6329, "step": 6010 }, { "epoch": 0.6421333333333333, "grad_norm": 0.9668832043992088, "learning_rate": 1.0264993566069906e-06, "loss": 1.6455, "step": 6020 }, { "epoch": 0.6432, "grad_norm": 0.9813428813401812, "learning_rate": 1.0212028475209207e-06, "loss": 1.6305, "step": 6030 }, { "epoch": 0.6442666666666667, "grad_norm": 0.9664448211976283, "learning_rate": 1.0159129770073775e-06, "loss": 1.6468, "step": 6040 }, { "epoch": 0.6453333333333333, "grad_norm": 0.9369228206952753, "learning_rate": 1.0106298184109671e-06, "loss": 1.634, "step": 6050 }, { "epoch": 0.6464, "grad_norm": 0.9552735098202143, "learning_rate": 1.0053534449832363e-06, "loss": 1.6381, "step": 6060 }, { "epoch": 0.6474666666666666, "grad_norm": 0.9440131809910416, "learning_rate": 1.0000839298816527e-06, "loss": 1.6497, "step": 6070 }, { "epoch": 0.6485333333333333, "grad_norm": 0.9201581263547279, "learning_rate": 9.948213461685944e-07, "loss": 1.634, "step": 6080 }, { "epoch": 0.6496, "grad_norm": 0.9033039097399416, "learning_rate": 9.895657668103337e-07, "loss": 1.6459, "step": 6090 }, { "epoch": 0.6506666666666666, "grad_norm": 0.9507971786885266, "learning_rate": 9.843172646760274e-07, "loss": 1.6374, "step": 6100 }, { "epoch": 0.6517333333333334, "grad_norm": 0.9138073936936818, "learning_rate": 9.790759125367059e-07, "loss": 1.6351, "step": 6110 }, { "epoch": 0.6528, "grad_norm": 0.9707248222137546, "learning_rate": 9.73841783064264e-07, "loss": 1.6516, "step": 6120 }, { "epoch": 0.6538666666666667, "grad_norm": 0.9370225022575949, "learning_rate": 9.686149488304535e-07, "loss": 1.6396, "step": 6130 }, { "epoch": 0.6549333333333334, "grad_norm": 0.953541564612593, "learning_rate": 9.633954823058764e-07, "loss": 1.6263, "step": 6140 }, { "epoch": 0.656, "grad_norm": 0.9186408662137342, "learning_rate": 9.581834558589823e-07, "loss": 1.6362, "step": 6150 }, { "epoch": 0.6570666666666667, "grad_norm": 0.9376259337254916, "learning_rate": 9.529789417550616e-07, "loss": 1.638, "step": 6160 }, { "epoch": 0.6581333333333333, "grad_norm": 0.9167224812554682, "learning_rate": 9.477820121552455e-07, "loss": 1.6458, "step": 6170 }, { "epoch": 0.6592, "grad_norm": 0.941453752408149, "learning_rate": 9.425927391155066e-07, "loss": 1.637, "step": 6180 }, { "epoch": 0.6602666666666667, "grad_norm": 0.9577682303073832, "learning_rate": 9.374111945856572e-07, "loss": 1.6334, "step": 6190 }, { "epoch": 0.6613333333333333, "grad_norm": 0.9466239394767838, "learning_rate": 9.322374504083534e-07, "loss": 1.6343, "step": 6200 }, { "epoch": 0.6624, "grad_norm": 0.9290964682344081, "learning_rate": 9.270715783180984e-07, "loss": 1.6498, "step": 6210 }, { "epoch": 0.6634666666666666, "grad_norm": 0.9629443900334983, "learning_rate": 9.219136499402484e-07, "loss": 1.6388, "step": 6220 }, { "epoch": 0.6645333333333333, "grad_norm": 0.9483334295734468, "learning_rate": 9.167637367900192e-07, "loss": 1.6369, "step": 6230 }, { "epoch": 0.6656, "grad_norm": 0.9538512462369768, "learning_rate": 9.116219102714941e-07, "loss": 1.6255, "step": 6240 }, { "epoch": 0.6666666666666666, "grad_norm": 0.9916209252628216, "learning_rate": 9.064882416766353e-07, "loss": 1.6433, "step": 6250 }, { "epoch": 0.6677333333333333, "grad_norm": 0.936952152129854, "learning_rate": 9.013628021842936e-07, "loss": 1.6369, "step": 6260 }, { "epoch": 0.6688, "grad_norm": 0.9651446619573912, "learning_rate": 8.962456628592234e-07, "loss": 1.632, "step": 6270 }, { "epoch": 0.6698666666666667, "grad_norm": 0.948618245086087, "learning_rate": 8.911368946510954e-07, "loss": 1.6443, "step": 6280 }, { "epoch": 0.6709333333333334, "grad_norm": 0.9050682976685079, "learning_rate": 8.860365683935145e-07, "loss": 1.64, "step": 6290 }, { "epoch": 0.672, "grad_norm": 0.9698836847007473, "learning_rate": 8.809447548030371e-07, "loss": 1.6307, "step": 6300 }, { "epoch": 0.6730666666666667, "grad_norm": 0.9432863539008417, "learning_rate": 8.758615244781899e-07, "loss": 1.6368, "step": 6310 }, { "epoch": 0.6741333333333334, "grad_norm": 0.9429546436121419, "learning_rate": 8.707869478984929e-07, "loss": 1.6428, "step": 6320 }, { "epoch": 0.6752, "grad_norm": 0.9163994467182309, "learning_rate": 8.657210954234805e-07, "loss": 1.6415, "step": 6330 }, { "epoch": 0.6762666666666667, "grad_norm": 0.9160826549384001, "learning_rate": 8.606640372917259e-07, "loss": 1.6406, "step": 6340 }, { "epoch": 0.6773333333333333, "grad_norm": 0.9940339188596266, "learning_rate": 8.556158436198688e-07, "loss": 1.6349, "step": 6350 }, { "epoch": 0.6784, "grad_norm": 0.9416509210499009, "learning_rate": 8.50576584401641e-07, "loss": 1.6346, "step": 6360 }, { "epoch": 0.6794666666666667, "grad_norm": 0.9468646810234849, "learning_rate": 8.455463295068982e-07, "loss": 1.6414, "step": 6370 }, { "epoch": 0.6805333333333333, "grad_norm": 0.9855189455541102, "learning_rate": 8.4052514868065e-07, "loss": 1.6465, "step": 6380 }, { "epoch": 0.6816, "grad_norm": 0.9048504332610046, "learning_rate": 8.355131115420929e-07, "loss": 1.6362, "step": 6390 }, { "epoch": 0.6826666666666666, "grad_norm": 0.9292137464329728, "learning_rate": 8.305102875836451e-07, "loss": 1.6353, "step": 6400 }, { "epoch": 0.6837333333333333, "grad_norm": 0.9871194545670592, "learning_rate": 8.255167461699838e-07, "loss": 1.6425, "step": 6410 }, { "epoch": 0.6848, "grad_norm": 0.9247541801550003, "learning_rate": 8.205325565370818e-07, "loss": 1.6478, "step": 6420 }, { "epoch": 0.6858666666666666, "grad_norm": 0.9400873616044685, "learning_rate": 8.15557787791249e-07, "loss": 1.6322, "step": 6430 }, { "epoch": 0.6869333333333333, "grad_norm": 0.9370470337804653, "learning_rate": 8.105925089081735e-07, "loss": 1.6391, "step": 6440 }, { "epoch": 0.688, "grad_norm": 0.9452425538615635, "learning_rate": 8.05636788731966e-07, "loss": 1.6395, "step": 6450 }, { "epoch": 0.6890666666666667, "grad_norm": 0.8668952820400583, "learning_rate": 8.006906959742042e-07, "loss": 1.6528, "step": 6460 }, { "epoch": 0.6901333333333334, "grad_norm": 0.963697404798933, "learning_rate": 7.957542992129806e-07, "loss": 1.6342, "step": 6470 }, { "epoch": 0.6912, "grad_norm": 0.9111364974626629, "learning_rate": 7.908276668919518e-07, "loss": 1.6314, "step": 6480 }, { "epoch": 0.6922666666666667, "grad_norm": 0.9582060092542287, "learning_rate": 7.859108673193891e-07, "loss": 1.6379, "step": 6490 }, { "epoch": 0.6933333333333334, "grad_norm": 0.9585224485507772, "learning_rate": 7.810039686672335e-07, "loss": 1.6349, "step": 6500 }, { "epoch": 0.6944, "grad_norm": 0.9695616000602741, "learning_rate": 7.761070389701462e-07, "loss": 1.6394, "step": 6510 }, { "epoch": 0.6954666666666667, "grad_norm": 0.9125111123508771, "learning_rate": 7.712201461245693e-07, "loss": 1.6316, "step": 6520 }, { "epoch": 0.6965333333333333, "grad_norm": 0.8986469424653175, "learning_rate": 7.66343357887782e-07, "loss": 1.6418, "step": 6530 }, { "epoch": 0.6976, "grad_norm": 0.9456854442967882, "learning_rate": 7.614767418769632e-07, "loss": 1.6415, "step": 6540 }, { "epoch": 0.6986666666666667, "grad_norm": 0.9820515792440034, "learning_rate": 7.566203655682518e-07, "loss": 1.6323, "step": 6550 }, { "epoch": 0.6997333333333333, "grad_norm": 0.961061445601208, "learning_rate": 7.517742962958127e-07, "loss": 1.6314, "step": 6560 }, { "epoch": 0.7008, "grad_norm": 0.9221450649915671, "learning_rate": 7.469386012509022e-07, "loss": 1.6381, "step": 6570 }, { "epoch": 0.7018666666666666, "grad_norm": 0.9663512127492091, "learning_rate": 7.421133474809376e-07, "loss": 1.6339, "step": 6580 }, { "epoch": 0.7029333333333333, "grad_norm": 0.9550764059119128, "learning_rate": 7.37298601888566e-07, "loss": 1.6376, "step": 6590 }, { "epoch": 0.704, "grad_norm": 0.9343040461736298, "learning_rate": 7.32494431230738e-07, "loss": 1.6321, "step": 6600 }, { "epoch": 0.7050666666666666, "grad_norm": 0.9580526787683631, "learning_rate": 7.277009021177818e-07, "loss": 1.6285, "step": 6610 }, { "epoch": 0.7061333333333333, "grad_norm": 0.95301604205055, "learning_rate": 7.22918081012479e-07, "loss": 1.6368, "step": 6620 }, { "epoch": 0.7072, "grad_norm": 0.9643773214782704, "learning_rate": 7.181460342291435e-07, "loss": 1.6325, "step": 6630 }, { "epoch": 0.7082666666666667, "grad_norm": 0.9630196538548305, "learning_rate": 7.133848279327027e-07, "loss": 1.6285, "step": 6640 }, { "epoch": 0.7093333333333334, "grad_norm": 0.9347893738558876, "learning_rate": 7.08634528137779e-07, "loss": 1.6373, "step": 6650 }, { "epoch": 0.7104, "grad_norm": 0.929259402016409, "learning_rate": 7.038952007077753e-07, "loss": 1.6336, "step": 6660 }, { "epoch": 0.7114666666666667, "grad_norm": 0.8969883013011185, "learning_rate": 6.991669113539608e-07, "loss": 1.6366, "step": 6670 }, { "epoch": 0.7125333333333334, "grad_norm": 0.9739170725799922, "learning_rate": 6.944497256345624e-07, "loss": 1.6325, "step": 6680 }, { "epoch": 0.7136, "grad_norm": 0.9484132890244585, "learning_rate": 6.897437089538523e-07, "loss": 1.6394, "step": 6690 }, { "epoch": 0.7146666666666667, "grad_norm": 0.9195963372091024, "learning_rate": 6.85048926561243e-07, "loss": 1.6386, "step": 6700 }, { "epoch": 0.7157333333333333, "grad_norm": 0.9080040123775354, "learning_rate": 6.80365443550383e-07, "loss": 1.6373, "step": 6710 }, { "epoch": 0.7168, "grad_norm": 0.9435414926867148, "learning_rate": 6.756933248582531e-07, "loss": 1.6304, "step": 6720 }, { "epoch": 0.7178666666666667, "grad_norm": 0.9555202890118606, "learning_rate": 6.710326352642674e-07, "loss": 1.6364, "step": 6730 }, { "epoch": 0.7189333333333333, "grad_norm": 0.9273989093685991, "learning_rate": 6.663834393893734e-07, "loss": 1.6374, "step": 6740 }, { "epoch": 0.72, "grad_norm": 0.9098939728870024, "learning_rate": 6.617458016951577e-07, "loss": 1.6395, "step": 6750 }, { "epoch": 0.7210666666666666, "grad_norm": 0.9308729875511774, "learning_rate": 6.571197864829513e-07, "loss": 1.6413, "step": 6760 }, { "epoch": 0.7221333333333333, "grad_norm": 0.9625108469831195, "learning_rate": 6.525054578929383e-07, "loss": 1.6368, "step": 6770 }, { "epoch": 0.7232, "grad_norm": 0.9570791895644976, "learning_rate": 6.479028799032664e-07, "loss": 1.6478, "step": 6780 }, { "epoch": 0.7242666666666666, "grad_norm": 0.9126504256985644, "learning_rate": 6.433121163291605e-07, "loss": 1.6399, "step": 6790 }, { "epoch": 0.7253333333333334, "grad_norm": 0.8998213147969775, "learning_rate": 6.387332308220365e-07, "loss": 1.6407, "step": 6800 }, { "epoch": 0.7264, "grad_norm": 0.9199798284254918, "learning_rate": 6.341662868686205e-07, "loss": 1.6477, "step": 6810 }, { "epoch": 0.7274666666666667, "grad_norm": 0.9571499289329001, "learning_rate": 6.296113477900674e-07, "loss": 1.6416, "step": 6820 }, { "epoch": 0.7285333333333334, "grad_norm": 0.9565916576683874, "learning_rate": 6.250684767410833e-07, "loss": 1.6529, "step": 6830 }, { "epoch": 0.7296, "grad_norm": 0.9521359194288211, "learning_rate": 6.205377367090496e-07, "loss": 1.6332, "step": 6840 }, { "epoch": 0.7306666666666667, "grad_norm": 0.9601323342642837, "learning_rate": 6.160191905131496e-07, "loss": 1.6296, "step": 6850 }, { "epoch": 0.7317333333333333, "grad_norm": 0.9095615878733004, "learning_rate": 6.11512900803499e-07, "loss": 1.6462, "step": 6860 }, { "epoch": 0.7328, "grad_norm": 0.9819000863818711, "learning_rate": 6.070189300602754e-07, "loss": 1.641, "step": 6870 }, { "epoch": 0.7338666666666667, "grad_norm": 0.9183065188989321, "learning_rate": 6.02537340592852e-07, "loss": 1.6365, "step": 6880 }, { "epoch": 0.7349333333333333, "grad_norm": 0.9222259081738321, "learning_rate": 5.980681945389351e-07, "loss": 1.6273, "step": 6890 }, { "epoch": 0.736, "grad_norm": 0.9266979061673322, "learning_rate": 5.936115538637014e-07, "loss": 1.6331, "step": 6900 }, { "epoch": 0.7370666666666666, "grad_norm": 0.9506937700531672, "learning_rate": 5.891674803589391e-07, "loss": 1.6399, "step": 6910 }, { "epoch": 0.7381333333333333, "grad_norm": 0.9363077943402218, "learning_rate": 5.84736035642192e-07, "loss": 1.6296, "step": 6920 }, { "epoch": 0.7392, "grad_norm": 0.9696127739829316, "learning_rate": 5.803172811559035e-07, "loss": 1.6278, "step": 6930 }, { "epoch": 0.7402666666666666, "grad_norm": 0.9255209647747278, "learning_rate": 5.759112781665662e-07, "loss": 1.6336, "step": 6940 }, { "epoch": 0.7413333333333333, "grad_norm": 0.9695328338250578, "learning_rate": 5.715180877638717e-07, "loss": 1.6422, "step": 6950 }, { "epoch": 0.7424, "grad_norm": 0.9375099139188835, "learning_rate": 5.67137770859864e-07, "loss": 1.6419, "step": 6960 }, { "epoch": 0.7434666666666667, "grad_norm": 0.965483827222725, "learning_rate": 5.627703881880939e-07, "loss": 1.6278, "step": 6970 }, { "epoch": 0.7445333333333334, "grad_norm": 0.9247903745568583, "learning_rate": 5.58416000302779e-07, "loss": 1.6255, "step": 6980 }, { "epoch": 0.7456, "grad_norm": 0.8913872455321827, "learning_rate": 5.540746675779617e-07, "loss": 1.6444, "step": 6990 }, { "epoch": 0.7466666666666667, "grad_norm": 0.930364581066195, "learning_rate": 5.497464502066737e-07, "loss": 1.6442, "step": 7000 }, { "epoch": 0.7477333333333334, "grad_norm": 0.9275239099938487, "learning_rate": 5.45431408200101e-07, "loss": 1.6442, "step": 7010 }, { "epoch": 0.7488, "grad_norm": 0.9120385652859035, "learning_rate": 5.41129601386751e-07, "loss": 1.6322, "step": 7020 }, { "epoch": 0.7498666666666667, "grad_norm": 0.9336079965796837, "learning_rate": 5.368410894116257e-07, "loss": 1.639, "step": 7030 }, { "epoch": 0.7509333333333333, "grad_norm": 0.9652458261692217, "learning_rate": 5.325659317353908e-07, "loss": 1.6285, "step": 7040 }, { "epoch": 0.752, "grad_norm": 0.9498370193515251, "learning_rate": 5.283041876335542e-07, "loss": 1.6383, "step": 7050 }, { "epoch": 0.7530666666666667, "grad_norm": 0.9266144378194191, "learning_rate": 5.240559161956428e-07, "loss": 1.6377, "step": 7060 }, { "epoch": 0.7541333333333333, "grad_norm": 0.9401023327507796, "learning_rate": 5.198211763243841e-07, "loss": 1.6271, "step": 7070 }, { "epoch": 0.7552, "grad_norm": 0.9249799174934747, "learning_rate": 5.156000267348883e-07, "loss": 1.6344, "step": 7080 }, { "epoch": 0.7562666666666666, "grad_norm": 0.9202412771278142, "learning_rate": 5.113925259538356e-07, "loss": 1.6266, "step": 7090 }, { "epoch": 0.7573333333333333, "grad_norm": 0.987412833454678, "learning_rate": 5.071987323186637e-07, "loss": 1.6312, "step": 7100 }, { "epoch": 0.7584, "grad_norm": 0.9554539541625356, "learning_rate": 5.030187039767595e-07, "loss": 1.6498, "step": 7110 }, { "epoch": 0.7594666666666666, "grad_norm": 0.9124642558830346, "learning_rate": 4.988524988846523e-07, "loss": 1.6345, "step": 7120 }, { "epoch": 0.7605333333333333, "grad_norm": 0.9706510717552278, "learning_rate": 4.947001748072109e-07, "loss": 1.6422, "step": 7130 }, { "epoch": 0.7616, "grad_norm": 0.9773088306200184, "learning_rate": 4.905617893168422e-07, "loss": 1.6347, "step": 7140 }, { "epoch": 0.7626666666666667, "grad_norm": 0.9438516354685057, "learning_rate": 4.864373997926935e-07, "loss": 1.6254, "step": 7150 }, { "epoch": 0.7637333333333334, "grad_norm": 0.9615412629990119, "learning_rate": 4.823270634198563e-07, "loss": 1.6275, "step": 7160 }, { "epoch": 0.7648, "grad_norm": 0.9466143641191075, "learning_rate": 4.782308371885737e-07, "loss": 1.6359, "step": 7170 }, { "epoch": 0.7658666666666667, "grad_norm": 0.9565229196514186, "learning_rate": 4.7414877789344993e-07, "loss": 1.6357, "step": 7180 }, { "epoch": 0.7669333333333334, "grad_norm": 0.9692475896301669, "learning_rate": 4.7008094213266364e-07, "loss": 1.6389, "step": 7190 }, { "epoch": 0.768, "grad_norm": 0.9705293257414547, "learning_rate": 4.6602738630718215e-07, "loss": 1.6473, "step": 7200 }, { "epoch": 0.7690666666666667, "grad_norm": 0.9400857110588353, "learning_rate": 4.619881666199812e-07, "loss": 1.6315, "step": 7210 }, { "epoch": 0.7701333333333333, "grad_norm": 0.9385785515686702, "learning_rate": 4.579633390752632e-07, "loss": 1.6421, "step": 7220 }, { "epoch": 0.7712, "grad_norm": 0.94077217840519, "learning_rate": 4.539529594776822e-07, "loss": 1.6319, "step": 7230 }, { "epoch": 0.7722666666666667, "grad_norm": 0.9633340290036088, "learning_rate": 4.4995708343157053e-07, "loss": 1.6296, "step": 7240 }, { "epoch": 0.7733333333333333, "grad_norm": 0.9210413897122895, "learning_rate": 4.459757663401667e-07, "loss": 1.6382, "step": 7250 }, { "epoch": 0.7744, "grad_norm": 0.9503245793070393, "learning_rate": 4.420090634048481e-07, "loss": 1.655, "step": 7260 }, { "epoch": 0.7754666666666666, "grad_norm": 0.9324687541186071, "learning_rate": 4.38057029624365e-07, "loss": 1.6329, "step": 7270 }, { "epoch": 0.7765333333333333, "grad_norm": 0.9659077101139498, "learning_rate": 4.341197197940787e-07, "loss": 1.6288, "step": 7280 }, { "epoch": 0.7776, "grad_norm": 0.9241567283236445, "learning_rate": 4.301971885052013e-07, "loss": 1.6289, "step": 7290 }, { "epoch": 0.7786666666666666, "grad_norm": 0.9266596819967082, "learning_rate": 4.262894901440387e-07, "loss": 1.6274, "step": 7300 }, { "epoch": 0.7797333333333333, "grad_norm": 0.9329220518880238, "learning_rate": 4.223966788912368e-07, "loss": 1.6382, "step": 7310 }, { "epoch": 0.7808, "grad_norm": 0.9301328037917151, "learning_rate": 4.185188087210302e-07, "loss": 1.6354, "step": 7320 }, { "epoch": 0.7818666666666667, "grad_norm": 0.9288888551556477, "learning_rate": 4.1465593340049375e-07, "loss": 1.6346, "step": 7330 }, { "epoch": 0.7829333333333334, "grad_norm": 0.9304622658009046, "learning_rate": 4.108081064887975e-07, "loss": 1.6361, "step": 7340 }, { "epoch": 0.784, "grad_norm": 0.9138184910557465, "learning_rate": 4.0697538133646307e-07, "loss": 1.6357, "step": 7350 }, { "epoch": 0.7850666666666667, "grad_norm": 0.8958272422587126, "learning_rate": 4.0315781108462533e-07, "loss": 1.637, "step": 7360 }, { "epoch": 0.7861333333333334, "grad_norm": 0.9316947783445204, "learning_rate": 3.9935544866429443e-07, "loss": 1.6359, "step": 7370 }, { "epoch": 0.7872, "grad_norm": 0.9505150995539887, "learning_rate": 3.9556834679562183e-07, "loss": 1.6288, "step": 7380 }, { "epoch": 0.7882666666666667, "grad_norm": 0.9240867992047288, "learning_rate": 3.9179655798717175e-07, "loss": 1.624, "step": 7390 }, { "epoch": 0.7893333333333333, "grad_norm": 0.9431123649950629, "learning_rate": 3.880401345351892e-07, "loss": 1.6218, "step": 7400 }, { "epoch": 0.7904, "grad_norm": 0.9554551473346031, "learning_rate": 3.842991285228777e-07, "loss": 1.6363, "step": 7410 }, { "epoch": 0.7914666666666667, "grad_norm": 0.9442988318036241, "learning_rate": 3.805735918196764e-07, "loss": 1.6298, "step": 7420 }, { "epoch": 0.7925333333333333, "grad_norm": 0.9062157861896426, "learning_rate": 3.768635760805407e-07, "loss": 1.6354, "step": 7430 }, { "epoch": 0.7936, "grad_norm": 0.9473752542449635, "learning_rate": 3.731691327452265e-07, "loss": 1.6224, "step": 7440 }, { "epoch": 0.7946666666666666, "grad_norm": 0.8994022779724736, "learning_rate": 3.694903130375766e-07, "loss": 1.6397, "step": 7450 }, { "epoch": 0.7957333333333333, "grad_norm": 0.9167992210911745, "learning_rate": 3.6582716796481005e-07, "loss": 1.6234, "step": 7460 }, { "epoch": 0.7968, "grad_norm": 0.917921323326918, "learning_rate": 3.621797483168162e-07, "loss": 1.6371, "step": 7470 }, { "epoch": 0.7978666666666666, "grad_norm": 0.9265675887086849, "learning_rate": 3.585481046654492e-07, "loss": 1.6191, "step": 7480 }, { "epoch": 0.7989333333333334, "grad_norm": 0.9093254131588525, "learning_rate": 3.5493228736382776e-07, "loss": 1.639, "step": 7490 }, { "epoch": 0.8, "grad_norm": 0.9200227121315805, "learning_rate": 3.513323465456363e-07, "loss": 1.6383, "step": 7500 }, { "epoch": 0.8010666666666667, "grad_norm": 0.8911005006586421, "learning_rate": 3.4774833212443037e-07, "loss": 1.6373, "step": 7510 }, { "epoch": 0.8021333333333334, "grad_norm": 0.919935396042663, "learning_rate": 3.441802937929441e-07, "loss": 1.6273, "step": 7520 }, { "epoch": 0.8032, "grad_norm": 0.9621170924769545, "learning_rate": 3.4062828102240176e-07, "loss": 1.6278, "step": 7530 }, { "epoch": 0.8042666666666667, "grad_norm": 0.95839489298772, "learning_rate": 3.370923430618313e-07, "loss": 1.6354, "step": 7540 }, { "epoch": 0.8053333333333333, "grad_norm": 0.9373064433068705, "learning_rate": 3.335725289373819e-07, "loss": 1.6305, "step": 7550 }, { "epoch": 0.8064, "grad_norm": 0.9912108465813826, "learning_rate": 3.300688874516435e-07, "loss": 1.631, "step": 7560 }, { "epoch": 0.8074666666666667, "grad_norm": 0.9502362150615156, "learning_rate": 3.2658146718297217e-07, "loss": 1.6248, "step": 7570 }, { "epoch": 0.8085333333333333, "grad_norm": 0.970146416194715, "learning_rate": 3.2311031648481383e-07, "loss": 1.6401, "step": 7580 }, { "epoch": 0.8096, "grad_norm": 0.949427549138697, "learning_rate": 3.1965548348503517e-07, "loss": 1.6373, "step": 7590 }, { "epoch": 0.8106666666666666, "grad_norm": 0.922262208080072, "learning_rate": 3.162170160852568e-07, "loss": 1.6333, "step": 7600 }, { "epoch": 0.8117333333333333, "grad_norm": 0.951466469655738, "learning_rate": 3.127949619601882e-07, "loss": 1.6338, "step": 7610 }, { "epoch": 0.8128, "grad_norm": 0.9383740481805073, "learning_rate": 3.093893685569673e-07, "loss": 1.6332, "step": 7620 }, { "epoch": 0.8138666666666666, "grad_norm": 0.9517968897517326, "learning_rate": 3.0600028309450244e-07, "loss": 1.6394, "step": 7630 }, { "epoch": 0.8149333333333333, "grad_norm": 0.9225749115806651, "learning_rate": 3.0262775256281734e-07, "loss": 1.6425, "step": 7640 }, { "epoch": 0.816, "grad_norm": 0.9045869971456002, "learning_rate": 2.9927182372240026e-07, "loss": 1.6274, "step": 7650 }, { "epoch": 0.8170666666666667, "grad_norm": 0.9108497632797171, "learning_rate": 2.9593254310355485e-07, "loss": 1.631, "step": 7660 }, { "epoch": 0.8181333333333334, "grad_norm": 0.9443817941450723, "learning_rate": 2.9260995700575567e-07, "loss": 1.6353, "step": 7670 }, { "epoch": 0.8192, "grad_norm": 0.8908721230764877, "learning_rate": 2.893041114970061e-07, "loss": 1.6332, "step": 7680 }, { "epoch": 0.8202666666666667, "grad_norm": 0.9826092712379958, "learning_rate": 2.8601505241319936e-07, "loss": 1.6316, "step": 7690 }, { "epoch": 0.8213333333333334, "grad_norm": 0.9168545979194416, "learning_rate": 2.827428253574831e-07, "loss": 1.6267, "step": 7700 }, { "epoch": 0.8224, "grad_norm": 0.9932310399979936, "learning_rate": 2.794874756996274e-07, "loss": 1.6296, "step": 7710 }, { "epoch": 0.8234666666666667, "grad_norm": 0.9397829594789183, "learning_rate": 2.76249048575395e-07, "loss": 1.6467, "step": 7720 }, { "epoch": 0.8245333333333333, "grad_norm": 0.9735157929884529, "learning_rate": 2.7302758888591604e-07, "loss": 1.627, "step": 7730 }, { "epoch": 0.8256, "grad_norm": 0.9123895077723198, "learning_rate": 2.698231412970662e-07, "loss": 1.6394, "step": 7740 }, { "epoch": 0.8266666666666667, "grad_norm": 0.9185805304649873, "learning_rate": 2.666357502388457e-07, "loss": 1.6336, "step": 7750 }, { "epoch": 0.8277333333333333, "grad_norm": 0.908905821983014, "learning_rate": 2.634654599047645e-07, "loss": 1.6382, "step": 7760 }, { "epoch": 0.8288, "grad_norm": 0.9442900385322206, "learning_rate": 2.6031231425122903e-07, "loss": 1.636, "step": 7770 }, { "epoch": 0.8298666666666666, "grad_norm": 0.9373968223376723, "learning_rate": 2.571763569969333e-07, "loss": 1.6228, "step": 7780 }, { "epoch": 0.8309333333333333, "grad_norm": 0.9444135274894447, "learning_rate": 2.540576316222518e-07, "loss": 1.6339, "step": 7790 }, { "epoch": 0.832, "grad_norm": 0.9092133369600184, "learning_rate": 2.5095618136863814e-07, "loss": 1.6353, "step": 7800 }, { "epoch": 0.8330666666666666, "grad_norm": 0.9339731045588681, "learning_rate": 2.478720492380236e-07, "loss": 1.6349, "step": 7810 }, { "epoch": 0.8341333333333333, "grad_norm": 0.9303757022561053, "learning_rate": 2.448052779922223e-07, "loss": 1.6264, "step": 7820 }, { "epoch": 0.8352, "grad_norm": 0.950336992075915, "learning_rate": 2.4175591015233803e-07, "loss": 1.6368, "step": 7830 }, { "epoch": 0.8362666666666667, "grad_norm": 0.9425330014264532, "learning_rate": 2.3872398799817435e-07, "loss": 1.6425, "step": 7840 }, { "epoch": 0.8373333333333334, "grad_norm": 0.920713028366846, "learning_rate": 2.357095535676485e-07, "loss": 1.6218, "step": 7850 }, { "epoch": 0.8384, "grad_norm": 0.9528277667430787, "learning_rate": 2.3271264865620862e-07, "loss": 1.6314, "step": 7860 }, { "epoch": 0.8394666666666667, "grad_norm": 0.9487241448208892, "learning_rate": 2.2973331481625453e-07, "loss": 1.6309, "step": 7870 }, { "epoch": 0.8405333333333334, "grad_norm": 0.9590571612013499, "learning_rate": 2.2677159335656116e-07, "loss": 1.6339, "step": 7880 }, { "epoch": 0.8416, "grad_norm": 0.9034427640858408, "learning_rate": 2.238275253417056e-07, "loss": 1.6366, "step": 7890 }, { "epoch": 0.8426666666666667, "grad_norm": 0.9251614092449272, "learning_rate": 2.2090115159149832e-07, "loss": 1.6372, "step": 7900 }, { "epoch": 0.8437333333333333, "grad_norm": 0.9216256993570315, "learning_rate": 2.1799251268041698e-07, "loss": 1.6236, "step": 7910 }, { "epoch": 0.8448, "grad_norm": 0.9440649919276951, "learning_rate": 2.1510164893704437e-07, "loss": 1.6404, "step": 7920 }, { "epoch": 0.8458666666666667, "grad_norm": 0.9366940634736978, "learning_rate": 2.1222860044350795e-07, "loss": 1.6351, "step": 7930 }, { "epoch": 0.8469333333333333, "grad_norm": 0.9767847956913959, "learning_rate": 2.0937340703492507e-07, "loss": 1.6383, "step": 7940 }, { "epoch": 0.848, "grad_norm": 0.9574502805577444, "learning_rate": 2.0653610829885068e-07, "loss": 1.6288, "step": 7950 }, { "epoch": 0.8490666666666666, "grad_norm": 0.9319496625095137, "learning_rate": 2.037167435747279e-07, "loss": 1.6219, "step": 7960 }, { "epoch": 0.8501333333333333, "grad_norm": 0.8974365852827743, "learning_rate": 2.009153519533431e-07, "loss": 1.6291, "step": 7970 }, { "epoch": 0.8512, "grad_norm": 0.9637622480076687, "learning_rate": 1.9813197227628398e-07, "loss": 1.6409, "step": 7980 }, { "epoch": 0.8522666666666666, "grad_norm": 0.9203410627694265, "learning_rate": 1.9536664313540016e-07, "loss": 1.6345, "step": 7990 }, { "epoch": 0.8533333333333334, "grad_norm": 0.9694554468121922, "learning_rate": 1.9261940287226914e-07, "loss": 1.6356, "step": 8000 }, { "epoch": 0.8544, "grad_norm": 0.9326338915130443, "learning_rate": 1.8989028957766403e-07, "loss": 1.6343, "step": 8010 }, { "epoch": 0.8554666666666667, "grad_norm": 0.9750275421703326, "learning_rate": 1.8717934109102569e-07, "loss": 1.6339, "step": 8020 }, { "epoch": 0.8565333333333334, "grad_norm": 0.9647846948988279, "learning_rate": 1.844865949999382e-07, "loss": 1.6346, "step": 8030 }, { "epoch": 0.8576, "grad_norm": 0.9364313641955433, "learning_rate": 1.8181208863960714e-07, "loss": 1.6297, "step": 8040 }, { "epoch": 0.8586666666666667, "grad_norm": 0.8894450543624204, "learning_rate": 1.7915585909234272e-07, "loss": 1.6394, "step": 8050 }, { "epoch": 0.8597333333333333, "grad_norm": 0.9189009723613017, "learning_rate": 1.7651794318704488e-07, "loss": 1.6369, "step": 8060 }, { "epoch": 0.8608, "grad_norm": 0.9327727882036184, "learning_rate": 1.738983774986932e-07, "loss": 1.6439, "step": 8070 }, { "epoch": 0.8618666666666667, "grad_norm": 0.9560063788833466, "learning_rate": 1.712971983478392e-07, "loss": 1.638, "step": 8080 }, { "epoch": 0.8629333333333333, "grad_norm": 0.9284045907656194, "learning_rate": 1.687144418001042e-07, "loss": 1.6319, "step": 8090 }, { "epoch": 0.864, "grad_norm": 0.9258210414288431, "learning_rate": 1.6615014366567706e-07, "loss": 1.6349, "step": 8100 }, { "epoch": 0.8650666666666667, "grad_norm": 0.9328876015497495, "learning_rate": 1.6360433949881926e-07, "loss": 1.6404, "step": 8110 }, { "epoch": 0.8661333333333333, "grad_norm": 0.9414493897754301, "learning_rate": 1.6107706459737165e-07, "loss": 1.6496, "step": 8120 }, { "epoch": 0.8672, "grad_norm": 0.9399309066335874, "learning_rate": 1.585683540022644e-07, "loss": 1.6278, "step": 8130 }, { "epoch": 0.8682666666666666, "grad_norm": 0.9947616164939124, "learning_rate": 1.5607824249703216e-07, "loss": 1.6358, "step": 8140 }, { "epoch": 0.8693333333333333, "grad_norm": 0.9351085397634457, "learning_rate": 1.5360676460733104e-07, "loss": 1.6293, "step": 8150 }, { "epoch": 0.8704, "grad_norm": 0.9789991844840864, "learning_rate": 1.5115395460045977e-07, "loss": 1.6344, "step": 8160 }, { "epoch": 0.8714666666666666, "grad_norm": 0.936241368303234, "learning_rate": 1.4871984648488578e-07, "loss": 1.6434, "step": 8170 }, { "epoch": 0.8725333333333334, "grad_norm": 0.9138860297657939, "learning_rate": 1.4630447400977186e-07, "loss": 1.6299, "step": 8180 }, { "epoch": 0.8736, "grad_norm": 0.9305116284362921, "learning_rate": 1.4390787066450995e-07, "loss": 1.6346, "step": 8190 }, { "epoch": 0.8746666666666667, "grad_norm": 0.9526791811727968, "learning_rate": 1.415300696782556e-07, "loss": 1.6411, "step": 8200 }, { "epoch": 0.8757333333333334, "grad_norm": 0.9676298507893502, "learning_rate": 1.391711040194678e-07, "loss": 1.6339, "step": 8210 }, { "epoch": 0.8768, "grad_norm": 0.9646382807970393, "learning_rate": 1.3683100639545158e-07, "loss": 1.6244, "step": 8220 }, { "epoch": 0.8778666666666667, "grad_norm": 0.9580683560055407, "learning_rate": 1.3450980925190543e-07, "loss": 1.6332, "step": 8230 }, { "epoch": 0.8789333333333333, "grad_norm": 0.9449983374469059, "learning_rate": 1.3220754477247004e-07, "loss": 1.6289, "step": 8240 }, { "epoch": 0.88, "grad_norm": 0.9222011635859387, "learning_rate": 1.2992424487828254e-07, "loss": 1.6379, "step": 8250 }, { "epoch": 0.8810666666666667, "grad_norm": 0.9308080847148651, "learning_rate": 1.2765994122753477e-07, "loss": 1.6303, "step": 8260 }, { "epoch": 0.8821333333333333, "grad_norm": 0.9365570375379065, "learning_rate": 1.2541466521503336e-07, "loss": 1.6381, "step": 8270 }, { "epoch": 0.8832, "grad_norm": 0.9324156522745984, "learning_rate": 1.2318844797176444e-07, "loss": 1.6292, "step": 8280 }, { "epoch": 0.8842666666666666, "grad_norm": 0.9267614943548819, "learning_rate": 1.2098132036446265e-07, "loss": 1.6179, "step": 8290 }, { "epoch": 0.8853333333333333, "grad_norm": 0.9311544354974329, "learning_rate": 1.1879331299518304e-07, "loss": 1.635, "step": 8300 }, { "epoch": 0.8864, "grad_norm": 0.932075965813922, "learning_rate": 1.1662445620087609e-07, "loss": 1.6369, "step": 8310 }, { "epoch": 0.8874666666666666, "grad_norm": 0.9317147942454577, "learning_rate": 1.144747800529678e-07, "loss": 1.6308, "step": 8320 }, { "epoch": 0.8885333333333333, "grad_norm": 0.9515029226341447, "learning_rate": 1.1234431435694243e-07, "loss": 1.6333, "step": 8330 }, { "epoch": 0.8896, "grad_norm": 0.9350942810393381, "learning_rate": 1.1023308865192961e-07, "loss": 1.6308, "step": 8340 }, { "epoch": 0.8906666666666667, "grad_norm": 0.9491761877335818, "learning_rate": 1.0814113221029404e-07, "loss": 1.6253, "step": 8350 }, { "epoch": 0.8917333333333334, "grad_norm": 0.9266677015384425, "learning_rate": 1.0606847403722996e-07, "loss": 1.629, "step": 8360 }, { "epoch": 0.8928, "grad_norm": 0.9366880385575693, "learning_rate": 1.0401514287036018e-07, "loss": 1.62, "step": 8370 }, { "epoch": 0.8938666666666667, "grad_norm": 0.9381857415312465, "learning_rate": 1.0198116717933531e-07, "loss": 1.6332, "step": 8380 }, { "epoch": 0.8949333333333334, "grad_norm": 0.9220783699127031, "learning_rate": 9.996657516544067e-08, "loss": 1.6263, "step": 8390 }, { "epoch": 0.896, "grad_norm": 0.9470301487792465, "learning_rate": 9.79713947612052e-08, "loss": 1.6333, "step": 8400 }, { "epoch": 0.8970666666666667, "grad_norm": 0.9352120366980349, "learning_rate": 9.59956536300135e-08, "loss": 1.6389, "step": 8410 }, { "epoch": 0.8981333333333333, "grad_norm": 0.9113947996942928, "learning_rate": 9.403937916572259e-08, "loss": 1.6429, "step": 8420 }, { "epoch": 0.8992, "grad_norm": 0.8925131049642812, "learning_rate": 9.210259849228237e-08, "loss": 1.6387, "step": 8430 }, { "epoch": 0.9002666666666667, "grad_norm": 0.9600996952948123, "learning_rate": 9.018533846335896e-08, "loss": 1.6267, "step": 8440 }, { "epoch": 0.9013333333333333, "grad_norm": 0.9232966558571415, "learning_rate": 8.828762566196319e-08, "loss": 1.6279, "step": 8450 }, { "epoch": 0.9024, "grad_norm": 0.9560911929646494, "learning_rate": 8.640948640008112e-08, "loss": 1.633, "step": 8460 }, { "epoch": 0.9034666666666666, "grad_norm": 0.9501293649139604, "learning_rate": 8.455094671830976e-08, "loss": 1.6373, "step": 8470 }, { "epoch": 0.9045333333333333, "grad_norm": 0.9095732752853755, "learning_rate": 8.271203238549585e-08, "loss": 1.6329, "step": 8480 }, { "epoch": 0.9056, "grad_norm": 0.9202893558936088, "learning_rate": 8.089276889837893e-08, "loss": 1.6302, "step": 8490 }, { "epoch": 0.9066666666666666, "grad_norm": 1.0176712647143167, "learning_rate": 7.909318148123685e-08, "loss": 1.6354, "step": 8500 }, { "epoch": 0.9077333333333333, "grad_norm": 0.9692221815470302, "learning_rate": 7.73132950855373e-08, "loss": 1.6328, "step": 8510 }, { "epoch": 0.9088, "grad_norm": 0.9576308199080018, "learning_rate": 7.555313438959121e-08, "loss": 1.6272, "step": 8520 }, { "epoch": 0.9098666666666667, "grad_norm": 0.9128999367042134, "learning_rate": 7.381272379821025e-08, "loss": 1.6282, "step": 8530 }, { "epoch": 0.9109333333333334, "grad_norm": 0.9333943437345787, "learning_rate": 7.209208744236928e-08, "loss": 1.6415, "step": 8540 }, { "epoch": 0.912, "grad_norm": 0.9433897251073365, "learning_rate": 7.039124917887085e-08, "loss": 1.6352, "step": 8550 }, { "epoch": 0.9130666666666667, "grad_norm": 0.9659053748946873, "learning_rate": 6.871023259001507e-08, "loss": 1.6379, "step": 8560 }, { "epoch": 0.9141333333333334, "grad_norm": 0.9615236346909984, "learning_rate": 6.70490609832729e-08, "loss": 1.6352, "step": 8570 }, { "epoch": 0.9152, "grad_norm": 0.9519049666328206, "learning_rate": 6.540775739096172e-08, "loss": 1.6443, "step": 8580 }, { "epoch": 0.9162666666666667, "grad_norm": 0.9474855204667592, "learning_rate": 6.37863445699276e-08, "loss": 1.6215, "step": 8590 }, { "epoch": 0.9173333333333333, "grad_norm": 0.9161593103822747, "learning_rate": 6.21848450012284e-08, "loss": 1.6258, "step": 8600 }, { "epoch": 0.9184, "grad_norm": 0.9309047031192346, "learning_rate": 6.060328088982315e-08, "loss": 1.6326, "step": 8610 }, { "epoch": 0.9194666666666667, "grad_norm": 0.9681785505992061, "learning_rate": 5.904167416426315e-08, "loss": 1.6312, "step": 8620 }, { "epoch": 0.9205333333333333, "grad_norm": 0.9428849907311279, "learning_rate": 5.75000464763889e-08, "loss": 1.6388, "step": 8630 }, { "epoch": 0.9216, "grad_norm": 0.9489322476820965, "learning_rate": 5.597841920102947e-08, "loss": 1.6404, "step": 8640 }, { "epoch": 0.9226666666666666, "grad_norm": 0.970305859948567, "learning_rate": 5.447681343570543e-08, "loss": 1.6361, "step": 8650 }, { "epoch": 0.9237333333333333, "grad_norm": 0.9595081156420191, "learning_rate": 5.2995250000338224e-08, "loss": 1.6219, "step": 8660 }, { "epoch": 0.9248, "grad_norm": 0.9485522118690562, "learning_rate": 5.15337494369591e-08, "loss": 1.6356, "step": 8670 }, { "epoch": 0.9258666666666666, "grad_norm": 0.9382811704721642, "learning_rate": 5.009233200942648e-08, "loss": 1.6343, "step": 8680 }, { "epoch": 0.9269333333333334, "grad_norm": 0.9777015886162362, "learning_rate": 4.867101770314303e-08, "loss": 1.6347, "step": 8690 }, { "epoch": 0.928, "grad_norm": 0.9858586484940944, "learning_rate": 4.726982622478038e-08, "loss": 1.6338, "step": 8700 }, { "epoch": 0.9290666666666667, "grad_norm": 0.9482608855123564, "learning_rate": 4.5888777002004834e-08, "loss": 1.6379, "step": 8710 }, { "epoch": 0.9301333333333334, "grad_norm": 0.9258622637875238, "learning_rate": 4.452788918320777e-08, "loss": 1.6235, "step": 8720 }, { "epoch": 0.9312, "grad_norm": 0.9689013795231691, "learning_rate": 4.3187181637241e-08, "loss": 1.6406, "step": 8730 }, { "epoch": 0.9322666666666667, "grad_norm": 0.9352149102818589, "learning_rate": 4.186667295315483e-08, "loss": 1.6304, "step": 8740 }, { "epoch": 0.9333333333333333, "grad_norm": 0.9497368079567347, "learning_rate": 4.056638143994007e-08, "loss": 1.6443, "step": 8750 }, { "epoch": 0.9344, "grad_norm": 0.9280402103217801, "learning_rate": 3.9286325126274116e-08, "loss": 1.6282, "step": 8760 }, { "epoch": 0.9354666666666667, "grad_norm": 0.9278284934121408, "learning_rate": 3.802652176027177e-08, "loss": 1.6323, "step": 8770 }, { "epoch": 0.9365333333333333, "grad_norm": 0.940694244353313, "learning_rate": 3.6786988809238145e-08, "loss": 1.641, "step": 8780 }, { "epoch": 0.9376, "grad_norm": 0.9579364265963041, "learning_rate": 3.5567743459426983e-08, "loss": 1.6319, "step": 8790 }, { "epoch": 0.9386666666666666, "grad_norm": 0.9323896548734771, "learning_rate": 3.436880261580239e-08, "loss": 1.6333, "step": 8800 }, { "epoch": 0.9397333333333333, "grad_norm": 0.9107131542488688, "learning_rate": 3.3190182901804645e-08, "loss": 1.624, "step": 8810 }, { "epoch": 0.9408, "grad_norm": 0.9122602488087281, "learning_rate": 3.2031900659118926e-08, "loss": 1.6297, "step": 8820 }, { "epoch": 0.9418666666666666, "grad_norm": 0.9264648930574754, "learning_rate": 3.089397194744964e-08, "loss": 1.6334, "step": 8830 }, { "epoch": 0.9429333333333333, "grad_norm": 0.9502832962203557, "learning_rate": 2.9776412544297248e-08, "loss": 1.6275, "step": 8840 }, { "epoch": 0.944, "grad_norm": 0.951435670056853, "learning_rate": 2.867923794473931e-08, "loss": 1.6396, "step": 8850 }, { "epoch": 0.9450666666666667, "grad_norm": 0.9487271240519581, "learning_rate": 2.7602463361216635e-08, "loss": 1.6354, "step": 8860 }, { "epoch": 0.9461333333333334, "grad_norm": 0.9398160578682724, "learning_rate": 2.6546103723320948e-08, "loss": 1.636, "step": 8870 }, { "epoch": 0.9472, "grad_norm": 0.9371233663931642, "learning_rate": 2.551017367758923e-08, "loss": 1.6336, "step": 8880 }, { "epoch": 0.9482666666666667, "grad_norm": 0.9339462150836423, "learning_rate": 2.4494687587299557e-08, "loss": 1.6348, "step": 8890 }, { "epoch": 0.9493333333333334, "grad_norm": 0.8961585299434538, "learning_rate": 2.3499659532272734e-08, "loss": 1.6392, "step": 8900 }, { "epoch": 0.9504, "grad_norm": 0.9475292681399808, "learning_rate": 2.252510330867663e-08, "loss": 1.6279, "step": 8910 }, { "epoch": 0.9514666666666667, "grad_norm": 0.9276791810945861, "learning_rate": 2.157103242883518e-08, "loss": 1.6332, "step": 8920 }, { "epoch": 0.9525333333333333, "grad_norm": 0.9219578806810178, "learning_rate": 2.0637460121040508e-08, "loss": 1.6313, "step": 8930 }, { "epoch": 0.9536, "grad_norm": 0.9569383594988456, "learning_rate": 1.972439932937059e-08, "loss": 1.6263, "step": 8940 }, { "epoch": 0.9546666666666667, "grad_norm": 0.930427255076047, "learning_rate": 1.883186271350823e-08, "loss": 1.6261, "step": 8950 }, { "epoch": 0.9557333333333333, "grad_norm": 0.9324332154723478, "learning_rate": 1.7959862648567025e-08, "loss": 1.6387, "step": 8960 }, { "epoch": 0.9568, "grad_norm": 0.9201294027416077, "learning_rate": 1.710841122491885e-08, "loss": 1.632, "step": 8970 }, { "epoch": 0.9578666666666666, "grad_norm": 0.9464995644879638, "learning_rate": 1.6277520248026978e-08, "loss": 1.6316, "step": 8980 }, { "epoch": 0.9589333333333333, "grad_norm": 0.9395066915769571, "learning_rate": 1.546720123828105e-08, "loss": 1.6369, "step": 8990 }, { "epoch": 0.96, "grad_norm": 0.9433874788486356, "learning_rate": 1.4677465430839198e-08, "loss": 1.6354, "step": 9000 }, { "epoch": 0.9610666666666666, "grad_norm": 0.9415014511795468, "learning_rate": 1.3908323775470689e-08, "loss": 1.625, "step": 9010 }, { "epoch": 0.9621333333333333, "grad_norm": 0.8864833148590212, "learning_rate": 1.3159786936405016e-08, "loss": 1.6239, "step": 9020 }, { "epoch": 0.9632, "grad_norm": 0.9261157313988163, "learning_rate": 1.2431865292183375e-08, "loss": 1.6406, "step": 9030 }, { "epoch": 0.9642666666666667, "grad_norm": 0.9617086010062447, "learning_rate": 1.17245689355156e-08, "loss": 1.6325, "step": 9040 }, { "epoch": 0.9653333333333334, "grad_norm": 0.9243457951979348, "learning_rate": 1.1037907673139614e-08, "loss": 1.6284, "step": 9050 }, { "epoch": 0.9664, "grad_norm": 0.9655422606805738, "learning_rate": 1.0371891025685364e-08, "loss": 1.6333, "step": 9060 }, { "epoch": 0.9674666666666667, "grad_norm": 1.0009551957956027, "learning_rate": 9.726528227543275e-09, "loss": 1.6213, "step": 9070 }, { "epoch": 0.9685333333333334, "grad_norm": 0.9727380854894494, "learning_rate": 9.101828226735997e-09, "loss": 1.632, "step": 9080 }, { "epoch": 0.9696, "grad_norm": 0.9576261690535406, "learning_rate": 8.49779968479436e-09, "loss": 1.6458, "step": 9090 }, { "epoch": 0.9706666666666667, "grad_norm": 0.9321334175175461, "learning_rate": 7.914450976636956e-09, "loss": 1.6394, "step": 9100 }, { "epoch": 0.9717333333333333, "grad_norm": 0.9362305889549292, "learning_rate": 7.351790190454732e-09, "loss": 1.6338, "step": 9110 }, { "epoch": 0.9728, "grad_norm": 0.9464941846758462, "learning_rate": 6.80982512759809e-09, "loss": 1.6384, "step": 9120 }, { "epoch": 0.9738666666666667, "grad_norm": 0.96604353018059, "learning_rate": 6.288563302469463e-09, "loss": 1.6343, "step": 9130 }, { "epoch": 0.9749333333333333, "grad_norm": 0.9334970167408375, "learning_rate": 5.788011942418236e-09, "loss": 1.6334, "step": 9140 }, { "epoch": 0.976, "grad_norm": 0.9588561708099547, "learning_rate": 5.308177987641494e-09, "loss": 1.6276, "step": 9150 }, { "epoch": 0.9770666666666666, "grad_norm": 0.9642393589354289, "learning_rate": 4.8490680910870945e-09, "loss": 1.6286, "step": 9160 }, { "epoch": 0.9781333333333333, "grad_norm": 0.9386074607286888, "learning_rate": 4.410688618361747e-09, "loss": 1.6343, "step": 9170 }, { "epoch": 0.9792, "grad_norm": 0.9869238073293529, "learning_rate": 3.993045647642579e-09, "loss": 1.6257, "step": 9180 }, { "epoch": 0.9802666666666666, "grad_norm": 0.9123442625224786, "learning_rate": 3.5961449695928737e-09, "loss": 1.6261, "step": 9190 }, { "epoch": 0.9813333333333333, "grad_norm": 0.9782673976452867, "learning_rate": 3.2199920872821308e-09, "loss": 1.6411, "step": 9200 }, { "epoch": 0.9824, "grad_norm": 0.9411930295828181, "learning_rate": 2.8645922161092963e-09, "loss": 1.6279, "step": 9210 }, { "epoch": 0.9834666666666667, "grad_norm": 0.9841652547201047, "learning_rate": 2.52995028373082e-09, "loss": 1.6443, "step": 9220 }, { "epoch": 0.9845333333333334, "grad_norm": 0.9070051272958216, "learning_rate": 2.216070929991876e-09, "loss": 1.635, "step": 9230 }, { "epoch": 0.9856, "grad_norm": 0.9258258864356878, "learning_rate": 1.922958506862582e-09, "loss": 1.6301, "step": 9240 }, { "epoch": 0.9866666666666667, "grad_norm": 0.9197003736023448, "learning_rate": 1.650617078377381e-09, "loss": 1.6274, "step": 9250 }, { "epoch": 0.9877333333333334, "grad_norm": 0.9194979063676701, "learning_rate": 1.3990504205782516e-09, "loss": 1.6315, "step": 9260 }, { "epoch": 0.9888, "grad_norm": 0.9632920760204665, "learning_rate": 1.1682620214637506e-09, "loss": 1.6363, "step": 9270 }, { "epoch": 0.9898666666666667, "grad_norm": 0.9590108938487516, "learning_rate": 9.582550809385526e-10, "loss": 1.6355, "step": 9280 }, { "epoch": 0.9909333333333333, "grad_norm": 0.9011137657084308, "learning_rate": 7.69032510771317e-10, "loss": 1.6358, "step": 9290 }, { "epoch": 0.992, "grad_norm": 0.9596435749379726, "learning_rate": 6.005969345523888e-10, "loss": 1.6348, "step": 9300 }, { "epoch": 0.9930666666666667, "grad_norm": 0.9231085063304528, "learning_rate": 4.529506876588263e-10, "loss": 1.635, "step": 9310 }, { "epoch": 0.9941333333333333, "grad_norm": 0.9061587181921975, "learning_rate": 3.2609581722109483e-10, "loss": 1.6287, "step": 9320 }, { "epoch": 0.9952, "grad_norm": 0.9645007935557943, "learning_rate": 2.2003408209542165e-10, "loss": 1.6305, "step": 9330 }, { "epoch": 0.9962666666666666, "grad_norm": 0.996481296275473, "learning_rate": 1.3476695283881624e-10, "loss": 1.6346, "step": 9340 }, { "epoch": 0.9973333333333333, "grad_norm": 0.9345739738178087, "learning_rate": 7.02956116887532e-11, "loss": 1.6291, "step": 9350 }, { "epoch": 0.9984, "grad_norm": 0.9569806836560619, "learning_rate": 2.6620952547184994e-11, "loss": 1.6236, "step": 9360 }, { "epoch": 0.9994666666666666, "grad_norm": 0.9508786461938172, "learning_rate": 3.743580967885407e-12, "loss": 1.6365, "step": 9370 } ], "logging_steps": 10, "max_steps": 9375, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 1000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 859560710701056.0, "train_batch_size": 4, "trial_name": null, "trial_params": null }