{ "best_metric": null, "best_model_checkpoint": null, "epoch": 13.16, "eval_steps": 500, "global_step": 500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.13333333333333333, "grad_norm": 1.4048924446105957, "learning_rate": 1e-05, "loss": 0.7666, "step": 5 }, { "epoch": 0.26666666666666666, "grad_norm": 0.779962420463562, "learning_rate": 2e-05, "loss": 0.8227, "step": 10 }, { "epoch": 0.4, "grad_norm": 0.6772681474685669, "learning_rate": 3e-05, "loss": 0.8927, "step": 15 }, { "epoch": 0.5333333333333333, "grad_norm": 0.3558235168457031, "learning_rate": 4e-05, "loss": 0.7447, "step": 20 }, { "epoch": 0.6666666666666666, "grad_norm": 0.8107256889343262, "learning_rate": 5e-05, "loss": 0.7544, "step": 25 }, { "epoch": 0.8, "grad_norm": 0.3786630630493164, "learning_rate": 6e-05, "loss": 0.6356, "step": 30 }, { "epoch": 0.9333333333333333, "grad_norm": 0.46198970079421997, "learning_rate": 7e-05, "loss": 0.7019, "step": 35 }, { "epoch": 1.0533333333333332, "grad_norm": 0.42797496914863586, "learning_rate": 8e-05, "loss": 0.5952, "step": 40 }, { "epoch": 1.1866666666666668, "grad_norm": 0.49653759598731995, "learning_rate": 9e-05, "loss": 0.6872, "step": 45 }, { "epoch": 1.32, "grad_norm": 0.7207635641098022, "learning_rate": 0.0001, "loss": 0.5546, "step": 50 }, { "epoch": 1.4533333333333334, "grad_norm": 0.7673625946044922, "learning_rate": 0.00011000000000000002, "loss": 0.5981, "step": 55 }, { "epoch": 1.5866666666666667, "grad_norm": 1.0735150575637817, "learning_rate": 0.00012, "loss": 0.6894, "step": 60 }, { "epoch": 1.72, "grad_norm": 0.6854905486106873, "learning_rate": 0.00013000000000000002, "loss": 0.6419, "step": 65 }, { "epoch": 1.8533333333333335, "grad_norm": 0.6493762731552124, "learning_rate": 0.00014, "loss": 0.5509, "step": 70 }, { "epoch": 1.9866666666666668, "grad_norm": 0.33443498611450195, "learning_rate": 0.00015000000000000001, "loss": 0.5289, "step": 75 }, { "epoch": 2.1066666666666665, "grad_norm": 0.274117648601532, "learning_rate": 0.00016, "loss": 0.5782, "step": 80 }, { "epoch": 2.24, "grad_norm": 0.6764754056930542, "learning_rate": 0.00017, "loss": 0.5571, "step": 85 }, { "epoch": 2.3733333333333335, "grad_norm": 0.5324050784111023, "learning_rate": 0.00018, "loss": 0.4483, "step": 90 }, { "epoch": 2.506666666666667, "grad_norm": 0.5388379096984863, "learning_rate": 0.00019, "loss": 0.3829, "step": 95 }, { "epoch": 2.64, "grad_norm": 0.5039830207824707, "learning_rate": 0.0002, "loss": 0.5479, "step": 100 }, { "epoch": 2.7733333333333334, "grad_norm": 1.287005066871643, "learning_rate": 0.0001999229036240723, "loss": 0.5669, "step": 105 }, { "epoch": 2.9066666666666667, "grad_norm": 0.7880101799964905, "learning_rate": 0.0001996917333733128, "loss": 0.4038, "step": 110 }, { "epoch": 3.026666666666667, "grad_norm": 0.8152766227722168, "learning_rate": 0.00019930684569549264, "loss": 0.439, "step": 115 }, { "epoch": 3.16, "grad_norm": 0.660615861415863, "learning_rate": 0.00019876883405951377, "loss": 0.2819, "step": 120 }, { "epoch": 3.2933333333333334, "grad_norm": 0.9776943325996399, "learning_rate": 0.00019807852804032305, "loss": 0.3127, "step": 125 }, { "epoch": 3.4266666666666667, "grad_norm": 0.8148934245109558, "learning_rate": 0.00019723699203976766, "loss": 0.3398, "step": 130 }, { "epoch": 3.56, "grad_norm": 1.9235339164733887, "learning_rate": 0.00019624552364536473, "loss": 0.3509, "step": 135 }, { "epoch": 3.6933333333333334, "grad_norm": 1.205474853515625, "learning_rate": 0.00019510565162951537, "loss": 0.4016, "step": 140 }, { "epoch": 3.8266666666666667, "grad_norm": 0.6102964282035828, "learning_rate": 0.00019381913359224842, "loss": 0.2612, "step": 145 }, { "epoch": 3.96, "grad_norm": 0.9407595992088318, "learning_rate": 0.0001923879532511287, "loss": 0.3213, "step": 150 }, { "epoch": 4.08, "grad_norm": 0.7562478184700012, "learning_rate": 0.00019081431738250814, "loss": 0.2491, "step": 155 }, { "epoch": 4.213333333333333, "grad_norm": 0.791593074798584, "learning_rate": 0.0001891006524188368, "loss": 0.1952, "step": 160 }, { "epoch": 4.346666666666667, "grad_norm": 1.438049077987671, "learning_rate": 0.00018724960070727972, "loss": 0.2156, "step": 165 }, { "epoch": 4.48, "grad_norm": 0.6928703784942627, "learning_rate": 0.00018526401643540922, "loss": 0.1574, "step": 170 }, { "epoch": 4.613333333333333, "grad_norm": 1.160597801208496, "learning_rate": 0.00018314696123025454, "loss": 0.2015, "step": 175 }, { "epoch": 4.746666666666667, "grad_norm": 1.8100343942642212, "learning_rate": 0.00018090169943749476, "loss": 0.2436, "step": 180 }, { "epoch": 4.88, "grad_norm": 0.8268325924873352, "learning_rate": 0.00017853169308807448, "loss": 0.2164, "step": 185 }, { "epoch": 5.0, "grad_norm": 2.3288047313690186, "learning_rate": 0.0001760405965600031, "loss": 0.2071, "step": 190 }, { "epoch": 5.133333333333334, "grad_norm": 1.0968126058578491, "learning_rate": 0.00017343225094356855, "loss": 0.1335, "step": 195 }, { "epoch": 5.266666666666667, "grad_norm": 0.9570348858833313, "learning_rate": 0.00017071067811865476, "loss": 0.0857, "step": 200 }, { "epoch": 5.4, "grad_norm": 1.313133955001831, "learning_rate": 0.0001678800745532942, "loss": 0.1254, "step": 205 }, { "epoch": 5.533333333333333, "grad_norm": 1.1976529359817505, "learning_rate": 0.00016494480483301836, "loss": 0.1338, "step": 210 }, { "epoch": 5.666666666666667, "grad_norm": 1.234705924987793, "learning_rate": 0.00016190939493098344, "loss": 0.1117, "step": 215 }, { "epoch": 5.8, "grad_norm": 0.729626476764679, "learning_rate": 0.00015877852522924732, "loss": 0.0908, "step": 220 }, { "epoch": 5.933333333333334, "grad_norm": 0.6159748435020447, "learning_rate": 0.00015555702330196023, "loss": 0.0859, "step": 225 }, { "epoch": 6.053333333333334, "grad_norm": 0.6365455389022827, "learning_rate": 0.0001522498564715949, "loss": 0.0752, "step": 230 }, { "epoch": 6.1866666666666665, "grad_norm": 0.6191051006317139, "learning_rate": 0.00014886212414969553, "loss": 0.0496, "step": 235 }, { "epoch": 6.32, "grad_norm": 0.835532009601593, "learning_rate": 0.00014539904997395468, "loss": 0.0642, "step": 240 }, { "epoch": 6.453333333333333, "grad_norm": 0.9120854139328003, "learning_rate": 0.0001418659737537428, "loss": 0.0552, "step": 245 }, { "epoch": 6.586666666666667, "grad_norm": 1.309117078781128, "learning_rate": 0.000138268343236509, "loss": 0.0523, "step": 250 }, { "epoch": 6.72, "grad_norm": 0.5572851896286011, "learning_rate": 0.0001346117057077493, "loss": 0.048, "step": 255 }, { "epoch": 6.8533333333333335, "grad_norm": 0.6184096336364746, "learning_rate": 0.00013090169943749476, "loss": 0.0481, "step": 260 }, { "epoch": 6.986666666666666, "grad_norm": 0.8938915729522705, "learning_rate": 0.00012714404498650743, "loss": 0.0531, "step": 265 }, { "epoch": 7.1066666666666665, "grad_norm": 0.33379557728767395, "learning_rate": 0.00012334453638559057, "loss": 0.0439, "step": 270 }, { "epoch": 7.24, "grad_norm": 0.6010497212409973, "learning_rate": 0.00011950903220161285, "loss": 0.0223, "step": 275 }, { "epoch": 7.373333333333333, "grad_norm": 0.3853472173213959, "learning_rate": 0.0001156434465040231, "loss": 0.0269, "step": 280 }, { "epoch": 7.506666666666667, "grad_norm": 0.6208595037460327, "learning_rate": 0.00011175373974578378, "loss": 0.0235, "step": 285 }, { "epoch": 7.64, "grad_norm": 0.5462209582328796, "learning_rate": 0.0001078459095727845, "loss": 0.0293, "step": 290 }, { "epoch": 7.773333333333333, "grad_norm": 0.7936717867851257, "learning_rate": 0.00010392598157590688, "loss": 0.0221, "step": 295 }, { "epoch": 7.906666666666666, "grad_norm": 0.6207137703895569, "learning_rate": 0.0001, "loss": 0.0244, "step": 300 }, { "epoch": 8.026666666666667, "grad_norm": 0.30363529920578003, "learning_rate": 9.607401842409317e-05, "loss": 0.0192, "step": 305 }, { "epoch": 8.16, "grad_norm": 0.19360464811325073, "learning_rate": 9.215409042721552e-05, "loss": 0.0112, "step": 310 }, { "epoch": 8.293333333333333, "grad_norm": 0.18830697238445282, "learning_rate": 8.824626025421626e-05, "loss": 0.0144, "step": 315 }, { "epoch": 8.426666666666666, "grad_norm": 0.2931200861930847, "learning_rate": 8.435655349597689e-05, "loss": 0.0121, "step": 320 }, { "epoch": 8.56, "grad_norm": 0.20501606166362762, "learning_rate": 8.049096779838719e-05, "loss": 0.0087, "step": 325 }, { "epoch": 8.693333333333333, "grad_norm": 0.28209131956100464, "learning_rate": 7.66554636144095e-05, "loss": 0.0097, "step": 330 }, { "epoch": 8.826666666666666, "grad_norm": 0.39202964305877686, "learning_rate": 7.285595501349258e-05, "loss": 0.0107, "step": 335 }, { "epoch": 8.96, "grad_norm": 0.8103435039520264, "learning_rate": 6.909830056250527e-05, "loss": 0.0101, "step": 340 }, { "epoch": 9.08, "grad_norm": 0.3019217252731323, "learning_rate": 6.538829429225069e-05, "loss": 0.0076, "step": 345 }, { "epoch": 9.213333333333333, "grad_norm": 0.1781633049249649, "learning_rate": 6.173165676349103e-05, "loss": 0.0049, "step": 350 }, { "epoch": 9.346666666666668, "grad_norm": 0.2368287593126297, "learning_rate": 5.8134026246257225e-05, "loss": 0.0044, "step": 355 }, { "epoch": 9.48, "grad_norm": 0.1763859987258911, "learning_rate": 5.4600950026045326e-05, "loss": 0.0065, "step": 360 }, { "epoch": 9.613333333333333, "grad_norm": 0.2830829918384552, "learning_rate": 5.113787585030454e-05, "loss": 0.0043, "step": 365 }, { "epoch": 9.746666666666666, "grad_norm": 0.17518676817417145, "learning_rate": 4.7750143528405126e-05, "loss": 0.0047, "step": 370 }, { "epoch": 9.88, "grad_norm": 0.10696718096733093, "learning_rate": 4.444297669803981e-05, "loss": 0.0044, "step": 375 }, { "epoch": 10.0, "grad_norm": 0.18552780151367188, "learning_rate": 4.12214747707527e-05, "loss": 0.0049, "step": 380 }, { "epoch": 10.133333333333333, "grad_norm": 0.07388182729482651, "learning_rate": 3.8090605069016595e-05, "loss": 0.0031, "step": 385 }, { "epoch": 10.266666666666667, "grad_norm": 0.15940183401107788, "learning_rate": 3.5055195166981645e-05, "loss": 0.0029, "step": 390 }, { "epoch": 10.4, "grad_norm": 0.07301970571279526, "learning_rate": 3.211992544670582e-05, "loss": 0.0023, "step": 395 }, { "epoch": 10.533333333333333, "grad_norm": 0.18599063158035278, "learning_rate": 2.9289321881345254e-05, "loss": 0.003, "step": 400 }, { "epoch": 10.666666666666666, "grad_norm": 0.08508925139904022, "learning_rate": 2.6567749056431467e-05, "loss": 0.003, "step": 405 }, { "epoch": 10.8, "grad_norm": 0.051980435848236084, "learning_rate": 2.3959403439996907e-05, "loss": 0.0031, "step": 410 }, { "epoch": 10.933333333333334, "grad_norm": 0.09313967078924179, "learning_rate": 2.146830691192553e-05, "loss": 0.0032, "step": 415 }, { "epoch": 11.053333333333333, "grad_norm": 0.04667476937174797, "learning_rate": 1.9098300562505266e-05, "loss": 0.0028, "step": 420 }, { "epoch": 11.186666666666667, "grad_norm": 0.05424318090081215, "learning_rate": 1.6853038769745467e-05, "loss": 0.0025, "step": 425 }, { "epoch": 11.32, "grad_norm": 0.06408827006816864, "learning_rate": 1.4735983564590783e-05, "loss": 0.0026, "step": 430 }, { "epoch": 11.453333333333333, "grad_norm": 0.06944520026445389, "learning_rate": 1.2750399292720283e-05, "loss": 0.0029, "step": 435 }, { "epoch": 11.586666666666666, "grad_norm": 0.05019211769104004, "learning_rate": 1.0899347581163221e-05, "loss": 0.0023, "step": 440 }, { "epoch": 11.72, "grad_norm": 0.042886920273303986, "learning_rate": 9.185682617491863e-06, "loss": 0.0024, "step": 445 }, { "epoch": 11.853333333333333, "grad_norm": 0.07555174082517624, "learning_rate": 7.612046748871327e-06, "loss": 0.0024, "step": 450 }, { "epoch": 11.986666666666666, "grad_norm": 0.05007031559944153, "learning_rate": 6.180866407751595e-06, "loss": 0.0024, "step": 455 }, { "epoch": 12.106666666666667, "grad_norm": 0.044344205409288406, "learning_rate": 4.8943483704846475e-06, "loss": 0.0023, "step": 460 }, { "epoch": 12.24, "grad_norm": 0.09977416694164276, "learning_rate": 3.7544763546352834e-06, "loss": 0.0024, "step": 465 }, { "epoch": 12.373333333333333, "grad_norm": 0.051654569804668427, "learning_rate": 2.7630079602323442e-06, "loss": 0.0024, "step": 470 }, { "epoch": 12.506666666666666, "grad_norm": 0.06595998257398605, "learning_rate": 1.921471959676957e-06, "loss": 0.0024, "step": 475 }, { "epoch": 12.64, "grad_norm": 0.05855317786335945, "learning_rate": 1.231165940486234e-06, "loss": 0.0025, "step": 480 }, { "epoch": 12.773333333333333, "grad_norm": 0.05403890460729599, "learning_rate": 6.931543045073708e-07, "loss": 0.0024, "step": 485 }, { "epoch": 12.906666666666666, "grad_norm": 0.05437196418642998, "learning_rate": 3.0826662668720364e-07, "loss": 0.0028, "step": 490 }, { "epoch": 13.026666666666667, "grad_norm": 0.035325415432453156, "learning_rate": 7.709637592770991e-08, "loss": 0.0015, "step": 495 }, { "epoch": 13.16, "grad_norm": 0.046797532588243484, "learning_rate": 0.0, "loss": 0.0026, "step": 500 } ], "logging_steps": 5, "max_steps": 500, "num_input_tokens_seen": 0, "num_train_epochs": 14, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 4.609006707373056e+16, "train_batch_size": 1, "trial_name": null, "trial_params": null }