gemma-3-12b-pt_v2 / trainer_state.json

Add training logs and README

3d868e4 verified 4 months ago

16.9 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.129651240958348,
	"eval_steps": 500,
	"global_step": 99000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.020319627744419724,
	"grad_norm": 7.625,
	"learning_rate": 1.3531084924827305e-06,
	"loss": 2.0186,
	"step": 1000
	},
	{
	"epoch": 0.04063925548883945,
	"grad_norm": 6.03125,
	"learning_rate": 2.7075714479208997e-06,
	"loss": 1.4792,
	"step": 2000
	},
	{
	"epoch": 0.06095888323325917,
	"grad_norm": 7.4375,
	"learning_rate": 4.062034403359069e-06,
	"loss": 1.3553,
	"step": 3000
	},
	{
	"epoch": 0.0812785109776789,
	"grad_norm": 9.5625,
	"learning_rate": 5.416497358797237e-06,
	"loss": 1.2948,
	"step": 4000
	},
	{
	"epoch": 0.10159813872209861,
	"grad_norm": 4.875,
	"learning_rate": 6.7709603142354064e-06,
	"loss": 1.2579,
	"step": 5000
	},
	{
	"epoch": 0.12901283677725933,
	"grad_norm": 4.5625,
	"learning_rate": 8.598251397448762e-06,
	"loss": 1.2317,
	"step": 6000
	},
	{
	"epoch": 0.1505149762401359,
	"grad_norm": 5.34375,
	"learning_rate": 9.999999320225357e-06,
	"loss": 1.1979,
	"step": 7000
	},
	{
	"epoch": 0.17201711570301245,
	"grad_norm": 4.125,
	"learning_rate": 9.998533101166477e-06,
	"loss": 1.1811,
	"step": 8000
	},
	{
	"epoch": 0.193519255165889,
	"grad_norm": 3.859375,
	"learning_rate": 9.994258851483552e-06,
	"loss": 1.1605,
	"step": 9000
	},
	{
	"epoch": 0.21502139462876557,
	"grad_norm": 3.984375,
	"learning_rate": 9.987178972325833e-06,
	"loss": 1.1434,
	"step": 10000
	},
	{
	"epoch": 0.23652353409164212,
	"grad_norm": 3.84375,
	"learning_rate": 9.977297440963669e-06,
	"loss": 1.1348,
	"step": 11000
	},
	{
	"epoch": 0.25802567355451866,
	"grad_norm": 4.28125,
	"learning_rate": 9.964619808554195e-06,
	"loss": 1.1287,
	"step": 12000
	},
	{
	"epoch": 0.2795278130173952,
	"grad_norm": 3.4375,
	"learning_rate": 9.949153197022848e-06,
	"loss": 1.1108,
	"step": 13000
	},
	{
	"epoch": 0.3010299524802718,
	"grad_norm": 4.15625,
	"learning_rate": 9.930906295062477e-06,
	"loss": 1.1053,
	"step": 14000
	},
	{
	"epoch": 0.32253209194314836,
	"grad_norm": 3.75,
	"learning_rate": 9.909889353252299e-06,
	"loss": 1.0951,
	"step": 15000
	},
	{
	"epoch": 0.3440342314060249,
	"grad_norm": 3.78125,
	"learning_rate": 9.886114178299407e-06,
	"loss": 1.0883,
	"step": 16000
	},
	{
	"epoch": 0.36553637086890145,
	"grad_norm": 5.5,
	"learning_rate": 9.85959412640611e-06,
	"loss": 1.0752,
	"step": 17000
	},
	{
	"epoch": 0.387038510331778,
	"grad_norm": 3.796875,
	"learning_rate": 9.830344095766812e-06,
	"loss": 1.0785,
	"step": 18000
	},
	{
	"epoch": 0.4087230094920541,
	"grad_norm": 4.34375,
	"learning_rate": 9.798108131271342e-06,
	"loss": 1.0434,
	"step": 19000
	},
	{
	"epoch": 0.43023474683374113,
	"grad_norm": 3.828125,
	"learning_rate": 9.763411510439176e-06,
	"loss": 1.0456,
	"step": 20000
	},
	{
	"epoch": 0.45174648417542823,
	"grad_norm": 4.6875,
	"learning_rate": 9.72603664052252e-06,
	"loss": 1.0324,
	"step": 21000
	},
	{
	"epoch": 0.4732582215171153,
	"grad_norm": 3.78125,
	"learning_rate": 9.686004535706463e-06,
	"loss": 1.0406,
	"step": 22000
	},
	{
	"epoch": 0.4947699588588023,
	"grad_norm": 3.65625,
	"learning_rate": 9.64333770421811e-06,
	"loss": 1.0267,
	"step": 23000
	},
	{
	"epoch": 0.5162816962004894,
	"grad_norm": 6.53125,
	"learning_rate": 9.598060135671232e-06,
	"loss": 1.0287,
	"step": 24000
	},
	{
	"epoch": 0.5377934335421765,
	"grad_norm": 3.90625,
	"learning_rate": 9.550197287578003e-06,
	"loss": 1.0162,
	"step": 25000
	},
	{
	"epoch": 0.5593051708838636,
	"grad_norm": 5.78125,
	"learning_rate": 9.499776071035394e-06,
	"loss": 1.0197,
	"step": 26000
	},
	{
	"epoch": 0.5808169082255505,
	"grad_norm": 6.28125,
	"learning_rate": 9.446824835594304e-06,
	"loss": 1.0163,
	"step": 27000
	},
	{
	"epoch": 0.6023286455672376,
	"grad_norm": 3.90625,
	"learning_rate": 9.391373353319884e-06,
	"loss": 1.0169,
	"step": 28000
	},
	{
	"epoch": 0.6238403829089246,
	"grad_norm": 3.734375,
	"learning_rate": 9.333452802052072e-06,
	"loss": 1.0079,
	"step": 29000
	},
	{
	"epoch": 0.6453521202506117,
	"grad_norm": 4.0625,
	"learning_rate": 9.273095747875717e-06,
	"loss": 1.0061,
	"step": 30000
	},
	{
	"epoch": 0.6668638575922988,
	"grad_norm": 3.859375,
	"learning_rate": 9.210336126810147e-06,
	"loss": 1.0068,
	"step": 31000
	},
	{
	"epoch": 0.6883755949339858,
	"grad_norm": 3.859375,
	"learning_rate": 9.145209225728495e-06,
	"loss": 0.9983,
	"step": 32000
	},
	{
	"epoch": 0.7098873322756729,
	"grad_norm": 4.125,
	"learning_rate": 9.077751662517505e-06,
	"loss": 0.9988,
	"step": 33000
	},
	{
	"epoch": 0.73139906961736,
	"grad_norm": 4.0625,
	"learning_rate": 9.00800136548896e-06,
	"loss": 0.9865,
	"step": 34000
	},
	{
	"epoch": 0.752910806959047,
	"grad_norm": 4.0,
	"learning_rate": 8.93599755205432e-06,
	"loss": 0.9917,
	"step": 35000
	},
	{
	"epoch": 0.7744225443007341,
	"grad_norm": 4.5625,
	"learning_rate": 8.861780706674562e-06,
	"loss": 0.9929,
	"step": 36000
	},
	{
	"epoch": 0.7959342816424212,
	"grad_norm": 3.984375,
	"learning_rate": 8.785392558097612e-06,
	"loss": 0.9844,
	"step": 37000
	},
	{
	"epoch": 0.8174460189841082,
	"grad_norm": 4.5,
	"learning_rate": 8.706876055896176e-06,
	"loss": 0.9879,
	"step": 38000
	},
	{
	"epoch": 0.8389577563257953,
	"grad_norm": 3.953125,
	"learning_rate": 8.62627534631915e-06,
	"loss": 0.9858,
	"step": 39000
	},
	{
	"epoch": 0.8604694936674823,
	"grad_norm": 3.96875,
	"learning_rate": 8.5436357474702e-06,
	"loss": 0.9782,
	"step": 40000
	},
	{
	"epoch": 0.8819812310091694,
	"grad_norm": 4.34375,
	"learning_rate": 8.45900372382746e-06,
	"loss": 0.9819,
	"step": 41000
	},
	{
	"epoch": 0.9034929683508565,
	"grad_norm": 4.53125,
	"learning_rate": 8.372426860118667e-06,
	"loss": 0.9706,
	"step": 42000
	},
	{
	"epoch": 0.9250047056925434,
	"grad_norm": 4.375,
	"learning_rate": 8.283953834566449e-06,
	"loss": 0.9792,
	"step": 43000
	},
	{
	"epoch": 0.9465164430342305,
	"grad_norm": 8.875,
	"learning_rate": 8.193634391518774e-06,
	"loss": 0.9709,
	"step": 44000
	},
	{
	"epoch": 0.9680281803759176,
	"grad_norm": 4.90625,
	"learning_rate": 8.101519313479972e-06,
	"loss": 0.9686,
	"step": 45000
	},
	{
	"epoch": 0.9895399177176046,
	"grad_norm": 4.125,
	"learning_rate": 8.00766039255805e-06,
	"loss": 0.9668,
	"step": 46000
	},
	{
	"epoch": 1.011057032993627,
	"grad_norm": 5.03125,
	"learning_rate": 7.912110401344347e-06,
	"loss": 0.9404,
	"step": 47000
	},
	{
	"epoch": 1.0325687703353141,
	"grad_norm": 5.28125,
	"learning_rate": 7.814923063241916e-06,
	"loss": 0.9154,
	"step": 48000
	},
	{
	"epoch": 1.0540805076770012,
	"grad_norm": 5.9375,
	"learning_rate": 7.71615302225931e-06,
	"loss": 0.9131,
	"step": 49000
	},
	{
	"epoch": 1.0755922450186883,
	"grad_norm": 5.71875,
	"learning_rate": 7.615855812286735e-06,
	"loss": 0.9124,
	"step": 50000
	},
	{
	"epoch": 1.0971039823603754,
	"grad_norm": 5.28125,
	"learning_rate": 7.514087825871885e-06,
	"loss": 0.9144,
	"step": 51000
	},
	{
	"epoch": 1.1186157197020625,
	"grad_norm": 5.53125,
	"learning_rate": 7.410906282512981e-06,
	"loss": 0.9054,
	"step": 52000
	},
	{
	"epoch": 1.1401274570437494,
	"grad_norm": 5.875,
	"learning_rate": 7.306369196486855e-06,
	"loss": 0.9162,
	"step": 53000
	},
	{
	"epoch": 1.1616176826480948,
	"grad_norm": 6.15625,
	"learning_rate": 7.20053534423017e-06,
	"loss": 0.9378,
	"step": 54000
	},
	{
	"epoch": 1.183129419989782,
	"grad_norm": 5.375,
	"learning_rate": 7.093464231292111e-06,
	"loss": 0.9335,
	"step": 55000
	},
	{
	"epoch": 1.204641157331469,
	"grad_norm": 5.09375,
	"learning_rate": 6.985216058877125e-06,
	"loss": 0.937,
	"step": 56000
	},
	{
	"epoch": 1.2261528946731561,
	"grad_norm": 5.25,
	"learning_rate": 6.875851689996526e-06,
	"loss": 0.9275,
	"step": 57000
	},
	{
	"epoch": 1.247664632014843,
	"grad_norm": 5.3125,
	"learning_rate": 6.765432615248008e-06,
	"loss": 0.9307,
	"step": 58000
	},
	{
	"epoch": 1.26917636935653,
	"grad_norm": 5.78125,
	"learning_rate": 6.6540209182422785e-06,
	"loss": 0.9338,
	"step": 59000
	},
	{
	"epoch": 1.2906881066982172,
	"grad_norm": 5.90625,
	"learning_rate": 6.5416792406962785e-06,
	"loss": 0.9314,
	"step": 60000
	},
	{
	"epoch": 1.3121998440399043,
	"grad_norm": 5.4375,
	"learning_rate": 6.4284707472126e-06,
	"loss": 0.9287,
	"step": 61000
	},
	{
	"epoch": 1.3337115813815914,
	"grad_norm": 4.875,
	"learning_rate": 6.3144590897649084e-06,
	"loss": 0.9294,
	"step": 62000
	},
	{
	"epoch": 1.3552233187232785,
	"grad_norm": 6.0,
	"learning_rate": 6.199708371909345e-06,
	"loss": 0.9383,
	"step": 63000
	},
	{
	"epoch": 1.3767350560649654,
	"grad_norm": 5.25,
	"learning_rate": 6.0842831127420196e-06,
	"loss": 0.9376,
	"step": 64000
	},
	{
	"epoch": 1.3982467934066525,
	"grad_norm": 5.71875,
	"learning_rate": 5.968248210622858e-06,
	"loss": 0.8902,
	"step": 65000
	},
	{
	"epoch": 1.4197585307483396,
	"grad_norm": 5.5,
	"learning_rate": 5.851668906686223e-06,
	"loss": 0.8611,
	"step": 66000
	},
	{
	"epoch": 1.4412702680900267,
	"grad_norm": 5.15625,
	"learning_rate": 5.734610748158791e-06,
	"loss": 0.8572,
	"step": 67000
	},
	{
	"epoch": 1.4627820054317136,
	"grad_norm": 5.78125,
	"learning_rate": 5.617139551505345e-06,
	"loss": 0.8541,
	"step": 68000
	},
	{
	"epoch": 1.4842937427734006,
	"grad_norm": 6.21875,
	"learning_rate": 5.499321365423167e-06,
	"loss": 0.8559,
	"step": 69000
	},
	{
	"epoch": 1.5058054801150877,
	"grad_norm": 6.28125,
	"learning_rate": 5.381222433705873e-06,
	"loss": 0.858,
	"step": 70000
	},
	{
	"epoch": 1.5273172174567748,
	"grad_norm": 6.3125,
	"learning_rate": 5.262909157997551e-06,
	"loss": 0.8509,
	"step": 71000
	},
	{
	"epoch": 1.548828954798462,
	"grad_norm": 6.21875,
	"learning_rate": 5.144448060458137e-06,
	"loss": 0.859,
	"step": 72000
	},
	{
	"epoch": 1.570340692140149,
	"grad_norm": 5.375,
	"learning_rate": 5.025905746361047e-06,
	"loss": 0.8419,
	"step": 73000
	},
	{
	"epoch": 1.5918524294818361,
	"grad_norm": 6.125,
	"learning_rate": 4.907348866644061e-06,
	"loss": 0.8584,
	"step": 74000
	},
	{
	"epoch": 1.6133641668235232,
	"grad_norm": 5.71875,
	"learning_rate": 4.78884408043454e-06,
	"loss": 0.8502,
	"step": 75000
	},
	{
	"epoch": 1.6348759041652101,
	"grad_norm": 6.875,
	"learning_rate": 4.670458017570048e-06,
	"loss": 0.8572,
	"step": 76000
	},
	{
	"epoch": 1.6563876415068972,
	"grad_norm": 9.1875,
	"learning_rate": 4.552257241135419e-06,
	"loss": 0.8482,
	"step": 77000
	},
	{
	"epoch": 1.6778993788485843,
	"grad_norm": 6.46875,
	"learning_rate": 4.434308210037382e-06,
	"loss": 0.8481,
	"step": 78000
	},
	{
	"epoch": 1.6994111161902712,
	"grad_norm": 6.1875,
	"learning_rate": 4.316677241637737e-06,
	"loss": 0.8472,
	"step": 79000
	},
	{
	"epoch": 1.7209228535319583,
	"grad_norm": 5.75,
	"learning_rate": 4.1994304744661385e-06,
	"loss": 0.8417,
	"step": 80000
	},
	{
	"epoch": 1.7424345908736454,
	"grad_norm": 5.75,
	"learning_rate": 4.082633831033406e-06,
	"loss": 0.8441,
	"step": 81000
	},
	{
	"epoch": 1.7639463282153325,
	"grad_norm": 6.6875,
	"learning_rate": 3.966352980766305e-06,
	"loss": 0.8517,
	"step": 82000
	},
	{
	"epoch": 1.7854580655570196,
	"grad_norm": 6.09375,
	"learning_rate": 3.850653303084625e-06,
	"loss": 0.8474,
	"step": 83000
	},
	{
	"epoch": 1.8069698028987067,
	"grad_norm": 7.25,
	"learning_rate": 3.7355998506413144e-06,
	"loss": 0.8467,
	"step": 84000
	},
	{
	"epoch": 1.8284815402403938,
	"grad_norm": 7.4375,
	"learning_rate": 3.6212573127463314e-06,
	"loss": 0.8484,
	"step": 85000
	},
	{
	"epoch": 1.8499932775820809,
	"grad_norm": 5.8125,
	"learning_rate": 3.507689978994806e-06,
	"loss": 0.8439,
	"step": 86000
	},
	{
	"epoch": 1.8715050149237678,
	"grad_norm": 6.09375,
	"learning_rate": 3.3949617031199265e-06,
	"loss": 0.8488,
	"step": 87000
	},
	{
	"epoch": 1.8930167522654548,
	"grad_norm": 6.3125,
	"learning_rate": 3.283135867090894e-06,
	"loss": 0.8412,
	"step": 88000
	},
	{
	"epoch": 1.914528489607142,
	"grad_norm": 6.5,
	"learning_rate": 3.1722753454761366e-06,
	"loss": 0.8476,
	"step": 89000
	},
	{
	"epoch": 1.9360402269488288,
	"grad_norm": 6.8125,
	"learning_rate": 3.062442470091809e-06,
	"loss": 0.8548,
	"step": 90000
	},
	{
	"epoch": 1.957551964290516,
	"grad_norm": 6.90625,
	"learning_rate": 2.953698994955446e-06,
	"loss": 0.8512,
	"step": 91000
	},
	{
	"epoch": 1.979063701632203,
	"grad_norm": 6.5,
	"learning_rate": 2.8461060615644975e-06,
	"loss": 0.841,
	"step": 92000
	},
	{
	"epoch": 2.0005808169082258,
	"grad_norm": 8.0,
	"learning_rate": 2.7397241645192564e-06,
	"loss": 0.8516,
	"step": 93000
	},
	{
	"epoch": 2.0220925542499124,
	"grad_norm": 7.0,
	"learning_rate": 2.6346131175095015e-06,
	"loss": 0.8362,
	"step": 94000
	},
	{
	"epoch": 2.0436042915915995,
	"grad_norm": 10.0,
	"learning_rate": 2.530832019683983e-06,
	"loss": 0.8358,
	"step": 95000
	},
	{
	"epoch": 2.0651160289332866,
	"grad_norm": 6.4375,
	"learning_rate": 2.4284392224216755e-06,
	"loss": 0.8403,
	"step": 96000
	},
	{
	"epoch": 2.0866277662749737,
	"grad_norm": 5.03125,
	"learning_rate": 2.327492296523444e-06,
	"loss": 0.8289,
	"step": 97000
	},
	{
	"epoch": 2.108139503616661,
	"grad_norm": 6.6875,
	"learning_rate": 2.228047999842622e-06,
	"loss": 0.8394,
	"step": 98000
	},
	{
	"epoch": 2.129651240958348,
	"grad_norm": 9.0,
	"learning_rate": 2.130162245372649e-06,
	"loss": 0.8294,
	"step": 99000
	}
	],
	"logging_steps": 1000,
	"max_steps": 139461,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 5.112776494664294e+19,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}