qwen-debug-stop-wmdp / trainer_state.json

Upload folder using huggingface_hub

4988b30 verified about 2 months ago

19.3 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 1068,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.028089887640449437,
	"grad_norm": 44.3452575996642,
	"learning_rate": 8.411214953271029e-07,
	"loss": 4.2299,
	"step": 10
	},
	{
	"epoch": 0.056179775280898875,
	"grad_norm": 16.696144417512347,
	"learning_rate": 1.7757009345794394e-06,
	"loss": 3.4728,
	"step": 20
	},
	{
	"epoch": 0.08426966292134831,
	"grad_norm": 5.245647070749203,
	"learning_rate": 2.7102803738317757e-06,
	"loss": 2.2396,
	"step": 30
	},
	{
	"epoch": 0.11235955056179775,
	"grad_norm": 3.747589322083775,
	"learning_rate": 3.6448598130841123e-06,
	"loss": 1.9973,
	"step": 40
	},
	{
	"epoch": 0.1404494382022472,
	"grad_norm": 3.43796713948135,
	"learning_rate": 4.579439252336449e-06,
	"loss": 1.8521,
	"step": 50
	},
	{
	"epoch": 0.16853932584269662,
	"grad_norm": 3.514480101837343,
	"learning_rate": 5.514018691588785e-06,
	"loss": 1.8285,
	"step": 60
	},
	{
	"epoch": 0.19662921348314608,
	"grad_norm": 3.392412234015579,
	"learning_rate": 6.448598130841122e-06,
	"loss": 1.7364,
	"step": 70
	},
	{
	"epoch": 0.2247191011235955,
	"grad_norm": 4.233842511487955,
	"learning_rate": 7.383177570093458e-06,
	"loss": 1.6781,
	"step": 80
	},
	{
	"epoch": 0.25280898876404495,
	"grad_norm": 3.715743054676569,
	"learning_rate": 8.317757009345795e-06,
	"loss": 1.6416,
	"step": 90
	},
	{
	"epoch": 0.2808988764044944,
	"grad_norm": 3.143134814755476,
	"learning_rate": 9.252336448598132e-06,
	"loss": 1.6064,
	"step": 100
	},
	{
	"epoch": 0.3089887640449438,
	"grad_norm": 2.7477799274995416,
	"learning_rate": 9.999893131079397e-06,
	"loss": 1.4984,
	"step": 110
	},
	{
	"epoch": 0.33707865168539325,
	"grad_norm": 2.3802092180915273,
	"learning_rate": 9.996153198516951e-06,
	"loss": 1.5675,
	"step": 120
	},
	{
	"epoch": 0.3651685393258427,
	"grad_norm": 2.672410802886858,
	"learning_rate": 9.987074387433024e-06,
	"loss": 1.4511,
	"step": 130
	},
	{
	"epoch": 0.39325842696629215,
	"grad_norm": 2.624658269919838,
	"learning_rate": 9.972666399425538e-06,
	"loss": 1.4829,
	"step": 140
	},
	{
	"epoch": 0.42134831460674155,
	"grad_norm": 2.222084135278492,
	"learning_rate": 9.952944630839371e-06,
	"loss": 1.5174,
	"step": 150
	},
	{
	"epoch": 0.449438202247191,
	"grad_norm": 2.373569909234205,
	"learning_rate": 9.92793015631386e-06,
	"loss": 1.4802,
	"step": 160
	},
	{
	"epoch": 0.47752808988764045,
	"grad_norm": 2.6373847502517203,
	"learning_rate": 9.897649706262474e-06,
	"loss": 1.4245,
	"step": 170
	},
	{
	"epoch": 0.5056179775280899,
	"grad_norm": 2.849217346030171,
	"learning_rate": 9.862135638308763e-06,
	"loss": 1.4519,
	"step": 180
	},
	{
	"epoch": 0.5337078651685393,
	"grad_norm": 2.8063076239177334,
	"learning_rate": 9.821425902709072e-06,
	"loss": 1.3854,
	"step": 190
	},
	{
	"epoch": 0.5617977528089888,
	"grad_norm": 2.4489682971962914,
	"learning_rate": 9.775564001798973e-06,
	"loss": 1.3687,
	"step": 200
	},
	{
	"epoch": 0.5898876404494382,
	"grad_norm": 2.6550254325393516,
	"learning_rate": 9.724598943506762e-06,
	"loss": 1.3376,
	"step": 210
	},
	{
	"epoch": 0.6179775280898876,
	"grad_norm": 2.5844459484825153,
	"learning_rate": 9.6685851889837e-06,
	"loss": 1.3022,
	"step": 220
	},
	{
	"epoch": 0.6460674157303371,
	"grad_norm": 2.8049982042093564,
	"learning_rate": 9.607582594406941e-06,
	"loss": 1.3088,
	"step": 230
	},
	{
	"epoch": 0.6741573033707865,
	"grad_norm": 2.4864422239085604,
	"learning_rate": 9.541656347017345e-06,
	"loss": 1.2908,
	"step": 240
	},
	{
	"epoch": 0.702247191011236,
	"grad_norm": 2.964748175555427,
	"learning_rate": 9.470876895460545e-06,
	"loss": 1.2868,
	"step": 250
	},
	{
	"epoch": 0.7303370786516854,
	"grad_norm": 2.604536489470611,
	"learning_rate": 9.395319874505661e-06,
	"loss": 1.277,
	"step": 260
	},
	{
	"epoch": 0.7584269662921348,
	"grad_norm": 2.5620862270285185,
	"learning_rate": 9.315066024222163e-06,
	"loss": 1.2643,
	"step": 270
	},
	{
	"epoch": 0.7865168539325843,
	"grad_norm": 2.653270358757971,
	"learning_rate": 9.230201103701201e-06,
	"loss": 1.205,
	"step": 280
	},
	{
	"epoch": 0.8146067415730337,
	"grad_norm": 2.5808237804954923,
	"learning_rate": 9.140815799413624e-06,
	"loss": 1.2222,
	"step": 290
	},
	{
	"epoch": 0.8426966292134831,
	"grad_norm": 2.898027686306709,
	"learning_rate": 9.047005628302617e-06,
	"loss": 1.1676,
	"step": 300
	},
	{
	"epoch": 0.8707865168539326,
	"grad_norm": 3.518431492195722,
	"learning_rate": 8.948870835714491e-06,
	"loss": 1.1993,
	"step": 310
	},
	{
	"epoch": 0.898876404494382,
	"grad_norm": 2.925246568058356,
	"learning_rate": 8.846516288276743e-06,
	"loss": 1.1115,
	"step": 320
	},
	{
	"epoch": 0.9269662921348315,
	"grad_norm": 2.9427782034508527,
	"learning_rate": 8.740051361837786e-06,
	"loss": 1.1041,
	"step": 330
	},
	{
	"epoch": 0.9550561797752809,
	"grad_norm": 2.5514195156882518,
	"learning_rate": 8.629589824588158e-06,
	"loss": 1.143,
	"step": 340
	},
	{
	"epoch": 0.9831460674157303,
	"grad_norm": 3.015436546535006,
	"learning_rate": 8.515249715488085e-06,
	"loss": 1.0505,
	"step": 350
	},
	{
	"epoch": 1.0112359550561798,
	"grad_norm": 3.2863183728567975,
	"learning_rate": 8.397153218131297e-06,
	"loss": 0.8597,
	"step": 360
	},
	{
	"epoch": 1.0393258426966292,
	"grad_norm": 3.2434695923935033,
	"learning_rate": 8.2754265301799e-06,
	"loss": 0.6543,
	"step": 370
	},
	{
	"epoch": 1.0674157303370786,
	"grad_norm": 4.0641803528122145,
	"learning_rate": 8.150199728509844e-06,
	"loss": 0.6335,
	"step": 380
	},
	{
	"epoch": 1.095505617977528,
	"grad_norm": 3.2752657889372885,
	"learning_rate": 8.02160663021103e-06,
	"loss": 0.6254,
	"step": 390
	},
	{
	"epoch": 1.1235955056179776,
	"grad_norm": 3.326866921104294,
	"learning_rate": 7.889784649590673e-06,
	"loss": 0.6102,
	"step": 400
	},
	{
	"epoch": 1.151685393258427,
	"grad_norm": 3.4005649282793846,
	"learning_rate": 7.754874651332671e-06,
	"loss": 0.5881,
	"step": 410
	},
	{
	"epoch": 1.1797752808988764,
	"grad_norm": 3.138502719677173,
	"learning_rate": 7.617020799969895e-06,
	"loss": 0.5858,
	"step": 420
	},
	{
	"epoch": 1.2078651685393258,
	"grad_norm": 3.343328236660075,
	"learning_rate": 7.476370405830293e-06,
	"loss": 0.6526,
	"step": 430
	},
	{
	"epoch": 1.2359550561797752,
	"grad_norm": 3.435537024900103,
	"learning_rate": 7.333073767621385e-06,
	"loss": 0.5759,
	"step": 440
	},
	{
	"epoch": 1.2640449438202248,
	"grad_norm": 3.0857557861079643,
	"learning_rate": 7.18728401182139e-06,
	"loss": 0.5646,
	"step": 450
	},
	{
	"epoch": 1.2921348314606742,
	"grad_norm": 3.5691357734753724,
	"learning_rate": 7.039156929048603e-06,
	"loss": 0.5574,
	"step": 460
	},
	{
	"epoch": 1.3202247191011236,
	"grad_norm": 3.449734373780758,
	"learning_rate": 6.888850807583875e-06,
	"loss": 0.5308,
	"step": 470
	},
	{
	"epoch": 1.348314606741573,
	"grad_norm": 3.8917107638385215,
	"learning_rate": 6.736526264224101e-06,
	"loss": 0.5457,
	"step": 480
	},
	{
	"epoch": 1.3764044943820224,
	"grad_norm": 3.530441704545947,
	"learning_rate": 6.582346072647455e-06,
	"loss": 0.5429,
	"step": 490
	},
	{
	"epoch": 1.404494382022472,
	"grad_norm": 3.2288633404653657,
	"learning_rate": 6.426474989473785e-06,
	"loss": 0.5216,
	"step": 500
	},
	{
	"epoch": 1.4325842696629214,
	"grad_norm": 4.041005860018691,
	"learning_rate": 6.2690795782060535e-06,
	"loss": 0.4646,
	"step": 510
	},
	{
	"epoch": 1.4606741573033708,
	"grad_norm": 4.067173197200558,
	"learning_rate": 6.1103280312409355e-06,
	"loss": 0.4637,
	"step": 520
	},
	{
	"epoch": 1.4887640449438202,
	"grad_norm": 3.326339667248253,
	"learning_rate": 5.950389990138774e-06,
	"loss": 0.4783,
	"step": 530
	},
	{
	"epoch": 1.5168539325842696,
	"grad_norm": 3.83419253395647,
	"learning_rate": 5.789436364344998e-06,
	"loss": 0.4588,
	"step": 540
	},
	{
	"epoch": 1.5449438202247192,
	"grad_norm": 3.139254395895648,
	"learning_rate": 5.627639148556638e-06,
	"loss": 0.4374,
	"step": 550
	},
	{
	"epoch": 1.5730337078651684,
	"grad_norm": 3.9341533967371403,
	"learning_rate": 5.465171238929173e-06,
	"loss": 0.455,
	"step": 560
	},
	{
	"epoch": 1.601123595505618,
	"grad_norm": 2.9583490118609435,
	"learning_rate": 5.30220624832007e-06,
	"loss": 0.3843,
	"step": 570
	},
	{
	"epoch": 1.6292134831460674,
	"grad_norm": 3.7095899864138606,
	"learning_rate": 5.13891832076646e-06,
	"loss": 0.4115,
	"step": 580
	},
	{
	"epoch": 1.6573033707865168,
	"grad_norm": 3.2360479692986153,
	"learning_rate": 4.9754819453951986e-06,
	"loss": 0.3814,
	"step": 590
	},
	{
	"epoch": 1.6853932584269664,
	"grad_norm": 4.383809713794338,
	"learning_rate": 4.8120717699641535e-06,
	"loss": 0.3791,
	"step": 600
	},
	{
	"epoch": 1.7134831460674156,
	"grad_norm": 3.4036732065921993,
	"learning_rate": 4.648862414233998e-06,
	"loss": 0.3517,
	"step": 610
	},
	{
	"epoch": 1.7415730337078652,
	"grad_norm": 3.8998605138651325,
	"learning_rate": 4.486028283369901e-06,
	"loss": 0.3603,
	"step": 620
	},
	{
	"epoch": 1.7696629213483146,
	"grad_norm": 3.6292532967844835,
	"learning_rate": 4.323743381572557e-06,
	"loss": 0.3184,
	"step": 630
	},
	{
	"epoch": 1.797752808988764,
	"grad_norm": 4.428693489997381,
	"learning_rate": 4.162181126137658e-06,
	"loss": 0.3807,
	"step": 640
	},
	{
	"epoch": 1.8258426966292136,
	"grad_norm": 3.955306267340941,
	"learning_rate": 4.001514162142559e-06,
	"loss": 0.3074,
	"step": 650
	},
	{
	"epoch": 1.8539325842696628,
	"grad_norm": 3.5747162718635197,
	"learning_rate": 3.84191417795811e-06,
	"loss": 0.3111,
	"step": 660
	},
	{
	"epoch": 1.8820224719101124,
	"grad_norm": 3.9923845873645742,
	"learning_rate": 3.6835517217828442e-06,
	"loss": 0.3005,
	"step": 670
	},
	{
	"epoch": 1.9101123595505618,
	"grad_norm": 3.65999276518314,
	"learning_rate": 3.5265960193955338e-06,
	"loss": 0.2559,
	"step": 680
	},
	{
	"epoch": 1.9382022471910112,
	"grad_norm": 3.7068235753264123,
	"learning_rate": 3.3712147933208885e-06,
	"loss": 0.2737,
	"step": 690
	},
	{
	"epoch": 1.9662921348314608,
	"grad_norm": 4.090893668780354,
	"learning_rate": 3.2175740836016323e-06,
	"loss": 0.231,
	"step": 700
	},
	{
	"epoch": 1.99438202247191,
	"grad_norm": 3.90282406209805,
	"learning_rate": 3.065838070368469e-06,
	"loss": 0.2496,
	"step": 710
	},
	{
	"epoch": 2.0224719101123596,
	"grad_norm": 2.796358555674757,
	"learning_rate": 2.9161688983975466e-06,
	"loss": 0.1056,
	"step": 720
	},
	{
	"epoch": 2.050561797752809,
	"grad_norm": 1.840479273209187,
	"learning_rate": 2.7687265038429074e-06,
	"loss": 0.063,
	"step": 730
	},
	{
	"epoch": 2.0786516853932584,
	"grad_norm": 2.5759762149420924,
	"learning_rate": 2.6236684433290494e-06,
	"loss": 0.0596,
	"step": 740
	},
	{
	"epoch": 2.106741573033708,
	"grad_norm": 1.9486659149321488,
	"learning_rate": 2.4811497255862634e-06,
	"loss": 0.0632,
	"step": 750
	},
	{
	"epoch": 2.134831460674157,
	"grad_norm": 2.2514702517323926,
	"learning_rate": 2.341322645808642e-06,
	"loss": 0.0658,
	"step": 760
	},
	{
	"epoch": 2.162921348314607,
	"grad_norm": 2.1967246146223345,
	"learning_rate": 2.204336622911753e-06,
	"loss": 0.0604,
	"step": 770
	},
	{
	"epoch": 2.191011235955056,
	"grad_norm": 2.486502088549764,
	"learning_rate": 2.070338039863917e-06,
	"loss": 0.0627,
	"step": 780
	},
	{
	"epoch": 2.2191011235955056,
	"grad_norm": 1.687530407531317,
	"learning_rate": 1.9394700872616856e-06,
	"loss": 0.0581,
	"step": 790
	},
	{
	"epoch": 2.247191011235955,
	"grad_norm": 2.6462802513977897,
	"learning_rate": 1.8118726103166706e-06,
	"loss": 0.061,
	"step": 800
	},
	{
	"epoch": 2.2752808988764044,
	"grad_norm": 2.016987283249722,
	"learning_rate": 1.6876819594172578e-06,
	"loss": 0.0619,
	"step": 810
	},
	{
	"epoch": 2.303370786516854,
	"grad_norm": 2.0842256218362163,
	"learning_rate": 1.5670308444248777e-06,
	"loss": 0.0584,
	"step": 820
	},
	{
	"epoch": 2.331460674157303,
	"grad_norm": 1.8494552666391486,
	"learning_rate": 1.4500481928605304e-06,
	"loss": 0.0506,
	"step": 830
	},
	{
	"epoch": 2.359550561797753,
	"grad_norm": 2.2638744740418755,
	"learning_rate": 1.3368590121331166e-06,
	"loss": 0.0544,
	"step": 840
	},
	{
	"epoch": 2.3876404494382024,
	"grad_norm": 2.2496173269208737,
	"learning_rate": 1.2275842559567947e-06,
	"loss": 0.0508,
	"step": 850
	},
	{
	"epoch": 2.4157303370786516,
	"grad_norm": 1.5930060349264639,
	"learning_rate": 1.1223406951000936e-06,
	"loss": 0.0501,
	"step": 860
	},
	{
	"epoch": 2.443820224719101,
	"grad_norm": 1.8725457508959784,
	"learning_rate": 1.021240792604929e-06,
	"loss": 0.048,
	"step": 870
	},
	{
	"epoch": 2.4719101123595504,
	"grad_norm": 1.9419600970183988,
	"learning_rate": 9.243925836088386e-07,
	"loss": 0.045,
	"step": 880
	},
	{
	"epoch": 2.5,
	"grad_norm": 1.8713563535913174,
	"learning_rate": 8.318995598988649e-07,
	"loss": 0.0461,
	"step": 890
	},
	{
	"epoch": 2.5280898876404496,
	"grad_norm": 1.995760237288878,
	"learning_rate": 7.438605593204562e-07,
	"loss": 0.0481,
	"step": 900
	},
	{
	"epoch": 2.556179775280899,
	"grad_norm": 2.109074394489752,
	"learning_rate": 6.603696601595577e-07,
	"loss": 0.0396,
	"step": 910
	},
	{
	"epoch": 2.5842696629213484,
	"grad_norm": 3.85749040186571,
	"learning_rate": 5.8151608061076e-07,
	"loss": 0.05,
	"step": 920
	},
	{
	"epoch": 2.6123595505617976,
	"grad_norm": 2.4295027083907246,
	"learning_rate": 5.073840834389293e-07,
	"loss": 0.0448,
	"step": 930
	},
	{
	"epoch": 2.640449438202247,
	"grad_norm": 3.3753210520643893,
	"learning_rate": 4.380528859361954e-07,
	"loss": 0.0502,
	"step": 940
	},
	{
	"epoch": 2.668539325842697,
	"grad_norm": 1.4432588529836197,
	"learning_rate": 3.735965752705256e-07,
	"loss": 0.0448,
	"step": 950
	},
	{
	"epoch": 2.696629213483146,
	"grad_norm": 2.3912332708241815,
	"learning_rate": 3.1408402931634163e-07,
	"loss": 0.0446,
	"step": 960
	},
	{
	"epoch": 2.7247191011235956,
	"grad_norm": 1.6107794104662452,
	"learning_rate": 2.595788430517637e-07,
	"loss": 0.038,
	"step": 970
	},
	{
	"epoch": 2.752808988764045,
	"grad_norm": 1.6211044234112233,
	"learning_rate": 2.1013926060116042e-07,
	"loss": 0.0389,
	"step": 980
	},
	{
	"epoch": 2.7808988764044944,
	"grad_norm": 2.5135992092458546,
	"learning_rate": 1.6581811299560212e-07,
	"loss": 0.0417,
	"step": 990
	},
	{
	"epoch": 2.808988764044944,
	"grad_norm": 1.392970025455271,
	"learning_rate": 1.2666276171773073e-07,
	"loss": 0.0396,
	"step": 1000
	},
	{
	"epoch": 2.837078651685393,
	"grad_norm": 1.8357472070480059,
	"learning_rate": 9.271504809138854e-08,
	"loss": 0.0377,
	"step": 1010
	},
	{
	"epoch": 2.865168539325843,
	"grad_norm": 1.5659783547206103,
	"learning_rate": 6.401124857006502e-08,
	"loss": 0.0369,
	"step": 1020
	},
	{
	"epoch": 2.893258426966292,
	"grad_norm": 1.6270134391199909,
	"learning_rate": 4.058203597195831e-08,
	"loss": 0.0334,
	"step": 1030
	},
	{
	"epoch": 2.9213483146067416,
	"grad_norm": 1.5836178259212397,
	"learning_rate": 2.2452446703067897e-08,
	"loss": 0.0332,
	"step": 1040
	},
	{
	"epoch": 2.949438202247191,
	"grad_norm": 1.5726583876755116,
	"learning_rate": 9.641854003346607e-09,
	"loss": 0.0341,
	"step": 1050
	},
	{
	"epoch": 2.9775280898876404,
	"grad_norm": 1.720292896166018,
	"learning_rate": 2.1639472444956454e-09,
	"loss": 0.0336,
	"step": 1060
	},
	{
	"epoch": 3.0,
	"step": 1068,
	"total_flos": 49945662455808.0,
	"train_loss": 0.6897849787152215,
	"train_runtime": 5575.3809,
	"train_samples_per_second": 12.252,
	"train_steps_per_second": 0.192
	}
	],
	"logging_steps": 10,
	"max_steps": 1068,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 49945662455808.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}