Spaces:

Jaswanth-K
/

Inject-Arena

Sleeping

App Files Files Community

Inject-Arena / data /trainer_state.json

Jaswanth1210

feat: real continuous GRPO reward curve + 5-plot dashboard

723a54a 20 days ago

raw

history blame contribute delete

9.28 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.8846153846153846,
	"eval_steps": 500,
	"global_step": 300,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.815992283821106, "grad_norm": 0.5606712698936462, "kl": 0.0010647266870364546, "learning_rate": 4.85e-06, "loss": 0.0, "reward": 0.35125732421875, "reward_std": 0.2648651725612581, "step": 10},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.9604736685752868, "grad_norm": 0.5171220898628235, "kl": 0.0011729398160241545, "learning_rate": 4.683333333333334e-06, "loss": 0.0, "reward": 0.40764019042253496, "reward_std": 0.17985675712116062, "step": 20},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.9104243159294128, "grad_norm": 0.4607313275337219, "kl": 0.0011783698806539177, "learning_rate": 4.516666666666667e-06, "loss": 0.0, "reward": 0.44010458439588546, "reward_std": 0.13769991770386697, "step": 30},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.969189953804016, "grad_norm": 0.4067934453487396, "kl": 0.0011998867732472718, "learning_rate": 4.350000000000001e-06, "loss": 0.0, "reward": 0.35151714980602267, "reward_std": 0.24576794996391982, "step": 40},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.9274273991584778, "grad_norm": 0.4934895932674408, "kl": 0.0012555958470329641, "learning_rate": 4.183333333333334e-06, "loss": 0.0001, "reward": 0.4038022100925446, "reward_std": 0.1832426288165152, "step": 50},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.9387282371520995, "grad_norm": 0.4468133747577667, "kl": 0.0011738776694983244, "learning_rate": 4.0166666666666675e-06, "loss": 0.0, "reward": 0.42764838635921476, "reward_std": 0.17868221523240208, "step": 60},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.953136944770813, "grad_norm": 0.4782130718231201, "kl": 0.0012778348755091429, "learning_rate": 3.85e-06, "loss": 0.0001, "reward": 0.42511156052350996, "reward_std": 0.17557415845803917, "step": 70},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.9242305874824523, "grad_norm": 0.405318945646286, "kl": 0.001194650772958994, "learning_rate": 3.6833333333333338e-06, "loss": 0.0, "reward": 0.45836966335773466, "reward_std": 0.08651761077344418, "step": 80},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.9428999781608582, "grad_norm": 0.4022271931171417, "kl": 0.0012335920124314725, "learning_rate": 3.516666666666667e-06, "loss": 0.0, "reward": 0.41241501569747924, "reward_std": 0.17099605137482285, "step": 90},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.9781815171241761, "grad_norm": 0.5838158130645752, "kl": 0.0012129987473599613, "learning_rate": 3.3500000000000005e-06, "loss": 0.0, "reward": 0.43647838830947877, "reward_std": 0.10823700488545, "step": 100},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.905045747756958, "grad_norm": 0.49969571828842163, "kl": 0.001172242232132703, "learning_rate": 3.183333333333334e-06, "loss": 0.0, "reward": 0.421257284283638, "reward_std": 0.1775433700531721, "step": 110},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.8103225827217102, "grad_norm": 0.39737439155578613, "kl": 0.0012158414348959923, "learning_rate": 3.0166666666666673e-06, "loss": 0.0, "reward": 0.4162400811910629, "reward_std": 0.1982943659182638, "step": 120},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.9412933468818665, "grad_norm": 0.43670421838760376, "kl": 0.0012753157643601298, "learning_rate": 2.85e-06, "loss": 0.0, "reward": 0.42277545407414435, "reward_std": 0.12863800757331773, "step": 130},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 2.081157124042511, "grad_norm": 0.4861787259578705, "kl": 0.001189672143664211, "learning_rate": 2.683333333333333e-06, "loss": 0.0, "reward": 0.4377976506948471, "reward_std": 0.13848678541835396, "step": 140},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.8847409009933471, "grad_norm": 0.4172315299510956, "kl": 0.0011766654322855174, "learning_rate": 2.5166666666666666e-06, "loss": 0.0, "reward": 0.4044489860534668, "reward_std": 0.19700097786262633, "step": 150},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.8663759350776672, "grad_norm": 0.48844221234321594, "kl": 0.001186743495054543, "learning_rate": 2.35e-06, "loss": 0.0, "reward": 0.4114536210894585, "reward_std": 0.19735805406235157, "step": 160},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.8401546359062195, "grad_norm": 0.5397071838378906, "kl": 0.0012060238746926188, "learning_rate": 2.1833333333333333e-06, "loss": 0.0, "reward": 0.3596829131245613, "reward_std": 0.2709107628557831, "step": 170},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 2.010454976558685, "grad_norm": 0.4898085594177246, "kl": 0.001313156622927636, "learning_rate": 2.0166666666666667e-06, "loss": 0.0001, "reward": 0.44286571741104125, "reward_std": 0.12659375397488476, "step": 180},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.8933289170265197, "grad_norm": 0.5034167766571045, "kl": 0.0011727551929652691, "learning_rate": 1.85e-06, "loss": 0.0, "reward": 0.4496859073638916, "reward_std": 0.10374625506810844, "step": 190},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 2.0626172184944154, "grad_norm": 0.4539080560207367, "kl": 0.001192119298502803, "learning_rate": 1.6833333333333335e-06, "loss": 0.0, "reward": 0.4179358869791031, "reward_std": 0.1560436749830842, "step": 200},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.880604863166809, "grad_norm": 0.6169900298118591, "kl": 0.0012074578437022865, "learning_rate": 1.5166666666666668e-06, "loss": 0.0, "reward": 0.4125026807188988, "reward_std": 0.1475171072408557, "step": 210},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.990427851676941, "grad_norm": 0.45490357279777527, "kl": 0.00128009133040905, "learning_rate": 1.3500000000000002e-06, "loss": 0.0, "reward": 0.38316996693611144, "reward_std": 0.23595910002477466, "step": 220},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 2.0458497643470763, "grad_norm": 0.43172487616539, "kl": 0.0012732401723042131, "learning_rate": 1.1833333333333334e-06, "loss": 0.0001, "reward": 0.40560698211193086, "reward_std": 0.2011615281458944, "step": 230},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.7343410134315491, "grad_norm": 0.4585849642753601, "kl": 0.0011588319204747677, "learning_rate": 1.0166666666666667e-06, "loss": 0.0, "reward": 0.42542526721954343, "reward_std": 0.14774122480303048, "step": 240},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.7638697147369384, "grad_norm": 0.44499167799949646, "kl": 0.0011658653267659247, "learning_rate": 8.500000000000001e-07, "loss": 0.0, "reward": 0.45313174575567244, "reward_std": 0.11875660780351609, "step": 250},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.870304811000824, "grad_norm": 0.376966655254364, "kl": 0.0012461712001822888, "learning_rate": 6.833333333333334e-07, "loss": 0.0001, "reward": 0.38181952089071275, "reward_std": 0.20504730299580842, "step": 260},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.96729416847229, "grad_norm": 0.42242446541786194, "kl": 0.001205685967579484, "learning_rate": 5.166666666666667e-07, "loss": 0.0, "reward": 0.4080739825963974, "reward_std": 0.1575580119388178, "step": 270},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.954946517944336, "grad_norm": 0.43421992659568787, "kl": 0.001211190305184573, "learning_rate": 3.5000000000000004e-07, "loss": 0.0, "reward": 0.4413694769144058, "reward_std": 0.12148661121027544, "step": 280},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.9529494524002076, "grad_norm": 0.500391960144043, "kl": 0.0011669939733110369, "learning_rate": 1.8333333333333336e-07, "loss": 0.0, "reward": 0.3472424507141113, "reward_std": 0.26294066896662116, "step": 290},
	{"completions/clipped_ratio": 1.0, "completions/mean_length": 128.0, "entropy": 1.8553821921348572, "grad_norm": 0.4689144194126129, "kl": 0.0011424232041463255, "learning_rate": 1.666666666666667e-08, "loss": 0.0, "reward": 0.35593816787004473, "reward_std": 0.24476190477143972, "step": 300}
	],
	"logging_steps": 10,
	"max_steps": 300,
	"num_train_epochs": 3,
	"save_steps": 200,
	"train_batch_size": 4
	}