grun_10 / trainer_state.json

Upload 8 files

b0b3518 verified 6 months ago

41.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 40.0,
	"eval_steps": 500,
	"global_step": 1000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.36,
	"forget_cf_outputs.loss": -2.683056592941284,
	"forget_loss": 2.683056592941284,
	"gated_loss": 0.50390625,
	"retain_loss": 0.2806420624256134,
	"step": 9,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 0.4,
	"grad_norm": 12.48087215423584,
	"learning_rate": 0.00396,
	"loss": 10.0439,
	"step": 10
	},
	{
	"epoch": 0.76,
	"forget_cf_outputs.loss": -2.3281075954437256,
	"forget_loss": 2.3281075954437256,
	"gated_loss": 0.447265625,
	"retain_loss": 0.30973613262176514,
	"step": 19,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 0.8,
	"grad_norm": 14.701934814453125,
	"learning_rate": 0.00392,
	"loss": 6.7906,
	"step": 20
	},
	{
	"epoch": 1.16,
	"forget_cf_outputs.loss": -1.9086629152297974,
	"forget_loss": 1.9086629152297974,
	"gated_loss": 0.12890625,
	"retain_loss": 0.25592905282974243,
	"step": 29,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 1.2,
	"grad_norm": 6.575860500335693,
	"learning_rate": 0.0038799999999999998,
	"loss": 5.0776,
	"step": 30
	},
	{
	"epoch": 1.56,
	"forget_cf_outputs.loss": -1.8418117761611938,
	"forget_loss": 1.8418117761611938,
	"gated_loss": 0.26953125,
	"retain_loss": 0.2785710096359253,
	"step": 39,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 1.6,
	"grad_norm": 16.85633087158203,
	"learning_rate": 0.00384,
	"loss": 4.3983,
	"step": 40
	},
	{
	"epoch": 1.96,
	"forget_cf_outputs.loss": -1.5592725276947021,
	"forget_loss": 1.5592725276947021,
	"gated_loss": 0.09228515625,
	"retain_loss": 0.2128174901008606,
	"step": 49,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 2.0,
	"grad_norm": 6.894440650939941,
	"learning_rate": 0.0038,
	"loss": 3.8443,
	"step": 50
	},
	{
	"epoch": 2.36,
	"forget_cf_outputs.loss": -1.8075147867202759,
	"forget_loss": 1.8075147867202759,
	"gated_loss": 0.2099609375,
	"retain_loss": 0.20431871712207794,
	"step": 59,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 2.4,
	"grad_norm": 12.495519638061523,
	"learning_rate": 0.00376,
	"loss": 3.1611,
	"step": 60
	},
	{
	"epoch": 2.76,
	"forget_cf_outputs.loss": -1.648992896080017,
	"forget_loss": 1.648992896080017,
	"gated_loss": 0.08447265625,
	"retain_loss": 0.23505711555480957,
	"step": 69,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 2.8,
	"grad_norm": 4.081427574157715,
	"learning_rate": 0.00372,
	"loss": 3.1274,
	"step": 70
	},
	{
	"epoch": 3.16,
	"forget_cf_outputs.loss": -1.7901757955551147,
	"forget_loss": 1.7901757955551147,
	"gated_loss": 0.07861328125,
	"retain_loss": 0.19908858835697174,
	"step": 79,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 3.2,
	"grad_norm": 5.019917011260986,
	"learning_rate": 0.00368,
	"loss": 2.9064,
	"step": 80
	},
	{
	"epoch": 3.56,
	"forget_cf_outputs.loss": -1.6832540035247803,
	"forget_loss": 1.6832540035247803,
	"gated_loss": 0.1572265625,
	"retain_loss": 0.31473198533058167,
	"step": 89,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 3.6,
	"grad_norm": 25.354310989379883,
	"learning_rate": 0.00364,
	"loss": 2.7559,
	"step": 90
	},
	{
	"epoch": 3.96,
	"forget_cf_outputs.loss": -1.5529592037200928,
	"forget_loss": 1.5529592037200928,
	"gated_loss": 0.0859375,
	"retain_loss": 0.21396659314632416,
	"step": 99,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 4.0,
	"grad_norm": 13.010091781616211,
	"learning_rate": 0.0036000000000000003,
	"loss": 4.6507,
	"step": 100
	},
	{
	"epoch": 4.36,
	"forget_cf_outputs.loss": -1.4749836921691895,
	"forget_loss": 1.4749836921691895,
	"gated_loss": 0.0751953125,
	"retain_loss": 0.3322639465332031,
	"step": 109,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 4.4,
	"grad_norm": 19.40593147277832,
	"learning_rate": 0.0035600000000000002,
	"loss": 2.4806,
	"step": 110
	},
	{
	"epoch": 4.76,
	"forget_cf_outputs.loss": -1.586808443069458,
	"forget_loss": 1.586808443069458,
	"gated_loss": 0.044677734375,
	"retain_loss": 0.20972619950771332,
	"step": 119,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 4.8,
	"grad_norm": 3.9136083126068115,
	"learning_rate": 0.00352,
	"loss": 2.3875,
	"step": 120
	},
	{
	"epoch": 5.16,
	"forget_cf_outputs.loss": -1.3828651905059814,
	"forget_loss": 1.3828651905059814,
	"gated_loss": 0.0308837890625,
	"retain_loss": 0.2637632191181183,
	"step": 129,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 5.2,
	"grad_norm": 2.676300525665283,
	"learning_rate": 0.00348,
	"loss": 2.3602,
	"step": 130
	},
	{
	"epoch": 5.5600000000000005,
	"forget_cf_outputs.loss": -1.353875756263733,
	"forget_loss": 1.353875756263733,
	"gated_loss": 0.03076171875,
	"retain_loss": 0.2234891653060913,
	"step": 139,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 5.6,
	"grad_norm": 2.6358110904693604,
	"learning_rate": 0.00344,
	"loss": 2.14,
	"step": 140
	},
	{
	"epoch": 5.96,
	"forget_cf_outputs.loss": -1.4662984609603882,
	"forget_loss": 1.4662984609603882,
	"gated_loss": 0.044921875,
	"retain_loss": 0.22434721887111664,
	"step": 149,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 6.0,
	"grad_norm": 5.245201587677002,
	"learning_rate": 0.0034,
	"loss": 3.8186,
	"step": 150
	},
	{
	"epoch": 6.36,
	"forget_cf_outputs.loss": -1.3115544319152832,
	"forget_loss": 1.3115544319152832,
	"gated_loss": 0.0208740234375,
	"retain_loss": 0.27212581038475037,
	"step": 159,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 6.4,
	"grad_norm": 2.41806697845459,
	"learning_rate": 0.00336,
	"loss": 2.0658,
	"step": 160
	},
	{
	"epoch": 6.76,
	"forget_cf_outputs.loss": -1.389865517616272,
	"forget_loss": 1.389865517616272,
	"gated_loss": 0.0157470703125,
	"retain_loss": 0.22109903395175934,
	"step": 169,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 6.8,
	"grad_norm": 1.6761163473129272,
	"learning_rate": 0.00332,
	"loss": 2.0436,
	"step": 170
	},
	{
	"epoch": 7.16,
	"forget_cf_outputs.loss": -1.4114540815353394,
	"forget_loss": 1.4114540815353394,
	"gated_loss": 0.01953125,
	"retain_loss": 0.28868579864501953,
	"step": 179,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 7.2,
	"grad_norm": 2.110581159591675,
	"learning_rate": 0.00328,
	"loss": 1.9892,
	"step": 180
	},
	{
	"epoch": 7.5600000000000005,
	"forget_cf_outputs.loss": -1.5645467042922974,
	"forget_loss": 1.5645467042922974,
	"gated_loss": 0.0135498046875,
	"retain_loss": 0.18681125342845917,
	"step": 189,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 7.6,
	"grad_norm": 2.8026249408721924,
	"learning_rate": 0.0032400000000000003,
	"loss": 1.9509,
	"step": 190
	},
	{
	"epoch": 7.96,
	"forget_cf_outputs.loss": -1.368323802947998,
	"forget_loss": 1.368323802947998,
	"gated_loss": 0.0142822265625,
	"retain_loss": 0.23697978258132935,
	"step": 199,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 8.0,
	"grad_norm": 1.9209412336349487,
	"learning_rate": 0.0032,
	"loss": 1.8948,
	"step": 200
	},
	{
	"epoch": 8.36,
	"forget_cf_outputs.loss": -1.199570894241333,
	"forget_loss": 1.199570894241333,
	"gated_loss": 0.00933837890625,
	"retain_loss": 0.25221553444862366,
	"step": 209,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 8.4,
	"grad_norm": 1.5988783836364746,
	"learning_rate": 0.00316,
	"loss": 1.8466,
	"step": 210
	},
	{
	"epoch": 8.76,
	"forget_cf_outputs.loss": -1.2841148376464844,
	"forget_loss": 1.2841148376464844,
	"gated_loss": 0.009765625,
	"retain_loss": 0.24307847023010254,
	"step": 219,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 8.8,
	"grad_norm": 1.7333821058273315,
	"learning_rate": 0.0031200000000000004,
	"loss": 1.817,
	"step": 220
	},
	{
	"epoch": 9.16,
	"forget_cf_outputs.loss": -1.0533504486083984,
	"forget_loss": 1.0533504486083984,
	"gated_loss": 0.005462646484375,
	"retain_loss": 0.22837677597999573,
	"step": 229,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 9.2,
	"grad_norm": 1.5669026374816895,
	"learning_rate": 0.0030800000000000003,
	"loss": 1.7654,
	"step": 230
	},
	{
	"epoch": 9.56,
	"forget_cf_outputs.loss": -1.2518203258514404,
	"forget_loss": 1.2518203258514404,
	"gated_loss": 0.0107421875,
	"retain_loss": 0.27540236711502075,
	"step": 239,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 9.6,
	"grad_norm": 1.7850066423416138,
	"learning_rate": 0.00304,
	"loss": 1.7462,
	"step": 240
	},
	{
	"epoch": 9.96,
	"forget_cf_outputs.loss": -1.2480342388153076,
	"forget_loss": 1.2480342388153076,
	"gated_loss": 0.0079345703125,
	"retain_loss": 0.2164781242609024,
	"step": 249,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 10.0,
	"grad_norm": 1.8285338878631592,
	"learning_rate": 0.003,
	"loss": 1.8334,
	"step": 250
	},
	{
	"epoch": 10.36,
	"forget_cf_outputs.loss": -1.14595365524292,
	"forget_loss": 1.14595365524292,
	"gated_loss": 0.006072998046875,
	"retain_loss": 0.22983184456825256,
	"step": 259,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 10.4,
	"grad_norm": 1.8580724000930786,
	"learning_rate": 0.00296,
	"loss": 1.6553,
	"step": 260
	},
	{
	"epoch": 10.76,
	"forget_cf_outputs.loss": -1.2968733310699463,
	"forget_loss": 1.2968733310699463,
	"gated_loss": 0.008544921875,
	"retain_loss": 0.20906659960746765,
	"step": 269,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 10.8,
	"grad_norm": 1.6227186918258667,
	"learning_rate": 0.00292,
	"loss": 1.7339,
	"step": 270
	},
	{
	"epoch": 11.16,
	"forget_cf_outputs.loss": -1.21259605884552,
	"forget_loss": 1.21259605884552,
	"gated_loss": 0.00750732421875,
	"retain_loss": 0.23951691389083862,
	"step": 279,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 11.2,
	"grad_norm": 1.3491921424865723,
	"learning_rate": 0.0028799999999999997,
	"loss": 1.6642,
	"step": 280
	},
	{
	"epoch": 11.56,
	"forget_cf_outputs.loss": -1.203460454940796,
	"forget_loss": 1.203460454940796,
	"gated_loss": 0.0087890625,
	"retain_loss": 0.23031194508075714,
	"step": 289,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 11.6,
	"grad_norm": 2.027022123336792,
	"learning_rate": 0.00284,
	"loss": 1.6413,
	"step": 290
	},
	{
	"epoch": 11.96,
	"forget_cf_outputs.loss": -1.1864365339279175,
	"forget_loss": 1.1864365339279175,
	"gated_loss": 0.01043701171875,
	"retain_loss": 0.23127436637878418,
	"step": 299,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 12.0,
	"grad_norm": 1.8040319681167603,
	"learning_rate": 0.0028,
	"loss": 1.761,
	"step": 300
	},
	{
	"epoch": 12.36,
	"forget_cf_outputs.loss": -1.227767825126648,
	"forget_loss": 1.227767825126648,
	"gated_loss": 0.00616455078125,
	"retain_loss": 0.22675465047359467,
	"step": 309,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 12.4,
	"grad_norm": 2.1620850563049316,
	"learning_rate": 0.00276,
	"loss": 1.5947,
	"step": 310
	},
	{
	"epoch": 12.76,
	"forget_cf_outputs.loss": -1.0549200773239136,
	"forget_loss": 1.0549200773239136,
	"gated_loss": 0.0054931640625,
	"retain_loss": 0.225913867354393,
	"step": 319,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 12.8,
	"grad_norm": 1.422467827796936,
	"learning_rate": 0.00272,
	"loss": 1.6839,
	"step": 320
	},
	{
	"epoch": 13.16,
	"forget_cf_outputs.loss": -0.966583251953125,
	"forget_loss": 0.966583251953125,
	"gated_loss": 0.0050048828125,
	"retain_loss": 0.21935530006885529,
	"step": 329,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 13.2,
	"grad_norm": 1.3767800331115723,
	"learning_rate": 0.00268,
	"loss": 1.6052,
	"step": 330
	},
	{
	"epoch": 13.56,
	"forget_cf_outputs.loss": -1.0747449398040771,
	"forget_loss": 1.0747449398040771,
	"gated_loss": 0.008544921875,
	"retain_loss": 0.23962758481502533,
	"step": 339,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 13.6,
	"grad_norm": 2.152151584625244,
	"learning_rate": 0.00264,
	"loss": 1.6239,
	"step": 340
	},
	{
	"epoch": 13.96,
	"forget_cf_outputs.loss": -0.9583653211593628,
	"forget_loss": 0.9583653211593628,
	"gated_loss": 0.006500244140625,
	"retain_loss": 0.21241800487041473,
	"step": 349,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 14.0,
	"grad_norm": 2.0913257598876953,
	"learning_rate": 0.0026000000000000003,
	"loss": 1.566,
	"step": 350
	},
	{
	"epoch": 14.36,
	"forget_cf_outputs.loss": -0.8475239276885986,
	"forget_loss": 0.8475239276885986,
	"gated_loss": 0.01165771484375,
	"retain_loss": 0.22438839077949524,
	"step": 359,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 14.4,
	"grad_norm": 1.8125321865081787,
	"learning_rate": 0.00256,
	"loss": 1.52,
	"step": 360
	},
	{
	"epoch": 14.76,
	"forget_cf_outputs.loss": -1.2125965356826782,
	"forget_loss": 1.2125965356826782,
	"gated_loss": 0.004974365234375,
	"retain_loss": 0.23040254414081573,
	"step": 369,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 14.8,
	"grad_norm": 1.811591386795044,
	"learning_rate": 0.00252,
	"loss": 1.5403,
	"step": 370
	},
	{
	"epoch": 15.16,
	"forget_cf_outputs.loss": -0.9788862466812134,
	"forget_loss": 0.9788862466812134,
	"gated_loss": 0.006439208984375,
	"retain_loss": 0.24656128883361816,
	"step": 379,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 15.2,
	"grad_norm": 1.5504097938537598,
	"learning_rate": 0.00248,
	"loss": 1.5363,
	"step": 380
	},
	{
	"epoch": 15.56,
	"forget_cf_outputs.loss": -0.8573880195617676,
	"forget_loss": 0.8573880195617676,
	"gated_loss": 0.007080078125,
	"retain_loss": 0.2557204067707062,
	"step": 389,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 15.6,
	"grad_norm": 1.5796666145324707,
	"learning_rate": 0.00244,
	"loss": 1.4844,
	"step": 390
	},
	{
	"epoch": 15.96,
	"forget_cf_outputs.loss": -1.0210211277008057,
	"forget_loss": 1.0210211277008057,
	"gated_loss": 0.007080078125,
	"retain_loss": 0.22587800025939941,
	"step": 399,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 16.0,
	"grad_norm": 1.902213215827942,
	"learning_rate": 0.0024,
	"loss": 1.5053,
	"step": 400
	},
	{
	"epoch": 16.36,
	"forget_cf_outputs.loss": -0.7990767955780029,
	"forget_loss": 0.7990767955780029,
	"gated_loss": 0.0064697265625,
	"retain_loss": 0.20731617510318756,
	"step": 409,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 16.4,
	"grad_norm": 1.7532883882522583,
	"learning_rate": 0.00236,
	"loss": 1.3702,
	"step": 410
	},
	{
	"epoch": 16.76,
	"forget_cf_outputs.loss": -1.08427095413208,
	"forget_loss": 1.08427095413208,
	"gated_loss": 0.005950927734375,
	"retain_loss": 0.23056094348430634,
	"step": 419,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 16.8,
	"grad_norm": 1.8573689460754395,
	"learning_rate": 0.00232,
	"loss": 1.4936,
	"step": 420
	},
	{
	"epoch": 17.16,
	"forget_cf_outputs.loss": -0.8196872472763062,
	"forget_loss": 0.8196872472763062,
	"gated_loss": 0.006805419921875,
	"retain_loss": 0.3019656836986542,
	"step": 429,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 17.2,
	"grad_norm": 1.6391781568527222,
	"learning_rate": 0.00228,
	"loss": 1.5101,
	"step": 430
	},
	{
	"epoch": 17.56,
	"forget_cf_outputs.loss": -0.8601583242416382,
	"forget_loss": 0.8601583242416382,
	"gated_loss": 0.00677490234375,
	"retain_loss": 0.30145329236984253,
	"step": 439,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 17.6,
	"grad_norm": 1.7495087385177612,
	"learning_rate": 0.0022400000000000002,
	"loss": 1.4067,
	"step": 440
	},
	{
	"epoch": 17.96,
	"forget_cf_outputs.loss": -0.9261890053749084,
	"forget_loss": 0.9261890053749084,
	"gated_loss": 0.007110595703125,
	"retain_loss": 0.2040254771709442,
	"step": 449,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 18.0,
	"grad_norm": 2.1609787940979004,
	"learning_rate": 0.0022,
	"loss": 1.3843,
	"step": 450
	},
	{
	"epoch": 18.36,
	"forget_cf_outputs.loss": -0.7474625706672668,
	"forget_loss": 0.7474625706672668,
	"gated_loss": 0.006103515625,
	"retain_loss": 0.20823714137077332,
	"step": 459,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 18.4,
	"grad_norm": 1.997226595878601,
	"learning_rate": 0.00216,
	"loss": 1.3081,
	"step": 460
	},
	{
	"epoch": 18.76,
	"forget_cf_outputs.loss": -1.0060858726501465,
	"forget_loss": 1.0060858726501465,
	"gated_loss": 0.00579833984375,
	"retain_loss": 0.23037730157375336,
	"step": 469,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 18.8,
	"grad_norm": 2.023531675338745,
	"learning_rate": 0.0021200000000000004,
	"loss": 1.4162,
	"step": 470
	},
	{
	"epoch": 19.16,
	"forget_cf_outputs.loss": -0.7942442893981934,
	"forget_loss": 0.7942442893981934,
	"gated_loss": 0.00677490234375,
	"retain_loss": 0.30291858315467834,
	"step": 479,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 19.2,
	"grad_norm": 2.0801267623901367,
	"learning_rate": 0.0020800000000000003,
	"loss": 1.4455,
	"step": 480
	},
	{
	"epoch": 19.56,
	"forget_cf_outputs.loss": -0.7663432955741882,
	"forget_loss": 0.7663432955741882,
	"gated_loss": 0.00640869140625,
	"retain_loss": 0.3002184331417084,
	"step": 489,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 19.6,
	"grad_norm": 1.6843624114990234,
	"learning_rate": 0.00204,
	"loss": 1.3348,
	"step": 490
	},
	{
	"epoch": 19.96,
	"forget_cf_outputs.loss": -0.8520928025245667,
	"forget_loss": 0.8520928025245667,
	"gated_loss": 0.006591796875,
	"retain_loss": 0.20439262688159943,
	"step": 499,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 20.0,
	"grad_norm": 2.177591323852539,
	"learning_rate": 0.002,
	"loss": 1.3115,
	"step": 500
	},
	{
	"epoch": 20.36,
	"forget_cf_outputs.loss": -0.7113033533096313,
	"forget_loss": 0.7113033533096313,
	"gated_loss": 0.0062255859375,
	"retain_loss": 0.20779718458652496,
	"step": 509,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 20.4,
	"grad_norm": 2.2269105911254883,
	"learning_rate": 0.00196,
	"loss": 1.2523,
	"step": 510
	},
	{
	"epoch": 20.76,
	"forget_cf_outputs.loss": -0.9132112860679626,
	"forget_loss": 0.9132112860679626,
	"gated_loss": 0.005615234375,
	"retain_loss": 0.23009441792964935,
	"step": 519,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 20.8,
	"grad_norm": 1.955623745918274,
	"learning_rate": 0.00192,
	"loss": 1.3478,
	"step": 520
	},
	{
	"epoch": 21.16,
	"forget_cf_outputs.loss": -0.7705625891685486,
	"forget_loss": 0.7705625891685486,
	"gated_loss": 0.00677490234375,
	"retain_loss": 0.30292266607284546,
	"step": 529,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 21.2,
	"grad_norm": 2.0390868186950684,
	"learning_rate": 0.00188,
	"loss": 1.3883,
	"step": 530
	},
	{
	"epoch": 21.56,
	"forget_cf_outputs.loss": -0.7298972606658936,
	"forget_loss": 0.7298972606658936,
	"gated_loss": 0.006195068359375,
	"retain_loss": 0.3011211156845093,
	"step": 539,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 21.6,
	"grad_norm": 1.9718871116638184,
	"learning_rate": 0.00184,
	"loss": 1.2773,
	"step": 540
	},
	{
	"epoch": 21.96,
	"forget_cf_outputs.loss": -0.7989807724952698,
	"forget_loss": 0.7989807724952698,
	"gated_loss": 0.00640869140625,
	"retain_loss": 0.20371052622795105,
	"step": 549,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 22.0,
	"grad_norm": 2.304124116897583,
	"learning_rate": 0.0018000000000000002,
	"loss": 1.2614,
	"step": 550
	},
	{
	"epoch": 22.36,
	"forget_cf_outputs.loss": -0.6765010952949524,
	"forget_loss": 0.6765010952949524,
	"gated_loss": 0.006134033203125,
	"retain_loss": 0.20700086653232574,
	"step": 559,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 22.4,
	"grad_norm": 2.3407692909240723,
	"learning_rate": 0.00176,
	"loss": 1.2052,
	"step": 560
	},
	{
	"epoch": 22.76,
	"forget_cf_outputs.loss": -0.8482251167297363,
	"forget_loss": 0.8482251167297363,
	"gated_loss": 0.00555419921875,
	"retain_loss": 0.23026637732982635,
	"step": 569,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 22.8,
	"grad_norm": 1.9227235317230225,
	"learning_rate": 0.00172,
	"loss": 1.2995,
	"step": 570
	},
	{
	"epoch": 23.16,
	"forget_cf_outputs.loss": -0.7452784776687622,
	"forget_loss": 0.7452784776687622,
	"gated_loss": 0.006744384765625,
	"retain_loss": 0.30324649810791016,
	"step": 579,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 23.2,
	"grad_norm": 2.1659557819366455,
	"learning_rate": 0.00168,
	"loss": 1.3367,
	"step": 580
	},
	{
	"epoch": 23.56,
	"forget_cf_outputs.loss": -0.6973183155059814,
	"forget_loss": 0.6973183155059814,
	"gated_loss": 0.006011962890625,
	"retain_loss": 0.30067041516304016,
	"step": 589,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 23.6,
	"grad_norm": 2.140836238861084,
	"learning_rate": 0.00164,
	"loss": 1.2336,
	"step": 590
	},
	{
	"epoch": 23.96,
	"forget_cf_outputs.loss": -0.7499862313270569,
	"forget_loss": 0.7499862313270569,
	"gated_loss": 0.006317138671875,
	"retain_loss": 0.20415130257606506,
	"step": 599,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 24.0,
	"grad_norm": 2.5653772354125977,
	"learning_rate": 0.0016,
	"loss": 1.2199,
	"step": 600
	},
	{
	"epoch": 24.36,
	"forget_cf_outputs.loss": -0.6281754374504089,
	"forget_loss": 0.6281754374504089,
	"gated_loss": 0.006103515625,
	"retain_loss": 0.2073870748281479,
	"step": 609,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 24.4,
	"grad_norm": 2.2012555599212646,
	"learning_rate": 0.0015600000000000002,
	"loss": 1.1692,
	"step": 610
	},
	{
	"epoch": 24.76,
	"forget_cf_outputs.loss": -0.7929825782775879,
	"forget_loss": 0.7929825782775879,
	"gated_loss": 0.005584716796875,
	"retain_loss": 0.23124848306179047,
	"step": 619,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 24.8,
	"grad_norm": 1.9918410778045654,
	"learning_rate": 0.00152,
	"loss": 1.2547,
	"step": 620
	},
	{
	"epoch": 25.16,
	"forget_cf_outputs.loss": -0.7136563062667847,
	"forget_loss": 0.7136563062667847,
	"gated_loss": 0.00677490234375,
	"retain_loss": 0.3019442558288574,
	"step": 629,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 25.2,
	"grad_norm": 2.17232608795166,
	"learning_rate": 0.00148,
	"loss": 1.2906,
	"step": 630
	},
	{
	"epoch": 25.56,
	"forget_cf_outputs.loss": -0.6733591556549072,
	"forget_loss": 0.6733591556549072,
	"gated_loss": 0.00604248046875,
	"retain_loss": 0.3010113835334778,
	"step": 639,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 25.6,
	"grad_norm": 2.1968352794647217,
	"learning_rate": 0.0014399999999999999,
	"loss": 1.198,
	"step": 640
	},
	{
	"epoch": 25.96,
	"forget_cf_outputs.loss": -0.6898148655891418,
	"forget_loss": 0.6898148655891418,
	"gated_loss": 0.00628662109375,
	"retain_loss": 0.20451340079307556,
	"step": 649,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 26.0,
	"grad_norm": 2.708749294281006,
	"learning_rate": 0.0014,
	"loss": 1.1784,
	"step": 650
	},
	{
	"epoch": 26.36,
	"forget_cf_outputs.loss": -0.5750948786735535,
	"forget_loss": 0.5750948786735535,
	"gated_loss": 0.006011962890625,
	"retain_loss": 0.20745757222175598,
	"step": 659,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 26.4,
	"grad_norm": 2.0222957134246826,
	"learning_rate": 0.00136,
	"loss": 1.1326,
	"step": 660
	},
	{
	"epoch": 26.76,
	"forget_cf_outputs.loss": -0.7313442826271057,
	"forget_loss": 0.7313442826271057,
	"gated_loss": 0.005523681640625,
	"retain_loss": 0.2309209704399109,
	"step": 669,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 26.8,
	"grad_norm": 1.8242149353027344,
	"learning_rate": 0.00132,
	"loss": 1.2022,
	"step": 670
	},
	{
	"epoch": 27.16,
	"forget_cf_outputs.loss": -0.6695391535758972,
	"forget_loss": 0.6695391535758972,
	"gated_loss": 0.006744384765625,
	"retain_loss": 0.30264630913734436,
	"step": 679,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 27.2,
	"grad_norm": 2.184037208557129,
	"learning_rate": 0.00128,
	"loss": 1.24,
	"step": 680
	},
	{
	"epoch": 27.56,
	"forget_cf_outputs.loss": -0.6346314549446106,
	"forget_loss": 0.6346314549446106,
	"gated_loss": 0.005950927734375,
	"retain_loss": 0.3012670874595642,
	"step": 689,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 27.6,
	"grad_norm": 2.071834087371826,
	"learning_rate": 0.00124,
	"loss": 1.1582,
	"step": 690
	},
	{
	"epoch": 27.96,
	"forget_cf_outputs.loss": -0.6438873410224915,
	"forget_loss": 0.6438873410224915,
	"gated_loss": 0.00634765625,
	"retain_loss": 0.20389188826084137,
	"step": 699,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 28.0,
	"grad_norm": 2.627547264099121,
	"learning_rate": 0.0012,
	"loss": 1.1426,
	"step": 700
	},
	{
	"epoch": 28.36,
	"forget_cf_outputs.loss": -0.5409132242202759,
	"forget_loss": 0.5409132242202759,
	"gated_loss": 0.00604248046875,
	"retain_loss": 0.20821160078048706,
	"step": 709,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 28.4,
	"grad_norm": 1.8756951093673706,
	"learning_rate": 0.00116,
	"loss": 1.0961,
	"step": 710
	},
	{
	"epoch": 28.76,
	"forget_cf_outputs.loss": -0.6844155788421631,
	"forget_loss": 0.6844155788421631,
	"gated_loss": 0.005523681640625,
	"retain_loss": 0.23081088066101074,
	"step": 719,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 28.8,
	"grad_norm": 1.882070541381836,
	"learning_rate": 0.0011200000000000001,
	"loss": 1.1636,
	"step": 720
	},
	{
	"epoch": 29.16,
	"forget_cf_outputs.loss": -0.6462154388427734,
	"forget_loss": 0.6462154388427734,
	"gated_loss": 0.0068359375,
	"retain_loss": 0.30321410298347473,
	"step": 729,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 29.2,
	"grad_norm": 2.2409791946411133,
	"learning_rate": 0.00108,
	"loss": 1.1954,
	"step": 730
	},
	{
	"epoch": 29.56,
	"forget_cf_outputs.loss": -0.5779778957366943,
	"forget_loss": 0.5779778957366943,
	"gated_loss": 0.005828857421875,
	"retain_loss": 0.301031231880188,
	"step": 739,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 29.6,
	"grad_norm": 1.9507259130477905,
	"learning_rate": 0.0010400000000000001,
	"loss": 1.1284,
	"step": 740
	},
	{
	"epoch": 29.96,
	"forget_cf_outputs.loss": -0.595399022102356,
	"forget_loss": 0.595399022102356,
	"gated_loss": 0.00628662109375,
	"retain_loss": 0.20331645011901855,
	"step": 749,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 30.0,
	"grad_norm": 2.5469954013824463,
	"learning_rate": 0.001,
	"loss": 1.1074,
	"step": 750
	},
	{
	"epoch": 30.36,
	"forget_cf_outputs.loss": -0.5063520669937134,
	"forget_loss": 0.5063520669937134,
	"gated_loss": 0.0059814453125,
	"retain_loss": 0.20728009939193726,
	"step": 759,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 30.4,
	"grad_norm": 1.9551663398742676,
	"learning_rate": 0.00096,
	"loss": 1.0691,
	"step": 760
	},
	{
	"epoch": 30.76,
	"forget_cf_outputs.loss": -0.6612439751625061,
	"forget_loss": 0.6612439751625061,
	"gated_loss": 0.005523681640625,
	"retain_loss": 0.23078040778636932,
	"step": 769,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 30.8,
	"grad_norm": 2.112478494644165,
	"learning_rate": 0.00092,
	"loss": 1.1296,
	"step": 770
	},
	{
	"epoch": 31.16,
	"forget_cf_outputs.loss": -0.6047573685646057,
	"forget_loss": 0.6047573685646057,
	"gated_loss": 0.00677490234375,
	"retain_loss": 0.3026810586452484,
	"step": 779,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 31.2,
	"grad_norm": 2.141299247741699,
	"learning_rate": 0.00088,
	"loss": 1.1566,
	"step": 780
	},
	{
	"epoch": 31.56,
	"forget_cf_outputs.loss": -0.5377554297447205,
	"forget_loss": 0.5377554297447205,
	"gated_loss": 0.005828857421875,
	"retain_loss": 0.30064091086387634,
	"step": 789,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 31.6,
	"grad_norm": 1.9649981260299683,
	"learning_rate": 0.00084,
	"loss": 1.097,
	"step": 790
	},
	{
	"epoch": 31.96,
	"forget_cf_outputs.loss": -0.5527829527854919,
	"forget_loss": 0.5527829527854919,
	"gated_loss": 0.0062255859375,
	"retain_loss": 0.20365992188453674,
	"step": 799,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 32.0,
	"grad_norm": 2.628004312515259,
	"learning_rate": 0.0008,
	"loss": 1.0695,
	"step": 800
	},
	{
	"epoch": 32.36,
	"forget_cf_outputs.loss": -0.47989267110824585,
	"forget_loss": 0.47989267110824585,
	"gated_loss": 0.005950927734375,
	"retain_loss": 0.20727092027664185,
	"step": 809,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 32.4,
	"grad_norm": 1.9921866655349731,
	"learning_rate": 0.00076,
	"loss": 1.0319,
	"step": 810
	},
	{
	"epoch": 32.76,
	"forget_cf_outputs.loss": -0.6170799136161804,
	"forget_loss": 0.6170799136161804,
	"gated_loss": 0.00555419921875,
	"retain_loss": 0.23075489699840546,
	"step": 819,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 32.8,
	"grad_norm": 2.0169899463653564,
	"learning_rate": 0.0007199999999999999,
	"loss": 1.091,
	"step": 820
	},
	{
	"epoch": 33.16,
	"forget_cf_outputs.loss": -0.5823113322257996,
	"forget_loss": 0.5823113322257996,
	"gated_loss": 0.0068359375,
	"retain_loss": 0.30245938897132874,
	"step": 829,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 33.2,
	"grad_norm": 2.2369046211242676,
	"learning_rate": 0.00068,
	"loss": 1.126,
	"step": 830
	},
	{
	"epoch": 33.56,
	"forget_cf_outputs.loss": -0.5231561660766602,
	"forget_loss": 0.5231561660766602,
	"gated_loss": 0.005767822265625,
	"retain_loss": 0.3002181351184845,
	"step": 839,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 33.6,
	"grad_norm": 2.4003753662109375,
	"learning_rate": 0.00064,
	"loss": 1.0696,
	"step": 840
	},
	{
	"epoch": 33.96,
	"forget_cf_outputs.loss": -0.4980463981628418,
	"forget_loss": 0.4980463981628418,
	"gated_loss": 0.0062255859375,
	"retain_loss": 0.20359160006046295,
	"step": 849,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 34.0,
	"grad_norm": 2.4804441928863525,
	"learning_rate": 0.0006,
	"loss": 1.0311,
	"step": 850
	},
	{
	"epoch": 34.36,
	"forget_cf_outputs.loss": -0.4477725327014923,
	"forget_loss": 0.4477725327014923,
	"gated_loss": 0.00592041015625,
	"retain_loss": 0.20766329765319824,
	"step": 859,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 34.4,
	"grad_norm": 1.8642009496688843,
	"learning_rate": 0.0005600000000000001,
	"loss": 0.9964,
	"step": 860
	},
	{
	"epoch": 34.76,
	"forget_cf_outputs.loss": -0.5641895532608032,
	"forget_loss": 0.5641895532608032,
	"gated_loss": 0.00555419921875,
	"retain_loss": 0.23121777176856995,
	"step": 869,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 34.8,
	"grad_norm": 1.8299639225006104,
	"learning_rate": 0.0005200000000000001,
	"loss": 1.055,
	"step": 870
	},
	{
	"epoch": 35.16,
	"forget_cf_outputs.loss": -0.5485031604766846,
	"forget_loss": 0.5485031604766846,
	"gated_loss": 0.006805419921875,
	"retain_loss": 0.3044523596763611,
	"step": 879,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 35.2,
	"grad_norm": 2.0533902645111084,
	"learning_rate": 0.00048,
	"loss": 1.0938,
	"step": 880
	},
	{
	"epoch": 35.56,
	"forget_cf_outputs.loss": -0.5070799589157104,
	"forget_loss": 0.5070799589157104,
	"gated_loss": 0.005828857421875,
	"retain_loss": 0.3008805215358734,
	"step": 889,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 35.6,
	"grad_norm": 2.342500925064087,
	"learning_rate": 0.00044,
	"loss": 1.0375,
	"step": 890
	},
	{
	"epoch": 35.96,
	"forget_cf_outputs.loss": -0.4470018446445465,
	"forget_loss": 0.4470018446445465,
	"gated_loss": 0.0062255859375,
	"retain_loss": 0.20359660685062408,
	"step": 899,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 36.0,
	"grad_norm": 2.555351734161377,
	"learning_rate": 0.0004,
	"loss": 0.9953,
	"step": 900
	},
	{
	"epoch": 36.36,
	"forget_cf_outputs.loss": -0.42907437682151794,
	"forget_loss": 0.42907437682151794,
	"gated_loss": 0.005950927734375,
	"retain_loss": 0.20733724534511566,
	"step": 909,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 36.4,
	"grad_norm": 1.745898962020874,
	"learning_rate": 0.00035999999999999997,
	"loss": 0.9637,
	"step": 910
	},
	{
	"epoch": 36.76,
	"forget_cf_outputs.loss": -0.5278509855270386,
	"forget_loss": 0.5278509855270386,
	"gated_loss": 0.00555419921875,
	"retain_loss": 0.23086762428283691,
	"step": 919,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 36.8,
	"grad_norm": 1.8470394611358643,
	"learning_rate": 0.00032,
	"loss": 1.0207,
	"step": 920
	},
	{
	"epoch": 37.16,
	"forget_cf_outputs.loss": -0.5195350646972656,
	"forget_loss": 0.5195350646972656,
	"gated_loss": 0.0068359375,
	"retain_loss": 0.3039552867412567,
	"step": 929,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 37.2,
	"grad_norm": 2.0206496715545654,
	"learning_rate": 0.00028000000000000003,
	"loss": 1.0645,
	"step": 930
	},
	{
	"epoch": 37.56,
	"forget_cf_outputs.loss": -0.4906051754951477,
	"forget_loss": 0.4906051754951477,
	"gated_loss": 0.005828857421875,
	"retain_loss": 0.3013906478881836,
	"step": 939,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 37.6,
	"grad_norm": 2.380035877227783,
	"learning_rate": 0.00024,
	"loss": 1.0092,
	"step": 940
	},
	{
	"epoch": 37.96,
	"forget_cf_outputs.loss": -0.41733187437057495,
	"forget_loss": 0.41733187437057495,
	"gated_loss": 0.0062255859375,
	"retain_loss": 0.20396247506141663,
	"step": 949,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 38.0,
	"grad_norm": 2.3801748752593994,
	"learning_rate": 0.0002,
	"loss": 0.9681,
	"step": 950
	},
	{
	"epoch": 38.36,
	"forget_cf_outputs.loss": -0.41866594552993774,
	"forget_loss": 0.41866594552993774,
	"gated_loss": 0.005950927734375,
	"retain_loss": 0.20748548209667206,
	"step": 959,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 38.4,
	"grad_norm": 1.8068156242370605,
	"learning_rate": 0.00016,
	"loss": 0.9408,
	"step": 960
	},
	{
	"epoch": 38.76,
	"forget_cf_outputs.loss": -0.503368079662323,
	"forget_loss": 0.503368079662323,
	"gated_loss": 0.00555419921875,
	"retain_loss": 0.2300793081521988,
	"step": 969,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 38.8,
	"grad_norm": 1.8037129640579224,
	"learning_rate": 0.00012,
	"loss": 0.9892,
	"step": 970
	},
	{
	"epoch": 39.16,
	"forget_cf_outputs.loss": -0.5070582628250122,
	"forget_loss": 0.5070582628250122,
	"gated_loss": 0.006805419921875,
	"retain_loss": 0.3026222288608551,
	"step": 979,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 39.2,
	"grad_norm": 2.055860757827759,
	"learning_rate": 8e-05,
	"loss": 1.0436,
	"step": 980
	},
	{
	"epoch": 39.56,
	"forget_cf_outputs.loss": -0.46062666177749634,
	"forget_loss": 0.46062666177749634,
	"gated_loss": 0.005828857421875,
	"retain_loss": 0.30048835277557373,
	"step": 989,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 39.6,
	"grad_norm": 2.1290202140808105,
	"learning_rate": 4e-05,
	"loss": 0.9838,
	"step": 990
	},
	{
	"epoch": 39.96,
	"forget_cf_outputs.loss": -0.39183497428894043,
	"forget_loss": 0.39183497428894043,
	"gated_loss": 0.0062255859375,
	"retain_loss": 0.20340043306350708,
	"step": 999,
	"warm_up_unlearning_weight": 1
	},
	{
	"epoch": 40.0,
	"grad_norm": 2.2874202728271484,
	"learning_rate": 0.0,
	"loss": 0.9411,
	"step": 1000
	}
	],
	"logging_steps": 10,
	"max_steps": 1000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 40,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}