PolicyGuard-4B / trainer_state.json

End of training

7a0939f verified 8 months ago

19.9 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 1125,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.02666666666666667,
	"grad_norm": 32.16063934344277,
	"learning_rate": 7.964601769911505e-07,
	"loss": 0.5475,
	"step": 10
	},
	{
	"epoch": 0.05333333333333334,
	"grad_norm": 6.567221676912103,
	"learning_rate": 1.68141592920354e-06,
	"loss": 0.1438,
	"step": 20
	},
	{
	"epoch": 0.08,
	"grad_norm": 16.400774853834218,
	"learning_rate": 2.5663716814159294e-06,
	"loss": 0.1063,
	"step": 30
	},
	{
	"epoch": 0.10666666666666667,
	"grad_norm": 6.359588347442692,
	"learning_rate": 3.4513274336283186e-06,
	"loss": 0.0596,
	"step": 40
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 2.3210922841562738,
	"learning_rate": 4.336283185840709e-06,
	"loss": 0.0425,
	"step": 50
	},
	{
	"epoch": 0.16,
	"grad_norm": 3.267338886551915,
	"learning_rate": 5.2212389380530985e-06,
	"loss": 0.0411,
	"step": 60
	},
	{
	"epoch": 0.18666666666666668,
	"grad_norm": 13.686826873015601,
	"learning_rate": 6.1061946902654865e-06,
	"loss": 0.0592,
	"step": 70
	},
	{
	"epoch": 0.21333333333333335,
	"grad_norm": 4.268192345486851,
	"learning_rate": 6.991150442477876e-06,
	"loss": 0.057,
	"step": 80
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.3230850797325053,
	"learning_rate": 7.876106194690266e-06,
	"loss": 0.0511,
	"step": 90
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 3.342187327113933,
	"learning_rate": 8.761061946902656e-06,
	"loss": 0.0434,
	"step": 100
	},
	{
	"epoch": 0.29333333333333333,
	"grad_norm": 3.4227515638852752,
	"learning_rate": 9.646017699115045e-06,
	"loss": 0.0544,
	"step": 110
	},
	{
	"epoch": 0.32,
	"grad_norm": 4.412559659885227,
	"learning_rate": 9.99913270134281e-06,
	"loss": 0.058,
	"step": 120
	},
	{
	"epoch": 0.3466666666666667,
	"grad_norm": 0.6474526366203736,
	"learning_rate": 9.993833632459675e-06,
	"loss": 0.0562,
	"step": 130
	},
	{
	"epoch": 0.37333333333333335,
	"grad_norm": 8.771255095390313,
	"learning_rate": 9.983722427355157e-06,
	"loss": 0.0686,
	"step": 140
	},
	{
	"epoch": 0.4,
	"grad_norm": 2.6270874614247934,
	"learning_rate": 9.968808829344692e-06,
	"loss": 0.033,
	"step": 150
	},
	{
	"epoch": 0.4266666666666667,
	"grad_norm": 0.7486973272155489,
	"learning_rate": 9.949107209404664e-06,
	"loss": 0.0372,
	"step": 160
	},
	{
	"epoch": 0.4533333333333333,
	"grad_norm": 4.189538788489708,
	"learning_rate": 9.924636552324296e-06,
	"loss": 0.0358,
	"step": 170
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.6483598739981203,
	"learning_rate": 9.895420438411616e-06,
	"loss": 0.0376,
	"step": 180
	},
	{
	"epoch": 0.5066666666666667,
	"grad_norm": 1.9094671130157965,
	"learning_rate": 9.861487020771103e-06,
	"loss": 0.0445,
	"step": 190
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 2.3259218499415804,
	"learning_rate": 9.822868998174914e-06,
	"loss": 0.0427,
	"step": 200
	},
	{
	"epoch": 0.56,
	"grad_norm": 2.156446848730766,
	"learning_rate": 9.779603583553842e-06,
	"loss": 0.0374,
	"step": 210
	},
	{
	"epoch": 0.5866666666666667,
	"grad_norm": 0.9597466279865825,
	"learning_rate": 9.731732468138338e-06,
	"loss": 0.0409,
	"step": 220
	},
	{
	"epoch": 0.6133333333333333,
	"grad_norm": 0.7868867124962591,
	"learning_rate": 9.679301781284209e-06,
	"loss": 0.0329,
	"step": 230
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.62807853244579,
	"learning_rate": 9.62236204602163e-06,
	"loss": 0.0364,
	"step": 240
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 0.4368965192056904,
	"learning_rate": 9.560968130370376e-06,
	"loss": 0.0319,
	"step": 250
	},
	{
	"epoch": 0.6933333333333334,
	"grad_norm": 0.78653849956095,
	"learning_rate": 9.495179194468135e-06,
	"loss": 0.0373,
	"step": 260
	},
	{
	"epoch": 0.72,
	"grad_norm": 3.4853295787469367,
	"learning_rate": 9.42505863356287e-06,
	"loss": 0.0365,
	"step": 270
	},
	{
	"epoch": 0.7466666666666667,
	"grad_norm": 0.8783456698130101,
	"learning_rate": 9.35067401692417e-06,
	"loss": 0.0365,
	"step": 280
	},
	{
	"epoch": 0.7733333333333333,
	"grad_norm": 2.2890841164043896,
	"learning_rate": 9.272097022732444e-06,
	"loss": 0.0352,
	"step": 290
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.5200146240226767,
	"learning_rate": 9.189403369008704e-06,
	"loss": 0.0351,
	"step": 300
	},
	{
	"epoch": 0.8266666666666667,
	"grad_norm": 1.1669857247761828,
	"learning_rate": 9.1026727406515e-06,
	"loss": 0.0301,
	"step": 310
	},
	{
	"epoch": 0.8533333333333334,
	"grad_norm": 1.6648372637355544,
	"learning_rate": 9.011988712651295e-06,
	"loss": 0.0344,
	"step": 320
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.49471094793678266,
	"learning_rate": 8.917438669556307e-06,
	"loss": 0.0332,
	"step": 330
	},
	{
	"epoch": 0.9066666666666666,
	"grad_norm": 4.093981624105955,
	"learning_rate": 8.819113721267385e-06,
	"loss": 0.0357,
	"step": 340
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 2.999015503453908,
	"learning_rate": 8.717108615243081e-06,
	"loss": 0.0432,
	"step": 350
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.5409883491156575,
	"learning_rate": 8.611521645199532e-06,
	"loss": 0.0389,
	"step": 360
	},
	{
	"epoch": 0.9866666666666667,
	"grad_norm": 1.7355752046628126,
	"learning_rate": 8.502454556393071e-06,
	"loss": 0.0345,
	"step": 370
	},
	{
	"epoch": 1.0133333333333334,
	"grad_norm": 0.6290142419411443,
	"learning_rate": 8.390012447576931e-06,
	"loss": 0.0352,
	"step": 380
	},
	{
	"epoch": 1.04,
	"grad_norm": 0.998999378757009,
	"learning_rate": 8.274303669726427e-06,
	"loss": 0.037,
	"step": 390
	},
	{
	"epoch": 1.0666666666666667,
	"grad_norm": 1.7203257499840563,
	"learning_rate": 8.155439721630265e-06,
	"loss": 0.0304,
	"step": 400
	},
	{
	"epoch": 1.0933333333333333,
	"grad_norm": 1.4374612432793097,
	"learning_rate": 8.03353514244857e-06,
	"loss": 0.0216,
	"step": 410
	},
	{
	"epoch": 1.12,
	"grad_norm": 0.579554465372659,
	"learning_rate": 7.908707401341146e-06,
	"loss": 0.0323,
	"step": 420
	},
	{
	"epoch": 1.1466666666666667,
	"grad_norm": 2.773200563476286,
	"learning_rate": 7.781076784272377e-06,
	"loss": 0.0341,
	"step": 430
	},
	{
	"epoch": 1.1733333333333333,
	"grad_norm": 3.550540828329406,
	"learning_rate": 7.650766278101762e-06,
	"loss": 0.0329,
	"step": 440
	},
	{
	"epoch": 1.2,
	"grad_norm": 0.5515580193304647,
	"learning_rate": 7.51790145207188e-06,
	"loss": 0.0268,
	"step": 450
	},
	{
	"epoch": 1.2266666666666666,
	"grad_norm": 1.283409960615874,
	"learning_rate": 7.382610336807887e-06,
	"loss": 0.0218,
	"step": 460
	},
	{
	"epoch": 1.2533333333333334,
	"grad_norm": 0.9095799044130223,
	"learning_rate": 7.245023300945203e-06,
	"loss": 0.0413,
	"step": 470
	},
	{
	"epoch": 1.28,
	"grad_norm": 2.4887934586907696,
	"learning_rate": 7.1052729255042645e-06,
	"loss": 0.0308,
	"step": 480
	},
	{
	"epoch": 1.3066666666666666,
	"grad_norm": 0.7141213123224076,
	"learning_rate": 6.963493876133367e-06,
	"loss": 0.0332,
	"step": 490
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 0.9149870982144377,
	"learning_rate": 6.81982277334275e-06,
	"loss": 0.024,
	"step": 500
	},
	{
	"epoch": 1.3599999999999999,
	"grad_norm": 1.295195973673907,
	"learning_rate": 6.674398060854931e-06,
	"loss": 0.0238,
	"step": 510
	},
	{
	"epoch": 1.3866666666666667,
	"grad_norm": 0.7554872779425962,
	"learning_rate": 6.527359872198166e-06,
	"loss": 0.022,
	"step": 520
	},
	{
	"epoch": 1.4133333333333333,
	"grad_norm": 0.6242502684574066,
	"learning_rate": 6.378849895671594e-06,
	"loss": 0.0242,
	"step": 530
	},
	{
	"epoch": 1.44,
	"grad_norm": 0.9830147127712261,
	"learning_rate": 6.229011237812172e-06,
	"loss": 0.0318,
	"step": 540
	},
	{
	"epoch": 1.4666666666666668,
	"grad_norm": 0.9146134481301997,
	"learning_rate": 6.0779882854949745e-06,
	"loss": 0.0294,
	"step": 550
	},
	{
	"epoch": 1.4933333333333334,
	"grad_norm": 0.9811594902690147,
	"learning_rate": 5.925926566799754e-06,
	"loss": 0.026,
	"step": 560
	},
	{
	"epoch": 1.52,
	"grad_norm": 0.4851403666625478,
	"learning_rate": 5.7729726107777855e-06,
	"loss": 0.027,
	"step": 570
	},
	{
	"epoch": 1.5466666666666666,
	"grad_norm": 0.2544634724888273,
	"learning_rate": 5.6192738062542e-06,
	"loss": 0.0284,
	"step": 580
	},
	{
	"epoch": 1.5733333333333333,
	"grad_norm": 0.36644989714339743,
	"learning_rate": 5.464978259801797e-06,
	"loss": 0.024,
	"step": 590
	},
	{
	"epoch": 1.6,
	"grad_norm": 0.43988741518108126,
	"learning_rate": 5.3102346530232365e-06,
	"loss": 0.0223,
	"step": 600
	},
	{
	"epoch": 1.6266666666666667,
	"grad_norm": 0.5226214040502056,
	"learning_rate": 5.155192099279113e-06,
	"loss": 0.0249,
	"step": 610
	},
	{
	"epoch": 1.6533333333333333,
	"grad_norm": 1.1119970846827298,
	"learning_rate": 5e-06,
	"loss": 0.0253,
	"step": 620
	},
	{
	"epoch": 1.6800000000000002,
	"grad_norm": 0.8680971082218792,
	"learning_rate": 4.844807900720888e-06,
	"loss": 0.0284,
	"step": 630
	},
	{
	"epoch": 1.7066666666666666,
	"grad_norm": 1.2771195764125927,
	"learning_rate": 4.689765346976765e-06,
	"loss": 0.031,
	"step": 640
	},
	{
	"epoch": 1.7333333333333334,
	"grad_norm": 1.2987869328099824,
	"learning_rate": 4.535021740198202e-06,
	"loss": 0.0285,
	"step": 650
	},
	{
	"epoch": 1.76,
	"grad_norm": 0.5503557889607777,
	"learning_rate": 4.3807261937458005e-06,
	"loss": 0.0221,
	"step": 660
	},
	{
	"epoch": 1.7866666666666666,
	"grad_norm": 0.34195500176254995,
	"learning_rate": 4.227027389222215e-06,
	"loss": 0.0302,
	"step": 670
	},
	{
	"epoch": 1.8133333333333335,
	"grad_norm": 0.5321038179644965,
	"learning_rate": 4.074073433200249e-06,
	"loss": 0.0251,
	"step": 680
	},
	{
	"epoch": 1.8399999999999999,
	"grad_norm": 0.6459786858896845,
	"learning_rate": 3.9220117145050254e-06,
	"loss": 0.0272,
	"step": 690
	},
	{
	"epoch": 1.8666666666666667,
	"grad_norm": 0.185882280385459,
	"learning_rate": 3.7709887621878305e-06,
	"loss": 0.0233,
	"step": 700
	},
	{
	"epoch": 1.8933333333333333,
	"grad_norm": 0.2565813341134651,
	"learning_rate": 3.621150104328407e-06,
	"loss": 0.0278,
	"step": 710
	},
	{
	"epoch": 1.92,
	"grad_norm": 3.1620511689525883,
	"learning_rate": 3.4726401278018353e-06,
	"loss": 0.0201,
	"step": 720
	},
	{
	"epoch": 1.9466666666666668,
	"grad_norm": 1.1210855653638465,
	"learning_rate": 3.3256019391450696e-06,
	"loss": 0.0264,
	"step": 730
	},
	{
	"epoch": 1.9733333333333334,
	"grad_norm": 1.1321594665504457,
	"learning_rate": 3.180177226657251e-06,
	"loss": 0.0275,
	"step": 740
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.46250821232538014,
	"learning_rate": 3.0365061238666336e-06,
	"loss": 0.026,
	"step": 750
	},
	{
	"epoch": 2.026666666666667,
	"grad_norm": 0.6774924836452516,
	"learning_rate": 2.8947270744957385e-06,
	"loss": 0.0205,
	"step": 760
	},
	{
	"epoch": 2.0533333333333332,
	"grad_norm": 0.583612934420677,
	"learning_rate": 2.7549766990547973e-06,
	"loss": 0.0212,
	"step": 770
	},
	{
	"epoch": 2.08,
	"grad_norm": 0.2854747824255563,
	"learning_rate": 2.6173896631921134e-06,
	"loss": 0.0206,
	"step": 780
	},
	{
	"epoch": 2.1066666666666665,
	"grad_norm": 0.9164854943563306,
	"learning_rate": 2.4820985479281184e-06,
	"loss": 0.0185,
	"step": 790
	},
	{
	"epoch": 2.1333333333333333,
	"grad_norm": 0.2507431366650127,
	"learning_rate": 2.3492337218982396e-06,
	"loss": 0.0215,
	"step": 800
	},
	{
	"epoch": 2.16,
	"grad_norm": 0.2683693148125547,
	"learning_rate": 2.2189232157276247e-06,
	"loss": 0.0159,
	"step": 810
	},
	{
	"epoch": 2.1866666666666665,
	"grad_norm": 1.8732417076656713,
	"learning_rate": 2.0912925986588547e-06,
	"loss": 0.0184,
	"step": 820
	},
	{
	"epoch": 2.2133333333333334,
	"grad_norm": 0.4107367017375117,
	"learning_rate": 1.9664648575514316e-06,
	"loss": 0.0177,
	"step": 830
	},
	{
	"epoch": 2.24,
	"grad_norm": 0.6028137557406312,
	"learning_rate": 1.8445602783697375e-06,
	"loss": 0.0208,
	"step": 840
	},
	{
	"epoch": 2.2666666666666666,
	"grad_norm": 0.61431790944023,
	"learning_rate": 1.7256963302735752e-06,
	"loss": 0.0222,
	"step": 850
	},
	{
	"epoch": 2.2933333333333334,
	"grad_norm": 1.7863302074699874,
	"learning_rate": 1.6099875524230707e-06,
	"loss": 0.0207,
	"step": 860
	},
	{
	"epoch": 2.32,
	"grad_norm": 0.30948586663760247,
	"learning_rate": 1.4975454436069292e-06,
	"loss": 0.0191,
	"step": 870
	},
	{
	"epoch": 2.3466666666666667,
	"grad_norm": 0.21356918780539055,
	"learning_rate": 1.3884783548004704e-06,
	"loss": 0.0172,
	"step": 880
	},
	{
	"epoch": 2.3733333333333335,
	"grad_norm": 0.4293833130975588,
	"learning_rate": 1.2828913847569185e-06,
	"loss": 0.0165,
	"step": 890
	},
	{
	"epoch": 2.4,
	"grad_norm": 0.7665664160011331,
	"learning_rate": 1.1808862787326176e-06,
	"loss": 0.0212,
	"step": 900
	},
	{
	"epoch": 2.4266666666666667,
	"grad_norm": 0.7757194968554726,
	"learning_rate": 1.0825613304436938e-06,
	"loss": 0.0154,
	"step": 910
	},
	{
	"epoch": 2.453333333333333,
	"grad_norm": 0.7605435517474121,
	"learning_rate": 9.880112873487068e-07,
	"loss": 0.0159,
	"step": 920
	},
	{
	"epoch": 2.48,
	"grad_norm": 0.33268130417226893,
	"learning_rate": 8.973272593485011e-07,
	"loss": 0.0174,
	"step": 930
	},
	{
	"epoch": 2.506666666666667,
	"grad_norm": 0.3270317530223883,
	"learning_rate": 8.105966309912966e-07,
	"loss": 0.0214,
	"step": 940
	},
	{
	"epoch": 2.533333333333333,
	"grad_norm": 0.7628137287702192,
	"learning_rate": 7.279029772675572e-07,
	"loss": 0.0193,
	"step": 950
	},
	{
	"epoch": 2.56,
	"grad_norm": 0.46415652247522604,
	"learning_rate": 6.493259830758325e-07,
	"loss": 0.0185,
	"step": 960
	},
	{
	"epoch": 2.586666666666667,
	"grad_norm": 0.6591115001059403,
	"learning_rate": 5.749413664371312e-07,
	"loss": 0.0166,
	"step": 970
	},
	{
	"epoch": 2.6133333333333333,
	"grad_norm": 0.4849845049586004,
	"learning_rate": 5.04820805531866e-07,
	"loss": 0.0145,
	"step": 980
	},
	{
	"epoch": 2.64,
	"grad_norm": 0.8516889515066723,
	"learning_rate": 4.390318696296247e-07,
	"loss": 0.0243,
	"step": 990
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 1.4789190891682085,
	"learning_rate": 3.776379539783709e-07,
	"loss": 0.0139,
	"step": 1000
	},
	{
	"epoch": 2.6933333333333334,
	"grad_norm": 1.6081836376889684,
	"learning_rate": 3.2069821871579255e-07,
	"loss": 0.0215,
	"step": 1010
	},
	{
	"epoch": 2.7199999999999998,
	"grad_norm": 0.4144713820139759,
	"learning_rate": 2.682675318616618e-07,
	"loss": 0.0209,
	"step": 1020
	},
	{
	"epoch": 2.7466666666666666,
	"grad_norm": 0.21158980680599782,
	"learning_rate": 2.203964164461597e-07,
	"loss": 0.0248,
	"step": 1030
	},
	{
	"epoch": 2.7733333333333334,
	"grad_norm": 0.5299302810713866,
	"learning_rate": 1.7713100182508604e-07,
	"loss": 0.0185,
	"step": 1040
	},
	{
	"epoch": 2.8,
	"grad_norm": 2.5027386573103887,
	"learning_rate": 1.385129792288986e-07,
	"loss": 0.0217,
	"step": 1050
	},
	{
	"epoch": 2.8266666666666667,
	"grad_norm": 0.4368601523839903,
	"learning_rate": 1.0457956158838545e-07,
	"loss": 0.0207,
	"step": 1060
	},
	{
	"epoch": 2.8533333333333335,
	"grad_norm": 0.31429096587158417,
	"learning_rate": 7.536344767570536e-08,
	"loss": 0.0169,
	"step": 1070
	},
	{
	"epoch": 2.88,
	"grad_norm": 1.0945209730105396,
	"learning_rate": 5.089279059533658e-08,
	"loss": 0.0157,
	"step": 1080
	},
	{
	"epoch": 2.9066666666666667,
	"grad_norm": 0.5327154717784401,
	"learning_rate": 3.119117065530808e-08,
	"loss": 0.019,
	"step": 1090
	},
	{
	"epoch": 2.9333333333333336,
	"grad_norm": 0.4860071901324206,
	"learning_rate": 1.627757264484442e-08,
	"loss": 0.0156,
	"step": 1100
	},
	{
	"epoch": 2.96,
	"grad_norm": 0.3189562486618297,
	"learning_rate": 6.166367540325624e-09,
	"loss": 0.0203,
	"step": 1110
	},
	{
	"epoch": 2.986666666666667,
	"grad_norm": 0.8355348751875977,
	"learning_rate": 8.672986571894859e-10,
	"loss": 0.0219,
	"step": 1120
	},
	{
	"epoch": 3.0,
	"step": 1125,
	"total_flos": 19972198760448.0,
	"train_loss": 0.035565850959883794,
	"train_runtime": 10521.2384,
	"train_samples_per_second": 6.843,
	"train_steps_per_second": 0.107
	}
	],
	"logging_steps": 10,
	"max_steps": 1125,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 10,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 19972198760448.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}