PolicyGuard-4B / trainer_state.json
Rakancorle1's picture
End of training
7a0939f verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 3.0,
"eval_steps": 500,
"global_step": 1125,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.02666666666666667,
"grad_norm": 32.16063934344277,
"learning_rate": 7.964601769911505e-07,
"loss": 0.5475,
"step": 10
},
{
"epoch": 0.05333333333333334,
"grad_norm": 6.567221676912103,
"learning_rate": 1.68141592920354e-06,
"loss": 0.1438,
"step": 20
},
{
"epoch": 0.08,
"grad_norm": 16.400774853834218,
"learning_rate": 2.5663716814159294e-06,
"loss": 0.1063,
"step": 30
},
{
"epoch": 0.10666666666666667,
"grad_norm": 6.359588347442692,
"learning_rate": 3.4513274336283186e-06,
"loss": 0.0596,
"step": 40
},
{
"epoch": 0.13333333333333333,
"grad_norm": 2.3210922841562738,
"learning_rate": 4.336283185840709e-06,
"loss": 0.0425,
"step": 50
},
{
"epoch": 0.16,
"grad_norm": 3.267338886551915,
"learning_rate": 5.2212389380530985e-06,
"loss": 0.0411,
"step": 60
},
{
"epoch": 0.18666666666666668,
"grad_norm": 13.686826873015601,
"learning_rate": 6.1061946902654865e-06,
"loss": 0.0592,
"step": 70
},
{
"epoch": 0.21333333333333335,
"grad_norm": 4.268192345486851,
"learning_rate": 6.991150442477876e-06,
"loss": 0.057,
"step": 80
},
{
"epoch": 0.24,
"grad_norm": 1.3230850797325053,
"learning_rate": 7.876106194690266e-06,
"loss": 0.0511,
"step": 90
},
{
"epoch": 0.26666666666666666,
"grad_norm": 3.342187327113933,
"learning_rate": 8.761061946902656e-06,
"loss": 0.0434,
"step": 100
},
{
"epoch": 0.29333333333333333,
"grad_norm": 3.4227515638852752,
"learning_rate": 9.646017699115045e-06,
"loss": 0.0544,
"step": 110
},
{
"epoch": 0.32,
"grad_norm": 4.412559659885227,
"learning_rate": 9.99913270134281e-06,
"loss": 0.058,
"step": 120
},
{
"epoch": 0.3466666666666667,
"grad_norm": 0.6474526366203736,
"learning_rate": 9.993833632459675e-06,
"loss": 0.0562,
"step": 130
},
{
"epoch": 0.37333333333333335,
"grad_norm": 8.771255095390313,
"learning_rate": 9.983722427355157e-06,
"loss": 0.0686,
"step": 140
},
{
"epoch": 0.4,
"grad_norm": 2.6270874614247934,
"learning_rate": 9.968808829344692e-06,
"loss": 0.033,
"step": 150
},
{
"epoch": 0.4266666666666667,
"grad_norm": 0.7486973272155489,
"learning_rate": 9.949107209404664e-06,
"loss": 0.0372,
"step": 160
},
{
"epoch": 0.4533333333333333,
"grad_norm": 4.189538788489708,
"learning_rate": 9.924636552324296e-06,
"loss": 0.0358,
"step": 170
},
{
"epoch": 0.48,
"grad_norm": 0.6483598739981203,
"learning_rate": 9.895420438411616e-06,
"loss": 0.0376,
"step": 180
},
{
"epoch": 0.5066666666666667,
"grad_norm": 1.9094671130157965,
"learning_rate": 9.861487020771103e-06,
"loss": 0.0445,
"step": 190
},
{
"epoch": 0.5333333333333333,
"grad_norm": 2.3259218499415804,
"learning_rate": 9.822868998174914e-06,
"loss": 0.0427,
"step": 200
},
{
"epoch": 0.56,
"grad_norm": 2.156446848730766,
"learning_rate": 9.779603583553842e-06,
"loss": 0.0374,
"step": 210
},
{
"epoch": 0.5866666666666667,
"grad_norm": 0.9597466279865825,
"learning_rate": 9.731732468138338e-06,
"loss": 0.0409,
"step": 220
},
{
"epoch": 0.6133333333333333,
"grad_norm": 0.7868867124962591,
"learning_rate": 9.679301781284209e-06,
"loss": 0.0329,
"step": 230
},
{
"epoch": 0.64,
"grad_norm": 1.62807853244579,
"learning_rate": 9.62236204602163e-06,
"loss": 0.0364,
"step": 240
},
{
"epoch": 0.6666666666666666,
"grad_norm": 0.4368965192056904,
"learning_rate": 9.560968130370376e-06,
"loss": 0.0319,
"step": 250
},
{
"epoch": 0.6933333333333334,
"grad_norm": 0.78653849956095,
"learning_rate": 9.495179194468135e-06,
"loss": 0.0373,
"step": 260
},
{
"epoch": 0.72,
"grad_norm": 3.4853295787469367,
"learning_rate": 9.42505863356287e-06,
"loss": 0.0365,
"step": 270
},
{
"epoch": 0.7466666666666667,
"grad_norm": 0.8783456698130101,
"learning_rate": 9.35067401692417e-06,
"loss": 0.0365,
"step": 280
},
{
"epoch": 0.7733333333333333,
"grad_norm": 2.2890841164043896,
"learning_rate": 9.272097022732444e-06,
"loss": 0.0352,
"step": 290
},
{
"epoch": 0.8,
"grad_norm": 0.5200146240226767,
"learning_rate": 9.189403369008704e-06,
"loss": 0.0351,
"step": 300
},
{
"epoch": 0.8266666666666667,
"grad_norm": 1.1669857247761828,
"learning_rate": 9.1026727406515e-06,
"loss": 0.0301,
"step": 310
},
{
"epoch": 0.8533333333333334,
"grad_norm": 1.6648372637355544,
"learning_rate": 9.011988712651295e-06,
"loss": 0.0344,
"step": 320
},
{
"epoch": 0.88,
"grad_norm": 0.49471094793678266,
"learning_rate": 8.917438669556307e-06,
"loss": 0.0332,
"step": 330
},
{
"epoch": 0.9066666666666666,
"grad_norm": 4.093981624105955,
"learning_rate": 8.819113721267385e-06,
"loss": 0.0357,
"step": 340
},
{
"epoch": 0.9333333333333333,
"grad_norm": 2.999015503453908,
"learning_rate": 8.717108615243081e-06,
"loss": 0.0432,
"step": 350
},
{
"epoch": 0.96,
"grad_norm": 1.5409883491156575,
"learning_rate": 8.611521645199532e-06,
"loss": 0.0389,
"step": 360
},
{
"epoch": 0.9866666666666667,
"grad_norm": 1.7355752046628126,
"learning_rate": 8.502454556393071e-06,
"loss": 0.0345,
"step": 370
},
{
"epoch": 1.0133333333333334,
"grad_norm": 0.6290142419411443,
"learning_rate": 8.390012447576931e-06,
"loss": 0.0352,
"step": 380
},
{
"epoch": 1.04,
"grad_norm": 0.998999378757009,
"learning_rate": 8.274303669726427e-06,
"loss": 0.037,
"step": 390
},
{
"epoch": 1.0666666666666667,
"grad_norm": 1.7203257499840563,
"learning_rate": 8.155439721630265e-06,
"loss": 0.0304,
"step": 400
},
{
"epoch": 1.0933333333333333,
"grad_norm": 1.4374612432793097,
"learning_rate": 8.03353514244857e-06,
"loss": 0.0216,
"step": 410
},
{
"epoch": 1.12,
"grad_norm": 0.579554465372659,
"learning_rate": 7.908707401341146e-06,
"loss": 0.0323,
"step": 420
},
{
"epoch": 1.1466666666666667,
"grad_norm": 2.773200563476286,
"learning_rate": 7.781076784272377e-06,
"loss": 0.0341,
"step": 430
},
{
"epoch": 1.1733333333333333,
"grad_norm": 3.550540828329406,
"learning_rate": 7.650766278101762e-06,
"loss": 0.0329,
"step": 440
},
{
"epoch": 1.2,
"grad_norm": 0.5515580193304647,
"learning_rate": 7.51790145207188e-06,
"loss": 0.0268,
"step": 450
},
{
"epoch": 1.2266666666666666,
"grad_norm": 1.283409960615874,
"learning_rate": 7.382610336807887e-06,
"loss": 0.0218,
"step": 460
},
{
"epoch": 1.2533333333333334,
"grad_norm": 0.9095799044130223,
"learning_rate": 7.245023300945203e-06,
"loss": 0.0413,
"step": 470
},
{
"epoch": 1.28,
"grad_norm": 2.4887934586907696,
"learning_rate": 7.1052729255042645e-06,
"loss": 0.0308,
"step": 480
},
{
"epoch": 1.3066666666666666,
"grad_norm": 0.7141213123224076,
"learning_rate": 6.963493876133367e-06,
"loss": 0.0332,
"step": 490
},
{
"epoch": 1.3333333333333333,
"grad_norm": 0.9149870982144377,
"learning_rate": 6.81982277334275e-06,
"loss": 0.024,
"step": 500
},
{
"epoch": 1.3599999999999999,
"grad_norm": 1.295195973673907,
"learning_rate": 6.674398060854931e-06,
"loss": 0.0238,
"step": 510
},
{
"epoch": 1.3866666666666667,
"grad_norm": 0.7554872779425962,
"learning_rate": 6.527359872198166e-06,
"loss": 0.022,
"step": 520
},
{
"epoch": 1.4133333333333333,
"grad_norm": 0.6242502684574066,
"learning_rate": 6.378849895671594e-06,
"loss": 0.0242,
"step": 530
},
{
"epoch": 1.44,
"grad_norm": 0.9830147127712261,
"learning_rate": 6.229011237812172e-06,
"loss": 0.0318,
"step": 540
},
{
"epoch": 1.4666666666666668,
"grad_norm": 0.9146134481301997,
"learning_rate": 6.0779882854949745e-06,
"loss": 0.0294,
"step": 550
},
{
"epoch": 1.4933333333333334,
"grad_norm": 0.9811594902690147,
"learning_rate": 5.925926566799754e-06,
"loss": 0.026,
"step": 560
},
{
"epoch": 1.52,
"grad_norm": 0.4851403666625478,
"learning_rate": 5.7729726107777855e-06,
"loss": 0.027,
"step": 570
},
{
"epoch": 1.5466666666666666,
"grad_norm": 0.2544634724888273,
"learning_rate": 5.6192738062542e-06,
"loss": 0.0284,
"step": 580
},
{
"epoch": 1.5733333333333333,
"grad_norm": 0.36644989714339743,
"learning_rate": 5.464978259801797e-06,
"loss": 0.024,
"step": 590
},
{
"epoch": 1.6,
"grad_norm": 0.43988741518108126,
"learning_rate": 5.3102346530232365e-06,
"loss": 0.0223,
"step": 600
},
{
"epoch": 1.6266666666666667,
"grad_norm": 0.5226214040502056,
"learning_rate": 5.155192099279113e-06,
"loss": 0.0249,
"step": 610
},
{
"epoch": 1.6533333333333333,
"grad_norm": 1.1119970846827298,
"learning_rate": 5e-06,
"loss": 0.0253,
"step": 620
},
{
"epoch": 1.6800000000000002,
"grad_norm": 0.8680971082218792,
"learning_rate": 4.844807900720888e-06,
"loss": 0.0284,
"step": 630
},
{
"epoch": 1.7066666666666666,
"grad_norm": 1.2771195764125927,
"learning_rate": 4.689765346976765e-06,
"loss": 0.031,
"step": 640
},
{
"epoch": 1.7333333333333334,
"grad_norm": 1.2987869328099824,
"learning_rate": 4.535021740198202e-06,
"loss": 0.0285,
"step": 650
},
{
"epoch": 1.76,
"grad_norm": 0.5503557889607777,
"learning_rate": 4.3807261937458005e-06,
"loss": 0.0221,
"step": 660
},
{
"epoch": 1.7866666666666666,
"grad_norm": 0.34195500176254995,
"learning_rate": 4.227027389222215e-06,
"loss": 0.0302,
"step": 670
},
{
"epoch": 1.8133333333333335,
"grad_norm": 0.5321038179644965,
"learning_rate": 4.074073433200249e-06,
"loss": 0.0251,
"step": 680
},
{
"epoch": 1.8399999999999999,
"grad_norm": 0.6459786858896845,
"learning_rate": 3.9220117145050254e-06,
"loss": 0.0272,
"step": 690
},
{
"epoch": 1.8666666666666667,
"grad_norm": 0.185882280385459,
"learning_rate": 3.7709887621878305e-06,
"loss": 0.0233,
"step": 700
},
{
"epoch": 1.8933333333333333,
"grad_norm": 0.2565813341134651,
"learning_rate": 3.621150104328407e-06,
"loss": 0.0278,
"step": 710
},
{
"epoch": 1.92,
"grad_norm": 3.1620511689525883,
"learning_rate": 3.4726401278018353e-06,
"loss": 0.0201,
"step": 720
},
{
"epoch": 1.9466666666666668,
"grad_norm": 1.1210855653638465,
"learning_rate": 3.3256019391450696e-06,
"loss": 0.0264,
"step": 730
},
{
"epoch": 1.9733333333333334,
"grad_norm": 1.1321594665504457,
"learning_rate": 3.180177226657251e-06,
"loss": 0.0275,
"step": 740
},
{
"epoch": 2.0,
"grad_norm": 0.46250821232538014,
"learning_rate": 3.0365061238666336e-06,
"loss": 0.026,
"step": 750
},
{
"epoch": 2.026666666666667,
"grad_norm": 0.6774924836452516,
"learning_rate": 2.8947270744957385e-06,
"loss": 0.0205,
"step": 760
},
{
"epoch": 2.0533333333333332,
"grad_norm": 0.583612934420677,
"learning_rate": 2.7549766990547973e-06,
"loss": 0.0212,
"step": 770
},
{
"epoch": 2.08,
"grad_norm": 0.2854747824255563,
"learning_rate": 2.6173896631921134e-06,
"loss": 0.0206,
"step": 780
},
{
"epoch": 2.1066666666666665,
"grad_norm": 0.9164854943563306,
"learning_rate": 2.4820985479281184e-06,
"loss": 0.0185,
"step": 790
},
{
"epoch": 2.1333333333333333,
"grad_norm": 0.2507431366650127,
"learning_rate": 2.3492337218982396e-06,
"loss": 0.0215,
"step": 800
},
{
"epoch": 2.16,
"grad_norm": 0.2683693148125547,
"learning_rate": 2.2189232157276247e-06,
"loss": 0.0159,
"step": 810
},
{
"epoch": 2.1866666666666665,
"grad_norm": 1.8732417076656713,
"learning_rate": 2.0912925986588547e-06,
"loss": 0.0184,
"step": 820
},
{
"epoch": 2.2133333333333334,
"grad_norm": 0.4107367017375117,
"learning_rate": 1.9664648575514316e-06,
"loss": 0.0177,
"step": 830
},
{
"epoch": 2.24,
"grad_norm": 0.6028137557406312,
"learning_rate": 1.8445602783697375e-06,
"loss": 0.0208,
"step": 840
},
{
"epoch": 2.2666666666666666,
"grad_norm": 0.61431790944023,
"learning_rate": 1.7256963302735752e-06,
"loss": 0.0222,
"step": 850
},
{
"epoch": 2.2933333333333334,
"grad_norm": 1.7863302074699874,
"learning_rate": 1.6099875524230707e-06,
"loss": 0.0207,
"step": 860
},
{
"epoch": 2.32,
"grad_norm": 0.30948586663760247,
"learning_rate": 1.4975454436069292e-06,
"loss": 0.0191,
"step": 870
},
{
"epoch": 2.3466666666666667,
"grad_norm": 0.21356918780539055,
"learning_rate": 1.3884783548004704e-06,
"loss": 0.0172,
"step": 880
},
{
"epoch": 2.3733333333333335,
"grad_norm": 0.4293833130975588,
"learning_rate": 1.2828913847569185e-06,
"loss": 0.0165,
"step": 890
},
{
"epoch": 2.4,
"grad_norm": 0.7665664160011331,
"learning_rate": 1.1808862787326176e-06,
"loss": 0.0212,
"step": 900
},
{
"epoch": 2.4266666666666667,
"grad_norm": 0.7757194968554726,
"learning_rate": 1.0825613304436938e-06,
"loss": 0.0154,
"step": 910
},
{
"epoch": 2.453333333333333,
"grad_norm": 0.7605435517474121,
"learning_rate": 9.880112873487068e-07,
"loss": 0.0159,
"step": 920
},
{
"epoch": 2.48,
"grad_norm": 0.33268130417226893,
"learning_rate": 8.973272593485011e-07,
"loss": 0.0174,
"step": 930
},
{
"epoch": 2.506666666666667,
"grad_norm": 0.3270317530223883,
"learning_rate": 8.105966309912966e-07,
"loss": 0.0214,
"step": 940
},
{
"epoch": 2.533333333333333,
"grad_norm": 0.7628137287702192,
"learning_rate": 7.279029772675572e-07,
"loss": 0.0193,
"step": 950
},
{
"epoch": 2.56,
"grad_norm": 0.46415652247522604,
"learning_rate": 6.493259830758325e-07,
"loss": 0.0185,
"step": 960
},
{
"epoch": 2.586666666666667,
"grad_norm": 0.6591115001059403,
"learning_rate": 5.749413664371312e-07,
"loss": 0.0166,
"step": 970
},
{
"epoch": 2.6133333333333333,
"grad_norm": 0.4849845049586004,
"learning_rate": 5.04820805531866e-07,
"loss": 0.0145,
"step": 980
},
{
"epoch": 2.64,
"grad_norm": 0.8516889515066723,
"learning_rate": 4.390318696296247e-07,
"loss": 0.0243,
"step": 990
},
{
"epoch": 2.6666666666666665,
"grad_norm": 1.4789190891682085,
"learning_rate": 3.776379539783709e-07,
"loss": 0.0139,
"step": 1000
},
{
"epoch": 2.6933333333333334,
"grad_norm": 1.6081836376889684,
"learning_rate": 3.2069821871579255e-07,
"loss": 0.0215,
"step": 1010
},
{
"epoch": 2.7199999999999998,
"grad_norm": 0.4144713820139759,
"learning_rate": 2.682675318616618e-07,
"loss": 0.0209,
"step": 1020
},
{
"epoch": 2.7466666666666666,
"grad_norm": 0.21158980680599782,
"learning_rate": 2.203964164461597e-07,
"loss": 0.0248,
"step": 1030
},
{
"epoch": 2.7733333333333334,
"grad_norm": 0.5299302810713866,
"learning_rate": 1.7713100182508604e-07,
"loss": 0.0185,
"step": 1040
},
{
"epoch": 2.8,
"grad_norm": 2.5027386573103887,
"learning_rate": 1.385129792288986e-07,
"loss": 0.0217,
"step": 1050
},
{
"epoch": 2.8266666666666667,
"grad_norm": 0.4368601523839903,
"learning_rate": 1.0457956158838545e-07,
"loss": 0.0207,
"step": 1060
},
{
"epoch": 2.8533333333333335,
"grad_norm": 0.31429096587158417,
"learning_rate": 7.536344767570536e-08,
"loss": 0.0169,
"step": 1070
},
{
"epoch": 2.88,
"grad_norm": 1.0945209730105396,
"learning_rate": 5.089279059533658e-08,
"loss": 0.0157,
"step": 1080
},
{
"epoch": 2.9066666666666667,
"grad_norm": 0.5327154717784401,
"learning_rate": 3.119117065530808e-08,
"loss": 0.019,
"step": 1090
},
{
"epoch": 2.9333333333333336,
"grad_norm": 0.4860071901324206,
"learning_rate": 1.627757264484442e-08,
"loss": 0.0156,
"step": 1100
},
{
"epoch": 2.96,
"grad_norm": 0.3189562486618297,
"learning_rate": 6.166367540325624e-09,
"loss": 0.0203,
"step": 1110
},
{
"epoch": 2.986666666666667,
"grad_norm": 0.8355348751875977,
"learning_rate": 8.672986571894859e-10,
"loss": 0.0219,
"step": 1120
},
{
"epoch": 3.0,
"step": 1125,
"total_flos": 19972198760448.0,
"train_loss": 0.035565850959883794,
"train_runtime": 10521.2384,
"train_samples_per_second": 6.843,
"train_steps_per_second": 0.107
}
],
"logging_steps": 10,
"max_steps": 1125,
"num_input_tokens_seen": 0,
"num_train_epochs": 3,
"save_steps": 10,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 19972198760448.0,
"train_batch_size": 2,
"trial_name": null,
"trial_params": null
}