GeoSense / trainer_state.json

Upload initial model weights

1039edb verified 2 months ago

16.4 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.43873012004143563,
	"eval_steps": 500,
	"global_step": 4500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004874779111571507,
	"grad_norm": 581.0810546875,
	"learning_rate": 1.6233766233766232e-07,
	"loss": 42.9948,
	"step": 50
	},
	{
	"epoch": 0.009749558223143015,
	"grad_norm": 331.4380798339844,
	"learning_rate": 3.2467532467532465e-07,
	"loss": 36.4433,
	"step": 100
	},
	{
	"epoch": 0.014624337334714521,
	"grad_norm": 399.9220886230469,
	"learning_rate": 4.87012987012987e-07,
	"loss": 33.9757,
	"step": 150
	},
	{
	"epoch": 0.01949911644628603,
	"grad_norm": 227.4508514404297,
	"learning_rate": 6.493506493506493e-07,
	"loss": 24.5654,
	"step": 200
	},
	{
	"epoch": 0.024373895557857534,
	"grad_norm": 169.74786376953125,
	"learning_rate": 8.116883116883116e-07,
	"loss": 18.221,
	"step": 250
	},
	{
	"epoch": 0.029248674669429042,
	"grad_norm": 151.637451171875,
	"learning_rate": 9.74025974025974e-07,
	"loss": 15.1792,
	"step": 300
	},
	{
	"epoch": 0.03412345378100055,
	"grad_norm": 140.70602416992188,
	"learning_rate": 9.99956019474448e-07,
	"loss": 13.3062,
	"step": 350
	},
	{
	"epoch": 0.03899823289257206,
	"grad_norm": 163.72286987304688,
	"learning_rate": 9.997889850109673e-07,
	"loss": 12.1289,
	"step": 400
	},
	{
	"epoch": 0.04387301200414356,
	"grad_norm": 205.9079132080078,
	"learning_rate": 9.994973425669175e-07,
	"loss": 11.2206,
	"step": 450
	},
	{
	"epoch": 0.04874779111571507,
	"grad_norm": 190.47525024414062,
	"learning_rate": 9.990811648549374e-07,
	"loss": 10.3846,
	"step": 500
	},
	{
	"epoch": 0.05362257022728657,
	"grad_norm": 63.44021224975586,
	"learning_rate": 9.98540555636946e-07,
	"loss": 10.0807,
	"step": 550
	},
	{
	"epoch": 0.058497349338858085,
	"grad_norm": 134.91310119628906,
	"learning_rate": 9.978756496982724e-07,
	"loss": 9.2068,
	"step": 600
	},
	{
	"epoch": 0.0633721284504296,
	"grad_norm": 125.61437225341797,
	"learning_rate": 9.97086612814052e-07,
	"loss": 8.8829,
	"step": 650
	},
	{
	"epoch": 0.0682469075620011,
	"grad_norm": 148.3848876953125,
	"learning_rate": 9.961736417078928e-07,
	"loss": 8.8043,
	"step": 700
	},
	{
	"epoch": 0.0731216866735726,
	"grad_norm": 360.50970458984375,
	"learning_rate": 9.951369640028304e-07,
	"loss": 9.8165,
	"step": 750
	},
	{
	"epoch": 0.07799646578514412,
	"grad_norm": 89.09446716308594,
	"learning_rate": 9.939768381645761e-07,
	"loss": 8.9056,
	"step": 800
	},
	{
	"epoch": 0.08287124489671562,
	"grad_norm": 163.72415161132812,
	"learning_rate": 9.92693553437075e-07,
	"loss": 9.5952,
	"step": 850
	},
	{
	"epoch": 0.08774602400828713,
	"grad_norm": 147.0449981689453,
	"learning_rate": 9.912874297703925e-07,
	"loss": 9.0044,
	"step": 900
	},
	{
	"epoch": 0.09262080311985862,
	"grad_norm": 171.43394470214844,
	"learning_rate": 9.897588177409434e-07,
	"loss": 9.1141,
	"step": 950
	},
	{
	"epoch": 0.09749558223143014,
	"grad_norm": 206.17628479003906,
	"learning_rate": 9.88108098464086e-07,
	"loss": 8.1566,
	"step": 1000
	},
	{
	"epoch": 0.10237036134300165,
	"grad_norm": 131.0735321044922,
	"learning_rate": 9.863356834991016e-07,
	"loss": 8.4912,
	"step": 1050
	},
	{
	"epoch": 0.10724514045457315,
	"grad_norm": 140.00730895996094,
	"learning_rate": 9.844420147465848e-07,
	"loss": 8.1491,
	"step": 1100
	},
	{
	"epoch": 0.11211991956614466,
	"grad_norm": 163.5810089111328,
	"learning_rate": 9.824275643382676e-07,
	"loss": 8.6904,
	"step": 1150
	},
	{
	"epoch": 0.11699469867771617,
	"grad_norm": 129.7275848388672,
	"learning_rate": 9.802928345193068e-07,
	"loss": 8.1686,
	"step": 1200
	},
	{
	"epoch": 0.12186947778928767,
	"grad_norm": 115.78919219970703,
	"learning_rate": 9.780383575230648e-07,
	"loss": 7.6378,
	"step": 1250
	},
	{
	"epoch": 0.1267442569008592,
	"grad_norm": 74.11811828613281,
	"learning_rate": 9.756646954384115e-07,
	"loss": 7.8103,
	"step": 1300
	},
	{
	"epoch": 0.1316190360124307,
	"grad_norm": 93.70452880859375,
	"learning_rate": 9.731724400695836e-07,
	"loss": 8.122,
	"step": 1350
	},
	{
	"epoch": 0.1364938151240022,
	"grad_norm": 110.20355987548828,
	"learning_rate": 9.70562212788636e-07,
	"loss": 7.8767,
	"step": 1400
	},
	{
	"epoch": 0.1413685942355737,
	"grad_norm": 96.42841339111328,
	"learning_rate": 9.6783466438052e-07,
	"loss": 8.0516,
	"step": 1450
	},
	{
	"epoch": 0.1462433733471452,
	"grad_norm": 98.32221221923828,
	"learning_rate": 9.649904748808292e-07,
	"loss": 7.6941,
	"step": 1500
	},
	{
	"epoch": 0.1511181524587167,
	"grad_norm": 107.42027282714844,
	"learning_rate": 9.620303534062518e-07,
	"loss": 8.0057,
	"step": 1550
	},
	{
	"epoch": 0.15599293157028823,
	"grad_norm": 55.05694580078125,
	"learning_rate": 9.589550379777732e-07,
	"loss": 7.4756,
	"step": 1600
	},
	{
	"epoch": 0.16086771068185973,
	"grad_norm": 117.27649688720703,
	"learning_rate": 9.557652953366717e-07,
	"loss": 6.8833,
	"step": 1650
	},
	{
	"epoch": 0.16574248979343123,
	"grad_norm": 174.34263610839844,
	"learning_rate": 9.52461920753353e-07,
	"loss": 7.4795,
	"step": 1700
	},
	{
	"epoch": 0.17061726890500276,
	"grad_norm": 119.58318328857422,
	"learning_rate": 9.490457378290737e-07,
	"loss": 7.7871,
	"step": 1750
	},
	{
	"epoch": 0.17549204801657425,
	"grad_norm": 142.45582580566406,
	"learning_rate": 9.455175982905988e-07,
	"loss": 8.1505,
	"step": 1800
	},
	{
	"epoch": 0.18036682712814575,
	"grad_norm": 122.0265884399414,
	"learning_rate": 9.418783817778484e-07,
	"loss": 7.6914,
	"step": 1850
	},
	{
	"epoch": 0.18524160623971725,
	"grad_norm": 96.58927917480469,
	"learning_rate": 9.381289956245861e-07,
	"loss": 7.5846,
	"step": 1900
	},
	{
	"epoch": 0.19011638535128877,
	"grad_norm": 238.81964111328125,
	"learning_rate": 9.342703746321997e-07,
	"loss": 7.7886,
	"step": 1950
	},
	{
	"epoch": 0.19499116446286027,
	"grad_norm": 61.6027946472168,
	"learning_rate": 9.303034808366366e-07,
	"loss": 7.2491,
	"step": 2000
	},
	{
	"epoch": 0.19986594357443177,
	"grad_norm": 96.19196319580078,
	"learning_rate": 9.262293032685475e-07,
	"loss": 6.8776,
	"step": 2050
	},
	{
	"epoch": 0.2047407226860033,
	"grad_norm": 72.44068908691406,
	"learning_rate": 9.220488577066996e-07,
	"loss": 7.2714,
	"step": 2100
	},
	{
	"epoch": 0.2096155017975748,
	"grad_norm": 160.9955291748047,
	"learning_rate": 9.177631864247226e-07,
	"loss": 7.4344,
	"step": 2150
	},
	{
	"epoch": 0.2144902809091463,
	"grad_norm": 78.55003356933594,
	"learning_rate": 9.133733579312468e-07,
	"loss": 7.2211,
	"step": 2200
	},
	{
	"epoch": 0.21936506002071782,
	"grad_norm": 141.0493621826172,
	"learning_rate": 9.088804667035016e-07,
	"loss": 7.3533,
	"step": 2250
	},
	{
	"epoch": 0.22423983913228931,
	"grad_norm": 106.55406951904297,
	"learning_rate": 9.042856329144392e-07,
	"loss": 7.526,
	"step": 2300
	},
	{
	"epoch": 0.2291146182438608,
	"grad_norm": 116.47844696044922,
	"learning_rate": 8.995900021534517e-07,
	"loss": 6.5839,
	"step": 2350
	},
	{
	"epoch": 0.23398939735543234,
	"grad_norm": 87.43718719482422,
	"learning_rate": 8.947947451407512e-07,
	"loss": 7.2284,
	"step": 2400
	},
	{
	"epoch": 0.23886417646700384,
	"grad_norm": 135.8431854248047,
	"learning_rate": 8.89901057435485e-07,
	"loss": 7.6484,
	"step": 2450
	},
	{
	"epoch": 0.24373895557857533,
	"grad_norm": 87.54926300048828,
	"learning_rate": 8.849101591376568e-07,
	"loss": 7.2991,
	"step": 2500
	},
	{
	"epoch": 0.24861373469014686,
	"grad_norm": 109.77268981933594,
	"learning_rate": 8.798232945839304e-07,
	"loss": 6.9895,
	"step": 2550
	},
	{
	"epoch": 0.2534885138017184,
	"grad_norm": 118.82627868652344,
	"learning_rate": 8.746417320373896e-07,
	"loss": 7.4786,
	"step": 2600
	},
	{
	"epoch": 0.25836329291328985,
	"grad_norm": 175.50918579101562,
	"learning_rate": 8.693667633713338e-07,
	"loss": 6.6877,
	"step": 2650
	},
	{
	"epoch": 0.2632380720248614,
	"grad_norm": 190.9921875,
	"learning_rate": 8.639997037471867e-07,
	"loss": 6.8118,
	"step": 2700
	},
	{
	"epoch": 0.2681128511364329,
	"grad_norm": 163.4025115966797,
	"learning_rate": 8.585418912865986e-07,
	"loss": 6.9759,
	"step": 2750
	},
	{
	"epoch": 0.2729876302480044,
	"grad_norm": 149.16815185546875,
	"learning_rate": 8.529946867378241e-07,
	"loss": 7.2147,
	"step": 2800
	},
	{
	"epoch": 0.2778624093595759,
	"grad_norm": 97.56202697753906,
	"learning_rate": 8.473594731364587e-07,
	"loss": 7.1163,
	"step": 2850
	},
	{
	"epoch": 0.2827371884711474,
	"grad_norm": 104.49602508544922,
	"learning_rate": 8.416376554606195e-07,
	"loss": 7.5656,
	"step": 2900
	},
	{
	"epoch": 0.2876119675827189,
	"grad_norm": 130.78414916992188,
	"learning_rate": 8.358306602806534e-07,
	"loss": 6.901,
	"step": 2950
	},
	{
	"epoch": 0.2924867466942904,
	"grad_norm": 152.71543884277344,
	"learning_rate": 8.299399354034633e-07,
	"loss": 7.0534,
	"step": 3000
	},
	{
	"epoch": 0.29736152580586195,
	"grad_norm": 128.23233032226562,
	"learning_rate": 8.239669495115393e-07,
	"loss": 7.2949,
	"step": 3050
	},
	{
	"epoch": 0.3022363049174334,
	"grad_norm": 212.286865234375,
	"learning_rate": 8.179131917967852e-07,
	"loss": 7.1819,
	"step": 3100
	},
	{
	"epoch": 0.30711108402900494,
	"grad_norm": 146.38832092285156,
	"learning_rate": 8.117801715892306e-07,
	"loss": 7.3945,
	"step": 3150
	},
	{
	"epoch": 0.31198586314057647,
	"grad_norm": 98.95829010009766,
	"learning_rate": 8.05569417980724e-07,
	"loss": 7.0111,
	"step": 3200
	},
	{
	"epoch": 0.31686064225214794,
	"grad_norm": 147.78128051757812,
	"learning_rate": 7.992824794436971e-07,
	"loss": 7.1754,
	"step": 3250
	},
	{
	"epoch": 0.32173542136371946,
	"grad_norm": 137.8080596923828,
	"learning_rate": 7.92920923445098e-07,
	"loss": 7.2801,
	"step": 3300
	},
	{
	"epoch": 0.326610200475291,
	"grad_norm": 156.37132263183594,
	"learning_rate": 7.864863360555886e-07,
	"loss": 7.1625,
	"step": 3350
	},
	{
	"epoch": 0.33148497958686246,
	"grad_norm": 176.6288299560547,
	"learning_rate": 7.799803215541036e-07,
	"loss": 7.5386,
	"step": 3400
	},
	{
	"epoch": 0.336359758698434,
	"grad_norm": 150.56468200683594,
	"learning_rate": 7.734045020278694e-07,
	"loss": 6.9751,
	"step": 3450
	},
	{
	"epoch": 0.3412345378100055,
	"grad_norm": 138.31723022460938,
	"learning_rate": 7.667605169679842e-07,
	"loss": 6.8245,
	"step": 3500
	},
	{
	"epoch": 0.346109316921577,
	"grad_norm": 100.9895248413086,
	"learning_rate": 7.600500228606573e-07,
	"loss": 6.947,
	"step": 3550
	},
	{
	"epoch": 0.3509840960331485,
	"grad_norm": 142.1031036376953,
	"learning_rate": 7.532746927742119e-07,
	"loss": 6.9751,
	"step": 3600
	},
	{
	"epoch": 0.35585887514472,
	"grad_norm": 182.1207275390625,
	"learning_rate": 7.464362159419551e-07,
	"loss": 7.1473,
	"step": 3650
	},
	{
	"epoch": 0.3607336542562915,
	"grad_norm": 162.8542938232422,
	"learning_rate": 7.395362973410145e-07,
	"loss": 7.7815,
	"step": 3700
	},
	{
	"epoch": 0.36560843336786303,
	"grad_norm": 168.93276977539062,
	"learning_rate": 7.325766572672528e-07,
	"loss": 7.7646,
	"step": 3750
	},
	{
	"epoch": 0.3704832124794345,
	"grad_norm": 159.7053985595703,
	"learning_rate": 7.255590309063604e-07,
	"loss": 6.4885,
	"step": 3800
	},
	{
	"epoch": 0.375357991591006,
	"grad_norm": 96.07608795166016,
	"learning_rate": 7.184851679012374e-07,
	"loss": 6.9556,
	"step": 3850
	},
	{
	"epoch": 0.38023277070257755,
	"grad_norm": 158.5734100341797,
	"learning_rate": 7.113568319157707e-07,
	"loss": 6.9754,
	"step": 3900
	},
	{
	"epoch": 0.385107549814149,
	"grad_norm": 151.5749969482422,
	"learning_rate": 7.041758001951149e-07,
	"loss": 6.6478,
	"step": 3950
	},
	{
	"epoch": 0.38998232892572054,
	"grad_norm": 118.84528350830078,
	"learning_rate": 6.969438631225877e-07,
	"loss": 6.3464,
	"step": 4000
	},
	{
	"epoch": 0.39485710803729207,
	"grad_norm": 130.48410034179688,
	"learning_rate": 6.896628237732894e-07,
	"loss": 7.0122,
	"step": 4050
	},
	{
	"epoch": 0.39973188714886354,
	"grad_norm": 92.12020874023438,
	"learning_rate": 6.823344974645576e-07,
	"loss": 7.2089,
	"step": 4100
	},
	{
	"epoch": 0.40460666626043507,
	"grad_norm": 113.18313598632812,
	"learning_rate": 6.749607113033709e-07,
	"loss": 7.2546,
	"step": 4150
	},
	{
	"epoch": 0.4094814453720066,
	"grad_norm": 106.96129608154297,
	"learning_rate": 6.675433037308119e-07,
	"loss": 7.3078,
	"step": 4200
	},
	{
	"epoch": 0.41435622448357806,
	"grad_norm": 150.419677734375,
	"learning_rate": 6.600841240637052e-07,
	"loss": 7.1537,
	"step": 4250
	},
	{
	"epoch": 0.4192310035951496,
	"grad_norm": 88.62400817871094,
	"learning_rate": 6.525850320335433e-07,
	"loss": 7.0714,
	"step": 4300
	},
	{
	"epoch": 0.4241057827067211,
	"grad_norm": 83.91474151611328,
	"learning_rate": 6.450478973228162e-07,
	"loss": 6.9181,
	"step": 4350
	},
	{
	"epoch": 0.4289805618182926,
	"grad_norm": 135.38629150390625,
	"learning_rate": 6.374745990988598e-07,
	"loss": 7.1421,
	"step": 4400
	},
	{
	"epoch": 0.4338553409298641,
	"grad_norm": 101.2317123413086,
	"learning_rate": 6.298670255453404e-07,
	"loss": 6.6926,
	"step": 4450
	},
	{
	"epoch": 0.43873012004143563,
	"grad_norm": 112.95464324951172,
	"learning_rate": 6.222270733914895e-07,
	"loss": 6.7252,
	"step": 4500
	}
	],
	"logging_steps": 50,
	"max_steps": 10256,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.8045681436358345e+19,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}