Upload trained model from Colab

dbaf6b9 verified 3 months ago

15.5 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 10.0,
	"eval_steps": 500,
	"global_step": 860,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.11627906976744186,
	"grad_norm": 108.15798950195312,
	"learning_rate": 2.3255813953488376e-06,
	"loss": 4.5639,
	"step": 10
	},
	{
	"epoch": 0.23255813953488372,
	"grad_norm": 82.37198638916016,
	"learning_rate": 4.651162790697675e-06,
	"loss": 4.3868,
	"step": 20
	},
	{
	"epoch": 0.3488372093023256,
	"grad_norm": 71.77903747558594,
	"learning_rate": 6.976744186046513e-06,
	"loss": 4.0951,
	"step": 30
	},
	{
	"epoch": 0.46511627906976744,
	"grad_norm": 66.50274658203125,
	"learning_rate": 9.30232558139535e-06,
	"loss": 3.7553,
	"step": 40
	},
	{
	"epoch": 0.5813953488372093,
	"grad_norm": 73.22584533691406,
	"learning_rate": 1.1627906976744187e-05,
	"loss": 3.3389,
	"step": 50
	},
	{
	"epoch": 0.6976744186046512,
	"grad_norm": 78.85617065429688,
	"learning_rate": 1.3953488372093025e-05,
	"loss": 2.8809,
	"step": 60
	},
	{
	"epoch": 0.813953488372093,
	"grad_norm": 70.36491394042969,
	"learning_rate": 1.6279069767441862e-05,
	"loss": 2.4333,
	"step": 70
	},
	{
	"epoch": 0.9302325581395349,
	"grad_norm": 88.5320053100586,
	"learning_rate": 1.86046511627907e-05,
	"loss": 1.8066,
	"step": 80
	},
	{
	"epoch": 1.0465116279069768,
	"grad_norm": 90.84140014648438,
	"learning_rate": 1.9896640826873385e-05,
	"loss": 1.2644,
	"step": 90
	},
	{
	"epoch": 1.1627906976744187,
	"grad_norm": 107.49101257324219,
	"learning_rate": 1.9638242894056848e-05,
	"loss": 1.0383,
	"step": 100
	},
	{
	"epoch": 1.2790697674418605,
	"grad_norm": 101.91487884521484,
	"learning_rate": 1.937984496124031e-05,
	"loss": 1.0025,
	"step": 110
	},
	{
	"epoch": 1.3953488372093024,
	"grad_norm": 92.1374740600586,
	"learning_rate": 1.9121447028423774e-05,
	"loss": 0.8067,
	"step": 120
	},
	{
	"epoch": 1.5116279069767442,
	"grad_norm": 93.908447265625,
	"learning_rate": 1.8863049095607237e-05,
	"loss": 0.8832,
	"step": 130
	},
	{
	"epoch": 1.627906976744186,
	"grad_norm": 70.7513198852539,
	"learning_rate": 1.86046511627907e-05,
	"loss": 0.7466,
	"step": 140
	},
	{
	"epoch": 1.744186046511628,
	"grad_norm": 87.94328308105469,
	"learning_rate": 1.8346253229974164e-05,
	"loss": 0.7646,
	"step": 150
	},
	{
	"epoch": 1.8604651162790697,
	"grad_norm": 73.78392028808594,
	"learning_rate": 1.8087855297157624e-05,
	"loss": 0.6297,
	"step": 160
	},
	{
	"epoch": 1.9767441860465116,
	"grad_norm": 76.53567504882812,
	"learning_rate": 1.7829457364341087e-05,
	"loss": 0.5853,
	"step": 170
	},
	{
	"epoch": 2.0930232558139537,
	"grad_norm": 59.62578582763672,
	"learning_rate": 1.757105943152455e-05,
	"loss": 0.443,
	"step": 180
	},
	{
	"epoch": 2.2093023255813953,
	"grad_norm": 49.40946578979492,
	"learning_rate": 1.7312661498708013e-05,
	"loss": 0.4205,
	"step": 190
	},
	{
	"epoch": 2.3255813953488373,
	"grad_norm": 60.58675765991211,
	"learning_rate": 1.7054263565891473e-05,
	"loss": 0.3815,
	"step": 200
	},
	{
	"epoch": 2.441860465116279,
	"grad_norm": 84.80896759033203,
	"learning_rate": 1.6795865633074936e-05,
	"loss": 0.4841,
	"step": 210
	},
	{
	"epoch": 2.558139534883721,
	"grad_norm": 63.476505279541016,
	"learning_rate": 1.65374677002584e-05,
	"loss": 0.4462,
	"step": 220
	},
	{
	"epoch": 2.6744186046511627,
	"grad_norm": 93.7468032836914,
	"learning_rate": 1.6279069767441862e-05,
	"loss": 0.458,
	"step": 230
	},
	{
	"epoch": 2.7906976744186047,
	"grad_norm": 72.0390625,
	"learning_rate": 1.6020671834625325e-05,
	"loss": 0.4498,
	"step": 240
	},
	{
	"epoch": 2.9069767441860463,
	"grad_norm": 57.512176513671875,
	"learning_rate": 1.5762273901808785e-05,
	"loss": 0.3927,
	"step": 250
	},
	{
	"epoch": 3.0232558139534884,
	"grad_norm": 51.03213882446289,
	"learning_rate": 1.550387596899225e-05,
	"loss": 0.3707,
	"step": 260
	},
	{
	"epoch": 3.13953488372093,
	"grad_norm": 60.818233489990234,
	"learning_rate": 1.5245478036175711e-05,
	"loss": 0.3091,
	"step": 270
	},
	{
	"epoch": 3.255813953488372,
	"grad_norm": 85.74930572509766,
	"learning_rate": 1.4987080103359175e-05,
	"loss": 0.3512,
	"step": 280
	},
	{
	"epoch": 3.3720930232558137,
	"grad_norm": 61.855953216552734,
	"learning_rate": 1.4728682170542636e-05,
	"loss": 0.3402,
	"step": 290
	},
	{
	"epoch": 3.488372093023256,
	"grad_norm": 73.42764282226562,
	"learning_rate": 1.44702842377261e-05,
	"loss": 0.2461,
	"step": 300
	},
	{
	"epoch": 3.604651162790698,
	"grad_norm": 58.168540954589844,
	"learning_rate": 1.421188630490956e-05,
	"loss": 0.2955,
	"step": 310
	},
	{
	"epoch": 3.7209302325581395,
	"grad_norm": 47.6633415222168,
	"learning_rate": 1.3953488372093025e-05,
	"loss": 0.336,
	"step": 320
	},
	{
	"epoch": 3.8372093023255816,
	"grad_norm": 63.79522705078125,
	"learning_rate": 1.3695090439276487e-05,
	"loss": 0.3029,
	"step": 330
	},
	{
	"epoch": 3.953488372093023,
	"grad_norm": 71.78118133544922,
	"learning_rate": 1.343669250645995e-05,
	"loss": 0.2938,
	"step": 340
	},
	{
	"epoch": 4.069767441860465,
	"grad_norm": 51.58977127075195,
	"learning_rate": 1.3178294573643412e-05,
	"loss": 0.2736,
	"step": 350
	},
	{
	"epoch": 4.186046511627907,
	"grad_norm": 62.82514572143555,
	"learning_rate": 1.2919896640826875e-05,
	"loss": 0.2936,
	"step": 360
	},
	{
	"epoch": 4.3023255813953485,
	"grad_norm": 61.00852584838867,
	"learning_rate": 1.2661498708010338e-05,
	"loss": 0.323,
	"step": 370
	},
	{
	"epoch": 4.4186046511627906,
	"grad_norm": 15.029560089111328,
	"learning_rate": 1.24031007751938e-05,
	"loss": 0.2644,
	"step": 380
	},
	{
	"epoch": 4.534883720930233,
	"grad_norm": 63.83937072753906,
	"learning_rate": 1.2144702842377262e-05,
	"loss": 0.2595,
	"step": 390
	},
	{
	"epoch": 4.651162790697675,
	"grad_norm": 50.91780090332031,
	"learning_rate": 1.1886304909560724e-05,
	"loss": 0.2734,
	"step": 400
	},
	{
	"epoch": 4.767441860465116,
	"grad_norm": 49.75490951538086,
	"learning_rate": 1.1627906976744187e-05,
	"loss": 0.2704,
	"step": 410
	},
	{
	"epoch": 4.883720930232558,
	"grad_norm": 49.518131256103516,
	"learning_rate": 1.1369509043927648e-05,
	"loss": 0.299,
	"step": 420
	},
	{
	"epoch": 5.0,
	"grad_norm": 30.25467872619629,
	"learning_rate": 1.1111111111111113e-05,
	"loss": 0.2598,
	"step": 430
	},
	{
	"epoch": 5.116279069767442,
	"grad_norm": 40.72892379760742,
	"learning_rate": 1.0852713178294573e-05,
	"loss": 0.21,
	"step": 440
	},
	{
	"epoch": 5.232558139534884,
	"grad_norm": 41.70243835449219,
	"learning_rate": 1.0594315245478038e-05,
	"loss": 0.2307,
	"step": 450
	},
	{
	"epoch": 5.348837209302325,
	"grad_norm": 66.0749740600586,
	"learning_rate": 1.03359173126615e-05,
	"loss": 0.1893,
	"step": 460
	},
	{
	"epoch": 5.465116279069767,
	"grad_norm": 55.968231201171875,
	"learning_rate": 1.0077519379844963e-05,
	"loss": 0.2739,
	"step": 470
	},
	{
	"epoch": 5.5813953488372094,
	"grad_norm": 44.32405090332031,
	"learning_rate": 9.819121447028424e-06,
	"loss": 0.2613,
	"step": 480
	},
	{
	"epoch": 5.6976744186046515,
	"grad_norm": 80.5435791015625,
	"learning_rate": 9.560723514211887e-06,
	"loss": 0.2298,
	"step": 490
	},
	{
	"epoch": 5.813953488372093,
	"grad_norm": 51.336830139160156,
	"learning_rate": 9.30232558139535e-06,
	"loss": 0.2614,
	"step": 500
	},
	{
	"epoch": 5.930232558139535,
	"grad_norm": 24.42147445678711,
	"learning_rate": 9.043927648578812e-06,
	"loss": 0.2813,
	"step": 510
	},
	{
	"epoch": 6.046511627906977,
	"grad_norm": 43.1801872253418,
	"learning_rate": 8.785529715762275e-06,
	"loss": 0.1733,
	"step": 520
	},
	{
	"epoch": 6.162790697674419,
	"grad_norm": 46.86786651611328,
	"learning_rate": 8.527131782945736e-06,
	"loss": 0.2382,
	"step": 530
	},
	{
	"epoch": 6.27906976744186,
	"grad_norm": 33.578487396240234,
	"learning_rate": 8.2687338501292e-06,
	"loss": 0.1822,
	"step": 540
	},
	{
	"epoch": 6.395348837209302,
	"grad_norm": 39.639198303222656,
	"learning_rate": 8.010335917312663e-06,
	"loss": 0.202,
	"step": 550
	},
	{
	"epoch": 6.511627906976744,
	"grad_norm": 27.308820724487305,
	"learning_rate": 7.751937984496126e-06,
	"loss": 0.2184,
	"step": 560
	},
	{
	"epoch": 6.627906976744186,
	"grad_norm": 30.545543670654297,
	"learning_rate": 7.493540051679587e-06,
	"loss": 0.185,
	"step": 570
	},
	{
	"epoch": 6.7441860465116275,
	"grad_norm": 47.775875091552734,
	"learning_rate": 7.23514211886305e-06,
	"loss": 0.2075,
	"step": 580
	},
	{
	"epoch": 6.8604651162790695,
	"grad_norm": 50.34706115722656,
	"learning_rate": 6.976744186046513e-06,
	"loss": 0.2519,
	"step": 590
	},
	{
	"epoch": 6.976744186046512,
	"grad_norm": 23.37942886352539,
	"learning_rate": 6.718346253229975e-06,
	"loss": 0.2196,
	"step": 600
	},
	{
	"epoch": 7.093023255813954,
	"grad_norm": 29.51810646057129,
	"learning_rate": 6.459948320413437e-06,
	"loss": 0.1596,
	"step": 610
	},
	{
	"epoch": 7.209302325581396,
	"grad_norm": 44.744171142578125,
	"learning_rate": 6.2015503875969e-06,
	"loss": 0.1719,
	"step": 620
	},
	{
	"epoch": 7.325581395348837,
	"grad_norm": 64.436767578125,
	"learning_rate": 5.943152454780362e-06,
	"loss": 0.2198,
	"step": 630
	},
	{
	"epoch": 7.441860465116279,
	"grad_norm": 19.253662109375,
	"learning_rate": 5.684754521963824e-06,
	"loss": 0.1481,
	"step": 640
	},
	{
	"epoch": 7.558139534883721,
	"grad_norm": 33.91790771484375,
	"learning_rate": 5.4263565891472865e-06,
	"loss": 0.2362,
	"step": 650
	},
	{
	"epoch": 7.674418604651163,
	"grad_norm": 27.47454071044922,
	"learning_rate": 5.16795865633075e-06,
	"loss": 0.1741,
	"step": 660
	},
	{
	"epoch": 7.790697674418604,
	"grad_norm": 33.89091491699219,
	"learning_rate": 4.909560723514212e-06,
	"loss": 0.1759,
	"step": 670
	},
	{
	"epoch": 7.906976744186046,
	"grad_norm": 50.72035217285156,
	"learning_rate": 4.651162790697675e-06,
	"loss": 0.1852,
	"step": 680
	},
	{
	"epoch": 8.023255813953488,
	"grad_norm": 15.040735244750977,
	"learning_rate": 4.3927648578811375e-06,
	"loss": 0.1454,
	"step": 690
	},
	{
	"epoch": 8.13953488372093,
	"grad_norm": 45.22159194946289,
	"learning_rate": 4.1343669250646e-06,
	"loss": 0.2117,
	"step": 700
	},
	{
	"epoch": 8.255813953488373,
	"grad_norm": 18.63289451599121,
	"learning_rate": 3.875968992248063e-06,
	"loss": 0.1718,
	"step": 710
	},
	{
	"epoch": 8.372093023255815,
	"grad_norm": 16.854759216308594,
	"learning_rate": 3.617571059431525e-06,
	"loss": 0.176,
	"step": 720
	},
	{
	"epoch": 8.488372093023255,
	"grad_norm": 49.81332015991211,
	"learning_rate": 3.3591731266149875e-06,
	"loss": 0.1962,
	"step": 730
	},
	{
	"epoch": 8.604651162790697,
	"grad_norm": 31.597118377685547,
	"learning_rate": 3.10077519379845e-06,
	"loss": 0.1685,
	"step": 740
	},
	{
	"epoch": 8.720930232558139,
	"grad_norm": 45.57378387451172,
	"learning_rate": 2.842377260981912e-06,
	"loss": 0.1693,
	"step": 750
	},
	{
	"epoch": 8.837209302325581,
	"grad_norm": 33.74851989746094,
	"learning_rate": 2.583979328165375e-06,
	"loss": 0.161,
	"step": 760
	},
	{
	"epoch": 8.953488372093023,
	"grad_norm": 32.361839294433594,
	"learning_rate": 2.3255813953488376e-06,
	"loss": 0.1661,
	"step": 770
	},
	{
	"epoch": 9.069767441860465,
	"grad_norm": 25.80358123779297,
	"learning_rate": 2.0671834625323e-06,
	"loss": 0.1393,
	"step": 780
	},
	{
	"epoch": 9.186046511627907,
	"grad_norm": 37.717708587646484,
	"learning_rate": 1.8087855297157624e-06,
	"loss": 0.1522,
	"step": 790
	},
	{
	"epoch": 9.30232558139535,
	"grad_norm": 36.026527404785156,
	"learning_rate": 1.550387596899225e-06,
	"loss": 0.1683,
	"step": 800
	},
	{
	"epoch": 9.418604651162791,
	"grad_norm": 41.67938232421875,
	"learning_rate": 1.2919896640826874e-06,
	"loss": 0.146,
	"step": 810
	},
	{
	"epoch": 9.534883720930232,
	"grad_norm": 26.428848266601562,
	"learning_rate": 1.03359173126615e-06,
	"loss": 0.1653,
	"step": 820
	},
	{
	"epoch": 9.651162790697674,
	"grad_norm": 20.74589729309082,
	"learning_rate": 7.751937984496125e-07,
	"loss": 0.1543,
	"step": 830
	},
	{
	"epoch": 9.767441860465116,
	"grad_norm": 25.37066078186035,
	"learning_rate": 5.16795865633075e-07,
	"loss": 0.1644,
	"step": 840
	},
	{
	"epoch": 9.883720930232558,
	"grad_norm": 56.05203628540039,
	"learning_rate": 2.583979328165375e-07,
	"loss": 0.1921,
	"step": 850
	},
	{
	"epoch": 10.0,
	"grad_norm": 0.19254037737846375,
	"learning_rate": 0.0,
	"loss": 0.1691,
	"step": 860
	}
	],
	"logging_steps": 10,
	"max_steps": 860,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 2500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}