Mistral-EN-Part-2 / trainer_state.json

Upload folder using huggingface_hub

2308a88 verified 10 months ago

15.7 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.989247311827957,
	"eval_steps": 500,
	"global_step": 696,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.043010752688172046,
	"grad_norm": 3.3071749210357666,
	"learning_rate": 2.9984721919587606e-05,
	"loss": 0.9267,
	"num_input_tokens_seen": 26208,
	"step": 10
	},
	{
	"epoch": 0.08602150537634409,
	"grad_norm": 1.9867345094680786,
	"learning_rate": 2.9938918800982563e-05,
	"loss": 0.1561,
	"num_input_tokens_seen": 53152,
	"step": 20
	},
	{
	"epoch": 0.12903225806451613,
	"grad_norm": 10.124670028686523,
	"learning_rate": 2.9862683948682103e-05,
	"loss": 0.1764,
	"num_input_tokens_seen": 79776,
	"step": 30
	},
	{
	"epoch": 0.17204301075268819,
	"grad_norm": 2.0668740272521973,
	"learning_rate": 2.975617265898004e-05,
	"loss": 0.1505,
	"num_input_tokens_seen": 106496,
	"step": 40
	},
	{
	"epoch": 0.21505376344086022,
	"grad_norm": 2.0054426193237305,
	"learning_rate": 2.961960190361624e-05,
	"loss": 0.1615,
	"num_input_tokens_seen": 133728,
	"step": 50
	},
	{
	"epoch": 0.25806451612903225,
	"grad_norm": 2.5156946182250977,
	"learning_rate": 2.9453249887788343e-05,
	"loss": 0.1369,
	"num_input_tokens_seen": 159936,
	"step": 60
	},
	{
	"epoch": 0.3010752688172043,
	"grad_norm": 1.1180003881454468,
	"learning_rate": 2.925745548342631e-05,
	"loss": 0.1253,
	"num_input_tokens_seen": 186240,
	"step": 70
	},
	{
	"epoch": 0.34408602150537637,
	"grad_norm": 13.929261207580566,
	"learning_rate": 2.9032617538884018e-05,
	"loss": 0.1479,
	"num_input_tokens_seen": 212832,
	"step": 80
	},
	{
	"epoch": 0.3870967741935484,
	"grad_norm": 2.071075439453125,
	"learning_rate": 2.877919406645433e-05,
	"loss": 0.1102,
	"num_input_tokens_seen": 239648,
	"step": 90
	},
	{
	"epoch": 0.43010752688172044,
	"grad_norm": 2.170992374420166,
	"learning_rate": 2.84977013093626e-05,
	"loss": 0.099,
	"num_input_tokens_seen": 265888,
	"step": 100
	},
	{
	"epoch": 0.4731182795698925,
	"grad_norm": 5.617093086242676,
	"learning_rate": 2.818871269013928e-05,
	"loss": 0.107,
	"num_input_tokens_seen": 292480,
	"step": 110
	},
	{
	"epoch": 0.5161290322580645,
	"grad_norm": 6.3603010177612305,
	"learning_rate": 2.7852857642513838e-05,
	"loss": 0.1183,
	"num_input_tokens_seen": 318784,
	"step": 120
	},
	{
	"epoch": 0.5591397849462365,
	"grad_norm": 3.8436505794525146,
	"learning_rate": 2.7490820329209546e-05,
	"loss": 0.1097,
	"num_input_tokens_seen": 346016,
	"step": 130
	},
	{
	"epoch": 0.6021505376344086,
	"grad_norm": 1.736432671546936,
	"learning_rate": 2.7103338248251055e-05,
	"loss": 0.0946,
	"num_input_tokens_seen": 372384,
	"step": 140
	},
	{
	"epoch": 0.6451612903225806,
	"grad_norm": 8.300951957702637,
	"learning_rate": 2.6691200730623874e-05,
	"loss": 0.1251,
	"num_input_tokens_seen": 399328,
	"step": 150
	},
	{
	"epoch": 0.6881720430107527,
	"grad_norm": 2.540724277496338,
	"learning_rate": 2.6255247332346036e-05,
	"loss": 0.1069,
	"num_input_tokens_seen": 426048,
	"step": 160
	},
	{
	"epoch": 0.7311827956989247,
	"grad_norm": 1.967483639717102,
	"learning_rate": 2.5796366124227532e-05,
	"loss": 0.0904,
	"num_input_tokens_seen": 452640,
	"step": 170
	},
	{
	"epoch": 0.7741935483870968,
	"grad_norm": 5.206757545471191,
	"learning_rate": 2.531549188280135e-05,
	"loss": 0.1273,
	"num_input_tokens_seen": 479808,
	"step": 180
	},
	{
	"epoch": 0.8172043010752689,
	"grad_norm": 3.0387344360351562,
	"learning_rate": 2.481360418611132e-05,
	"loss": 0.1206,
	"num_input_tokens_seen": 506176,
	"step": 190
	},
	{
	"epoch": 0.8602150537634409,
	"grad_norm": 2.0281670093536377,
	"learning_rate": 2.4291725418235848e-05,
	"loss": 0.103,
	"num_input_tokens_seen": 533216,
	"step": 200
	},
	{
	"epoch": 0.9032258064516129,
	"grad_norm": 2.5650763511657715,
	"learning_rate": 2.3750918686612414e-05,
	"loss": 0.0696,
	"num_input_tokens_seen": 561056,
	"step": 210
	},
	{
	"epoch": 0.946236559139785,
	"grad_norm": 8.955713272094727,
	"learning_rate": 2.3192285656405456e-05,
	"loss": 0.0822,
	"num_input_tokens_seen": 588160,
	"step": 220
	},
	{
	"epoch": 0.989247311827957,
	"grad_norm": 3.034013032913208,
	"learning_rate": 2.2616964306329183e-05,
	"loss": 0.0913,
	"num_input_tokens_seen": 615168,
	"step": 230
	},
	{
	"epoch": 1.0301075268817204,
	"grad_norm": 2.60020112991333,
	"learning_rate": 2.2026126610496852e-05,
	"loss": 0.0735,
	"num_input_tokens_seen": 639864,
	"step": 240
	},
	{
	"epoch": 1.0731182795698926,
	"grad_norm": 4.891764163970947,
	"learning_rate": 2.1420976151018813e-05,
	"loss": 0.0752,
	"num_input_tokens_seen": 667224,
	"step": 250
	},
	{
	"epoch": 1.1161290322580646,
	"grad_norm": 1.1149002313613892,
	"learning_rate": 2.0802745666212592e-05,
	"loss": 0.0588,
	"num_input_tokens_seen": 693848,
	"step": 260
	},
	{
	"epoch": 1.1591397849462366,
	"grad_norm": 3.1601271629333496,
	"learning_rate": 2.0172694539419557e-05,
	"loss": 0.0924,
	"num_input_tokens_seen": 720568,
	"step": 270
	},
	{
	"epoch": 1.2021505376344086,
	"grad_norm": 3.555192470550537,
	"learning_rate": 1.953210623354359e-05,
	"loss": 0.062,
	"num_input_tokens_seen": 746872,
	"step": 280
	},
	{
	"epoch": 1.2451612903225806,
	"grad_norm": 2.235698699951172,
	"learning_rate": 1.888228567653781e-05,
	"loss": 0.0621,
	"num_input_tokens_seen": 773720,
	"step": 290
	},
	{
	"epoch": 1.2881720430107526,
	"grad_norm": 2.9058539867401123,
	"learning_rate": 1.8224556603165363e-05,
	"loss": 0.075,
	"num_input_tokens_seen": 801464,
	"step": 300
	},
	{
	"epoch": 1.3311827956989246,
	"grad_norm": 3.204787015914917,
	"learning_rate": 1.7560258858449248e-05,
	"loss": 0.0858,
	"num_input_tokens_seen": 829144,
	"step": 310
	},
	{
	"epoch": 1.3741935483870968,
	"grad_norm": 1.0885004997253418,
	"learning_rate": 1.689074566830434e-05,
	"loss": 0.0697,
	"num_input_tokens_seen": 855672,
	"step": 320
	},
	{
	"epoch": 1.4172043010752688,
	"grad_norm": 3.0750925540924072,
	"learning_rate": 1.621738088291147e-05,
	"loss": 0.0827,
	"num_input_tokens_seen": 882424,
	"step": 330
	},
	{
	"epoch": 1.4602150537634409,
	"grad_norm": 2.689297914505005,
	"learning_rate": 1.5541536198449044e-05,
	"loss": 0.0651,
	"num_input_tokens_seen": 908792,
	"step": 340
	},
	{
	"epoch": 1.5032258064516129,
	"grad_norm": 2.297851324081421,
	"learning_rate": 1.4864588362841808e-05,
	"loss": 0.0607,
	"num_input_tokens_seen": 935672,
	"step": 350
	},
	{
	"epoch": 1.546236559139785,
	"grad_norm": 2.712674140930176,
	"learning_rate": 1.4187916371218739e-05,
	"loss": 0.056,
	"num_input_tokens_seen": 961848,
	"step": 360
	},
	{
	"epoch": 1.589247311827957,
	"grad_norm": 0.8086225986480713,
	"learning_rate": 1.3512898656793283e-05,
	"loss": 0.0823,
	"num_input_tokens_seen": 988600,
	"step": 370
	},
	{
	"epoch": 1.632258064516129,
	"grad_norm": 2.166210174560547,
	"learning_rate": 1.2840910282888211e-05,
	"loss": 0.058,
	"num_input_tokens_seen": 1014840,
	"step": 380
	},
	{
	"epoch": 1.675268817204301,
	"grad_norm": 5.169621467590332,
	"learning_rate": 1.2173320141825232e-05,
	"loss": 0.0705,
	"num_input_tokens_seen": 1040856,
	"step": 390
	},
	{
	"epoch": 1.718279569892473,
	"grad_norm": 1.8176069259643555,
	"learning_rate": 1.1511488166385349e-05,
	"loss": 0.0514,
	"num_input_tokens_seen": 1067544,
	"step": 400
	},
	{
	"epoch": 1.761290322580645,
	"grad_norm": 3.424694776535034,
	"learning_rate": 1.0856762559520605e-05,
	"loss": 0.0834,
	"num_input_tokens_seen": 1094584,
	"step": 410
	},
	{
	"epoch": 1.8043010752688171,
	"grad_norm": 1.8838876485824585,
	"learning_rate": 1.0210477047960303e-05,
	"loss": 0.0583,
	"num_input_tokens_seen": 1120760,
	"step": 420
	},
	{
	"epoch": 1.8473118279569891,
	"grad_norm": 3.7757434844970703,
	"learning_rate": 9.573948165306438e-06,
	"loss": 0.0922,
	"num_input_tokens_seen": 1146776,
	"step": 430
	},
	{
	"epoch": 1.8903225806451613,
	"grad_norm": 3.0619328022003174,
	"learning_rate": 8.948472570152874e-06,
	"loss": 0.0633,
	"num_input_tokens_seen": 1174424,
	"step": 440
	},
	{
	"epoch": 1.9333333333333333,
	"grad_norm": 2.5175821781158447,
	"learning_rate": 8.33532440469145e-06,
	"loss": 0.0597,
	"num_input_tokens_seen": 1201048,
	"step": 450
	},
	{
	"epoch": 1.9763440860215054,
	"grad_norm": 3.6232197284698486,
	"learning_rate": 7.735752699185711e-06,
	"loss": 0.0491,
	"num_input_tokens_seen": 1227576,
	"step": 460
	},
	{
	"epoch": 2.0172043010752687,
	"grad_norm": 2.8846399784088135,
	"learning_rate": 7.150978827599619e-06,
	"loss": 0.0341,
	"num_input_tokens_seen": 1252160,
	"step": 470
	},
	{
	"epoch": 2.0602150537634407,
	"grad_norm": 2.196216106414795,
	"learning_rate": 6.582194019564266e-06,
	"loss": 0.0373,
	"num_input_tokens_seen": 1279328,
	"step": 480
	},
	{
	"epoch": 2.1032258064516127,
	"grad_norm": 1.4616115093231201,
	"learning_rate": 6.0305569337509225e-06,
	"loss": 0.0281,
	"num_input_tokens_seen": 1306304,
	"step": 490
	},
	{
	"epoch": 2.146236559139785,
	"grad_norm": 0.17581823468208313,
	"learning_rate": 5.497191297593647e-06,
	"loss": 0.0183,
	"num_input_tokens_seen": 1333184,
	"step": 500
	},
	{
	"epoch": 2.189247311827957,
	"grad_norm": 3.8919403553009033,
	"learning_rate": 4.98318361816957e-06,
	"loss": 0.0334,
	"num_input_tokens_seen": 1359872,
	"step": 510
	},
	{
	"epoch": 2.232258064516129,
	"grad_norm": 1.3041765689849854,
	"learning_rate": 4.4895809688998655e-06,
	"loss": 0.0282,
	"num_input_tokens_seen": 1387328,
	"step": 520
	},
	{
	"epoch": 2.275268817204301,
	"grad_norm": 1.669753074645996,
	"learning_rate": 4.017388856580178e-06,
	"loss": 0.0562,
	"num_input_tokens_seen": 1414816,
	"step": 530
	},
	{
	"epoch": 2.318279569892473,
	"grad_norm": 0.28061679005622864,
	"learning_rate": 3.567569173085455e-06,
	"loss": 0.0243,
	"num_input_tokens_seen": 1441504,
	"step": 540
	},
	{
	"epoch": 2.361290322580645,
	"grad_norm": 2.324270009994507,
	"learning_rate": 3.1410382359217645e-06,
	"loss": 0.044,
	"num_input_tokens_seen": 1467680,
	"step": 550
	},
	{
	"epoch": 2.404301075268817,
	"grad_norm": 2.708113670349121,
	"learning_rate": 2.7386649216166233e-06,
	"loss": 0.0551,
	"num_input_tokens_seen": 1494176,
	"step": 560
	},
	{
	"epoch": 2.447311827956989,
	"grad_norm": 3.16683030128479,
	"learning_rate": 2.361268895750264e-06,
	"loss": 0.0258,
	"num_input_tokens_seen": 1520544,
	"step": 570
	},
	{
	"epoch": 2.490322580645161,
	"grad_norm": 6.040332794189453,
	"learning_rate": 2.0096189432334194e-06,
	"loss": 0.0415,
	"num_input_tokens_seen": 1547264,
	"step": 580
	},
	{
	"epoch": 2.533333333333333,
	"grad_norm": 5.078160285949707,
	"learning_rate": 1.6844314022329676e-06,
	"loss": 0.0375,
	"num_input_tokens_seen": 1573920,
	"step": 590
	},
	{
	"epoch": 2.576344086021505,
	"grad_norm": 4.950022220611572,
	"learning_rate": 1.3863687049356465e-06,
	"loss": 0.0235,
	"num_input_tokens_seen": 1600640,
	"step": 600
	},
	{
	"epoch": 2.6193548387096772,
	"grad_norm": 1.7687643766403198,
	"learning_rate": 1.116038028122413e-06,
	"loss": 0.0354,
	"num_input_tokens_seen": 1626848,
	"step": 610
	},
	{
	"epoch": 2.6623655913978492,
	"grad_norm": 3.893580913543701,
	"learning_rate": 8.7399005630238e-07,
	"loss": 0.0357,
	"num_input_tokens_seen": 1653408,
	"step": 620
	},
	{
	"epoch": 2.7053763440860212,
	"grad_norm": 2.830453395843506,
	"learning_rate": 6.607178599258268e-07,
	"loss": 0.0512,
	"num_input_tokens_seen": 1679968,
	"step": 630
	},
	{
	"epoch": 2.7483870967741937,
	"grad_norm": 3.638772487640381,
	"learning_rate": 4.766558909615504e-07,
	"loss": 0.0243,
	"num_input_tokens_seen": 1706944,
	"step": 640
	},
	{
	"epoch": 2.7913978494623657,
	"grad_norm": 1.229244589805603,
	"learning_rate": 3.22179097884579e-07,
	"loss": 0.0367,
	"num_input_tokens_seen": 1733888,
	"step": 650
	},
	{
	"epoch": 2.8344086021505377,
	"grad_norm": 2.9207515716552734,
	"learning_rate": 1.9760216187710788e-07,
	"loss": 0.0377,
	"num_input_tokens_seen": 1760448,
	"step": 660
	},
	{
	"epoch": 2.8774193548387097,
	"grad_norm": 3.560971975326538,
	"learning_rate": 1.0317885579858522e-07,
	"loss": 0.0471,
	"num_input_tokens_seen": 1787072,
	"step": 670
	},
	{
	"epoch": 2.9204301075268817,
	"grad_norm": 0.2031625360250473,
	"learning_rate": 3.910152723075322e-08,
	"loss": 0.0222,
	"num_input_tokens_seen": 1813632,
	"step": 680
	},
	{
	"epoch": 2.9634408602150537,
	"grad_norm": 4.158380508422852,
	"learning_rate": 5.50070665074065e-09,
	"loss": 0.0454,
	"num_input_tokens_seen": 1840384,
	"step": 690
	},
	{
	"epoch": 2.989247311827957,
	"num_input_tokens_seen": 1855776,
	"step": 696,
	"total_flos": 7.944329136203366e+16,
	"train_loss": 0.08561765917459097,
	"train_runtime": 638.811,
	"train_samples_per_second": 8.721,
	"train_steps_per_second": 1.09
	}
	],
	"logging_steps": 10,
	"max_steps": 696,
	"num_input_tokens_seen": 1855776,
	"num_train_epochs": 3,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 7.944329136203366e+16,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}