Dyck / checkpoint-600 /trainer_state.json

Upload folder using huggingface_hub

7f31d5e verified about 1 month ago

12 kB

	{
	"best_global_step": 600,
	"best_metric": 0.07363789528608322,
	"best_model_checkpoint": "results/checkpoint-600",
	"epoch": 2.0,
	"eval_steps": 100,
	"global_step": 600,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.03333333333333333,
	"grad_norm": 9.697060585021973,
	"learning_rate": 3.6e-07,
	"loss": 7.2438,
	"step": 10
	},
	{
	"epoch": 0.06666666666666667,
	"grad_norm": 8.801666259765625,
	"learning_rate": 7.600000000000001e-07,
	"loss": 7.156,
	"step": 20
	},
	{
	"epoch": 0.1,
	"grad_norm": 7.470696926116943,
	"learning_rate": 1.16e-06,
	"loss": 6.9673,
	"step": 30
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 6.263430595397949,
	"learning_rate": 1.56e-06,
	"loss": 6.7094,
	"step": 40
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 5.286303520202637,
	"learning_rate": 1.96e-06,
	"loss": 6.3714,
	"step": 50
	},
	{
	"epoch": 0.2,
	"grad_norm": 4.652409076690674,
	"learning_rate": 2.36e-06,
	"loss": 5.9859,
	"step": 60
	},
	{
	"epoch": 0.23333333333333334,
	"grad_norm": 4.126605987548828,
	"learning_rate": 2.7600000000000003e-06,
	"loss": 5.5458,
	"step": 70
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 3.8642539978027344,
	"learning_rate": 3.16e-06,
	"loss": 5.0487,
	"step": 80
	},
	{
	"epoch": 0.3,
	"grad_norm": 3.7739064693450928,
	"learning_rate": 3.5600000000000002e-06,
	"loss": 4.4878,
	"step": 90
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 3.5410406589508057,
	"learning_rate": 3.96e-06,
	"loss": 3.8707,
	"step": 100
	},
	{
	"epoch": 0.3333333333333333,
	"eval_loss": 0.8786314725875854,
	"eval_runtime": 130.6011,
	"eval_samples_per_second": 18.377,
	"eval_steps_per_second": 1.531,
	"step": 100
	},
	{
	"epoch": 0.36666666666666664,
	"grad_norm": 3.659569501876831,
	"learning_rate": 4.360000000000001e-06,
	"loss": 3.2011,
	"step": 110
	},
	{
	"epoch": 0.4,
	"grad_norm": 3.39253306388855,
	"learning_rate": 4.76e-06,
	"loss": 2.4442,
	"step": 120
	},
	{
	"epoch": 0.43333333333333335,
	"grad_norm": 2.4652178287506104,
	"learning_rate": 5.16e-06,
	"loss": 1.7345,
	"step": 130
	},
	{
	"epoch": 0.4666666666666667,
	"grad_norm": 1.445365309715271,
	"learning_rate": 5.56e-06,
	"loss": 1.2175,
	"step": 140
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.7545905113220215,
	"learning_rate": 5.96e-06,
	"loss": 0.9318,
	"step": 150
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 0.6413900256156921,
	"learning_rate": 5.994080185284815e-06,
	"loss": 0.7965,
	"step": 160
	},
	{
	"epoch": 0.5666666666666667,
	"grad_norm": 0.5500534176826477,
	"learning_rate": 5.973646620754625e-06,
	"loss": 0.7122,
	"step": 170
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.5907195210456848,
	"learning_rate": 5.938725748798032e-06,
	"loss": 0.6514,
	"step": 180
	},
	{
	"epoch": 0.6333333333333333,
	"grad_norm": 0.5499018430709839,
	"learning_rate": 5.889487700392975e-06,
	"loss": 0.6073,
	"step": 190
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 0.601067304611206,
	"learning_rate": 5.82617235836189e-06,
	"loss": 0.5703,
	"step": 200
	},
	{
	"epoch": 0.6666666666666666,
	"eval_loss": 0.1373768150806427,
	"eval_runtime": 130.1499,
	"eval_samples_per_second": 18.44,
	"eval_steps_per_second": 1.537,
	"step": 200
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.6595374345779419,
	"learning_rate": 5.749088188686719e-06,
	"loss": 0.5374,
	"step": 210
	},
	{
	"epoch": 0.7333333333333333,
	"grad_norm": 0.7147516012191772,
	"learning_rate": 5.658610737693644e-06,
	"loss": 0.5085,
	"step": 220
	},
	{
	"epoch": 0.7666666666666667,
	"grad_norm": 0.7410432696342468,
	"learning_rate": 5.555180802429143e-06,
	"loss": 0.4852,
	"step": 230
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.6519659757614136,
	"learning_rate": 5.439302283141083e-06,
	"loss": 0.4643,
	"step": 240
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 0.44764214754104614,
	"learning_rate": 5.311539728327368e-06,
	"loss": 0.4464,
	"step": 250
	},
	{
	"epoch": 0.8666666666666667,
	"grad_norm": 0.48451387882232666,
	"learning_rate": 5.172515584312403e-06,
	"loss": 0.4267,
	"step": 260
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.6145723462104797,
	"learning_rate": 5.02290716275117e-06,
	"loss": 0.4102,
	"step": 270
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 0.6194537281990051,
	"learning_rate": 4.863443340834931e-06,
	"loss": 0.3958,
	"step": 280
	},
	{
	"epoch": 0.9666666666666667,
	"grad_norm": 0.5969278216362,
	"learning_rate": 4.694901010274814e-06,
	"loss": 0.3839,
	"step": 290
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.5556809306144714,
	"learning_rate": 4.518101292363491e-06,
	"loss": 0.3699,
	"step": 300
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.0905652716755867,
	"eval_runtime": 130.206,
	"eval_samples_per_second": 18.432,
	"eval_steps_per_second": 1.536,
	"step": 300
	},
	{
	"epoch": 1.0333333333333334,
	"grad_norm": 0.588930070400238,
	"learning_rate": 4.333905537554782e-06,
	"loss": 0.3568,
	"step": 310
	},
	{
	"epoch": 1.0666666666666667,
	"grad_norm": 0.6096176505088806,
	"learning_rate": 4.143211129050823e-06,
	"loss": 0.3458,
	"step": 320
	},
	{
	"epoch": 1.1,
	"grad_norm": 0.5085943937301636,
	"learning_rate": 3.946947110841308e-06,
	"loss": 0.335,
	"step": 330
	},
	{
	"epoch": 1.1333333333333333,
	"grad_norm": 0.37106063961982727,
	"learning_rate": 3.746069661494565e-06,
	"loss": 0.3275,
	"step": 340
	},
	{
	"epoch": 1.1666666666666667,
	"grad_norm": 0.30709022283554077,
	"learning_rate": 3.5415574357516803e-06,
	"loss": 0.3227,
	"step": 350
	},
	{
	"epoch": 1.2,
	"grad_norm": 0.3143058717250824,
	"learning_rate": 3.334406796618976e-06,
	"loss": 0.3189,
	"step": 360
	},
	{
	"epoch": 1.2333333333333334,
	"grad_norm": 0.37548017501831055,
	"learning_rate": 3.125626961187599e-06,
	"loss": 0.3138,
	"step": 370
	},
	{
	"epoch": 1.2666666666666666,
	"grad_norm": 0.3183898627758026,
	"learning_rate": 2.916235083829294e-06,
	"loss": 0.3136,
	"step": 380
	},
	{
	"epoch": 1.3,
	"grad_norm": 0.38318926095962524,
	"learning_rate": 2.707251300722552e-06,
	"loss": 0.3103,
	"step": 390
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 0.3728318512439728,
	"learning_rate": 2.4996937598516936e-06,
	"loss": 0.3079,
	"step": 400
	},
	{
	"epoch": 1.3333333333333333,
	"eval_loss": 0.07631697505712509,
	"eval_runtime": 130.1373,
	"eval_samples_per_second": 18.442,
	"eval_steps_per_second": 1.537,
	"step": 400
	},
	{
	"epoch": 1.3666666666666667,
	"grad_norm": 0.33388274908065796,
	"learning_rate": 2.29457366069223e-06,
	"loss": 0.3057,
	"step": 410
	},
	{
	"epoch": 1.4,
	"grad_norm": 0.3089640438556671,
	"learning_rate": 2.0928903277486667e-06,
	"loss": 0.3051,
	"step": 420
	},
	{
	"epoch": 1.4333333333333333,
	"grad_norm": 0.3750895857810974,
	"learning_rate": 1.8956263419459662e-06,
	"loss": 0.3031,
	"step": 430
	},
	{
	"epoch": 1.4666666666666668,
	"grad_norm": 0.2710581421852112,
	"learning_rate": 1.7037427535940527e-06,
	"loss": 0.3026,
	"step": 440
	},
	{
	"epoch": 1.5,
	"grad_norm": 0.272029310464859,
	"learning_rate": 1.5181744002473076e-06,
	"loss": 0.3004,
	"step": 450
	},
	{
	"epoch": 1.5333333333333332,
	"grad_norm": 0.35962343215942383,
	"learning_rate": 1.339825352269968e-06,
	"loss": 0.2999,
	"step": 460
	},
	{
	"epoch": 1.5666666666666667,
	"grad_norm": 0.3471361994743347,
	"learning_rate": 1.1695645082961973e-06,
	"loss": 0.2986,
	"step": 470
	},
	{
	"epoch": 1.6,
	"grad_norm": 0.30093762278556824,
	"learning_rate": 1.0082213620432753e-06,
	"loss": 0.2981,
	"step": 480
	},
	{
	"epoch": 1.6333333333333333,
	"grad_norm": 0.31187185645103455,
	"learning_rate": 8.565819611015906e-07,
	"loss": 0.2982,
	"step": 490
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 0.3007357716560364,
	"learning_rate": 7.153850773897903e-07,
	"loss": 0.2972,
	"step": 500
	},
	{
	"epoch": 1.6666666666666665,
	"eval_loss": 0.07405494153499603,
	"eval_runtime": 130.2794,
	"eval_samples_per_second": 18.422,
	"eval_steps_per_second": 1.535,
	"step": 500
	},
	{
	"epoch": 1.7,
	"grad_norm": 0.3840883672237396,
	"learning_rate": 5.853186079322579e-07,
	"loss": 0.2969,
	"step": 510
	},
	{
	"epoch": 1.7333333333333334,
	"grad_norm": 0.28318050503730774,
	"learning_rate": 4.6701622349395544e-07,
	"loss": 0.2957,
	"step": 520
	},
	{
	"epoch": 1.7666666666666666,
	"grad_norm": 0.33587414026260376,
	"learning_rate": 3.6105428140015095e-07,
	"loss": 0.2953,
	"step": 530
	},
	{
	"epoch": 1.8,
	"grad_norm": 0.3025602400302887,
	"learning_rate": 2.6794901758146895e-07,
	"loss": 0.2958,
	"step": 540
	},
	{
	"epoch": 1.8333333333333335,
	"grad_norm": 0.3313562273979187,
	"learning_rate": 1.8815403152432564e-07,
	"loss": 0.2953,
	"step": 550
	},
	{
	"epoch": 1.8666666666666667,
	"grad_norm": 0.29559338092803955,
	"learning_rate": 1.2205807637982747e-07,
	"loss": 0.2946,
	"step": 560
	},
	{
	"epoch": 1.9,
	"grad_norm": 0.32724061608314514,
	"learning_rate": 6.998316499749624e-08,
	"loss": 0.2957,
	"step": 570
	},
	{
	"epoch": 1.9333333333333333,
	"grad_norm": 0.24922741949558258,
	"learning_rate": 3.2183001111035e-08,
	"loss": 0.2952,
	"step": 580
	},
	{
	"epoch": 1.9666666666666668,
	"grad_norm": 0.30010986328125,
	"learning_rate": 8.84174331923926e-09,
	"loss": 0.2957,
	"step": 590
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.3091154396533966,
	"learning_rate": 7.31078838157595e-11,
	"loss": 0.2949,
	"step": 600
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.07363789528608322,
	"eval_runtime": 130.171,
	"eval_samples_per_second": 18.437,
	"eval_steps_per_second": 1.536,
	"step": 600
	}
	],
	"logging_steps": 10,
	"max_steps": 600,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 8.586752390332416e+17,
	"train_batch_size": 48,
	"trial_name": null,
	"trial_params": null
	}