Dyck / checkpoint-600 /trainer_state.json
joseneto023dev's picture
Upload folder using huggingface_hub
7f31d5e verified
{
"best_global_step": 600,
"best_metric": 0.07363789528608322,
"best_model_checkpoint": "results/checkpoint-600",
"epoch": 2.0,
"eval_steps": 100,
"global_step": 600,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.03333333333333333,
"grad_norm": 9.697060585021973,
"learning_rate": 3.6e-07,
"loss": 7.2438,
"step": 10
},
{
"epoch": 0.06666666666666667,
"grad_norm": 8.801666259765625,
"learning_rate": 7.600000000000001e-07,
"loss": 7.156,
"step": 20
},
{
"epoch": 0.1,
"grad_norm": 7.470696926116943,
"learning_rate": 1.16e-06,
"loss": 6.9673,
"step": 30
},
{
"epoch": 0.13333333333333333,
"grad_norm": 6.263430595397949,
"learning_rate": 1.56e-06,
"loss": 6.7094,
"step": 40
},
{
"epoch": 0.16666666666666666,
"grad_norm": 5.286303520202637,
"learning_rate": 1.96e-06,
"loss": 6.3714,
"step": 50
},
{
"epoch": 0.2,
"grad_norm": 4.652409076690674,
"learning_rate": 2.36e-06,
"loss": 5.9859,
"step": 60
},
{
"epoch": 0.23333333333333334,
"grad_norm": 4.126605987548828,
"learning_rate": 2.7600000000000003e-06,
"loss": 5.5458,
"step": 70
},
{
"epoch": 0.26666666666666666,
"grad_norm": 3.8642539978027344,
"learning_rate": 3.16e-06,
"loss": 5.0487,
"step": 80
},
{
"epoch": 0.3,
"grad_norm": 3.7739064693450928,
"learning_rate": 3.5600000000000002e-06,
"loss": 4.4878,
"step": 90
},
{
"epoch": 0.3333333333333333,
"grad_norm": 3.5410406589508057,
"learning_rate": 3.96e-06,
"loss": 3.8707,
"step": 100
},
{
"epoch": 0.3333333333333333,
"eval_loss": 0.8786314725875854,
"eval_runtime": 130.6011,
"eval_samples_per_second": 18.377,
"eval_steps_per_second": 1.531,
"step": 100
},
{
"epoch": 0.36666666666666664,
"grad_norm": 3.659569501876831,
"learning_rate": 4.360000000000001e-06,
"loss": 3.2011,
"step": 110
},
{
"epoch": 0.4,
"grad_norm": 3.39253306388855,
"learning_rate": 4.76e-06,
"loss": 2.4442,
"step": 120
},
{
"epoch": 0.43333333333333335,
"grad_norm": 2.4652178287506104,
"learning_rate": 5.16e-06,
"loss": 1.7345,
"step": 130
},
{
"epoch": 0.4666666666666667,
"grad_norm": 1.445365309715271,
"learning_rate": 5.56e-06,
"loss": 1.2175,
"step": 140
},
{
"epoch": 0.5,
"grad_norm": 0.7545905113220215,
"learning_rate": 5.96e-06,
"loss": 0.9318,
"step": 150
},
{
"epoch": 0.5333333333333333,
"grad_norm": 0.6413900256156921,
"learning_rate": 5.994080185284815e-06,
"loss": 0.7965,
"step": 160
},
{
"epoch": 0.5666666666666667,
"grad_norm": 0.5500534176826477,
"learning_rate": 5.973646620754625e-06,
"loss": 0.7122,
"step": 170
},
{
"epoch": 0.6,
"grad_norm": 0.5907195210456848,
"learning_rate": 5.938725748798032e-06,
"loss": 0.6514,
"step": 180
},
{
"epoch": 0.6333333333333333,
"grad_norm": 0.5499018430709839,
"learning_rate": 5.889487700392975e-06,
"loss": 0.6073,
"step": 190
},
{
"epoch": 0.6666666666666666,
"grad_norm": 0.601067304611206,
"learning_rate": 5.82617235836189e-06,
"loss": 0.5703,
"step": 200
},
{
"epoch": 0.6666666666666666,
"eval_loss": 0.1373768150806427,
"eval_runtime": 130.1499,
"eval_samples_per_second": 18.44,
"eval_steps_per_second": 1.537,
"step": 200
},
{
"epoch": 0.7,
"grad_norm": 0.6595374345779419,
"learning_rate": 5.749088188686719e-06,
"loss": 0.5374,
"step": 210
},
{
"epoch": 0.7333333333333333,
"grad_norm": 0.7147516012191772,
"learning_rate": 5.658610737693644e-06,
"loss": 0.5085,
"step": 220
},
{
"epoch": 0.7666666666666667,
"grad_norm": 0.7410432696342468,
"learning_rate": 5.555180802429143e-06,
"loss": 0.4852,
"step": 230
},
{
"epoch": 0.8,
"grad_norm": 0.6519659757614136,
"learning_rate": 5.439302283141083e-06,
"loss": 0.4643,
"step": 240
},
{
"epoch": 0.8333333333333334,
"grad_norm": 0.44764214754104614,
"learning_rate": 5.311539728327368e-06,
"loss": 0.4464,
"step": 250
},
{
"epoch": 0.8666666666666667,
"grad_norm": 0.48451387882232666,
"learning_rate": 5.172515584312403e-06,
"loss": 0.4267,
"step": 260
},
{
"epoch": 0.9,
"grad_norm": 0.6145723462104797,
"learning_rate": 5.02290716275117e-06,
"loss": 0.4102,
"step": 270
},
{
"epoch": 0.9333333333333333,
"grad_norm": 0.6194537281990051,
"learning_rate": 4.863443340834931e-06,
"loss": 0.3958,
"step": 280
},
{
"epoch": 0.9666666666666667,
"grad_norm": 0.5969278216362,
"learning_rate": 4.694901010274814e-06,
"loss": 0.3839,
"step": 290
},
{
"epoch": 1.0,
"grad_norm": 0.5556809306144714,
"learning_rate": 4.518101292363491e-06,
"loss": 0.3699,
"step": 300
},
{
"epoch": 1.0,
"eval_loss": 0.0905652716755867,
"eval_runtime": 130.206,
"eval_samples_per_second": 18.432,
"eval_steps_per_second": 1.536,
"step": 300
},
{
"epoch": 1.0333333333333334,
"grad_norm": 0.588930070400238,
"learning_rate": 4.333905537554782e-06,
"loss": 0.3568,
"step": 310
},
{
"epoch": 1.0666666666666667,
"grad_norm": 0.6096176505088806,
"learning_rate": 4.143211129050823e-06,
"loss": 0.3458,
"step": 320
},
{
"epoch": 1.1,
"grad_norm": 0.5085943937301636,
"learning_rate": 3.946947110841308e-06,
"loss": 0.335,
"step": 330
},
{
"epoch": 1.1333333333333333,
"grad_norm": 0.37106063961982727,
"learning_rate": 3.746069661494565e-06,
"loss": 0.3275,
"step": 340
},
{
"epoch": 1.1666666666666667,
"grad_norm": 0.30709022283554077,
"learning_rate": 3.5415574357516803e-06,
"loss": 0.3227,
"step": 350
},
{
"epoch": 1.2,
"grad_norm": 0.3143058717250824,
"learning_rate": 3.334406796618976e-06,
"loss": 0.3189,
"step": 360
},
{
"epoch": 1.2333333333333334,
"grad_norm": 0.37548017501831055,
"learning_rate": 3.125626961187599e-06,
"loss": 0.3138,
"step": 370
},
{
"epoch": 1.2666666666666666,
"grad_norm": 0.3183898627758026,
"learning_rate": 2.916235083829294e-06,
"loss": 0.3136,
"step": 380
},
{
"epoch": 1.3,
"grad_norm": 0.38318926095962524,
"learning_rate": 2.707251300722552e-06,
"loss": 0.3103,
"step": 390
},
{
"epoch": 1.3333333333333333,
"grad_norm": 0.3728318512439728,
"learning_rate": 2.4996937598516936e-06,
"loss": 0.3079,
"step": 400
},
{
"epoch": 1.3333333333333333,
"eval_loss": 0.07631697505712509,
"eval_runtime": 130.1373,
"eval_samples_per_second": 18.442,
"eval_steps_per_second": 1.537,
"step": 400
},
{
"epoch": 1.3666666666666667,
"grad_norm": 0.33388274908065796,
"learning_rate": 2.29457366069223e-06,
"loss": 0.3057,
"step": 410
},
{
"epoch": 1.4,
"grad_norm": 0.3089640438556671,
"learning_rate": 2.0928903277486667e-06,
"loss": 0.3051,
"step": 420
},
{
"epoch": 1.4333333333333333,
"grad_norm": 0.3750895857810974,
"learning_rate": 1.8956263419459662e-06,
"loss": 0.3031,
"step": 430
},
{
"epoch": 1.4666666666666668,
"grad_norm": 0.2710581421852112,
"learning_rate": 1.7037427535940527e-06,
"loss": 0.3026,
"step": 440
},
{
"epoch": 1.5,
"grad_norm": 0.272029310464859,
"learning_rate": 1.5181744002473076e-06,
"loss": 0.3004,
"step": 450
},
{
"epoch": 1.5333333333333332,
"grad_norm": 0.35962343215942383,
"learning_rate": 1.339825352269968e-06,
"loss": 0.2999,
"step": 460
},
{
"epoch": 1.5666666666666667,
"grad_norm": 0.3471361994743347,
"learning_rate": 1.1695645082961973e-06,
"loss": 0.2986,
"step": 470
},
{
"epoch": 1.6,
"grad_norm": 0.30093762278556824,
"learning_rate": 1.0082213620432753e-06,
"loss": 0.2981,
"step": 480
},
{
"epoch": 1.6333333333333333,
"grad_norm": 0.31187185645103455,
"learning_rate": 8.565819611015906e-07,
"loss": 0.2982,
"step": 490
},
{
"epoch": 1.6666666666666665,
"grad_norm": 0.3007357716560364,
"learning_rate": 7.153850773897903e-07,
"loss": 0.2972,
"step": 500
},
{
"epoch": 1.6666666666666665,
"eval_loss": 0.07405494153499603,
"eval_runtime": 130.2794,
"eval_samples_per_second": 18.422,
"eval_steps_per_second": 1.535,
"step": 500
},
{
"epoch": 1.7,
"grad_norm": 0.3840883672237396,
"learning_rate": 5.853186079322579e-07,
"loss": 0.2969,
"step": 510
},
{
"epoch": 1.7333333333333334,
"grad_norm": 0.28318050503730774,
"learning_rate": 4.6701622349395544e-07,
"loss": 0.2957,
"step": 520
},
{
"epoch": 1.7666666666666666,
"grad_norm": 0.33587414026260376,
"learning_rate": 3.6105428140015095e-07,
"loss": 0.2953,
"step": 530
},
{
"epoch": 1.8,
"grad_norm": 0.3025602400302887,
"learning_rate": 2.6794901758146895e-07,
"loss": 0.2958,
"step": 540
},
{
"epoch": 1.8333333333333335,
"grad_norm": 0.3313562273979187,
"learning_rate": 1.8815403152432564e-07,
"loss": 0.2953,
"step": 550
},
{
"epoch": 1.8666666666666667,
"grad_norm": 0.29559338092803955,
"learning_rate": 1.2205807637982747e-07,
"loss": 0.2946,
"step": 560
},
{
"epoch": 1.9,
"grad_norm": 0.32724061608314514,
"learning_rate": 6.998316499749624e-08,
"loss": 0.2957,
"step": 570
},
{
"epoch": 1.9333333333333333,
"grad_norm": 0.24922741949558258,
"learning_rate": 3.2183001111035e-08,
"loss": 0.2952,
"step": 580
},
{
"epoch": 1.9666666666666668,
"grad_norm": 0.30010986328125,
"learning_rate": 8.84174331923926e-09,
"loss": 0.2957,
"step": 590
},
{
"epoch": 2.0,
"grad_norm": 0.3091154396533966,
"learning_rate": 7.31078838157595e-11,
"loss": 0.2949,
"step": 600
},
{
"epoch": 2.0,
"eval_loss": 0.07363789528608322,
"eval_runtime": 130.171,
"eval_samples_per_second": 18.437,
"eval_steps_per_second": 1.536,
"step": 600
}
],
"logging_steps": 10,
"max_steps": 600,
"num_input_tokens_seen": 0,
"num_train_epochs": 2,
"save_steps": 100,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 8.586752390332416e+17,
"train_batch_size": 48,
"trial_name": null,
"trial_params": null
}