Delete trainer_state.json

Browse files

Files changed (1) hide show

trainer_state.json +0 -439

trainer_state.json DELETED Viewed

@@ -1,439 +0,0 @@
-{
-  "best_global_step": null,
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 2.0,
-  "eval_steps": 1000,
-  "global_step": 27070,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.07388434636981578,
-      "grad_norm": 1.2263256311416626,
-      "learning_rate": 0.000490609710199473,
-      "loss": 4.0797,
-      "step": 1000
-    },
-    {
-      "epoch": 0.07388434636981578,
-      "eval_loss": 3.001145124435425,
-      "eval_runtime": 1.4766,
-      "eval_samples_per_second": 662.32,
-      "eval_steps_per_second": 83.298,
-      "step": 1000
-    },
-    {
-      "epoch": 0.14776869273963156,
-      "grad_norm": 1.2999979257583618,
-      "learning_rate": 0.000471791494166353,
-      "loss": 2.823,
-      "step": 2000
-    },
-    {
-      "epoch": 0.14776869273963156,
-      "eval_loss": 2.6864545345306396,
-      "eval_runtime": 1.5608,
-      "eval_samples_per_second": 626.616,
-      "eval_steps_per_second": 78.808,
-      "step": 2000
-    },
-    {
-      "epoch": 0.22165303910944734,
-      "grad_norm": 1.4543421268463135,
-      "learning_rate": 0.000452973278133233,
-      "loss": 2.6331,
-      "step": 3000
-    },
-    {
-      "epoch": 0.22165303910944734,
-      "eval_loss": 2.5702903270721436,
-      "eval_runtime": 1.4462,
-      "eval_samples_per_second": 676.239,
-      "eval_steps_per_second": 85.048,
-      "step": 3000
-    },
-    {
-      "epoch": 0.2955373854792631,
-      "grad_norm": 1.4996088743209839,
-      "learning_rate": 0.0004341550621001129,
-      "loss": 2.5457,
-      "step": 4000
-    },
-    {
-      "epoch": 0.2955373854792631,
-      "eval_loss": 2.5038747787475586,
-      "eval_runtime": 1.4384,
-      "eval_samples_per_second": 679.922,
-      "eval_steps_per_second": 85.512,
-      "step": 4000
-    },
-    {
-      "epoch": 0.3694217318490789,
-      "grad_norm": 1.4575793743133545,
-      "learning_rate": 0.00041533684606699287,
-      "loss": 2.4906,
-      "step": 5000
-    },
-    {
-      "epoch": 0.3694217318490789,
-      "eval_loss": 2.458561658859253,
-      "eval_runtime": 1.4575,
-      "eval_samples_per_second": 671.005,
-      "eval_steps_per_second": 84.39,
-      "step": 5000
-    },
-    {
-      "epoch": 0.4433060782188947,
-      "grad_norm": 1.3582031726837158,
-      "learning_rate": 0.0003965186300338728,
-      "loss": 2.4523,
-      "step": 6000
-    },
-    {
-      "epoch": 0.4433060782188947,
-      "eval_loss": 2.431638240814209,
-      "eval_runtime": 1.4677,
-      "eval_samples_per_second": 666.353,
-      "eval_steps_per_second": 83.805,
-      "step": 6000
-    },
-    {
-      "epoch": 0.5171904245887105,
-      "grad_norm": 1.3987085819244385,
-      "learning_rate": 0.0003777004140007527,
-      "loss": 2.4213,
-      "step": 7000
-    },
-    {
-      "epoch": 0.5171904245887105,
-      "eval_loss": 2.3989198207855225,
-      "eval_runtime": 1.4685,
-      "eval_samples_per_second": 666.003,
-      "eval_steps_per_second": 83.761,
-      "step": 7000
-    },
-    {
-      "epoch": 0.5910747709585262,
-      "grad_norm": 1.4713547229766846,
-      "learning_rate": 0.00035888219796763267,
-      "loss": 2.3977,
-      "step": 8000
-    },
-    {
-      "epoch": 0.5910747709585262,
-      "eval_loss": 2.374978542327881,
-      "eval_runtime": 1.4628,
-      "eval_samples_per_second": 668.602,
-      "eval_steps_per_second": 84.088,
-      "step": 8000
-    },
-    {
-      "epoch": 0.664959117328342,
-      "grad_norm": 1.4406859874725342,
-      "learning_rate": 0.0003400639819345126,
-      "loss": 2.37,
-      "step": 9000
-    },
-    {
-      "epoch": 0.664959117328342,
-      "eval_loss": 2.3552350997924805,
-      "eval_runtime": 1.5716,
-      "eval_samples_per_second": 622.315,
-      "eval_steps_per_second": 78.267,
-      "step": 9000
-    },
-    {
-      "epoch": 0.7388434636981578,
-      "grad_norm": 1.477502703666687,
-      "learning_rate": 0.00032124576590139255,
-      "loss": 2.3558,
-      "step": 10000
-    },
-    {
-      "epoch": 0.7388434636981578,
-      "eval_loss": 2.3359665870666504,
-      "eval_runtime": 1.4772,
-      "eval_samples_per_second": 662.073,
-      "eval_steps_per_second": 83.267,
-      "step": 10000
-    },
-    {
-      "epoch": 0.8127278100679736,
-      "grad_norm": 1.5436781644821167,
-      "learning_rate": 0.00030242754986827247,
-      "loss": 2.3375,
-      "step": 11000
-    },
-    {
-      "epoch": 0.8127278100679736,
-      "eval_loss": 2.324208974838257,
-      "eval_runtime": 1.5023,
-      "eval_samples_per_second": 651.019,
-      "eval_steps_per_second": 81.877,
-      "step": 11000
-    },
-    {
-      "epoch": 0.8866121564377893,
-      "grad_norm": 1.408799171447754,
-      "learning_rate": 0.00028360933383515243,
-      "loss": 2.3225,
-      "step": 12000
-    },
-    {
-      "epoch": 0.8866121564377893,
-      "eval_loss": 2.310602903366089,
-      "eval_runtime": 1.4754,
-      "eval_samples_per_second": 662.856,
-      "eval_steps_per_second": 83.365,
-      "step": 12000
-    },
-    {
-      "epoch": 0.9604965028076051,
-      "grad_norm": 1.4997986555099487,
-      "learning_rate": 0.00026479111780203235,
-      "loss": 2.3094,
-      "step": 13000
-    },
-    {
-      "epoch": 0.9604965028076051,
-      "eval_loss": 2.2948832511901855,
-      "eval_runtime": 1.4678,
-      "eval_samples_per_second": 666.289,
-      "eval_steps_per_second": 83.797,
-      "step": 13000
-    },
-    {
-      "epoch": 1.0343562210619643,
-      "grad_norm": 1.5238574743270874,
-      "learning_rate": 0.0002459729017689123,
-      "loss": 2.2898,
-      "step": 14000
-    },
-    {
-      "epoch": 1.0343562210619643,
-      "eval_loss": 2.2858312129974365,
-      "eval_runtime": 1.5046,
-      "eval_samples_per_second": 650.004,
-      "eval_steps_per_second": 81.749,
-      "step": 14000
-    },
-    {
-      "epoch": 1.1082405674317801,
-      "grad_norm": 1.5487300157546997,
-      "learning_rate": 0.00022715468573579226,
-      "loss": 2.272,
-      "step": 15000
-    },
-    {
-      "epoch": 1.1082405674317801,
-      "eval_loss": 2.274585723876953,
-      "eval_runtime": 1.4645,
-      "eval_samples_per_second": 667.797,
-      "eval_steps_per_second": 83.987,
-      "step": 15000
-    },
-    {
-      "epoch": 1.182124913801596,
-      "grad_norm": 1.4958250522613525,
-      "learning_rate": 0.0002083364697026722,
-      "loss": 2.2673,
-      "step": 16000
-    },
-    {
-      "epoch": 1.182124913801596,
-      "eval_loss": 2.261155605316162,
-      "eval_runtime": 1.4807,
-      "eval_samples_per_second": 660.514,
-      "eval_steps_per_second": 83.071,
-      "step": 16000
-    },
-    {
-      "epoch": 1.2560092601714117,
-      "grad_norm": 1.6432082653045654,
-      "learning_rate": 0.00018951825366955214,
-      "loss": 2.2527,
-      "step": 17000
-    },
-    {
-      "epoch": 1.2560092601714117,
-      "eval_loss": 2.253293991088867,
-      "eval_runtime": 1.4847,
-      "eval_samples_per_second": 658.732,
-      "eval_steps_per_second": 82.847,
-      "step": 17000
-    },
-    {
-      "epoch": 1.3298936065412275,
-      "grad_norm": 1.5579006671905518,
-      "learning_rate": 0.00017070003763643209,
-      "loss": 2.2469,
-      "step": 18000
-    },
-    {
-      "epoch": 1.3298936065412275,
-      "eval_loss": 2.2448325157165527,
-      "eval_runtime": 1.4629,
-      "eval_samples_per_second": 668.546,
-      "eval_steps_per_second": 84.081,
-      "step": 18000
-    },
-    {
-      "epoch": 1.4037779529110432,
-      "grad_norm": 1.6929436922073364,
-      "learning_rate": 0.00015188182160331203,
-      "loss": 2.2345,
-      "step": 19000
-    },
-    {
-      "epoch": 1.4037779529110432,
-      "eval_loss": 2.236670732498169,
-      "eval_runtime": 1.4306,
-      "eval_samples_per_second": 683.609,
-      "eval_steps_per_second": 85.975,
-      "step": 19000
-    },
-    {
-      "epoch": 1.477662299280859,
-      "grad_norm": 1.661308765411377,
-      "learning_rate": 0.00013306360557019194,
-      "loss": 2.2312,
-      "step": 20000
-    },
-    {
-      "epoch": 1.477662299280859,
-      "eval_loss": 2.2292463779449463,
-      "eval_runtime": 1.4426,
-      "eval_samples_per_second": 677.956,
-      "eval_steps_per_second": 85.264,
-      "step": 20000
-    },
-    {
-      "epoch": 1.5515466456506748,
-      "grad_norm": 1.5889065265655518,
-      "learning_rate": 0.0001142453895370719,
-      "loss": 2.2239,
-      "step": 21000
-    },
-    {
-      "epoch": 1.5515466456506748,
-      "eval_loss": 2.221221923828125,
-      "eval_runtime": 1.5775,
-      "eval_samples_per_second": 619.97,
-      "eval_steps_per_second": 77.972,
-      "step": 21000
-    },
-    {
-      "epoch": 1.6254309920204906,
-      "grad_norm": 1.5558372735977173,
-      "learning_rate": 9.542717350395183e-05,
-      "loss": 2.2081,
-      "step": 22000
-    },
-    {
-      "epoch": 1.6254309920204906,
-      "eval_loss": 2.2122271060943604,
-      "eval_runtime": 1.5975,
-      "eval_samples_per_second": 612.189,
-      "eval_steps_per_second": 76.993,
-      "step": 22000
-    },
-    {
-      "epoch": 1.6993153383903064,
-      "grad_norm": 1.7341097593307495,
-      "learning_rate": 7.660895747083177e-05,
-      "loss": 2.2043,
-      "step": 23000
-    },
-    {
-      "epoch": 1.6993153383903064,
-      "eval_loss": 2.204393148422241,
-      "eval_runtime": 1.4774,
-      "eval_samples_per_second": 661.963,
-      "eval_steps_per_second": 83.253,
-      "step": 23000
-    },
-    {
-      "epoch": 1.7731996847601221,
-      "grad_norm": 1.6520919799804688,
-      "learning_rate": 5.779074143771171e-05,
-      "loss": 2.1988,
-      "step": 24000
-    },
-    {
-      "epoch": 1.7731996847601221,
-      "eval_loss": 2.1986052989959717,
-      "eval_runtime": 1.4794,
-      "eval_samples_per_second": 661.067,
-      "eval_steps_per_second": 83.14,
-      "step": 24000
-    },
-    {
-      "epoch": 1.847084031129938,
-      "grad_norm": 1.6864484548568726,
-      "learning_rate": 3.8972525404591645e-05,
-      "loss": 2.1885,
-      "step": 25000
-    },
-    {
-      "epoch": 1.847084031129938,
-      "eval_loss": 2.1929802894592285,
-      "eval_runtime": 1.4646,
-      "eval_samples_per_second": 667.763,
-      "eval_steps_per_second": 83.982,
-      "step": 25000
-    },
-    {
-      "epoch": 1.9209683774997537,
-      "grad_norm": 1.74201500415802,
-      "learning_rate": 2.0154309371471584e-05,
-      "loss": 2.1897,
-      "step": 26000
-    },
-    {
-      "epoch": 1.9209683774997537,
-      "eval_loss": 2.1882574558258057,
-      "eval_runtime": 1.5005,
-      "eval_samples_per_second": 651.777,
-      "eval_steps_per_second": 81.972,
-      "step": 26000
-    },
-    {
-      "epoch": 1.9948527238695695,
-      "grad_norm": 1.7203181982040405,
-      "learning_rate": 1.3360933383515244e-06,
-      "loss": 2.1843,
-      "step": 27000
-    },
-    {
-      "epoch": 1.9948527238695695,
-      "eval_loss": 2.185438871383667,
-      "eval_runtime": 1.4469,
-      "eval_samples_per_second": 675.924,
-      "eval_steps_per_second": 85.009,
-      "step": 27000
-    }
-  ],
-  "logging_steps": 1000,
-  "max_steps": 27070,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 2,
-  "save_steps": 1000,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": true
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 147395435692032.0,
-  "train_batch_size": 6,
-  "trial_name": null,
-  "trial_params": null
-}