File size: 3,072 Bytes

66cb05f
 
 
449ff6a
f1ed0b9
449ff6a
66cb05f
 
 
 
 
 
35fd73f
66cb05f
35fd73f
66cb05f
 
 
 
35fd73f
66cb05f
35fd73f
66cb05f
 
 
 
35fd73f
66cb05f
35fd73f
66cb05f
 
 
 
35fd73f
66cb05f
35fd73f
66cb05f
 
 
 
35fd73f
66cb05f
35fd73f
66cb05f
 
 
 
35fd73f
66cb05f
35fd73f
66cb05f
 
 
 
35fd73f
66cb05f
35fd73f
66cb05f
aa1f58b
 
f1ed0b9
35fd73f
 
 
 
f1ed0b9
449ff6a
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
66cb05f
 
 
 
 
 
 
 
 
 
 
 
 
 
449ff6a
66cb05f
 
 
 
449ff6a
66cb05f

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.6348773841961854,
  "eval_steps": 500,
  "global_step": 600,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.1362397820163488,
      "grad_norm": 0.784312903881073,
      "learning_rate": 0.0004,
      "loss": 1.3927,
      "step": 50
    },
    {
      "epoch": 0.2724795640326976,
      "grad_norm": 0.5759815573692322,
      "learning_rate": 0.0004,
      "loss": 0.8469,
      "step": 100
    },
    {
      "epoch": 0.4087193460490463,
      "grad_norm": 0.7147420048713684,
      "learning_rate": 0.0004,
      "loss": 0.6428,
      "step": 150
    },
    {
      "epoch": 0.5449591280653951,
      "grad_norm": 1.0268043279647827,
      "learning_rate": 0.0004,
      "loss": 0.5406,
      "step": 200
    },
    {
      "epoch": 0.6811989100817438,
      "grad_norm": 0.5647836923599243,
      "learning_rate": 0.0004,
      "loss": 0.4279,
      "step": 250
    },
    {
      "epoch": 0.8174386920980926,
      "grad_norm": 0.48977088928222656,
      "learning_rate": 0.0004,
      "loss": 0.3726,
      "step": 300
    },
    {
      "epoch": 0.9536784741144414,
      "grad_norm": 0.3192068636417389,
      "learning_rate": 0.0004,
      "loss": 0.3033,
      "step": 350
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.2556329667568207,
      "eval_runtime": 4.2889,
      "eval_samples_per_second": 72.046,
      "eval_steps_per_second": 18.186,
      "step": 367
    },
    {
      "epoch": 1.0899182561307903,
      "grad_norm": 0.2055899053812027,
      "learning_rate": 0.0004,
      "loss": 0.2806,
      "step": 400
    },
    {
      "epoch": 1.226158038147139,
      "grad_norm": 0.28835996985435486,
      "learning_rate": 0.0004,
      "loss": 0.2058,
      "step": 450
    },
    {
      "epoch": 1.3623978201634879,
      "grad_norm": 0.30920594930648804,
      "learning_rate": 0.0004,
      "loss": 0.1817,
      "step": 500
    },
    {
      "epoch": 1.4986376021798364,
      "grad_norm": 0.18480294942855835,
      "learning_rate": 0.0004,
      "loss": 0.1557,
      "step": 550
    },
    {
      "epoch": 1.6348773841961854,
      "grad_norm": 0.6040850877761841,
      "learning_rate": 0.0004,
      "loss": 0.1337,
      "step": 600
    },
    {
      "epoch": 1.6348773841961854,
      "eval_loss": 0.14192721247673035,
      "eval_runtime": 4.3794,
      "eval_samples_per_second": 70.557,
      "eval_steps_per_second": 17.811,
      "step": 600
    }
  ],
  "logging_steps": 50,
  "max_steps": 600,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.945276023865344e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}