File size: 3,152 Bytes

e2fce33
 
 
 
 
fd78fc9
e2fce33
 
 
 
 
 
fd78fc9
 
 
 
e2fce33
 
 
 
fd78fc9
 
e2fce33
fd78fc9
 
 
 
 
 
e2fce33
 
 
fd78fc9
 
 
 
e2fce33
 
 
 
fd78fc9
 
e2fce33
fd78fc9
 
 
 
 
 
e2fce33
 
 
fd78fc9
 
 
 
e2fce33
 
 
 
fd78fc9
 
e2fce33
fd78fc9
 
 
 
 
 
e2fce33
 
 
fd78fc9
 
 
 
e2fce33
 
 
 
fd78fc9
 
e2fce33
fd78fc9
 
 
 
 
 
e2fce33
 
 
fd78fc9
e2fce33
fd78fc9
 
e2fce33
 
 
 
fd78fc9
 
e2fce33
fd78fc9
 
 
 
 
 
e2fce33
 
 
fd78fc9
 
 
 
 
 
e2fce33
 
 
fd78fc9
e2fce33
 
 
fd78fc9
 
e2fce33

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 4460,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 0.8314327597618103,
      "learning_rate": 0.0008,
      "loss": 1.2006,
      "step": 892
    },
    {
      "epoch": 1.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.8184329867362976,
      "eval_rouge1": 0.6667,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6667,
      "eval_rougeLsum": 0.6663,
      "eval_runtime": 34.849,
      "eval_samples_per_second": 21.521,
      "eval_steps_per_second": 0.689,
      "step": 892
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.4473212659358978,
      "learning_rate": 0.0006,
      "loss": 0.6791,
      "step": 1784
    },
    {
      "epoch": 2.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.692352831363678,
      "eval_rouge1": 0.6654,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6613,
      "eval_rougeLsum": 0.6642,
      "eval_runtime": 34.2033,
      "eval_samples_per_second": 21.928,
      "eval_steps_per_second": 0.702,
      "step": 1784
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.5131508111953735,
      "learning_rate": 0.0004,
      "loss": 0.4848,
      "step": 2676
    },
    {
      "epoch": 3.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.6633622050285339,
      "eval_rouge1": 0.7098,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.7089,
      "eval_rougeLsum": 0.7131,
      "eval_runtime": 34.2893,
      "eval_samples_per_second": 21.873,
      "eval_steps_per_second": 0.7,
      "step": 2676
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.2991909682750702,
      "learning_rate": 0.0002,
      "loss": 0.3381,
      "step": 3568
    },
    {
      "epoch": 4.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.6799816489219666,
      "eval_rouge1": 0.696,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6977,
      "eval_rougeLsum": 0.6988,
      "eval_runtime": 33.9237,
      "eval_samples_per_second": 22.108,
      "eval_steps_per_second": 0.707,
      "step": 3568
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.42183929681777954,
      "learning_rate": 0.0,
      "loss": 0.2027,
      "step": 4460
    },
    {
      "epoch": 5.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.7586135864257812,
      "eval_rouge1": 0.682,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.681,
      "eval_rougeLsum": 0.6795,
      "eval_runtime": 33.8342,
      "eval_samples_per_second": 22.167,
      "eval_steps_per_second": 0.709,
      "step": 4460
    },
    {
      "epoch": 5.0,
      "step": 4460,
      "total_flos": 4.886428467068928e+16,
      "train_loss": 0.5810612255147755,
      "train_runtime": 4303.8817,
      "train_samples_per_second": 16.58,
      "train_steps_per_second": 1.036
    }
  ],
  "logging_steps": 500,
  "max_steps": 4460,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "total_flos": 4.886428467068928e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}