File size: 3,076 Bytes

6e3f60b
8b32d7f
 
 
6e3f60b
 
 
 
 
 
 
 
 
8b32d7f
 
 
6e3f60b
 
 
 
8b32d7f
 
 
6e3f60b
 
 
 
8b32d7f
 
 
6e3f60b
 
 
 
8b32d7f
 
 
6e3f60b
 
 
 
8b32d7f
 
 
6e3f60b
 
 
 
8b32d7f
 
 
 
 
6e3f60b
 
 
 
8b32d7f
 
 
6e3f60b
 
 
 
8b32d7f
 
 
6e3f60b
 
 
 
8b32d7f
 
 
6e3f60b
 
 
 
8b32d7f
 
 
6e3f60b
 
 
 
8b32d7f
 
 
6e3f60b
 
 
 
8b32d7f
 
 
 
 
6e3f60b
 
 
 
8b32d7f
6e3f60b
8b32d7f
6e3f60b
 
 
 
 
 
 
 
 
 
 
 
 
8b32d7f
6e3f60b

{
  "best_global_step": 100,
  "best_metric": 0.7,
  "best_model_checkpoint": "./models/punctuation/decoder_model_simple/checkpoint-100",
  "epoch": 0.9411764705882353,
  "eval_steps": 50,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.09411764705882353,
      "grad_norm": 1.3681155443191528,
      "learning_rate": 2.7272727272727273e-05,
      "loss": 0.7202,
      "step": 10
    },
    {
      "epoch": 0.18823529411764706,
      "grad_norm": 0.7711533308029175,
      "learning_rate": 5.757575757575758e-05,
      "loss": 0.3185,
      "step": 20
    },
    {
      "epoch": 0.2823529411764706,
      "grad_norm": 1.2256836891174316,
      "learning_rate": 8.787878787878789e-05,
      "loss": 0.1827,
      "step": 30
    },
    {
      "epoch": 0.3764705882352941,
      "grad_norm": 0.888201892375946,
      "learning_rate": 9.989294616193017e-05,
      "loss": 0.1346,
      "step": 40
    },
    {
      "epoch": 0.47058823529411764,
      "grad_norm": 0.853918731212616,
      "learning_rate": 9.924038765061042e-05,
      "loss": 0.0721,
      "step": 50
    },
    {
      "epoch": 0.47058823529411764,
      "eval_loss": 0.04328128695487976,
      "eval_model_preparation_time": 0.0162,
      "eval_runtime": 2.2686,
      "eval_samples_per_second": 44.081,
      "eval_steps_per_second": 22.04,
      "step": 50
    },
    {
      "epoch": 0.5647058823529412,
      "grad_norm": 0.48631730675697327,
      "learning_rate": 9.800249271929645e-05,
      "loss": 0.042,
      "step": 60
    },
    {
      "epoch": 0.6588235294117647,
      "grad_norm": 0.5516029596328735,
      "learning_rate": 9.619397662556435e-05,
      "loss": 0.0218,
      "step": 70
    },
    {
      "epoch": 0.7529411764705882,
      "grad_norm": 0.28095027804374695,
      "learning_rate": 9.38363377853754e-05,
      "loss": 0.0127,
      "step": 80
    },
    {
      "epoch": 0.8470588235294118,
      "grad_norm": 0.8756083846092224,
      "learning_rate": 9.09576022144496e-05,
      "loss": 0.0124,
      "step": 90
    },
    {
      "epoch": 0.9411764705882353,
      "grad_norm": 0.5514245629310608,
      "learning_rate": 8.759199037394887e-05,
      "loss": 0.0119,
      "step": 100
    },
    {
      "epoch": 0.9411764705882353,
      "eval_loss": 0.004549662582576275,
      "eval_model_preparation_time": 0.0162,
      "eval_runtime": 2.2779,
      "eval_samples_per_second": 43.9,
      "eval_steps_per_second": 21.95,
      "step": 100
    }
  ],
  "logging_steps": 10,
  "max_steps": 321,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 6705100455260160.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}