File size: 1,812 Bytes

b489fe6
 
 
 
 
 
 
 
 
 
 
 
74f9d8f
b489fe6
74f9d8f
b489fe6
 
 
 
74f9d8f
b489fe6
74f9d8f
b489fe6
 
 
 
74f9d8f
b489fe6
74f9d8f
b489fe6
 
 
 
74f9d8f
b489fe6
74f9d8f
b489fe6
 
 
 
74f9d8f
b489fe6
74f9d8f
b489fe6
 
 
 
74f9d8f
b489fe6
74f9d8f
b489fe6
 
 
 
74f9d8f
b489fe6
74f9d8f
b489fe6

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9896907216494846,
  "eval_steps": 500,
  "global_step": 72,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.13745704467353953,
      "grad_norm": 2.5390625,
      "learning_rate": 0.0002,
      "loss": 2.5496,
      "step": 10
    },
    {
      "epoch": 0.27491408934707906,
      "grad_norm": 1.5771484375,
      "learning_rate": 0.0002,
      "loss": 1.1222,
      "step": 20
    },
    {
      "epoch": 0.41237113402061853,
      "grad_norm": 0.66748046875,
      "learning_rate": 0.0002,
      "loss": 0.5563,
      "step": 30
    },
    {
      "epoch": 0.5498281786941581,
      "grad_norm": 0.6455078125,
      "learning_rate": 0.0002,
      "loss": 0.5064,
      "step": 40
    },
    {
      "epoch": 0.6872852233676976,
      "grad_norm": 0.62451171875,
      "learning_rate": 0.0002,
      "loss": 0.4592,
      "step": 50
    },
    {
      "epoch": 0.8247422680412371,
      "grad_norm": 0.62939453125,
      "learning_rate": 0.0002,
      "loss": 0.4184,
      "step": 60
    },
    {
      "epoch": 0.9621993127147767,
      "grad_norm": 0.576171875,
      "learning_rate": 0.0002,
      "loss": 0.4028,
      "step": 70
    }
  ],
  "logging_steps": 10,
  "max_steps": 72,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 10,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 7155741247733760.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}