File size: 3,986 Bytes

c5d0e53
 
2d15b6f
c5d0e53
 
 
 
 
 
 
 
 
2d15b6f
c5d0e53
2d15b6f
c5d0e53
2d15b6f
 
c5d0e53
 
 
 
 
2d15b6f
 
 
c5d0e53
2d15b6f
 
 
c5d0e53
 
 
2d15b6f
c5d0e53
2d15b6f
c5d0e53
4220108
2d15b6f
c5d0e53
 
 
 
 
2d15b6f
 
 
c5d0e53
2d15b6f
 
 
c5d0e53
 
 
2d15b6f
c5d0e53
2d15b6f
c5d0e53
4220108
2d15b6f
c5d0e53
 
 
 
 
2d15b6f
 
 
c5d0e53
2d15b6f
 
 
c5d0e53
 
 
2d15b6f
c5d0e53
2d15b6f
c5d0e53
2d15b6f
 
c5d0e53
 
 
 
 
2d15b6f
 
 
c5d0e53
2d15b6f
 
 
c5d0e53
 
 
2d15b6f
c5d0e53
2d15b6f
c5d0e53
2d15b6f
 
c5d0e53
 
 
 
 
2d15b6f
 
 
c5d0e53
2d15b6f
 
 
c5d0e53

{
  "best_global_step": 100,
  "best_metric": 0.09561321139335632,
  "best_model_checkpoint": "/content/models/gemma_qlora_lmh/checkpoint-100",
  "epoch": 1.7008547008547008,
  "eval_steps": 20,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "entropy": 2.458172196149826,
      "epoch": 0.3418803418803419,
      "grad_norm": 6.135525226593018,
      "learning_rate": 8.389830508474577e-06,
      "loss": 0.3827,
      "mean_token_accuracy": 0.8760345175862312,
      "num_tokens": 113164.0,
      "step": 20
    },
    {
      "epoch": 0.3418803418803419,
      "eval_entropy": 2.299590313536489,
      "eval_loss": 0.14134672284126282,
      "eval_mean_token_accuracy": 0.9523653464439588,
      "eval_num_tokens": 113164.0,
      "eval_runtime": 46.8429,
      "eval_samples_per_second": 39.707,
      "eval_steps_per_second": 2.498,
      "step": 20
    },
    {
      "entropy": 2.298478972911835,
      "epoch": 0.6837606837606838,
      "grad_norm": 2.0751421451568604,
      "learning_rate": 6.694915254237288e-06,
      "loss": 0.1357,
      "mean_token_accuracy": 0.9575570523738861,
      "num_tokens": 225335.0,
      "step": 40
    },
    {
      "epoch": 0.6837606837606838,
      "eval_entropy": 2.2715458065016656,
      "eval_loss": 0.11509539932012558,
      "eval_mean_token_accuracy": 0.9629310033260248,
      "eval_num_tokens": 225335.0,
      "eval_runtime": 45.696,
      "eval_samples_per_second": 40.704,
      "eval_steps_per_second": 2.56,
      "step": 40
    },
    {
      "entropy": 2.295832566725902,
      "epoch": 1.017094017094017,
      "grad_norm": 2.188286542892456,
      "learning_rate": 5e-06,
      "loss": 0.113,
      "mean_token_accuracy": 0.9653458717541817,
      "num_tokens": 330390.0,
      "step": 60
    },
    {
      "epoch": 1.017094017094017,
      "eval_entropy": 2.2908162163873005,
      "eval_loss": 0.10838180035352707,
      "eval_mean_token_accuracy": 0.9647057086993487,
      "eval_num_tokens": 330390.0,
      "eval_runtime": 46.2535,
      "eval_samples_per_second": 40.213,
      "eval_steps_per_second": 2.53,
      "step": 60
    },
    {
      "entropy": 2.271016186475754,
      "epoch": 1.358974358974359,
      "grad_norm": 2.2554891109466553,
      "learning_rate": 3.305084745762712e-06,
      "loss": 0.0848,
      "mean_token_accuracy": 0.9718978926539421,
      "num_tokens": 440357.0,
      "step": 80
    },
    {
      "epoch": 1.358974358974359,
      "eval_entropy": 2.254208923405052,
      "eval_loss": 0.10406262427568436,
      "eval_mean_token_accuracy": 0.9654262356269054,
      "eval_num_tokens": 440357.0,
      "eval_runtime": 46.3191,
      "eval_samples_per_second": 40.156,
      "eval_steps_per_second": 2.526,
      "step": 80
    },
    {
      "entropy": 2.2658998131752015,
      "epoch": 1.7008547008547008,
      "grad_norm": 1.6946748495101929,
      "learning_rate": 1.6101694915254237e-06,
      "loss": 0.0716,
      "mean_token_accuracy": 0.9734383270144462,
      "num_tokens": 552807.0,
      "step": 100
    },
    {
      "epoch": 1.7008547008547008,
      "eval_entropy": 2.2408512260159874,
      "eval_loss": 0.09561321139335632,
      "eval_mean_token_accuracy": 0.9683785734013615,
      "eval_num_tokens": 552807.0,
      "eval_runtime": 47.0074,
      "eval_samples_per_second": 39.568,
      "eval_steps_per_second": 2.489,
      "step": 100
    }
  ],
  "logging_steps": 20,
  "max_steps": 118,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 20,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.614440163723264e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}