xtie
/

LLaMA-LoRA-PET-impression

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 19.935691318327976,
+  "global_step": 5580,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002,
+      "loss": 1.2054,
+      "step": 128
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0002,
+      "loss": 1.0285,
+      "step": 256
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0002,
+      "loss": 0.976,
+      "step": 384
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.0002,
+      "loss": 0.9643,
+      "step": 512
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 0.0002,
+      "loss": 0.9371,
+      "step": 640
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 0.0002,
+      "loss": 0.9214,
+      "step": 768
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 0.0002,
+      "loss": 0.9016,
+      "step": 896
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 0.0002,
+      "loss": 0.8862,
+      "step": 1024
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 0.0002,
+      "loss": 0.8792,
+      "step": 1152
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 0.0002,
+      "loss": 0.864,
+      "step": 1280
+    },
+    {
+      "epoch": 5.03,
+      "learning_rate": 0.0002,
+      "loss": 0.8588,
+      "step": 1408
+    },
+    {
+      "epoch": 5.49,
+      "learning_rate": 0.0002,
+      "loss": 0.8374,
+      "step": 1536
+    },
+    {
+      "epoch": 5.94,
+      "learning_rate": 0.0002,
+      "loss": 0.8414,
+      "step": 1664
+    },
+    {
+      "epoch": 6.4,
+      "learning_rate": 0.0002,
+      "loss": 0.8152,
+      "step": 1792
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 0.0002,
+      "loss": 0.8216,
+      "step": 1920
+    },
+    {
+      "epoch": 7.32,
+      "learning_rate": 0.0002,
+      "loss": 0.8031,
+      "step": 2048
+    },
+    {
+      "epoch": 7.77,
+      "learning_rate": 0.0002,
+      "loss": 0.8031,
+      "step": 2176
+    },
+    {
+      "epoch": 8.23,
+      "learning_rate": 0.0002,
+      "loss": 0.7887,
+      "step": 2304
+    },
+    {
+      "epoch": 8.69,
+      "learning_rate": 0.0002,
+      "loss": 0.7847,
+      "step": 2432
+    },
+    {
+      "epoch": 9.15,
+      "learning_rate": 0.0002,
+      "loss": 0.7746,
+      "step": 2560
+    },
+    {
+      "epoch": 9.6,
+      "learning_rate": 0.0002,
+      "loss": 0.764,
+      "step": 2688
+    },
+    {
+      "epoch": 10.06,
+      "learning_rate": 0.0002,
+      "loss": 0.7652,
+      "step": 2816
+    },
+    {
+      "epoch": 10.52,
+      "learning_rate": 0.0002,
+      "loss": 0.7425,
+      "step": 2944
+    },
+    {
+      "epoch": 10.98,
+      "learning_rate": 0.0002,
+      "loss": 0.7584,
+      "step": 3072
+    },
+    {
+      "epoch": 11.43,
+      "learning_rate": 0.0002,
+      "loss": 0.7302,
+      "step": 3200
+    },
+    {
+      "epoch": 11.89,
+      "learning_rate": 0.0002,
+      "loss": 0.7374,
+      "step": 3328
+    },
+    {
+      "epoch": 12.35,
+      "learning_rate": 0.0002,
+      "loss": 0.7187,
+      "step": 3456
+    },
+    {
+      "epoch": 12.8,
+      "learning_rate": 0.0002,
+      "loss": 0.7222,
+      "step": 3584
+    },
+    {
+      "epoch": 13.26,
+      "learning_rate": 0.0002,
+      "loss": 0.7096,
+      "step": 3712
+    },
+    {
+      "epoch": 13.72,
+      "learning_rate": 0.0002,
+      "loss": 0.7057,
+      "step": 3840
+    },
+    {
+      "epoch": 14.18,
+      "learning_rate": 0.0002,
+      "loss": 0.7003,
+      "step": 3968
+    },
+    {
+      "epoch": 14.63,
+      "learning_rate": 0.0002,
+      "loss": 0.6879,
+      "step": 4096
+    },
+    {
+      "epoch": 15.09,
+      "learning_rate": 0.0002,
+      "loss": 0.6928,
+      "step": 4224
+    },
+    {
+      "epoch": 15.55,
+      "learning_rate": 0.0002,
+      "loss": 0.6749,
+      "step": 4352
+    },
+    {
+      "epoch": 16.01,
+      "learning_rate": 0.0002,
+      "loss": 0.6857,
+      "step": 4480
+    },
+    {
+      "epoch": 16.46,
+      "learning_rate": 0.0002,
+      "loss": 0.6545,
+      "step": 4608
+    },
+    {
+      "epoch": 16.92,
+      "learning_rate": 0.0002,
+      "loss": 0.6724,
+      "step": 4736
+    },
+    {
+      "epoch": 17.38,
+      "learning_rate": 0.0002,
+      "loss": 0.6434,
+      "step": 4864
+    },
+    {
+      "epoch": 17.83,
+      "learning_rate": 0.0002,
+      "loss": 0.6581,
+      "step": 4992
+    },
+    {
+      "epoch": 18.29,
+      "learning_rate": 0.0002,
+      "loss": 0.644,
+      "step": 5120
+    },
+    {
+      "epoch": 18.75,
+      "learning_rate": 0.0002,
+      "loss": 0.6392,
+      "step": 5248
+    },
+    {
+      "epoch": 19.21,
+      "learning_rate": 0.0002,
+      "loss": 0.6346,
+      "step": 5376
+    },
+    {
+      "epoch": 19.66,
+      "learning_rate": 0.0002,
+      "loss": 0.6286,
+      "step": 5504
+    }
+  ],
+  "max_steps": 5580,
+  "num_train_epochs": 20,
+  "total_flos": 3.311540504834867e+16,
+  "trial_name": null,
+  "trial_params": null
+}