Ashmal
/

ClimateGPT13B_en

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9991941982272361,
+  "global_step": 465,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "learning_rate": 2e-05,
+      "loss": 1.2313,
+      "step": 20
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2e-05,
+      "loss": 1.1365,
+      "step": 40
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 2e-05,
+      "loss": 1.1187,
+      "step": 60
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2e-05,
+      "loss": 1.1067,
+      "step": 80
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 2e-05,
+      "loss": 1.0958,
+      "step": 100
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 2e-05,
+      "loss": 1.0903,
+      "step": 120
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 2e-05,
+      "loss": 1.0814,
+      "step": 140
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 2e-05,
+      "loss": 1.0766,
+      "step": 160
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 2e-05,
+      "loss": 1.0733,
+      "step": 180
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 2e-05,
+      "loss": 1.0727,
+      "step": 200
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 2e-05,
+      "loss": 1.0602,
+      "step": 220
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 2e-05,
+      "loss": 1.0604,
+      "step": 240
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 2e-05,
+      "loss": 1.058,
+      "step": 260
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2e-05,
+      "loss": 1.0519,
+      "step": 280
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 2e-05,
+      "loss": 1.0468,
+      "step": 300
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 2e-05,
+      "loss": 1.0466,
+      "step": 320
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 2e-05,
+      "loss": 1.0425,
+      "step": 340
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 2e-05,
+      "loss": 1.0432,
+      "step": 360
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 2e-05,
+      "loss": 1.0399,
+      "step": 380
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 2e-05,
+      "loss": 1.0364,
+      "step": 400
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 2e-05,
+      "loss": 1.0309,
+      "step": 420
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2e-05,
+      "loss": 1.0274,
+      "step": 440
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 2e-05,
+      "loss": 1.0269,
+      "step": 460
+    }
+  ],
+  "max_steps": 465,
+  "num_train_epochs": 1,
+  "total_flos": 3639334498467840.0,
+  "trial_name": null,
+  "trial_params": null
+}