Upload 8 files

Browse files

Files changed (4) hide show

optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +247 -0

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa0ba2e0d5a838bf1a401c1cf71efe3b627dc35d67eca2c2beb40fd62983983a
+size 33661637

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ada0ce67ce334a6d1138dbfe75e0912b0c2017290419d94e239e932b14c378f1
+size 14575

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:503d141bd03d55a69c94b428e328d3b060b988ace448865bb4b7d17216ac0c68
+size 627

trainer_state.json ADDED Viewed

	@@ -0,0 +1,247 @@

+{
+  "best_metric": 1.1660184860229492,
+  "best_model_checkpoint": "experiments/checkpoint-200",
+  "epoch": 21.867881548974943,
+  "eval_steps": 50,
+  "global_step": 300,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.73,
+      "learning_rate": 2.9999999999999997e-05,
+      "loss": 2.5173,
+      "step": 10
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 5.9999999999999995e-05,
+      "loss": 2.4599,
+      "step": 20
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 8.999999999999999e-05,
+      "loss": 2.2163,
+      "step": 30
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.00011999999999999999,
+      "loss": 1.7728,
+      "step": 40
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 0.00015,
+      "loss": 1.2772,
+      "step": 50
+    },
+    {
+      "epoch": 3.64,
+      "eval_loss": 1.2498592138290405,
+      "eval_runtime": 8.4312,
+      "eval_samples_per_second": 23.721,
+      "eval_steps_per_second": 2.965,
+      "step": 50
+    },
+    {
+      "epoch": 4.37,
+      "learning_rate": 0.00017999999999999998,
+      "loss": 1.1737,
+      "step": 60
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 0.00020999999999999998,
+      "loss": 1.1581,
+      "step": 70
+    },
+    {
+      "epoch": 5.83,
+      "learning_rate": 0.00023999999999999998,
+      "loss": 1.1455,
+      "step": 80
+    },
+    {
+      "epoch": 6.56,
+      "learning_rate": 0.00027,
+      "loss": 1.121,
+      "step": 90
+    },
+    {
+      "epoch": 7.29,
+      "learning_rate": 0.0003,
+      "loss": 1.1123,
+      "step": 100
+    },
+    {
+      "epoch": 7.29,
+      "eval_loss": 1.187015175819397,
+      "eval_runtime": 10.2578,
+      "eval_samples_per_second": 19.497,
+      "eval_steps_per_second": 2.437,
+      "step": 100
+    },
+    {
+      "epoch": 8.02,
+      "learning_rate": 0.000285,
+      "loss": 1.1124,
+      "step": 110
+    },
+    {
+      "epoch": 8.75,
+      "learning_rate": 0.00027,
+      "loss": 1.089,
+      "step": 120
+    },
+    {
+      "epoch": 9.48,
+      "learning_rate": 0.00025499999999999996,
+      "loss": 1.0991,
+      "step": 130
+    },
+    {
+      "epoch": 10.21,
+      "learning_rate": 0.00023999999999999998,
+      "loss": 1.0759,
+      "step": 140
+    },
+    {
+      "epoch": 10.93,
+      "learning_rate": 0.000225,
+      "loss": 1.0762,
+      "step": 150
+    },
+    {
+      "epoch": 10.93,
+      "eval_loss": 1.1669864654541016,
+      "eval_runtime": 10.2044,
+      "eval_samples_per_second": 19.599,
+      "eval_steps_per_second": 2.45,
+      "step": 150
+    },
+    {
+      "epoch": 11.66,
+      "learning_rate": 0.00020999999999999998,
+      "loss": 1.0738,
+      "step": 160
+    },
+    {
+      "epoch": 12.39,
+      "learning_rate": 0.000195,
+      "loss": 1.0424,
+      "step": 170
+    },
+    {
+      "epoch": 13.12,
+      "learning_rate": 0.00017999999999999998,
+      "loss": 1.0701,
+      "step": 180
+    },
+    {
+      "epoch": 13.85,
+      "learning_rate": 0.000165,
+      "loss": 1.0486,
+      "step": 190
+    },
+    {
+      "epoch": 14.58,
+      "learning_rate": 0.00015,
+      "loss": 1.0409,
+      "step": 200
+    },
+    {
+      "epoch": 14.58,
+      "eval_loss": 1.1660184860229492,
+      "eval_runtime": 10.2373,
+      "eval_samples_per_second": 19.536,
+      "eval_steps_per_second": 2.442,
+      "step": 200
+    },
+    {
+      "epoch": 15.31,
+      "learning_rate": 0.000135,
+      "loss": 1.0404,
+      "step": 210
+    },
+    {
+      "epoch": 16.04,
+      "learning_rate": 0.00011999999999999999,
+      "loss": 1.027,
+      "step": 220
+    },
+    {
+      "epoch": 16.77,
+      "learning_rate": 0.00010499999999999999,
+      "loss": 1.0251,
+      "step": 230
+    },
+    {
+      "epoch": 17.49,
+      "learning_rate": 8.999999999999999e-05,
+      "loss": 1.0183,
+      "step": 240
+    },
+    {
+      "epoch": 18.22,
+      "learning_rate": 7.5e-05,
+      "loss": 1.0063,
+      "step": 250
+    },
+    {
+      "epoch": 18.22,
+      "eval_loss": 1.1671104431152344,
+      "eval_runtime": 10.1032,
+      "eval_samples_per_second": 19.796,
+      "eval_steps_per_second": 2.474,
+      "step": 250
+    },
+    {
+      "epoch": 18.95,
+      "learning_rate": 5.9999999999999995e-05,
+      "loss": 1.0167,
+      "step": 260
+    },
+    {
+      "epoch": 19.68,
+      "learning_rate": 4.4999999999999996e-05,
+      "loss": 0.9973,
+      "step": 270
+    },
+    {
+      "epoch": 20.41,
+      "learning_rate": 2.9999999999999997e-05,
+      "loss": 1.0219,
+      "step": 280
+    },
+    {
+      "epoch": 21.14,
+      "learning_rate": 1.4999999999999999e-05,
+      "loss": 0.993,
+      "step": 290
+    },
+    {
+      "epoch": 21.87,
+      "learning_rate": 0.0,
+      "loss": 0.9988,
+      "step": 300
+    },
+    {
+      "epoch": 21.87,
+      "eval_loss": 1.1713457107543945,
+      "eval_runtime": 10.0918,
+      "eval_samples_per_second": 19.818,
+      "eval_steps_per_second": 2.477,
+      "step": 300
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 300,
+  "num_train_epochs": 24,
+  "save_steps": 50,
+  "total_flos": 3.898336244387021e+17,
+  "trial_name": null,
+  "trial_params": null
+}