Training in progress, step 200

Browse files

Files changed (11) hide show

checkpoint-200/optimizer.pt +3 -0
checkpoint-200/pytorch_model.bin +3 -0
checkpoint-200/rng_state.pth +3 -0
checkpoint-200/scaler.pt +3 -0
checkpoint-200/scheduler.pt +3 -0
checkpoint-200/trainer_state.json +264 -0
checkpoint-200/training_args.bin +3 -0
pytorch_model.bin +3 -0
runs/May07_17-47-06_bc858596195a/1683481716.286797/events.out.tfevents.1683481716.bc858596195a.2495.1 +3 -0
runs/May07_17-47-06_bc858596195a/events.out.tfevents.1683481716.bc858596195a.2495.0 +3 -0
training_args.bin +3 -0

checkpoint-200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9b15da481ecb9da6d1b58cef439c4efb0f56221c87a33fb63e263875822c936
+size 25278853

checkpoint-200/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6de9e367d423f2fbb2a7963afdcdbfa0b304895b262b7d40da95ed25d3015811
+size 12653389

checkpoint-200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:027af796b517d78c379b0f837723d7f546af00cb42a86507d1c8058c42c2269b
+size 14511

checkpoint-200/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4fccf0f9be1bb8f24861e4393745b3e09cc2687125a69e3757955fb0f0925ea5
+size 557

checkpoint-200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0308641364f6f0574ef0515b5dc85f636f402ee5ab7030ea5ad6f7da6799a20d
+size 627

checkpoint-200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,264 @@

+{
+  "best_metric": 1.2345943450927734,
+  "best_model_checkpoint": "outputs/checkpoint-200",
+  "epoch": 0.064,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 1e-05,
+      "loss": 1.8184,
+      "step": 5
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 2e-05,
+      "loss": 1.7858,
+      "step": 10
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 3e-05,
+      "loss": 1.7218,
+      "step": 15
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4e-05,
+      "loss": 1.7218,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 5e-05,
+      "loss": 1.7009,
+      "step": 25
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 6e-05,
+      "loss": 1.6714,
+      "step": 30
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 7e-05,
+      "loss": 1.6582,
+      "step": 35
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 8e-05,
+      "loss": 1.5659,
+      "step": 40
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 9e-05,
+      "loss": 1.5343,
+      "step": 45
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0001,
+      "loss": 1.5252,
+      "step": 50
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00011000000000000002,
+      "loss": 1.414,
+      "step": 55
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00012,
+      "loss": 1.3919,
+      "step": 60
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00013000000000000002,
+      "loss": 1.352,
+      "step": 65
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00014,
+      "loss": 1.3762,
+      "step": 70
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 1.3238,
+      "step": 75
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00016,
+      "loss": 1.3306,
+      "step": 80
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00017,
+      "loss": 1.3423,
+      "step": 85
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00018,
+      "loss": 1.3199,
+      "step": 90
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00019,
+      "loss": 1.3506,
+      "step": 95
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 1.3315,
+      "step": 100
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0001998921832884097,
+      "loss": 1.3142,
+      "step": 105
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019978436657681943,
+      "loss": 1.2994,
+      "step": 110
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019967654986522912,
+      "loss": 1.2972,
+      "step": 115
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019956873315363883,
+      "loss": 1.3135,
+      "step": 120
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019946091644204851,
+      "loss": 1.2903,
+      "step": 125
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019935309973045823,
+      "loss": 1.2783,
+      "step": 130
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019924528301886794,
+      "loss": 1.3044,
+      "step": 135
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019913746630727762,
+      "loss": 1.2947,
+      "step": 140
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019902964959568736,
+      "loss": 1.2759,
+      "step": 145
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019892183288409705,
+      "loss": 1.2746,
+      "step": 150
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019881401617250676,
+      "loss": 1.2869,
+      "step": 155
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019870619946091644,
+      "loss": 1.26,
+      "step": 160
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019859838274932616,
+      "loss": 1.258,
+      "step": 165
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019849056603773587,
+      "loss": 1.2649,
+      "step": 170
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019838274932614555,
+      "loss": 1.2549,
+      "step": 175
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019827493261455526,
+      "loss": 1.2859,
+      "step": 180
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019816711590296498,
+      "loss": 1.2934,
+      "step": 185
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019805929919137466,
+      "loss": 1.3011,
+      "step": 190
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019795148247978437,
+      "loss": 1.2304,
+      "step": 195
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019784366576819408,
+      "loss": 1.2849,
+      "step": 200
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 1.2345943450927734,
+      "eval_runtime": 710.2534,
+      "eval_samples_per_second": 7.04,
+      "eval_steps_per_second": 0.88,
+      "step": 200
+    }
+  ],
+  "max_steps": 9375,
+  "num_train_epochs": 3,
+  "total_flos": 1.19119709995008e+16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37558cbc88ba261791fbfa1f320a80e38b6c62c51b94e8ff0512ef16db3ba9ad
+size 3963

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6de9e367d423f2fbb2a7963afdcdbfa0b304895b262b7d40da95ed25d3015811
+size 12653389

runs/May07_17-47-06_bc858596195a/1683481716.286797/events.out.tfevents.1683481716.bc858596195a.2495.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e52179a2bb19ca09140e93dd7b6918bf80bee1086ee42565e4ec3011bc6cba4f
+size 5873

runs/May07_17-47-06_bc858596195a/events.out.tfevents.1683481716.bc858596195a.2495.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45676bd514f77e3d2bbd99fd360f44ab87fbdd25e86b4807242a7b88000c1d3a
+size 10731

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37558cbc88ba261791fbfa1f320a80e38b6c62c51b94e8ff0512ef16db3ba9ad
+size 3963