feat: update to step 1480

Browse files

Files changed (6) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +219 -3
training_args.bin +1 -1

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99c56ade3ce8ce7f4cd660c9f56cfd465189c0f3e6cea93876304e1f0a19b386
 size 5922605

 version https://git-lfs.github.com/spec/v1
+oid sha256:9095cf091f13fef28be3b337c0de7a461356f4207894f2e9211e1e414b251244
 size 5922605

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17e20280f7ac97d48e5623917bbbbf3a30fba6331dd764e6dbcb38e5e5f4373f
 size 3282182981

 version https://git-lfs.github.com/spec/v1
+oid sha256:f94103909eef81b12ecf00936e61da446886031622a51849f53753c95eecdeff
 size 3282182981

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b9e29cdc3030e4b9c9f1d5b3772b55f7698772a789cb32861fca81f87bb6ae0
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b8eabf76fcd8bc7449a6b05ba51e815397e565ade9671197a70e60312fa2c02
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c111d4fd09f2ba45d9ce9a3f9e472c9d29e15e5ddc9015049a18f079a487648d
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:92a33c4cb7d8c9dad3255cdd0b6067ad6b7d77dc9943d79714a9d617088adb67
 size 627

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.01949769498511016,
-  "global_step": 1120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -678,11 +678,227 @@
       "learning_rate": 0.0022400000000000002,
       "loss": 2.4506,
       "step": 1120
     }
   ],
   "max_steps": 172326,
   "num_train_epochs": 3,
-  "total_flos": 5.5330613854470144e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.025764811230324137,
+  "global_step": 1480,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0022400000000000002,
       "loss": 2.4506,
       "step": 1120
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00226,
+      "loss": 2.462,
+      "step": 1130
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00228,
+      "loss": 2.4535,
+      "step": 1140
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0023,
+      "loss": 2.4162,
+      "step": 1150
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00232,
+      "loss": 2.3739,
+      "step": 1160
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00234,
+      "loss": 2.4125,
+      "step": 1170
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00236,
+      "loss": 2.4172,
+      "step": 1180
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0023799999999999997,
+      "loss": 2.4006,
+      "step": 1190
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0024,
+      "loss": 2.517,
+      "step": 1200
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00242,
+      "loss": 2.4768,
+      "step": 1210
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00244,
+      "loss": 2.4303,
+      "step": 1220
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00246,
+      "loss": 2.4002,
+      "step": 1230
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00248,
+      "loss": 2.4263,
+      "step": 1240
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0025,
+      "loss": 2.4114,
+      "step": 1250
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00252,
+      "loss": 2.4964,
+      "step": 1260
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00254,
+      "loss": 2.4425,
+      "step": 1270
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00256,
+      "loss": 2.4163,
+      "step": 1280
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0025800000000000003,
+      "loss": 2.4091,
+      "step": 1290
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0026000000000000003,
+      "loss": 2.4029,
+      "step": 1300
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0026200000000000004,
+      "loss": 2.4061,
+      "step": 1310
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00264,
+      "loss": 2.3963,
+      "step": 1320
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00266,
+      "loss": 2.412,
+      "step": 1330
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00268,
+      "loss": 2.3639,
+      "step": 1340
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0027,
+      "loss": 2.3454,
+      "step": 1350
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00272,
+      "loss": 2.41,
+      "step": 1360
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0027400000000000002,
+      "loss": 2.3901,
+      "step": 1370
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00276,
+      "loss": 2.352,
+      "step": 1380
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00278,
+      "loss": 2.3873,
+      "step": 1390
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0028,
+      "loss": 2.4287,
+      "step": 1400
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00282,
+      "loss": 2.4252,
+      "step": 1410
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00284,
+      "loss": 2.4787,
+      "step": 1420
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00286,
+      "loss": 3.0007,
+      "step": 1430
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0028799999999999997,
+      "loss": 2.4423,
+      "step": 1440
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0029,
+      "loss": 2.4445,
+      "step": 1450
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00292,
+      "loss": 2.4369,
+      "step": 1460
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00294,
+      "loss": 2.423,
+      "step": 1470
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00296,
+      "loss": 3.6744,
+      "step": 1480
     }
   ],
   "max_steps": 172326,
   "num_train_epochs": 3,
+  "total_flos": 8.798474662104269e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:958eaa6a0110d49c3a54d902ba1dc985dc8e8f3b8eb2c03dc0e099f08d75886a
 size 4091

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6a68bfa120887ec0f5e2ec991631838aa62faba58a52de7e0feea3f2c228567
 size 4091