Training in progress, step 380000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +2 -2
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +2 -2
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9c8cce7fc16d49d0f7371660f21497251dd70fb6a0863ced538e8e9c69a0ca9
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:241d9085c124b3eba48c530116f68f59d85b2df3443facaec6ea11dc49d55a64
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb573bc42125377ae261521a84adbf685b2347ffb43eb62b536c886544fe2d46
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d4bc41779e2d6304b9419d2772739a130d22e86fd6c9f3afbd2e0c3ee5419e4
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ee12284053cf83e8530cb65257ff01350f611fa2a8f8b92c00004c4644ba728
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e37ec2ad84f7ba85cc772e99cb8545a4cbfaa7381a41ddd4a3aa91e0ce61e68
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c588aab0631e1cbe9b9bc91bd8fdb267f40c2efed21da72dbc11089c341db1a
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:85519fa51d75acbbb3048d7882484da3d5005c19c2db1456cbcb7c7e288fefdc
+size 14439

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d81b56af08f24fc8d507e3068f145577049df6c261f921cf212def6001138c25
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bb0afece5c8069cc11f1d74f2cbe0cc7ca51acd29eabfe984c5004653b66638
+size 14439

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f3d36fad09b43ee50c94cb8bbf636c2e82070e751a5d530c5d483d7fea96111
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f7a8a69ea84c76c1ba62360211ec1aee5a43eb5be6b28be19dd35082fc0f872
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:738ab6b372718dc5257fa8c5c82fc8480566553405b2c1fe74ac6bb9bd72e750
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c9dfd822ea158ad304a36506ae43c2b1a7adf656df5c9032384a0d9d826989e
+size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a56c60b33853d8e6230ccd6985b78412b5623c0d98e6fcecc17ad9dcdf56630f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd61e923aa53357f018bb8f972acd03e5e22cec973afb7a44242ee37ecdd9eac
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87c77a0d4fbb407266eb2a3608ccf0fffdba85f7cd116784ad470dea58425561
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:358496c77d19a4e645872ac224e8695ee5602a8fd7b41e2a32b9cf0a419156c8
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0880cbd756484509ced83a375e5248ed2190c14baa2ebe717f828a8c21b981bd
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a344adc4e56950e93eda7f993a6791867b71bbebf0dede9e3e7fb6302a4626eb
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:580594f4768ecd1bd92e87dca92e874365a397305161c1f8781b79f1f0b613ba
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c2047b5f47fc3de929bb0738f7fbdd248300ab063f6fd4eddcabc29f5482852
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 11.336131621679586,
-  "global_step": 370000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7406,11 +7406,211 @@
       "eval_samples_per_second": 1964.929,
       "eval_steps_per_second": 31.439,
       "step": 370000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 1.1820936267184766e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 11.642513557400656,
+  "global_step": 380000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1964.929,
       "eval_steps_per_second": 31.439,
       "step": 370000
+    },
+    {
+      "epoch": 11.35,
+      "learning_rate": 6.0012253629189544e-05,
+      "loss": 0.3214,
+      "step": 370500
+    },
+    {
+      "epoch": 11.37,
+      "learning_rate": 5.965048145015944e-05,
+      "loss": 0.3212,
+      "step": 371000
+    },
+    {
+      "epoch": 11.37,
+      "eval_loss": 0.7814466953277588,
+      "eval_runtime": 0.5088,
+      "eval_samples_per_second": 1965.383,
+      "eval_steps_per_second": 31.446,
+      "step": 371000
+    },
+    {
+      "epoch": 11.38,
+      "learning_rate": 5.928975199818785e-05,
+      "loss": 0.3215,
+      "step": 371500
+    },
+    {
+      "epoch": 11.4,
+      "learning_rate": 5.893006921815428e-05,
+      "loss": 0.3213,
+      "step": 372000
+    },
+    {
+      "epoch": 11.4,
+      "eval_loss": 0.7858847975730896,
+      "eval_runtime": 0.5207,
+      "eval_samples_per_second": 1920.357,
+      "eval_steps_per_second": 30.726,
+      "step": 372000
+    },
+    {
+      "epoch": 11.41,
+      "learning_rate": 5.857143704349198e-05,
+      "loss": 0.321,
+      "step": 372500
+    },
+    {
+      "epoch": 11.43,
+      "learning_rate": 5.8213859396144986e-05,
+      "loss": 0.3213,
+      "step": 373000
+    },
+    {
+      "epoch": 11.43,
+      "eval_loss": 0.780572772026062,
+      "eval_runtime": 0.523,
+      "eval_samples_per_second": 1911.94,
+      "eval_steps_per_second": 30.591,
+      "step": 373000
+    },
+    {
+      "epoch": 11.44,
+      "learning_rate": 5.785734018652507e-05,
+      "loss": 0.3212,
+      "step": 373500
+    },
+    {
+      "epoch": 11.46,
+      "learning_rate": 5.750188331346927e-05,
+      "loss": 0.3211,
+      "step": 374000
+    },
+    {
+      "epoch": 11.46,
+      "eval_loss": 0.7766540050506592,
+      "eval_runtime": 0.5243,
+      "eval_samples_per_second": 1907.256,
+      "eval_steps_per_second": 30.516,
+      "step": 374000
+    },
+    {
+      "epoch": 11.47,
+      "learning_rate": 5.714749266419695e-05,
+      "loss": 0.3207,
+      "step": 374500
+    },
+    {
+      "epoch": 11.49,
+      "learning_rate": 5.6794172114267566e-05,
+      "loss": 0.3208,
+      "step": 375000
+    },
+    {
+      "epoch": 11.49,
+      "eval_loss": 0.7823048233985901,
+      "eval_runtime": 0.5063,
+      "eval_samples_per_second": 1975.154,
+      "eval_steps_per_second": 31.602,
+      "step": 375000
+    },
+    {
+      "epoch": 11.5,
+      "learning_rate": 5.6441925527537914e-05,
+      "loss": 0.3207,
+      "step": 375500
+    },
+    {
+      "epoch": 11.52,
+      "learning_rate": 5.60907567561203e-05,
+      "loss": 0.3202,
+      "step": 376000
+    },
+    {
+      "epoch": 11.52,
+      "eval_loss": 0.7723506689071655,
+      "eval_runtime": 0.5144,
+      "eval_samples_per_second": 1944.173,
+      "eval_steps_per_second": 31.107,
+      "step": 376000
+    },
+    {
+      "epoch": 11.54,
+      "learning_rate": 5.574066964034012e-05,
+      "loss": 0.3207,
+      "step": 376500
+    },
+    {
+      "epoch": 11.55,
+      "learning_rate": 5.539166800869402e-05,
+      "loss": 0.3208,
+      "step": 377000
+    },
+    {
+      "epoch": 11.55,
+      "eval_loss": 0.7742220163345337,
+      "eval_runtime": 0.4989,
+      "eval_samples_per_second": 2004.565,
+      "eval_steps_per_second": 32.073,
+      "step": 377000
+    },
+    {
+      "epoch": 11.57,
+      "learning_rate": 5.5043755677807955e-05,
+      "loss": 0.3206,
+      "step": 377500
+    },
+    {
+      "epoch": 11.58,
+      "learning_rate": 5.4696936452395344e-05,
+      "loss": 0.3205,
+      "step": 378000
+    },
+    {
+      "epoch": 11.58,
+      "eval_loss": 0.7778945565223694,
+      "eval_runtime": 0.5033,
+      "eval_samples_per_second": 1986.827,
+      "eval_steps_per_second": 31.789,
+      "step": 378000
+    },
+    {
+      "epoch": 11.6,
+      "learning_rate": 5.435121412521576e-05,
+      "loss": 0.3207,
+      "step": 378500
+    },
+    {
+      "epoch": 11.61,
+      "learning_rate": 5.400659247703307e-05,
+      "loss": 0.3204,
+      "step": 379000
+    },
+    {
+      "epoch": 11.61,
+      "eval_loss": 0.7782105803489685,
+      "eval_runtime": 0.507,
+      "eval_samples_per_second": 1972.197,
+      "eval_steps_per_second": 31.555,
+      "step": 379000
+    },
+    {
+      "epoch": 11.63,
+      "learning_rate": 5.36630752765745e-05,
+      "loss": 0.3202,
+      "step": 379500
+    },
+    {
+      "epoch": 11.64,
+      "learning_rate": 5.3320666280489146e-05,
+      "loss": 0.3203,
+      "step": 380000
+    },
+    {
+      "epoch": 11.64,
+      "eval_loss": 0.7813093662261963,
+      "eval_runtime": 0.5119,
+      "eval_samples_per_second": 1953.621,
+      "eval_steps_per_second": 31.258,
+      "step": 380000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 1.2140423405959266e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb573bc42125377ae261521a84adbf685b2347ffb43eb62b536c886544fe2d46
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d4bc41779e2d6304b9419d2772739a130d22e86fd6c9f3afbd2e0c3ee5419e4
 size 102501541