Training in progress, step 3000, checkpoint

Browse files

Files changed (11) hide show

last-checkpoint/adapter_model.bin +1 -1
last-checkpoint/global_step3000/zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step3000/zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step3000/zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step3000/zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/trainer_state.json +303 -3

last-checkpoint/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f93f9dbc221ce7eb2f7a986f2bdf2025a0344f7d11dda174684e2f36ab62d20
 size 19744138

 version https://git-lfs.github.com/spec/v1
+oid sha256:09ca6bc9ed7563f7804e6870dfb0262ec9d7ef1b9b317e3e50537421dc41436e
 size 19744138

last-checkpoint/global_step3000/zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cce0927e394639eeb0bd610f31ee8cbf9503b8c13f4532a8304ee5bfe2b27843
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:a72c585f47068754b88db4a7995ba4dda7962a48c54c29f27de81a59ada2bd9c
 size 29495149

last-checkpoint/global_step3000/zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31d3cc26103d70e2131559ace58bfb81ba66514571d1e4bd5b8703dc09e5bc0a
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a1e9ce1f3afc5a389822bfa65228bb38d3496b2c6f17016b230db6baa735257
 size 29495149

last-checkpoint/global_step3000/zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:655f27fc3a28657447c812500eb050ab2234ef9e0301ee6a3ec668f039310e13
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cb471591296d9209f005f7ca04a794c791716dcbe6849722ca60fd780b8e4f5
 size 29495149

last-checkpoint/global_step3000/zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f53189fdda0e03570b86da54fdb10905918b600bf0aa2aca3aeba7b41048090
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:03473b2ecc4164b11c4193e945649be0af72e76a8a8d73af30bdc3a72d1e9679
 size 29495149

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step2500~~


1	+ global_step3000

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c8dec4848de85a7459619a3ee9d2272ba9c96e55d70dd5489741e08b8473bb3
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d887fde7ddbc72491d6886015e2826b2f67780c0d1c9fd59e1d88ce5fc09e31b
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23bab7c930535eb3f4cd9b227c386dd1d48f7c52b2fc08ce849b1269c36bd946
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:7edde062ca170b1a53cd6353a93ce1f9782a4edeac65ea031afcf5aea5323ca4
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3effdd25d25bd2c7d4880812b78b2b7de8af5816064ffe51585b24820d0691cb
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:559285b660bfd3d01043c44ad11fa1111ae6e093b1d70a9a10b4160231b87936
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:059a50f85f504da39009dc3cc341f1e2fbc7dd40780b00f8ebc9bed068e45c3e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ac86af3890b7d390a131628964790e2daa6e964a408d352e767975a2f58c75c
 size 15024

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0539629005059021,
   "eval_steps": 500,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1507,13 +1507,313 @@
       "learning_rate": 1e-05,
       "loss": 0.6396,
       "step": 2500
     }
   ],
   "logging_steps": 10,
   "max_steps": 5000,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 628704820592640.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2647554806070826,
   "eval_steps": 500,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1e-05,
       "loss": 0.6396,
       "step": 2500
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 1e-05,
+      "loss": 0.6692,
+      "step": 2510
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 1e-05,
+      "loss": 0.6417,
+      "step": 2520
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1e-05,
+      "loss": 0.7044,
+      "step": 2530
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1e-05,
+      "loss": 0.7393,
+      "step": 2540
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 1e-05,
+      "loss": 0.6352,
+      "step": 2550
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 1e-05,
+      "loss": 0.6468,
+      "step": 2560
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 1e-05,
+      "loss": 0.6693,
+      "step": 2570
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 1e-05,
+      "loss": 0.675,
+      "step": 2580
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 1e-05,
+      "loss": 0.6965,
+      "step": 2590
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 1e-05,
+      "loss": 0.5961,
+      "step": 2600
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 1e-05,
+      "loss": 0.7622,
+      "step": 2610
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 1e-05,
+      "loss": 0.6352,
+      "step": 2620
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 1e-05,
+      "loss": 0.6257,
+      "step": 2630
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 1e-05,
+      "loss": 0.713,
+      "step": 2640
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 1e-05,
+      "loss": 0.6418,
+      "step": 2650
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 1e-05,
+      "loss": 0.7266,
+      "step": 2660
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 1e-05,
+      "loss": 0.6281,
+      "step": 2670
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 1e-05,
+      "loss": 0.6832,
+      "step": 2680
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 1e-05,
+      "loss": 0.6341,
+      "step": 2690
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1e-05,
+      "loss": 0.6785,
+      "step": 2700
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1e-05,
+      "loss": 0.6371,
+      "step": 2710
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1e-05,
+      "loss": 0.7453,
+      "step": 2720
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1e-05,
+      "loss": 0.6299,
+      "step": 2730
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1e-05,
+      "loss": 0.7199,
+      "step": 2740
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1e-05,
+      "loss": 0.6664,
+      "step": 2750
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1e-05,
+      "loss": 0.5977,
+      "step": 2760
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1e-05,
+      "loss": 0.6706,
+      "step": 2770
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1e-05,
+      "loss": 0.6715,
+      "step": 2780
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1e-05,
+      "loss": 0.6268,
+      "step": 2790
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1e-05,
+      "loss": 0.6117,
+      "step": 2800
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1e-05,
+      "loss": 0.6529,
+      "step": 2810
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1e-05,
+      "loss": 0.6977,
+      "step": 2820
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1e-05,
+      "loss": 0.6732,
+      "step": 2830
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1e-05,
+      "loss": 0.6915,
+      "step": 2840
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1e-05,
+      "loss": 0.7073,
+      "step": 2850
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1e-05,
+      "loss": 0.6972,
+      "step": 2860
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1e-05,
+      "loss": 0.6559,
+      "step": 2870
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1e-05,
+      "loss": 0.667,
+      "step": 2880
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1e-05,
+      "loss": 0.6715,
+      "step": 2890
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1e-05,
+      "loss": 0.6339,
+      "step": 2900
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 1e-05,
+      "loss": 0.6251,
+      "step": 2910
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 1e-05,
+      "loss": 0.6384,
+      "step": 2920
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1e-05,
+      "loss": 0.6075,
+      "step": 2930
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1e-05,
+      "loss": 0.6598,
+      "step": 2940
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1e-05,
+      "loss": 0.6625,
+      "step": 2950
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1e-05,
+      "loss": 0.6064,
+      "step": 2960
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1e-05,
+      "loss": 0.6928,
+      "step": 2970
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 1e-05,
+      "loss": 0.7012,
+      "step": 2980
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 1e-05,
+      "loss": 0.6488,
+      "step": 2990
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 1e-05,
+      "loss": 0.6872,
+      "step": 3000
     }
   ],
   "logging_steps": 10,
   "max_steps": 5000,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 754093287014400.0,
   "trial_name": null,
   "trial_params": null
 }