Training in progress, step 2500, checkpoint

Browse files

Files changed (15) hide show

last-checkpoint/adapter_model.bin +1 -1
last-checkpoint/global_step2500/zero_pp_rank_0_mp_rank_00_model_states.pt +1 -1
last-checkpoint/global_step2500/zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step2500/zero_pp_rank_1_mp_rank_00_model_states.pt +1 -1
last-checkpoint/global_step2500/zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step2500/zero_pp_rank_2_mp_rank_00_model_states.pt +1 -1
last-checkpoint/global_step2500/zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step2500/zero_pp_rank_3_mp_rank_00_model_states.pt +1 -1
last-checkpoint/global_step2500/zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/trainer_state.json +303 -3

last-checkpoint/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be60ba8c5321f17ec4b3f2b6a50f255c7034e1a8d70ca9633be1a0b46a85dfa2
 size 19744138

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f93f9dbc221ce7eb2f7a986f2bdf2025a0344f7d11dda174684e2f36ab62d20
 size 19744138

last-checkpoint/global_step2500/zero_pp_rank_0_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:646fe8a551f2bd17b48c6752c7304ae8e1fcf3843feb5be277804d085d96f19a
 size 6508458036

 version https://git-lfs.github.com/spec/v1
+oid sha256:70c46d86da91d9c6ec1531e6c6d8a2dd86b8cdba8a4a17be4fa512f40a9d78cc
 size 6508458036

last-checkpoint/global_step2500/zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2750a56e16ea0229cf9f3e8e23006bfb9a7c0358aa28d39d92863d9ab7c0a580
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:8856be1339d6883c09d0b8988ff5df8643c90607dcc44c5ee0c96e06a8012e43
 size 29495149

last-checkpoint/global_step2500/zero_pp_rank_1_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f99081c9def57becd4d3a4d9de52a72f89f23a102200db3216b54d510d8a1cc
 size 6508458036

 version https://git-lfs.github.com/spec/v1
+oid sha256:b9e04d558bf61661db9da9d77c6440a377a127f675876f05975e834670b4091c
 size 6508458036

last-checkpoint/global_step2500/zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:222fe183f3eea9e389bcaacbecabaae4810fdc3d60d8ba363b689b48d252d83a
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:63da6d6ff981d85554533d3c5ee6657e0556bc5f60b5bbcc79d6f4913c35e1e7
 size 29495149

last-checkpoint/global_step2500/zero_pp_rank_2_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e48a0f58625f48764d03261d7a14db5ba2c78ffd1d7df544cd9183710a16a3e7
 size 6508458036

 version https://git-lfs.github.com/spec/v1
+oid sha256:41ed229fd122478e56a15a162611f0c5199d0fcdb8bfcef172a6ac022b363456
 size 6508458036

last-checkpoint/global_step2500/zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7156818814735141f1f945fc98b72f62886378bb94487320e68b6afc0c2abfa
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a73a2b1df375f648c11537c000eb296e6e3979a807266832bc02324fcbaedf0
 size 29495149

last-checkpoint/global_step2500/zero_pp_rank_3_mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a2be9b2d58c8643c7fb55afc2ef6aed69d3c5534cfad815bb0c8d72e367a0e0
 size 6508458036

 version https://git-lfs.github.com/spec/v1
+oid sha256:975c77957f54ac39ad043dbf7040a8ac7af3dbcbb65b33a83e89d644f4c04209
 size 6508458036

last-checkpoint/global_step2500/zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5da05a7373a17e7c1f226a1b0cb3e78ca8f434ee0679ac3531e404c06c2f4f28
 size 29495149

 version https://git-lfs.github.com/spec/v1
+oid sha256:85118289c3243a02f4b200c2b6f4344c2a014bcaa13bbf45e0d6ba2c1ab7c47d
 size 29495149

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step2000~~


1	+ global_step2500

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5907a54cddc69fe20c02c40139b18624ac2dbae5bcf42b9774c58b64c40b44c7
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c8dec4848de85a7459619a3ee9d2272ba9c96e55d70dd5489741e08b8473bb3
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c083526885eb8bf3a2ee040372afafd0bb8ab3fad4c8309d345237f500f3a1c
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:23bab7c930535eb3f4cd9b227c386dd1d48f7c52b2fc08ce849b1269c36bd946
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19c68b0b0876647c73f1e948eb1f7cd95a5f2a05b6f8a5d5f754e4e9a76c606d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3effdd25d25bd2c7d4880812b78b2b7de8af5816064ffe51585b24820d0691cb
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c858b96940d74592597bc7a918935a99c2fc8e9f641f494a7e5c566c09a6221
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:059a50f85f504da39009dc3cc341f1e2fbc7dd40780b00f8ebc9bed068e45c3e
 size 15024

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8431703204047217,
   "eval_steps": 500,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1207,13 +1207,313 @@
       "learning_rate": 1e-05,
       "loss": 0.6565,
       "step": 2000
     }
   ],
   "logging_steps": 10,
   "max_steps": 5000,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 502812786032640.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0539629005059021,
   "eval_steps": 500,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1e-05,
       "loss": 0.6565,
       "step": 2000
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 1e-05,
+      "loss": 0.6263,
+      "step": 2010
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 1e-05,
+      "loss": 0.6665,
+      "step": 2020
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1e-05,
+      "loss": 0.7087,
+      "step": 2030
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1e-05,
+      "loss": 0.7511,
+      "step": 2040
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1e-05,
+      "loss": 0.6708,
+      "step": 2050
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1e-05,
+      "loss": 0.674,
+      "step": 2060
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1e-05,
+      "loss": 0.7629,
+      "step": 2070
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 1e-05,
+      "loss": 0.623,
+      "step": 2080
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 1e-05,
+      "loss": 0.6838,
+      "step": 2090
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1e-05,
+      "loss": 0.6836,
+      "step": 2100
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1e-05,
+      "loss": 0.627,
+      "step": 2110
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1e-05,
+      "loss": 0.7598,
+      "step": 2120
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1e-05,
+      "loss": 0.7417,
+      "step": 2130
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1e-05,
+      "loss": 0.6853,
+      "step": 2140
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1e-05,
+      "loss": 0.6359,
+      "step": 2150
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1e-05,
+      "loss": 0.6933,
+      "step": 2160
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1e-05,
+      "loss": 0.742,
+      "step": 2170
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1e-05,
+      "loss": 0.6966,
+      "step": 2180
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1e-05,
+      "loss": 0.6848,
+      "step": 2190
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 1e-05,
+      "loss": 0.6774,
+      "step": 2200
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 1e-05,
+      "loss": 0.7237,
+      "step": 2210
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1e-05,
+      "loss": 0.7163,
+      "step": 2220
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1e-05,
+      "loss": 0.6856,
+      "step": 2230
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1e-05,
+      "loss": 0.7414,
+      "step": 2240
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1e-05,
+      "loss": 0.6774,
+      "step": 2250
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1e-05,
+      "loss": 0.6008,
+      "step": 2260
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1e-05,
+      "loss": 0.7281,
+      "step": 2270
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1e-05,
+      "loss": 0.7157,
+      "step": 2280
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1e-05,
+      "loss": 0.6478,
+      "step": 2290
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1e-05,
+      "loss": 0.7042,
+      "step": 2300
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1e-05,
+      "loss": 0.6797,
+      "step": 2310
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1e-05,
+      "loss": 0.7048,
+      "step": 2320
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1e-05,
+      "loss": 0.6199,
+      "step": 2330
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1e-05,
+      "loss": 0.617,
+      "step": 2340
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1e-05,
+      "loss": 0.658,
+      "step": 2350
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1e-05,
+      "loss": 0.7155,
+      "step": 2360
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1e-05,
+      "loss": 0.6392,
+      "step": 2370
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1e-05,
+      "loss": 0.6793,
+      "step": 2380
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 1e-05,
+      "loss": 0.6842,
+      "step": 2390
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 1e-05,
+      "loss": 0.6615,
+      "step": 2400
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 1e-05,
+      "loss": 0.7222,
+      "step": 2410
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 1e-05,
+      "loss": 0.7035,
+      "step": 2420
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 1e-05,
+      "loss": 0.6866,
+      "step": 2430
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 1e-05,
+      "loss": 0.6694,
+      "step": 2440
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 1e-05,
+      "loss": 0.6687,
+      "step": 2450
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 1e-05,
+      "loss": 0.6515,
+      "step": 2460
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 1e-05,
+      "loss": 0.66,
+      "step": 2470
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 1e-05,
+      "loss": 0.6523,
+      "step": 2480
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 1e-05,
+      "loss": 0.676,
+      "step": 2490
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 1e-05,
+      "loss": 0.6396,
+      "step": 2500
     }
   ],
   "logging_steps": 10,
   "max_steps": 5000,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 628704820592640.0,
   "trial_name": null,
   "trial_params": null
 }