Training in progress, epoch 1, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step2000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2000/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +82 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d377acbba120fee452cb1d03550d9665582a6be0583ccf01beca6d60f3068954
 size 98088784

 version https://git-lfs.github.com/spec/v1
+oid sha256:28f960cc3fc3041049728628ca0f3995042d6d6b849410ccc76854759f1de38e
 size 98088784

last-checkpoint/global_step2000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc4ab868d13d7e25e7c50daae00bf5536887bcf2c1d19ba949bc264e7dfc4117
+size 73939813

last-checkpoint/global_step2000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c0093cece272c92cef31aaad91a148bae7541a7cb779fe0bdf9242d1b424091
+size 73939813

last-checkpoint/global_step2000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95252e914f5d5433a20f25169ef73e387bb7472971595d4f55445c445c3c5a4e
+size 73939877

last-checkpoint/global_step2000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:951ff763ca5b28ce437168afed25c674ab36435f89a9d54cb252a215250b8104
+size 73939877

last-checkpoint/global_step2000/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:013abcfc6d5041aee8df7400c9f24dae1570abbaa9e21064ff32f5fc208b40ad
+size 564993061

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1950~~


1	+ global_step2000

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2747623e531b52c955116a1758c4c3b7702bc046434dcac538cbc3384623204e
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a14f6a698f92007bbc2dcb792b9b6ca2830509bab22cc9bd34d4e6a2c1d3b8a
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fba8e2d73257c90bb7fccef88f8b355c2b6047cf464eab08a043eb68c59a585f
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:2fdbb189d7242681559cf6c379ca732f316bca39a80295113d8476efdbf2845a
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a8f10702d3ccb9b37c2be68aaec1a7be7d307b01ae96b4338b884b09aeab75b
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:8db64115c44140dcc749fb50ed04400a835cc578facdcfdf170d2c657b74fd53
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4cf8f798773612226d5bcd3505626cca08d37d8aefa69b231e6a2870c09d7106
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:622aa7be447c67092898a74b40ee6e6a8c1fee0783bf1f9c83af0dde5fce5c73
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7867b13d1149754c953736bbad37f67bb9cd0c04cec7aac6bcf4539459e754ab
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:8544c996407cdf577fc237cd843a7fc6fa9441fad75c673215c6414edef0e8c3
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.6521090865135193,
   "best_model_checkpoint": null,
-  "epoch": 1.9112063686466625,
   "eval_steps": 50,
-  "global_step": 1950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3050,6 +3050,84 @@
       "eval_samples_per_second": 126.427,
       "eval_steps_per_second": 15.811,
       "step": 1950
     }
   ],
   "logging_steps": 5,
@@ -3078,7 +3156,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0062774197886648e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 0.6503395438194275,
   "best_model_checkpoint": null,
+  "epoch": 1.9601959583588489,
   "eval_steps": 50,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 126.427,
       "eval_steps_per_second": 15.811,
       "step": 1950
+    },
+    {
+      "epoch": 1.9161053276178812,
+      "grad_norm": 0.22474640607833862,
+      "learning_rate": 7.605616150846442e-05,
+      "loss": 0.6932,
+      "step": 1955
+    },
+    {
+      "epoch": 1.9210042865891,
+      "grad_norm": 0.2242085039615631,
+      "learning_rate": 7.58912724661567e-05,
+      "loss": 0.708,
+      "step": 1960
+    },
+    {
+      "epoch": 1.9259032455603184,
+      "grad_norm": 0.21359029412269592,
+      "learning_rate": 7.572617283033086e-05,
+      "loss": 0.6908,
+      "step": 1965
+    },
+    {
+      "epoch": 1.930802204531537,
+      "grad_norm": 0.1957738995552063,
+      "learning_rate": 7.556086429764114e-05,
+      "loss": 0.6746,
+      "step": 1970
+    },
+    {
+      "epoch": 1.9357011635027557,
+      "grad_norm": 0.19697311520576477,
+      "learning_rate": 7.539534856688843e-05,
+      "loss": 0.6868,
+      "step": 1975
+    },
+    {
+      "epoch": 1.9406001224739744,
+      "grad_norm": 0.23822586238384247,
+      "learning_rate": 7.522962733900299e-05,
+      "loss": 0.6672,
+      "step": 1980
+    },
+    {
+      "epoch": 1.945499081445193,
+      "grad_norm": 0.21542146801948547,
+      "learning_rate": 7.506370231702681e-05,
+      "loss": 0.6835,
+      "step": 1985
+    },
+    {
+      "epoch": 1.9503980404164114,
+      "grad_norm": 0.1972765177488327,
+      "learning_rate": 7.489757520609624e-05,
+      "loss": 0.6701,
+      "step": 1990
+    },
+    {
+      "epoch": 1.9552969993876301,
+      "grad_norm": 0.208944171667099,
+      "learning_rate": 7.473124771342437e-05,
+      "loss": 0.68,
+      "step": 1995
+    },
+    {
+      "epoch": 1.9601959583588489,
+      "grad_norm": 0.19232727587223053,
+      "learning_rate": 7.456472154828355e-05,
+      "loss": 0.6733,
+      "step": 2000
+    },
+    {
+      "epoch": 1.9601959583588489,
+      "eval_loss": 0.6503395438194275,
+      "eval_runtime": 15.4202,
+      "eval_samples_per_second": 127.041,
+      "eval_steps_per_second": 15.888,
+      "step": 2000
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1.0314720434234327e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null