Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step5450/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5450/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5450/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5450/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5450/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +160 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1500999ffdde982cb75dcaac931db3ae514ebeccf285ed4d6ce30206824f84e1
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f79687bb9f5f0706366f2c8be19c15c67471263d18f90d20b5060477db9fc88
 size 1037269336

last-checkpoint/global_step5450/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f78bf83e85325413df0f2bbacc777613cf49c82d2596e1692688e54d70978f84
+size 781993445

last-checkpoint/global_step5450/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7163f01fcaee0f145ef1c75eff4454c619bcde5defdbee79ee575da430be5511
+size 781993509

last-checkpoint/global_step5450/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48a871b3a94e17f81203820fec74d78f54c3ec465668d40c6c5bdb43c82c175d
+size 781993509

last-checkpoint/global_step5450/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b6c79cb7ac7b4c8bd9401c92c69b89682dbdaf4e12f4225e20205f83e52d77c
+size 781993509

last-checkpoint/global_step5450/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37adf013650b50908706c5990607180032ad85ba97a40654a79dfd22b7b740e5
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step5350~~


1	+ global_step5450

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:704aa408c70df7490b4abe5a20c7e5618fa72a104a517eb0305fcdbf58fc3623
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:09517ccbebacf6bd023c1ab9d33afd5ec868b9be2770425bd6ebefa3839d5f4d
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd995fd505f81fa381a72edaafcd078b5a1afa9f4db01b8612d064a32d1c8579
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d62fb500bd7f639c86a4805d99914de20d8c185a99a488bb6ea36449fa573a0
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7cb3928ede9d05ff204c0b223ef4aaf387da2b05e6ef0c832d041064f2b83a74
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:763a3f897c1e33a97ed5b1f4dd7ab1bdca39ada5f60f258f0e9cd8f218878aaa
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:660ed3228c426f6f1703fda8186c724de56c8eb1cc8b587eacd8b1ec37ef97c3
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:074a5f66e9ddd88b37d69172a271f48d50878d6d7b7fdbdb1735f35f2e0a2b15
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d046f42dd649480d7077992c7a5dfc15f777cb5e409b629b7885023f2c1d52e
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:9aab12b223f7247afaaf46de482c72204945729f45b93a867c6ad025ed23f245
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 1.81765878200531,
   "best_model_checkpoint": null,
-  "epoch": 0.7777293211222561,
   "eval_steps": 50,
-  "global_step": 5350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8354,6 +8354,162 @@
       "eval_samples_per_second": 172.536,
       "eval_steps_per_second": 10.819,
       "step": 5350
     }
   ],
   "logging_steps": 5,
@@ -8382,7 +8538,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.394682414789296e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 1.8068690299987793,
   "best_model_checkpoint": null,
+  "epoch": 0.7922663177787469,
   "eval_steps": 50,
+  "global_step": 5450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 172.536,
       "eval_steps_per_second": 10.819,
       "step": 5350
+    },
+    {
+      "epoch": 0.7784561709550807,
+      "grad_norm": 2.200019598007202,
+      "learning_rate": 4.5272915415458025e-05,
+      "loss": 1.8298,
+      "step": 5355
+    },
+    {
+      "epoch": 0.7791830207879052,
+      "grad_norm": 2.1728880405426025,
+      "learning_rate": 4.5193801886732545e-05,
+      "loss": 1.8708,
+      "step": 5360
+    },
+    {
+      "epoch": 0.7799098706207298,
+      "grad_norm": 2.5079801082611084,
+      "learning_rate": 4.511470070524542e-05,
+      "loss": 2.0338,
+      "step": 5365
+    },
+    {
+      "epoch": 0.7806367204535543,
+      "grad_norm": 2.2738819122314453,
+      "learning_rate": 4.5035612070133724e-05,
+      "loss": 2.0264,
+      "step": 5370
+    },
+    {
+      "epoch": 0.7813635702863788,
+      "grad_norm": 2.4879889488220215,
+      "learning_rate": 4.495653618050305e-05,
+      "loss": 2.0748,
+      "step": 5375
+    },
+    {
+      "epoch": 0.7820904201192034,
+      "grad_norm": 2.4474239349365234,
+      "learning_rate": 4.487747323542682e-05,
+      "loss": 2.1098,
+      "step": 5380
+    },
+    {
+      "epoch": 0.7828172699520279,
+      "grad_norm": 2.3970248699188232,
+      "learning_rate": 4.4798423433945934e-05,
+      "loss": 1.9963,
+      "step": 5385
+    },
+    {
+      "epoch": 0.7835441197848525,
+      "grad_norm": 2.433213472366333,
+      "learning_rate": 4.4719386975068136e-05,
+      "loss": 1.8989,
+      "step": 5390
+    },
+    {
+      "epoch": 0.784270969617677,
+      "grad_norm": 2.2355504035949707,
+      "learning_rate": 4.464036405776766e-05,
+      "loss": 1.9435,
+      "step": 5395
+    },
+    {
+      "epoch": 0.7849978194505015,
+      "grad_norm": 2.4685556888580322,
+      "learning_rate": 4.45613548809846e-05,
+      "loss": 2.0392,
+      "step": 5400
+    },
+    {
+      "epoch": 0.7849978194505015,
+      "eval_loss": 1.8167221546173096,
+      "eval_runtime": 21.1854,
+      "eval_samples_per_second": 155.815,
+      "eval_steps_per_second": 9.771,
+      "step": 5400
+    },
+    {
+      "epoch": 0.7857246692833261,
+      "grad_norm": 2.497147560119629,
+      "learning_rate": 4.4482359643624416e-05,
+      "loss": 2.0125,
+      "step": 5405
+    },
+    {
+      "epoch": 0.7864515191161506,
+      "grad_norm": 2.2153327465057373,
+      "learning_rate": 4.440337854455758e-05,
+      "loss": 1.9912,
+      "step": 5410
+    },
+    {
+      "epoch": 0.7871783689489752,
+      "grad_norm": 2.377063751220703,
+      "learning_rate": 4.4324411782618886e-05,
+      "loss": 2.0526,
+      "step": 5415
+    },
+    {
+      "epoch": 0.7879052187817996,
+      "grad_norm": 2.868448257446289,
+      "learning_rate": 4.424545955660708e-05,
+      "loss": 2.0737,
+      "step": 5420
+    },
+    {
+      "epoch": 0.7886320686146242,
+      "grad_norm": 2.2389824390411377,
+      "learning_rate": 4.416652206528426e-05,
+      "loss": 2.0863,
+      "step": 5425
+    },
+    {
+      "epoch": 0.7893589184474488,
+      "grad_norm": 2.287515878677368,
+      "learning_rate": 4.4087599507375526e-05,
+      "loss": 2.1026,
+      "step": 5430
+    },
+    {
+      "epoch": 0.7900857682802733,
+      "grad_norm": 2.3255653381347656,
+      "learning_rate": 4.4008692081568266e-05,
+      "loss": 1.9035,
+      "step": 5435
+    },
+    {
+      "epoch": 0.7908126181130979,
+      "grad_norm": 2.2820541858673096,
+      "learning_rate": 4.3929799986511875e-05,
+      "loss": 2.0517,
+      "step": 5440
+    },
+    {
+      "epoch": 0.7915394679459223,
+      "grad_norm": 2.6271772384643555,
+      "learning_rate": 4.3850923420817075e-05,
+      "loss": 2.0402,
+      "step": 5445
+    },
+    {
+      "epoch": 0.7922663177787469,
+      "grad_norm": 2.2059221267700195,
+      "learning_rate": 4.3772062583055546e-05,
+      "loss": 2.1433,
+      "step": 5450
+    },
+    {
+      "epoch": 0.7922663177787469,
+      "eval_loss": 1.8068690299987793,
+      "eval_runtime": 19.1691,
+      "eval_samples_per_second": 172.204,
+      "eval_steps_per_second": 10.799,
+      "step": 5450
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1.4208114924453888e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null