Training in progress, epoch 1, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step1750/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1750/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1750/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1750/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1750/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +82 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5e14a9273234d33f3c178ef3a0ba4d511ae44074d2744710df918a8bf99e5a9
 size 98088784

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f9b65681a5e4dae3d1166f15e110526d7dd0659622190adfab490c678c36f3c
 size 98088784

last-checkpoint/global_step1750/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:542d95be70ce5fc2085034318fb8157da2f587a28efc4f0b879fe4ef234ce98e
+size 73939813

last-checkpoint/global_step1750/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:086520196dd722d9adbfec2176094a5c72e623564176914198099d87b80b353b
+size 73939813

last-checkpoint/global_step1750/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22a3a5ec2308e2528cbb2fa87f1c254d0afe6bd346597b43f86db0582447ac94
+size 73939877

last-checkpoint/global_step1750/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5296f2391ae5108481635ef6b1c252594b9a3ab0cab1ce10deb31f42ebd69da2
+size 73939877

last-checkpoint/global_step1750/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3237b7b70e874acc7f83a0a3e2726db60e3e2e90d5252f3bd1a7a619c17423de
+size 564993061

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1700~~


1	+ global_step1750

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9e079811a4f16d069bc6568e820b087638d9087ea98d680117f7863e2b84d72
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:db55bbd76d21410901eef766f4ea27c457a7976afda6a56c3aec6194dbccd316
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:796c55d83e5f448be816dff1e47df7da05dc49ac9f33f03c4fe53871b89249f9
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1c93ee18f4dcb462dbaccd6716b53d2aaaac174ce6e476d05966a13ba91b15f
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca397837ff76969e457a84025e42de488cf6708cec475bfd6c699a74e998db74
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4ec1c53fac56c1684c8a3e92bd85dc740d49fd5758c573121ce67476a27cef9
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01726fe54cdf568e628013444d43170363d989763bb3643861f1834550bf40cc
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b6d93badf06c5d380c3300205be40194653a28adcb4c6283dca4f75f7fb9d76
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32892d87473868561cebb2d12f97121f75551c078a3eed1dd7629182a1fab0ee
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbc8a195efc18da96bf16857984e4d60e7f36373f6730ddca95667a6b0c910ce
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.6626052856445312,
   "best_model_checkpoint": null,
-  "epoch": 1.6662584200857318,
   "eval_steps": 50,
-  "global_step": 1700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2660,6 +2660,84 @@
       "eval_samples_per_second": 124.447,
       "eval_steps_per_second": 15.564,
       "step": 1700
     }
   ],
   "logging_steps": 5,
@@ -2688,7 +2766,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.773118177795113e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 0.6602269411087036,
   "best_model_checkpoint": null,
+  "epoch": 1.715248009797918,
   "eval_steps": 50,
+  "global_step": 1750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 124.447,
       "eval_steps_per_second": 15.564,
       "step": 1700
+    },
+    {
+      "epoch": 1.6711573790569503,
+      "grad_norm": 0.203897163271904,
+      "learning_rate": 8.399529398394039e-05,
+      "loss": 0.6896,
+      "step": 1705
+    },
+    {
+      "epoch": 1.676056338028169,
+      "grad_norm": 0.20551460981369019,
+      "learning_rate": 8.384304537099798e-05,
+      "loss": 0.6997,
+      "step": 1710
+    },
+    {
+      "epoch": 1.6809552969993877,
+      "grad_norm": 0.24939224123954773,
+      "learning_rate": 8.369050444776772e-05,
+      "loss": 0.6784,
+      "step": 1715
+    },
+    {
+      "epoch": 1.6858542559706062,
+      "grad_norm": 0.21644407510757446,
+      "learning_rate": 8.353767278184362e-05,
+      "loss": 0.6945,
+      "step": 1720
+    },
+    {
+      "epoch": 1.6907532149418247,
+      "grad_norm": 0.19981370866298676,
+      "learning_rate": 8.338455194380753e-05,
+      "loss": 0.6901,
+      "step": 1725
+    },
+    {
+      "epoch": 1.6956521739130435,
+      "grad_norm": 0.2333899885416031,
+      "learning_rate": 8.323114350721291e-05,
+      "loss": 0.6868,
+      "step": 1730
+    },
+    {
+      "epoch": 1.7005511328842622,
+      "grad_norm": 0.2132989764213562,
+      "learning_rate": 8.307744904856888e-05,
+      "loss": 0.6934,
+      "step": 1735
+    },
+    {
+      "epoch": 1.7054500918554807,
+      "grad_norm": 0.18624679744243622,
+      "learning_rate": 8.292347014732376e-05,
+      "loss": 0.6922,
+      "step": 1740
+    },
+    {
+      "epoch": 1.7103490508266992,
+      "grad_norm": 0.20982161164283752,
+      "learning_rate": 8.276920838584902e-05,
+      "loss": 0.6768,
+      "step": 1745
+    },
+    {
+      "epoch": 1.715248009797918,
+      "grad_norm": 0.20481140911579132,
+      "learning_rate": 8.26146653494229e-05,
+      "loss": 0.7054,
+      "step": 1750
+    },
+    {
+      "epoch": 1.715248009797918,
+      "eval_loss": 0.6602269411087036,
+      "eval_runtime": 15.6809,
+      "eval_samples_per_second": 124.929,
+      "eval_steps_per_second": 15.624,
+      "step": 1750
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 9.036926821219697e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null