Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step5100/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5100/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5100/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5100/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5100/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +160 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8574164bb4d11eaf453dcb6ad3966428cd591430ae9c31f0937299ed1a487081
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5b523eb134094d0fe3ed4dfef81ffed7224784825c6f64b8661fe04d195a546
 size 1037269336

last-checkpoint/global_step5100/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab4d9e4164ee16fa83dbfd1f018e2622dd032b0baa3a0dabc64f7e73cfab6fe8
+size 781993445

last-checkpoint/global_step5100/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3d52195365c651c3e5364df3d7926ee4819beb46d64296fcbebb5ce8b0e7502
+size 781993509

last-checkpoint/global_step5100/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:79943dd9bf44806e010c4fd6c1ac0a48f716e1b8fb74075f38c8a90fde71eea1
+size 781993509

last-checkpoint/global_step5100/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10f3ec07625e370675911a8ad7ada8a9b7c40c5d92eb84e352baa294434990fe
+size 781993509

last-checkpoint/global_step5100/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba5de234ff5bea5001e9e180ee326f5b49b985809bee0bce1e2e5aeab57e319a
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step5000~~


1	+ global_step5100

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd00f37ba9aa2f280e60110d762d55bd77f2e19074544210642612fc0d0c6aed
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:56865be07eff6f66c69791fc2b9b609f0e20d2a4499e1c484d2daf5499c42b5c
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da7f2a246e741148e024dc29f274d353214e019d5f548b483c4905c46044d9c6
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcc331c1dd0e2fd6a26f5faf857be1fe7603138c25d38c533d290076fd5c63d2
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59fe33085db221039a6aa12c757a1cedc0cc5b1d3be922c202529c8eb1b8058a
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:68160d4ba6654984de0d46bc96a7fe87a66866d7126298837a820322efc5e287
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15166ad530c105df387795709025f21626f6ea307321c73af1fa12ffc3d040d0
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:66e51d3128d1b9d77da6840ea0cc45f49e7d431d13998e4e4edcf5f6460d262d
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ccb65ec1efdeb7bb899bcfdbd59da40edf4d90e5de5df4ddf919745dfd59ebe
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:bfd32ddbd680624dcd914b61c50d077bc8f0cb703973d6bb57f048563ab5de57
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 1.8494781255722046,
   "best_model_checkpoint": null,
-  "epoch": 0.7268498328245384,
   "eval_steps": 50,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7808,6 +7808,162 @@
       "eval_samples_per_second": 173.245,
       "eval_steps_per_second": 10.864,
       "step": 5000
     }
   ],
   "logging_steps": 5,
@@ -7836,7 +7992,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3038086059374674e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 1.8430671691894531,
   "best_model_checkpoint": null,
+  "epoch": 0.7413868294810292,
   "eval_steps": 50,
+  "global_step": 5100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 173.245,
       "eval_steps_per_second": 10.864,
       "step": 5000
+    },
+    {
+      "epoch": 0.727576682657363,
+      "grad_norm": 2.492719888687134,
+      "learning_rate": 5.082964248443748e-05,
+      "loss": 1.9047,
+      "step": 5005
+    },
+    {
+      "epoch": 0.7283035324901875,
+      "grad_norm": 2.1797542572021484,
+      "learning_rate": 5.0750160841935874e-05,
+      "loss": 1.9196,
+      "step": 5010
+    },
+    {
+      "epoch": 0.7290303823230121,
+      "grad_norm": 2.329383134841919,
+      "learning_rate": 5.067067755854552e-05,
+      "loss": 1.9559,
+      "step": 5015
+    },
+    {
+      "epoch": 0.7297572321558367,
+      "grad_norm": 2.5835447311401367,
+      "learning_rate": 5.059119283436551e-05,
+      "loss": 2.0918,
+      "step": 5020
+    },
+    {
+      "epoch": 0.7304840819886611,
+      "grad_norm": 2.5015668869018555,
+      "learning_rate": 5.0511706869498554e-05,
+      "loss": 1.837,
+      "step": 5025
+    },
+    {
+      "epoch": 0.7312109318214857,
+      "grad_norm": 2.416215419769287,
+      "learning_rate": 5.043221986405045e-05,
+      "loss": 2.039,
+      "step": 5030
+    },
+    {
+      "epoch": 0.7319377816543102,
+      "grad_norm": 2.211178779602051,
+      "learning_rate": 5.035273201812967e-05,
+      "loss": 2.0104,
+      "step": 5035
+    },
+    {
+      "epoch": 0.7326646314871348,
+      "grad_norm": 1.9860055446624756,
+      "learning_rate": 5.0273243531846745e-05,
+      "loss": 1.8645,
+      "step": 5040
+    },
+    {
+      "epoch": 0.7333914813199593,
+      "grad_norm": 2.3574624061584473,
+      "learning_rate": 5.0193754605313855e-05,
+      "loss": 2.1474,
+      "step": 5045
+    },
+    {
+      "epoch": 0.7341183311527838,
+      "grad_norm": 2.370668888092041,
+      "learning_rate": 5.01142654386443e-05,
+      "loss": 1.97,
+      "step": 5050
+    },
+    {
+      "epoch": 0.7341183311527838,
+      "eval_loss": 1.8463149070739746,
+      "eval_runtime": 20.4628,
+      "eval_samples_per_second": 161.317,
+      "eval_steps_per_second": 10.116,
+      "step": 5050
+    },
+    {
+      "epoch": 0.7348451809856084,
+      "grad_norm": 2.351590394973755,
+      "learning_rate": 5.0034776231951914e-05,
+      "loss": 1.9559,
+      "step": 5055
+    },
+    {
+      "epoch": 0.7355720308184329,
+      "grad_norm": 2.62426495552063,
+      "learning_rate": 4.995528718535072e-05,
+      "loss": 2.0377,
+      "step": 5060
+    },
+    {
+      "epoch": 0.7362988806512575,
+      "grad_norm": 2.2182393074035645,
+      "learning_rate": 4.9875798498954274e-05,
+      "loss": 2.0352,
+      "step": 5065
+    },
+    {
+      "epoch": 0.737025730484082,
+      "grad_norm": 2.1070525646209717,
+      "learning_rate": 4.979631037287528e-05,
+      "loss": 1.9733,
+      "step": 5070
+    },
+    {
+      "epoch": 0.7377525803169065,
+      "grad_norm": 2.4891433715820312,
+      "learning_rate": 4.971682300722495e-05,
+      "loss": 2.1022,
+      "step": 5075
+    },
+    {
+      "epoch": 0.738479430149731,
+      "grad_norm": 2.638141632080078,
+      "learning_rate": 4.9637336602112685e-05,
+      "loss": 2.1233,
+      "step": 5080
+    },
+    {
+      "epoch": 0.7392062799825556,
+      "grad_norm": 2.174260377883911,
+      "learning_rate": 4.9557851357645386e-05,
+      "loss": 2.0232,
+      "step": 5085
+    },
+    {
+      "epoch": 0.7399331298153802,
+      "grad_norm": 2.112396717071533,
+      "learning_rate": 4.947836747392708e-05,
+      "loss": 1.8431,
+      "step": 5090
+    },
+    {
+      "epoch": 0.7406599796482047,
+      "grad_norm": 2.135979413986206,
+      "learning_rate": 4.939888515105832e-05,
+      "loss": 1.8346,
+      "step": 5095
+    },
+    {
+      "epoch": 0.7413868294810292,
+      "grad_norm": 2.140866756439209,
+      "learning_rate": 4.931940458913579e-05,
+      "loss": 1.9499,
+      "step": 5100
+    },
+    {
+      "epoch": 0.7413868294810292,
+      "eval_loss": 1.8430671691894531,
+      "eval_runtime": 19.1198,
+      "eval_samples_per_second": 172.648,
+      "eval_steps_per_second": 10.826,
+      "step": 5100
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1.3296709309594337e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null