Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step5200/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5200/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5200/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5200/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5200/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +160 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5b523eb134094d0fe3ed4dfef81ffed7224784825c6f64b8661fe04d195a546
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ec12a67f9dfa7e82f7d1fa27e46947cfa5b2e70dc641605dca0f15edc26ac5b
 size 1037269336

last-checkpoint/global_step5200/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:376d8867ef6a010707f6d5ffde3b70f1fc37fbb25fc4c67986ce621672102162
+size 781993445

last-checkpoint/global_step5200/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94681bee6eff66c9426bb36f1f8b5f82871ec40e34245855236063b0768f353d
+size 781993509

last-checkpoint/global_step5200/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43446a308e9f0fe1c37260f8f2fc16128b95eec4bef7121becf3b52c6cd5e5ae
+size 781993509

last-checkpoint/global_step5200/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ccdadbf4b397a4566ebe26955a4e21a4bdbf0380614debe2fa34aa6ddd4a065f
+size 781993509

last-checkpoint/global_step5200/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c48adfda58d5714ac6a30167ebed520731034b75a271625bea166e61975b263e
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step5100~~


1	+ global_step5200

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56865be07eff6f66c69791fc2b9b609f0e20d2a4499e1c484d2daf5499c42b5c
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c05264822189d459f4c1c5b27ebdb9b6b9e8dcee1a009b4f2e28ecf49dc4f5b
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dcc331c1dd0e2fd6a26f5faf857be1fe7603138c25d38c533d290076fd5c63d2
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f645a6078c88ee4b1185c0d7c1ae791e9bd6d926fdbc01aebef5ee84d1159b5
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68160d4ba6654984de0d46bc96a7fe87a66866d7126298837a820322efc5e287
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:c59312f152825042f7e3a29466b0959cd08f51130fdfed991ab5bf960815a6dc
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66e51d3128d1b9d77da6840ea0cc45f49e7d431d13998e4e4edcf5f6460d262d
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1de6530daf248f1aed878ddb32856047ec142beb86757afc3c303de79cdabc8
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bfd32ddbd680624dcd914b61c50d077bc8f0cb703973d6bb57f048563ab5de57
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:096748cf67d302b535a039b43df4da991eba6c27882d0848f447a99c87428013
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 1.8430671691894531,
   "best_model_checkpoint": null,
-  "epoch": 0.7413868294810292,
   "eval_steps": 50,
-  "global_step": 5100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7964,6 +7964,162 @@
       "eval_samples_per_second": 172.648,
       "eval_steps_per_second": 10.826,
       "step": 5100
     }
   ],
   "logging_steps": 5,
@@ -7992,7 +8148,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3296709309594337e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 1.8277243375778198,
   "best_model_checkpoint": null,
+  "epoch": 0.75592382613752,
   "eval_steps": 50,
+  "global_step": 5200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 172.648,
       "eval_steps_per_second": 10.826,
       "step": 5100
+    },
+    {
+      "epoch": 0.7421136793138537,
+      "grad_norm": 2.1775574684143066,
+      "learning_rate": 4.923992598825168e-05,
+      "loss": 1.8894,
+      "step": 5105
+    },
+    {
+      "epoch": 0.7428405291466783,
+      "grad_norm": 2.293163299560547,
+      "learning_rate": 4.9160449548493304e-05,
+      "loss": 2.0062,
+      "step": 5110
+    },
+    {
+      "epoch": 0.7435673789795029,
+      "grad_norm": 2.4334089756011963,
+      "learning_rate": 4.908097546994249e-05,
+      "loss": 1.8894,
+      "step": 5115
+    },
+    {
+      "epoch": 0.7442942288123273,
+      "grad_norm": 2.508547782897949,
+      "learning_rate": 4.9001503952675144e-05,
+      "loss": 2.1935,
+      "step": 5120
+    },
+    {
+      "epoch": 0.7450210786451519,
+      "grad_norm": 2.257105588912964,
+      "learning_rate": 4.89220351967607e-05,
+      "loss": 1.9659,
+      "step": 5125
+    },
+    {
+      "epoch": 0.7457479284779764,
+      "grad_norm": 2.537111520767212,
+      "learning_rate": 4.884256940226167e-05,
+      "loss": 1.9314,
+      "step": 5130
+    },
+    {
+      "epoch": 0.746474778310801,
+      "grad_norm": 2.178720474243164,
+      "learning_rate": 4.876310676923307e-05,
+      "loss": 1.9614,
+      "step": 5135
+    },
+    {
+      "epoch": 0.7472016281436256,
+      "grad_norm": 2.6238718032836914,
+      "learning_rate": 4.868364749772204e-05,
+      "loss": 1.8404,
+      "step": 5140
+    },
+    {
+      "epoch": 0.74792847797645,
+      "grad_norm": 2.7192604541778564,
+      "learning_rate": 4.860419178776716e-05,
+      "loss": 1.965,
+      "step": 5145
+    },
+    {
+      "epoch": 0.7486553278092746,
+      "grad_norm": 2.0032546520233154,
+      "learning_rate": 4.852473983939808e-05,
+      "loss": 1.9087,
+      "step": 5150
+    },
+    {
+      "epoch": 0.7486553278092746,
+      "eval_loss": 1.838592529296875,
+      "eval_runtime": 21.3886,
+      "eval_samples_per_second": 154.335,
+      "eval_steps_per_second": 9.678,
+      "step": 5150
+    },
+    {
+      "epoch": 0.7493821776420991,
+      "grad_norm": 1.9931970834732056,
+      "learning_rate": 4.844529185263501e-05,
+      "loss": 2.1584,
+      "step": 5155
+    },
+    {
+      "epoch": 0.7501090274749237,
+      "grad_norm": 2.349775791168213,
+      "learning_rate": 4.836584802748814e-05,
+      "loss": 2.0698,
+      "step": 5160
+    },
+    {
+      "epoch": 0.7508358773077483,
+      "grad_norm": 4.791730880737305,
+      "learning_rate": 4.828640856395723e-05,
+      "loss": 2.1494,
+      "step": 5165
+    },
+    {
+      "epoch": 0.7515627271405727,
+      "grad_norm": 2.025981903076172,
+      "learning_rate": 4.8206973662030984e-05,
+      "loss": 2.0689,
+      "step": 5170
+    },
+    {
+      "epoch": 0.7522895769733973,
+      "grad_norm": 2.32045841217041,
+      "learning_rate": 4.8127543521686746e-05,
+      "loss": 2.0441,
+      "step": 5175
+    },
+    {
+      "epoch": 0.7530164268062218,
+      "grad_norm": 2.6872143745422363,
+      "learning_rate": 4.8048118342889746e-05,
+      "loss": 1.863,
+      "step": 5180
+    },
+    {
+      "epoch": 0.7537432766390464,
+      "grad_norm": 2.622974395751953,
+      "learning_rate": 4.7968698325592805e-05,
+      "loss": 2.0201,
+      "step": 5185
+    },
+    {
+      "epoch": 0.754470126471871,
+      "grad_norm": 2.663489818572998,
+      "learning_rate": 4.7889283669735706e-05,
+      "loss": 2.0436,
+      "step": 5190
+    },
+    {
+      "epoch": 0.7551969763046954,
+      "grad_norm": 2.5928540229797363,
+      "learning_rate": 4.780987457524476e-05,
+      "loss": 2.0155,
+      "step": 5195
+    },
+    {
+      "epoch": 0.75592382613752,
+      "grad_norm": 2.380448579788208,
+      "learning_rate": 4.7730471242032245e-05,
+      "loss": 2.0713,
+      "step": 5200
+    },
+    {
+      "epoch": 0.75592382613752,
+      "eval_loss": 1.8277243375778198,
+      "eval_runtime": 19.2213,
+      "eval_samples_per_second": 171.736,
+      "eval_steps_per_second": 10.769,
+      "step": 5200
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1.3550775535088435e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null