Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step4500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4500/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +160 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0217b4b0c3c7f1987944f70686eb3cc84294e0febf0ed767a56782cb9017db42
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0a21dc5f4f9acf3af3f8980785056b6b5ada5cb15eef4540db5bca39c790390
 size 1037269336

last-checkpoint/global_step4500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d31ac560812e943c8c288747e5d2039a96a47afb0abcb9be2e38f7662b5aa10
+size 781993445

last-checkpoint/global_step4500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5da41387f3470e28461291b4767a43d23bd0fe5626bc769fdd43568a69ed5c8d
+size 781993509

last-checkpoint/global_step4500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da0c7d889d827a14f364818784bf4f3e8f06fc8163b92def019bbd3d708ff6ee
+size 781993509

last-checkpoint/global_step4500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7da489d965d3264064e452ec2b0f1161d9926dfe1c6aab8ef3eb9c5e3f77e8c
+size 781993509

last-checkpoint/global_step4500/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5c5f490e1ca842d837adac5ce91ab10507f4511448a022fde5f577639115024
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step4400~~


1	+ global_step4500

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ec6429d51b78e62a781ea28a18634f451844f66fee400b9be20b2072a6fac5e
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:3630f5c7f559df2743db6022b9a9e3a578f1caa3a824d427deb7eb53b5753113
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e3e04848cc38a3a002981db4be3e84294dc9e5c12327b6e3c23b02534523094
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a975041d5ccbda078ebb49cae6863f266b7176846aea763c1f5991e324beb6a
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a5a84f5b27ded1de3f5ceb77963092ac6c45b3bb6acfbc406627cbc633009a1
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e16d82cf7cd32b948d7f53723214355031cb0c2f352b62b817e45196b5c3bed
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8b169b571920e7c4ea3cfadebde4b2c5412429683ec1e5c89095379be2aeec0
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:2faeda1cf20088c59a4c59ca63cd8875d237d2179a7055592aef1e315f61c7ea
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f6239c54a9e14ade75dd1dbb72d423d68c7c1273e9d5fb21d6effe590197848
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e70fa6096403ae68870c39096182c6dd70befee0d4111f312991f4b6364fbfa
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 1.9043115377426147,
   "best_model_checkpoint": null,
-  "epoch": 0.6396278528855939,
   "eval_steps": 50,
-  "global_step": 4400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6872,6 +6872,162 @@
       "eval_samples_per_second": 174.461,
       "eval_steps_per_second": 10.94,
       "step": 4400
     }
   ],
   "logging_steps": 5,
@@ -6900,7 +7056,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1471040004625531e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 1.89194917678833,
   "best_model_checkpoint": null,
+  "epoch": 0.6541648495420846,
   "eval_steps": 50,
+  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 174.461,
       "eval_steps_per_second": 10.94,
       "step": 4400
+    },
+    {
+      "epoch": 0.6403547027184183,
+      "grad_norm": 2.5073940753936768,
+      "learning_rate": 6.029659568988577e-05,
+      "loss": 2.1659,
+      "step": 4405
+    },
+    {
+      "epoch": 0.6410815525512429,
+      "grad_norm": 2.4761996269226074,
+      "learning_rate": 6.021875803667634e-05,
+      "loss": 1.9834,
+      "step": 4410
+    },
+    {
+      "epoch": 0.6418084023840674,
+      "grad_norm": 2.326512336730957,
+      "learning_rate": 6.014089490539603e-05,
+      "loss": 2.0396,
+      "step": 4415
+    },
+    {
+      "epoch": 0.642535252216892,
+      "grad_norm": 2.1320672035217285,
+      "learning_rate": 6.0063006492065156e-05,
+      "loss": 2.1046,
+      "step": 4420
+    },
+    {
+      "epoch": 0.6432621020497166,
+      "grad_norm": 2.4910004138946533,
+      "learning_rate": 5.998509299276773e-05,
+      "loss": 2.0383,
+      "step": 4425
+    },
+    {
+      "epoch": 0.643988951882541,
+      "grad_norm": 2.5594482421875,
+      "learning_rate": 5.990715460365091e-05,
+      "loss": 1.9068,
+      "step": 4430
+    },
+    {
+      "epoch": 0.6447158017153656,
+      "grad_norm": 2.314884662628174,
+      "learning_rate": 5.9829191520924444e-05,
+      "loss": 1.9658,
+      "step": 4435
+    },
+    {
+      "epoch": 0.6454426515481901,
+      "grad_norm": 2.5968551635742188,
+      "learning_rate": 5.975120394086035e-05,
+      "loss": 2.0312,
+      "step": 4440
+    },
+    {
+      "epoch": 0.6461695013810147,
+      "grad_norm": 2.324385166168213,
+      "learning_rate": 5.967319205979226e-05,
+      "loss": 1.9554,
+      "step": 4445
+    },
+    {
+      "epoch": 0.6468963512138393,
+      "grad_norm": 2.4644150733947754,
+      "learning_rate": 5.9595156074114964e-05,
+      "loss": 2.1902,
+      "step": 4450
+    },
+    {
+      "epoch": 0.6468963512138393,
+      "eval_loss": 1.904667854309082,
+      "eval_runtime": 21.5453,
+      "eval_samples_per_second": 153.212,
+      "eval_steps_per_second": 9.608,
+      "step": 4450
+    },
+    {
+      "epoch": 0.6476232010466637,
+      "grad_norm": 2.2570154666900635,
+      "learning_rate": 5.9517096180283985e-05,
+      "loss": 2.1495,
+      "step": 4455
+    },
+    {
+      "epoch": 0.6483500508794883,
+      "grad_norm": 2.676832914352417,
+      "learning_rate": 5.9439012574815014e-05,
+      "loss": 2.1315,
+      "step": 4460
+    },
+    {
+      "epoch": 0.6490769007123128,
+      "grad_norm": 2.706221103668213,
+      "learning_rate": 5.9360905454283424e-05,
+      "loss": 2.0839,
+      "step": 4465
+    },
+    {
+      "epoch": 0.6498037505451374,
+      "grad_norm": 2.5857553482055664,
+      "learning_rate": 5.92827750153238e-05,
+      "loss": 2.006,
+      "step": 4470
+    },
+    {
+      "epoch": 0.650530600377962,
+      "grad_norm": 2.223796844482422,
+      "learning_rate": 5.9204621454629433e-05,
+      "loss": 2.0653,
+      "step": 4475
+    },
+    {
+      "epoch": 0.6512574502107864,
+      "grad_norm": 2.7300755977630615,
+      "learning_rate": 5.9126444968951824e-05,
+      "loss": 2.0131,
+      "step": 4480
+    },
+    {
+      "epoch": 0.651984300043611,
+      "grad_norm": 2.2716171741485596,
+      "learning_rate": 5.904824575510018e-05,
+      "loss": 2.0303,
+      "step": 4485
+    },
+    {
+      "epoch": 0.6527111498764355,
+      "grad_norm": 2.462047815322876,
+      "learning_rate": 5.8970024009940926e-05,
+      "loss": 1.9954,
+      "step": 4490
+    },
+    {
+      "epoch": 0.6534379997092601,
+      "grad_norm": 2.3554959297180176,
+      "learning_rate": 5.88917799303972e-05,
+      "loss": 1.9951,
+      "step": 4495
+    },
+    {
+      "epoch": 0.6541648495420846,
+      "grad_norm": 2.245417833328247,
+      "learning_rate": 5.881351371344841e-05,
+      "loss": 1.9328,
+      "step": 4500
+    },
+    {
+      "epoch": 0.6541648495420846,
+      "eval_loss": 1.89194917678833,
+      "eval_runtime": 19.3578,
+      "eval_samples_per_second": 170.525,
+      "eval_steps_per_second": 10.693,
+      "step": 4500
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1.1728234225273405e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null