Training in progress, epoch 1, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step9700/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step9700/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step9700/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step9700/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step9700/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +160 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49846034f50a2a9f5eb42a9e8a6055d6a73c94640135462513558c9a87f7d885
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:386a6380325bc3dff1a7a5f881832a0696cbe9be2672febd8c95a996479adb3e
 size 1037269336

last-checkpoint/global_step9700/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d96dfe1d3b0bce855880e2d23009bef0264fec55853ad94d2e36720de87856c
+size 781993445

last-checkpoint/global_step9700/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd77cdbaa722f4b8912db62f39f33a77ebcb2c4b56e744f47b25c61d4f150680
+size 781993509

last-checkpoint/global_step9700/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06050d6663481f1a7ff845243d9881b454d43f213a7fb01187ac4f95e030533e
+size 781993509

last-checkpoint/global_step9700/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61080b35f30c80f43393735f9295771ec864832f9102797e3e593e019c3378d5
+size 781993509

last-checkpoint/global_step9700/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7499f1c06e56dcadbbf5d0fd1a13a4f469aefe348f76c2b2bff829e5697961f1
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step9600~~


1	+ global_step9700

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a0f72dfbb72f16af6accdc19e004dfec99288ac9c898ec61ccdf4b7c0b05a4b
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:b56969535e9a8e88cd3829c988a0a37451d46c9a48a232e2bf2ff895e958e53f
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:535e8f9e9aae202c1444e7d23d7a70248d88b0bea04c6a46c5eac28644caca91
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac5d72eb18852fad4db4fcc6f4250d07f49de688916884e0bd15cf332644e3c4
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bee6b4179c69666f23a2f89ab3e0a78ee0257014c2542355e87d560d6ae8937d
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e093e8dca30af25bb4868596fab940bd5b96385b2a5252906d4fb7506ec6e3c
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3562322dcece4573117ccf7e4cc4e19277c183387ba7f8b2446065a5008e7c67
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:a02a2ce27f65153b8be850fa84fb66458319a4fbe52b6b4116118eb9d4b7ccda
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11d855a891c5a4fdc5d95bdbc0aa687ea07b9ae51067bbfd00dce8a66404c36a
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5c6f3cc57d69dd40ef86ebd5faf9e78cc6a0d89512a7f5fd9a4c13cda1f059a
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 1.5219709873199463,
   "best_model_checkpoint": null,
-  "epoch": 1.395551679023114,
   "eval_steps": 50,
-  "global_step": 9600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -14984,6 +14984,162 @@
       "eval_samples_per_second": 174.882,
       "eval_steps_per_second": 10.967,
       "step": 9600
     }
   ],
   "logging_steps": 5,
@@ -15012,7 +15168,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.506228892243591e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 1.521620512008667,
   "best_model_checkpoint": null,
+  "epoch": 1.4100886756796047,
   "eval_steps": 50,
+  "global_step": 9700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 174.882,
       "eval_steps_per_second": 10.967,
       "step": 9600
+    },
+    {
+      "epoch": 1.3962785288559383,
+      "grad_norm": 2.4075584411621094,
+      "learning_rate": 3.9504059213659793e-07,
+      "loss": 1.5897,
+      "step": 9605
+    },
+    {
+      "epoch": 1.3970053786887628,
+      "grad_norm": 2.440012216567993,
+      "learning_rate": 3.8514051886811723e-07,
+      "loss": 1.6766,
+      "step": 9610
+    },
+    {
+      "epoch": 1.3977322285215874,
+      "grad_norm": 2.658358335494995,
+      "learning_rate": 3.7536559858959155e-07,
+      "loss": 1.6694,
+      "step": 9615
+    },
+    {
+      "epoch": 1.398459078354412,
+      "grad_norm": 2.324554443359375,
+      "learning_rate": 3.657158559093597e-07,
+      "loss": 1.7643,
+      "step": 9620
+    },
+    {
+      "epoch": 1.3991859281872365,
+      "grad_norm": 2.6129276752471924,
+      "learning_rate": 3.56191315120649e-07,
+      "loss": 1.5292,
+      "step": 9625
+    },
+    {
+      "epoch": 1.399912778020061,
+      "grad_norm": 2.4178617000579834,
+      "learning_rate": 3.467920002014695e-07,
+      "loss": 1.556,
+      "step": 9630
+    },
+    {
+      "epoch": 1.4006396278528856,
+      "grad_norm": 2.558295726776123,
+      "learning_rate": 3.375179348145972e-07,
+      "loss": 1.5579,
+      "step": 9635
+    },
+    {
+      "epoch": 1.4013664776857102,
+      "grad_norm": 2.540734052658081,
+      "learning_rate": 3.283691423074685e-07,
+      "loss": 1.6343,
+      "step": 9640
+    },
+    {
+      "epoch": 1.4020933275185348,
+      "grad_norm": 2.0778424739837646,
+      "learning_rate": 3.193456457121636e-07,
+      "loss": 1.5255,
+      "step": 9645
+    },
+    {
+      "epoch": 1.402820177351359,
+      "grad_norm": 2.8635857105255127,
+      "learning_rate": 3.1044746774532277e-07,
+      "loss": 1.604,
+      "step": 9650
+    },
+    {
+      "epoch": 1.402820177351359,
+      "eval_loss": 1.5223361253738403,
+      "eval_runtime": 20.5763,
+      "eval_samples_per_second": 160.428,
+      "eval_steps_per_second": 10.06,
+      "step": 9650
+    },
+    {
+      "epoch": 1.4035470271841837,
+      "grad_norm": 2.443467617034912,
+      "learning_rate": 3.0167463080810214e-07,
+      "loss": 1.6844,
+      "step": 9655
+    },
+    {
+      "epoch": 1.4042738770170082,
+      "grad_norm": 2.570190906524658,
+      "learning_rate": 2.9302715698610123e-07,
+      "loss": 1.6661,
+      "step": 9660
+    },
+    {
+      "epoch": 1.4050007268498328,
+      "grad_norm": 2.4715726375579834,
+      "learning_rate": 2.845050680493296e-07,
+      "loss": 1.579,
+      "step": 9665
+    },
+    {
+      "epoch": 1.4057275766826574,
+      "grad_norm": 2.529876947402954,
+      "learning_rate": 2.761083854521403e-07,
+      "loss": 1.7274,
+      "step": 9670
+    },
+    {
+      "epoch": 1.406454426515482,
+      "grad_norm": 2.4188828468322754,
+      "learning_rate": 2.678371303331627e-07,
+      "loss": 1.5238,
+      "step": 9675
+    },
+    {
+      "epoch": 1.4071812763483065,
+      "grad_norm": 2.511361598968506,
+      "learning_rate": 2.5969132351527523e-07,
+      "loss": 1.5761,
+      "step": 9680
+    },
+    {
+      "epoch": 1.407908126181131,
+      "grad_norm": 2.82676362991333,
+      "learning_rate": 2.5167098550553806e-07,
+      "loss": 1.6957,
+      "step": 9685
+    },
+    {
+      "epoch": 1.4086349760139556,
+      "grad_norm": 2.6926026344299316,
+      "learning_rate": 2.437761364951492e-07,
+      "loss": 1.6426,
+      "step": 9690
+    },
+    {
+      "epoch": 1.40936182584678,
+      "grad_norm": 2.8157596588134766,
+      "learning_rate": 2.36006796359366e-07,
+      "loss": 1.6126,
+      "step": 9695
+    },
+    {
+      "epoch": 1.4100886756796047,
+      "grad_norm": 2.3840818405151367,
+      "learning_rate": 2.2836298465750569e-07,
+      "loss": 1.551,
+      "step": 9700
+    },
+    {
+      "epoch": 1.4100886756796047,
+      "eval_loss": 1.521620512008667,
+      "eval_runtime": 19.0149,
+      "eval_samples_per_second": 173.601,
+      "eval_steps_per_second": 10.886,
+      "step": 9700
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 2.5325929674917806e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null