Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step4400/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4400/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4400/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4400/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4400/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +160 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddc92bd3c7c2ca398ec261883c447c9df1bbe0c7faf56df13890e4c24774b40a
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:0217b4b0c3c7f1987944f70686eb3cc84294e0febf0ed767a56782cb9017db42
 size 1037269336

last-checkpoint/global_step4400/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:208f3f993987f330acb84602114113a61e43ebe3d5eb09c047705e04b4dea90b
+size 781993445

last-checkpoint/global_step4400/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:909cd42d1608b5fe7874afb79b6fbdaf4ca93180010eca90c2478a5b0460e210
+size 781993509

last-checkpoint/global_step4400/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80ac4ee0863674394e18bf040c39367c44210bf27eb718840c9e014a8198505b
+size 781993509

last-checkpoint/global_step4400/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5edea25fbe4b088f32fadb2bae52dbcec4468d967cb0d3a0fb41d535943734f6
+size 781993509

last-checkpoint/global_step4400/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:051d7c061bd63c18a72c7f60192548c38149641e49dddb376a120d33da3567ef
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step4300~~


1	+ global_step4400

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2787b9d7df68f644a04ffaa126617b9e91d8a6c7b3386a4c36cb31d2d718186
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ec6429d51b78e62a781ea28a18634f451844f66fee400b9be20b2072a6fac5e
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62176e5f78a575ab92c8c666cd0da6a92c60aa8b7f4b466b59fbd2373ac03cc5
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e3e04848cc38a3a002981db4be3e84294dc9e5c12327b6e3c23b02534523094
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a72bd08ae02b37b5f365349b001d2ca8c1e0ece9d48f4a163966302d5865a11
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a5a84f5b27ded1de3f5ceb77963092ac6c45b3bb6acfbc406627cbc633009a1
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:042f18db2e77e47eff46b1db2a3a2e488c3c080aa38d222800a2f6949e0f032d
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8b169b571920e7c4ea3cfadebde4b2c5412429683ec1e5c89095379be2aeec0
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c2c30e8f45c0287eaccdddcf23f57d326e170a7468c21d85826984fbe28cf30
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f6239c54a9e14ade75dd1dbb72d423d68c7c1273e9d5fb21d6effe590197848
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 1.9058680534362793,
   "best_model_checkpoint": null,
-  "epoch": 0.6250908562291031,
   "eval_steps": 50,
-  "global_step": 4300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6716,6 +6716,162 @@
       "eval_samples_per_second": 175.036,
       "eval_steps_per_second": 10.976,
       "step": 4300
     }
   ],
   "logging_steps": 5,
@@ -6744,7 +6900,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1212623171205202e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 1.9043115377426147,
   "best_model_checkpoint": null,
+  "epoch": 0.6396278528855939,
   "eval_steps": 50,
+  "global_step": 4400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 175.036,
       "eval_steps_per_second": 10.976,
       "step": 4300
+    },
+    {
+      "epoch": 0.6258177060619277,
+      "grad_norm": 2.382782220840454,
+      "learning_rate": 6.184769707241625e-05,
+      "loss": 1.9673,
+      "step": 4305
+    },
+    {
+      "epoch": 0.6265445558947521,
+      "grad_norm": 2.4369523525238037,
+      "learning_rate": 6.177041004251455e-05,
+      "loss": 2.2144,
+      "step": 4310
+    },
+    {
+      "epoch": 0.6272714057275767,
+      "grad_norm": 2.43398380279541,
+      "learning_rate": 6.16930936282599e-05,
+      "loss": 2.0025,
+      "step": 4315
+    },
+    {
+      "epoch": 0.6279982555604012,
+      "grad_norm": 2.472754955291748,
+      "learning_rate": 6.161574802429627e-05,
+      "loss": 2.1328,
+      "step": 4320
+    },
+    {
+      "epoch": 0.6287251053932258,
+      "grad_norm": 2.6764614582061768,
+      "learning_rate": 6.153837342534111e-05,
+      "loss": 2.1554,
+      "step": 4325
+    },
+    {
+      "epoch": 0.6294519552260504,
+      "grad_norm": 2.3212342262268066,
+      "learning_rate": 6.146097002618492e-05,
+      "loss": 2.1615,
+      "step": 4330
+    },
+    {
+      "epoch": 0.6301788050588748,
+      "grad_norm": 2.824336290359497,
+      "learning_rate": 6.138353802169061e-05,
+      "loss": 2.0653,
+      "step": 4335
+    },
+    {
+      "epoch": 0.6309056548916994,
+      "grad_norm": 2.4014430046081543,
+      "learning_rate": 6.130607760679321e-05,
+      "loss": 2.0374,
+      "step": 4340
+    },
+    {
+      "epoch": 0.6316325047245239,
+      "grad_norm": 2.458951950073242,
+      "learning_rate": 6.122858897649921e-05,
+      "loss": 2.1722,
+      "step": 4345
+    },
+    {
+      "epoch": 0.6323593545573485,
+      "grad_norm": 2.567749500274658,
+      "learning_rate": 6.115107232588612e-05,
+      "loss": 2.1671,
+      "step": 4350
+    },
+    {
+      "epoch": 0.6323593545573485,
+      "eval_loss": 1.9125865697860718,
+      "eval_runtime": 22.1706,
+      "eval_samples_per_second": 148.891,
+      "eval_steps_per_second": 9.337,
+      "step": 4350
+    },
+    {
+      "epoch": 0.6330862043901729,
+      "grad_norm": 2.322906255722046,
+      "learning_rate": 6.107352785010202e-05,
+      "loss": 2.1378,
+      "step": 4355
+    },
+    {
+      "epoch": 0.6338130542229975,
+      "grad_norm": 2.1527748107910156,
+      "learning_rate": 6.0995955744365073e-05,
+      "loss": 2.0096,
+      "step": 4360
+    },
+    {
+      "epoch": 0.6345399040558221,
+      "grad_norm": 2.6586174964904785,
+      "learning_rate": 6.0918356203962934e-05,
+      "loss": 2.2011,
+      "step": 4365
+    },
+    {
+      "epoch": 0.6352667538886466,
+      "grad_norm": 2.559743642807007,
+      "learning_rate": 6.084072942425234e-05,
+      "loss": 2.0937,
+      "step": 4370
+    },
+    {
+      "epoch": 0.6359936037214712,
+      "grad_norm": 2.8032941818237305,
+      "learning_rate": 6.076307560065865e-05,
+      "loss": 1.971,
+      "step": 4375
+    },
+    {
+      "epoch": 0.6367204535542956,
+      "grad_norm": 2.3299427032470703,
+      "learning_rate": 6.068539492867526e-05,
+      "loss": 2.0369,
+      "step": 4380
+    },
+    {
+      "epoch": 0.6374473033871202,
+      "grad_norm": 2.167146682739258,
+      "learning_rate": 6.0607687603863155e-05,
+      "loss": 1.9857,
+      "step": 4385
+    },
+    {
+      "epoch": 0.6381741532199448,
+      "grad_norm": 2.151320219039917,
+      "learning_rate": 6.052995382185044e-05,
+      "loss": 2.1305,
+      "step": 4390
+    },
+    {
+      "epoch": 0.6389010030527693,
+      "grad_norm": 2.5785205364227295,
+      "learning_rate": 6.045219377833183e-05,
+      "loss": 1.8801,
+      "step": 4395
+    },
+    {
+      "epoch": 0.6396278528855939,
+      "grad_norm": 2.6063733100891113,
+      "learning_rate": 6.037440766906813e-05,
+      "loss": 1.8297,
+      "step": 4400
+    },
+    {
+      "epoch": 0.6396278528855939,
+      "eval_loss": 1.9043115377426147,
+      "eval_runtime": 18.9211,
+      "eval_samples_per_second": 174.461,
+      "eval_steps_per_second": 10.94,
+      "step": 4400
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1.1471040004625531e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null