Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step1500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1500/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +160 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:099138994a05956d4ad7412e1c77594651af3a2aa230c7317bfb36b46e773219
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:b95cf130a9e8c2b019047ed038b74f166ebdae3e1d5a0e0eb651f33fdf9a7770
 size 1037269336

last-checkpoint/global_step1500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:728811bbb44140a3c434f5799f099f9947679be96be1722175a2c24ebc677041
+size 781993445

last-checkpoint/global_step1500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0053512448d4ac6dd6037428defc2269837081c8263d66d2c308da0f52337d60
+size 781993509

last-checkpoint/global_step1500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb8876694d6b40962f21a720e4894ca83a89ee0e54a4449e965905838ac8ab22
+size 781993509

last-checkpoint/global_step1500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:85bd19644c9ae2b1df089d742f347f4e3a3cfc377d367040b4a0399603a45fac
+size 781993509

last-checkpoint/global_step1500/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2735aff831ad940fdebb21ff0d443ef332fc7e47361f0f4d91efc65a30a40d99
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1400~~


1	+ global_step1500

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0659f7df65a8d4f022538c1db1324bb83c98939fba11457f135a834e4fc8b08d
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:1cd5ed3dd7928bb74313c77ea5d320ce985054e6ddc8aa61e9429e0f6fdf59f6
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0774f2829e7ea47ef6e28c2b3b1640314596ceb8b0712423ec369fe44281c840
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c3291b1f2a97791de822e1303030c2812ebeebcb659d6850151ee68cfc065c9
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88f44ee23c1ea07ac60d274eaef197906028fd3d21288357504503497316897e
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b6a1d8c7626da137935d79389edc741f3d1059207b7bd90ce0a39bac3644369
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a15b31e0a15dc06b8a90dc969f3b213dbad5faacc1b3e26d1dd6b1716d9b3394
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f2aa27db34f72f5e0bd7731f8e4c1eb212b5ae960a3340dacb77565bf4ad72c
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1937275837d80b853c7dc3d5d6eec94618d6af1bb9c3bc4f9035a475fc209b5a
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbb5c756114849394828f515dee4b4c411b817cb6ec10f55e462bef9f88fa70a
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 2.156383514404297,
   "best_model_checkpoint": null,
-  "epoch": 0.20351795319087077,
   "eval_steps": 50,
-  "global_step": 1400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2192,6 +2192,162 @@
       "eval_samples_per_second": 175.883,
       "eval_steps_per_second": 11.029,
       "step": 1400
     }
   ],
   "logging_steps": 5,
@@ -2220,7 +2376,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.654657124471931e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 2.1434316635131836,
   "best_model_checkpoint": null,
+  "epoch": 0.21805494984736154,
   "eval_steps": 50,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 175.883,
       "eval_steps_per_second": 11.029,
       "step": 1400
+    },
+    {
+      "epoch": 0.2042448030236953,
+      "grad_norm": 2.1165425777435303,
+      "learning_rate": 9.596837315829758e-05,
+      "loss": 2.1683,
+      "step": 1405
+    },
+    {
+      "epoch": 0.20497165285651983,
+      "grad_norm": 2.612478256225586,
+      "learning_rate": 9.59363533678238e-05,
+      "loss": 2.2159,
+      "step": 1410
+    },
+    {
+      "epoch": 0.2056985026893444,
+      "grad_norm": 2.3951268196105957,
+      "learning_rate": 9.590421818027541e-05,
+      "loss": 2.2366,
+      "step": 1415
+    },
+    {
+      "epoch": 0.20642535252216893,
+      "grad_norm": 2.632112503051758,
+      "learning_rate": 9.587196767655274e-05,
+      "loss": 2.292,
+      "step": 1420
+    },
+    {
+      "epoch": 0.20715220235499346,
+      "grad_norm": 2.6061480045318604,
+      "learning_rate": 9.583960193784638e-05,
+      "loss": 2.1233,
+      "step": 1425
+    },
+    {
+      "epoch": 0.207879052187818,
+      "grad_norm": 2.3458104133605957,
+      "learning_rate": 9.580712104563704e-05,
+      "loss": 2.2607,
+      "step": 1430
+    },
+    {
+      "epoch": 0.20860590202064253,
+      "grad_norm": 2.6679835319519043,
+      "learning_rate": 9.577452508169532e-05,
+      "loss": 2.1165,
+      "step": 1435
+    },
+    {
+      "epoch": 0.2093327518534671,
+      "grad_norm": 2.376077651977539,
+      "learning_rate": 9.574181412808155e-05,
+      "loss": 1.9408,
+      "step": 1440
+    },
+    {
+      "epoch": 0.21005960168629162,
+      "grad_norm": 2.2623307704925537,
+      "learning_rate": 9.570898826714549e-05,
+      "loss": 2.285,
+      "step": 1445
+    },
+    {
+      "epoch": 0.21078645151911615,
+      "grad_norm": 2.7653067111968994,
+      "learning_rate": 9.56760475815262e-05,
+      "loss": 2.2413,
+      "step": 1450
+    },
+    {
+      "epoch": 0.21078645151911615,
+      "eval_loss": 2.1597976684570312,
+      "eval_runtime": 19.7596,
+      "eval_samples_per_second": 167.058,
+      "eval_steps_per_second": 10.476,
+      "step": 1450
+    },
+    {
+      "epoch": 0.21151330135194069,
+      "grad_norm": 2.770691156387329,
+      "learning_rate": 9.564299215415182e-05,
+      "loss": 2.2649,
+      "step": 1455
+    },
+    {
+      "epoch": 0.21224015118476522,
+      "grad_norm": 2.748636484146118,
+      "learning_rate": 9.560982206823937e-05,
+      "loss": 2.3174,
+      "step": 1460
+    },
+    {
+      "epoch": 0.21296700101758975,
+      "grad_norm": 2.9117774963378906,
+      "learning_rate": 9.557653740729448e-05,
+      "loss": 2.2844,
+      "step": 1465
+    },
+    {
+      "epoch": 0.2136938508504143,
+      "grad_norm": 2.2464821338653564,
+      "learning_rate": 9.554313825511126e-05,
+      "loss": 2.1766,
+      "step": 1470
+    },
+    {
+      "epoch": 0.21442070068323885,
+      "grad_norm": 2.3479864597320557,
+      "learning_rate": 9.550962469577204e-05,
+      "loss": 2.1467,
+      "step": 1475
+    },
+    {
+      "epoch": 0.21514755051606338,
+      "grad_norm": 2.5859127044677734,
+      "learning_rate": 9.547599681364714e-05,
+      "loss": 2.2705,
+      "step": 1480
+    },
+    {
+      "epoch": 0.2158744003488879,
+      "grad_norm": 2.3954455852508545,
+      "learning_rate": 9.544225469339472e-05,
+      "loss": 2.1185,
+      "step": 1485
+    },
+    {
+      "epoch": 0.21660125018171245,
+      "grad_norm": 2.358924388885498,
+      "learning_rate": 9.540839841996055e-05,
+      "loss": 2.2151,
+      "step": 1490
+    },
+    {
+      "epoch": 0.217328100014537,
+      "grad_norm": 2.672982931137085,
+      "learning_rate": 9.537442807857774e-05,
+      "loss": 2.1513,
+      "step": 1495
+    },
+    {
+      "epoch": 0.21805494984736154,
+      "grad_norm": 2.6655712127685547,
+      "learning_rate": 9.534034375476659e-05,
+      "loss": 2.262,
+      "step": 1500
+    },
+    {
+      "epoch": 0.21805494984736154,
+      "eval_loss": 2.1434316635131836,
+      "eval_runtime": 19.0603,
+      "eval_samples_per_second": 173.187,
+      "eval_steps_per_second": 10.86,
+      "step": 1500
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 3.907643632768778e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null