Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step3600/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3600/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3600/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3600/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3600/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +316 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e0d4d53d47cf148bf090bf85a00e8d8ce95def5a92d928f35b159ba03df5b14b
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:f12ce7779d96a024c4dd4f58d076b05867f31b520868639145f1b25c63bf1906
 size 1037269336

last-checkpoint/global_step3600/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b616c059747eaccce047c3112e296ed72258ba5d5394b0108a0212546122845
+size 781993445

last-checkpoint/global_step3600/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3a0874b23896609b2b966f82c616126aa647394a112baa83b98e5d2062c88c9
+size 781993509

last-checkpoint/global_step3600/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48fa9a4ed997374aade9c8737caed2aecf614bb3b3706b3d5f2e66eaf40351ff
+size 781993509

last-checkpoint/global_step3600/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67535a7ee65e672147ce20bec6495dce79103690259ea40e50c21fc33d4a4953
+size 781993509

last-checkpoint/global_step3600/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a25fb5ddf9c1af2d5420efdae26d4b9821cf64a076b842481731c6ebb07d1b3d
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step3400~~


1	+ global_step3600

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a0dae475a2e74a7eba2183dafd43f7f364f1783f2c428d16e9ebda71fcc129b
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:4560423a884b4db453d7d1b748155a1cd58f131c7e355290b17af66a745e3b19
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c92dedf94907603b200c04a410bb8278e46b6a33fdfe1169ce038f2d7b3407de
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:8985cb46ba2723280ee973b265fe66bd4b26b2de0dd0dbbe501d8869c79c0a4c
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d828406bc3d74852e5371798f20aafaca25c8bf291eef03f86935f60052b842
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5ad915f857347045218dcd0e5ba757cb7b726c9623b0b49d51280ce11e9c427
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a55ca83ba43de275fbe01b00f1c525156344f01bb28f4ae23e7fcc92b0451a6
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a2a0ea073b71609cb1e29e7290795e9416839e4a2e0d6ed6b40688c05f20303
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb5c50f2f5f52986bf42683d33595b37ca91b5dd7eae281283c2ab87207f371d
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab73268050baa090e15858a3a718e94ea470376fdd081db33931bc775fd1484a
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 1.9858521223068237,
   "best_model_checkpoint": null,
-  "epoch": 0.4942578863206861,
   "eval_steps": 50,
-  "global_step": 3400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5312,6 +5312,318 @@
       "eval_samples_per_second": 174.212,
       "eval_steps_per_second": 10.925,
       "step": 3400
     }
   ],
   "logging_steps": 5,
@@ -5340,7 +5652,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.857243019724718e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 1.9708884954452515,
   "best_model_checkpoint": null,
+  "epoch": 0.5233318796336677,
   "eval_steps": 50,
+  "global_step": 3600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 174.212,
       "eval_steps_per_second": 10.925,
       "step": 3400
+    },
+    {
+      "epoch": 0.4949847361535107,
+      "grad_norm": 2.4753811359405518,
+      "learning_rate": 7.509245947645659e-05,
+      "loss": 1.9676,
+      "step": 3405
+    },
+    {
+      "epoch": 0.49571158598633525,
+      "grad_norm": 2.552577495574951,
+      "learning_rate": 7.502353796314939e-05,
+      "loss": 2.0703,
+      "step": 3410
+    },
+    {
+      "epoch": 0.49643843581915975,
+      "grad_norm": 2.2608258724212646,
+      "learning_rate": 7.495455370075547e-05,
+      "loss": 2.0442,
+      "step": 3415
+    },
+    {
+      "epoch": 0.4971652856519843,
+      "grad_norm": 2.7708072662353516,
+      "learning_rate": 7.488550686294263e-05,
+      "loss": 2.0061,
+      "step": 3420
+    },
+    {
+      "epoch": 0.4978921354848088,
+      "grad_norm": 2.265629768371582,
+      "learning_rate": 7.481639762353621e-05,
+      "loss": 2.0098,
+      "step": 3425
+    },
+    {
+      "epoch": 0.4986189853176334,
+      "grad_norm": 2.200986623764038,
+      "learning_rate": 7.474722615651865e-05,
+      "loss": 2.0711,
+      "step": 3430
+    },
+    {
+      "epoch": 0.49934583515045794,
+      "grad_norm": 2.6096930503845215,
+      "learning_rate": 7.4677992636029e-05,
+      "loss": 2.0267,
+      "step": 3435
+    },
+    {
+      "epoch": 0.5000726849832825,
+      "grad_norm": 2.679610013961792,
+      "learning_rate": 7.460869723636259e-05,
+      "loss": 2.0392,
+      "step": 3440
+    },
+    {
+      "epoch": 0.500799534816107,
+      "grad_norm": 2.4646713733673096,
+      "learning_rate": 7.45393401319705e-05,
+      "loss": 1.9999,
+      "step": 3445
+    },
+    {
+      "epoch": 0.5015263846489315,
+      "grad_norm": 2.341169834136963,
+      "learning_rate": 7.446992149745914e-05,
+      "loss": 2.0061,
+      "step": 3450
+    },
+    {
+      "epoch": 0.5015263846489315,
+      "eval_loss": 1.9797232151031494,
+      "eval_runtime": 21.8402,
+      "eval_samples_per_second": 151.144,
+      "eval_steps_per_second": 9.478,
+      "step": 3450
+    },
+    {
+      "epoch": 0.5022532344817561,
+      "grad_norm": 2.2362568378448486,
+      "learning_rate": 7.440044150758987e-05,
+      "loss": 1.8974,
+      "step": 3455
+    },
+    {
+      "epoch": 0.5029800843145806,
+      "grad_norm": 2.497943878173828,
+      "learning_rate": 7.433090033727847e-05,
+      "loss": 2.178,
+      "step": 3460
+    },
+    {
+      "epoch": 0.5037069341474052,
+      "grad_norm": 2.9573802947998047,
+      "learning_rate": 7.426129816159475e-05,
+      "loss": 2.0595,
+      "step": 3465
+    },
+    {
+      "epoch": 0.5044337839802296,
+      "grad_norm": 2.28165602684021,
+      "learning_rate": 7.419163515576209e-05,
+      "loss": 2.2754,
+      "step": 3470
+    },
+    {
+      "epoch": 0.5051606338130542,
+      "grad_norm": 2.49424147605896,
+      "learning_rate": 7.412191149515707e-05,
+      "loss": 2.1558,
+      "step": 3475
+    },
+    {
+      "epoch": 0.5058874836458788,
+      "grad_norm": 3.0092170238494873,
+      "learning_rate": 7.405212735530888e-05,
+      "loss": 2.1079,
+      "step": 3480
+    },
+    {
+      "epoch": 0.5066143334787033,
+      "grad_norm": 2.4972879886627197,
+      "learning_rate": 7.398228291189901e-05,
+      "loss": 2.181,
+      "step": 3485
+    },
+    {
+      "epoch": 0.5073411833115279,
+      "grad_norm": 2.6351096630096436,
+      "learning_rate": 7.391237834076077e-05,
+      "loss": 1.9635,
+      "step": 3490
+    },
+    {
+      "epoch": 0.5080680331443523,
+      "grad_norm": 2.5686097145080566,
+      "learning_rate": 7.384241381787888e-05,
+      "loss": 2.1353,
+      "step": 3495
+    },
+    {
+      "epoch": 0.5087948829771769,
+      "grad_norm": 2.4493703842163086,
+      "learning_rate": 7.377238951938886e-05,
+      "loss": 2.1474,
+      "step": 3500
+    },
+    {
+      "epoch": 0.5087948829771769,
+      "eval_loss": 1.9865467548370361,
+      "eval_runtime": 19.1097,
+      "eval_samples_per_second": 172.74,
+      "eval_steps_per_second": 10.832,
+      "step": 3500
+    },
+    {
+      "epoch": 0.5095217328100015,
+      "grad_norm": 2.4284589290618896,
+      "learning_rate": 7.370230562157685e-05,
+      "loss": 2.0678,
+      "step": 3505
+    },
+    {
+      "epoch": 0.510248582642826,
+      "grad_norm": 2.635737657546997,
+      "learning_rate": 7.363216230087898e-05,
+      "loss": 2.2497,
+      "step": 3510
+    },
+    {
+      "epoch": 0.5109754324756506,
+      "grad_norm": 2.3156023025512695,
+      "learning_rate": 7.356195973388096e-05,
+      "loss": 2.1084,
+      "step": 3515
+    },
+    {
+      "epoch": 0.511702282308475,
+      "grad_norm": 2.362034559249878,
+      "learning_rate": 7.349169809731767e-05,
+      "loss": 1.9663,
+      "step": 3520
+    },
+    {
+      "epoch": 0.5124291321412996,
+      "grad_norm": 2.198225975036621,
+      "learning_rate": 7.342137756807273e-05,
+      "loss": 1.9753,
+      "step": 3525
+    },
+    {
+      "epoch": 0.5131559819741242,
+      "grad_norm": 2.3297581672668457,
+      "learning_rate": 7.335099832317792e-05,
+      "loss": 1.9516,
+      "step": 3530
+    },
+    {
+      "epoch": 0.5138828318069487,
+      "grad_norm": 2.580559492111206,
+      "learning_rate": 7.328056053981296e-05,
+      "loss": 2.1125,
+      "step": 3535
+    },
+    {
+      "epoch": 0.5146096816397733,
+      "grad_norm": 2.454136371612549,
+      "learning_rate": 7.321006439530488e-05,
+      "loss": 2.1955,
+      "step": 3540
+    },
+    {
+      "epoch": 0.5153365314725977,
+      "grad_norm": 2.720200300216675,
+      "learning_rate": 7.313951006712762e-05,
+      "loss": 2.1802,
+      "step": 3545
+    },
+    {
+      "epoch": 0.5160633813054223,
+      "grad_norm": 2.2702293395996094,
+      "learning_rate": 7.306889773290163e-05,
+      "loss": 2.0275,
+      "step": 3550
+    },
+    {
+      "epoch": 0.5160633813054223,
+      "eval_loss": 1.9806544780731201,
+      "eval_runtime": 19.2538,
+      "eval_samples_per_second": 171.447,
+      "eval_steps_per_second": 10.751,
+      "step": 3550
+    },
+    {
+      "epoch": 0.5167902311382468,
+      "grad_norm": 2.6502344608306885,
+      "learning_rate": 7.299822757039339e-05,
+      "loss": 2.2931,
+      "step": 3555
+    },
+    {
+      "epoch": 0.5175170809710714,
+      "grad_norm": 2.4326069355010986,
+      "learning_rate": 7.292749975751491e-05,
+      "loss": 2.0597,
+      "step": 3560
+    },
+    {
+      "epoch": 0.518243930803896,
+      "grad_norm": 2.45497465133667,
+      "learning_rate": 7.285671447232342e-05,
+      "loss": 2.1446,
+      "step": 3565
+    },
+    {
+      "epoch": 0.5189707806367204,
+      "grad_norm": 2.320857048034668,
+      "learning_rate": 7.278587189302076e-05,
+      "loss": 2.1279,
+      "step": 3570
+    },
+    {
+      "epoch": 0.519697630469545,
+      "grad_norm": 2.6278252601623535,
+      "learning_rate": 7.271497219795305e-05,
+      "loss": 1.9936,
+      "step": 3575
+    },
+    {
+      "epoch": 0.5204244803023695,
+      "grad_norm": 2.3981995582580566,
+      "learning_rate": 7.264401556561019e-05,
+      "loss": 1.9534,
+      "step": 3580
+    },
+    {
+      "epoch": 0.5211513301351941,
+      "grad_norm": 2.486588716506958,
+      "learning_rate": 7.257300217462541e-05,
+      "loss": 2.291,
+      "step": 3585
+    },
+    {
+      "epoch": 0.5218781799680187,
+      "grad_norm": 2.3635659217834473,
+      "learning_rate": 7.250193220377486e-05,
+      "loss": 1.9516,
+      "step": 3590
+    },
+    {
+      "epoch": 0.5226050298008431,
+      "grad_norm": 2.548090934753418,
+      "learning_rate": 7.243080583197707e-05,
+      "loss": 2.0224,
+      "step": 3595
+    },
+    {
+      "epoch": 0.5233318796336677,
+      "grad_norm": 2.575667142868042,
+      "learning_rate": 7.235962323829262e-05,
+      "loss": 2.3508,
+      "step": 3600
+    },
+    {
+      "epoch": 0.5233318796336677,
+      "eval_loss": 1.9708884954452515,
+      "eval_runtime": 18.8558,
+      "eval_samples_per_second": 175.066,
+      "eval_steps_per_second": 10.978,
+      "step": 3600
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 9.384889709651558e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null