Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step5000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5000/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +238 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc277642dc0b06e4ef5f27d5d9e2c2de2e591d599ed3f0e0949f75571b1cc34c
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:8574164bb4d11eaf453dcb6ad3966428cd591430ae9c31f0937299ed1a487081
 size 1037269336

last-checkpoint/global_step5000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a09647bd6cf33248479b856f41c1b82c476851b19566acd615bb9266f2b1b0ee
+size 781993445

last-checkpoint/global_step5000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f60fae928a89055d942fe282de8f7700321637408cadeae0860f984db5297c7
+size 781993509

last-checkpoint/global_step5000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5e367c94a7f4f9ffb0449a994883423b0ee48aa8ed33c52f9254bc053771053
+size 781993509

last-checkpoint/global_step5000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22ebe4a089211b888c7db1c62207d175ec46c124ad172ec679adaea45438cb12
+size 781993509

last-checkpoint/global_step5000/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6eda741d4f4d77768028d65e555ce867c47e40bb8497ec8a08f5c144c7be204e
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step4850~~


1	+ global_step5000

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6240912d01e192733ef6be739d7b09f31a1f74d3c2153dd5b7bb314e27267ccf
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd00f37ba9aa2f280e60110d762d55bd77f2e19074544210642612fc0d0c6aed
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52d878f10e98abb1122007071c71e47bf1782972c530015971c5f9bcece9d472
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:da7f2a246e741148e024dc29f274d353214e019d5f548b483c4905c46044d9c6
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9fee06aeb30dffa295e5deaef161931b146d5691264c40430f2d7f1d7c37ddf
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:59fe33085db221039a6aa12c757a1cedc0cc5b1d3be922c202529c8eb1b8058a
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:731e4717014f6fa0804acda5ac6424642876d39e465767a39ea8e341536660c0
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:15166ad530c105df387795709025f21626f6ea307321c73af1fa12ffc3d040d0
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2648a958bbf7c08c15a521db8bff4a4ac3ef2beed98d51a27a6f1dfcf292094
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ccb65ec1efdeb7bb899bcfdbd59da40edf4d90e5de5df4ddf919745dfd59ebe
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 1.8672053813934326,
   "best_model_checkpoint": null,
-  "epoch": 0.7050443378398022,
   "eval_steps": 50,
-  "global_step": 4850,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7574,6 +7574,240 @@
       "eval_samples_per_second": 173.724,
       "eval_steps_per_second": 10.894,
       "step": 4850
     }
   ],
   "logging_steps": 5,
@@ -7602,7 +7836,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2640433748731494e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 1.8494781255722046,
   "best_model_checkpoint": null,
+  "epoch": 0.7268498328245384,
   "eval_steps": 50,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 173.724,
       "eval_steps_per_second": 10.894,
       "step": 4850
+    },
+    {
+      "epoch": 0.7057711876726268,
+      "grad_norm": 2.359971761703491,
+      "learning_rate": 5.321233654341051e-05,
+      "loss": 2.0426,
+      "step": 4855
+    },
+    {
+      "epoch": 0.7064980375054514,
+      "grad_norm": 2.5104758739471436,
+      "learning_rate": 5.3132997135038396e-05,
+      "loss": 2.075,
+      "step": 4860
+    },
+    {
+      "epoch": 0.7072248873382759,
+      "grad_norm": 2.3607850074768066,
+      "learning_rate": 5.305365008699002e-05,
+      "loss": 2.184,
+      "step": 4865
+    },
+    {
+      "epoch": 0.7079517371711005,
+      "grad_norm": 2.6986582279205322,
+      "learning_rate": 5.2974295599021475e-05,
+      "loss": 2.0019,
+      "step": 4870
+    },
+    {
+      "epoch": 0.7086785870039249,
+      "grad_norm": 2.2969441413879395,
+      "learning_rate": 5.289493387090762e-05,
+      "loss": 2.1051,
+      "step": 4875
+    },
+    {
+      "epoch": 0.7094054368367495,
+      "grad_norm": 2.4311702251434326,
+      "learning_rate": 5.2815565102441487e-05,
+      "loss": 2.0222,
+      "step": 4880
+    },
+    {
+      "epoch": 0.7101322866695741,
+      "grad_norm": 2.284479856491089,
+      "learning_rate": 5.273618949343387e-05,
+      "loss": 2.0578,
+      "step": 4885
+    },
+    {
+      "epoch": 0.7108591365023986,
+      "grad_norm": 2.054469108581543,
+      "learning_rate": 5.265680724371276e-05,
+      "loss": 2.0806,
+      "step": 4890
+    },
+    {
+      "epoch": 0.7115859863352232,
+      "grad_norm": 2.0409023761749268,
+      "learning_rate": 5.257741855312288e-05,
+      "loss": 2.1366,
+      "step": 4895
+    },
+    {
+      "epoch": 0.7123128361680476,
+      "grad_norm": 2.3130247592926025,
+      "learning_rate": 5.2498023621525144e-05,
+      "loss": 1.9231,
+      "step": 4900
+    },
+    {
+      "epoch": 0.7123128361680476,
+      "eval_loss": 1.85334312915802,
+      "eval_runtime": 21.9469,
+      "eval_samples_per_second": 150.409,
+      "eval_steps_per_second": 9.432,
+      "step": 4900
+    },
+    {
+      "epoch": 0.7130396860008722,
+      "grad_norm": 2.8905739784240723,
+      "learning_rate": 5.241862264879624e-05,
+      "loss": 2.1506,
+      "step": 4905
+    },
+    {
+      "epoch": 0.7137665358336968,
+      "grad_norm": 1.8220387697219849,
+      "learning_rate": 5.2339215834828e-05,
+      "loss": 1.8484,
+      "step": 4910
+    },
+    {
+      "epoch": 0.7144933856665213,
+      "grad_norm": 2.53902530670166,
+      "learning_rate": 5.225980337952697e-05,
+      "loss": 1.9491,
+      "step": 4915
+    },
+    {
+      "epoch": 0.7152202354993459,
+      "grad_norm": 2.232422351837158,
+      "learning_rate": 5.2180385482813935e-05,
+      "loss": 1.9356,
+      "step": 4920
+    },
+    {
+      "epoch": 0.7159470853321703,
+      "grad_norm": 2.471998691558838,
+      "learning_rate": 5.210096234462335e-05,
+      "loss": 2.0199,
+      "step": 4925
+    },
+    {
+      "epoch": 0.7166739351649949,
+      "grad_norm": 2.3903968334198,
+      "learning_rate": 5.202153416490285e-05,
+      "loss": 2.0745,
+      "step": 4930
+    },
+    {
+      "epoch": 0.7174007849978195,
+      "grad_norm": 2.582702159881592,
+      "learning_rate": 5.1942101143612804e-05,
+      "loss": 2.1917,
+      "step": 4935
+    },
+    {
+      "epoch": 0.718127634830644,
+      "grad_norm": 2.2047088146209717,
+      "learning_rate": 5.186266348072575e-05,
+      "loss": 2.0905,
+      "step": 4940
+    },
+    {
+      "epoch": 0.7188544846634686,
+      "grad_norm": 2.3632895946502686,
+      "learning_rate": 5.178322137622589e-05,
+      "loss": 1.8037,
+      "step": 4945
+    },
+    {
+      "epoch": 0.719581334496293,
+      "grad_norm": 2.1407690048217773,
+      "learning_rate": 5.170377503010865e-05,
+      "loss": 1.9275,
+      "step": 4950
+    },
+    {
+      "epoch": 0.719581334496293,
+      "eval_loss": 1.8587294816970825,
+      "eval_runtime": 19.3641,
+      "eval_samples_per_second": 170.47,
+      "eval_steps_per_second": 10.69,
+      "step": 4950
+    },
+    {
+      "epoch": 0.7203081843291176,
+      "grad_norm": 2.4468822479248047,
+      "learning_rate": 5.16243246423801e-05,
+      "loss": 2.0012,
+      "step": 4955
+    },
+    {
+      "epoch": 0.7210350341619421,
+      "grad_norm": 2.2367379665374756,
+      "learning_rate": 5.15448704130565e-05,
+      "loss": 2.1336,
+      "step": 4960
+    },
+    {
+      "epoch": 0.7217618839947667,
+      "grad_norm": 2.382683515548706,
+      "learning_rate": 5.1465412542163777e-05,
+      "loss": 2.0299,
+      "step": 4965
+    },
+    {
+      "epoch": 0.7224887338275913,
+      "grad_norm": 2.802795648574829,
+      "learning_rate": 5.138595122973702e-05,
+      "loss": 2.1449,
+      "step": 4970
+    },
+    {
+      "epoch": 0.7232155836604157,
+      "grad_norm": 2.422428846359253,
+      "learning_rate": 5.130648667582e-05,
+      "loss": 1.9257,
+      "step": 4975
+    },
+    {
+      "epoch": 0.7239424334932403,
+      "grad_norm": 2.619701862335205,
+      "learning_rate": 5.1227019080464614e-05,
+      "loss": 2.1349,
+      "step": 4980
+    },
+    {
+      "epoch": 0.7246692833260648,
+      "grad_norm": 2.259448289871216,
+      "learning_rate": 5.114754864373048e-05,
+      "loss": 1.9518,
+      "step": 4985
+    },
+    {
+      "epoch": 0.7253961331588894,
+      "grad_norm": 2.466169834136963,
+      "learning_rate": 5.106807556568429e-05,
+      "loss": 2.0608,
+      "step": 4990
+    },
+    {
+      "epoch": 0.726122982991714,
+      "grad_norm": 2.4360663890838623,
+      "learning_rate": 5.098860004639943e-05,
+      "loss": 2.0255,
+      "step": 4995
+    },
+    {
+      "epoch": 0.7268498328245384,
+      "grad_norm": 2.5744364261627197,
+      "learning_rate": 5.0909122285955454e-05,
+      "loss": 2.0253,
+      "step": 5000
+    },
+    {
+      "epoch": 0.7268498328245384,
+      "eval_loss": 1.8494781255722046,
+      "eval_runtime": 19.054,
+      "eval_samples_per_second": 173.245,
+      "eval_steps_per_second": 10.864,
+      "step": 5000
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1.3038086059374674e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null