Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step500/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +238 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4309676b677f4c45fa6920d209e1c2f12b3e4ee7403bed0916c1f32cebbb28b1
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0ccb8a0129c7d9eaf16b9290d28992901ea364a3eb99fab68c551e58865ad1d
 size 1037269336

last-checkpoint/global_step500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8582c27675be97fbe175662f0617ffe889ff3637d47df468a239c01727d77734
+size 781993445

last-checkpoint/global_step500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6016bca51cbed4fb5c504cbb187a0a788949484fb1cb48367af54ed9a5386209
+size 781993509

last-checkpoint/global_step500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2054e8d1388acd691635ad517a65efb430d628b720c279ee8d82dd1c29deefa8
+size 781993509

last-checkpoint/global_step500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0669a96fa76f6656565eb40cf556723e5d0cf16d8246191dc18bef5b155485d2
+size 781993509

last-checkpoint/global_step500/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ac632624f93cba312efba8e16ea77a85d2d3ba6cb34c3a2b435a69c990f108c
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step350~~


1	+ global_step500

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d21dde17f9d9a99170acf034e536c5632372f501fec0f61fa850b399a279e4b
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee5d289ec7768cbf0e07f6f91891b3cd40d731766941a42a578606b1c1b8dc08
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05603e4e06b9be10365e879b5235243dbbfe82cd9517e88d67d00e72d67835a5
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d94bb40a8ce66db77dee5b9f49872d85599609de34f6189c8101364fa21ff9b
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ed4a37f9e4fd517d3e6e7b7e7c7a2c363dff932cd44578c70bbefdee8b0e2e9
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:c477cacf16acc18aecb2516f63a1ba0461197152443bea744139c7ff46a46f73
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6eebac46efa7f2bd7fd13551dc3528de444025722f566ee67f960be4415bda97
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:810b92355364d8d84b8db0ab868b5a2796dc3ae691f062feeffae3690cbf1153
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4457fca0aac48cf0905dae3a185a31d975d5e88a968660d320a67ba2923e9a35
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e72eb35b7c5b7fc898e5e035cd606aabe0783358153b154eea9980f36a0e64c
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 2.3381261825561523,
   "best_model_checkpoint": null,
-  "epoch": 0.05087948829771769,
   "eval_steps": 50,
-  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -554,6 +554,240 @@
       "eval_samples_per_second": 174.411,
       "eval_steps_per_second": 10.937,
       "step": 350
     }
   ],
   "logging_steps": 5,
@@ -582,7 +816,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.118819589449318e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 2.276088237762451,
   "best_model_checkpoint": null,
+  "epoch": 0.07268498328245385,
   "eval_steps": 50,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 174.411,
       "eval_steps_per_second": 10.937,
       "step": 350
+    },
+    {
+      "epoch": 0.05160633813054223,
+      "grad_norm": 2.7642250061035156,
+      "learning_rate": 0.00010003408475268547,
+      "loss": 2.293,
+      "step": 355
+    },
+    {
+      "epoch": 0.05233318796336677,
+      "grad_norm": 2.7389674186706543,
+      "learning_rate": 0.00010002762180560444,
+      "loss": 2.4124,
+      "step": 360
+    },
+    {
+      "epoch": 0.053060037796191305,
+      "grad_norm": 2.504678726196289,
+      "learning_rate": 0.00010002103316168538,
+      "loss": 2.3363,
+      "step": 365
+    },
+    {
+      "epoch": 0.053786887629015845,
+      "grad_norm": 2.936523199081421,
+      "learning_rate": 0.00010001431883751522,
+      "loss": 2.5376,
+      "step": 370
+    },
+    {
+      "epoch": 0.054513737461840385,
+      "grad_norm": 2.2680201530456543,
+      "learning_rate": 0.00010000747884999726,
+      "loss": 2.351,
+      "step": 375
+    },
+    {
+      "epoch": 0.055240587294664925,
+      "grad_norm": 2.2338175773620605,
+      "learning_rate": 0.00010000051321635116,
+      "loss": 2.2443,
+      "step": 380
+    },
+    {
+      "epoch": 0.05596743712748946,
+      "grad_norm": 2.376094341278076,
+      "learning_rate": 9.999342195411289e-05,
+      "loss": 2.3425,
+      "step": 385
+    },
+    {
+      "epoch": 0.056694286960314,
+      "grad_norm": 2.237074136734009,
+      "learning_rate": 9.998620508113469e-05,
+      "loss": 2.2599,
+      "step": 390
+    },
+    {
+      "epoch": 0.05742113679313854,
+      "grad_norm": 2.188169002532959,
+      "learning_rate": 9.997886261558505e-05,
+      "loss": 2.4128,
+      "step": 395
+    },
+    {
+      "epoch": 0.05814798662596308,
+      "grad_norm": 2.172314167022705,
+      "learning_rate": 9.99713945759486e-05,
+      "loss": 2.2818,
+      "step": 400
+    },
+    {
+      "epoch": 0.05814798662596308,
+      "eval_loss": 2.3017640113830566,
+      "eval_runtime": 23.369,
+      "eval_samples_per_second": 141.256,
+      "eval_steps_per_second": 8.858,
+      "step": 400
+    },
+    {
+      "epoch": 0.05887483645878761,
+      "grad_norm": 2.5056467056274414,
+      "learning_rate": 9.996380098102613e-05,
+      "loss": 2.3248,
+      "step": 405
+    },
+    {
+      "epoch": 0.05960168629161215,
+      "grad_norm": 2.3642866611480713,
+      "learning_rate": 9.99560818499345e-05,
+      "loss": 2.3405,
+      "step": 410
+    },
+    {
+      "epoch": 0.06032853612443669,
+      "grad_norm": 2.5992562770843506,
+      "learning_rate": 9.994823720210662e-05,
+      "loss": 2.2849,
+      "step": 415
+    },
+    {
+      "epoch": 0.06105538595726123,
+      "grad_norm": 2.5721242427825928,
+      "learning_rate": 9.994026705729136e-05,
+      "loss": 2.2368,
+      "step": 420
+    },
+    {
+      "epoch": 0.061782235790085765,
+      "grad_norm": 2.104682207107544,
+      "learning_rate": 9.993217143555357e-05,
+      "loss": 2.3928,
+      "step": 425
+    },
+    {
+      "epoch": 0.06250908562291031,
+      "grad_norm": 2.82171630859375,
+      "learning_rate": 9.992395035727397e-05,
+      "loss": 2.2192,
+      "step": 430
+    },
+    {
+      "epoch": 0.06323593545573485,
+      "grad_norm": 2.1614480018615723,
+      "learning_rate": 9.99156038431491e-05,
+      "loss": 2.257,
+      "step": 435
+    },
+    {
+      "epoch": 0.06396278528855938,
+      "grad_norm": 2.601987600326538,
+      "learning_rate": 9.990713191419133e-05,
+      "loss": 2.319,
+      "step": 440
+    },
+    {
+      "epoch": 0.06468963512138393,
+      "grad_norm": 2.4330639839172363,
+      "learning_rate": 9.989853459172868e-05,
+      "loss": 2.5235,
+      "step": 445
+    },
+    {
+      "epoch": 0.06541648495420846,
+      "grad_norm": 2.4703032970428467,
+      "learning_rate": 9.988981189740496e-05,
+      "loss": 2.3522,
+      "step": 450
+    },
+    {
+      "epoch": 0.06541648495420846,
+      "eval_loss": 2.3036184310913086,
+      "eval_runtime": 19.0462,
+      "eval_samples_per_second": 173.316,
+      "eval_steps_per_second": 10.868,
+      "step": 450
+    },
+    {
+      "epoch": 0.06614333478703299,
+      "grad_norm": 2.469402313232422,
+      "learning_rate": 9.988096385317949e-05,
+      "loss": 2.3827,
+      "step": 455
+    },
+    {
+      "epoch": 0.06687018461985754,
+      "grad_norm": 2.229930877685547,
+      "learning_rate": 9.987199048132724e-05,
+      "loss": 2.4999,
+      "step": 460
+    },
+    {
+      "epoch": 0.06759703445268207,
+      "grad_norm": 2.1780316829681396,
+      "learning_rate": 9.986289180443866e-05,
+      "loss": 2.4012,
+      "step": 465
+    },
+    {
+      "epoch": 0.06832388428550662,
+      "grad_norm": 2.6075403690338135,
+      "learning_rate": 9.985366784541965e-05,
+      "loss": 2.1278,
+      "step": 470
+    },
+    {
+      "epoch": 0.06905073411833115,
+      "grad_norm": 2.6112635135650635,
+      "learning_rate": 9.984431862749151e-05,
+      "loss": 2.3663,
+      "step": 475
+    },
+    {
+      "epoch": 0.06977758395115569,
+      "grad_norm": 2.6977710723876953,
+      "learning_rate": 9.98348441741909e-05,
+      "loss": 2.438,
+      "step": 480
+    },
+    {
+      "epoch": 0.07050443378398023,
+      "grad_norm": 2.4466493129730225,
+      "learning_rate": 9.982524450936976e-05,
+      "loss": 2.2735,
+      "step": 485
+    },
+    {
+      "epoch": 0.07123128361680477,
+      "grad_norm": 2.569622755050659,
+      "learning_rate": 9.981551965719518e-05,
+      "loss": 2.2769,
+      "step": 490
+    },
+    {
+      "epoch": 0.07195813344962931,
+      "grad_norm": 2.5103085041046143,
+      "learning_rate": 9.980566964214952e-05,
+      "loss": 2.3861,
+      "step": 495
+    },
+    {
+      "epoch": 0.07268498328245385,
+      "grad_norm": 2.7069687843322754,
+      "learning_rate": 9.979569448903016e-05,
+      "loss": 2.1348,
+      "step": 500
+    },
+    {
+      "epoch": 0.07268498328245385,
+      "eval_loss": 2.276088237762451,
+      "eval_runtime": 18.7696,
+      "eval_samples_per_second": 175.869,
+      "eval_steps_per_second": 11.028,
+      "step": 500
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1.304977240836014e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null