Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step700/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step700/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step700/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step700/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step700/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +335 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2120d5d536aba10e00501ceedc3558e455e3cff895955ef8f273753d39d93536
 size 1172343536

 version https://git-lfs.github.com/spec/v1
+oid sha256:a25f53b86cb0d18e76005ef7631a16e5d28e2c4b40e63c63c5944927040e7cae
 size 1172343536

last-checkpoint/global_step700/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25357a757ebf5592fa042b9321b556dc5634272c1168ac340bdca9a626f23e07
+size 883824229

last-checkpoint/global_step700/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2ac1f8359e420e4a66c4ef48a112cc3c99f672cc078c0417c033effa91df13f
+size 883824293

last-checkpoint/global_step700/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c5e40e5561d12dda73279ee7288b72c8d8d7d3b6b27703ef6d98f69114e4cef
+size 883824293

last-checkpoint/global_step700/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2e26352cbdcf821b445feaa115008ab37c4ef40c9989046a8e82182faf22e44
+size 883824293

last-checkpoint/global_step700/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1df0fa0c4467f3cbadeca81e7232ed395180b129c2837ed3d9ffdc195122db60
+size 1172522073

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step600~~


1	+ global_step700

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4894c218b3f6eaf3b9761899ca66cc4ee052559eaf58bed0eb77d1f141f5a8f8
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f67957e71beac3aac584ce7da49055cc9c7edaf3d732505bfffa5511f709f41
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e35dc37a61e3442d3a3c91b1def510a65866249fe0f6bfe143097becbb018fdc
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:305594a2a478d20bb06c74dcc62d37dde101425234afb4331ef411c36814de11
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cee7319258b43ce62816538b7f06b4a5ae5b8b56e7ea61d662ecb9ed3402c92a
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:1eb2d84f63d7341151dcb60706643579b7c3105045d9ce41fc7fd7aa2c6c8fb0
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aed48390c7aa15be53030fdcd4b9104f35ff8b16f59f6cd4b6566c973f83388a
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5633e0320a424cdde99e10e62d0382c89fdf5b90d88d95ba4955f9644083937
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b643f96fae1c7c195d82363db91efd66b514c2fc5280977aad9c8846720b5046
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:336d3de2036e71626b0f815e82e0c2ae29554f5ccd7af556bd21908e68a7f924
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.030555352568626404,
   "best_model_checkpoint": null,
-  "epoch": 0.5211726384364821,
   "eval_steps": 50,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2000,6 +2000,338 @@
       "eval_samples_per_second": 45.237,
       "eval_steps_per_second": 2.835,
       "step": 600
     }
   ],
   "logging_steps": 5,

 {
   "best_global_step": null,
+  "best_metric": 0.028052611276507378,
   "best_model_checkpoint": null,
+  "epoch": 0.6080347448425625,
   "eval_steps": 50,
+  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 45.237,
       "eval_steps_per_second": 2.835,
       "step": 600
+    },
+    {
+      "epoch": 0.5255157437567861,
+      "grad_norm": 0.30262914299964905,
+      "learning_rate": 2.582497171281706e-05,
+      "logits/chosen": -0.912109375,
+      "logits/rejected": -1.4345703125,
+      "logps/chosen": -99.8499984741211,
+      "logps/rejected": -208.0,
+      "loss": 0.0349,
+      "rewards/accuracies": 0.9921875,
+      "rewards/chosen": -2.3775391578674316,
+      "rewards/margins": 14.800000190734863,
+      "rewards/rejected": -17.173437118530273,
+      "step": 605
+    },
+    {
+      "epoch": 0.5298588490770901,
+      "grad_norm": 1.1037715673446655,
+      "learning_rate": 2.582167183916507e-05,
+      "logits/chosen": -0.8954101800918579,
+      "logits/rejected": -1.4089844226837158,
+      "logps/chosen": -97.625,
+      "logps/rejected": -205.6999969482422,
+      "loss": 0.0239,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -2.354687452316284,
+      "rewards/margins": 15.201562881469727,
+      "rewards/rejected": -17.5546875,
+      "step": 610
+    },
+    {
+      "epoch": 0.5342019543973942,
+      "grad_norm": 1.3360408544540405,
+      "learning_rate": 2.5818339675420697e-05,
+      "logits/chosen": -0.9012695550918579,
+      "logits/rejected": -1.4142577648162842,
+      "logps/chosen": -99.1624984741211,
+      "logps/rejected": -215.75,
+      "loss": 0.0197,
+      "rewards/accuracies": 0.9921875,
+      "rewards/chosen": -2.437304735183716,
+      "rewards/margins": 16.6875,
+      "rewards/rejected": -19.128124237060547,
+      "step": 615
+    },
+    {
+      "epoch": 0.5385450597176982,
+      "grad_norm": 0.8700627684593201,
+      "learning_rate": 2.5814975229972658e-05,
+      "logits/chosen": -1.006250023841858,
+      "logits/rejected": -1.4474608898162842,
+      "logps/chosen": -104.3375015258789,
+      "logps/rejected": -229.0,
+      "loss": 0.0542,
+      "rewards/accuracies": 0.979687511920929,
+      "rewards/chosen": -3.26171875,
+      "rewards/margins": 17.548437118530273,
+      "rewards/rejected": -20.817188262939453,
+      "step": 620
+    },
+    {
+      "epoch": 0.5428881650380022,
+      "grad_norm": 0.7034734487533569,
+      "learning_rate": 2.581157851129095e-05,
+      "logits/chosen": -0.964648425579071,
+      "logits/rejected": -1.421289086341858,
+      "logps/chosen": -102.63749694824219,
+      "logps/rejected": -212.625,
+      "loss": 0.0318,
+      "rewards/accuracies": 0.984375,
+      "rewards/chosen": -3.0042967796325684,
+      "rewards/margins": 14.979687690734863,
+      "rewards/rejected": -17.978124618530273,
+      "step": 625
+    },
+    {
+      "epoch": 0.5472312703583062,
+      "grad_norm": 0.245732381939888,
+      "learning_rate": 2.5808149527926798e-05,
+      "logits/chosen": -1.041894555091858,
+      "logits/rejected": -1.42578125,
+      "logps/chosen": -106.23750305175781,
+      "logps/rejected": -210.97500610351562,
+      "loss": 0.0572,
+      "rewards/accuracies": 0.9828125238418579,
+      "rewards/chosen": -3.512890577316284,
+      "rewards/margins": 14.265625,
+      "rewards/rejected": -17.776561737060547,
+      "step": 630
+    },
+    {
+      "epoch": 0.5515743756786102,
+      "grad_norm": 0.418514221906662,
+      "learning_rate": 2.5804688288512667e-05,
+      "logits/chosen": -1.086328148841858,
+      "logits/rejected": -1.48828125,
+      "logps/chosen": -107.38749694824219,
+      "logps/rejected": -210.4499969482422,
+      "loss": 0.0117,
+      "rewards/accuracies": 0.996874988079071,
+      "rewards/chosen": -3.696093797683716,
+      "rewards/margins": 14.215624809265137,
+      "rewards/rejected": -17.90625,
+      "step": 635
+    },
+    {
+      "epoch": 0.5559174809989142,
+      "grad_norm": 1.4381979703903198,
+      "learning_rate": 2.5801194801762228e-05,
+      "logits/chosen": -1.148828148841858,
+      "logits/rejected": -1.5232422351837158,
+      "logps/chosen": -108.26249694824219,
+      "logps/rejected": -222.85000610351562,
+      "loss": 0.0217,
+      "rewards/accuracies": 0.9921875,
+      "rewards/chosen": -3.8187499046325684,
+      "rewards/margins": 15.737500190734863,
+      "rewards/rejected": -19.556249618530273,
+      "step": 640
+    },
+    {
+      "epoch": 0.5602605863192183,
+      "grad_norm": 2.1103994846343994,
+      "learning_rate": 2.579766907647032e-05,
+      "logits/chosen": -1.172265648841858,
+      "logits/rejected": -1.5222656726837158,
+      "logps/chosen": -106.4625015258789,
+      "logps/rejected": -222.0,
+      "loss": 0.0257,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -3.8203125,
+      "rewards/margins": 16.510936737060547,
+      "rewards/rejected": -20.325000762939453,
+      "step": 645
+    },
+    {
+      "epoch": 0.5646036916395223,
+      "grad_norm": 2.4054081439971924,
+      "learning_rate": 2.579411112151296e-05,
+      "logits/chosen": -1.268164038658142,
+      "logits/rejected": -1.5841796398162842,
+      "logps/chosen": -111.9625015258789,
+      "logps/rejected": -230.5500030517578,
+      "loss": 0.0507,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -4.525000095367432,
+      "rewards/margins": 16.7578125,
+      "rewards/rejected": -21.278125762939453,
+      "step": 650
+    },
+    {
+      "epoch": 0.5646036916395223,
+      "eval_logits/chosen": -1.2523972988128662,
+      "eval_logits/rejected": -1.6043264865875244,
+      "eval_logps/chosen": -107.36823272705078,
+      "eval_logps/rejected": -217.88809204101562,
+      "eval_loss": 0.031916987150907516,
+      "eval_rewards/accuracies": 0.9880415201187134,
+      "eval_rewards/chosen": -3.794872522354126,
+      "eval_rewards/margins": 15.53542423248291,
+      "eval_rewards/rejected": -19.325586318969727,
+      "eval_runtime": 97.6969,
+      "eval_samples_per_second": 45.242,
+      "eval_steps_per_second": 2.835,
+      "step": 650
+    },
+    {
+      "epoch": 0.5689467969598263,
+      "grad_norm": 0.738905668258667,
+      "learning_rate": 2.5790520945847294e-05,
+      "logits/chosen": -1.232812523841858,
+      "logits/rejected": -1.612695336341858,
+      "logps/chosen": -107.1500015258789,
+      "logps/rejected": -219.22500610351562,
+      "loss": 0.0169,
+      "rewards/accuracies": 0.9921875,
+      "rewards/chosen": -3.674999952316284,
+      "rewards/margins": 15.8125,
+      "rewards/rejected": -19.496875762939453,
+      "step": 655
+    },
+    {
+      "epoch": 0.5732899022801303,
+      "grad_norm": 1.7680950164794922,
+      "learning_rate": 2.578689855851158e-05,
+      "logits/chosen": -1.215234398841858,
+      "logits/rejected": -1.6212890148162842,
+      "logps/chosen": -103.2874984741211,
+      "logps/rejected": -212.97500610351562,
+      "loss": 0.0223,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -3.3832030296325684,
+      "rewards/margins": 15.240625381469727,
+      "rewards/rejected": -18.618749618530273,
+      "step": 660
+    },
+    {
+      "epoch": 0.5776330076004343,
+      "grad_norm": 1.0927232503890991,
+      "learning_rate": 2.5783243968625182e-05,
+      "logits/chosen": -1.1130859851837158,
+      "logits/rejected": -1.591796875,
+      "logps/chosen": -98.6500015258789,
+      "logps/rejected": -208.6750030517578,
+      "loss": 0.0233,
+      "rewards/accuracies": 0.989062488079071,
+      "rewards/chosen": -1.92431640625,
+      "rewards/margins": 15.643750190734863,
+      "rewards/rejected": -17.564062118530273,
+      "step": 665
+    },
+    {
+      "epoch": 0.5819761129207384,
+      "grad_norm": 1.0042508840560913,
+      "learning_rate": 2.577955718538852e-05,
+      "logits/chosen": -0.9864257574081421,
+      "logits/rejected": -1.5556640625,
+      "logps/chosen": -91.2874984741211,
+      "logps/rejected": -200.10000610351562,
+      "loss": 0.0514,
+      "rewards/accuracies": 0.9859374761581421,
+      "rewards/chosen": -0.8651367425918579,
+      "rewards/margins": 15.442187309265137,
+      "rewards/rejected": -16.306249618530273,
+      "step": 670
+    },
+    {
+      "epoch": 0.5863192182410424,
+      "grad_norm": 0.8699201345443726,
+      "learning_rate": 2.5775838218083068e-05,
+      "logits/chosen": -0.924609363079071,
+      "logits/rejected": -1.532812476158142,
+      "logps/chosen": -87.07499694824219,
+      "logps/rejected": -194.47500610351562,
+      "loss": 0.0149,
+      "rewards/accuracies": 0.995312511920929,
+      "rewards/chosen": -0.359140008687973,
+      "rewards/margins": 15.171875,
+      "rewards/rejected": -15.534375190734863,
+      "step": 675
+    },
+    {
+      "epoch": 0.5906623235613464,
+      "grad_norm": 0.5305850505828857,
+      "learning_rate": 2.5772087076071322e-05,
+      "logits/chosen": -0.931445300579071,
+      "logits/rejected": -1.5304687023162842,
+      "logps/chosen": -89.5625,
+      "logps/rejected": -204.35000610351562,
+      "loss": 0.0349,
+      "rewards/accuracies": 0.989062488079071,
+      "rewards/chosen": -0.29111021757125854,
+      "rewards/margins": 16.0859375,
+      "rewards/rejected": -16.365625381469727,
+      "step": 680
+    },
+    {
+      "epoch": 0.5950054288816504,
+      "grad_norm": 0.5979002118110657,
+      "learning_rate": 2.5768303768796776e-05,
+      "logits/chosen": -0.9864257574081421,
+      "logits/rejected": -1.5128905773162842,
+      "logps/chosen": -89.9749984741211,
+      "logps/rejected": -212.3249969482422,
+      "loss": 0.0221,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -0.9491897821426392,
+      "rewards/margins": 17.404687881469727,
+      "rewards/rejected": -18.345312118530273,
+      "step": 685
+    },
+    {
+      "epoch": 0.5993485342019544,
+      "grad_norm": 0.6950270533561707,
+      "learning_rate": 2.5764488305783906e-05,
+      "logits/chosen": -1.0769531726837158,
+      "logits/rejected": -1.5525391101837158,
+      "logps/chosen": -98.4625015258789,
+      "logps/rejected": -223.6999969482422,
+      "loss": 0.0727,
+      "rewards/accuracies": 0.9859374761581421,
+      "rewards/chosen": -2.060473680496216,
+      "rewards/margins": 17.839061737060547,
+      "rewards/rejected": -19.8984375,
+      "step": 690
+    },
+    {
+      "epoch": 0.6036916395222585,
+      "grad_norm": 1.630603313446045,
+      "learning_rate": 2.576064069663813e-05,
+      "logits/chosen": -1.0413086414337158,
+      "logits/rejected": -1.602929711341858,
+      "logps/chosen": -97.2874984741211,
+      "logps/rejected": -217.39999389648438,
+      "loss": 0.0391,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.9284179210662842,
+      "rewards/margins": 16.299999237060547,
+      "rewards/rejected": -18.228124618530273,
+      "step": 695
+    },
+    {
+      "epoch": 0.6080347448425625,
+      "grad_norm": 1.2844674587249756,
+      "learning_rate": 2.57567609510458e-05,
+      "logits/chosen": -1.130468726158142,
+      "logits/rejected": -1.641992211341858,
+      "logps/chosen": -101.125,
+      "logps/rejected": -203.625,
+      "loss": 0.0322,
+      "rewards/accuracies": 0.9859374761581421,
+      "rewards/chosen": -2.3846678733825684,
+      "rewards/margins": 14.40625,
+      "rewards/rejected": -16.792186737060547,
+      "step": 700
+    },
+    {
+      "epoch": 0.6080347448425625,
+      "eval_logits/chosen": -1.1740325689315796,
+      "eval_logits/rejected": -1.6940432786941528,
+      "eval_logps/chosen": -100.71479797363281,
+      "eval_logps/rejected": -200.29603576660156,
+      "eval_loss": 0.028052611276507378,
+      "eval_rewards/accuracies": 0.9902978539466858,
+      "eval_rewards/chosen": -2.572061061859131,
+      "eval_rewards/margins": 13.520757675170898,
+      "eval_rewards/rejected": -16.09092903137207,
+      "eval_runtime": 97.5048,
+      "eval_samples_per_second": 45.331,
+      "eval_steps_per_second": 2.841,
+      "step": 700
     }
   ],
   "logging_steps": 5,