Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step750/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step750/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step750/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step750/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step750/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +169 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a25f53b86cb0d18e76005ef7631a16e5d28e2c4b40e63c63c5944927040e7cae
 size 1172343536

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4f419d2d3dc57b9b2d5c6ee5508bee95ca09509bd414a8b7fa7c7718b5aa160
 size 1172343536

last-checkpoint/global_step750/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d3d177e315e852cf4627e36ccb15bcf1302de2d429e142f1fb08e8d95b7222b7
+size 883824229

last-checkpoint/global_step750/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f67988ef568a7b0c3e041d4b7e055fb02fdaadfe44f317ce11b49cfd58c35e45
+size 883824293

last-checkpoint/global_step750/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b24df66b44e762e5e340a1d75b1b7e8fc23eec1e224a3e277a6f1289324fb8a9
+size 883824293

last-checkpoint/global_step750/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:386c808328d5a03447186a75b5384d45e32af06d9db22785835f980d07184230
+size 883824293

last-checkpoint/global_step750/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:423e021a58e384c391c6356f223e5662047217391843f6005d78f92fd65a5a5e
+size 1172522073

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step700~~


1	+ global_step750

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f67957e71beac3aac584ce7da49055cc9c7edaf3d732505bfffa5511f709f41
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:8de88920dd9878e568a9d7575b3f30ad8fdfb7e3eb727df0f444fd44869f433d
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:305594a2a478d20bb06c74dcc62d37dde101425234afb4331ef411c36814de11
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e5ad1aac8326d87db53ac90a0364b235b873c9915753b0b1e35cc6c162d6df2
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1eb2d84f63d7341151dcb60706643579b7c3105045d9ce41fc7fd7aa2c6c8fb0
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:30aeac380cd7c431ed27d5b99b2dc98aee263183c538104d162fc5f56ac80ce0
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5633e0320a424cdde99e10e62d0382c89fdf5b90d88d95ba4955f9644083937
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:19982de75038fe4dec09b91b36d57d5f858fa950160c70e61093a4adb556ba83
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:336d3de2036e71626b0f815e82e0c2ae29554f5ccd7af556bd21908e68a7f924
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:590163296bdb7eb3469073cd35bc51902c716a216d6f5cdd237060726449c33c
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.028052611276507378,
   "best_model_checkpoint": null,
-  "epoch": 0.6080347448425625,
   "eval_steps": 50,
-  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2332,6 +2332,172 @@
       "eval_samples_per_second": 45.331,
       "eval_steps_per_second": 2.841,
       "step": 700
     }
   ],
   "logging_steps": 5,

 {
   "best_global_step": null,
+  "best_metric": 0.021692628040909767,
   "best_model_checkpoint": null,
+  "epoch": 0.6514657980456026,
   "eval_steps": 50,
+  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 45.331,
       "eval_steps_per_second": 2.841,
       "step": 700
+    },
+    {
+      "epoch": 0.6123778501628665,
+      "grad_norm": 0.4941781461238861,
+      "learning_rate": 2.5752849078774175e-05,
+      "logits/chosen": -1.190332055091858,
+      "logits/rejected": -1.6921875476837158,
+      "logps/chosen": -99.82499694824219,
+      "logps/rejected": -199.77499389648438,
+      "loss": 0.0231,
+      "rewards/accuracies": 0.995312511920929,
+      "rewards/chosen": -2.4974608421325684,
+      "rewards/margins": 13.4296875,
+      "rewards/rejected": -15.926562309265137,
+      "step": 705
+    },
+    {
+      "epoch": 0.6167209554831705,
+      "grad_norm": 0.8641561269760132,
+      "learning_rate": 2.5748905089671384e-05,
+      "logits/chosen": -1.181249976158142,
+      "logits/rejected": -1.7000000476837158,
+      "logps/chosen": -98.61250305175781,
+      "logps/rejected": -195.6750030517578,
+      "loss": 0.0268,
+      "rewards/accuracies": 0.989062488079071,
+      "rewards/chosen": -2.160937547683716,
+      "rewards/margins": 13.271875381469727,
+      "rewards/rejected": -15.4375,
+      "step": 710
+    },
+    {
+      "epoch": 0.6210640608034745,
+      "grad_norm": 1.3184161186218262,
+      "learning_rate": 2.574492899366642e-05,
+      "logits/chosen": -1.0817382335662842,
+      "logits/rejected": -1.6388671398162842,
+      "logps/chosen": -96.3125,
+      "logps/rejected": -200.47500610351562,
+      "loss": 0.0193,
+      "rewards/accuracies": 0.9921875,
+      "rewards/chosen": -1.3796875476837158,
+      "rewards/margins": 14.248437881469727,
+      "rewards/rejected": -15.629687309265137,
+      "step": 715
+    },
+    {
+      "epoch": 0.6254071661237784,
+      "grad_norm": 0.4678487479686737,
+      "learning_rate": 2.5740920800769096e-05,
+      "logits/chosen": -1.0939452648162842,
+      "logits/rejected": -1.6455078125,
+      "logps/chosen": -95.30000305175781,
+      "logps/rejected": -211.9499969482422,
+      "loss": 0.0156,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -1.7891356945037842,
+      "rewards/margins": 16.373437881469727,
+      "rewards/rejected": -18.157812118530273,
+      "step": 720
+    },
+    {
+      "epoch": 0.6297502714440825,
+      "grad_norm": 0.20339182019233704,
+      "learning_rate": 2.5736880521070034e-05,
+      "logits/chosen": -1.130468726158142,
+      "logits/rejected": -1.6033203601837158,
+      "logps/chosen": -99.1500015258789,
+      "logps/rejected": -221.72500610351562,
+      "loss": 0.0196,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -2.719921827316284,
+      "rewards/margins": 17.65625,
+      "rewards/rejected": -20.381250381469727,
+      "step": 725
+    },
+    {
+      "epoch": 0.6340933767643865,
+      "grad_norm": 0.7277128100395203,
+      "learning_rate": 2.5732808164740634e-05,
+      "logits/chosen": -1.0881836414337158,
+      "logits/rejected": -1.5712890625,
+      "logps/chosen": -102.1875,
+      "logps/rejected": -225.875,
+      "loss": 0.0202,
+      "rewards/accuracies": 0.996874988079071,
+      "rewards/chosen": -2.8536133766174316,
+      "rewards/margins": 17.546875,
+      "rewards/rejected": -20.390625,
+      "step": 730
+    },
+    {
+      "epoch": 0.6384364820846905,
+      "grad_norm": 2.4315991401672363,
+      "learning_rate": 2.5728703742033047e-05,
+      "logits/chosen": -1.0305664539337158,
+      "logits/rejected": -1.572656273841858,
+      "logps/chosen": -100.61250305175781,
+      "logps/rejected": -218.1750030517578,
+      "loss": 0.0522,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.8978514671325684,
+      "rewards/margins": 16.684375762939453,
+      "rewards/rejected": -19.587499618530273,
+      "step": 735
+    },
+    {
+      "epoch": 0.6427795874049945,
+      "grad_norm": 0.8356490135192871,
+      "learning_rate": 2.5724567263280155e-05,
+      "logits/chosen": -1.006445288658142,
+      "logits/rejected": -1.5927734375,
+      "logps/chosen": -101.0,
+      "logps/rejected": -210.22500610351562,
+      "loss": 0.0369,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.7152342796325684,
+      "rewards/margins": 15.609375,
+      "rewards/rejected": -18.337499618530273,
+      "step": 740
+    },
+    {
+      "epoch": 0.6471226927252985,
+      "grad_norm": 0.9469047784805298,
+      "learning_rate": 2.5720398738895534e-05,
+      "logits/chosen": -0.9302734136581421,
+      "logits/rejected": -1.529296875,
+      "logps/chosen": -98.8375015258789,
+      "logps/rejected": -204.625,
+      "loss": 0.0399,
+      "rewards/accuracies": 0.9921875,
+      "rewards/chosen": -2.419726610183716,
+      "rewards/margins": 14.510937690734863,
+      "rewards/rejected": -16.928125381469727,
+      "step": 745
+    },
+    {
+      "epoch": 0.6514657980456026,
+      "grad_norm": 0.25593864917755127,
+      "learning_rate": 2.571619817937344e-05,
+      "logits/chosen": -0.8580077886581421,
+      "logits/rejected": -1.470703125,
+      "logps/chosen": -101.9625015258789,
+      "logps/rejected": -205.14999389648438,
+      "loss": 0.0313,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -2.443164110183716,
+      "rewards/margins": 14.162500381469727,
+      "rewards/rejected": -16.6015625,
+      "step": 750
+    },
+    {
+      "epoch": 0.6514657980456026,
+      "eval_logits/chosen": -0.7763848304748535,
+      "eval_logits/rejected": -1.4033167362213135,
+      "eval_logps/chosen": -98.74909973144531,
+      "eval_logps/rejected": -200.59567260742188,
+      "eval_loss": 0.021692628040909767,
+      "eval_rewards/accuracies": 0.9925541281700134,
+      "eval_rewards/chosen": -2.211261749267578,
+      "eval_rewards/margins": 13.938854217529297,
+      "eval_rewards/rejected": -16.1518497467041,
+      "eval_runtime": 97.7492,
+      "eval_samples_per_second": 45.218,
+      "eval_steps_per_second": 2.834,
+      "step": 750
     }
   ],
   "logging_steps": 5,