Training in progress, epoch 2, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step298/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step298/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step298/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step298/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step298/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +335 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16c61241ba77a4a6d1e354ec1bf073c0c4173f5eaf1f0bd990705d72968825e6
 size 447329696

 version https://git-lfs.github.com/spec/v1
+oid sha256:46a365e9fcb2454a4c23ba115a7809178487f14e670b8347d96cdf4cff0d5360
 size 447329696

last-checkpoint/global_step298/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7b42934795f6e589ecf158269a54cdac29447df9c133456dd455795bf3a1fd2
+size 337225765

last-checkpoint/global_step298/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f8f5690a0cda8662d09a99d62e7588b9ecbecd4324ff4f6a1828f76ed1d662a
+size 337225893

last-checkpoint/global_step298/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e068943495936dc63bb3b9f0b9fbf295441fdd77a28f3c70f87e1374052b7c8
+size 337225893

last-checkpoint/global_step298/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02fddd60d00b4177e5f0c9c4669dfbe280e45fdba78cc217dfad10a582c218dc
+size 337225893

last-checkpoint/global_step298/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4073004376166aa76edc9f00a363567c1dc2e7f7463a3a1f13d6a16a3b825edc
+size 2282578149

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step199~~


1	+ global_step298

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9892a41432d4e48929c5376b8225d5373bb9afe9f14665fbcb3934dc45cb330a
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:022e5f570f01a12c1d81b42bd6eb19a0e173e7f47e424219366d42929f99e132
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6f3949e2b25ad05905da16bc2d58aeadc9a9f1db0b0e97a04ceb63467acff1d
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3aed2436bc3ad431adb01e8d4df32815773aab4a6b13c3adb4fced6192268c3
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c3812c5e7f13c9d32f97d83cd625428061b1c9486e869caffd453d83ac07ceb
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:97dd34720bb0b20ed7301d9f60cd440d867fb1aac58f9dc15c1f7fe4ac70e520
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6eda756b33768639c1e1932ae00c5d43269de5705c09162bc09acdf71d3533c0
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:37832d386fc739839d36940cdc0c137876018d931548a6ee584a9d52680e1a59
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47104b67f5b6e5f268c4ddeb2948b3f6186e33a1d199d379ffca5d4a7e9bb1e8
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:6af806fee020be865d25dafddb307ac91eb8c597cf77813f63beb93464bf2104
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.028071066364645958,
   "best_model_checkpoint": null,
-  "epoch": 1.4308797127468582,
   "eval_steps": 50,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -672,6 +672,338 @@
       "eval_samples_per_second": 30.947,
       "eval_steps_per_second": 1.97,
       "step": 200
     }
   ],
   "logging_steps": 5,

 {
   "best_global_step": null,
+  "best_metric": 0.02023915760219097,
   "best_model_checkpoint": null,
+  "epoch": 2.1436265709156195,
   "eval_steps": 50,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 30.947,
       "eval_steps_per_second": 1.97,
       "step": 200
+    },
+    {
+      "epoch": 1.466786355475763,
+      "grad_norm": 3.074913501739502,
+      "learning_rate": 0.00011372766805777725,
+      "logits/chosen": -4.8984375,
+      "logits/rejected": -8.321874618530273,
+      "logps/chosen": -133.85000610351562,
+      "logps/rejected": -351.5,
+      "loss": 0.0452,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -6.512499809265137,
+      "rewards/margins": 21.049999237060547,
+      "rewards/rejected": -27.5625,
+      "step": 205
+    },
+    {
+      "epoch": 1.502692998204668,
+      "grad_norm": 3.414430618286133,
+      "learning_rate": 0.00011372461861389142,
+      "logits/chosen": -5.293749809265137,
+      "logits/rejected": -7.599999904632568,
+      "logps/chosen": -180.0,
+      "logps/rejected": -397.3999938964844,
+      "loss": 0.0937,
+      "rewards/accuracies": 0.9781249761581421,
+      "rewards/chosen": -11.2421875,
+      "rewards/margins": 20.878124237060547,
+      "rewards/rejected": -32.10625076293945,
+      "step": 210
+    },
+    {
+      "epoch": 1.5385996409335727,
+      "grad_norm": 1.9072022438049316,
+      "learning_rate": 0.00011372142606203516,
+      "logits/chosen": -4.057812690734863,
+      "logits/rejected": -6.109375,
+      "logps/chosen": -156.0749969482422,
+      "logps/rejected": -324.79998779296875,
+      "loss": 0.0461,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -8.564062118530273,
+      "rewards/margins": 16.028125762939453,
+      "rewards/rejected": -24.587499618530273,
+      "step": 215
+    },
+    {
+      "epoch": 1.5745062836624775,
+      "grad_norm": 1.2352949380874634,
+      "learning_rate": 0.00011371809041024573,
+      "logits/chosen": -5.315625190734863,
+      "logits/rejected": -7.754687309265137,
+      "logps/chosen": -189.64999389648438,
+      "logps/rejected": -392.0,
+      "loss": 0.0332,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -11.946874618530273,
+      "rewards/margins": 19.446874618530273,
+      "rewards/rejected": -31.424999237060547,
+      "step": 220
+    },
+    {
+      "epoch": 1.6104129263913824,
+      "grad_norm": 0.5811780095100403,
+      "learning_rate": 0.00011371461166692062,
+      "logits/chosen": -7.451562404632568,
+      "logits/rejected": -10.225000381469727,
+      "logps/chosen": -218.4499969482422,
+      "logps/rejected": -433.79998779296875,
+      "loss": 0.0486,
+      "rewards/accuracies": 0.984375,
+      "rewards/chosen": -14.824999809265137,
+      "rewards/margins": 20.75,
+      "rewards/rejected": -35.57500076293945,
+      "step": 225
+    },
+    {
+      "epoch": 1.6463195691202872,
+      "grad_norm": 0.33781036734580994,
+      "learning_rate": 0.00011371098984081755,
+      "logits/chosen": -9.0390625,
+      "logits/rejected": -11.784375190734863,
+      "logps/chosen": -232.75,
+      "logps/rejected": -425.79998779296875,
+      "loss": 0.0465,
+      "rewards/accuracies": 0.9781249761581421,
+      "rewards/chosen": -16.509374618530273,
+      "rewards/margins": 18.971874237060547,
+      "rewards/rejected": -35.45624923706055,
+      "step": 230
+    },
+    {
+      "epoch": 1.682226211849192,
+      "grad_norm": 0.9501491189002991,
+      "learning_rate": 0.0001137072249410545,
+      "logits/chosen": -8.489062309265137,
+      "logits/rejected": -11.706250190734863,
+      "logps/chosen": -229.6999969482422,
+      "logps/rejected": -451.3999938964844,
+      "loss": 0.0196,
+      "rewards/accuracies": 0.996874988079071,
+      "rewards/chosen": -16.003124237060547,
+      "rewards/margins": 21.600000381469727,
+      "rewards/rejected": -37.599998474121094,
+      "step": 235
+    },
+    {
+      "epoch": 1.718132854578097,
+      "grad_norm": 2.2919723987579346,
+      "learning_rate": 0.00011370331697710956,
+      "logits/chosen": -8.271875381469727,
+      "logits/rejected": -12.678125381469727,
+      "logps/chosen": -205.75,
+      "logps/rejected": -511.79998779296875,
+      "loss": 0.0752,
+      "rewards/accuracies": 0.984375,
+      "rewards/chosen": -13.65625,
+      "rewards/margins": 30.087499618530273,
+      "rewards/rejected": -43.75,
+      "step": 240
+    },
+    {
+      "epoch": 1.754039497307002,
+      "grad_norm": 2.5256083011627197,
+      "learning_rate": 0.00011369926595882104,
+      "logits/chosen": -10.071874618530273,
+      "logits/rejected": -13.768750190734863,
+      "logps/chosen": -291.04998779296875,
+      "logps/rejected": -619.2000122070312,
+      "loss": 0.0377,
+      "rewards/accuracies": 0.9781249761581421,
+      "rewards/chosen": -22.446874618530273,
+      "rewards/margins": 32.150001525878906,
+      "rewards/rejected": -54.57500076293945,
+      "step": 245
+    },
+    {
+      "epoch": 1.7899461400359067,
+      "grad_norm": 1.3631178140640259,
+      "learning_rate": 0.00011369507189638736,
+      "logits/chosen": -3.7313232421875,
+      "logits/rejected": -7.044335842132568,
+      "logps/chosen": -175.27499389648438,
+      "logps/rejected": -371.45001220703125,
+      "loss": 0.0627,
+      "rewards/accuracies": 0.9781249761581421,
+      "rewards/chosen": -10.771875381469727,
+      "rewards/margins": 18.6015625,
+      "rewards/rejected": -29.353124618530273,
+      "step": 250
+    },
+    {
+      "epoch": 1.7899461400359067,
+      "eval_logits/chosen": -0.22195972502231598,
+      "eval_logits/rejected": -1.6530331373214722,
+      "eval_logps/chosen": -116.17646789550781,
+      "eval_logps/rejected": -208.88235473632812,
+      "eval_loss": 0.07754824310541153,
+      "eval_rewards/accuracies": 0.9485294222831726,
+      "eval_rewards/chosen": -4.249080657958984,
+      "eval_rewards/margins": 8.38786792755127,
+      "eval_rewards/rejected": -12.650734901428223,
+      "eval_runtime": 8.5185,
+      "eval_samples_per_second": 31.344,
+      "eval_steps_per_second": 1.996,
+      "step": 250
+    },
+    {
+      "epoch": 1.8258527827648114,
+      "grad_norm": 1.8161951303482056,
+      "learning_rate": 0.00011369073480036712,
+      "logits/chosen": -2.3915038108825684,
+      "logits/rejected": -3.521484375,
+      "logps/chosen": -145.4250030517578,
+      "logps/rejected": -257.20001220703125,
+      "loss": 0.0791,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -7.525000095367432,
+      "rewards/margins": 10.292187690734863,
+      "rewards/rejected": -17.818750381469727,
+      "step": 255
+    },
+    {
+      "epoch": 1.8617594254937164,
+      "grad_norm": 0.3177375793457031,
+      "learning_rate": 0.00011368625468167889,
+      "logits/chosen": -8.206250190734863,
+      "logits/rejected": -10.065625190734863,
+      "logps/chosen": -325.3500061035156,
+      "logps/rejected": -509.1000061035156,
+      "loss": 0.0508,
+      "rewards/accuracies": 0.971875011920929,
+      "rewards/chosen": -26.078125,
+      "rewards/margins": 17.381250381469727,
+      "rewards/rejected": -43.42499923706055,
+      "step": 260
+    },
+    {
+      "epoch": 1.8976660682226212,
+      "grad_norm": 0.7164928317070007,
+      "learning_rate": 0.00011368163155160139,
+      "logits/chosen": -10.165624618530273,
+      "logits/rejected": -11.875,
+      "logps/chosen": -410.29998779296875,
+      "logps/rejected": -585.4000244140625,
+      "loss": 0.0577,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -34.45624923706055,
+      "rewards/margins": 16.634374618530273,
+      "rewards/rejected": -51.07500076293945,
+      "step": 265
+    },
+    {
+      "epoch": 1.933572710951526,
+      "grad_norm": 2.070739507675171,
+      "learning_rate": 0.00011367686542177336,
+      "logits/chosen": -6.4375,
+      "logits/rejected": -7.814062595367432,
+      "logps/chosen": -340.1000061035156,
+      "logps/rejected": -469.79998779296875,
+      "loss": 0.0576,
+      "rewards/accuracies": 0.9593750238418579,
+      "rewards/chosen": -27.168750762939453,
+      "rewards/margins": 12.381250381469727,
+      "rewards/rejected": -39.54999923706055,
+      "step": 270
+    },
+    {
+      "epoch": 1.969479353680431,
+      "grad_norm": 1.2207964658737183,
+      "learning_rate": 0.0001136719563041935,
+      "logits/chosen": -4.547656059265137,
+      "logits/rejected": -6.598437309265137,
+      "logps/chosen": -263.0,
+      "logps/rejected": -423.8999938964844,
+      "loss": 0.0322,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -19.46875,
+      "rewards/margins": 15.509374618530273,
+      "rewards/rejected": -34.993751525878906,
+      "step": 275
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 6.416799545288086,
+      "learning_rate": 0.0001136669042112205,
+      "logits/chosen": -5.321691036224365,
+      "logits/rejected": -8.242647171020508,
+      "logps/chosen": -274.0,
+      "logps/rejected": -515.6470336914062,
+      "loss": 0.0428,
+      "rewards/accuracies": 0.9852941036224365,
+      "rewards/chosen": -20.264705657958984,
+      "rewards/margins": 23.514705657958984,
+      "rewards/rejected": -43.80882263183594,
+      "step": 280
+    },
+    {
+      "epoch": 2.035906642728905,
+      "grad_norm": 0.0026381895877420902,
+      "learning_rate": 0.00011366170915557303,
+      "logits/chosen": -6.020312309265137,
+      "logits/rejected": -9.284375190734863,
+      "logps/chosen": -289.1499938964844,
+      "logps/rejected": -603.0,
+      "loss": 0.0676,
+      "rewards/accuracies": 0.9781249761581421,
+      "rewards/chosen": -22.331249237060547,
+      "rewards/margins": 30.418750762939453,
+      "rewards/rejected": -52.75,
+      "step": 285
+    },
+    {
+      "epoch": 2.0718132854578095,
+      "grad_norm": 9.352706909179688,
+      "learning_rate": 0.00011365637115032964,
+      "logits/chosen": -5.478906154632568,
+      "logits/rejected": -9.690625190734863,
+      "logps/chosen": -263.3500061035156,
+      "logps/rejected": -613.4000244140625,
+      "loss": 0.0791,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -19.450000762939453,
+      "rewards/margins": 34.474998474121094,
+      "rewards/rejected": -53.9375,
+      "step": 290
+    },
+    {
+      "epoch": 2.1077199281867145,
+      "grad_norm": 1.2689452171325684,
+      "learning_rate": 0.0001136508902089287,
+      "logits/chosen": -2.486132860183716,
+      "logits/rejected": -5.1484375,
+      "logps/chosen": -145.1999969482422,
+      "logps/rejected": -346.20001220703125,
+      "loss": 0.1107,
+      "rewards/accuracies": 0.9593750238418579,
+      "rewards/chosen": -7.432031154632568,
+      "rewards/margins": 19.28125,
+      "rewards/rejected": -26.706249237060547,
+      "step": 295
+    },
+    {
+      "epoch": 2.1436265709156195,
+      "grad_norm": 0.04833826795220375,
+      "learning_rate": 0.00011364526634516852,
+      "logits/chosen": -5.057812690734863,
+      "logits/rejected": -8.810937881469727,
+      "logps/chosen": -240.14999389648438,
+      "logps/rejected": -519.7999877929688,
+      "loss": 0.1121,
+      "rewards/accuracies": 0.9781249761581421,
+      "rewards/chosen": -17.071874618530273,
+      "rewards/margins": 27.412500381469727,
+      "rewards/rejected": -44.462501525878906,
+      "step": 300
+    },
+    {
+      "epoch": 2.1436265709156195,
+      "eval_logits/chosen": -4.876838207244873,
+      "eval_logits/rejected": -8.235294342041016,
+      "eval_logps/chosen": -253.05882263183594,
+      "eval_logps/rejected": -514.8235473632812,
+      "eval_loss": 0.02023915760219097,
+      "eval_rewards/accuracies": 0.9836230278015137,
+      "eval_rewards/chosen": -18.169116973876953,
+      "eval_rewards/margins": 25.522058486938477,
+      "eval_rewards/rejected": -43.661766052246094,
+      "eval_runtime": 8.6202,
+      "eval_samples_per_second": 30.974,
+      "eval_steps_per_second": 1.972,
+      "step": 300
     }
   ],
   "logging_steps": 5,