Training in progress, step 40, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step40/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step40/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step40/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +152 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca9f8c408985a41e46f49ceef2211c4ed59d9aaac07d6694fb94ba569a6460c0
 size 1572956792

 version https://git-lfs.github.com/spec/v1
+oid sha256:33d0162cec59af1a27755d4a6916165f8d02c2ba5a6aa211febad738ee87d7b6
 size 1572956792

last-checkpoint/global_step40/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:195133ff1e5c7d766e951e934d0e48f5245f71b0206091104301c407c91c9a5b
+size 4718632304

last-checkpoint/global_step40/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c882b90c5cced49700ca2a1394a6061f432fdd172c96b7ef7bd3193e148549bd
+size 4718632432

last-checkpoint/global_step40/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b378f69d08ed2fa381cfee41b456972686c369cd7cb88e0fa368611bbcdc131
+size 1573384300

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step30~~


1	+ global_step40

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b59c5bc1e8c71589354c12a03089e1981f2c08909912d42022b93f822df32096
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:acf2d72aca7a863a030b4f31f2943c782313c3fa6f3860da80e5d9f1074e139f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.014013780217213593,
   "eval_steps": 500,
-  "global_step": 30,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -458,6 +458,156 @@
       "rewards/margins": -0.46308204531669617,
       "rewards/rejected": -0.5078927874565125,
       "step": 30
     }
   ],
   "logging_steps": 1,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.018685040289618125,
   "eval_steps": 500,
+  "global_step": 40,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": -0.46308204531669617,
       "rewards/rejected": -0.5078927874565125,
       "step": 30
+    },
+    {
+      "epoch": 0.014480906224454046,
+      "grad_norm": 21.04092025756836,
+      "learning_rate": 2.999229324301032e-05,
+      "logits/chosen": -2.814603328704834,
+      "logits/rejected": -2.561202049255371,
+      "logps/chosen": -126.19819641113281,
+      "logps/rejected": -131.07566833496094,
+      "loss": 0.7815,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.11197692900896072,
+      "rewards/margins": 0.5568960309028625,
+      "rewards/rejected": -0.4449191689491272,
+      "step": 31
+    },
+    {
+      "epoch": 0.0149480322316945,
+      "grad_norm": 23.462085723876953,
+      "learning_rate": 2.9990674991747865e-05,
+      "logits/chosen": -2.608139753341675,
+      "logits/rejected": -3.061997175216675,
+      "logps/chosen": -158.59423828125,
+      "logps/rejected": -130.51840209960938,
+      "loss": 1.2301,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": -0.5943432450294495,
+      "rewards/margins": -0.38749587535858154,
+      "rewards/rejected": -0.2068473994731903,
+      "step": 32
+    },
+    {
+      "epoch": 0.015415158238934953,
+      "grad_norm": 27.918336868286133,
+      "learning_rate": 2.9988902688106014e-05,
+      "logits/chosen": -2.9852523803710938,
+      "logits/rejected": -2.5511088371276855,
+      "logps/chosen": -166.7327880859375,
+      "logps/rejected": -155.55520629882812,
+      "loss": 0.8347,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.009264327585697174,
+      "rewards/margins": 0.6062629222869873,
+      "rewards/rejected": -0.615527331829071,
+      "step": 33
+    },
+    {
+      "epoch": 0.015882284246175406,
+      "grad_norm": 25.436614990234375,
+      "learning_rate": 2.9986976350297933e-05,
+      "logits/chosen": -2.850193500518799,
+      "logits/rejected": -2.510417938232422,
+      "logps/chosen": -149.20751953125,
+      "logps/rejected": -155.28610229492188,
+      "loss": 0.9801,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.5431436896324158,
+      "rewards/margins": 0.01562432199716568,
+      "rewards/rejected": -0.5587680339813232,
+      "step": 34
+    },
+    {
+      "epoch": 0.01634941025341586,
+      "grad_norm": 38.4265022277832,
+      "learning_rate": 2.9984895998119723e-05,
+      "logits/chosen": -2.4000887870788574,
+      "logits/rejected": -2.29819393157959,
+      "logps/chosen": -171.50152587890625,
+      "logps/rejected": -191.80938720703125,
+      "loss": 1.2524,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -1.1593430042266846,
+      "rewards/margins": 0.3696390390396118,
+      "rewards/rejected": -1.5289819240570068,
+      "step": 35
+    },
+    {
+      "epoch": 0.016816536260656312,
+      "grad_norm": 31.203420639038086,
+      "learning_rate": 2.998266165295021e-05,
+      "logits/chosen": -2.8619065284729004,
+      "logits/rejected": -2.9606268405914307,
+      "logps/chosen": -144.86415100097656,
+      "logps/rejected": -180.39205932617188,
+      "loss": 0.7866,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.18791238963603973,
+      "rewards/margins": 0.6746108531951904,
+      "rewards/rejected": -0.8625231981277466,
+      "step": 36
+    },
+    {
+      "epoch": 0.017283662267896766,
+      "grad_norm": 24.40894889831543,
+      "learning_rate": 2.9980273337750767e-05,
+      "logits/chosen": -2.757246255874634,
+      "logits/rejected": -2.466960906982422,
+      "logps/chosen": -192.2352294921875,
+      "logps/rejected": -181.03878784179688,
+      "loss": 0.8876,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.6490573287010193,
+      "rewards/margins": 0.9436599016189575,
+      "rewards/rejected": -1.592717170715332,
+      "step": 37
+    },
+    {
+      "epoch": 0.01775078827513722,
+      "grad_norm": 27.00850486755371,
+      "learning_rate": 2.9977731077065013e-05,
+      "logits/chosen": -2.9453818798065186,
+      "logits/rejected": -2.8008580207824707,
+      "logps/chosen": -152.46038818359375,
+      "logps/rejected": -173.5645751953125,
+      "loss": 0.6833,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.2769155204296112,
+      "rewards/margins": 1.4065779447555542,
+      "rewards/rejected": -1.6834933757781982,
+      "step": 38
+    },
+    {
+      "epoch": 0.01821791428237767,
+      "grad_norm": 30.273073196411133,
+      "learning_rate": 2.9975034897018614e-05,
+      "logits/chosen": -2.7667531967163086,
+      "logits/rejected": -2.948810338973999,
+      "logps/chosen": -123.97679901123047,
+      "logps/rejected": -174.9097900390625,
+      "loss": 1.0514,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.6435041427612305,
+      "rewards/margins": 0.23302727937698364,
+      "rewards/rejected": -0.8765315413475037,
+      "step": 39
+    },
+    {
+      "epoch": 0.018685040289618125,
+      "grad_norm": 33.39718246459961,
+      "learning_rate": 2.9972184825318994e-05,
+      "logits/chosen": -2.9786558151245117,
+      "logits/rejected": -2.691629409790039,
+      "logps/chosen": -186.82821655273438,
+      "logps/rejected": -167.65603637695312,
+      "loss": 1.2466,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -1.0377531051635742,
+      "rewards/margins": 0.2545713186264038,
+      "rewards/rejected": -1.292324423789978,
+      "step": 40
     }
   ],
   "logging_steps": 1,