Training in progress, epoch 0, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +169 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2cccf031794a0d43670dcbb5f87f451bb7ae0876c3a0c96bd582d2fd47ff7b43
 size 313559072

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd2b719fb970936323e8fd411b05e2a84f4667ae561563038876cae704ccbd87
 size 313559072

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95de9bf66c1b7bb5f76303ac4bb61365b989aabfe1a8a14401b1cd372f34fd8a
 size 159513573

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4fb6dfa3b3be9e25a98aff9a923fc2480a580b7dc0af952850a811804297821
 size 159513573

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9424aa4ca4f5d5d7ed4b28ad103f73e5ec01fd92ffd10f2484182599afcc96b2
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:1937a443d7368c8ec9254650849425295f524b6811196164c9f8145ae9528880
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:954f7886cbcde89a6b6186033056d5c3a9c094aa23ee419948f79eebeb5cd45a
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0a996684adc127ea8c51ebb0d616f5ff3e480192cd01de6d293712583e60f2b
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:329e7d395b6d8d6c6b83b6a3ac4c77be31bb3e8987830afc155d97e75103bb01
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:18dcda78addf690b92cd7056f07582eb468846f2e21bc29981e4ee2c6c66d84b
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:952f52236c0f7e07ba2124032aecfeb075608fba1d6e24c0a1939670b1b3d0ac
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5b1adb37a2fab20cad86ca7dee4e55987e43f200ac69e3c2cd774e08f39674a
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b458b2d440082750f50fa08f0a8b58038b565d06baef02e630f0bd4b7f3d7631
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:50c740af648e9b0e31ce07fca76df019b6fed40e6c01c05d0cca1cf517f5992b
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.5850633978843689,
   "best_model_checkpoint": null,
-  "epoch": 0.366008911521324,
   "eval_steps": 50,
-  "global_step": 1150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3826,6 +3826,172 @@
       "eval_samples_per_second": 39.196,
       "eval_steps_per_second": 4.899,
       "step": 1150
     }
   ],
   "logging_steps": 5,

 {
   "best_global_step": null,
+  "best_metric": 0.5811416506767273,
   "best_model_checkpoint": null,
+  "epoch": 0.3819223424570337,
   "eval_steps": 50,
+  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 39.196,
       "eval_steps_per_second": 4.899,
       "step": 1150
+    },
+    {
+      "epoch": 0.367600254614895,
+      "grad_norm": 16.311731338500977,
+      "learning_rate": 3.2064798142062343e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": 4.429045677185059,
+      "logps/chosen": -610.5453491210938,
+      "logps/rejected": -508.1640625,
+      "loss": 0.5746,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.05947621911764145,
+      "rewards/margins": 0.5095695853233337,
+      "rewards/rejected": -0.4500933587551117,
+      "step": 1155
+    },
+    {
+      "epoch": 0.36919159770846594,
+      "grad_norm": 17.13549041748047,
+      "learning_rate": 3.1749928785492673e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": -717.437255859375,
+      "logps/rejected": -517.4379272460938,
+      "loss": 0.5966,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": 0.04769650846719742,
+      "rewards/margins": 0.4534810483455658,
+      "rewards/rejected": -0.405784547328949,
+      "step": 1160
+    },
+    {
+      "epoch": 0.37078294080203694,
+      "grad_norm": 22.3413143157959,
+      "learning_rate": 3.1435533379641483e-06,
+      "logits/chosen": 4.362832069396973,
+      "logits/rejected": 4.43159818649292,
+      "logps/chosen": -721.2758178710938,
+      "logps/rejected": -544.1013793945312,
+      "loss": 0.5884,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": 0.16573062539100647,
+      "rewards/margins": 0.47569626569747925,
+      "rewards/rejected": -0.30996567010879517,
+      "step": 1165
+    },
+    {
+      "epoch": 0.3723742838956079,
+      "grad_norm": 14.433586120605469,
+      "learning_rate": 3.1121633413017148e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": -649.4559326171875,
+      "logps/rejected": -527.7597045898438,
+      "loss": 0.6052,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": 0.04959065467119217,
+      "rewards/margins": 0.39057812094688416,
+      "rewards/rejected": -0.3409874439239502,
+      "step": 1170
+    },
+    {
+      "epoch": 0.37396562698917885,
+      "grad_norm": 16.829557418823242,
+      "learning_rate": 3.080825034026538e-06,
+      "logits/chosen": 4.339395999908447,
+      "logits/rejected": NaN,
+      "logps/chosen": -715.9188232421875,
+      "logps/rejected": -491.35406494140625,
+      "loss": 0.605,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.03876256197690964,
+      "rewards/margins": 0.406755268573761,
+      "rewards/rejected": -0.4455178380012512,
+      "step": 1175
+    },
+    {
+      "epoch": 0.37555697008274985,
+      "grad_norm": 17.50708770751953,
+      "learning_rate": 3.0495405580702946e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": -682.1160278320312,
+      "logps/rejected": -503.6424865722656,
+      "loss": 0.542,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.041110388934612274,
+      "rewards/margins": 0.5532486438751221,
+      "rewards/rejected": -0.5121382474899292,
+      "step": 1180
+    },
+    {
+      "epoch": 0.3771483131763208,
+      "grad_norm": 14.150347709655762,
+      "learning_rate": 3.0183120516853587e-06,
+      "logits/chosen": 4.216782093048096,
+      "logits/rejected": 4.357659816741943,
+      "logps/chosen": -658.0750122070312,
+      "logps/rejected": -509.7039489746094,
+      "loss": 0.5811,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": 0.17130543291568756,
+      "rewards/margins": 0.45563697814941406,
+      "rewards/rejected": -0.2843315005302429,
+      "step": 1185
+    },
+    {
+      "epoch": 0.3787396562698918,
+      "grad_norm": 14.595678329467773,
+      "learning_rate": 2.9871416492986604e-06,
+      "logits/chosen": 4.271334171295166,
+      "logits/rejected": NaN,
+      "logps/chosen": -624.3214111328125,
+      "logps/rejected": -466.72412109375,
+      "loss": 0.5109,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.3722537159919739,
+      "rewards/margins": 0.7206977605819702,
+      "rewards/rejected": -0.34844404458999634,
+      "step": 1190
+    },
+    {
+      "epoch": 0.38033099936346276,
+      "grad_norm": 14.158003807067871,
+      "learning_rate": 2.9560314813657966e-06,
+      "logits/chosen": 4.302981376647949,
+      "logits/rejected": NaN,
+      "logps/chosen": -727.4720458984375,
+      "logps/rejected": -558.3084106445312,
+      "loss": 0.5589,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.24353870749473572,
+      "rewards/margins": 0.5566657781600952,
+      "rewards/rejected": -0.3131270408630371,
+      "step": 1195
+    },
+    {
+      "epoch": 0.3819223424570337,
+      "grad_norm": 17.142292022705078,
+      "learning_rate": 2.9249836742254207e-06,
+      "logits/chosen": 4.26998233795166,
+      "logits/rejected": NaN,
+      "logps/chosen": -662.781982421875,
+      "logps/rejected": -481.7264099121094,
+      "loss": 0.6372,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.05399315431714058,
+      "rewards/margins": 0.329118013381958,
+      "rewards/rejected": -0.2751248776912689,
+      "step": 1200
+    },
+    {
+      "epoch": 0.3819223424570337,
+      "eval_logits/chosen": NaN,
+      "eval_logits/rejected": NaN,
+      "eval_logps/chosen": -675.000244140625,
+      "eval_logps/rejected": -528.8659057617188,
+      "eval_loss": 0.5811416506767273,
+      "eval_rewards/accuracies": 0.6856763958930969,
+      "eval_rewards/chosen": 0.09323292225599289,
+      "eval_rewards/margins": 0.5122284889221191,
+      "eval_rewards/rejected": -0.4189954996109009,
+      "eval_runtime": 75.1263,
+      "eval_samples_per_second": 40.146,
+      "eval_steps_per_second": 5.018,
+      "step": 1200
     }
   ],
   "logging_steps": 5,