Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step600/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +169 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b57425fe0979d64ee2759d723efa2d4501cd5b152cfaae9163875752c74cb054
 size 1172343536

 version https://git-lfs.github.com/spec/v1
+oid sha256:2120d5d536aba10e00501ceedc3558e455e3cff895955ef8f273753d39d93536
 size 1172343536

last-checkpoint/global_step600/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71c75215f949f064e98b107405fa6aae40b5205b30cabfe2cde3899256528d4f
+size 883824229

last-checkpoint/global_step600/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a1b461d1862ca0a9cafbdae2cb669945757227de55fa3ce0c1d781ae3f90421
+size 883824293

last-checkpoint/global_step600/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4fe3bf8b7feff582e268b6267f68b2540e2f1cf395d73dc27afed7f0c4483117
+size 883824293

last-checkpoint/global_step600/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c6fa1a128376e603e0299556dbc7b04b8d834855f8748dc77f062b5648f0a2e
+size 883824293

last-checkpoint/global_step600/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5cd543b383fc20bec50c96fdce70c3321fd1820efd8785aee965509ca605487b
+size 1172522073

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step550~~


1	+ global_step600

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed8ed81af49ff602ccd13d5e84967bee6bca6a78ea6d7206a2104463b69a1059
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:4894c218b3f6eaf3b9761899ca66cc4ee052559eaf58bed0eb77d1f141f5a8f8
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f53e27b1f587841700b654201a4c9a9680a6d49a754e25cd2a82432e613117b4
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:e35dc37a61e3442d3a3c91b1def510a65866249fe0f6bfe143097becbb018fdc
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db90f184c98dee2e965ee13d085db00953c6b696c1ef3da2b032f72d72e768a0
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:cee7319258b43ce62816538b7f06b4a5ae5b8b56e7ea61d662ecb9ed3402c92a
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d32bc21799c1730e164d6b71e088e1ad7f9f709b9172577b8ff961df3d429692
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:aed48390c7aa15be53030fdcd4b9104f35ff8b16f59f6cd4b6566c973f83388a
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a96d6b66528c6387aa2a111a67d7f07cc9d6463a1b49e77f2099de0ba990f1c
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:b643f96fae1c7c195d82363db91efd66b514c2fc5280977aad9c8846720b5046
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.03315730020403862,
   "best_model_checkpoint": null,
-  "epoch": 0.4777415852334419,
   "eval_steps": 50,
-  "global_step": 550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1834,6 +1834,172 @@
       "eval_samples_per_second": 45.331,
       "eval_steps_per_second": 2.841,
       "step": 550
     }
   ],
   "logging_steps": 5,

 {
   "best_global_step": null,
+  "best_metric": 0.030555352568626404,
   "best_model_checkpoint": null,
+  "epoch": 0.5211726384364821,
   "eval_steps": 50,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 45.331,
       "eval_steps_per_second": 2.841,
       "step": 550
+    },
+    {
+      "epoch": 0.4820846905537459,
+      "grad_norm": 0.8903060555458069,
+      "learning_rate": 2.5856192706887134e-05,
+      "logits/chosen": -0.6571289300918579,
+      "logits/rejected": -1.188867211341858,
+      "logps/chosen": -96.125,
+      "logps/rejected": -192.35000610351562,
+      "loss": 0.0269,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -1.5890381336212158,
+      "rewards/margins": 13.0625,
+      "rewards/rejected": -14.651562690734863,
+      "step": 555
+    },
+    {
+      "epoch": 0.48642779587404994,
+      "grad_norm": 1.1956876516342163,
+      "learning_rate": 2.5853216177644404e-05,
+      "logits/chosen": -0.7413085699081421,
+      "logits/rejected": -1.279687523841858,
+      "logps/chosen": -98.73750305175781,
+      "logps/rejected": -205.35000610351562,
+      "loss": 0.043,
+      "rewards/accuracies": 0.9859374761581421,
+      "rewards/chosen": -2.1949219703674316,
+      "rewards/margins": 14.765625,
+      "rewards/rejected": -16.9609375,
+      "step": 560
+    },
+    {
+      "epoch": 0.49077090119435396,
+      "grad_norm": 2.65529727935791,
+      "learning_rate": 2.5850207278896458e-05,
+      "logits/chosen": -0.840527355670929,
+      "logits/rejected": -1.378515601158142,
+      "logps/chosen": -98.76249694824219,
+      "logps/rejected": -209.47500610351562,
+      "loss": 0.0498,
+      "rewards/accuracies": 0.9859374761581421,
+      "rewards/chosen": -2.4097657203674316,
+      "rewards/margins": 15.260937690734863,
+      "rewards/rejected": -17.678125381469727,
+      "step": 565
+    },
+    {
+      "epoch": 0.495114006514658,
+      "grad_norm": 0.81071537733078,
+      "learning_rate": 2.5847166018218197e-05,
+      "logits/chosen": -0.894726574420929,
+      "logits/rejected": -1.419531226158142,
+      "logps/chosen": -98.92500305175781,
+      "logps/rejected": -204.97500610351562,
+      "loss": 0.0342,
+      "rewards/accuracies": 0.984375,
+      "rewards/chosen": -2.265429735183716,
+      "rewards/margins": 14.667187690734863,
+      "rewards/rejected": -16.9296875,
+      "step": 570
+    },
+    {
+      "epoch": 0.499457111834962,
+      "grad_norm": 0.6797189116477966,
+      "learning_rate": 2.584409240326599e-05,
+      "logits/chosen": -0.8995116949081421,
+      "logits/rejected": -1.4072265625,
+      "logps/chosen": -94.38749694824219,
+      "logps/rejected": -199.77499389648438,
+      "loss": 0.0158,
+      "rewards/accuracies": 0.996874988079071,
+      "rewards/chosen": -1.7000000476837158,
+      "rewards/margins": 14.209375381469727,
+      "rewards/rejected": -15.912500381469727,
+      "step": 575
+    },
+    {
+      "epoch": 0.503800217155266,
+      "grad_norm": 0.652454674243927,
+      "learning_rate": 2.5840986441777657e-05,
+      "logits/chosen": -0.890917956829071,
+      "logits/rejected": -1.447265625,
+      "logps/chosen": -94.3375015258789,
+      "logps/rejected": -209.125,
+      "loss": 0.0152,
+      "rewards/accuracies": 0.996874988079071,
+      "rewards/chosen": -1.7142822742462158,
+      "rewards/margins": 15.628125190734863,
+      "rewards/rejected": -17.357812881469727,
+      "step": 580
+    },
+    {
+      "epoch": 0.50814332247557,
+      "grad_norm": 0.3430173397064209,
+      "learning_rate": 2.583784814157246e-05,
+      "logits/chosen": -0.957714855670929,
+      "logits/rejected": -1.4734375476837158,
+      "logps/chosen": -96.76249694824219,
+      "logps/rejected": -213.375,
+      "loss": 0.0379,
+      "rewards/accuracies": 0.984375,
+      "rewards/chosen": -2.357714891433716,
+      "rewards/margins": 16.392187118530273,
+      "rewards/rejected": -18.745311737060547,
+      "step": 585
+    },
+    {
+      "epoch": 0.512486427795874,
+      "grad_norm": 0.7423095703125,
+      "learning_rate": 2.5834677510551053e-05,
+      "logits/chosen": -0.953320324420929,
+      "logits/rejected": -1.4753906726837158,
+      "logps/chosen": -100.38749694824219,
+      "logps/rejected": -217.75,
+      "loss": 0.0363,
+      "rewards/accuracies": 0.989062488079071,
+      "rewards/chosen": -2.314160108566284,
+      "rewards/margins": 16.709375381469727,
+      "rewards/rejected": -19.021875381469727,
+      "step": 590
+    },
+    {
+      "epoch": 0.5168295331161781,
+      "grad_norm": 1.2152386903762817,
+      "learning_rate": 2.5831474556695505e-05,
+      "logits/chosen": -0.947949230670929,
+      "logits/rejected": -1.437109351158142,
+      "logps/chosen": -98.9749984741211,
+      "logps/rejected": -211.02499389648438,
+      "loss": 0.0182,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -2.5445313453674316,
+      "rewards/margins": 15.350000381469727,
+      "rewards/rejected": -17.909374237060547,
+      "step": 595
+    },
+    {
+      "epoch": 0.5211726384364821,
+      "grad_norm": 0.7218368649482727,
+      "learning_rate": 2.582823928806925e-05,
+      "logits/chosen": -0.8983398675918579,
+      "logits/rejected": -1.4113280773162842,
+      "logps/chosen": -98.23750305175781,
+      "logps/rejected": -201.5749969482422,
+      "loss": 0.0276,
+      "rewards/accuracies": 0.9906250238418579,
+      "rewards/chosen": -2.386914014816284,
+      "rewards/margins": 14.265625,
+      "rewards/rejected": -16.65625,
+      "step": 600
+    },
+    {
+      "epoch": 0.5211726384364821,
+      "eval_logits/chosen": -0.9090139865875244,
+      "eval_logits/rejected": -1.4213109016418457,
+      "eval_logps/chosen": -99.9981918334961,
+      "eval_logps/rejected": -205.8050537109375,
+      "eval_loss": 0.030555352568626404,
+      "eval_rewards/accuracies": 0.9889440536499023,
+      "eval_rewards/chosen": -2.4407715797424316,
+      "eval_rewards/margins": 14.665614128112793,
+      "eval_rewards/rejected": -17.1055965423584,
+      "eval_runtime": 97.707,
+      "eval_samples_per_second": 45.237,
+      "eval_steps_per_second": 2.835,
+      "step": 600
     }
   ],
   "logging_steps": 5,