Model save

Browse files

Files changed (7) hide show

all_results.json +9 -0
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
runs/Nov16_22-01-40_is-db4bnmjuehm3cygl-devmachine-0/events.out.tfevents.1763301827.is-db4bnmjuehm3cygl-devmachine-0.734091.0 +2 -2
train_results.json +9 -0
trainer_state.json +420 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.6294400285945709,
+    "train_runtime": 3850.4934,
+    "train_samples": 29304,
+    "train_samples_per_second": 7.61,
+    "train_steps_per_second": 0.059
+}

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ec3ef474d8a965fff12d04444e1f3112d809c52e6deb47d313ce7d521990ec8
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:44cb364b56f168eda695bef3c68f0c444c85049d9ccad6163ef8bb1c775f6244
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:150319633ef7c49b35001593549be16f5d92c29a8c89955475a3e5d943390ba7
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0905e80b80f7e8bc8e57e31b71385b60ecb165b7881b01015b35a9df09f2e1a
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83f662779ae2e36e2dce047adc50b83a175b1f4b7460a05c0f63c7ffb96d020b
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:00613aca57403a3bbaeb5fe6b542bc6bfbc2916481d1a6dac1e7fa2066d48ba2
 size 4540516344

runs/Nov16_22-01-40_is-db4bnmjuehm3cygl-devmachine-0/events.out.tfevents.1763301827.is-db4bnmjuehm3cygl-devmachine-0.734091.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d65341ec4e2cad1e8989873b99cdee29c92d0ef80a2172ce12d5a2d347f529e2
-size 22351

 version https://git-lfs.github.com/spec/v1
+oid sha256:a52acbc4d6ad8cee2d4c8508780abaf3624ee68a079efac1c4d6059eec708d10
+size 24081

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.6294400285945709,
+    "train_runtime": 3850.4934,
+    "train_samples": 29304,
+    "train_samples_per_second": 7.61,
+    "train_steps_per_second": 0.059
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,420 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 100,
+  "global_step": 229,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004366812227074236,
+      "grad_norm": 257.5207536740227,
+      "learning_rate": 0.0,
+      "logits/chosen": -2.591796875,
+      "logits/rejected": -2.5625,
+      "logps/chosen": -432.75,
+      "logps/rejected": -351.125,
+      "loss": 0.6914,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.043668122270742356,
+      "grad_norm": 234.01839869103762,
+      "learning_rate": 7.826086956521739e-08,
+      "logits/chosen": -2.584852457046509,
+      "logits/rejected": -2.5475261211395264,
+      "logps/chosen": -433.09722900390625,
+      "logps/rejected": -333.7916564941406,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.2439236044883728,
+      "rewards/chosen": -0.0006177690229378641,
+      "rewards/margins": 0.0030831231269985437,
+      "rewards/rejected": -0.0037005741614848375,
+      "step": 10
+    },
+    {
+      "epoch": 0.08733624454148471,
+      "grad_norm": 209.09345964734084,
+      "learning_rate": 1.652173913043478e-07,
+      "logits/chosen": -2.5966796875,
+      "logits/rejected": -2.550976514816284,
+      "logps/chosen": -414.79998779296875,
+      "logps/rejected": -330.2250061035156,
+      "loss": 0.6741,
+      "rewards/accuracies": 0.4164062440395355,
+      "rewards/chosen": 0.0072196959517896175,
+      "rewards/margins": 0.04988040775060654,
+      "rewards/rejected": -0.04266033321619034,
+      "step": 20
+    },
+    {
+      "epoch": 0.13100436681222707,
+      "grad_norm": 200.445288102568,
+      "learning_rate": 1.941747572815534e-07,
+      "logits/chosen": -2.5845704078674316,
+      "logits/rejected": -2.538867235183716,
+      "logps/chosen": -420.2250061035156,
+      "logps/rejected": -334.98748779296875,
+      "loss": 0.6192,
+      "rewards/accuracies": 0.620312511920929,
+      "rewards/chosen": 0.04333477094769478,
+      "rewards/margins": 0.28486937284469604,
+      "rewards/rejected": -0.24138298630714417,
+      "step": 30
+    },
+    {
+      "epoch": 0.17467248908296942,
+      "grad_norm": 214.51955589588093,
+      "learning_rate": 1.8446601941747572e-07,
+      "logits/chosen": -2.5927734375,
+      "logits/rejected": -2.555468797683716,
+      "logps/chosen": -415.5,
+      "logps/rejected": -331.875,
+      "loss": 0.6294,
+      "rewards/accuracies": 0.6351562738418579,
+      "rewards/chosen": -0.04081001132726669,
+      "rewards/margins": 0.5258804559707642,
+      "rewards/rejected": -0.5668045282363892,
+      "step": 40
+    },
+    {
+      "epoch": 0.2183406113537118,
+      "grad_norm": 205.63590618055372,
+      "learning_rate": 1.7475728155339804e-07,
+      "logits/chosen": -2.5941405296325684,
+      "logits/rejected": -2.510937452316284,
+      "logps/chosen": -419.45001220703125,
+      "logps/rejected": -334.7124938964844,
+      "loss": 0.6259,
+      "rewards/accuracies": 0.64453125,
+      "rewards/chosen": 0.0036384582053869963,
+      "rewards/margins": 0.5619354248046875,
+      "rewards/rejected": -0.5584350824356079,
+      "step": 50
+    },
+    {
+      "epoch": 0.26200873362445415,
+      "grad_norm": 223.9917126342855,
+      "learning_rate": 1.6504854368932038e-07,
+      "logits/chosen": -2.5884766578674316,
+      "logits/rejected": -2.537890672683716,
+      "logps/chosen": -421.625,
+      "logps/rejected": -336.86248779296875,
+      "loss": 0.6185,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": 0.14196090400218964,
+      "rewards/margins": 0.5803176760673523,
+      "rewards/rejected": -0.4383193850517273,
+      "step": 60
+    },
+    {
+      "epoch": 0.3056768558951965,
+      "grad_norm": 193.43844738802343,
+      "learning_rate": 1.553398058252427e-07,
+      "logits/chosen": -2.5912108421325684,
+      "logits/rejected": -2.5093750953674316,
+      "logps/chosen": -413.3500061035156,
+      "logps/rejected": -320.3374938964844,
+      "loss": 0.598,
+      "rewards/accuracies": 0.660937488079071,
+      "rewards/chosen": 0.19363251328468323,
+      "rewards/margins": 0.6151596307754517,
+      "rewards/rejected": -0.4214450716972351,
+      "step": 70
+    },
+    {
+      "epoch": 0.34934497816593885,
+      "grad_norm": 193.23943723663754,
+      "learning_rate": 1.4563106796116505e-07,
+      "logits/chosen": -2.6195311546325684,
+      "logits/rejected": -2.5523438453674316,
+      "logps/chosen": -423.9750061035156,
+      "logps/rejected": -329.7124938964844,
+      "loss": 0.6073,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": 0.30989378690719604,
+      "rewards/margins": 0.6296051144599915,
+      "rewards/rejected": -0.3195934295654297,
+      "step": 80
+    },
+    {
+      "epoch": 0.3930131004366812,
+      "grad_norm": 190.20728791240097,
+      "learning_rate": 1.359223300970874e-07,
+      "logits/chosen": -2.6001954078674316,
+      "logits/rejected": -2.551953077316284,
+      "logps/chosen": -411.79998779296875,
+      "logps/rejected": -336.6625061035156,
+      "loss": 0.6202,
+      "rewards/accuracies": 0.672656238079071,
+      "rewards/chosen": 0.37478941679000854,
+      "rewards/margins": 0.6424636840820312,
+      "rewards/rejected": -0.2676635682582855,
+      "step": 90
+    },
+    {
+      "epoch": 0.4366812227074236,
+      "grad_norm": 222.84694096252016,
+      "learning_rate": 1.262135922330097e-07,
+      "logits/chosen": -2.5894532203674316,
+      "logits/rejected": -2.5283203125,
+      "logps/chosen": -414.375,
+      "logps/rejected": -327.82501220703125,
+      "loss": 0.6371,
+      "rewards/accuracies": 0.6546875238418579,
+      "rewards/chosen": 0.33614271879196167,
+      "rewards/margins": 0.6191139221191406,
+      "rewards/rejected": -0.28304824233055115,
+      "step": 100
+    },
+    {
+      "epoch": 0.4366812227074236,
+      "eval_logits/chosen": -2.581024408340454,
+      "eval_logits/rejected": -2.533827304840088,
+      "eval_logps/chosen": -415.6082458496094,
+      "eval_logps/rejected": -331.9175109863281,
+      "eval_loss": 0.6342874765396118,
+      "eval_rewards/accuracies": 0.6429492235183716,
+      "eval_rewards/chosen": 0.3959445059299469,
+      "eval_rewards/margins": 0.5977292656898499,
+      "eval_rewards/rejected": -0.2017633467912674,
+      "eval_runtime": 67.8599,
+      "eval_samples_per_second": 22.738,
+      "eval_steps_per_second": 1.429,
+      "step": 100
+    },
+    {
+      "epoch": 0.48034934497816595,
+      "grad_norm": 240.7764484868466,
+      "learning_rate": 1.1650485436893203e-07,
+      "logits/chosen": -2.6099610328674316,
+      "logits/rejected": -2.5560545921325684,
+      "logps/chosen": -421.95001220703125,
+      "logps/rejected": -333.4624938964844,
+      "loss": 0.6413,
+      "rewards/accuracies": 0.649218738079071,
+      "rewards/chosen": 0.36162033677101135,
+      "rewards/margins": 0.6145599484443665,
+      "rewards/rejected": -0.2532787322998047,
+      "step": 110
+    },
+    {
+      "epoch": 0.5240174672489083,
+      "grad_norm": 232.16678770972172,
+      "learning_rate": 1.0679611650485436e-07,
+      "logits/chosen": -2.609375,
+      "logits/rejected": -2.559375047683716,
+      "logps/chosen": -411.29998779296875,
+      "logps/rejected": -335.17498779296875,
+      "loss": 0.6483,
+      "rewards/accuracies": 0.651562511920929,
+      "rewards/chosen": 0.3660331666469574,
+      "rewards/margins": 0.597150444984436,
+      "rewards/rejected": -0.23108120262622833,
+      "step": 120
+    },
+    {
+      "epoch": 0.5676855895196506,
+      "grad_norm": 233.8374652476243,
+      "learning_rate": 9.70873786407767e-08,
+      "logits/chosen": -2.608593702316284,
+      "logits/rejected": -2.5416016578674316,
+      "logps/chosen": -427.5375061035156,
+      "logps/rejected": -334.88751220703125,
+      "loss": 0.6269,
+      "rewards/accuracies": 0.667187511920929,
+      "rewards/chosen": 0.41166526079177856,
+      "rewards/margins": 0.6970123052597046,
+      "rewards/rejected": -0.2859039306640625,
+      "step": 130
+    },
+    {
+      "epoch": 0.611353711790393,
+      "grad_norm": 210.86682983433053,
+      "learning_rate": 8.737864077669902e-08,
+      "logits/chosen": -2.587695360183716,
+      "logits/rejected": -2.546679735183716,
+      "logps/chosen": -410.32501220703125,
+      "logps/rejected": -328.625,
+      "loss": 0.6611,
+      "rewards/accuracies": 0.6578124761581421,
+      "rewards/chosen": 0.4082275331020355,
+      "rewards/margins": 0.6441711187362671,
+      "rewards/rejected": -0.23561783134937286,
+      "step": 140
+    },
+    {
+      "epoch": 0.6550218340611353,
+      "grad_norm": 205.21616859687637,
+      "learning_rate": 7.766990291262135e-08,
+      "logits/chosen": -2.6058592796325684,
+      "logits/rejected": -2.546875,
+      "logps/chosen": -423.8999938964844,
+      "logps/rejected": -333.2875061035156,
+      "loss": 0.6362,
+      "rewards/accuracies": 0.676562488079071,
+      "rewards/chosen": 0.49949073791503906,
+      "rewards/margins": 0.6958252191543579,
+      "rewards/rejected": -0.19634170830249786,
+      "step": 150
+    },
+    {
+      "epoch": 0.6986899563318777,
+      "grad_norm": 207.31134498490616,
+      "learning_rate": 6.79611650485437e-08,
+      "logits/chosen": -2.6107420921325684,
+      "logits/rejected": -2.5423827171325684,
+      "logps/chosen": -410.8500061035156,
+      "logps/rejected": -326.5874938964844,
+      "loss": 0.6429,
+      "rewards/accuracies": 0.6734374761581421,
+      "rewards/chosen": 0.5038589239120483,
+      "rewards/margins": 0.6741867065429688,
+      "rewards/rejected": -0.1705268919467926,
+      "step": 160
+    },
+    {
+      "epoch": 0.74235807860262,
+      "grad_norm": 186.84771212396123,
+      "learning_rate": 5.825242718446601e-08,
+      "logits/chosen": -2.615429639816284,
+      "logits/rejected": -2.548046827316284,
+      "logps/chosen": -407.1499938964844,
+      "logps/rejected": -336.3374938964844,
+      "loss": 0.6425,
+      "rewards/accuracies": 0.6617187261581421,
+      "rewards/chosen": 0.5310348272323608,
+      "rewards/margins": 0.682720959186554,
+      "rewards/rejected": -0.1518428772687912,
+      "step": 170
+    },
+    {
+      "epoch": 0.7860262008733624,
+      "grad_norm": 188.74506708738218,
+      "learning_rate": 4.854368932038835e-08,
+      "logits/chosen": -2.610156297683716,
+      "logits/rejected": -2.546093702316284,
+      "logps/chosen": -412.875,
+      "logps/rejected": -328.8374938964844,
+      "loss": 0.6145,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": 0.550067126750946,
+      "rewards/margins": 0.7159286737442017,
+      "rewards/rejected": -0.16567841172218323,
+      "step": 180
+    },
+    {
+      "epoch": 0.8296943231441049,
+      "grad_norm": 192.35820754552165,
+      "learning_rate": 3.8834951456310675e-08,
+      "logits/chosen": -2.5999999046325684,
+      "logits/rejected": -2.555468797683716,
+      "logps/chosen": -421.20001220703125,
+      "logps/rejected": -329.04998779296875,
+      "loss": 0.6037,
+      "rewards/accuracies": 0.6890624761581421,
+      "rewards/chosen": 0.5914382934570312,
+      "rewards/margins": 0.7566490173339844,
+      "rewards/rejected": -0.1647975891828537,
+      "step": 190
+    },
+    {
+      "epoch": 0.8733624454148472,
+      "grad_norm": 199.01450536603292,
+      "learning_rate": 2.9126213592233006e-08,
+      "logits/chosen": -2.6044921875,
+      "logits/rejected": -2.543750047683716,
+      "logps/chosen": -418.42498779296875,
+      "logps/rejected": -327.0625,
+      "loss": 0.6253,
+      "rewards/accuracies": 0.6695312261581421,
+      "rewards/chosen": 0.537921130657196,
+      "rewards/margins": 0.6540893316268921,
+      "rewards/rejected": -0.11599349975585938,
+      "step": 200
+    },
+    {
+      "epoch": 0.8733624454148472,
+      "eval_logits/chosen": -2.5845682621002197,
+      "eval_logits/rejected": -2.5405123233795166,
+      "eval_logps/chosen": -414.4948425292969,
+      "eval_logps/rejected": -331.1443176269531,
+      "eval_loss": 0.6223304867744446,
+      "eval_rewards/accuracies": 0.6558358073234558,
+      "eval_rewards/chosen": 0.527737021446228,
+      "eval_rewards/margins": 0.656870424747467,
+      "eval_rewards/rejected": -0.12893016636371613,
+      "eval_runtime": 67.7691,
+      "eval_samples_per_second": 22.768,
+      "eval_steps_per_second": 1.431,
+      "step": 200
+    },
+    {
+      "epoch": 0.9170305676855895,
+      "grad_norm": 182.3398057560757,
+      "learning_rate": 1.9417475728155338e-08,
+      "logits/chosen": -2.6318359375,
+      "logits/rejected": -2.5595703125,
+      "logps/chosen": -431.07501220703125,
+      "logps/rejected": -334.875,
+      "loss": 0.6041,
+      "rewards/accuracies": 0.6781250238418579,
+      "rewards/chosen": 0.549694836139679,
+      "rewards/margins": 0.7145935297012329,
+      "rewards/rejected": -0.16451263427734375,
+      "step": 210
+    },
+    {
+      "epoch": 0.9606986899563319,
+      "grad_norm": 200.59628515083702,
+      "learning_rate": 9.708737864077669e-09,
+      "logits/chosen": -2.5894532203674316,
+      "logits/rejected": -2.5513672828674316,
+      "logps/chosen": -409.6000061035156,
+      "logps/rejected": -325.57501220703125,
+      "loss": 0.6247,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.5058227777481079,
+      "rewards/margins": 0.6715041995048523,
+      "rewards/rejected": -0.16602401435375214,
+      "step": 220
+    },
+    {
+      "epoch": 1.0,
+      "step": 229,
+      "total_flos": 0.0,
+      "train_loss": 0.6294400285945709,
+      "train_runtime": 3850.4934,
+      "train_samples_per_second": 7.61,
+      "train_steps_per_second": 0.059
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 229,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}