End of training

Browse files

Files changed (5) hide show

README.md +2 -1
all_results.json +8 -0
train_results.json +8 -0
trainer_state.json +462 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: apache-2.0
 base_model: Qwen/Qwen2.5-7B-Instruct
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: seed_code_multiple_samples_random_scale_up_2K
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # seed_code_multiple_samples_random_scale_up_2K
-This model is a fine-tuned version of [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct) on an unknown dataset.
 ## Model description

 base_model: Qwen/Qwen2.5-7B-Instruct
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: seed_code_multiple_samples_random_scale_up_2K
 # seed_code_multiple_samples_random_scale_up_2K
+This model is a fine-tuned version of [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct) on the mlfoundations-dev/seed_code_multiple_samples_random_scale_up_2K dataset.
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.896,
+    "total_flos": 59731024576512.0,
+    "train_loss": 0.9648277342319489,
+    "train_runtime": 3605.7128,
+    "train_samples_per_second": 1.664,
+    "train_steps_per_second": 0.017
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.896,
+    "total_flos": 59731024576512.0,
+    "train_loss": 0.9648277342319489,
+    "train_runtime": 3605.7128,
+    "train_samples_per_second": 1.664,
+    "train_steps_per_second": 0.017
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,462 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.896,
+  "eval_steps": 500,
+  "global_step": 60,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.048,
+      "grad_norm": 6.649672031402588,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 1.2499,
+      "step": 1
+    },
+    {
+      "epoch": 0.096,
+      "grad_norm": 6.89929723739624,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 1.2614,
+      "step": 2
+    },
+    {
+      "epoch": 0.144,
+      "grad_norm": 6.728121757507324,
+      "learning_rate": 5e-06,
+      "loss": 1.2755,
+      "step": 3
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 4.547381401062012,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 1.167,
+      "step": 4
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 2.9474120140075684,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 1.1439,
+      "step": 5
+    },
+    {
+      "epoch": 0.288,
+      "grad_norm": 4.3956756591796875,
+      "learning_rate": 1e-05,
+      "loss": 1.164,
+      "step": 6
+    },
+    {
+      "epoch": 0.336,
+      "grad_norm": 4.672914505004883,
+      "learning_rate": 9.991540791356342e-06,
+      "loss": 1.193,
+      "step": 7
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 3.9675629138946533,
+      "learning_rate": 9.966191788709716e-06,
+      "loss": 1.0955,
+      "step": 8
+    },
+    {
+      "epoch": 0.432,
+      "grad_norm": 4.041304111480713,
+      "learning_rate": 9.924038765061042e-06,
+      "loss": 1.138,
+      "step": 9
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 2.6356163024902344,
+      "learning_rate": 9.86522435289912e-06,
+      "loss": 1.1076,
+      "step": 10
+    },
+    {
+      "epoch": 0.528,
+      "grad_norm": 1.9111108779907227,
+      "learning_rate": 9.789947561577445e-06,
+      "loss": 1.0336,
+      "step": 11
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 1.8051618337631226,
+      "learning_rate": 9.698463103929542e-06,
+      "loss": 1.0237,
+      "step": 12
+    },
+    {
+      "epoch": 0.624,
+      "grad_norm": 1.7929407358169556,
+      "learning_rate": 9.591080534401371e-06,
+      "loss": 1.0179,
+      "step": 13
+    },
+    {
+      "epoch": 0.672,
+      "grad_norm": 1.2241275310516357,
+      "learning_rate": 9.468163201617063e-06,
+      "loss": 1.0027,
+      "step": 14
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.1858434677124023,
+      "learning_rate": 9.330127018922195e-06,
+      "loss": 0.9925,
+      "step": 15
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 1.1306203603744507,
+      "learning_rate": 9.177439057064684e-06,
+      "loss": 0.9878,
+      "step": 16
+    },
+    {
+      "epoch": 0.816,
+      "grad_norm": 0.8818135857582092,
+      "learning_rate": 9.01061596377522e-06,
+      "loss": 0.9923,
+      "step": 17
+    },
+    {
+      "epoch": 0.864,
+      "grad_norm": 0.9130216836929321,
+      "learning_rate": 8.83022221559489e-06,
+      "loss": 0.9749,
+      "step": 18
+    },
+    {
+      "epoch": 0.912,
+      "grad_norm": 0.9632487297058105,
+      "learning_rate": 8.636868207865244e-06,
+      "loss": 0.9665,
+      "step": 19
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 1.004268765449524,
+      "learning_rate": 8.43120818934367e-06,
+      "loss": 0.9803,
+      "step": 20
+    },
+    {
+      "epoch": 1.016,
+      "grad_norm": 1.14327871799469,
+      "learning_rate": 8.213938048432697e-06,
+      "loss": 1.2317,
+      "step": 21
+    },
+    {
+      "epoch": 1.064,
+      "grad_norm": 0.8447701930999756,
+      "learning_rate": 7.985792958513932e-06,
+      "loss": 0.8934,
+      "step": 22
+    },
+    {
+      "epoch": 1.112,
+      "grad_norm": 0.9320511221885681,
+      "learning_rate": 7.747544890354031e-06,
+      "loss": 0.991,
+      "step": 23
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 0.8384785652160645,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.9389,
+      "step": 24
+    },
+    {
+      "epoch": 1.208,
+      "grad_norm": 0.6830297112464905,
+      "learning_rate": 7.243995901002312e-06,
+      "loss": 0.86,
+      "step": 25
+    },
+    {
+      "epoch": 1.256,
+      "grad_norm": 0.7668797373771667,
+      "learning_rate": 6.980398830195785e-06,
+      "loss": 0.9331,
+      "step": 26
+    },
+    {
+      "epoch": 1.304,
+      "grad_norm": 0.805425226688385,
+      "learning_rate": 6.710100716628345e-06,
+      "loss": 0.9881,
+      "step": 27
+    },
+    {
+      "epoch": 1.3519999999999999,
+      "grad_norm": 0.6650639772415161,
+      "learning_rate": 6.434016163555452e-06,
+      "loss": 0.9337,
+      "step": 28
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 0.6443905234336853,
+      "learning_rate": 6.153079353712201e-06,
+      "loss": 0.8651,
+      "step": 29
+    },
+    {
+      "epoch": 1.448,
+      "grad_norm": 0.7086542844772339,
+      "learning_rate": 5.8682408883346535e-06,
+      "loss": 0.8596,
+      "step": 30
+    },
+    {
+      "epoch": 1.496,
+      "grad_norm": 0.5941119194030762,
+      "learning_rate": 5.5804645706261515e-06,
+      "loss": 0.8963,
+      "step": 31
+    },
+    {
+      "epoch": 1.544,
+      "grad_norm": 0.6889335513114929,
+      "learning_rate": 5.290724144552379e-06,
+      "loss": 0.8475,
+      "step": 32
+    },
+    {
+      "epoch": 1.592,
+      "grad_norm": 0.6347829699516296,
+      "learning_rate": 5e-06,
+      "loss": 0.8904,
+      "step": 33
+    },
+    {
+      "epoch": 1.6400000000000001,
+      "grad_norm": 0.681000828742981,
+      "learning_rate": 4.7092758554476215e-06,
+      "loss": 0.9363,
+      "step": 34
+    },
+    {
+      "epoch": 1.688,
+      "grad_norm": 0.604396641254425,
+      "learning_rate": 4.4195354293738484e-06,
+      "loss": 0.9859,
+      "step": 35
+    },
+    {
+      "epoch": 1.736,
+      "grad_norm": 0.5908040404319763,
+      "learning_rate": 4.131759111665349e-06,
+      "loss": 0.7657,
+      "step": 36
+    },
+    {
+      "epoch": 1.784,
+      "grad_norm": 0.6690030694007874,
+      "learning_rate": 3.8469206462878e-06,
+      "loss": 0.9692,
+      "step": 37
+    },
+    {
+      "epoch": 1.8319999999999999,
+      "grad_norm": 0.5841237306594849,
+      "learning_rate": 3.5659838364445505e-06,
+      "loss": 0.894,
+      "step": 38
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 0.6076769828796387,
+      "learning_rate": 3.289899283371657e-06,
+      "loss": 1.0476,
+      "step": 39
+    },
+    {
+      "epoch": 1.928,
+      "grad_norm": 0.54935222864151,
+      "learning_rate": 3.019601169804216e-06,
+      "loss": 0.7547,
+      "step": 40
+    },
+    {
+      "epoch": 1.976,
+      "grad_norm": 0.7094786763191223,
+      "learning_rate": 2.7560040989976894e-06,
+      "loss": 1.0386,
+      "step": 41
+    },
+    {
+      "epoch": 2.032,
+      "grad_norm": 0.7260507941246033,
+      "learning_rate": 2.5000000000000015e-06,
+      "loss": 1.0944,
+      "step": 42
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.5274712443351746,
+      "learning_rate": 2.2524551096459703e-06,
+      "loss": 0.7287,
+      "step": 43
+    },
+    {
+      "epoch": 2.128,
+      "grad_norm": 0.5840578675270081,
+      "learning_rate": 2.0142070414860704e-06,
+      "loss": 0.9188,
+      "step": 44
+    },
+    {
+      "epoch": 2.176,
+      "grad_norm": 0.5778673887252808,
+      "learning_rate": 1.7860619515673034e-06,
+      "loss": 0.8059,
+      "step": 45
+    },
+    {
+      "epoch": 2.224,
+      "grad_norm": 0.541653037071228,
+      "learning_rate": 1.5687918106563326e-06,
+      "loss": 0.9784,
+      "step": 46
+    },
+    {
+      "epoch": 2.2720000000000002,
+      "grad_norm": 0.4745509922504425,
+      "learning_rate": 1.3631317921347564e-06,
+      "loss": 0.832,
+      "step": 47
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 0.5039135813713074,
+      "learning_rate": 1.1697777844051105e-06,
+      "loss": 0.8944,
+      "step": 48
+    },
+    {
+      "epoch": 2.368,
+      "grad_norm": 0.5412746071815491,
+      "learning_rate": 9.893840362247809e-07,
+      "loss": 0.9197,
+      "step": 49
+    },
+    {
+      "epoch": 2.416,
+      "grad_norm": 0.481842964887619,
+      "learning_rate": 8.225609429353187e-07,
+      "loss": 0.8418,
+      "step": 50
+    },
+    {
+      "epoch": 2.464,
+      "grad_norm": 0.4687838554382324,
+      "learning_rate": 6.698729810778065e-07,
+      "loss": 0.8105,
+      "step": 51
+    },
+    {
+      "epoch": 2.512,
+      "grad_norm": 0.5128464698791504,
+      "learning_rate": 5.318367983829393e-07,
+      "loss": 0.8783,
+      "step": 52
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 0.48326826095581055,
+      "learning_rate": 4.089194655986306e-07,
+      "loss": 0.8691,
+      "step": 53
+    },
+    {
+      "epoch": 2.608,
+      "grad_norm": 0.531957745552063,
+      "learning_rate": 3.015368960704584e-07,
+      "loss": 0.8631,
+      "step": 54
+    },
+    {
+      "epoch": 2.656,
+      "grad_norm": 0.4845496714115143,
+      "learning_rate": 2.1005243842255552e-07,
+      "loss": 0.8204,
+      "step": 55
+    },
+    {
+      "epoch": 2.7039999999999997,
+      "grad_norm": 0.47783514857292175,
+      "learning_rate": 1.3477564710088097e-07,
+      "loss": 0.8359,
+      "step": 56
+    },
+    {
+      "epoch": 2.752,
+      "grad_norm": 0.5208674073219299,
+      "learning_rate": 7.59612349389599e-08,
+      "loss": 0.9702,
+      "step": 57
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 0.4236156940460205,
+      "learning_rate": 3.3808211290284886e-08,
+      "loss": 0.7322,
+      "step": 58
+    },
+    {
+      "epoch": 2.848,
+      "grad_norm": 0.47887781262397766,
+      "learning_rate": 8.459208643659122e-09,
+      "loss": 0.9654,
+      "step": 59
+    },
+    {
+      "epoch": 2.896,
+      "grad_norm": 0.43384796380996704,
+      "learning_rate": 0.0,
+      "loss": 0.8416,
+      "step": 60
+    },
+    {
+      "epoch": 2.896,
+      "step": 60,
+      "total_flos": 59731024576512.0,
+      "train_loss": 0.9648277342319489,
+      "train_runtime": 3605.7128,
+      "train_samples_per_second": 1.664,
+      "train_steps_per_second": 0.017
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 60,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 59731024576512.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_loss.png ADDED Viewed