Model save

Browse files

Files changed (5) hide show

README.md +58 -0
all_results.json +8 -0
generation_config.json +13 -0
train_results.json +8 -0
trainer_state.json +612 -0

README.md ADDED Viewed

	@@ -0,0 +1,58 @@

+---
+base_model: Qwen/Qwen3-4B
+library_name: transformers
+model_name: Agentic-Qwen3-4B-e2-lr2-b8
+tags:
+- generated_from_trainer
+- trl
+- sft
+licence: license
+---
+# Model Card for Agentic-Qwen3-4B-e2-lr2-b8
+This model is a fine-tuned version of [Qwen/Qwen3-4B](https://huggingface.co/Qwen/Qwen3-4B).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="akseljoonas/Agentic-Qwen3-4B-e2-lr2-b8", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/akseljoonas-university-of-groningen/huggingface/runs/ux6f3h75)
+This model was trained with SFT.
+### Framework versions
+- TRL: 0.18.1
+- Transformers: 4.52.4
+- Pytorch: 2.6.0
+- Datasets: 3.6.0
+- Tokenizers: 0.21.1
+## Citations
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "total_flos": 60200843018240.0,
+    "train_loss": 0.6736609485914122,
+    "train_runtime": 1231.7269,
+    "train_samples": 9217,
+    "train_samples_per_second": 2.062,
+    "train_steps_per_second": 0.258
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.6,
+  "top_k": 20,
+  "top_p": 0.95,
+  "transformers_version": "4.52.4"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "total_flos": 60200843018240.0,
+    "train_loss": 0.6736609485914122,
+    "train_runtime": 1231.7269,
+    "train_samples": 9217,
+    "train_samples_per_second": 2.062,
+    "train_steps_per_second": 0.258
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,612 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 318,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.031446540880503145,
+      "grad_norm": 13.03271333270673,
+      "learning_rate": 2.5e-06,
+      "loss": 1.3775,
+      "mean_token_accuracy": 0.7547178506851197,
+      "num_tokens": 818536.0,
+      "step": 5
+    },
+    {
+      "epoch": 0.06289308176100629,
+      "grad_norm": 3.142081262767518,
+      "learning_rate": 5.625e-06,
+      "loss": 1.1561,
+      "mean_token_accuracy": 0.7710366725921631,
+      "num_tokens": 1596086.0,
+      "step": 10
+    },
+    {
+      "epoch": 0.09433962264150944,
+      "grad_norm": 0.9204549726929935,
+      "learning_rate": 8.750000000000001e-06,
+      "loss": 1.0427,
+      "mean_token_accuracy": 0.7695102214813232,
+      "num_tokens": 2415286.0,
+      "step": 15
+    },
+    {
+      "epoch": 0.12578616352201258,
+      "grad_norm": 0.7085856910992004,
+      "learning_rate": 1.1875e-05,
+      "loss": 1.0061,
+      "mean_token_accuracy": 0.7758254289627076,
+      "num_tokens": 3218052.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.15723270440251572,
+      "grad_norm": 0.547258781879994,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.8875,
+      "mean_token_accuracy": 0.7997570395469665,
+      "num_tokens": 4004194.0,
+      "step": 25
+    },
+    {
+      "epoch": 0.18867924528301888,
+      "grad_norm": 1.0222820759392208,
+      "learning_rate": 1.8125e-05,
+      "loss": 0.9002,
+      "mean_token_accuracy": 0.7947627782821656,
+      "num_tokens": 4817215.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.22012578616352202,
+      "grad_norm": 3.585439572305339,
+      "learning_rate": 1.986013986013986e-05,
+      "loss": 0.9059,
+      "mean_token_accuracy": 0.7968738198280334,
+      "num_tokens": 5631876.0,
+      "step": 35
+    },
+    {
+      "epoch": 0.25157232704402516,
+      "grad_norm": 0.6067914037174289,
+      "learning_rate": 1.951048951048951e-05,
+      "loss": 0.9672,
+      "mean_token_accuracy": 0.7905117273330688,
+      "num_tokens": 6431930.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.2830188679245283,
+      "grad_norm": 0.619187902035828,
+      "learning_rate": 1.916083916083916e-05,
+      "loss": 0.8712,
+      "mean_token_accuracy": 0.7971467971801758,
+      "num_tokens": 7248262.0,
+      "step": 45
+    },
+    {
+      "epoch": 0.31446540880503143,
+      "grad_norm": 1.0922125142356272,
+      "learning_rate": 1.881118881118881e-05,
+      "loss": 0.9262,
+      "mean_token_accuracy": 0.7934189438819885,
+      "num_tokens": 8024263.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.34591194968553457,
+      "grad_norm": 1.8833162758210453,
+      "learning_rate": 1.8461538461538465e-05,
+      "loss": 0.8009,
+      "mean_token_accuracy": 0.8181156992912293,
+      "num_tokens": 8843409.0,
+      "step": 55
+    },
+    {
+      "epoch": 0.37735849056603776,
+      "grad_norm": 0.5294123548152969,
+      "learning_rate": 1.8111888111888115e-05,
+      "loss": 0.7584,
+      "mean_token_accuracy": 0.8229650974273681,
+      "num_tokens": 9650085.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.4088050314465409,
+      "grad_norm": 0.4800791810392324,
+      "learning_rate": 1.7762237762237765e-05,
+      "loss": 0.8147,
+      "mean_token_accuracy": 0.8108610510826111,
+      "num_tokens": 10453111.0,
+      "step": 65
+    },
+    {
+      "epoch": 0.44025157232704404,
+      "grad_norm": 0.47044090988814274,
+      "learning_rate": 1.7412587412587415e-05,
+      "loss": 0.8538,
+      "mean_token_accuracy": 0.8061554193496704,
+      "num_tokens": 11269645.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.4716981132075472,
+      "grad_norm": 0.36384702985188494,
+      "learning_rate": 1.7062937062937065e-05,
+      "loss": 0.879,
+      "mean_token_accuracy": 0.8073269724845886,
+      "num_tokens": 12062908.0,
+      "step": 75
+    },
+    {
+      "epoch": 0.5031446540880503,
+      "grad_norm": 0.5787507645142339,
+      "learning_rate": 1.6713286713286712e-05,
+      "loss": 0.916,
+      "mean_token_accuracy": 0.7904855847358704,
+      "num_tokens": 12852544.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.5345911949685535,
+      "grad_norm": 0.8612764231795952,
+      "learning_rate": 1.6363636363636366e-05,
+      "loss": 0.7602,
+      "mean_token_accuracy": 0.8291459321975708,
+      "num_tokens": 13622852.0,
+      "step": 85
+    },
+    {
+      "epoch": 0.5660377358490566,
+      "grad_norm": 0.5764345054487913,
+      "learning_rate": 1.6013986013986016e-05,
+      "loss": 0.7738,
+      "mean_token_accuracy": 0.8199570298194885,
+      "num_tokens": 14402536.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.5974842767295597,
+      "grad_norm": 0.5860043968041379,
+      "learning_rate": 1.5664335664335666e-05,
+      "loss": 0.5879,
+      "mean_token_accuracy": 0.8609241962432861,
+      "num_tokens": 15201407.0,
+      "step": 95
+    },
+    {
+      "epoch": 0.6289308176100629,
+      "grad_norm": 0.4612587590718709,
+      "learning_rate": 1.5314685314685317e-05,
+      "loss": 0.6411,
+      "mean_token_accuracy": 0.8491015195846557,
+      "num_tokens": 16020607.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.660377358490566,
+      "grad_norm": 0.7302185701182936,
+      "learning_rate": 1.4965034965034965e-05,
+      "loss": 0.668,
+      "mean_token_accuracy": 0.8352020621299744,
+      "num_tokens": 16838236.0,
+      "step": 105
+    },
+    {
+      "epoch": 0.6918238993710691,
+      "grad_norm": 0.45981371746934846,
+      "learning_rate": 1.4615384615384615e-05,
+      "loss": 0.5761,
+      "mean_token_accuracy": 0.8600066065788269,
+      "num_tokens": 17657436.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.7232704402515723,
+      "grad_norm": 0.4990834329499322,
+      "learning_rate": 1.4265734265734267e-05,
+      "loss": 0.5672,
+      "mean_token_accuracy": 0.863051176071167,
+      "num_tokens": 18476636.0,
+      "step": 115
+    },
+    {
+      "epoch": 0.7547169811320755,
+      "grad_norm": 0.5062785400963731,
+      "learning_rate": 1.3916083916083917e-05,
+      "loss": 0.7395,
+      "mean_token_accuracy": 0.8357039093971252,
+      "num_tokens": 19273991.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.7861635220125787,
+      "grad_norm": 0.47628852410912564,
+      "learning_rate": 1.3566433566433568e-05,
+      "loss": 0.5779,
+      "mean_token_accuracy": 0.8661539793014527,
+      "num_tokens": 20073959.0,
+      "step": 125
+    },
+    {
+      "epoch": 0.8176100628930818,
+      "grad_norm": 0.766898576259439,
+      "learning_rate": 1.3216783216783218e-05,
+      "loss": 1.0121,
+      "mean_token_accuracy": 0.7860404014587402,
+      "num_tokens": 20891202.0,
+      "step": 130
+    },
+    {
+      "epoch": 0.8490566037735849,
+      "grad_norm": 0.8560643966737385,
+      "learning_rate": 1.2867132867132868e-05,
+      "loss": 0.6729,
+      "mean_token_accuracy": 0.846558690071106,
+      "num_tokens": 21698529.0,
+      "step": 135
+    },
+    {
+      "epoch": 0.8805031446540881,
+      "grad_norm": 0.5696461399962188,
+      "learning_rate": 1.2517482517482518e-05,
+      "loss": 0.6544,
+      "mean_token_accuracy": 0.8542250633239746,
+      "num_tokens": 22517729.0,
+      "step": 140
+    },
+    {
+      "epoch": 0.9119496855345912,
+      "grad_norm": 0.4884669558649522,
+      "learning_rate": 1.216783216783217e-05,
+      "loss": 0.5603,
+      "mean_token_accuracy": 0.8656034827232361,
+      "num_tokens": 23326880.0,
+      "step": 145
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "grad_norm": 0.6163292040479019,
+      "learning_rate": 1.181818181818182e-05,
+      "loss": 0.7203,
+      "mean_token_accuracy": 0.835569703578949,
+      "num_tokens": 24132107.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.9748427672955975,
+      "grad_norm": 0.4767257326937619,
+      "learning_rate": 1.1468531468531469e-05,
+      "loss": 0.5465,
+      "mean_token_accuracy": 0.8675103425979614,
+      "num_tokens": 24928038.0,
+      "step": 155
+    },
+    {
+      "epoch": 1.0062893081761006,
+      "grad_norm": 0.9012992028692588,
+      "learning_rate": 1.1118881118881119e-05,
+      "loss": 0.7252,
+      "mean_token_accuracy": 0.8303738117218018,
+      "num_tokens": 25706278.0,
+      "step": 160
+    },
+    {
+      "epoch": 1.0377358490566038,
+      "grad_norm": 0.8111141420851177,
+      "learning_rate": 1.076923076923077e-05,
+      "loss": 0.5765,
+      "mean_token_accuracy": 0.8677368283271789,
+      "num_tokens": 26514532.0,
+      "step": 165
+    },
+    {
+      "epoch": 1.069182389937107,
+      "grad_norm": 0.6267585859027412,
+      "learning_rate": 1.041958041958042e-05,
+      "loss": 0.4623,
+      "mean_token_accuracy": 0.8873383641242981,
+      "num_tokens": 27313592.0,
+      "step": 170
+    },
+    {
+      "epoch": 1.10062893081761,
+      "grad_norm": 0.444789476020434,
+      "learning_rate": 1.0069930069930071e-05,
+      "loss": 0.5428,
+      "mean_token_accuracy": 0.8730736255645752,
+      "num_tokens": 28132792.0,
+      "step": 175
+    },
+    {
+      "epoch": 1.1320754716981132,
+      "grad_norm": 0.6056217287653249,
+      "learning_rate": 9.72027972027972e-06,
+      "loss": 0.5868,
+      "mean_token_accuracy": 0.865373182296753,
+      "num_tokens": 28949045.0,
+      "step": 180
+    },
+    {
+      "epoch": 1.1635220125786163,
+      "grad_norm": 0.4694269418208841,
+      "learning_rate": 9.370629370629372e-06,
+      "loss": 0.5848,
+      "mean_token_accuracy": 0.868312668800354,
+      "num_tokens": 29768245.0,
+      "step": 185
+    },
+    {
+      "epoch": 1.1949685534591195,
+      "grad_norm": 0.6521728421466072,
+      "learning_rate": 9.020979020979022e-06,
+      "loss": 0.5126,
+      "mean_token_accuracy": 0.8788403034210205,
+      "num_tokens": 30543456.0,
+      "step": 190
+    },
+    {
+      "epoch": 1.2264150943396226,
+      "grad_norm": 0.5283463167203141,
+      "learning_rate": 8.671328671328672e-06,
+      "loss": 0.6338,
+      "mean_token_accuracy": 0.8573248863220215,
+      "num_tokens": 31350518.0,
+      "step": 195
+    },
+    {
+      "epoch": 1.2578616352201257,
+      "grad_norm": 0.46526678539901895,
+      "learning_rate": 8.321678321678323e-06,
+      "loss": 0.5093,
+      "mean_token_accuracy": 0.8769666433334351,
+      "num_tokens": 32169718.0,
+      "step": 200
+    },
+    {
+      "epoch": 1.2893081761006289,
+      "grad_norm": 0.45788290526995284,
+      "learning_rate": 7.972027972027973e-06,
+      "loss": 0.5234,
+      "mean_token_accuracy": 0.878737998008728,
+      "num_tokens": 32955823.0,
+      "step": 205
+    },
+    {
+      "epoch": 1.320754716981132,
+      "grad_norm": 0.5536484023317151,
+      "learning_rate": 7.622377622377622e-06,
+      "loss": 0.4318,
+      "mean_token_accuracy": 0.8946848034858703,
+      "num_tokens": 33775023.0,
+      "step": 210
+    },
+    {
+      "epoch": 1.3522012578616351,
+      "grad_norm": 0.6186022115094232,
+      "learning_rate": 7.272727272727273e-06,
+      "loss": 0.5947,
+      "mean_token_accuracy": 0.8497153162956238,
+      "num_tokens": 34546164.0,
+      "step": 215
+    },
+    {
+      "epoch": 1.3836477987421385,
+      "grad_norm": 0.47987850722159214,
+      "learning_rate": 6.923076923076923e-06,
+      "loss": 0.5026,
+      "mean_token_accuracy": 0.8792301297187806,
+      "num_tokens": 35357830.0,
+      "step": 220
+    },
+    {
+      "epoch": 1.4150943396226414,
+      "grad_norm": 0.43018225407142757,
+      "learning_rate": 6.573426573426574e-06,
+      "loss": 0.5064,
+      "mean_token_accuracy": 0.879835331439972,
+      "num_tokens": 36174162.0,
+      "step": 225
+    },
+    {
+      "epoch": 1.4465408805031448,
+      "grad_norm": 0.46620085974916936,
+      "learning_rate": 6.223776223776225e-06,
+      "loss": 0.4226,
+      "mean_token_accuracy": 0.8939149737358093,
+      "num_tokens": 36989817.0,
+      "step": 230
+    },
+    {
+      "epoch": 1.4779874213836477,
+      "grad_norm": 0.48609974920693577,
+      "learning_rate": 5.874125874125874e-06,
+      "loss": 0.5202,
+      "mean_token_accuracy": 0.8768733620643616,
+      "num_tokens": 37777847.0,
+      "step": 235
+    },
+    {
+      "epoch": 1.509433962264151,
+      "grad_norm": 0.5821105347647334,
+      "learning_rate": 5.524475524475524e-06,
+      "loss": 0.6143,
+      "mean_token_accuracy": 0.8637777328491211,
+      "num_tokens": 38562630.0,
+      "step": 240
+    },
+    {
+      "epoch": 1.540880503144654,
+      "grad_norm": 0.5803085528179021,
+      "learning_rate": 5.174825174825175e-06,
+      "loss": 0.5018,
+      "mean_token_accuracy": 0.8810171365737915,
+      "num_tokens": 39381830.0,
+      "step": 245
+    },
+    {
+      "epoch": 1.5723270440251573,
+      "grad_norm": 0.4396680250939225,
+      "learning_rate": 4.8251748251748255e-06,
+      "loss": 0.5409,
+      "mean_token_accuracy": 0.8760395407676697,
+      "num_tokens": 40188597.0,
+      "step": 250
+    },
+    {
+      "epoch": 1.6037735849056602,
+      "grad_norm": 0.8802693971286873,
+      "learning_rate": 4.475524475524476e-06,
+      "loss": 0.5175,
+      "mean_token_accuracy": 0.8776832342147827,
+      "num_tokens": 41007797.0,
+      "step": 255
+    },
+    {
+      "epoch": 1.6352201257861636,
+      "grad_norm": 0.5614997097724259,
+      "learning_rate": 4.125874125874127e-06,
+      "loss": 0.5166,
+      "mean_token_accuracy": 0.880309796333313,
+      "num_tokens": 41803691.0,
+      "step": 260
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 0.6969893060316523,
+      "learning_rate": 3.776223776223776e-06,
+      "loss": 0.4707,
+      "mean_token_accuracy": 0.8875695466995239,
+      "num_tokens": 42595724.0,
+      "step": 265
+    },
+    {
+      "epoch": 1.6981132075471699,
+      "grad_norm": 0.48728281199668755,
+      "learning_rate": 3.426573426573427e-06,
+      "loss": 0.3861,
+      "mean_token_accuracy": 0.9031725287437439,
+      "num_tokens": 43413353.0,
+      "step": 270
+    },
+    {
+      "epoch": 1.7295597484276728,
+      "grad_norm": 0.4756501231096391,
+      "learning_rate": 3.0769230769230774e-06,
+      "loss": 0.429,
+      "mean_token_accuracy": 0.8964764833450317,
+      "num_tokens": 44211004.0,
+      "step": 275
+    },
+    {
+      "epoch": 1.7610062893081762,
+      "grad_norm": 0.5778523505124141,
+      "learning_rate": 2.7272727272727272e-06,
+      "loss": 0.645,
+      "mean_token_accuracy": 0.8627704739570617,
+      "num_tokens": 45020739.0,
+      "step": 280
+    },
+    {
+      "epoch": 1.7924528301886793,
+      "grad_norm": 0.5512721198891299,
+      "learning_rate": 2.377622377622378e-06,
+      "loss": 0.5684,
+      "mean_token_accuracy": 0.8708881616592408,
+      "num_tokens": 45829341.0,
+      "step": 285
+    },
+    {
+      "epoch": 1.8238993710691824,
+      "grad_norm": 0.45716516224489046,
+      "learning_rate": 2.027972027972028e-06,
+      "loss": 0.5288,
+      "mean_token_accuracy": 0.8799654126167298,
+      "num_tokens": 46647913.0,
+      "step": 290
+    },
+    {
+      "epoch": 1.8553459119496856,
+      "grad_norm": 1.2212730329024803,
+      "learning_rate": 1.6783216783216785e-06,
+      "loss": 0.4361,
+      "mean_token_accuracy": 0.8925036907196044,
+      "num_tokens": 47446784.0,
+      "step": 295
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.5584280710628016,
+      "learning_rate": 1.3286713286713287e-06,
+      "loss": 0.5054,
+      "mean_token_accuracy": 0.879949152469635,
+      "num_tokens": 48248618.0,
+      "step": 300
+    },
+    {
+      "epoch": 1.9182389937106918,
+      "grad_norm": 0.5396960462166436,
+      "learning_rate": 9.790209790209791e-07,
+      "loss": 0.4173,
+      "mean_token_accuracy": 0.900512409210205,
+      "num_tokens": 49061639.0,
+      "step": 305
+    },
+    {
+      "epoch": 1.949685534591195,
+      "grad_norm": 0.4828928484837873,
+      "learning_rate": 6.293706293706295e-07,
+      "loss": 0.4519,
+      "mean_token_accuracy": 0.8932919859886169,
+      "num_tokens": 49861941.0,
+      "step": 310
+    },
+    {
+      "epoch": 1.9811320754716981,
+      "grad_norm": 0.5299789433457202,
+      "learning_rate": 2.7972027972027973e-07,
+      "loss": 0.5017,
+      "mean_token_accuracy": 0.8787847280502319,
+      "num_tokens": 50666035.0,
+      "step": 315
+    },
+    {
+      "epoch": 2.0,
+      "mean_token_accuracy": 0.8753345211346945,
+      "num_tokens": 51084876.0,
+      "step": 318,
+      "total_flos": 60200843018240.0,
+      "train_loss": 0.6736609485914122,
+      "train_runtime": 1231.7269,
+      "train_samples_per_second": 2.062,
+      "train_steps_per_second": 0.258
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 318,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 60200843018240.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}