End of training

Files changed (8) hide show

README.md CHANGED Viewed

@@ -1,17 +1,19 @@
 ---
 base_model: deepseek-ai/DeepSeek-R1-Distill-Llama-8B
 library_name: transformers
 model_name: MMR-DAPO-8B
 tags:
 - generated_from_trainer
-- trl
 - dapo
 licence: license
 ---
 # Model Card for MMR-DAPO-8B
-This model is a fine-tuned version of [deepseek-ai/DeepSeek-R1-Distill-Llama-8B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start

 ---
 base_model: deepseek-ai/DeepSeek-R1-Distill-Llama-8B
+datasets: knoveleng/open-rs
 library_name: transformers
 model_name: MMR-DAPO-8B
 tags:
 - generated_from_trainer
+- open-r1
 - dapo
+- trl
 licence: license
 ---
 # Model Card for MMR-DAPO-8B
+This model is a fine-tuned version of [deepseek-ai/DeepSeek-R1-Distill-Llama-8B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B) on the [knoveleng/open-rs](https://huggingface.co/datasets/knoveleng/open-rs) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7ee9e7c2eac5c0ab901dc35136afccb7eb66edc9f7f816cc94694bcb485013e
-size 335605144

 version https://git-lfs.github.com/spec/v1
+oid sha256:60d95b10b6e140a9626a7058d5038528f2ff80148dc4569b881db56052046509
+size 40

config.json CHANGED Viewed

@@ -18,6 +18,7 @@
   "num_attention_heads": 32,
   "num_hidden_layers": 32,
   "num_key_value_heads": 8,
   "pretraining_tp": 1,
   "rms_norm_eps": 1e-05,
   "rope_scaling": {

   "num_attention_heads": 32,
   "num_hidden_layers": 32,
   "num_key_value_heads": 8,
+  "pad_token_id": 128001,
   "pretraining_tp": 1,
   "rms_norm_eps": 1e-05,
   "rope_scaling": {

generation_config.json CHANGED Viewed

@@ -2,7 +2,10 @@
   "_from_model_config": true,
   "bos_token_id": 128000,
   "do_sample": true,
-  "eos_token_id": 128001,
   "temperature": 0.6,
   "top_p": 0.95,
   "transformers_version": "4.57.1"

   "_from_model_config": true,
   "bos_token_id": 128000,
   "do_sample": true,
+  "eos_token_id": [
+    128001
+  ],
+  "pad_token_id": 128001,
   "temperature": 0.6,
   "top_p": 0.95,
   "transformers_version": "4.57.1"

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97504d83122d8a5af4731acb252a8ae3d76320c82c8a97903d88d7060c7a5cff
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1eca2039ae98b02e4e986fe99b77cf09ba82239af50647213557c772569ac16
 size 4976698672

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d0c2d1260b05799ef7bcf55090c254386a948c8614aba988e9f9eaf26a62e4b
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a3e5defd741abb945d6cb57fb16a6c217d3e25b8f6b24699bf4562e3e70e941
 size 4999802720

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:841941aaccd3b48608fedd022dbd51b52dd7a5942dc1e3975a6c29bfe1d294d7
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:646f6506185a597664a44ee0b3c4be1a268e5d190edef360e04873ce2e184fa4
 size 4915916176

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e58645ff3a4e6e9eefd80ba8c2141b54fdf054de516f9e3f39a8e46fc290829f
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:45c0acc80f6fb1339bdc54f358f36c236ae73b2243c74d02197d51b3f37ff741
 size 1168138808