leonMW
/

DeepSeek-R1-Distill-Qwen-7B-GSPO-Basic

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

leonMW commited on Aug 21, 2025

Commit

c95f7a2

·

verified ·

1 Parent(s): 5b40aee

End of training

Files changed (2) hide show

README.md +3 -1
config.json +1 -1

README.md CHANGED Viewed

@@ -1,17 +1,19 @@
 ---
 base_model: deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
 library_name: transformers
 model_name: DeepSeek-R1-Distill-Qwen-7B-GSPO-Basic
 tags:
 - generated_from_trainer
 - grpo
 - trl
 licence: license
 ---
 # Model Card for DeepSeek-R1-Distill-Qwen-7B-GSPO-Basic
-This model is a fine-tuned version of [deepseek-ai/DeepSeek-R1-Distill-Qwen-7B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start

 ---
 base_model: deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
+datasets: AIML-TUDA/SLR-Bench
 library_name: transformers
 model_name: DeepSeek-R1-Distill-Qwen-7B-GSPO-Basic
 tags:
 - generated_from_trainer
 - grpo
+- open-r1
 - trl
 licence: license
 ---
 # Model Card for DeepSeek-R1-Distill-Qwen-7B-GSPO-Basic
+This model is a fine-tuned version of [deepseek-ai/DeepSeek-R1-Distill-Qwen-7B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B) on the [AIML-TUDA/SLR-Bench](https://huggingface.co/datasets/AIML-TUDA/SLR-Bench) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start

config.json CHANGED Viewed

@@ -56,4 +56,4 @@
   "use_mrope": false,
   "use_sliding_window": false,
   "vocab_size": 152064
-}

   "use_mrope": false,
   "use_sliding_window": false,
   "vocab_size": 152064
+}