OpenDataArena
/

Qwen2.5-7B-ODA-Mixture-100k

Text Generation

oda-mixture-100k

text-generation-inference

Model card Files Files and versions

Metrics Training metrics Community

GX-XinGao commited on Jan 1

Commit

2db8cd7

·

verified ·

1 Parent(s): 1480bd9

Update README.md

Files changed (1) hide show

README.md +1 -20

README.md CHANGED Viewed

@@ -19,7 +19,7 @@ metrics:
 # Qwen2.5-7B-ODA-Mixture-100k
 <img src="performance.png" alt="Leaderboard Performance" width="1200" />
-Qwen2.5-7B-ODA-Mixture-100k is a supervised fine-tuned (SFT) model built on top of **Qwen2.5-7B-Base**, trained with **[ODA-Mixture-100k](https://huggingface.co/datasets/OpenDataArena/ODA-Mixture-100k)**. This training set is curated by mixing top-performing open corpora selected via the *[OpenDataArena](https://github.com/OpenDataArena/OpenDataArena-Tool)* leaderboard, and refined through deduplication and benchmark decontamination, aiming to improve the model’s general capabilities across **General**, **Math**, **Code**, and **Reasoning** domains under a compact ~100K data budget.
 ---
@@ -221,25 +221,6 @@ print(tokenizer.decode(outputs[0], skip_special_tokens=True))
 ---
-## 🏋️ Training Hyperparameters
-The following hyperparameters were used during training:
-- **learning_rate**: 5e-05
-- **train_batch_size**: 1
-- **eval_batch_size**: 8
-- **seed**: 42
-- **distributed_type**: multi-GPU
-- **num_devices**: 32
-- **total_train_batch_size**: 32
-- **total_eval_batch_size**: 256
-- **optimizer**: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
-- **lr_scheduler_type**: cosine
-- **lr_scheduler_warmup_ratio**: 0.1
-- **num_epochs**: 3.0
----
 ## 📚 Citation
 If you use this model or its training data (ODA-Mixture-100k), please cite:

 # Qwen2.5-7B-ODA-Mixture-100k
 <img src="performance.png" alt="Leaderboard Performance" width="1200" />
+Qwen2.5-7B-ODA-Mixture-100k is a supervised fine-tuned (SFT) model built on top of **Qwen2.5-7B-Base**, trained with **[ODA-Mixture-100k](https://huggingface.co/datasets/OpenDataArena/ODA-Mixture-100k)**. This training set is curated by mixing top-performing open corpora selected via the *[OpenDataArena](https://opendataarena.github.io)* leaderboard, and refined through deduplication and benchmark decontamination, aiming to improve the model’s general capabilities across **General**, **Math**, **Code**, and **Reasoning** domains under a compact ~100K data budget.
 ---
 ---
 ## 📚 Citation
 If you use this model or its training data (ODA-Mixture-100k), please cite: