LLM Training Dataset - a Sanster Collection

Sanster 's Collections

LLM Training Dataset

LLM Training Dataset

updated Mar 14, 2024

teknium/OpenHermes-2.5

Viewer • Updated Apr 15, 2024 • 1M • 19.7k • 835
Open-Orca/SlimOrca-Dedup

Viewer • Updated May 19, 2025 • 363k • 3.58k • 92
argilla/ultrafeedback-binarized-preferences-cleaned

Viewer • Updated Dec 11, 2023 • 60.9k • 14k • 162
argilla/ultrafeedback-multi-binarized-preferences-cleaned

Viewer • Updated Dec 11, 2023 • 158k • 210 • 7
argilla/distilabel-intel-orca-dpo-pairs

Viewer • Updated Aug 7, 2025 • 12.9k • 22.9k • 183
openchat/openchat_sharegpt4_dataset

Updated Jul 1, 2023 • 589 • 173
rombodawg/LosslessMegaCodeTrainingV3_1.6m_Evol

Viewer • Updated Oct 19, 2023 • 1.56M • 791 • 27
OpenAssistant/oasst2

Viewer • Updated Jan 11, 2024 • 135k • 9.96k • 290
WizardLMTeam/WizardLM_evol_instruct_V2_196k

Viewer • Updated Mar 10, 2024 • 143k • 3.44k • 249
lmsys/lmsys-chat-1m

Viewer • Updated Jul 27, 2024 • 1M • 8.41k • 894
Hello-SimpleAI/HC3-Chinese

Viewer • Updated Jan 21, 2023 • 25.7k • 5.24k • 172
argilla/dpo-mix-7k

Viewer • Updated Jul 16, 2024 • 7.5k • 2.51k • 171