Pretrain-Datasets
updated
togethercomputer/RedPajama-Data-V2
Updated • 6.42k
• 399
Viewer
• Updated • 5.45B • 10.5k
• 525
mlfoundations/dclm-baseline-1.0
Preview
• Updated • 145k
• 262
Updated • 49.3k
• 248
opencsg/chinese-fineweb-edu-v2
Viewer
• Updated • 188M • 1.27k
• 73
HuggingFaceFW/fineweb-edu
Viewer
• Updated • 3.5B • 312k
• 1k
Viewer
• Updated • 237M • 12.6k
• 392
Viewer
• Updated • 4.48B • 42k
• 772
Updated • 17
• 35
CASIA-LM/ChineseWebText2.0
Viewer
• Updated • 2k • 4.05k
• 29
Viewer
• Updated • 1.29B • 28.8k
• 332