Pretrain-Datasets
updated
togethercomputer/RedPajama-Data-V2
Updated • 8.93k
• 403
Viewer
• Updated • 5.45B • 18.1k
• 565
mlfoundations/dclm-baseline-1.0
Preview
• Updated • 498k
• 274
Updated • 653k
• 259
opencsg/chinese-fineweb-edu-v2
Viewer
• Updated • 188M • 3.7k
• 73
HuggingFaceFW/fineweb-edu
Viewer
• Updated • 3.5B • 625k
• 1.09k
Viewer
• Updated • 237M • 13.7k
• 396
Viewer
• Updated • 4.48B • 57k
• 803
Updated • 31
• 35
CASIA-LM/ChineseWebText2.0
Viewer
• Updated • 2k • 3.22k
• 29
Viewer
• Updated • 1.29B • 52.5k
• 342