Pretrain-Datasets
updated
togethercomputer/RedPajama-Data-V2
Updated • 6.21k
• 399
Viewer
• Updated • 5.45B • 9.88k
• 525
mlfoundations/dclm-baseline-1.0
Preview
• Updated • 139k
• 262
Updated • 47.1k
• 248
opencsg/chinese-fineweb-edu-v2
Viewer
• Updated • 188M • 1.21k
• 73
HuggingFaceFW/fineweb-edu
Viewer
• Updated • 3.5B • 306k
• 1.01k
Viewer
• Updated • 237M • 12.5k
• 392
Viewer
• Updated • 4.48B • 39.5k
• 774
Updated • 17
• 35
CASIA-LM/ChineseWebText2.0
Viewer
• Updated • 2k • 3.75k
• 29
Viewer
• Updated • 1.29B • 26.7k
• 332