Pretrain-Datasets
updated
togethercomputer/RedPajama-Data-V2
Updated
•
2.22k
•
394
Viewer
•
Updated
•
5.45B
•
8.02k
•
461
mlfoundations/dclm-baseline-1.0
Preview
•
Updated
•
116k
•
252
Updated
•
26.1k
•
248
opencsg/chinese-fineweb-edu-v2
Viewer
•
Updated
•
188M
•
2.88k
•
72
HuggingFaceFW/fineweb-edu
Viewer
•
Updated
•
3.5B
•
289k
•
939
Viewer
•
Updated
•
237M
•
19.9k
•
382
Viewer
•
Updated
•
4.48B
•
102k
•
746
Updated
•
17
•
35
CASIA-LM/ChineseWebText2.0
Viewer
•
Updated
•
2k
•
3.3k
•
28
Viewer
•
Updated
•
1.29B
•
39.2k
•
306