pretrain
updated
HuggingFaceTB/smollm-corpus
Viewer
•
Updated
•
237M
•
22.7k
•
417
opencsg/chinese-fineweb-edu
Viewer
•
Updated
•
84.6M
•
15.3k
•
109
wenge-research/yayi2_pretrain_data
Viewer
•
Updated
•
1.68M
•
2.69k
•
59
opencsg/chinese-cosmopedia
Preview
•
Updated
•
969
•
76
Viewer
•
Updated
•
31.1M
•
38.4k
•
659
Infi-MM/InfiMM-WebMath-40B
Viewer
•
Updated
•
22.8M
•
705
•
68
Viewer
•
Updated
•
63.1M
•
627
•
26
gair-prox/open-web-math-pro
Viewer
•
Updated
•
2.58M
•
229
•
12
argilla/FinePersonas-v0.1
Viewer
•
Updated
•
42.1M
•
9.2k
•
408
Updated
•
46.2k
•
248
Preview
•
Updated
•
160k
•
85
opencsg/chinese-fineweb-edu-v2
Viewer
•
Updated
•
188M
•
1.74k
•
72
OpenCoder-LLM/opc-fineweb-code-corpus
Viewer
•
Updated
•
101M
•
2.22k
•
50
OpenCoder-LLM/opc-fineweb-math-corpus
Viewer
•
Updated
•
5.24M
•
487
•
30
Viewer
•
Updated
•
470M
•
36.6k
•
334
CASIA-LM/ChineseWebText2.0
Viewer
•
Updated
•
2k
•
1.61k
•
28
Viewer
•
Updated
•
4.48B
•
109k
•
728
Viewer
•
Updated
•
48.3M
•
8.22k
•
348
togethercomputer/RedPajama-Data-V2
Updated
•
2.34k
•
391
Viewer
•
Updated
•
217M
•
26.5k
•
110
BramVanroy/CommonCrawl-CreativeCommons
Viewer
•
Updated
•
739M
•
460
•
34
Viewer
•
Updated
•
1.29B
•
33.5k
•
295
Viewer
•
Updated
•
157M
•
1.54k
•
53
ByteDance-Seed/mga-fineweb-edu
Viewer
•
Updated
•
846M
•
1.69k
•
34
Viewer
•
Updated
•
2.55M
•
6.93k
•
166