dignity045
/

grandline

dataset-preprocessing

llm-pretraining

Model card Files Files and versions

grandline / configs /datasets

5.14 kB

Ctrl+K

Ctrl+K

1 contributor

History: 1 commit

dignity045's picture

Initial GrandLine implementation: deterministic shard-first dataset preprocessing for LLM pretraining

ed59144 verified 10 days ago

cosmopedia.yaml

760 Bytes
Initial GrandLine implementation: deterministic shard-first dataset preprocessing for LLM pretraining 10 days ago
dclm.yaml

722 Bytes
Initial GrandLine implementation: deterministic shard-first dataset preprocessing for LLM pretraining 10 days ago
finemath.yaml

648 Bytes
Initial GrandLine implementation: deterministic shard-first dataset preprocessing for LLM pretraining 10 days ago
fineweb2.yaml

786 Bytes
Initial GrandLine implementation: deterministic shard-first dataset preprocessing for LLM pretraining 10 days ago
fineweb_edu.yaml

860 Bytes
Initial GrandLine implementation: deterministic shard-first dataset preprocessing for LLM pretraining 10 days ago
pes2o.yaml

643 Bytes
Initial GrandLine implementation: deterministic shard-first dataset preprocessing for LLM pretraining 10 days ago
the_stack_v2.yaml

724 Bytes
Initial GrandLine implementation: deterministic shard-first dataset preprocessing for LLM pretraining 10 days ago