Lumees

company

https://lumees.io

AI & ML interests

LLM, OCR, Embedding Models, Private Intelligence

posted an update 2 days ago

Post

62

Greek Corpus 150B is now live on the Hub.
A deduplicated, ~146B-token Greek dataset for pretraining and fine-tuning foundation models — a pretrain layer + an instruction (SFT) layer, one unified schema, globally deduplicated.
📊 49.6M documents / ~146B pretrain tokens

📚 Web (FineWeb-2) + long-form PDFs (FinePDFs) + FineWiki + native Greek legislation (47k statutes from the Government Gazette)

💬 ~10B-token SFT layer (9.9M conversations)
The newest in my Global Corpus family — Dutch, Turkish, Bulgarian, Greek — built on a consistent, reproducible pipeline.
🔗 hasankursun/greek-corpus-150b
#greek #llm #dataset #multilingual

in hasankursun/github-code-2025-language-split 7 months ago

[bot] Conversion to Parquet

#1 opened 7 months ago by

parquet-converter

updated a dataset 7 months ago

hasankursun/github-code-2025-language-split

Viewer • Updated Dec 1, 2025 • 144M • 73.1k • 10

updated a collection 7 months ago

Global Corpus

6 items • Updated Dec 1, 2025 • 3

published a dataset 7 months ago

hasankursun/github-code-2025-language-split

Viewer • Updated Dec 1, 2025 • 144M • 73.1k • 10

updated a dataset 7 months ago

hasankursun/dutch-corpus-200b

Viewer • Updated 8 days ago • 170M • 298 • 4

in hasankursun/turkish-legislation-corpus 7 months ago

[bot] Conversion to Parquet

#1 opened 7 months ago by

parquet-converter

updated a collection 7 months ago

Global Corpus

6 items • Updated Dec 1, 2025 • 3

published a dataset 7 months ago

hasankursun/dutch-corpus-200b

Viewer • Updated 8 days ago • 170M • 298 • 4

updated a collection 7 months ago

Global Corpus

6 items • Updated Dec 1, 2025 • 3

updated a dataset 7 months ago

hasankursun/bulgarian-corpus-33b

Viewer • Updated 8 days ago • 34.9M • 387 • 4

published a dataset 7 months ago

hasankursun/bulgarian-corpus-33b

Viewer • Updated 8 days ago • 34.9M • 387 • 4

updated 2 datasets 7 months ago

hasankursun/turkish-corpus-100b

Viewer • Updated 8 days ago • 107M • 1.46k • 7

hasankursun/turkish-legislation-corpus

Viewer • Updated Nov 30, 2025 • 899 • 35 • 2

published a dataset 7 months ago

hasankursun/turkish-legislation-corpus

Viewer • Updated Nov 30, 2025 • 899 • 35 • 2

in hasankursun/codesearchnet-hard-negatives 7 months ago

[bot] Conversion to Parquet

#1 opened 7 months ago by

parquet-converter

updated 2 collections 7 months ago

Experimental Models

1 item • Updated Nov 28, 2025 • 2

Retrieval Models

3 items • Updated Nov 28, 2025 • 1