🤝 Open to Collab

Saken Tukenov PRO

stukenov

1 2 47

Eraly-ml's profile picture

ardakshalkar's profile picture

Gargaz's profile picture

stukenov
sakentukenov

AI & ML interests

None yet

Recent Activity

updated a model about 18 hours ago

TilQazyna/Til-kk-0.5B-256k-sft-exp081

published a model about 18 hours ago

TilQazyna/Til-kk-1B-256k-exp081

published a model about 18 hours ago

TilQazyna/Til-kk-0.5B-256k-sft-exp081

View all activity

Organizations

stukenov 's collections 7

EkiTil: Bilingual Kazakh-Russian Language Models

Qwen3 models (123M/300M/600M) trained from scratch on 2.47B kk+ru tokens. Includes tokenizer, datasets, and checkpoints.

stukenov/ekitil-core-qwen3-123m-kkru-base-v1

Text Generation • 0.1B • Updated Apr 6
stukenov/ekitil-core-qwen3-300m-kkru-base-v1

Text Generation • 0.2B • Updated Apr 6 • 1
stukenov/ekitil-core-qwen3-600m-kkru-base-v1

Text Generation • 0.7B • Updated Apr 6 • 1
stukenov/ekitil-vocab-bpe-64k-kkru-v1

Updated Mar 25

SozKZ Vocab: Kazakh Tokenizers

BPE and SentencePiece tokenizers trained on Kazakh text — 32K vocabularies

stukenov/sozkz-vocab-bpe-32k-kk-base-v1

Text Generation • Updated Mar 25
stukenov/sozkz-vocab-sp-32k-kk-t5-v1

Updated Mar 25
stukenov/kzcalm-sp-tokenizer-4k-kk-v1

Updated Mar 25

SozKZ MoE: Mixture of Experts

Mixture-of-Experts models for Kazakh — upcycled and domain-pretrained MoE architectures

stukenov/sozkz-moe-mix-200m-kk-base-v1

Text Generation • 0.2B • Updated Mar 25
stukenov/sozkz-moe-mix-160m-kk-domain-v1

0.2B • Updated Mar 25
stukenov/sozkz-corpus-balanced-kk-moe-domain-v1

Viewer • Updated Feb 11 • 2.19M • 5
stukenov/sozkz-corpus-synthetic-kk-moe-sft-v1

Viewer • Updated Feb 11 • 10.1k • 8

SozKZ Core: Kazakh Language Models

Base, instruct, and balanced Kazakh language models trained from scratch — Llama (50M–600M), GPT2, Pythia architectures

stukenov/sozkz-core-llama-600m-kk-base-v1

Text Generation • 0.6B • Updated Mar 25 • 4 • 1
stukenov/sozkz-core-llama-600m-kk-instruct-v1

0.6B • Updated Mar 18 • 2 • 1
stukenov/sozkz-core-llama-300m-kk-base-v1

Text Generation • 0.3B • Updated Mar 17
stukenov/sozkz-core-llama-300m-kk-instruct-v1

Text Generation • 0.3B • Updated Mar 17 • 1

SozKZ Misc: TTS, Sentiment & Other

Miscellaneous Kazakh AI models and datasets — TTS, sentiment analysis, speech, benchmarks

stukenov/sozkz-core-llama-600m-kk-sentiment-v1

Text Generation • 0.6B • Updated Mar 19 • 1
stukenov/kzcalm-baseline-v1

Updated 23 days ago
stukenov/issai-tts

Updated Mar 17
stukenov/issai-faster-whisper-tilsync-beta-30sept2025-fp16

Automatic Speech Recognition • Updated Mar 17 • 2

SozKZ Corpora: Kazakh Training Datasets

Training corpora for Kazakh LLMs — raw, cleaned, deduplicated, tokenized, synthetic, and parallel datasets

stukenov/sozkz-corpus-raw-kk-multi-v1

Viewer • Updated Mar 25 • 13.1M • 7
stukenov/sozkz-corpus-raw-kk-gazeta-v1

Viewer • Updated Mar 25 • 74.1k • 7
stukenov/sozkz-corpus-clean-kk-pretrain-v2

Viewer • Updated Mar 25 • 1.02M • 21
stukenov/sozkz-corpus-clean-kk-text-v2

Viewer • Updated Feb 11 • 19M • 11

SozKZ GEC: Kazakh Grammar Error Correction

Grammar error correction models and datasets for Kazakh — Llama GEC (300M, 600M), mT5 GEC, morphology models

stukenov/sozkz-core-llama-600m-kk-gec-v1

Text Generation • 0.6B • Updated Apr 26
stukenov/sozkz-core-llama-300m-kk-gec-v1

Text Generation • 0.3B • Updated Apr 26
stukenov/sozkz-core-llama-300m-kk-gec-v2a

Text Generation • 0.3B • Updated Apr 26
stukenov/sozkz-core-llama-300m-kk-gec-v2b

Text Generation • 0.3B • Updated Apr 26

EkiTil: Bilingual Kazakh-Russian Language Models

Qwen3 models (123M/300M/600M) trained from scratch on 2.47B kk+ru tokens. Includes tokenizer, datasets, and checkpoints.

stukenov/ekitil-core-qwen3-123m-kkru-base-v1

Text Generation • 0.1B • Updated Apr 6
stukenov/ekitil-core-qwen3-300m-kkru-base-v1

Text Generation • 0.2B • Updated Apr 6 • 1
stukenov/ekitil-core-qwen3-600m-kkru-base-v1

Text Generation • 0.7B • Updated Apr 6 • 1
stukenov/ekitil-vocab-bpe-64k-kkru-v1

Updated Mar 25

SozKZ Misc: TTS, Sentiment & Other

Miscellaneous Kazakh AI models and datasets — TTS, sentiment analysis, speech, benchmarks

stukenov/sozkz-core-llama-600m-kk-sentiment-v1

Text Generation • 0.6B • Updated Mar 19 • 1
stukenov/kzcalm-baseline-v1

Updated 23 days ago
stukenov/issai-tts

Updated Mar 17
stukenov/issai-faster-whisper-tilsync-beta-30sept2025-fp16

Automatic Speech Recognition • Updated Mar 17 • 2

SozKZ Vocab: Kazakh Tokenizers

BPE and SentencePiece tokenizers trained on Kazakh text — 32K vocabularies

stukenov/sozkz-vocab-bpe-32k-kk-base-v1

Text Generation • Updated Mar 25
stukenov/sozkz-vocab-sp-32k-kk-t5-v1

Updated Mar 25
stukenov/kzcalm-sp-tokenizer-4k-kk-v1

Updated Mar 25

SozKZ Corpora: Kazakh Training Datasets

Training corpora for Kazakh LLMs — raw, cleaned, deduplicated, tokenized, synthetic, and parallel datasets

stukenov/sozkz-corpus-raw-kk-multi-v1

Viewer • Updated Mar 25 • 13.1M • 7
stukenov/sozkz-corpus-raw-kk-gazeta-v1

Viewer • Updated Mar 25 • 74.1k • 7
stukenov/sozkz-corpus-clean-kk-pretrain-v2

Viewer • Updated Mar 25 • 1.02M • 21
stukenov/sozkz-corpus-clean-kk-text-v2

Viewer • Updated Feb 11 • 19M • 11

SozKZ MoE: Mixture of Experts

Mixture-of-Experts models for Kazakh — upcycled and domain-pretrained MoE architectures

stukenov/sozkz-moe-mix-200m-kk-base-v1

Text Generation • 0.2B • Updated Mar 25
stukenov/sozkz-moe-mix-160m-kk-domain-v1

0.2B • Updated Mar 25
stukenov/sozkz-corpus-balanced-kk-moe-domain-v1

Viewer • Updated Feb 11 • 2.19M • 5
stukenov/sozkz-corpus-synthetic-kk-moe-sft-v1

Viewer • Updated Feb 11 • 10.1k • 8

SozKZ GEC: Kazakh Grammar Error Correction

Grammar error correction models and datasets for Kazakh — Llama GEC (300M, 600M), mT5 GEC, morphology models

stukenov/sozkz-core-llama-600m-kk-gec-v1

Text Generation • 0.6B • Updated Apr 26
stukenov/sozkz-core-llama-300m-kk-gec-v1

Text Generation • 0.3B • Updated Apr 26
stukenov/sozkz-core-llama-300m-kk-gec-v2a

Text Generation • 0.3B • Updated Apr 26
stukenov/sozkz-core-llama-300m-kk-gec-v2b

Text Generation • 0.3B • Updated Apr 26

SozKZ Core: Kazakh Language Models

Base, instruct, and balanced Kazakh language models trained from scratch — Llama (50M–600M), GPT2, Pythia architectures

stukenov/sozkz-core-llama-600m-kk-base-v1

Text Generation • 0.6B • Updated Mar 25 • 4 • 1
stukenov/sozkz-core-llama-600m-kk-instruct-v1

0.6B • Updated Mar 18 • 2 • 1
stukenov/sozkz-core-llama-300m-kk-base-v1

Text Generation • 0.3B • Updated Mar 17
stukenov/sozkz-core-llama-300m-kk-instruct-v1

Text Generation • 0.3B • Updated Mar 17 • 1