Darmm
AI & ML interests
None defined yet.
Recent Activity
Darmm AI
🇰🇿 Қазақша
Darmm — қазақ тілі мен Орталық Азия контексіне арналған сөйлеу, көру және тіл AI саласындағы тәуелсіз R&D жоба. Жетекшісі: R3iwan.
Бізің назарымыздағы — жаһандық open-source модельдері сапасы төмендейтін, жергілікті контекст, фонетика және терминология маңызды болатын тілдер мен домендер.
Сайт: darmm.kz — қазір AI репетитор, біртіндеп жобалар витринасына айналып жатыр.
Не үстінде жұмыс жасаймын
- Қазақ ASR — Whisper family, Wav2Vec2 модельдерін қазақ деректерінде fine-tune жасау және бенчмарктеу, ашық есептер жариялау.
- Қазақ TTS — мәтін нормализациясы, G2P өңдеу және дауыс клондау эксперименттерін қоса алғанда дауыс синтезі.
- Real-time дауыс агенттері — LiveKit және self-hosted модельдерге негізделген қазақ және орыс тілдеріне арналған end-to-end сөйлеу пайплайндары.
- OCR — қазақ тіліндегі баспа және қолжазба мәтіндерін тану, заң, білім беру және мемлекеттік құжаттарға бейімдеу.
- Computer Vision — Орталық Азия контексіне арналған детекция, классификация және сегментация модельдері.
- Мәтін / NLP — заң және техникалық терминологияға баса назар аудара отырып, қазақ/орыс мәтіні үшін LLM fine-tuning, эмбеддингтер, классификация және генерация.
Жұмыстардың көпшілігі Hugging Face-те ашық модельдер мен бенчмарктер ретінде жарияланады. Өндірістік компоненттер жабық күйде қалады.
Техникалық фокус
- Сөйлеу: Whisper fine-tuning, Faster-Whisper / CTranslate2 inference, VITS-family TTS, VAD-based streaming, LiveKit voice agents.
- OCR: тұрақты және трансформерге негізделген OCR пайплайндары, қазақ алфавитінің кириллица/латын нұсқаларын қолдау.
- Computer Vision: детекция үшін YOLO family, классификация үшін ViT-family, Орталық Азия деректерінде fine-tuning.
- Inference: vLLM serving, квантизация (AWQ, GGUF), өндірістік деплоймент үшін latency оптимизациясы.
- LLM адаптациясы: қазақ/орыс деректерінде LoRA/QLoRA fine-tuning, домен-спецификалық эмбеддингтер, RAG және GraphRAG пайплайндары.
- Бағалау: ASR үшін WER/CER, OCR үшін CER, RAG үшін RAGAS және LLM-as-judge, модельдер қайда жіберетінін адал есептеу.
Неліктен қазақ тілі
Қазақ тілі — 20 миллионнан астам адамның ана тілі, мемлекеттік тіл, өскелең цифрлық экономиканың тілі. AI зерттеулерінде ол үнемі ескерусіз қалады.
Whisper-large қазақ тілін транскрибациялай алады — бірақ WER-і ағылшын немесе орыс тілімен салыстырғанда айтарлықтай жоғары. TTS сапасы одан да артта. OCR жүйелері қазақ кириллицасын жиі орысша деп қателеседі. CV модельдері жергілікті контекстте нашар жұмыс жасайды. Жалпы мақсаттағы LLM-дер қазақша нұсқаулармен жұмыс жасағанда не орысшаға ауысады, не сапасыз нәтиже береді.
Бұл академиялық олқылық емес — нақты пайдаланушыларға, нақты өнімдерге және жақсы инфрақұрылымға лайықты тілге әсер ететін практикалық сәтсіздік. Darmm осы олқылықты жабу үшін жұмыс жасайды: шашыраңқы эксперименттер емес, жүйелі бенчмарктеу, ашық модельдер және ағымдағы жай-күйдің адал есебі.
Жақын арада
- Көпмодальды модельдер (vision + language)
- Қазақ/орыс аудармасы
- Streaming STT пайплайндары
- Салалық бейімдеу — заң, медицина, білім беру
Мәртебе
Darmm — ерте кезеңдегі R&D жоба, аяқталған өнім желісі емес. Модельдер мен жазбалар дайын болған сайын жарияланады — адал бастапқы деңгейлермен және белгілі шектеулермен. github.com/R3iwan арқылы хабарласыңыз.
🇷🇺 Русский
Darmm — независимый R&D проект в области речевого, визуального и языкового AI для казахского языка и Центральноазиатского контекста. Поддерживается R3iwan.
Фокус — недостаточно охваченная часть AI-ландшафта: языки и домены, где качество глобальных open-source моделей падает, а локальный контекст, фонетика и терминология имеют решающее значение.
Сайт: darmm.kz — сейчас AI-репетитор, постепенно превращается в витрину проектов.
Над чем я работаю
- Казахский ASR — файн-тюнинг и бенчмаркинг современных open-source ASR (семейство Whisper, Wav2Vec2) на казахских данных, с публичными отчётами об оценке.
- Казахский TTS — синтез голоса для казахского языка, включая нормализацию текста, обработку G2P и эксперименты с клонированием голоса.
- Real-time голосовые агенты — сквозные речевые пайплайны для казахского и русского языков на базе LiveKit и self-hosted моделей.
- OCR — распознавание печатного и рукописного текста на казахском языке, адаптация под юридические, образовательные и государственные документы.
- Computer Vision — модели детекции, классификации и сегментации, адаптированные под Центральноазиатский контекст.
- Текст / NLP — LLM fine-tuning, эмбеддинги, классификация и генерация для казахского/русского текста с упором на юридическую и техническую терминологию.
Большинство работ публикуются как открытые модели и бенчмарки на Hugging Face. Производственные компоненты остаются закрытыми.
Технический фокус
- Речь: Whisper fine-tuning, Faster-Whisper / CTranslate2 inference, VITS-family TTS, VAD-based streaming, LiveKit voice agents.
- OCR: классические и трансформерные OCR-пайплайны, поддержка кириллических и латинских вариантов казахского алфавита.
- Computer Vision: YOLO family для детекции, ViT-family для классификации, файн-тюнинг на центральноазиатских данных.
- Inference: vLLM serving, квантизация (AWQ, GGUF), оптимизация задержки для production-деплоя.
- Адаптация LLM: LoRA/QLoRA fine-tuning на казахских/русских данных, доменно-специфические эмбеддинги, RAG и GraphRAG пайплайны.
- Оценка: WER/CER для ASR, CER для OCR, RAGAS и LLM-as-judge для RAG, честная отчётность о том, где модели дают сбой.
Почему казахский
Казахский — родной язык для более чем 20 миллионов человек, государственный язык Казахстана, язык растущей цифровой экономики. В AI-исследованиях он систематически остаётся на обочине.
Whisper-large транскрибирует казахский — но с WER заметно хуже, чем для английского или русского. TTS отстаёт ещё сильнее. OCR-системы часто путают казахскую кириллицу с русской. CV-модели плохо работают в локальном контексте. Модели общего назначения при казахских промптах либо переключаются на русский, либо выдают деградированный результат.
Это не академический пробел — это практический сбой, затрагивающий реальных пользователей, реальные продукты и язык, который заслуживает лучшей инфраструктуры. Darmm работает над устранением этого пробела: не разрозненные эксперименты, а системный бенчмаркинг, открытые модели и честная отчётность о реальном положении дел.
В планах
- Мультимодальные модели (vision + language)
- Казахско-русский / казахско-английский перевод
- Streaming STT пайплайны
- Отраслевая адаптация — юриспруденция, медицина, образование
Статус
Darmm — R&D проект на ранней стадии, а не готовая продуктовая линейка. Модели и статьи публикуются по мере готовности — с честными базовыми показателями и известными ограничениями. Связаться: github.com/R3iwan.
🌐 English
Darmm is an independent R&D effort focused on speech, vision, and language AI for the Kazakh language and the broader Central Asian context. Maintained by R3iwan.
The focus is the underserved part of the AI landscape: languages and domains where global open-source models drop in quality, and where local context, phonetics, and terminology matter.
Website: darmm.kz — currently AI tutoring, gradually becoming a project showcase.
What I'm working on
- Kazakh ASR — fine-tuning and benchmarking modern open-source ASR (Whisper family, Wav2Vec2) on Kazakh data, with public evaluation reports.
- Kazakh TTS — voice synthesis for Kazakh including text normalization, G2P handling, and voice cloning experiments.
- Real-time voice agents — end-to-end speech pipelines for Kazakh and Russian, built on LiveKit and self-hosted models.
- OCR — recognition of printed and handwritten Kazakh text, adapted for legal, educational, and government documents.
- Computer Vision — detection, classification, and segmentation models adapted for Central Asian context.
- Text / NLP — LLM fine-tuning, embeddings, classification, and generation for Kazakh/Russian text, with a focus on legal and technical terminology.
Most work is published as open models and benchmarks on Hugging Face. Production-specific components stay closed.
Technical focus
- Speech: Whisper fine-tuning, Faster-Whisper / CTranslate2 inference, VITS-family TTS, VAD-based streaming, LiveKit voice agents.
- OCR: classical and transformer-based OCR pipelines, support for Cyrillic and Latin variants of the Kazakh alphabet.
- Computer Vision: YOLO family for detection, ViT-family for classification, fine-tuned on Central Asian data.
- Inference: vLLM serving, quantization (AWQ, GGUF), latency optimization for production deployment.
- LLM adaptation: LoRA/QLoRA fine-tuning on Kazakh/Russian data, domain-specific embeddings, RAG and GraphRAG pipelines.
- Evaluation: WER/CER for ASR, CER for OCR, RAGAS and LLM-as-judge for RAG, honest reporting of where models fail.
Why Kazakh
Kazakh is the native language of over 20 million people, the state language of Kazakhstan, and the language of a growing digital economy. In AI research, it is consistently treated as an afterthought.
Whisper-large can transcribe Kazakh — but with WER noticeably worse than English or Russian. TTS quality falls even further behind. OCR systems regularly confuse Kazakh Cyrillic with Russian. CV models underperform in local context. General-purpose LLMs either slip into Russian when prompted in Kazakh, or produce degraded output.
This is not a niche academic gap. It's a practical failure affecting real users, real products, and a language that deserves better infrastructure. Darmm exists to close that gap — not through scattered experiments, but through systematic benchmarking, open models, and honest reporting of where the current state of the art actually stands.
Coming soon
- Multimodal models (vision + language)
- Kazakh ↔ Russian / Kazakh ↔ English translation
- Streaming STT pipelines
- Domain-specific verticals — legal, medical, education
Status
Darmm is an early-stage R&D effort, not a finished product line. Models and writeups are published as they're ready, with honest baselines and known limitations. Reach out via github.com/R3iwan.