--- library_name: transformers tags: - quantized - custom - nonlinear - mixed-precision - merged - MoK language: - ru - en metrics: - perplexity pipeline_tag: text-generation --- # Vikras — Experimental Family of Language Models [EN below](#vikras--experimental-family-of-language-models-en) ## Содержание - [Коротко о проекте](#коротко-о-проекте) - [Текущий релиз: HCT/YeAM](#текущий-релиз-hctyeam) - [HCT (архитектура) / YeAM (инвариант реализации)](#hct-архитектура--yeam-инвариант-реализации) - [Предыдущий релиз: Vikra MixedPrc (MixP_4.9b_S)](#предыдущий-релиз-vikra-mixedprc-mixp_49b_s) - [MixP_4.9b_S: детали](#mixp_49b_s-детали) - [Планы развития](#планы-развития) - [Использование](#использование) - [Заключение](#заключение) --- ## Коротко о проекте **Vikra** — экспериментальное семейство языковых моделей, исследующее влияние: - геометрии представлений - квантования - гибридных мерджей на численную динамику трансформеров. Проект **Vikras** не ограничивается одной базой или одной архитектурой: это семейство моделей, объединённых идеей численной инвариантности эксперимента. - **Vikra_%** — имя конкретной модели - **Vikras** — семейство экспериментов - **S / M / L** — степень агрессивности и распределения битности - **MixP / FullP / HCT** — схемы и инварианты квантования/мерджей --- ## Текущий релиз: HCT/YeAM ### Релизы - **Vikra-HCT-YeAM-PhiMma-1B** - HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-PhiMma-1B - GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-PhiMma-1B-Q8_0.gguf - **Vikra-HCT-YeAM-LLaGemma-1B** - HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-LLaGemma-1B - GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-LLaGemma-1B-Q8_0.gguf - **Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B** - HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B - GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B_Q8_K.gguf - **Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B** - HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B - GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B-Q6_K.gguf --- ## HCT (архитектура) / YeAM (инвариант реализации) **HCT** — архитектурный инвариант: практический способ собирать совместимые модели и производные релизы при переносе между базами/семействами. **YeAM (Yet Another Merge)** — инвариант реализации HCT и самостоятельная схема мерджа HF→HF: это не «ещё один SLERP/DARE/TILES» и не косметическая вариация усреднения. YeAM выдаёт стандартный HF-результат (safetensors + index) и поддерживает: - прямой weight-to-weight мердж - направленное добавление знаний в выбранную модель (knowledge distillation / knowledge injection), согласованное по нескольким источникам - дополнительный мердж Attention-слоёв как отдельную технику поверх YeAM - мердж меньших моделей в более крупные (scale-up merge) при сохранении совместимого HF-формата Математически YeAM работает в **реальной 4D-постановке**: обновления кодируются геометрически и согласуются через пересечения лучей в пространстве параметров. Это даёт управляемый мердж с сохранением структуры и без вырождения в наивное усреднение. --- ## Предыдущий релиз: Vikra MixedPrc (MixP_4.9b_S) ### Краткое описание 12.25B Mistral-based language model Hybrid mixed-precision merged GGUF quantization Экспериментальный режим анизотропного квантования Полная версия мерджа (без квантования): https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-FullP GGUF-квант: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-MixP_4.9b_S.gguf --- ## MixP_4.9b_S: детали ### Архитектура (для MixP релиза) | Параметр | Значение | |---|---| | Architecture | Mistral-based | | Params | ~12.25B | | Layers | 40 | | Hidden size | 5120 | | FFN size | 14336 | | Heads | 32 (8 KV heads, GQA) | | Context | 1,024,000 | | Vocab | 131,072 (Tekken BPE) | | RoPE theta | 1,000,000 | ### MixP_4.9b_S — схема квантования Гибридная mixed precision схема с покомпонентным распределением типов. | Tensor group | Quant type | BPW | |---|---|---| | token_embd, output | BF16 | 16 | | attn_norm, ffn_norm, output_norm | F32 | 32 | | attn_q | Q4_K | 4.5 | | attn_k | Q5_K | 5.5 | | attn_v | Q3_K | 3.44 | | attn_output | Q4_K | 4.5 | | ffn_gate | Q3_K | 3.44 | | ffn_up | Q5_K | 5.5 | | ffn_down | Q5_K / Q6_K | 5.5–6.56 | Итого: - Quantized layers only: ~4.89 BPW - Full model average: ~6.11 BPW - File size: ~8.71 GB ### Ключевая идея MixP MixP — это не «сжать всё одинаково». Это **анизотропное квантование информационных каналов**: • Q/K сохраняются в более высокой точности • V и gate намеренно квантованы до Q3_K • Нормы и выходной слой остаются в высокой точности Такое распределение изменяет численную динамику модели: • усиливается структурная sparsification • меняется распределение норм скрытых представлений • меняется энтропия логитов • появляется режимная чувствительность Это не новая архитектура. Это изменение численной геометрии существующей. ### Наблюдаемые эффекты - сохранение top-1 предсказаний на простых задачах - рост entropy без разрушения максимальной вероятности - расширение hidden norm на сложных задачах - бифуркация режимов: простые задачи ≈ инвариантны, сложные — чувствительны Эти эффекты описываются как геометрический сдвиг представлений, а не как универсальное улучшение качества. ### math_subattention (рабочая гипотеза) В экспериментах наблюдается эффект, условно обозначенный как: “math_subattention” Под этим подразумевается: • уменьшение вклада мелких компонент V • усиление доминирующих направлений residual stream • повышенная инерция предыдущего токена • снижение частоты мелких переключений логитов Это не claim о новой архитектуре. Это рабочая гипотеза о динамике, возникающей при Q3_K symmetric quantization. Термин используется описательно. ### Перплексия Метрика измерена на wikitext-2-raw-test (full): | Model | Precision | PPL | |---|---|---| | Vikra MixP_4.9b_S | 6.11 BPW | 5.50 ± 0.03 | | Baseline BF16 | Full | 6.02 ± 0.03 | --- ## Планы развития Планируются подсемейства: - MixP — Mixed Precision - FullP — Full Precision версии - HCT — multi-merge эксперименты - S / M / L — варианты распределения битности Все модели семейства называются **Vikra**. Репозиторий — **Vikras**. --- ## Использование ```bash llama-cli -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096 ``` ```bash llama-server -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096 ``` --- ## Заключение Vikras — исследовательский проект. Он исследует, как меняется поведение трансформера, если его: - сжимать - смешивать - изменять численную геометрию Если вам интересны hidden space dynamics / regime sensitivity / anisotropic quantization — добро пожаловать. --- # Vikras — Experimental Family of Language Models (EN) ## Table of Contents - [Project overview](#project-overview) - [Current Release: HCT/YeAM](#current-release-hctyeam) - [HCT (architecture) / YeAM (implementation invariant)](#hct-architecture--yeam-implementation-invariant) - [Previous Release: Vikra MixedPrc (MixP_4.9b_S)](#previous-release-vikra-mixedprc-mixp_49b_s) - [MixP_4.9b_S: details](#mixp_49b_s-details) - [Roadmap](#roadmap) - [Usage](#usage) - [Closing](#closing) --- ## Project overview **Vikra** is an experimental family of language models exploring how: - representation geometry - quantization - hybrid merges affect transformer numerical dynamics. The **Vikras** project is not tied to a single base model or architecture. It is a family of models unified by a numerical invariance philosophy of experimentation. - **Vikra_%** — a specific model - **Vikras** — the experimental family - **S / M / L** — aggressiveness and bit allocation variants - **MixP / FullP / HCT** — quantization / merge invariants --- ## Current Release: HCT/YeAM ### Releases - **Vikra-HCT-YeAM-PhiMma-1B** - HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-PhiMma-1B - GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-PhiMma-1B-Q8_0.gguf - **Vikra-HCT-YeAM-LLaGemma-1B** - HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-LLaGemma-1B - GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-LLaGemma-1B-Q8_0.gguf - **Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B** - HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B - GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B_Q8_K.gguf - **Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B** - HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B - GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B-Q6_K.gguf --- ## HCT (architecture) / YeAM (implementation invariant) **HCT** is an architectural invariant. In English: **Heterogeneous Compatibility Transfer** — a practical way to assemble compatible checkpoints and derived releases while moving across bases / model families. **YeAM (Yet Another Merge)** is an implementation invariant of HCT and a standalone HF→HF merge scheme: it is not “just another SLERP/DARE/TILES” and not a cosmetic variant of averaging. YeAM produces a standard HF output (safetensors + index) and supports: - direct weight-to-weight merging - targeted knowledge injection into a chosen model (knowledge distillation mode), aligned across multiple sources - an additional Attention-layer merge as a second technique on top of YeAM - merging smaller models into larger ones (scale-up merge) while keeping a compatible HF format YeAM operates in a **real 4D formulation**: updates are encoded geometrically and aligned via ray intersections in parameter space. This produces controlled merges that preserve structure instead of collapsing into naive averaging. --- ## Previous Release: Vikra MixedPrc (MixP_4.9b_S) ### Short Description 12.25B Mistral-based language model Hybrid mixed-precision merged GGUF quantization Experimental anisotropic quantization regime Full merge version (non-quantized): https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-FullP GGUF quant: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-MixP_4.9b_S.gguf --- ## MixP_4.9b_S: details ### Architecture (for the MixP release) | Parameter | Value | |---|---| | Architecture | Mistral-based | | Params | ~12.25B | | Layers | 40 | | Hidden size | 5120 | | FFN size | 14336 | | Heads | 32 (8 KV heads, GQA) | | Context | 1,024,000 | | Vocab | 131,072 (Tekken BPE) | | RoPE theta | 1,000,000 | ### MixP_4.9b_S — Quantization Scheme A hybrid mixed-precision scheme with per-tensor type allocation. | Tensor group | Quant type | BPW | |---|---|---| | token_embd, output | BF16 | 16 | | attn_norm, ffn_norm, output_norm | F32 | 32 | | attn_q | Q4_K | 4.5 | | attn_k | Q5_K | 5.5 | | attn_v | Q3_K | 3.44 | | attn_output | Q4_K | 4.5 | | ffn_gate | Q3_K | 3.44 | | ffn_up | Q5_K | 5.5 | | ffn_down | Q5_K / Q6_K | 5.5–6.56 | Totals: - Quantized layers only: ~4.89 BPW - Full model average: ~6.11 BPW - File size: ~8.71 GB ### Core idea of MixP MixP is not “compress everything equally”. It is **anisotropic quantization of information channels**: - Q/K remain in higher precision - V and gate are intentionally quantized down to Q3_K - norms and the output layer remain in higher precision This redistribution changes the numerical dynamics of the model: - increased structural sparsification - shifts in hidden norm distribution - changes in logit entropy - regime sensitivity This is not a new architecture. It is a modification of the numerical geometry of an existing one. ### Observed effects - preservation of top-1 predictions on simple tasks - increased entropy without collapse of maximum probability - expansion of hidden norms on complex tasks - mode bifurcation: simple tasks ≈ invariant, complex tasks sensitive These effects are interpreted as a geometric shift of representations rather than a universal quality improvement. ### math_subattention (working hypothesis) In experiments, an effect informally referred to as: “math_subattention” This describes: - reduced contribution of small V components - dominance of stronger residual directions - increased inertia from previous token state - reduced frequency of small logit switching This is not an architectural claim. It is a working hypothesis of dynamics emerging from Q3_K symmetric quantization. The term is used descriptively. ### Perplexity Measured on wikitext-2-raw-test (full): | Model | Precision | PPL | |---|---|---| | Vikra MixP_4.9b_S | 6.11 BPW | 5.50 ± 0.03 | | Baseline BF16 | Full | 6.02 ± 0.03 | --- ## Roadmap Planned subfamilies: - MixP — Mixed Precision - FullP — Full Precision variants - HCT — multi-merge experiments - S / M / L — different bit allocation regimes All models in the family are called **Vikra**. The repository is **Vikras**. --- ## Usage ```bash llama-cli -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096 ``` ```bash llama-server -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096 ``` --- ## Closing Vikras is a research project. It explores how transformer behavior changes when we: - compress - merge - alter numerical geometry If you are interested in hidden space dynamics / regime sensitivity / anisotropic quantization — welcome.