Vikras-MixP / README.md
srs6901's picture
Update README.md
374229e verified
---
library_name: transformers
tags:
- quantized
- custom
- nonlinear
- mixed-precision
- merged
- MoK
language:
- ru
- en
metrics:
- perplexity
pipeline_tag: text-generation
---
# Vikras — Experimental Family of Language Models
[EN below](#vikras--experimental-family-of-language-models-en)
## Содержание
- [Коротко о проекте](#коротко-о-проекте)
- [Текущий релиз: HCT/YeAM](#текущий-релиз-hctyeam)
- [HCT (архитектура) / YeAM (инвариант реализации)](#hct-архитектура--yeam-инвариант-реализации)
- [Предыдущий релиз: Vikra MixedPrc (MixP_4.9b_S)](#предыдущий-релиз-vikra-mixedprc-mixp_49b_s)
- [MixP_4.9b_S: детали](#mixp_49b_s-детали)
- [Планы развития](#планы-развития)
- [Использование](#использование)
- [Заключение](#заключение)
---
## Коротко о проекте
**Vikra** — экспериментальное семейство языковых моделей, исследующее влияние:
- геометрии представлений
- квантования
- гибридных мерджей
на численную динамику трансформеров.
Проект **Vikras** не ограничивается одной базой или одной архитектурой: это семейство моделей, объединённых идеей численной инвариантности эксперимента.
- **Vikra_%** — имя конкретной модели
- **Vikras** — семейство экспериментов
- **S / M / L** — степень агрессивности и распределения битности
- **MixP / FullP / HCT** — схемы и инварианты квантования/мерджей
---
## Текущий релиз: HCT/YeAM
### Релизы
- **Vikra-HCT-YeAM-PhiMma-1B**
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-PhiMma-1B
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-PhiMma-1B-Q8_0.gguf
- **Vikra-HCT-YeAM-LLaGemma-1B**
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-LLaGemma-1B
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-LLaGemma-1B-Q8_0.gguf
- **Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B**
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B_Q8_K.gguf
- **Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B**
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B-Q6_K.gguf
---
## HCT (архитектура) / YeAM (инвариант реализации)
**HCT** — архитектурный инвариант: практический способ собирать совместимые модели и производные релизы при переносе между базами/семействами.
**YeAM (Yet Another Merge)** — инвариант реализации HCT и самостоятельная схема мерджа HF→HF: это не «ещё один SLERP/DARE/TILES» и не косметическая вариация усреднения.
YeAM выдаёт стандартный HF-результат (safetensors + index) и поддерживает:
- прямой weight-to-weight мердж
- направленное добавление знаний в выбранную модель (knowledge distillation / knowledge injection), согласованное по нескольким источникам
- дополнительный мердж Attention-слоёв как отдельную технику поверх YeAM
- мердж меньших моделей в более крупные (scale-up merge) при сохранении совместимого HF-формата
Математически YeAM работает в **реальной 4D-постановке**: обновления кодируются геометрически и согласуются через пересечения лучей в пространстве параметров. Это даёт управляемый мердж с сохранением структуры и без вырождения в наивное усреднение.
---
## Предыдущий релиз: Vikra MixedPrc (MixP_4.9b_S)
### Краткое описание
12.25B Mistral-based language model
Hybrid mixed-precision merged GGUF quantization
Экспериментальный режим анизотропного квантования
Полная версия мерджа (без квантования):
https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-FullP
GGUF-квант:
https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-MixP_4.9b_S.gguf
---
## MixP_4.9b_S: детали
### Архитектура (для MixP релиза)
| Параметр | Значение |
|---|---|
| Architecture | Mistral-based |
| Params | ~12.25B |
| Layers | 40 |
| Hidden size | 5120 |
| FFN size | 14336 |
| Heads | 32 (8 KV heads, GQA) |
| Context | 1,024,000 |
| Vocab | 131,072 (Tekken BPE) |
| RoPE theta | 1,000,000 |
### MixP_4.9b_S — схема квантования
Гибридная mixed precision схема с покомпонентным распределением типов.
| Tensor group | Quant type | BPW |
|---|---|---|
| token_embd, output | BF16 | 16 |
| attn_norm, ffn_norm, output_norm | F32 | 32 |
| attn_q | Q4_K | 4.5 |
| attn_k | Q5_K | 5.5 |
| attn_v | Q3_K | 3.44 |
| attn_output | Q4_K | 4.5 |
| ffn_gate | Q3_K | 3.44 |
| ffn_up | Q5_K | 5.5 |
| ffn_down | Q5_K / Q6_K | 5.5–6.56 |
Итого:
- Quantized layers only: ~4.89 BPW
- Full model average: ~6.11 BPW
- File size: ~8.71 GB
### Ключевая идея MixP
MixP — это не «сжать всё одинаково».
Это **анизотропное квантование информационных каналов**:
• Q/K сохраняются в более высокой точности
• V и gate намеренно квантованы до Q3_K
• Нормы и выходной слой остаются в высокой точности
Такое распределение изменяет численную динамику модели:
• усиливается структурная sparsification
• меняется распределение норм скрытых представлений
• меняется энтропия логитов
• появляется режимная чувствительность
Это не новая архитектура.
Это изменение численной геометрии существующей.
### Наблюдаемые эффекты
- сохранение top-1 предсказаний на простых задачах
- рост entropy без разрушения максимальной вероятности
- расширение hidden norm на сложных задачах
- бифуркация режимов: простые задачи ≈ инвариантны, сложные — чувствительны
Эти эффекты описываются как геометрический сдвиг представлений, а не как универсальное улучшение качества.
### math_subattention (рабочая гипотеза)
В экспериментах наблюдается эффект, условно обозначенный как:
“math_subattention”
Под этим подразумевается:
• уменьшение вклада мелких компонент V
• усиление доминирующих направлений residual stream
• повышенная инерция предыдущего токена
• снижение частоты мелких переключений логитов
Это не claim о новой архитектуре.
Это рабочая гипотеза о динамике, возникающей при Q3_K symmetric quantization.
Термин используется описательно.
### Перплексия
Метрика измерена на wikitext-2-raw-test (full):
| Model | Precision | PPL |
|---|---|---|
| Vikra MixP_4.9b_S | 6.11 BPW | 5.50 ± 0.03 |
| Baseline BF16 | Full | 6.02 ± 0.03 |
---
## Планы развития
Планируются подсемейства:
- MixP — Mixed Precision
- FullP — Full Precision версии
- HCT — multi-merge эксперименты
- S / M / L — варианты распределения битности
Все модели семейства называются **Vikra**.
Репозиторий — **Vikras**.
---
## Использование
```bash
llama-cli -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
```
```bash
llama-server -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
```
---
## Заключение
Vikras — исследовательский проект.
Он исследует, как меняется поведение трансформера, если его:
- сжимать
- смешивать
- изменять численную геометрию
Если вам интересны hidden space dynamics / regime sensitivity / anisotropic quantization — добро пожаловать.
---
# Vikras — Experimental Family of Language Models (EN)
## Table of Contents
- [Project overview](#project-overview)
- [Current Release: HCT/YeAM](#current-release-hctyeam)
- [HCT (architecture) / YeAM (implementation invariant)](#hct-architecture--yeam-implementation-invariant)
- [Previous Release: Vikra MixedPrc (MixP_4.9b_S)](#previous-release-vikra-mixedprc-mixp_49b_s)
- [MixP_4.9b_S: details](#mixp_49b_s-details)
- [Roadmap](#roadmap)
- [Usage](#usage)
- [Closing](#closing)
---
## Project overview
**Vikra** is an experimental family of language models exploring how:
- representation geometry
- quantization
- hybrid merges
affect transformer numerical dynamics.
The **Vikras** project is not tied to a single base model or architecture.
It is a family of models unified by a numerical invariance philosophy of experimentation.
- **Vikra_%** — a specific model
- **Vikras** — the experimental family
- **S / M / L** — aggressiveness and bit allocation variants
- **MixP / FullP / HCT** — quantization / merge invariants
---
## Current Release: HCT/YeAM
### Releases
- **Vikra-HCT-YeAM-PhiMma-1B**
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-PhiMma-1B
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-PhiMma-1B-Q8_0.gguf
- **Vikra-HCT-YeAM-LLaGemma-1B**
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-LLaGemma-1B
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-LLaGemma-1B-Q8_0.gguf
- **Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B**
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B_Q8_K.gguf
- **Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B**
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B-Q6_K.gguf
---
## HCT (architecture) / YeAM (implementation invariant)
**HCT** is an architectural invariant.
In English: **Heterogeneous Compatibility Transfer** — a practical way to assemble compatible checkpoints and derived releases while moving across bases / model families.
**YeAM (Yet Another Merge)** is an implementation invariant of HCT and a standalone HF→HF merge scheme: it is not “just another SLERP/DARE/TILES” and not a cosmetic variant of averaging.
YeAM produces a standard HF output (safetensors + index) and supports:
- direct weight-to-weight merging
- targeted knowledge injection into a chosen model (knowledge distillation mode), aligned across multiple sources
- an additional Attention-layer merge as a second technique on top of YeAM
- merging smaller models into larger ones (scale-up merge) while keeping a compatible HF format
YeAM operates in a **real 4D formulation**: updates are encoded geometrically and aligned via ray intersections in parameter space. This produces controlled merges that preserve structure instead of collapsing into naive averaging.
---
## Previous Release: Vikra MixedPrc (MixP_4.9b_S)
### Short Description
12.25B Mistral-based language model
Hybrid mixed-precision merged GGUF quantization
Experimental anisotropic quantization regime
Full merge version (non-quantized):
https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-FullP
GGUF quant:
https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-MixP_4.9b_S.gguf
---
## MixP_4.9b_S: details
### Architecture (for the MixP release)
| Parameter | Value |
|---|---|
| Architecture | Mistral-based |
| Params | ~12.25B |
| Layers | 40 |
| Hidden size | 5120 |
| FFN size | 14336 |
| Heads | 32 (8 KV heads, GQA) |
| Context | 1,024,000 |
| Vocab | 131,072 (Tekken BPE) |
| RoPE theta | 1,000,000 |
### MixP_4.9b_S — Quantization Scheme
A hybrid mixed-precision scheme with per-tensor type allocation.
| Tensor group | Quant type | BPW |
|---|---|---|
| token_embd, output | BF16 | 16 |
| attn_norm, ffn_norm, output_norm | F32 | 32 |
| attn_q | Q4_K | 4.5 |
| attn_k | Q5_K | 5.5 |
| attn_v | Q3_K | 3.44 |
| attn_output | Q4_K | 4.5 |
| ffn_gate | Q3_K | 3.44 |
| ffn_up | Q5_K | 5.5 |
| ffn_down | Q5_K / Q6_K | 5.5–6.56 |
Totals:
- Quantized layers only: ~4.89 BPW
- Full model average: ~6.11 BPW
- File size: ~8.71 GB
### Core idea of MixP
MixP is not “compress everything equally”.
It is **anisotropic quantization of information channels**:
- Q/K remain in higher precision
- V and gate are intentionally quantized down to Q3_K
- norms and the output layer remain in higher precision
This redistribution changes the numerical dynamics of the model:
- increased structural sparsification
- shifts in hidden norm distribution
- changes in logit entropy
- regime sensitivity
This is not a new architecture.
It is a modification of the numerical geometry of an existing one.
### Observed effects
- preservation of top-1 predictions on simple tasks
- increased entropy without collapse of maximum probability
- expansion of hidden norms on complex tasks
- mode bifurcation: simple tasks ≈ invariant, complex tasks sensitive
These effects are interpreted as a geometric shift of representations rather than a universal quality improvement.
### math_subattention (working hypothesis)
In experiments, an effect informally referred to as:
“math_subattention”
This describes:
- reduced contribution of small V components
- dominance of stronger residual directions
- increased inertia from previous token state
- reduced frequency of small logit switching
This is not an architectural claim.
It is a working hypothesis of dynamics emerging from Q3_K symmetric quantization.
The term is used descriptively.
### Perplexity
Measured on wikitext-2-raw-test (full):
| Model | Precision | PPL |
|---|---|---|
| Vikra MixP_4.9b_S | 6.11 BPW | 5.50 ± 0.03 |
| Baseline BF16 | Full | 6.02 ± 0.03 |
---
## Roadmap
Planned subfamilies:
- MixP — Mixed Precision
- FullP — Full Precision variants
- HCT — multi-merge experiments
- S / M / L — different bit allocation regimes
All models in the family are called **Vikra**.
The repository is **Vikras**.
---
## Usage
```bash
llama-cli -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
```
```bash
llama-server -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
```
---
## Closing
Vikras is a research project.
It explores how transformer behavior changes when we:
- compress
- merge
- alter numerical geometry
If you are interested in hidden space dynamics / regime sensitivity / anisotropic quantization — welcome.