|
|
--- |
|
|
library_name: transformers |
|
|
tags: |
|
|
- quantized |
|
|
- custom |
|
|
- nonlinear |
|
|
- mixed-precision |
|
|
- merged |
|
|
- MoK |
|
|
language: |
|
|
- ru |
|
|
- en |
|
|
metrics: |
|
|
- perplexity |
|
|
pipeline_tag: text-generation |
|
|
--- |
|
|
|
|
|
# Vikras — Experimental Family of Language Models |
|
|
|
|
|
[EN below](#vikras--experimental-family-of-language-models-en) |
|
|
|
|
|
## Содержание |
|
|
|
|
|
- [Коротко о проекте](#коротко-о-проекте) |
|
|
- [Текущий релиз: HCT/YeAM](#текущий-релиз-hctyeam) |
|
|
- [HCT (архитектура) / YeAM (инвариант реализации)](#hct-архитектура--yeam-инвариант-реализации) |
|
|
- [Предыдущий релиз: Vikra MixedPrc (MixP_4.9b_S)](#предыдущий-релиз-vikra-mixedprc-mixp_49b_s) |
|
|
- [MixP_4.9b_S: детали](#mixp_49b_s-детали) |
|
|
- [Планы развития](#планы-развития) |
|
|
- [Использование](#использование) |
|
|
- [Заключение](#заключение) |
|
|
|
|
|
--- |
|
|
|
|
|
## Коротко о проекте |
|
|
|
|
|
**Vikra** — экспериментальное семейство языковых моделей, исследующее влияние: |
|
|
|
|
|
- геометрии представлений |
|
|
- квантования |
|
|
- гибридных мерджей |
|
|
|
|
|
на численную динамику трансформеров. |
|
|
|
|
|
Проект **Vikras** не ограничивается одной базой или одной архитектурой: это семейство моделей, объединённых идеей численной инвариантности эксперимента. |
|
|
|
|
|
- **Vikra_%** — имя конкретной модели |
|
|
- **Vikras** — семейство экспериментов |
|
|
- **S / M / L** — степень агрессивности и распределения битности |
|
|
- **MixP / FullP / HCT** — схемы и инварианты квантования/мерджей |
|
|
|
|
|
--- |
|
|
|
|
|
## Текущий релиз: HCT/YeAM |
|
|
|
|
|
### Релизы |
|
|
|
|
|
- **Vikra-HCT-YeAM-PhiMma-1B** |
|
|
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-PhiMma-1B |
|
|
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-PhiMma-1B-Q8_0.gguf |
|
|
- **Vikra-HCT-YeAM-LLaGemma-1B** |
|
|
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-LLaGemma-1B |
|
|
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-LLaGemma-1B-Q8_0.gguf |
|
|
- **Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B** |
|
|
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B |
|
|
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B_Q8_K.gguf |
|
|
- **Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B** |
|
|
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B |
|
|
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B-Q6_K.gguf |
|
|
|
|
|
--- |
|
|
|
|
|
## HCT (архитектура) / YeAM (инвариант реализации) |
|
|
|
|
|
**HCT** — архитектурный инвариант: практический способ собирать совместимые модели и производные релизы при переносе между базами/семействами. |
|
|
|
|
|
**YeAM (Yet Another Merge)** — инвариант реализации HCT и самостоятельная схема мерджа HF→HF: это не «ещё один SLERP/DARE/TILES» и не косметическая вариация усреднения. |
|
|
|
|
|
YeAM выдаёт стандартный HF-результат (safetensors + index) и поддерживает: |
|
|
|
|
|
- прямой weight-to-weight мердж |
|
|
- направленное добавление знаний в выбранную модель (knowledge distillation / knowledge injection), согласованное по нескольким источникам |
|
|
- дополнительный мердж Attention-слоёв как отдельную технику поверх YeAM |
|
|
- мердж меньших моделей в более крупные (scale-up merge) при сохранении совместимого HF-формата |
|
|
|
|
|
Математически YeAM работает в **реальной 4D-постановке**: обновления кодируются геометрически и согласуются через пересечения лучей в пространстве параметров. Это даёт управляемый мердж с сохранением структуры и без вырождения в наивное усреднение. |
|
|
|
|
|
--- |
|
|
|
|
|
## Предыдущий релиз: Vikra MixedPrc (MixP_4.9b_S) |
|
|
|
|
|
### Краткое описание |
|
|
|
|
|
12.25B Mistral-based language model |
|
|
Hybrid mixed-precision merged GGUF quantization |
|
|
Экспериментальный режим анизотропного квантования |
|
|
|
|
|
Полная версия мерджа (без квантования): |
|
|
https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-FullP |
|
|
|
|
|
GGUF-квант: |
|
|
https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-MixP_4.9b_S.gguf |
|
|
|
|
|
--- |
|
|
|
|
|
## MixP_4.9b_S: детали |
|
|
|
|
|
### Архитектура (для MixP релиза) |
|
|
|
|
|
| Параметр | Значение | |
|
|
|---|---| |
|
|
| Architecture | Mistral-based | |
|
|
| Params | ~12.25B | |
|
|
| Layers | 40 | |
|
|
| Hidden size | 5120 | |
|
|
| FFN size | 14336 | |
|
|
| Heads | 32 (8 KV heads, GQA) | |
|
|
| Context | 1,024,000 | |
|
|
| Vocab | 131,072 (Tekken BPE) | |
|
|
| RoPE theta | 1,000,000 | |
|
|
|
|
|
### MixP_4.9b_S — схема квантования |
|
|
|
|
|
Гибридная mixed precision схема с покомпонентным распределением типов. |
|
|
|
|
|
| Tensor group | Quant type | BPW | |
|
|
|---|---|---| |
|
|
| token_embd, output | BF16 | 16 | |
|
|
| attn_norm, ffn_norm, output_norm | F32 | 32 | |
|
|
| attn_q | Q4_K | 4.5 | |
|
|
| attn_k | Q5_K | 5.5 | |
|
|
| attn_v | Q3_K | 3.44 | |
|
|
| attn_output | Q4_K | 4.5 | |
|
|
| ffn_gate | Q3_K | 3.44 | |
|
|
| ffn_up | Q5_K | 5.5 | |
|
|
| ffn_down | Q5_K / Q6_K | 5.5–6.56 | |
|
|
|
|
|
Итого: |
|
|
|
|
|
- Quantized layers only: ~4.89 BPW |
|
|
- Full model average: ~6.11 BPW |
|
|
- File size: ~8.71 GB |
|
|
|
|
|
### Ключевая идея MixP |
|
|
|
|
|
MixP — это не «сжать всё одинаково». |
|
|
|
|
|
Это **анизотропное квантование информационных каналов**: |
|
|
|
|
|
• Q/K сохраняются в более высокой точности |
|
|
• V и gate намеренно квантованы до Q3_K |
|
|
• Нормы и выходной слой остаются в высокой точности |
|
|
|
|
|
Такое распределение изменяет численную динамику модели: |
|
|
|
|
|
• усиливается структурная sparsification |
|
|
• меняется распределение норм скрытых представлений |
|
|
• меняется энтропия логитов |
|
|
• появляется режимная чувствительность |
|
|
|
|
|
Это не новая архитектура. |
|
|
Это изменение численной геометрии существующей. |
|
|
|
|
|
### Наблюдаемые эффекты |
|
|
|
|
|
- сохранение top-1 предсказаний на простых задачах |
|
|
- рост entropy без разрушения максимальной вероятности |
|
|
- расширение hidden norm на сложных задачах |
|
|
- бифуркация режимов: простые задачи ≈ инвариантны, сложные — чувствительны |
|
|
|
|
|
Эти эффекты описываются как геометрический сдвиг представлений, а не как универсальное улучшение качества. |
|
|
|
|
|
|
|
|
### math_subattention (рабочая гипотеза) |
|
|
|
|
|
В экспериментах наблюдается эффект, условно обозначенный как: |
|
|
|
|
|
“math_subattention” |
|
|
|
|
|
Под этим подразумевается: |
|
|
|
|
|
• уменьшение вклада мелких компонент V |
|
|
• усиление доминирующих направлений residual stream |
|
|
• повышенная инерция предыдущего токена |
|
|
• снижение частоты мелких переключений логитов |
|
|
|
|
|
Это не claim о новой архитектуре. |
|
|
Это рабочая гипотеза о динамике, возникающей при Q3_K symmetric quantization. |
|
|
|
|
|
Термин используется описательно. |
|
|
|
|
|
### Перплексия |
|
|
|
|
|
Метрика измерена на wikitext-2-raw-test (full): |
|
|
|
|
|
| Model | Precision | PPL | |
|
|
|---|---|---| |
|
|
| Vikra MixP_4.9b_S | 6.11 BPW | 5.50 ± 0.03 | |
|
|
| Baseline BF16 | Full | 6.02 ± 0.03 | |
|
|
|
|
|
--- |
|
|
|
|
|
## Планы развития |
|
|
|
|
|
Планируются подсемейства: |
|
|
|
|
|
- MixP — Mixed Precision |
|
|
- FullP — Full Precision версии |
|
|
- HCT — multi-merge эксперименты |
|
|
- S / M / L — варианты распределения битности |
|
|
|
|
|
Все модели семейства называются **Vikra**. |
|
|
Репозиторий — **Vikras**. |
|
|
|
|
|
--- |
|
|
|
|
|
## Использование |
|
|
|
|
|
```bash |
|
|
llama-cli -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096 |
|
|
``` |
|
|
|
|
|
```bash |
|
|
llama-server -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096 |
|
|
``` |
|
|
|
|
|
--- |
|
|
|
|
|
## Заключение |
|
|
|
|
|
Vikras — исследовательский проект. |
|
|
|
|
|
Он исследует, как меняется поведение трансформера, если его: |
|
|
|
|
|
- сжимать |
|
|
- смешивать |
|
|
- изменять численную геометрию |
|
|
|
|
|
Если вам интересны hidden space dynamics / regime sensitivity / anisotropic quantization — добро пожаловать. |
|
|
|
|
|
--- |
|
|
|
|
|
# Vikras — Experimental Family of Language Models (EN) |
|
|
|
|
|
## Table of Contents |
|
|
|
|
|
- [Project overview](#project-overview) |
|
|
- [Current Release: HCT/YeAM](#current-release-hctyeam) |
|
|
- [HCT (architecture) / YeAM (implementation invariant)](#hct-architecture--yeam-implementation-invariant) |
|
|
- [Previous Release: Vikra MixedPrc (MixP_4.9b_S)](#previous-release-vikra-mixedprc-mixp_49b_s) |
|
|
- [MixP_4.9b_S: details](#mixp_49b_s-details) |
|
|
- [Roadmap](#roadmap) |
|
|
- [Usage](#usage) |
|
|
- [Closing](#closing) |
|
|
|
|
|
--- |
|
|
|
|
|
## Project overview |
|
|
|
|
|
**Vikra** is an experimental family of language models exploring how: |
|
|
|
|
|
- representation geometry |
|
|
- quantization |
|
|
- hybrid merges |
|
|
|
|
|
affect transformer numerical dynamics. |
|
|
|
|
|
The **Vikras** project is not tied to a single base model or architecture. |
|
|
It is a family of models unified by a numerical invariance philosophy of experimentation. |
|
|
|
|
|
- **Vikra_%** — a specific model |
|
|
- **Vikras** — the experimental family |
|
|
- **S / M / L** — aggressiveness and bit allocation variants |
|
|
- **MixP / FullP / HCT** — quantization / merge invariants |
|
|
|
|
|
--- |
|
|
|
|
|
## Current Release: HCT/YeAM |
|
|
|
|
|
### Releases |
|
|
|
|
|
- **Vikra-HCT-YeAM-PhiMma-1B** |
|
|
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-PhiMma-1B |
|
|
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-PhiMma-1B-Q8_0.gguf |
|
|
- **Vikra-HCT-YeAM-LLaGemma-1B** |
|
|
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-LLaGemma-1B |
|
|
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-LLaGemma-1B-Q8_0.gguf |
|
|
- **Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B** |
|
|
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B |
|
|
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B_Q8_K.gguf |
|
|
- **Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B** |
|
|
- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B |
|
|
- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B-Q6_K.gguf |
|
|
|
|
|
--- |
|
|
|
|
|
## HCT (architecture) / YeAM (implementation invariant) |
|
|
|
|
|
**HCT** is an architectural invariant. |
|
|
In English: **Heterogeneous Compatibility Transfer** — a practical way to assemble compatible checkpoints and derived releases while moving across bases / model families. |
|
|
|
|
|
**YeAM (Yet Another Merge)** is an implementation invariant of HCT and a standalone HF→HF merge scheme: it is not “just another SLERP/DARE/TILES” and not a cosmetic variant of averaging. |
|
|
|
|
|
YeAM produces a standard HF output (safetensors + index) and supports: |
|
|
|
|
|
- direct weight-to-weight merging |
|
|
- targeted knowledge injection into a chosen model (knowledge distillation mode), aligned across multiple sources |
|
|
- an additional Attention-layer merge as a second technique on top of YeAM |
|
|
- merging smaller models into larger ones (scale-up merge) while keeping a compatible HF format |
|
|
|
|
|
YeAM operates in a **real 4D formulation**: updates are encoded geometrically and aligned via ray intersections in parameter space. This produces controlled merges that preserve structure instead of collapsing into naive averaging. |
|
|
|
|
|
--- |
|
|
|
|
|
## Previous Release: Vikra MixedPrc (MixP_4.9b_S) |
|
|
|
|
|
### Short Description |
|
|
|
|
|
12.25B Mistral-based language model |
|
|
Hybrid mixed-precision merged GGUF quantization |
|
|
Experimental anisotropic quantization regime |
|
|
|
|
|
Full merge version (non-quantized): |
|
|
https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-FullP |
|
|
|
|
|
GGUF quant: |
|
|
https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-MixP_4.9b_S.gguf |
|
|
|
|
|
--- |
|
|
|
|
|
## MixP_4.9b_S: details |
|
|
|
|
|
### Architecture (for the MixP release) |
|
|
|
|
|
| Parameter | Value | |
|
|
|---|---| |
|
|
| Architecture | Mistral-based | |
|
|
| Params | ~12.25B | |
|
|
| Layers | 40 | |
|
|
| Hidden size | 5120 | |
|
|
| FFN size | 14336 | |
|
|
| Heads | 32 (8 KV heads, GQA) | |
|
|
| Context | 1,024,000 | |
|
|
| Vocab | 131,072 (Tekken BPE) | |
|
|
| RoPE theta | 1,000,000 | |
|
|
|
|
|
### MixP_4.9b_S — Quantization Scheme |
|
|
|
|
|
A hybrid mixed-precision scheme with per-tensor type allocation. |
|
|
|
|
|
| Tensor group | Quant type | BPW | |
|
|
|---|---|---| |
|
|
| token_embd, output | BF16 | 16 | |
|
|
| attn_norm, ffn_norm, output_norm | F32 | 32 | |
|
|
| attn_q | Q4_K | 4.5 | |
|
|
| attn_k | Q5_K | 5.5 | |
|
|
| attn_v | Q3_K | 3.44 | |
|
|
| attn_output | Q4_K | 4.5 | |
|
|
| ffn_gate | Q3_K | 3.44 | |
|
|
| ffn_up | Q5_K | 5.5 | |
|
|
| ffn_down | Q5_K / Q6_K | 5.5–6.56 | |
|
|
|
|
|
Totals: |
|
|
|
|
|
- Quantized layers only: ~4.89 BPW |
|
|
- Full model average: ~6.11 BPW |
|
|
- File size: ~8.71 GB |
|
|
|
|
|
### Core idea of MixP |
|
|
|
|
|
MixP is not “compress everything equally”. |
|
|
|
|
|
It is **anisotropic quantization of information channels**: |
|
|
|
|
|
- Q/K remain in higher precision |
|
|
- V and gate are intentionally quantized down to Q3_K |
|
|
- norms and the output layer remain in higher precision |
|
|
|
|
|
This redistribution changes the numerical dynamics of the model: |
|
|
|
|
|
- increased structural sparsification |
|
|
- shifts in hidden norm distribution |
|
|
- changes in logit entropy |
|
|
- regime sensitivity |
|
|
|
|
|
This is not a new architecture. |
|
|
It is a modification of the numerical geometry of an existing one. |
|
|
|
|
|
### Observed effects |
|
|
|
|
|
- preservation of top-1 predictions on simple tasks |
|
|
- increased entropy without collapse of maximum probability |
|
|
- expansion of hidden norms on complex tasks |
|
|
- mode bifurcation: simple tasks ≈ invariant, complex tasks sensitive |
|
|
|
|
|
These effects are interpreted as a geometric shift of representations rather than a universal quality improvement. |
|
|
|
|
|
### math_subattention (working hypothesis) |
|
|
|
|
|
In experiments, an effect informally referred to as: |
|
|
|
|
|
“math_subattention” |
|
|
|
|
|
This describes: |
|
|
|
|
|
- reduced contribution of small V components |
|
|
- dominance of stronger residual directions |
|
|
- increased inertia from previous token state |
|
|
- reduced frequency of small logit switching |
|
|
|
|
|
This is not an architectural claim. |
|
|
It is a working hypothesis of dynamics emerging from Q3_K symmetric quantization. |
|
|
|
|
|
The term is used descriptively. |
|
|
|
|
|
### Perplexity |
|
|
|
|
|
Measured on wikitext-2-raw-test (full): |
|
|
|
|
|
| Model | Precision | PPL | |
|
|
|---|---|---| |
|
|
| Vikra MixP_4.9b_S | 6.11 BPW | 5.50 ± 0.03 | |
|
|
| Baseline BF16 | Full | 6.02 ± 0.03 | |
|
|
|
|
|
--- |
|
|
|
|
|
## Roadmap |
|
|
|
|
|
Planned subfamilies: |
|
|
|
|
|
- MixP — Mixed Precision |
|
|
- FullP — Full Precision variants |
|
|
- HCT — multi-merge experiments |
|
|
- S / M / L — different bit allocation regimes |
|
|
|
|
|
All models in the family are called **Vikra**. |
|
|
The repository is **Vikras**. |
|
|
|
|
|
--- |
|
|
|
|
|
## Usage |
|
|
|
|
|
```bash |
|
|
llama-cli -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096 |
|
|
``` |
|
|
|
|
|
```bash |
|
|
llama-server -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096 |
|
|
``` |
|
|
|
|
|
--- |
|
|
|
|
|
## Closing |
|
|
|
|
|
Vikras is a research project. |
|
|
|
|
|
It explores how transformer behavior changes when we: |
|
|
|
|
|
- compress |
|
|
- merge |
|
|
- alter numerical geometry |
|
|
|
|
|
If you are interested in hidden space dynamics / regime sensitivity / anisotropic quantization — welcome. |
|
|
|