Vikras — Experimental Family of Language Models

EN below

Содержание


Коротко о проекте

Vikra — экспериментальное семейство языковых моделей, исследующее влияние:

  • геометрии представлений
  • квантования
  • гибридных мерджей

на численную динамику трансформеров.

Проект Vikras не ограничивается одной базой или одной архитектурой: это семейство моделей, объединённых идеей численной инвариантности эксперимента.

  • Vikra_% — имя конкретной модели
  • Vikras — семейство экспериментов
  • S / M / L — степень агрессивности и распределения битности
  • MixP / FullP / HCT — схемы и инварианты квантования/мерджей

Текущий релиз: HCT/YeAM

Релизы


HCT (архитектура) / YeAM (инвариант реализации)

HCT — архитектурный инвариант: практический способ собирать совместимые модели и производные релизы при переносе между базами/семействами.

YeAM (Yet Another Merge) — инвариант реализации HCT и самостоятельная схема мерджа HF→HF: это не «ещё один SLERP/DARE/TILES» и не косметическая вариация усреднения.

YeAM выдаёт стандартный HF-результат (safetensors + index) и поддерживает:

  • прямой weight-to-weight мердж
  • направленное добавление знаний в выбранную модель (knowledge distillation / knowledge injection), согласованное по нескольким источникам
  • дополнительный мердж Attention-слоёв как отдельную технику поверх YeAM
  • мердж меньших моделей в более крупные (scale-up merge) при сохранении совместимого HF-формата

Математически YeAM работает в реальной 4D-постановке: обновления кодируются геометрически и согласуются через пересечения лучей в пространстве параметров. Это даёт управляемый мердж с сохранением структуры и без вырождения в наивное усреднение.


Предыдущий релиз: Vikra MixedPrc (MixP_4.9b_S)

Краткое описание

12.25B Mistral-based language model
Hybrid mixed-precision merged GGUF quantization
Экспериментальный режим анизотропного квантования

Полная версия мерджа (без квантования): https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-FullP

GGUF-квант: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-MixP_4.9b_S.gguf


MixP_4.9b_S: детали

Архитектура (для MixP релиза)

Параметр Значение
Architecture Mistral-based
Params ~12.25B
Layers 40
Hidden size 5120
FFN size 14336
Heads 32 (8 KV heads, GQA)
Context 1,024,000
Vocab 131,072 (Tekken BPE)
RoPE theta 1,000,000

MixP_4.9b_S — схема квантования

Гибридная mixed precision схема с покомпонентным распределением типов.

Tensor group Quant type BPW
token_embd, output BF16 16
attn_norm, ffn_norm, output_norm F32 32
attn_q Q4_K 4.5
attn_k Q5_K 5.5
attn_v Q3_K 3.44
attn_output Q4_K 4.5
ffn_gate Q3_K 3.44
ffn_up Q5_K 5.5
ffn_down Q5_K / Q6_K 5.5–6.56

Итого:

  • Quantized layers only: ~4.89 BPW
  • Full model average: ~6.11 BPW
  • File size: ~8.71 GB

Ключевая идея MixP

MixP — это не «сжать всё одинаково».

Это анизотропное квантование информационных каналов:

• Q/K сохраняются в более высокой точности • V и gate намеренно квантованы до Q3_K • Нормы и выходной слой остаются в высокой точности

Такое распределение изменяет численную динамику модели:

• усиливается структурная sparsification • меняется распределение норм скрытых представлений • меняется энтропия логитов • появляется режимная чувствительность

Это не новая архитектура. Это изменение численной геометрии существующей.

Наблюдаемые эффекты

  • сохранение top-1 предсказаний на простых задачах
  • рост entropy без разрушения максимальной вероятности
  • расширение hidden norm на сложных задачах
  • бифуркация режимов: простые задачи ≈ инвариантны, сложные — чувствительны

Эти эффекты описываются как геометрический сдвиг представлений, а не как универсальное улучшение качества.

math_subattention (рабочая гипотеза)

В экспериментах наблюдается эффект, условно обозначенный как:

“math_subattention”

Под этим подразумевается:

• уменьшение вклада мелких компонент V • усиление доминирующих направлений residual stream • повышенная инерция предыдущего токена • снижение частоты мелких переключений логитов

Это не claim о новой архитектуре. Это рабочая гипотеза о динамике, возникающей при Q3_K symmetric quantization.

Термин используется описательно.

Перплексия

Метрика измерена на wikitext-2-raw-test (full):

Model Precision PPL
Vikra MixP_4.9b_S 6.11 BPW 5.50 ± 0.03
Baseline BF16 Full 6.02 ± 0.03

Планы развития

Планируются подсемейства:

  • MixP — Mixed Precision
  • FullP — Full Precision версии
  • HCT — multi-merge эксперименты
  • S / M / L — варианты распределения битности

Все модели семейства называются Vikra. Репозиторий — Vikras.


Использование

llama-cli -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
llama-server -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096

Заключение

Vikras — исследовательский проект.

Он исследует, как меняется поведение трансформера, если его:

  • сжимать
  • смешивать
  • изменять численную геометрию

Если вам интересны hidden space dynamics / regime sensitivity / anisotropic quantization — добро пожаловать.


Vikras — Experimental Family of Language Models (EN)

Table of Contents


Project overview

Vikra is an experimental family of language models exploring how:

  • representation geometry
  • quantization
  • hybrid merges

affect transformer numerical dynamics.

The Vikras project is not tied to a single base model or architecture. It is a family of models unified by a numerical invariance philosophy of experimentation.

  • Vikra_% — a specific model
  • Vikras — the experimental family
  • S / M / L — aggressiveness and bit allocation variants
  • MixP / FullP / HCT — quantization / merge invariants

Current Release: HCT/YeAM

Releases


HCT (architecture) / YeAM (implementation invariant)

HCT is an architectural invariant. In English: Heterogeneous Compatibility Transfer — a practical way to assemble compatible checkpoints and derived releases while moving across bases / model families.

YeAM (Yet Another Merge) is an implementation invariant of HCT and a standalone HF→HF merge scheme: it is not “just another SLERP/DARE/TILES” and not a cosmetic variant of averaging.

YeAM produces a standard HF output (safetensors + index) and supports:

  • direct weight-to-weight merging
  • targeted knowledge injection into a chosen model (knowledge distillation mode), aligned across multiple sources
  • an additional Attention-layer merge as a second technique on top of YeAM
  • merging smaller models into larger ones (scale-up merge) while keeping a compatible HF format

YeAM operates in a real 4D formulation: updates are encoded geometrically and aligned via ray intersections in parameter space. This produces controlled merges that preserve structure instead of collapsing into naive averaging.


Previous Release: Vikra MixedPrc (MixP_4.9b_S)

Short Description

12.25B Mistral-based language model
Hybrid mixed-precision merged GGUF quantization
Experimental anisotropic quantization regime

Full merge version (non-quantized): https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-FullP

GGUF quant: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-MixP_4.9b_S.gguf


MixP_4.9b_S: details

Architecture (for the MixP release)

Parameter Value
Architecture Mistral-based
Params ~12.25B
Layers 40
Hidden size 5120
FFN size 14336
Heads 32 (8 KV heads, GQA)
Context 1,024,000
Vocab 131,072 (Tekken BPE)
RoPE theta 1,000,000

MixP_4.9b_S — Quantization Scheme

A hybrid mixed-precision scheme with per-tensor type allocation.

Tensor group Quant type BPW
token_embd, output BF16 16
attn_norm, ffn_norm, output_norm F32 32
attn_q Q4_K 4.5
attn_k Q5_K 5.5
attn_v Q3_K 3.44
attn_output Q4_K 4.5
ffn_gate Q3_K 3.44
ffn_up Q5_K 5.5
ffn_down Q5_K / Q6_K 5.5–6.56

Totals:

  • Quantized layers only: ~4.89 BPW
  • Full model average: ~6.11 BPW
  • File size: ~8.71 GB

Core idea of MixP

MixP is not “compress everything equally”.

It is anisotropic quantization of information channels:

  • Q/K remain in higher precision
  • V and gate are intentionally quantized down to Q3_K
  • norms and the output layer remain in higher precision

This redistribution changes the numerical dynamics of the model:

  • increased structural sparsification
  • shifts in hidden norm distribution
  • changes in logit entropy
  • regime sensitivity

This is not a new architecture. It is a modification of the numerical geometry of an existing one.

Observed effects

  • preservation of top-1 predictions on simple tasks
  • increased entropy without collapse of maximum probability
  • expansion of hidden norms on complex tasks
  • mode bifurcation: simple tasks ≈ invariant, complex tasks sensitive

These effects are interpreted as a geometric shift of representations rather than a universal quality improvement.

math_subattention (working hypothesis)

In experiments, an effect informally referred to as:

“math_subattention”

This describes:

  • reduced contribution of small V components
  • dominance of stronger residual directions
  • increased inertia from previous token state
  • reduced frequency of small logit switching

This is not an architectural claim. It is a working hypothesis of dynamics emerging from Q3_K symmetric quantization.

The term is used descriptively.

Perplexity

Measured on wikitext-2-raw-test (full):

Model Precision PPL
Vikra MixP_4.9b_S 6.11 BPW 5.50 ± 0.03
Baseline BF16 Full 6.02 ± 0.03

Roadmap

Planned subfamilies:

  • MixP — Mixed Precision
  • FullP — Full Precision variants
  • HCT — multi-merge experiments
  • S / M / L — different bit allocation regimes

All models in the family are called Vikra. The repository is Vikras.


Usage

llama-cli -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
llama-server -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096

Closing

Vikras is a research project.

It explores how transformer behavior changes when we:

  • compress
  • merge
  • alter numerical geometry

If you are interested in hidden space dynamics / regime sensitivity / anisotropic quantization — welcome.

Downloads last month
1,389
GGUF
Model size
2B params
Architecture
qwen3
Hardware compatibility
Log In to add your hardware

6-bit

8-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 1 Ask for provider support