Vikras — Experimental Family of Language Models

EN below

Содержание


Коротко о проекте

Vikra — экспериментальное семейство языковых моделей, исследующее влияние:

  • геометрии представлений
  • квантования
  • гибридных мерджей

на численную динамику трансформеров.

Проект Vikras не ограничивается одной базой или одной архитектурой: это семейство моделей, объединённых идеей численной инвариантности эксперимента.

  • Vikra_% — имя конкретной модели
  • Vikras — семейство экспериментов
  • S / M / L — степень агрессивности и распределения битности
  • MixP / FullP / HCT — схемы и инварианты квантования/мерджей

Что это за репозиторий

Это витрина моделей Vikras в диапазоне 12–18B. Здесь лежат только крупные релизы и связанные с ними GGUF-артефакты.

Сноска на основной репозиторий (лаборатория/склад):

В основном репозитории релизы и эксперименты появляются быстрее, там же полный каталог.


Текущий релиз: HCT/YeAM (12-18B)

Релизы


Vikra MixedPrc (MixP_4.9b_S)


MixP_4.9b_S: детали

Архитектура (для MixP_4.9b_S релиза)

Параметр Значение
Architecture Mistral-based
Params ~12.25B
Layers 40
Hidden size 5120
FFN size 14336
Heads 32 (8 KV heads, GQA)
Context 1,024,000
Vocab 131,072 (Tekken BPE)
RoPE theta 1,000,000

MixP_4.9b_S — схема квантования

Гибридная mixed precision схема с покомпонентным распределением типов.

Tensor group Quant type BPW
token_embd, output BF16 16
attn_norm, ffn_norm, output_norm F32 32
attn_q Q4_K 4.5
attn_k Q5_K 5.5
attn_v Q3_K 3.44
attn_output Q4_K 4.5
ffn_gate Q3_K 3.44
ffn_up Q5_K 5.5
ffn_down Q5_K / Q6_K 5.5–6.56

Итого:

  • Quantized layers only: ~4.89 BPW
  • Full model average: ~6.11 BPW
  • File size: ~8.71 GB

Ключевая идея MixP

MixP — это не «сжать всё одинаково».

Это анизотропное квантование информационных каналов:

  • Q/K сохраняются в более высокой точности
  • V и gate намеренно квантованы до Q3_K
  • Нормы и выходной слой остаются в высокой точности

Такое распределение изменяет численную динамику модели:

  • усиливается структурная sparsification
  • меняется распределение норм скрытых представлений
  • меняется энтропия логитов
  • появляется режимная чувствительность

Это не новая архитектура. Это изменение численной геометрии существующей.

Наблюдаемые эффекты

  • сохранение top-1 предсказаний на простых задачах
  • рост entropy без разрушения максимальной вероятности
  • расширение hidden norm на сложных задачах
  • бифуркация режимов: простые задачи ≈ инвариантны, сложные — чувствительны

Эти эффекты описываются как геометрический сдвиг представлений, а не как универсальное улучшение качества.

math_subattention (рабочая гипотеза)

В экспериментах наблюдается эффект, условно обозначенный как:

“math_subattention”

Под этим подразумевается:

  • уменьшение вклада мелких компонент V
  • усиление доминирующих направлений residual stream
  • повышенная инерция предыдущего токена
  • снижение частоты мелких переключений логитов

Это не claim о новой архитектуре. Это рабочая гипотеза о динамике, возникающей при Q3_K symmetric quantization.

Термин используется описательно.

Перплексия

Метрика измерена на wikitext-2-raw-test (full):

Model Precision PPL
Vikra MixP_4.9b_S 6.11 BPW 5.50 ± 0.03
Baseline BF16 Full 6.02 ± 0.03

Артефакты

  • Vikra-MXFP4.gguf

HCT (архитектура) / YeAM (инвариант реализации)

HCT — архитектурный инвариант: практический способ собирать совместимые модели и производные релизы при переносе между базами/семействами.

YeAM (Yet Another Merge) — инвариант реализации HCT и самостоятельная схема мерджа HF→HF: это не «ещё один SLERP/DARE/TILES» и не косметическая вариация усреднения.

YeAM выдаёт стандартный HF-результат (safetensors + index) и поддерживает:

  • прямой weight-to-weight мердж
  • направленное добавление знаний в выбранную модель (knowledge distillation / knowledge injection), согласованное по нескольким источникам
  • дополнительный мердж Attention-слоёв как отдельную технику поверх YeAM
  • мердж меньших моделей в более крупные (scale-up merge) при сохранении совместимого HF-формата

Математически YeAM работает в реальной 4D-постановке: обновления кодируются геометрически и согласуются через пересечения лучей в пространстве параметров. Это даёт управляемый мердж с сохранением структуры и без вырождения в наивное усреднение.


Vikras — Experimental Family of Language Models (EN)

Table of Contents


Project overview

Vikra is an experimental family of language models exploring how:

  • representation geometry
  • quantization
  • hybrid merges

affect transformer numerical dynamics.

The Vikras project is not tied to a single base model or architecture. It is a family of models unified by a numerical invariance philosophy of experimentation.

  • Vikra_% — a specific model
  • Vikras — the experimental family
  • S / M / L — aggressiveness and bit allocation variants
  • MixP / FullP / HCT — quantization / merge invariants

What this repository is

This is a curated 12–18B showcase for the Vikras family. Only larger releases and their GGUF artifacts are mirrored here.

Footnote / main repository (lab + full catalog):

The main repository is updated faster and contains the complete set of experiments.


Current Release: HCT/YeAM (12-18B)

Releases


Vikra MixedPrc (MixP_4.9b_S)


MixP_4.9b_S: details

Architecture (for the MixP_4.9b_S release)

Parameter Value
Architecture Mistral-based
Params ~12.25B
Layers 40
Hidden size 5120
FFN size 14336
Heads 32 (8 KV heads, GQA)
Context 1,024,000
Vocab 131,072 (Tekken BPE)
RoPE theta 1,000,000

MixP_4.9b_S — quantization scheme

A hybrid mixed-precision scheme with per-tensor type allocation.

Tensor group Quant type BPW
token_embd, output BF16 16
attn_norm, ffn_norm, output_norm F32 32
attn_q Q4_K 4.5
attn_k Q5_K 5.5
attn_v Q3_K 3.44
attn_output Q4_K 4.5
ffn_gate Q3_K 3.44
ffn_up Q5_K 5.5
ffn_down Q5_K / Q6_K 5.5–6.56

Totals:

  • Quantized layers only: ~4.89 BPW
  • Full model average: ~6.11 BPW
  • File size: ~8.71 GB

Core idea of MixP

MixP is not “compress everything equally”.

It is anisotropic quantization of information channels:

  • Q/K remain in higher precision
  • V and gate are intentionally quantized down to Q3_K
  • norms and the output layer remain in higher precision

This redistribution changes the numerical dynamics of the model:

  • increased structural sparsification
  • shifts in hidden norm distribution
  • changes in logit entropy
  • regime sensitivity

This is not a new architecture. It is a modification of the numerical geometry of an existing one.

Observed effects

  • preservation of top-1 predictions on simple tasks
  • increased entropy without collapse of maximum probability
  • expansion of hidden norms on complex tasks
  • mode bifurcation: simple tasks ≈ invariant, complex tasks sensitive

These effects are interpreted as a geometric shift of representations rather than a universal quality improvement.

math_subattention (working hypothesis)

In experiments, an effect informally referred to as:

“math_subattention”

This describes:

  • reduced contribution of small V components
  • dominance of stronger residual directions
  • increased inertia from previous token state
  • reduced frequency of small logit switching

This is not an architectural claim. It is a working hypothesis of dynamics emerging from Q3_K symmetric quantization.

The term is used descriptively.

Perplexity

Measured on wikitext-2-raw-test (full):

Model Precision PPL
Vikra MixP_4.9b_S 6.11 BPW 5.50 ± 0.03
Baseline BF16 Full 6.02 ± 0.03

Artifacts

  • Vikra-MXFP4.gguf

HCT (architecture) / YeAM (implementation invariant)

HCT is an architectural invariant. In English: Heterogeneous Compatibility Transfer — a practical way to assemble compatible checkpoints and derived releases while moving across bases / model families.

YeAM (Yet Another Merge) is an implementation invariant of HCT and a standalone HF→HF merge scheme: it is not “just another SLERP/DARE/TILES” and not a cosmetic variant of averaging.

YeAM produces a standard HF output (safetensors + index) and supports:

  • direct weight-to-weight merging
  • targeted knowledge injection into a chosen model (knowledge distillation mode), aligned across multiple sources
  • an additional Attention-layer merge as a second technique on top of YeAM
  • merging smaller models into larger ones (scale-up merge) while keeping a compatible HF format

YeAM operates in a real 4D formulation: updates are encoded geometrically and aligned via ray intersections in parameter space. This produces controlled merges that preserve structure instead of collapsing into naive averaging.


Downloads last month
29
GGUF
Model size
12B params
Architecture
llama
Hardware compatibility
Log In to add your hardware

6-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Collection including srs6901/Vikras-12-to-18b-collection