Vikras-MixP / README.md

Update README.md

374229e verified 3 days ago

16.5 kB

	---
	library_name: transformers
	tags:
	- quantized
	- custom
	- nonlinear
	- mixed-precision
	- merged
	- MoK
	language:
	- ru
	- en
	metrics:
	- perplexity
	pipeline_tag: text-generation
	---

	# Vikras — Experimental Family of Language Models

	[EN below](#vikras--experimental-family-of-language-models-en)

	## Содержание

	- [Коротко о проекте](#коротко-о-проекте)
	- [Текущий релиз: HCT/YeAM](#текущий-релиз-hctyeam)
	- [HCT (архитектура) / YeAM (инвариант реализации)](#hct-архитектура--yeam-инвариант-реализации)
	- [Предыдущий релиз: Vikra MixedPrc (MixP_4.9b_S)](#предыдущий-релиз-vikra-mixedprc-mixp_49b_s)
	- [MixP_4.9b_S: детали](#mixp_49b_s-детали)
	- [Планы развития](#планы-развития)
	- [Использование](#использование)
	- [Заключение](#заключение)

	---

	## Коротко о проекте

	Vikra — экспериментальное семейство языковых моделей, исследующее влияние:

	- геометрии представлений
	- квантования
	- гибридных мерджей

	на численную динамику трансформеров.

	Проект Vikras не ограничивается одной базой или одной архитектурой: это семейство моделей, объединённых идеей численной инвариантности эксперимента.

	- Vikra_% — имя конкретной модели
	- Vikras — семейство экспериментов
	- S / M / L — степень агрессивности и распределения битности
	- MixP / FullP / HCT — схемы и инварианты квантования/мерджей

	---

	## Текущий релиз: HCT/YeAM

	### Релизы

	- Vikra-HCT-YeAM-PhiMma-1B
	- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-PhiMma-1B
	- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-PhiMma-1B-Q8_0.gguf
	- Vikra-HCT-YeAM-LLaGemma-1B
	- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-LLaGemma-1B
	- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-LLaGemma-1B-Q8_0.gguf
	- Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B
	- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B
	- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B_Q8_K.gguf
	- Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B
	- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B
	- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B-Q6_K.gguf

	---

	## HCT (архитектура) / YeAM (инвариант реализации)

	HCT — архитектурный инвариант: практический способ собирать совместимые модели и производные релизы при переносе между базами/семействами.

	YeAM (Yet Another Merge) — инвариант реализации HCT и самостоятельная схема мерджа HF→HF: это не «ещё один SLERP/DARE/TILES» и не косметическая вариация усреднения.

	YeAM выдаёт стандартный HF-результат (safetensors + index) и поддерживает:

	- прямой weight-to-weight мердж
	- направленное добавление знаний в выбранную модель (knowledge distillation / knowledge injection), согласованное по нескольким источникам
	- дополнительный мердж Attention-слоёв как отдельную технику поверх YeAM
	- мердж меньших моделей в более крупные (scale-up merge) при сохранении совместимого HF-формата

	Математически YeAM работает в реальной 4D-постановке: обновления кодируются геометрически и согласуются через пересечения лучей в пространстве параметров. Это даёт управляемый мердж с сохранением структуры и без вырождения в наивное усреднение.

	---

	## Предыдущий релиз: Vikra MixedPrc (MixP_4.9b_S)

	### Краткое описание

	12.25B Mistral-based language model
	Hybrid mixed-precision merged GGUF quantization
	Экспериментальный режим анизотропного квантования

	Полная версия мерджа (без квантования):
	https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-FullP

	GGUF-квант:
	https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-MixP_4.9b_S.gguf

	---

	## MixP_4.9b_S: детали

	### Архитектура (для MixP релиза)

	\| Параметр \| Значение \|
	\|---\|---\|
	\| Architecture \| Mistral-based \|
	\| Params \| ~12.25B \|
	\| Layers \| 40 \|
	\| Hidden size \| 5120 \|
	\| FFN size \| 14336 \|
	\| Heads \| 32 (8 KV heads, GQA) \|
	\| Context \| 1,024,000 \|
	\| Vocab \| 131,072 (Tekken BPE) \|
	\| RoPE theta \| 1,000,000 \|

	### MixP_4.9b_S — схема квантования

	Гибридная mixed precision схема с покомпонентным распределением типов.

	\| Tensor group \| Quant type \| BPW \|
	\|---\|---\|---\|
	\| token_embd, output \| BF16 \| 16 \|
	\| attn_norm, ffn_norm, output_norm \| F32 \| 32 \|
	\| attn_q \| Q4_K \| 4.5 \|
	\| attn_k \| Q5_K \| 5.5 \|
	\| attn_v \| Q3_K \| 3.44 \|
	\| attn_output \| Q4_K \| 4.5 \|
	\| ffn_gate \| Q3_K \| 3.44 \|
	\| ffn_up \| Q5_K \| 5.5 \|
	\| ffn_down \| Q5_K / Q6_K \| 5.5–6.56 \|

	Итого:

	- Quantized layers only: ~4.89 BPW
	- Full model average: ~6.11 BPW
	- File size: ~8.71 GB

	### Ключевая идея MixP

	MixP — это не «сжать всё одинаково».

	Это анизотропное квантование информационных каналов:

	• Q/K сохраняются в более высокой точности
	• V и gate намеренно квантованы до Q3_K
	• Нормы и выходной слой остаются в высокой точности

	Такое распределение изменяет численную динамику модели:

	• усиливается структурная sparsification
	• меняется распределение норм скрытых представлений
	• меняется энтропия логитов
	• появляется режимная чувствительность

	Это не новая архитектура.
	Это изменение численной геометрии существующей.

	### Наблюдаемые эффекты

	- сохранение top-1 предсказаний на простых задачах
	- рост entropy без разрушения максимальной вероятности
	- расширение hidden norm на сложных задачах
	- бифуркация режимов: простые задачи ≈ инвариантны, сложные — чувствительны

	Эти эффекты описываются как геометрический сдвиг представлений, а не как универсальное улучшение качества.


	### math_subattention (рабочая гипотеза)

	В экспериментах наблюдается эффект, условно обозначенный как:

	“math_subattention”

	Под этим подразумевается:

	• уменьшение вклада мелких компонент V
	• усиление доминирующих направлений residual stream
	• повышенная инерция предыдущего токена
	• снижение частоты мелких переключений логитов

	Это не claim о новой архитектуре.
	Это рабочая гипотеза о динамике, возникающей при Q3_K symmetric quantization.

	Термин используется описательно.

	### Перплексия

	Метрика измерена на wikitext-2-raw-test (full):

	\| Model \| Precision \| PPL \|
	\|---\|---\|---\|
	\| Vikra MixP_4.9b_S \| 6.11 BPW \| 5.50 ± 0.03 \|
	\| Baseline BF16 \| Full \| 6.02 ± 0.03 \|

	---

	## Планы развития

	Планируются подсемейства:

	- MixP — Mixed Precision
	- FullP — Full Precision версии
	- HCT — multi-merge эксперименты
	- S / M / L — варианты распределения битности

	Все модели семейства называются Vikra.
	Репозиторий — Vikras.

	---

	## Использование

	```bash
	llama-cli -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
	```

	```bash
	llama-server -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
	```

	---

	## Заключение

	Vikras — исследовательский проект.

	Он исследует, как меняется поведение трансформера, если его:

	- сжимать
	- смешивать
	- изменять численную геометрию

	Если вам интересны hidden space dynamics / regime sensitivity / anisotropic quantization — добро пожаловать.

	---

	# Vikras — Experimental Family of Language Models (EN)

	## Table of Contents

	- [Project overview](#project-overview)
	- [Current Release: HCT/YeAM](#current-release-hctyeam)
	- [HCT (architecture) / YeAM (implementation invariant)](#hct-architecture--yeam-implementation-invariant)
	- [Previous Release: Vikra MixedPrc (MixP_4.9b_S)](#previous-release-vikra-mixedprc-mixp_49b_s)
	- [MixP_4.9b_S: details](#mixp_49b_s-details)
	- [Roadmap](#roadmap)
	- [Usage](#usage)
	- [Closing](#closing)

	---

	## Project overview

	Vikra is an experimental family of language models exploring how:

	- representation geometry
	- quantization
	- hybrid merges

	affect transformer numerical dynamics.

	The Vikras project is not tied to a single base model or architecture.
	It is a family of models unified by a numerical invariance philosophy of experimentation.

	- Vikra_% — a specific model
	- Vikras — the experimental family
	- S / M / L — aggressiveness and bit allocation variants
	- MixP / FullP / HCT — quantization / merge invariants

	---

	## Current Release: HCT/YeAM

	### Releases

	- Vikra-HCT-YeAM-PhiMma-1B
	- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-PhiMma-1B
	- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-PhiMma-1B-Q8_0.gguf
	- Vikra-HCT-YeAM-LLaGemma-1B
	- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-LLaGemma-1B
	- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-LLaGemma-1B-Q8_0.gguf
	- Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B
	- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B
	- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-3_3.2_QweLLa-1.7B_Q8_K.gguf
	- Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B
	- HF: https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B
	- GGUF: https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-HCT-YeAM-Vikhr-NemoGemma-12B_plus_1B-Q6_K.gguf

	---

	## HCT (architecture) / YeAM (implementation invariant)

	HCT is an architectural invariant.
	In English: Heterogeneous Compatibility Transfer — a practical way to assemble compatible checkpoints and derived releases while moving across bases / model families.

	YeAM (Yet Another Merge) is an implementation invariant of HCT and a standalone HF→HF merge scheme: it is not “just another SLERP/DARE/TILES” and not a cosmetic variant of averaging.

	YeAM produces a standard HF output (safetensors + index) and supports:

	- direct weight-to-weight merging
	- targeted knowledge injection into a chosen model (knowledge distillation mode), aligned across multiple sources
	- an additional Attention-layer merge as a second technique on top of YeAM
	- merging smaller models into larger ones (scale-up merge) while keeping a compatible HF format

	YeAM operates in a real 4D formulation: updates are encoded geometrically and aligned via ray intersections in parameter space. This produces controlled merges that preserve structure instead of collapsing into naive averaging.

	---

	## Previous Release: Vikra MixedPrc (MixP_4.9b_S)

	### Short Description

	12.25B Mistral-based language model
	Hybrid mixed-precision merged GGUF quantization
	Experimental anisotropic quantization regime

	Full merge version (non-quantized):
	https://huggingface.co/srs6901/Vikras-MixP/tree/main/Vikra-FullP

	GGUF quant:
	https://huggingface.co/srs6901/Vikras-MixP/blob/main/Vikra-MixP_4.9b_S.gguf

	---

	## MixP_4.9b_S: details

	### Architecture (for the MixP release)

	\| Parameter \| Value \|
	\|---\|---\|
	\| Architecture \| Mistral-based \|
	\| Params \| ~12.25B \|
	\| Layers \| 40 \|
	\| Hidden size \| 5120 \|
	\| FFN size \| 14336 \|
	\| Heads \| 32 (8 KV heads, GQA) \|
	\| Context \| 1,024,000 \|
	\| Vocab \| 131,072 (Tekken BPE) \|
	\| RoPE theta \| 1,000,000 \|

	### MixP_4.9b_S — Quantization Scheme

	A hybrid mixed-precision scheme with per-tensor type allocation.

	\| Tensor group \| Quant type \| BPW \|
	\|---\|---\|---\|
	\| token_embd, output \| BF16 \| 16 \|
	\| attn_norm, ffn_norm, output_norm \| F32 \| 32 \|
	\| attn_q \| Q4_K \| 4.5 \|
	\| attn_k \| Q5_K \| 5.5 \|
	\| attn_v \| Q3_K \| 3.44 \|
	\| attn_output \| Q4_K \| 4.5 \|
	\| ffn_gate \| Q3_K \| 3.44 \|
	\| ffn_up \| Q5_K \| 5.5 \|
	\| ffn_down \| Q5_K / Q6_K \| 5.5–6.56 \|

	Totals:

	- Quantized layers only: ~4.89 BPW
	- Full model average: ~6.11 BPW
	- File size: ~8.71 GB

	### Core idea of MixP

	MixP is not “compress everything equally”.

	It is anisotropic quantization of information channels:

	- Q/K remain in higher precision
	- V and gate are intentionally quantized down to Q3_K
	- norms and the output layer remain in higher precision

	This redistribution changes the numerical dynamics of the model:

	- increased structural sparsification
	- shifts in hidden norm distribution
	- changes in logit entropy
	- regime sensitivity

	This is not a new architecture.
	It is a modification of the numerical geometry of an existing one.

	### Observed effects

	- preservation of top-1 predictions on simple tasks
	- increased entropy without collapse of maximum probability
	- expansion of hidden norms on complex tasks
	- mode bifurcation: simple tasks ≈ invariant, complex tasks sensitive

	These effects are interpreted as a geometric shift of representations rather than a universal quality improvement.

	### math_subattention (working hypothesis)

	In experiments, an effect informally referred to as:

	“math_subattention”

	This describes:

	- reduced contribution of small V components
	- dominance of stronger residual directions
	- increased inertia from previous token state
	- reduced frequency of small logit switching

	This is not an architectural claim.
	It is a working hypothesis of dynamics emerging from Q3_K symmetric quantization.

	The term is used descriptively.

	### Perplexity

	Measured on wikitext-2-raw-test (full):

	\| Model \| Precision \| PPL \|
	\|---\|---\|---\|
	\| Vikra MixP_4.9b_S \| 6.11 BPW \| 5.50 ± 0.03 \|
	\| Baseline BF16 \| Full \| 6.02 ± 0.03 \|

	---

	## Roadmap

	Planned subfamilies:

	- MixP — Mixed Precision
	- FullP — Full Precision variants
	- HCT — multi-merge experiments
	- S / M / L — different bit allocation regimes

	All models in the family are called Vikra.
	The repository is Vikras.

	---

	## Usage

	```bash
	llama-cli -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
	```

	```bash
	llama-server -m Vikra-MixP_4.9b_S.gguf -ngl 99 -c 4096
	```

	---

	## Closing

	Vikras is a research project.

	It explores how transformer behavior changes when we:

	- compress
	- merge
	- alter numerical geometry

	If you are interested in hidden space dynamics / regime sensitivity / anisotropic quantization — welcome.