Mamba Hypernetwork Personalization v2

Hypernetwork: Mamba SSM encoder + delta heads (LoRA-style)
Target LLM: Injected via forward hooks on q_proj / v_proj (8 layers)
Training: GRPO with combined reward (RM + CR + PL + DIV)

Mamba-based hypernetwork trained with GRPO to inject persona-conditioned deltas into LLM attention layers.

Architecture

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support