MhaWay
/

Veronica

Text Generation

polymorphic-mlp

mixture-of-branches

entropy-regularized-routing

expandable-architecture

Model card Files Files and versions

MhaWay commited on Sep 14, 2025

Commit

46c2a06

·

verified ·

1 Parent(s): 076b6a7

Update README.md

Files changed (1) hide show

README.md +45 -3

README.md CHANGED Viewed

@@ -1,3 +1,45 @@
----
-license: openrail
----

+---
+language:
+- it
+- en
+library_name: transformers
+license: apache-2.0
+tags:
+- veronica
+- decoder-only
+- causal-lm
+- gqa
+- rope
+- yarn
+- flash-attn2
+pipeline_tag: text-generation
+model-index:
+- name: Veronica-Core 450M (prototype)
+  results: []
+---
+# Veronica — Custom Causal LM (decoder-only)
+**Veronica** è un modello *decoder-only* custom, progettato per massimizzare la **profondità effettiva** e la qualità per token con risorse contenute.
+Architettura: **32 layer × 1024 hidden × 16 heads, GQA=4**, **RoPE (θ=1e6) + YaRN scaling** per contesto lungo **32k**.
+Attenzione: **DuoAttention** (stream vs full window) + **SEAL** scaling sulle retrieval-heads. **RMSNorm** + **SwiGLU**.
+> **Stato**: prototipo in pretraining. Questa repo pubblica **codice + config + tokenizer** per il caricamento via `trust_remote_code=True`. I pesi saranno pubblicati successivamente.
+## Quickstart
+```python
+from transformers import AutoTokenizer, AutoModelForCausalLM
+name = "MhaWay/veronica"
+tok = AutoTokenizer.from_pretrained(name, trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained(
+    name,
+    trust_remote_code=True,
+    torch_dtype="auto",
+    device_map="auto",
+)
+prompt = "Spiega in modo semplice cos'è Veronica:"
+out = model.generate(**tok(prompt, return_tensors="pt").to(model.device))
+print(tok.decode(out[0], skip_special_tokens=True))