LoreWeaver-2

Modello LLM creato da 0, specializzato per i RP. Nonostante abbia solo 3 miliardi di parametri, può tener testa ad altri modelli linguistici, anche fino a 7B di parametri; grazie alle ultime tecnologie di addestramento, che ottimizzano al massimo ogni aspetto.

Come il modello gestisce il contesto
Il modello non aggiorna i suoi pesi durante l'inferenza. La coerenza contestuale è ottenuta attraverso meccanismi di attenzione, prompt strutturati e memoria testuale all'interno della finestra di contesto.

Altre versioni della famiglia LoreWeaver-2:

Gli altri formati di modelli della famiglia LoreWeaver-2 si trovano qui:

Architettura

Backbone: togethercomputer/RedPajama-INCITE-Base-3B-v1
Hidden size: ~3200
Layers: 26–32
Heads: 32
Rotary Embeddings (RoPE)
RMSNorm
SwiGLU
KV-cache

Tokenizer (BPE GPT-Neo)

Normalizzazione Unicode (NFKC)
Vocab size (prevista): 50k–65k
Lingue supportate: Inglese, Italiano, Francese, Tedesco, Spagnolo

Datasets utilizzati

Datasets di linguaggio
- HuggingFaceFW/fineweb-edu
  - en
- BramVanroy/CommonCrawl-CreativeCommons-fine
  - de
  - en
  - fr
  - it
  - es
- OpenLLM-France/wikipedia
  - de
  - fr
  - it
  - es
Datasets di RolePlay
- Anthropic/hh-rlhf
- teknium/OpenHermes-2.5
- NousResearch/CharacterCodex
- hieunguyenminh/roleplay 🔜
- IlyaGusev/gpt_roleplay_realm 🔜
- iamketan25/roleplay-instructions-dataset 🔜
- Croc-Prog-HF/Creative-knowledge-for-Writing 🔜

Tecnologie di ottimizzazione dell'addestramento

Ottimizzazioni di memoria (VRAM)

Gradient Checkpointing
Mixed Precision: bf16/fp16 (rilevato automaticamente durante l'addestramento)
Gradient Accumulation
Ottimizzazione del'uso diretto della VRAM con Unsloth.
- Unsloth FastLanguageModel, UnslothTrainer

Ottimizzazioni di attenzione

FlashAttention 2
TF32 (solo su Ampere+)
AdamW fused (se disponibile)
Weight decay selettivo

Ottimizzazioni del learning rate

Cosine LR Scheduler
Warmup lungo

Ottimizzazioni sul dataset

Curriculum Learning (soft)
Turn-aware training

Ottimizzazioni Semantiche

Tone tokens
Safe-stop token

Deep learning (Contextual Learning)

Contextual Learning permette al modello di non cambiare i pesi e ricodificare il contesto a ogni turno.

Downloads last month: -; Downloads are not tracked for this model. How to track

Datasets used to train Croc-Prog-HF/LoreWeaver-2

Collection including Croc-Prog-HF/LoreWeaver-2

LoreWeaver-2 Family

Collection

3 items • Updated 4 days ago

Evaluation results

Intended Use
self-reported

Single-turn role-play dialogue generation with contextual awareness.
Context Handling
self-reported

Attention-based contextual learning using structured prompts and KV cache.
Response Length
self-reported

Optimized for short, single-utterance replies per turn.
Memory Mechanism
self-reported

Text-based memory handled through prompt context (no weight updates at inference).