LoreWeaver-2

Modello LLM creato da 0, specializzato per i RP. Nonostante abbia solo 3 miliardi di parametri, può tener testa ad altri modelli linguistici, anche fino a 7B di parametri; grazie alle ultime tecnologie di addestramento, che ottimizzano al massimo ogni aspetto.

Come il modello gestisce il contesto
Il modello non aggiorna i suoi pesi durante l'inferenza. La coerenza contestuale è ottenuta attraverso meccanismi di attenzione, prompt strutturati e memoria testuale all'interno della finestra di contesto.

Altre versioni della famiglia LoreWeaver-2:

Gli altri formati di modelli della famiglia LoreWeaver-2 si trovano qui:

Architettura

Tokenizer (BPE GPT-Neo)

  • Normalizzazione Unicode (NFKC)
  • Vocab size (prevista): 50k–65k
  • Lingue supportate: Inglese, Italiano, Francese, Tedesco, Spagnolo

Datasets utilizzati

  • Datasets di linguaggio
    • HuggingFaceFW/fineweb-edu
    • BramVanroy/CommonCrawl-CreativeCommons-fine
    • OpenLLM-France/wikipedia
  • Datasets di RolePlay
    • Anthropic/hh-rlhf
    • teknium/OpenHermes-2.5
    • NousResearch/CharacterCodex
    • hieunguyenminh/roleplay 🔜
    • IlyaGusev/gpt_roleplay_realm 🔜
    • iamketan25/roleplay-instructions-dataset 🔜
    • Croc-Prog-HF/Creative-knowledge-for-Writing 🔜

Tecnologie di ottimizzazione dell'addestramento

Ottimizzazioni di memoria (VRAM)

  • Gradient Checkpointing
  • Mixed Precision: bf16/fp16 (rilevato automaticamente durante l'addestramento)
  • Gradient Accumulation
  • Ottimizzazione del'uso diretto della VRAM con Unsloth.
    • Unsloth FastLanguageModel, UnslothTrainer

Ottimizzazioni di attenzione

  • FlashAttention 2
  • TF32 (solo su Ampere+)
  • AdamW fused (se disponibile)
  • Weight decay selettivo

Ottimizzazioni del learning rate

  • Cosine LR Scheduler
  • Warmup lungo

Ottimizzazioni sul dataset

  • Curriculum Learning (soft)
  • Turn-aware training

Ottimizzazioni Semantiche

  • Tone tokens
  • Safe-stop token

Deep learning (Contextual Learning)

Contextual Learning permette al modello di non cambiare i pesi e ricodificare il contesto a ogni turno.

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Datasets used to train Croc-Prog-HF/LoreWeaver-2

Collection including Croc-Prog-HF/LoreWeaver-2

Evaluation results

  • Intended Use
    self-reported
    Single-turn role-play dialogue generation with contextual awareness.
  • Context Handling
    self-reported
    Attention-based contextual learning using structured prompts and KV cache.
  • Response Length
    self-reported
    Optimized for short, single-utterance replies per turn.
  • Memory Mechanism
    self-reported
    Text-based memory handled through prompt context (no weight updates at inference).