Restructure to src/ layout with attention, per-layer MoE, and working chat

73400c8 17 days ago

1.41 kB

	model:
	name: "SHOREKEEPER-4B"
	version: "1.0.0"

	dim: 3072
	n_layers: 28
	n_heads: 24
	n_kv_heads: 6
	head_dim: 128
	vocab_size: 50304
	seq_len: 8192

	n_experts: 12
	n_activated: 2
	expert_dim: 2048

	experts:
	router: "Sentinel"
	members:
	- name: "Asmoday"
	role: "code"
	specialization: "python_development"
	- name: "Istaroth"
	role: "systems"
	specialization: "os_networking"
	- name: "Ronova"
	role: "reasoning"
	specialization: "math_logic"
	- name: "Naberius"
	role: "memory"
	specialization: "retrieval"
	- name: "Phanes"
	role: "creation"
	specialization: "writing"
	- name: "Barbeloth"
	role: "analysis"
	specialization: "data_patterns"
	- name: "Tacet"
	role: "silence"
	specialization: "filtering"
	- name: "Abby"
	role: "empathy"
	specialization: "user_context"
	- name: "Reindoter"
	role: "validation"
	specialization: "testing"
	- name: "Zestial"
	role: "vision"
	specialization: "visualization"
	- name: "Alice"
	role: "exploration"
	specialization: "novelty"
	- name: "Rover"
	role: "execution"
	specialization: "terminal"

	rope_theta: 1000000.0

	quantization:
	bits: 4
	type: "nf4"
	double_quant: true
	compute_dtype: "bfloat16"