Add Eagle3 v2 epoch 7 checkpoint (trained on K2.5 API log data)

- model.safetensors: Eagle3 draft model weights (3.9 GB, BF16)
- config.json/config.py: Eagle3SpeculatorConfig
- d2t.npy/t2d.npy: draft-to-target and target-to-draft vocab mapping (32K draft vocab)
- Training: 10 epochs, ttt_steps=3, val step-0 acc 71.4% (best epoch 7)
- Architecture: 1 DeepSeek-V3 decoder layer + fc + lm_head, trained with speculators framework

Files changed (5) hide show

config.json +76 -0
config.py +84 -0
d2t.npy +3 -0
model.safetensors +3 -0
t2d.npy +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,76 @@

+{
+  "architectures": [
+    "Eagle3DraftModel"
+  ],
+  "auto_map": {
+    "": "config.Eagle3SpeculatorConfig"
+  },
+  "base_model_ep_plan": null,
+  "draft_vocab_size": 32000,
+  "dtype": "float32",
+  "eagle_aux_hidden_state_layer_ids": null,
+  "embed_requires_grad": false,
+  "has_no_defaults_at_init": false,
+  "norm_before_residual": true,
+  "speculators_config": {
+    "algorithm": "eagle3",
+    "default_proposal_method": "greedy",
+    "proposal_methods": [
+      {
+        "accept_tolerance": 0.0,
+        "proposal_type": "greedy",
+        "speculative_tokens": 3,
+        "verifier_accept_k": 1
+      }
+    ],
+    "verifier": {
+      "architectures": [],
+      "name_or_path": "/data/.cache_claude/huggingface/hub/models--moonshotai--Kimi-K2.5/snapshots/54383e83fa343a1331754112fb9e3410c55efa2f"
+    }
+  },
+  "speculators_model_type": "eagle3",
+  "speculators_version": "0.5.0.dev1",
+  "target_hidden_size": null,
+  "transformer_layer_config": {
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "aux_loss_alpha": 0.001,
+    "ep_size": 1,
+    "first_k_dense_replace": 3,
+    "head_dim": null,
+    "hidden_act": "silu",
+    "hidden_size": 7168,
+    "initializer_range": 0.02,
+    "intermediate_size": 18432,
+    "kv_lora_rank": 512,
+    "max_position_embeddings": 262144,
+    "model_type": "deepseek_v3",
+    "moe_intermediate_size": 2048,
+    "moe_layer_freq": 1,
+    "n_group": 8,
+    "n_routed_experts": 256,
+    "n_shared_experts": 1,
+    "norm_topk_prob": true,
+    "num_attention_heads": 64,
+    "num_experts_per_tok": 8,
+    "num_hidden_layers": 1,
+    "num_key_value_heads": 64,
+    "num_nextn_predict_layers": 1,
+    "pretraining_tp": 1,
+    "q_lora_rank": 1536,
+    "qk_nope_head_dim": 128,
+    "qk_rope_head_dim": 64,
+    "rms_norm_eps": 1e-05,
+    "rope_scaling": null,
+    "rope_theta": 10000.0,
+    "routed_scaling_factor": 2.5,
+    "scoring_func": "sigmoid",
+    "seq_aux": true,
+    "topk_group": 4,
+    "topk_method": "noaux_tc",
+    "use_cache": true,
+    "v_head_dim": 128,
+    "vocab_size": 163840
+  },
+  "transformers_version": "4.57.6"
+}

config.py ADDED Viewed

	@@ -0,0 +1,84 @@

+from typing import Any, Literal
+from pydantic import Field, field_serializer, field_validator
+from transformers import AutoConfig, PretrainedConfig
+from transformers.models.llama.configuration_llama import LlamaConfig
+from speculators import SpeculatorModelConfig
+__all__ = [
+    "Eagle3SpeculatorConfig",
+]
+@SpeculatorModelConfig.register("eagle3")
+class Eagle3SpeculatorConfig(SpeculatorModelConfig):
+    """
+    Configuration for EAGLE-3 speculator with vocabulary mapping.
+    EAGLE-3 features vocabulary mapping between draft (32K) and target (128K)
+    vocabularies, enabling cross-tokenizer speculation.
+    :param transformer_layer_config: Configuration for the transformer decoder layer
+    :param draft_vocab_size: Size of draft model vocabulary for speculation
+    :param norm_before_residual: Apply hidden_norm before storing residual
+    """
+    speculators_model_type: Literal["eagle3"] = "eagle3"
+    architectures: list[str] = Field(
+        default_factory=lambda: ["Eagle3Speculator"],
+        description="Model architectures that can load these weights",
+    )
+    transformer_layer_config: PretrainedConfig = Field(
+        default_factory=LlamaConfig,
+        description="Configuration for the transformer decoder layer",
+    )
+    draft_vocab_size: int = Field(
+        default=32000,
+        description="Size of draft model vocabulary for speculation",
+    )
+    norm_before_residual: bool = Field(
+        default=False,
+        description="Apply hidden_norm before storing residual",
+    )
+    target_hidden_size: int | None = Field(
+        default=None,
+        description="Hidden size of the target model (if different from draft model)",
+    )
+    eagle_aux_hidden_state_layer_ids: list[int] | None = Field(
+        default=None,
+        description="Layer IDs of the Eagle auxiliary hidden state layers",
+    )
+    embed_requires_grad: bool = Field(
+        default=False,
+        description="Whether embedding layer weights require gradients during training",
+    )
+    @property
+    def target_vocab_size(self) -> int:
+        """Get target vocabulary size from transformer config."""
+        return self.transformer_layer_config.vocab_size
+    @field_serializer("transformer_layer_config")
+    def serialize_transformer_config(self, value: PretrainedConfig) -> dict:
+        """Serialize transformer config to dict."""
+        return value.to_diff_dict()
+    @field_validator("transformer_layer_config", mode="before")
+    @classmethod
+    def validate_transformer_config(cls, value: Any) -> PretrainedConfig:
+        """Validate and convert transformer config."""
+        if isinstance(value, dict):
+            config_class: type[PretrainedConfig] = LlamaConfig
+            if "model_type" in value:
+                config_class = AutoConfig.for_model(
+                    model_type=value["model_type"]
+                ).__class__
+            return config_class(**value)
+        return value

d2t.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54e8e5f61ab63ccfe4130e66edaba91e768d4cabecfec5b7a00cd7affdb9f934
+size 256128

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5aff905e131bc3d7d831c71a34102464fad3a22286eb63fcd40b27ce2e708b2b
+size 4141572048

t2d.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d0245607c6103a5263047b06511156326cb081fcac3e3711f92e7b9dd19da9c8
+size 163968