Upload Hermite-optimal merged model (λ=[0.499256, 0.500744])

d3775d8 verified about 1 month ago

827 Bytes

tags:
  - model-merge
  - hermite-interpolation
  - deepseek
base_model:
  - deepseek-ai/deepseek-math-7b-instruct
  - deepseek-ai/deepseek-coder-7b-instruct-v1.5

deepseek-7b-math-code-lagrange-optimal

Hermite 補間で最適化された λ によるモデルマージ。

Merge Configuration

Parameter	Value
Method	Hermite interpolation (Phase 2 optimized)
λ	[0.499256, 0.500744]
dtype	torch.float16

Model 0 (deepseek-ai/deepseek-math-7b-instruct): λ=0.499256
Model 1 (deepseek-ai/deepseek-coder-7b-instruct-v1.5): λ=0.500744

Tokenizer

Union tokenizer (mergekit-style): vocab size = 100016

Formula

θ* = Σ_k λ_k θ_k

The mixing weights λ were optimized by minimizing the Hermite polynomial approximation of the loss function (see Phase 2).