Gemma 3 MoE Base

Bu repo, Efe2898/gemma3-1b-sft-reasoning-2 tabanlı dense modelin MoE yapısına çevrilmiş base sürümünü içerir.

Kısaca: dense MLP katmanları MoE ile değiştirildi, 4 expert kullanıldı ve top-1 routing tercih edildi. Expert ağırlıkları sıfırdan rastgele başlatılmadı; dense modelin MLP ağırlıklarından türetildi. Amaç, sıfırdan yeni bir model sunmak değil, devam eğitimi için düzgün bir MoE başlangıç noktası oluşturmaktı.

Bu model ne için var?

Bu model doğrudan son kullanıcıya hitap eden bir chat modeli değil. Daha çok şu işler için uygun:

continued pretraining
SFT / reasoning fine-tuning
Türkçe-İngilizce adaptasyon
MoE mimarisi denemeleri
router / expert davranışı inceleme

Mimari

expert sayısı: 4
routing: top-1
tür: base model

Önemli not

Bu checkpoint bir base MoE checkpointi.
Yani doğrudan “hazır asistan” gibi kullanılmak için hazırlanmadı. Eğitim almadan çıktılar dengesiz, tekrar eden veya zayıf olabilir. Gerçek performans için üstüne CPT ve/veya SFT yapılması gerekir.

Kullanım

Custom config/model dosyaları varsa trust_remote_code=True gerekebilir.

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "Efe2898/REPO_ADI"

tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)

prompt = "Türkiye hakkında kısa bir paragraf yaz."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

with torch.no_grad():
    out = model.generate(**inputs, max_new_tokens=128)

print(tokenizer.decode(out[0], skip_special_tokens=True))

Downloads last month: 345

Safetensors

Model size

3B params

Tensor type

BF16

Model tree for Efe2898/gemma3-1b-moe

Base model

Efe2898/gemma3-1b-sft-reasoning-2

Finetuned

(1)

this model