Gemma 3 MoE Base

Bu repo, Efe2898/gemma3-1b-sft-reasoning-2 tabanlı dense modelin MoE yapısına çevrilmiş base sürümünü içerir.

Kısaca: dense MLP katmanları MoE ile değiştirildi, 4 expert kullanıldı ve top-1 routing tercih edildi. Expert ağırlıkları sıfırdan rastgele başlatılmadı; dense modelin MLP ağırlıklarından türetildi. Amaç, sıfırdan yeni bir model sunmak değil, devam eğitimi için düzgün bir MoE başlangıç noktası oluşturmaktı.

Bu model ne için var?

Bu model doğrudan son kullanıcıya hitap eden bir chat modeli değil. Daha çok şu işler için uygun:

  • continued pretraining
  • SFT / reasoning fine-tuning
  • Türkçe-İngilizce adaptasyon
  • MoE mimarisi denemeleri
  • router / expert davranışı inceleme

Mimari

  • expert sayısı: 4
  • routing: top-1
  • tür: base model

Önemli not

Bu checkpoint bir base MoE checkpointi.
Yani doğrudan “hazır asistan” gibi kullanılmak için hazırlanmadı. Eğitim almadan çıktılar dengesiz, tekrar eden veya zayıf olabilir. Gerçek performans için üstüne CPT ve/veya SFT yapılması gerekir.

Kullanım

Custom config/model dosyaları varsa trust_remote_code=True gerekebilir.

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "Efe2898/REPO_ADI"

tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)

prompt = "Türkiye hakkında kısa bir paragraf yaz."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

with torch.no_grad():
    out = model.generate(**inputs, max_new_tokens=128)

print(tokenizer.decode(out[0], skip_special_tokens=True))
Downloads last month
345
Safetensors
Model size
3B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Efe2898/gemma3-1b-moe

Finetuned
(1)
this model