Gemma 3 MoE Base
Bu repo, Efe2898/gemma3-1b-sft-reasoning-2 tabanlı dense modelin MoE yapısına çevrilmiş base sürümünü içerir.
Kısaca: dense MLP katmanları MoE ile değiştirildi, 4 expert kullanıldı ve top-1 routing tercih edildi. Expert ağırlıkları sıfırdan rastgele başlatılmadı; dense modelin MLP ağırlıklarından türetildi. Amaç, sıfırdan yeni bir model sunmak değil, devam eğitimi için düzgün bir MoE başlangıç noktası oluşturmaktı.
Bu model ne için var?
Bu model doğrudan son kullanıcıya hitap eden bir chat modeli değil. Daha çok şu işler için uygun:
- continued pretraining
- SFT / reasoning fine-tuning
- Türkçe-İngilizce adaptasyon
- MoE mimarisi denemeleri
- router / expert davranışı inceleme
Mimari
- expert sayısı: 4
- routing: top-1
- tür: base model
Önemli not
Bu checkpoint bir base MoE checkpointi.
Yani doğrudan “hazır asistan” gibi kullanılmak için hazırlanmadı. Eğitim almadan çıktılar dengesiz, tekrar eden veya zayıf olabilir. Gerçek performans için üstüne CPT ve/veya SFT yapılması gerekir.
Kullanım
Custom config/model dosyaları varsa trust_remote_code=True gerekebilir.
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "Efe2898/REPO_ADI"
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto"
)
prompt = "Türkiye hakkında kısa bir paragraf yaz."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
with torch.no_grad():
out = model.generate(**inputs, max_new_tokens=128)
print(tokenizer.decode(out[0], skip_special_tokens=True))
- Downloads last month
- 345
Model tree for Efe2898/gemma3-1b-moe
Base model
Efe2898/gemma3-1b-sft-reasoning-2