gemma3-4b-algebra4-lora — adapter QLoRA (r=16) para Gemma 3 4B

Apenas o adapter LoRA (~65 MB). Permite aplicar dinamicamente sobre o google/gemma-3-4b-it em runtime, sem baixar o modelo merged (8 GB). Útil para servir múltiplas variantes do mesmo base.

Como usar

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
import torch

base = "google/gemma-3-4b-it"
adapter = "felipecmarins/gemma3-4b-algebra4-lora"

tok = AutoTokenizer.from_pretrained(base)
model = AutoModelForCausalLM.from_pretrained(base, torch_dtype=torch.bfloat16, device_map="auto")
model = PeftModel.from_pretrained(model, adapter)
# (opcional) model = model.merge_and_unload()

prompt = tok.apply_chat_template(
    [{"role": "user", "content": "Encontre os autovalores de A = [[2,1],[1,2]]."}],
    tokenize=False, add_generation_prompt=True,
)
ids = tok(prompt, return_tensors="pt").to(model.device)
print(tok.decode(model.generate(**ids, max_new_tokens=400)[0], skip_special_tokens=True))

Configuração

Hiperparâmetro Valor
r (rank) 16
lora_alpha 32 (escala 2× sobre r)
lora_dropout 0.05
target_modules q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
modules_to_save nenhum (lm_head e embed_tokens permanecem congelados — QAT-friendly)
bias none
task_type CAUSAL_LM

Trainable params: 32 788 480 (0.76 % do total de 4 332 867 952).

Treinamento

  • Base congelada em NF4 (bitsandbytes 0.49 · double quant · compute_dtype BF16)
  • Optimizer: paged_adamw_8bit
  • Schedule: cosine · warmup ratio 0.03 · lr=1e-4
  • Batch: 1 × grad_acc 32 (efetivo 32) · max_seq_length=1024
  • Mix: 50 000 samples (de 495 702) do algebra4-mix (NuminaMath-CoT, MetaMathQA, MathWriting, im2latex, GSM8K, Geometry3K, curadoria pt-BR)
  • Hardware: NVIDIA L4 24 GB · Google Cloud g2-standard-12 · zona asia-south1-b (Mumbai) — escolhida por estoque ausente em us-central1, us-west1, us-east4, europe-west4
  • Duração: ~14 h · 1 epoch · train_loss=0.74 · 17.8 M tokens vistos
  • Checkpoints intermediários: step 1200, 1400, 1563 (todos preservados durante eval)

Quando preferir este repo

  • ✅ Tem o google/gemma-3-4b-it em cache e quer só o adapter (65 MB vs 8 GB)
  • ✅ Vai aplicar múltiplos adapters dinamicamente em runtime (multi-task serving)
  • ✅ Vai re-fine-tunar a partir daqui (continuar treino)

Para usar direto, prefira:

  • felipecmarins/gemma3-4b-algebra4-merged — BF16 pronto para transformers
  • felipecmarins/gemma3-4b-algebra4-gguf — Q4_0 pronto para celular

Licença

Gemma Terms of Use.

Downloads last month
18
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for felipecmarins/gemma3-4b-algebra4-lora

Adapter
(382)
this model