gemma3-4b-algebra4-lora — adapter QLoRA (r=16) para Gemma 3 4B

Apenas o adapter LoRA (~65 MB). Permite aplicar dinamicamente sobre o google/gemma-3-4b-it em runtime, sem baixar o modelo merged (8 GB). Útil para servir múltiplas variantes do mesmo base.

Como usar

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
import torch

base = "google/gemma-3-4b-it"
adapter = "felipecmarins/gemma3-4b-algebra4-lora"

tok = AutoTokenizer.from_pretrained(base)
model = AutoModelForCausalLM.from_pretrained(base, torch_dtype=torch.bfloat16, device_map="auto")
model = PeftModel.from_pretrained(model, adapter)
# (opcional) model = model.merge_and_unload()

prompt = tok.apply_chat_template(
    [{"role": "user", "content": "Encontre os autovalores de A = [[2,1],[1,2]]."}],
    tokenize=False, add_generation_prompt=True,
)
ids = tok(prompt, return_tensors="pt").to(model.device)
print(tok.decode(model.generate(**ids, max_new_tokens=400)[0], skip_special_tokens=True))

Configuração

Hiperparâmetro	Valor
`r` (rank)	16
`lora_alpha`	32 (escala 2× sobre r)
`lora_dropout`	0.05
`target_modules`	`q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj`
`modules_to_save`	nenhum (lm_head e embed_tokens permanecem congelados — QAT-friendly)
`bias`	`none`
`task_type`	`CAUSAL_LM`

Trainable params: 32 788 480 (0.76 % do total de 4 332 867 952).

Treinamento

Base congelada em NF4 (bitsandbytes 0.49 · double quant · compute_dtype BF16)
Optimizer: paged_adamw_8bit
Schedule: cosine · warmup ratio 0.03 · lr=1e-4
Batch: 1 × grad_acc 32 (efetivo 32) · max_seq_length=1024
Mix: 50 000 samples (de 495 702) do algebra4-mix (NuminaMath-CoT, MetaMathQA, MathWriting, im2latex, GSM8K, Geometry3K, curadoria pt-BR)
Hardware: NVIDIA L4 24 GB · Google Cloud g2-standard-12 · zona asia-south1-b (Mumbai) — escolhida por estoque ausente em us-central1, us-west1, us-east4, europe-west4
Duração: ~14 h · 1 epoch · train_loss=0.74 · 17.8 M tokens vistos
Checkpoints intermediários: step 1200, 1400, 1563 (todos preservados durante eval)

Quando preferir este repo

✅ Tem o google/gemma-3-4b-it em cache e quer só o adapter (65 MB vs 8 GB)
✅ Vai aplicar múltiplos adapters dinamicamente em runtime (multi-task serving)
✅ Vai re-fine-tunar a partir daqui (continuar treino)

Para usar direto, prefira:

felipecmarins/gemma3-4b-algebra4-merged — BF16 pronto para transformers
felipecmarins/gemma3-4b-algebra4-gguf — Q4_0 pronto para celular

Licença

Gemma Terms of Use.

Downloads last month: 1

Model tree for felipecmarins/gemma3-4b-algebra4-lora

Base model

google/gemma-3-4b-pt

Finetuned

google/gemma-3-4b-it

Adapter

(429)

this model