Text Generation
Transformers
Safetensors
Italian
gemma3_text
reasoning
math
grpo
rl
lora
unsloth
gemma3
text-generation-inference
conversational

J-1

J-1 è un modello di reasoning addestrato da Jakala a partire dal modello Gemma 3 4-B su problemi di matematica e ragionamento in italiano con GRPO tramite Unsloth.

J-1 migliora drasticamente le sue performance overall sul dataset di test Invalsi ITA (non visto in fase training) dal 57% al 79% rispetto al modello base (per comparison, phi-4-14B -> 90%).

J-1 è stato addestrato con un mix di dataset di reasoning di diversa difficoltà, originariamente in inglese tradotti automaticamente in italiano tramite 4o.

Il training di J-1 ha richiesto 4 giorni su una singola A100 40GB.

Nome in codice originale: Jakala/gemma-3-4b-reasoning-ita-grpo-gsm8k-math-500-s1k-ita-1200steps

Colab

Parametri di addestramento utilizzati

Parametro Valore
max_seq_length 8000 token
max_prompt_length 700 token
max_completion_length 4000 token
Num generazioni per step GRPO 4
Step di training 1200
Algoritmo RL GRPO (TRL 0.15.2)
LoRA rank / α 64 / 64
Scheduler cosine, LR 5e-6
Batch size 1
Hardware 1 × NVIDIA A100 40 GB

Dataset usati

Il modello è stato addestrato concatenando e randomizzando:

  • GSM8K-platinum (IT) – problemi aritmetici tradotti in italiano.
  • MATH-500 (IT) – sotto-insieme italiano di problemi olimpionici.
  • S1K (versioni tradotte + revisionate) – domande aperte di ragionamento/logica.

Totale esempi 1600, di cui il modello ne ha visti 1200 in 1200 steps. Non è stato effettuato nessun addestramento SFT iniziale per insegnare il formato al modello.

System prompt usato

Il system prompt di training, consigliato per l'inferenza è il seguente:

Rispondi nel seguente formato, ragionando a lungo prima di rispondere:
<think>
_qui_il_tuo_ragionamento_
</think>
_qui_la_tua_risposta_

Risposta del modello

Se il system prompt è quello consigliato, il modello risponde nel seguente formato compatibile con OpenWebUI per i modelli di reasoning:

<think>
_ragionamento_del_modello_
</think>
_risposta_del_modello_

Parametri di generazione consigliati

Parametro Valore
temperature 0.9
repetition_penalty 0 (in generale disattivare)
frequency_penalty 0 (in generale disattivare)
stop_sequence < think> (senza lo spazio)
Downloads last month
55
Safetensors
Model size
4B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Jakala/J-1

Adapter
(72)
this model
Adapters
2 models

Dataset used to train Jakala/J-1