🇮🇳 Gemma-3-1B Hindi Instruct

Lightweight 1B Hindi instruction-tuned model from google/gemma-3-1b-it, fine-tuned with LoRA. Fluent Hindi on edge hardware — CPU, Ollama, Raspberry Pi.

Quickstart

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
tok = AutoTokenizer.from_pretrained("pankajpandey-dev/gemma-3-1b-hindi-instruct")
model = AutoModelForCausalLM.from_pretrained("pankajpandey-dev/gemma-3-1b-hindi-instruct", torch_dtype=torch.float32)
msgs = [{"role": "user", "content": "एक छोटे बच्चे को गुरुत्वाकर्षण सरल हिंदी में समझाइए।"}]
inputs = tok.apply_chat_template(msgs, add_generation_prompt=True, return_tensors="pt")
out = model.generate(inputs, max_new_tokens=256, temperature=0.4, top_p=0.9, repetition_penalty=1.3)
print(tok.decode(out[0][inputs.shape[1]:], skip_special_tokens=True))

Part of my 🇮🇳 Hindi LLM Series — weekly experiments adapting small models to Indian languages.

Available formats

Repo	Format	Use
`...-hindi-instruct`	Merged 16-bit	Transformers
`...-hindi-instruct-GGUF`	Q4_K_M / Q5_K_M / Q8_0	Ollama, llama.cpp, CPU
`...-hindi-instruct-lora`	LoRA adapter	Method artifact

Training

Base: google/gemma-3-1b-it (text-only path)
Method: LoRA (r=32, α=32, all attn+MLP projections), response-only loss
Data: AI4Bharat indic-instruct-data-v0.1 — anudesh + dolly (Hindi), chrF≥50 filtered, balanced 6k
Schedule: 2 epochs, LR 2e-4, effective batch 8 · single T4 (Kaggle, free), fp32, ~167 min · Unsloth + TRL

Recommended decoding: temperature=0.4, top_p=0.9, repetition_penalty=1.3.

Evaluation

प्रश्न: एक छोटे बच्चे को गुरुत्वाकर्षण सरल हिंदी में समझाइए। उत्तर: PASTE_YOUR_BEST_CLEAN_OUTPUT_HERE

Limitations

A 1B model — Hindi fluency is solid; coherence/factual reliability are bounded by scale. Best for short instructions, simple Q&A, and edge/demo use. A Gemma-3-4B Hindi version is the planned next step.