vaarta GGUF — Marathi Instruction Model

Quantized GGUF files for OmAlve/vaarta-llama-instruct, a Llama-3.2-3B model fine-tuned on Marathi instruction data. Optimized for on-device inference with llama.cpp.

Files

File	Quant	Size	Recommended for
`vaarta-Q4_K_M.gguf`	Q4_K_M	1.9 GB	✅ Most Android phones (4 GB+ RAM)
`vaarta-Q5_K_M.gguf`	Q5_K_M	2.3 GB	Better quality (6 GB+ RAM)

Chat Template

This model uses a custom Marathi Alpaca template — NOT the standard Llama-3 chat format.

खाली एक सूचना दिली आहे. विनंती पूर्ण करणारे योग्य उत्तर लिहा.

### सूचना:
{instruction}

### इनपुट:
{input}

### उत्तर:
{output}

The template is embedded in the GGUF metadata.

Running on Android (Termux)

1. Install Termux (from F-Droid)

2. Build llama.cpp

pkg update && pkg upgrade -y
pkg install -y clang cmake git wget
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_NATIVE=OFF -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli -j4

3. Download the model

cd ~
wget https://huggingface.co/OmAlve/vaarta-gguf/resolve/main/vaarta-Q4_K_M.gguf

4. Run

~/llama.cpp/build/bin/llama-cli \
  -m vaarta-Q4_K_M.gguf \
  --ctx-size 2048 --threads 4 \
  -i \
  -r "### सूचना:" \
  --in-prefix "खाली एक सूचना दिली आहे. विनंती पूर्ण करणारे योग्य उत्तर लिहा.\n\n### सूचना:\n" \
  --in-suffix "\n\n### इनपुट:\n\n\n### उत्तर:\n"

Type your Marathi question and press Enter.

Running on Desktop

./llama-cli -m vaarta-Q4_K_M.gguf -p "खाली एक सूचना दिली आहे. विनंती पूर्ण करणारे योग्य उत्तर लिहा.

### सूचना:
पृथ्वीबद्दल थोडक्यात माहिती द्या.

### इनपुट:


### उत्तर:
" -n 256

Downloads last month: 7

GGUF

Hardware compatibility

4-bit

5-bit

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for OmAlve/vaarta-gguf

Base model

meta-llama/Llama-3.2-3B

Quantized

(136)

this model