vaarta GGUF — Marathi Instruction Model
Quantized GGUF files for OmAlve/vaarta-llama-instruct, a Llama-3.2-3B model fine-tuned on Marathi instruction data. Optimized for on-device inference with llama.cpp.
Files
| File | Quant | Size | Recommended for |
|---|---|---|---|
vaarta-Q4_K_M.gguf |
Q4_K_M | 1.9 GB | ✅ Most Android phones (4 GB+ RAM) |
vaarta-Q5_K_M.gguf |
Q5_K_M | 2.3 GB | Better quality (6 GB+ RAM) |
Chat Template
This model uses a custom Marathi Alpaca template — NOT the standard Llama-3 chat format.
खाली एक सूचना दिली आहे. विनंती पूर्ण करणारे योग्य उत्तर लिहा.
### सूचना:
{instruction}
### इनपुट:
{input}
### उत्तर:
{output}
The template is embedded in the GGUF metadata.
Running on Android (Termux)
1. Install Termux (from F-Droid)
2. Build llama.cpp
pkg update && pkg upgrade -y
pkg install -y clang cmake git wget
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_NATIVE=OFF -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli -j4
3. Download the model
cd ~
wget https://huggingface.co/OmAlve/vaarta-gguf/resolve/main/vaarta-Q4_K_M.gguf
4. Run
~/llama.cpp/build/bin/llama-cli \
-m vaarta-Q4_K_M.gguf \
--ctx-size 2048 --threads 4 \
-i \
-r "### सूचना:" \
--in-prefix "खाली एक सूचना दिली आहे. विनंती पूर्ण करणारे योग्य उत्तर लिहा.\n\n### सूचना:\n" \
--in-suffix "\n\n### इनपुट:\n\n\n### उत्तर:\n"
Type your Marathi question and press Enter.
Running on Desktop
./llama-cli -m vaarta-Q4_K_M.gguf -p "खाली एक सूचना दिली आहे. विनंती पूर्ण करणारे योग्य उत्तर लिहा.
### सूचना:
पृथ्वीबद्दल थोडक्यात माहिती द्या.
### इनपुट:
### उत्तर:
" -n 256
- Downloads last month
- 62
Hardware compatibility
Log In to add your hardware
4-bit
5-bit
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support
Model tree for OmAlve/vaarta-gguf
Base model
meta-llama/Llama-3.2-3B