OmAlve
/

vaarta-gguf

+---
+language:
+- mr
+license: llama3.2
+base_model: meta-llama/Llama-3.2-3B
+tags:
+- llama-cpp
+- gguf
+- marathi
+- alpaca
+- android
+---
+# vaarta GGUF — Marathi Instruction Model
+Quantized GGUF files for [OmAlve/vaarta-llama-instruct](https://huggingface.co/OmAlve/vaarta-llama-instruct), a Llama-3.2-3B model fine-tuned on Marathi instruction data. Optimized for on-device inference with [llama.cpp](https://github.com/ggerganov/llama.cpp).
+## Files
+| File | Quant | Size | Recommended for |
+|---|---|---|---|
+| `vaarta-Q4_K_M.gguf` | Q4_K_M | 1.9 GB | ✅ Most Android phones (4 GB+ RAM) |
+| `vaarta-Q5_K_M.gguf` | Q5_K_M | 2.3 GB | Better quality (6 GB+ RAM) |
+## Chat Template
+This model uses a **custom Marathi Alpaca template** — NOT the standard Llama-3 chat format.
+```
+खाली एक सूचना दिली आहे. विनंती पूर्ण करणारे योग्य उत्तर लिहा.
+### सूचना:
+{instruction}
+### इनपुट:
+{input}
+### उत्तर:
+{output}
+```
+The template is embedded in the GGUF metadata.
+## Running on Android (Termux)
+### 1. Install Termux (from F-Droid)
+### 2. Build llama.cpp
+```bash
+pkg update && pkg upgrade -y
+pkg install -y clang cmake git wget
+git clone https://github.com/ggerganov/llama.cpp
+cd llama.cpp
+cmake -B build -DGGML_NATIVE=OFF -DCMAKE_BUILD_TYPE=Release
+cmake --build build --target llama-cli -j4
+```
+### 3. Download the model
+```bash
+cd ~
+wget https://huggingface.co/OmAlve/vaarta-gguf/resolve/main/vaarta-Q4_K_M.gguf
+```
+### 4. Run
+```bash
+~/llama.cpp/build/bin/llama-cli \
+  -m vaarta-Q4_K_M.gguf \
+  --ctx-size 2048 --threads 4 \
+  -i \
+  -r "### सूचना:" \
+  --in-prefix "खाली एक सूचना दिली आहे. विनंती पूर्ण करणारे योग्य उत्तर लिहा.\n\n### सूचना:\n" \
+  --in-suffix "\n\n### इनपुट:\n\n\n### उत्तर:\n"
+```
+Type your Marathi question and press Enter.
+## Running on Desktop
+```bash
+./llama-cli -m vaarta-Q4_K_M.gguf -p "खाली एक सूचना दिली आहे. विनंती पूर्ण करणारे योग्य उत्तर लिहा.
+### सूचना:
+पृथ्वीबद्दल थोडक्यात माहिती द्या.
+### इनपुट:
+### उत्तर:
+" -n 256
+```