LeoTamil-selflearn-v1 (Private)
Made By VenkatehKumar, Chinnamanur, Tamil Nadu by Leo (Leo Infotech)
Model Description
இது தமிழ்-specific base model-ஐ (Tamil-LLaMA) தமிழ் அகராதி & சொற்றொடர் corpus-இல் fine-tune செய்த self-learning model. தமிழ் உரையாடல், கேள்வி-பதில், கவிதை, கோடிங், மருத்துவம், சட்டம், கல்வி போன்றவற்றுக்கு சிறப்பாக வேலை செய்யும். சின்னமானூரில் உருவாக்கப்பட்ட முதல் தனிப்பட்ட தமிழ் AI model.
Base Model / Corpus
- abhinand/tamil-llama-7b-instruct-v0.2 (Apache 2.0) – LLaMA-2 base + 500,000+ தமிழ்/ஆங்கில samples-இல் fine-tune. Bilingual support.
- தமிழ் Parallel Corpus: NLPC-UOM/English-Tamil-Parallel-Corpus (22,477 glossary lines + 8,950 corpus lines) – அகராதி & sentence alignment focus.
Training Details
- Fine-tuning method: LoRA (Unsloth + 4-bit quantization)
- Dataset: 2,500+ தமிழ் instructions (JSONL) + IndicNLP Tamil corpus (அகராதி/சொற்றொடர் focus, ~11GB monolingual text)
- Epochs: 1–2
- Hardware: Google Colab T4 GPU / Local setup
- Quantization: Q8_0 GGUF (LM Studio-க்கு ready)
Intended Use
- Offline தமிழ் AI assistant (LM Studio, Ollama)
- தமிழ் மொழி ஆராய்ச்சி & education
- சின்னமானூர் போன்ற rural areas-க்கு free resource
Usage Example (Transformers)
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "leo/LeoTamil-selflearn-v1"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True, device_map="auto")
prompt = "தமிழ்நாட்டின் தலைநகரம் எது?"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Model tree for Venkateshkumar4HF/LeoTamil-selflearn-v1
Base model
abhinand/dr-llama-ta-instruct-v0
Finetuned
abhinand/tamil-llama-7b-instruct-v0.2