GanuLLM-Mini-Test / README.md
hazrul07's picture
Upload model trained with Unsloth
c463966 verified
---
license: apache-2.0
base_model: mesolitica/mallam-1.1b-4096
tags:
- trg
- malay-dialect
- lora
- terengganu
- ganu
- unsloth
language:
- ms
datasets:
- username/dataset-terengganu-1
- username/dataset-terengganu-2
library_name: peft
pipeline_tag: text-generation
---
# 🐒 GanuLLM (LoRA Adapter for MaLLAM 1.1B)
**GanuLLM** adalah model bahasa (LLM) berasaskan adapter LoRA yang telah dilatih khusus untuk memahami dan berkomunikasi dalam **Dialek Terengganu**. Model ini menggunakan [MaLLAM 1.1B](https://huggingface.co/mesolitica/mallam-1.1b-4096) sebagai model asas (Base Model) dan ditala halus (fine-tuned) menggunakan data eksklusif daripada sumber digital tempatan.
## 🌟 Ciri Utama
- **Dialect Adaptation:** Mampu menukar gaya penulisan Bahasa Melayu formal kepada dialek Terengganu yang natural.
- **Cultural Awareness:** Mempunyai pemahaman asas tentang kosa kata, tempat, dan budaya di Terengganu (berdasarkan data latihan).
- **Efficiency:** Sebagai adapter LoRA, ia sangat ringan dan boleh dijalankan pada perkakasan gred pengguna (Consumer GPU).
## πŸ“Š Maklumat Latihan
- **Base Model:** MaLLAM 1.1B (Mesolitica)
- **Technique:** LoRA (Low-Rank Adaptation)
- **Dataset:** Dibangunkan secara khusus daripada pelbagai sumber yang merangkumi pelbagai topik berkaitan Terengganu. 1000+ kosa kata loghat Terengganu, Idiom, makian, kiasan, ekspresi budaya, Variasi ejaan tak formal, Perkataan yang tak wujud dalam DBP
- **Precision:** 4-bit
## πŸ” Akses Terhad (Gated Model)
Model ini adalah **Gated Model** untuk melindungi integriti data dan mengawal kualiti penggunaan.
Sila kemukakan permohonan akses dengan menyatakan:
1. Nama / Organisasi
2. Tujuan Penggunaan (Penyelidikan/Peribadi/Komersial)
## πŸš€ Cara Penggunaan (Inference)
Untuk menggunakan model ini, anda perlu memuatkan model asas MaLLAM terlebih dahulu, kemudian "attach" adapter GanuLLM ini.
<script>
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
model_id = "mesolitica/mallam-1.1b-4096"
adapter_id = "username/GanuLLM-LoRA" # Tukar kepada repo kau
token = "HF_TOKEN_ANDA"
# 1. Load Tokenizer & Model
tokenizer = AutoTokenizer.from_pretrained(model_id, token=token)
base_model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
token=token
)
# 2. Load GanuLLM Adapter
model = PeftModel.from_pretrained(base_model, adapter_id, token=token)
# 3. Test Prompt
prompt = "Berikan ulasan pendek tentang keropok lekor dalam dialek Terengganu."
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
</script>
---
## ⚠️ Penafian (Disclaimer)
Sila ambil perhatian terhadap perkara berikut sebelum menggunakan model ini:
1. **Ketepatan Fakta:** GanuLLM 1.1B adalah model bersaiz kecil. Walaupun ia telah dilatih dengan data dari sumber khas, model ini masih terdedah kepada **halusinasi** (menghasilkan maklumat yang tidak benar tetapi nampak meyakinkan). Sentiasa semak fakta penting secara manual.
2. **Kesesuaian Bahasa:** Model ini memfokuskan kepada dialek Terengganu. Jawapan yang dihasilkan mungkin mengandungi bahasa slanga atau tidak formal yang tidak sesuai untuk kegunaan rasmi atau perundangan.
3. **Penggunaan Kandungan:** Segala kandungan yang dihasilkan oleh model ini adalah tanggungjawab pengguna sepenuhnya. Pembangun tidak akan bertanggungjawab atas sebarang salah guna maklumat atau kerosakan yang timbul akibat penggunaan model ini.
4. **Kematangan Model:** Model ini masih dalam fasa pembangunan (Beta). Ia mungkin tidak mewakili keseluruhan variasi dialek di setiap daerah di Terengganu (seperti perbezaan antara loghat Besut dan Kuala Terengganu).
---
## 🀝 Penghargaan (Acknowledgments)
Projek ini tidak akan berjaya tanpa sumbangan dan sokongan daripada pihak berikut:
* **Discovery Terengganu:** Terima kasih kepada komuniti dan penulis di Discovery Terengganu yang menjadi sumber rujukan utama data latihan bagi memastikan keaslian info berkaitan Terengganu.
* **Mesolitica:** Setinggi-tinggi penghargaan kepada pasukan [Mesolitica](https://huggingface.co/mesolitica) kerana membangunkan model **MaLLAM**, yang membolehkan teknologi LLM diadaptasi secara khusus untuk konteks Bahasa Melayu dan dialek tempatan.
* **Komuniti Open Source:** Terima kasih kepada pembangun library `PEFT`, `Transformers`, dan `BitsAndBytes` yang memudahkan pelaksanaan teknik LoRA secara efisien.
* **Penyokong Tempatan:** Penghargaan buat semua anak jati Terengganu yang terus memartabatkan khazanah bahasa dan budaya warisan negeri menerusi platform digital.
---
base_model: mesolitica/mallam-1.1b-20k-instructions-v2
tags:
- text-generation-inference
- transformers
- unsloth
- mistral
- trl
license: apache-2.0
language:
- ms
---
# Uploaded model
- **Developed by:** hazrul07
- **License:** apache-2.0
- **Finetuned from model :** mesolitica/mallam-1.1b-20k-instructions-v2
This mistral model was trained 2x faster with [Unsloth](https://github.com/unslothai/unsloth)
[<img src="https://raw.githubusercontent.com/unslothai/unsloth/main/images/unsloth%20made%20with%20love.png" width="200"/>](https://github.com/unslothai/unsloth)