| --- |
| license: apache-2.0 |
| base_model: mesolitica/mallam-1.1b-4096 |
| tags: |
| - trg |
| - malay-dialect |
| - lora |
| - terengganu |
| - ganu |
| - unsloth |
| language: |
| - ms |
| datasets: |
| - username/dataset-terengganu-1 |
| - username/dataset-terengganu-2 |
| library_name: peft |
| pipeline_tag: text-generation |
| --- |
| |
| # π’ GanuLLM (LoRA Adapter for MaLLAM 1.1B) |
|
|
| **GanuLLM** adalah model bahasa (LLM) berasaskan adapter LoRA yang telah dilatih khusus untuk memahami dan berkomunikasi dalam **Dialek Terengganu**. Model ini menggunakan [MaLLAM 1.1B](https://huggingface.co/mesolitica/mallam-1.1b-4096) sebagai model asas (Base Model) dan ditala halus (fine-tuned) menggunakan data eksklusif daripada sumber digital tempatan. |
|
|
| ## π Ciri Utama |
| - **Dialect Adaptation:** Mampu menukar gaya penulisan Bahasa Melayu formal kepada dialek Terengganu yang natural. |
| - **Cultural Awareness:** Mempunyai pemahaman asas tentang kosa kata, tempat, dan budaya di Terengganu (berdasarkan data latihan). |
| - **Efficiency:** Sebagai adapter LoRA, ia sangat ringan dan boleh dijalankan pada perkakasan gred pengguna (Consumer GPU). |
|
|
| ## π Maklumat Latihan |
| - **Base Model:** MaLLAM 1.1B (Mesolitica) |
| - **Technique:** LoRA (Low-Rank Adaptation) |
| - **Dataset:** Dibangunkan secara khusus daripada pelbagai sumber yang merangkumi pelbagai topik berkaitan Terengganu. 1000+ kosa kata loghat Terengganu, Idiom, makian, kiasan, ekspresi budaya, Variasi ejaan tak formal, Perkataan yang tak wujud dalam DBP |
| - **Precision:** 4-bit |
|
|
| ## π Akses Terhad (Gated Model) |
| Model ini adalah **Gated Model** untuk melindungi integriti data dan mengawal kualiti penggunaan. |
| Sila kemukakan permohonan akses dengan menyatakan: |
| 1. Nama / Organisasi |
| 2. Tujuan Penggunaan (Penyelidikan/Peribadi/Komersial) |
|
|
| ## π Cara Penggunaan (Inference) |
|
|
| Untuk menggunakan model ini, anda perlu memuatkan model asas MaLLAM terlebih dahulu, kemudian "attach" adapter GanuLLM ini. |
| <script> |
| import torch |
| from transformers import AutoModelForCausalLM, AutoTokenizer |
| from peft import PeftModel |
|
|
| model_id = "mesolitica/mallam-1.1b-4096" |
| adapter_id = "username/GanuLLM-LoRA" # Tukar kepada repo kau |
| token = "HF_TOKEN_ANDA" |
|
|
| # 1. Load Tokenizer & Model |
| tokenizer = AutoTokenizer.from_pretrained(model_id, token=token) |
| base_model = AutoModelForCausalLM.from_pretrained( |
| model_id, |
| torch_dtype=torch.bfloat16, |
| device_map="auto", |
| token=token |
| ) |
| |
| # 2. Load GanuLLM Adapter |
| model = PeftModel.from_pretrained(base_model, adapter_id, token=token) |
| |
| # 3. Test Prompt |
| prompt = "Berikan ulasan pendek tentang keropok lekor dalam dialek Terengganu." |
| inputs = tokenizer(prompt, return_tensors="pt").to("cuda") |
| outputs = model.generate(**inputs, max_new_tokens=100) |
| |
| print(tokenizer.decode(outputs[0], skip_special_tokens=True)) |
| </script> |
| --- |
| |
| ## β οΈ Penafian (Disclaimer) |
| |
| Sila ambil perhatian terhadap perkara berikut sebelum menggunakan model ini: |
| |
| 1. **Ketepatan Fakta:** GanuLLM 1.1B adalah model bersaiz kecil. Walaupun ia telah dilatih dengan data dari sumber khas, model ini masih terdedah kepada **halusinasi** (menghasilkan maklumat yang tidak benar tetapi nampak meyakinkan). Sentiasa semak fakta penting secara manual. |
| 2. **Kesesuaian Bahasa:** Model ini memfokuskan kepada dialek Terengganu. Jawapan yang dihasilkan mungkin mengandungi bahasa slanga atau tidak formal yang tidak sesuai untuk kegunaan rasmi atau perundangan. |
| 3. **Penggunaan Kandungan:** Segala kandungan yang dihasilkan oleh model ini adalah tanggungjawab pengguna sepenuhnya. Pembangun tidak akan bertanggungjawab atas sebarang salah guna maklumat atau kerosakan yang timbul akibat penggunaan model ini. |
| 4. **Kematangan Model:** Model ini masih dalam fasa pembangunan (Beta). Ia mungkin tidak mewakili keseluruhan variasi dialek di setiap daerah di Terengganu (seperti perbezaan antara loghat Besut dan Kuala Terengganu). |
|
|
| --- |
|
|
| ## π€ Penghargaan (Acknowledgments) |
|
|
| Projek ini tidak akan berjaya tanpa sumbangan dan sokongan daripada pihak berikut: |
|
|
| * **Discovery Terengganu:** Terima kasih kepada komuniti dan penulis di Discovery Terengganu yang menjadi sumber rujukan utama data latihan bagi memastikan keaslian info berkaitan Terengganu. |
| * **Mesolitica:** Setinggi-tinggi penghargaan kepada pasukan [Mesolitica](https://huggingface.co/mesolitica) kerana membangunkan model **MaLLAM**, yang membolehkan teknologi LLM diadaptasi secara khusus untuk konteks Bahasa Melayu dan dialek tempatan. |
| * **Komuniti Open Source:** Terima kasih kepada pembangun library `PEFT`, `Transformers`, dan `BitsAndBytes` yang memudahkan pelaksanaan teknik LoRA secara efisien. |
| * **Penyokong Tempatan:** Penghargaan buat semua anak jati Terengganu yang terus memartabatkan khazanah bahasa dan budaya warisan negeri menerusi platform digital. |
|
|
| --- |
| base_model: mesolitica/mallam-1.1b-20k-instructions-v2 |
| tags: |
| - text-generation-inference |
| - transformers |
| - unsloth |
| - mistral |
| - trl |
| license: apache-2.0 |
| language: |
| - ms |
| --- |
| |
| # Uploaded model |
| |
| - **Developed by:** hazrul07 |
| - **License:** apache-2.0 |
| - **Finetuned from model :** mesolitica/mallam-1.1b-20k-instructions-v2 |
| |
| This mistral model was trained 2x faster with [Unsloth](https://github.com/unslothai/unsloth) |
| |
| [<img src="https://raw.githubusercontent.com/unslothai/unsloth/main/images/unsloth%20made%20with%20love.png" width="200"/>](https://github.com/unslothai/unsloth) |
| |