Upload model trained with Unsloth

c463966 verified 30 days ago

5.29 kB

	---
	license: apache-2.0
	base_model: mesolitica/mallam-1.1b-4096
	tags:
	- trg
	- malay-dialect
	- lora
	- terengganu
	- ganu
	- unsloth
	language:
	- ms
	datasets:
	- username/dataset-terengganu-1
	- username/dataset-terengganu-2
	library_name: peft
	pipeline_tag: text-generation
	---

	# 🐢 GanuLLM (LoRA Adapter for MaLLAM 1.1B)

	GanuLLM adalah model bahasa (LLM) berasaskan adapter LoRA yang telah dilatih khusus untuk memahami dan berkomunikasi dalam Dialek Terengganu. Model ini menggunakan [MaLLAM 1.1B](https://huggingface.co/mesolitica/mallam-1.1b-4096) sebagai model asas (Base Model) dan ditala halus (fine-tuned) menggunakan data eksklusif daripada sumber digital tempatan.

	## 🌟 Ciri Utama
	- Dialect Adaptation: Mampu menukar gaya penulisan Bahasa Melayu formal kepada dialek Terengganu yang natural.
	- Cultural Awareness: Mempunyai pemahaman asas tentang kosa kata, tempat, dan budaya di Terengganu (berdasarkan data latihan).
	- Efficiency: Sebagai adapter LoRA, ia sangat ringan dan boleh dijalankan pada perkakasan gred pengguna (Consumer GPU).

	## 📊 Maklumat Latihan
	- Base Model: MaLLAM 1.1B (Mesolitica)
	- Technique: LoRA (Low-Rank Adaptation)
	- Dataset: Dibangunkan secara khusus daripada pelbagai sumber yang merangkumi pelbagai topik berkaitan Terengganu. 1000+ kosa kata loghat Terengganu, Idiom, makian, kiasan, ekspresi budaya, Variasi ejaan tak formal, Perkataan yang tak wujud dalam DBP
	- Precision: 4-bit

	## 🔐 Akses Terhad (Gated Model)
	Model ini adalah Gated Model untuk melindungi integriti data dan mengawal kualiti penggunaan.
	Sila kemukakan permohonan akses dengan menyatakan:
	1. Nama / Organisasi
	2. Tujuan Penggunaan (Penyelidikan/Peribadi/Komersial)

	## 🚀 Cara Penggunaan (Inference)

	Untuk menggunakan model ini, anda perlu memuatkan model asas MaLLAM terlebih dahulu, kemudian "attach" adapter GanuLLM ini.
	<script>
	import torch
	from transformers import AutoModelForCausalLM, AutoTokenizer
	from peft import PeftModel

	model_id = "mesolitica/mallam-1.1b-4096"
	adapter_id = "username/GanuLLM-LoRA" # Tukar kepada repo kau
	token = "HF_TOKEN_ANDA"

	# 1. Load Tokenizer & Model
	tokenizer = AutoTokenizer.from_pretrained(model_id, token=token)
	base_model = AutoModelForCausalLM.from_pretrained(
	model_id,
	torch_dtype=torch.bfloat16,
	device_map="auto",
	token=token
	)

	# 2. Load GanuLLM Adapter
	model = PeftModel.from_pretrained(base_model, adapter_id, token=token)

	# 3. Test Prompt
	prompt = "Berikan ulasan pendek tentang keropok lekor dalam dialek Terengganu."
	inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
	outputs = model.generate(**inputs, max_new_tokens=100)

	print(tokenizer.decode(outputs[0], skip_special_tokens=True))
	</script>
	---

	## ⚠️ Penafian (Disclaimer)

	Sila ambil perhatian terhadap perkara berikut sebelum menggunakan model ini:

	1. Ketepatan Fakta: GanuLLM 1.1B adalah model bersaiz kecil. Walaupun ia telah dilatih dengan data dari sumber khas, model ini masih terdedah kepada halusinasi (menghasilkan maklumat yang tidak benar tetapi nampak meyakinkan). Sentiasa semak fakta penting secara manual.
	2. Kesesuaian Bahasa: Model ini memfokuskan kepada dialek Terengganu. Jawapan yang dihasilkan mungkin mengandungi bahasa slanga atau tidak formal yang tidak sesuai untuk kegunaan rasmi atau perundangan.
	3. Penggunaan Kandungan: Segala kandungan yang dihasilkan oleh model ini adalah tanggungjawab pengguna sepenuhnya. Pembangun tidak akan bertanggungjawab atas sebarang salah guna maklumat atau kerosakan yang timbul akibat penggunaan model ini.
	4. Kematangan Model: Model ini masih dalam fasa pembangunan (Beta). Ia mungkin tidak mewakili keseluruhan variasi dialek di setiap daerah di Terengganu (seperti perbezaan antara loghat Besut dan Kuala Terengganu).

	---

	## 🤝 Penghargaan (Acknowledgments)

	Projek ini tidak akan berjaya tanpa sumbangan dan sokongan daripada pihak berikut:

	* Discovery Terengganu: Terima kasih kepada komuniti dan penulis di Discovery Terengganu yang menjadi sumber rujukan utama data latihan bagi memastikan keaslian info berkaitan Terengganu.
	* Mesolitica: Setinggi-tinggi penghargaan kepada pasukan [Mesolitica](https://huggingface.co/mesolitica) kerana membangunkan model MaLLAM, yang membolehkan teknologi LLM diadaptasi secara khusus untuk konteks Bahasa Melayu dan dialek tempatan.
	* Komuniti Open Source: Terima kasih kepada pembangun library `PEFT`, `Transformers`, dan `BitsAndBytes` yang memudahkan pelaksanaan teknik LoRA secara efisien.
	* Penyokong Tempatan: Penghargaan buat semua anak jati Terengganu yang terus memartabatkan khazanah bahasa dan budaya warisan negeri menerusi platform digital.

	---
	base_model: mesolitica/mallam-1.1b-20k-instructions-v2
	tags:
	- text-generation-inference
	- transformers
	- unsloth
	- mistral
	- trl
	license: apache-2.0
	language:
	- ms
	---

	# Uploaded model

	- Developed by: hazrul07
	- License: apache-2.0
	- Finetuned from model : mesolitica/mallam-1.1b-20k-instructions-v2

	This mistral model was trained 2x faster with [Unsloth](https://github.com/unslothai/unsloth)

	[<img src="https://raw.githubusercontent.com/unslothai/unsloth/main/images/unsloth%20made%20with%20love.png" width="200"/>](https://github.com/unslothai/unsloth)