AWA Llama — From Scratch 🇮🇩

Model Llama-style yang dilatih dari nol menggunakan dataset Wikipedia Bahasa Indonesia hasil crawl dengan wiki_spider_id_v3.py.

📊 Spesifikasi Arsitektur

Parameter	Nilai
Arsitektur	Llama-style (RoPE, RMSNorm, SwiGLU, GQA)
Jumlah layer	12
Embedding dim	768
Attention heads	12
KV heads (GQA)	4
FFN intermediate	2048
Context length	1024
Vocab size	8,192
Total parameter	~82M

🎯 Strategi Pelatihan

Aspek	Detail
Scheduler	Warmup-Stable-Only (WSO)
Batch size	1 murni (no padding, no packing)
Presisi	FP32 murni
Optimizer	AdamW (weight_decay=0.01)
Dataset	Wikipedia Bahasa Indonesia
Epoch	1 (eksperimen)
EoS token	Di akhir setiap artikel

💡 Filosofi Proyek

"Segala sesuatu itu butuh proses. Gagal adalah awal menuju kesuksesan. InsyaAllah." — Ahmad Wildan Ardiansyah

Model ini adalah bagian dari perjalanan belajar AWA — dari crawl data, training from scratch, hingga deployment. Bukan tentang sempurna, tapi tentang terus melangkah! 🚀

🧠 Dibuat oleh

Ahmad Wildan Ardiansyah (tampakwilll) Mahasiswa D4 Teknik Jaringan Telekomunikasi Digital, Polinema — 2026

Downloads last month: -