AWA Llama โ From Scratch ๐ฎ๐ฉ
Model Llama-style yang dilatih dari nol menggunakan dataset Wikipedia Bahasa Indonesia hasil crawl dengan wiki_spider_id_v3.py.
๐ Spesifikasi Arsitektur
| Parameter | Nilai |
|---|---|
| Arsitektur | Llama-style (RoPE, RMSNorm, SwiGLU, GQA) |
| Jumlah layer | 12 |
| Embedding dim | 768 |
| Attention heads | 12 |
| KV heads (GQA) | 4 |
| FFN intermediate | 2048 |
| Context length | 1024 |
| Vocab size | 8,192 |
| Total parameter | ~82M |
๐ฏ Strategi Pelatihan
| Aspek | Detail |
|---|---|
| Scheduler | Warmup-Stable-Only (WSO) |
| Batch size | 1 murni (no padding, no packing) |
| Presisi | FP32 murni |
| Optimizer | AdamW (weight_decay=0.01) |
| Dataset | Wikipedia Bahasa Indonesia |
| Epoch | 1 (eksperimen) |
| EoS token | Di akhir setiap artikel |
๐ก Filosofi Proyek
"Segala sesuatu itu butuh proses. Gagal adalah awal menuju kesuksesan. InsyaAllah." โ Ahmad Wildan Ardiansyah
Model ini adalah bagian dari perjalanan belajar AWA โ dari crawl data, training from scratch, hingga deployment. Bukan tentang sempurna, tapi tentang terus melangkah! ๐
๐ง Dibuat oleh
Ahmad Wildan Ardiansyah (tampakwilll) Mahasiswa D4 Teknik Jaringan Telekomunikasi Digital, Polinema โ 2026
- Downloads last month
- -