AWA Llama โ€” From Scratch ๐Ÿ‡ฎ๐Ÿ‡ฉ

Model Llama-style yang dilatih dari nol menggunakan dataset Wikipedia Bahasa Indonesia hasil crawl dengan wiki_spider_id_v3.py.

๐Ÿ“Š Spesifikasi Arsitektur

Parameter Nilai
Arsitektur Llama-style (RoPE, RMSNorm, SwiGLU, GQA)
Jumlah layer 12
Embedding dim 768
Attention heads 12
KV heads (GQA) 4
FFN intermediate 2048
Context length 1024
Vocab size 8,192
Total parameter ~82M

๐ŸŽฏ Strategi Pelatihan

Aspek Detail
Scheduler Warmup-Stable-Only (WSO)
Batch size 1 murni (no padding, no packing)
Presisi FP32 murni
Optimizer AdamW (weight_decay=0.01)
Dataset Wikipedia Bahasa Indonesia
Epoch 1 (eksperimen)
EoS token Di akhir setiap artikel

๐Ÿ’ก Filosofi Proyek

"Segala sesuatu itu butuh proses. Gagal adalah awal menuju kesuksesan. InsyaAllah." โ€” Ahmad Wildan Ardiansyah

Model ini adalah bagian dari perjalanan belajar AWA โ€” dari crawl data, training from scratch, hingga deployment. Bukan tentang sempurna, tapi tentang terus melangkah! ๐Ÿš€

๐Ÿง  Dibuat oleh

Ahmad Wildan Ardiansyah (tampakwilll) Mahasiswa D4 Teknik Jaringan Telekomunikasi Digital, Polinema โ€” 2026

Downloads last month
-
Inference Providers NEW
This model isn't deployed by any Inference Provider. ๐Ÿ™‹ Ask for provider support