KLINEXA-EL1 (INDONESIAN BASE MODEL)
Overview
KLINEXA-EL1 adalah model Bahasa Indonesia (~200M parameter) yang telah dilatih melalui dua fase utama:
- Alignment komunikasi (multi-turn, natural response)
- Knowledge injection awal (domain kesehatan)
Model ini merupakan early-stage domain-aware base model, bukan model expert.
Training Summary
- Dataset: ~105K training samples
- Domain: komunikasi + kesehatan
- Training steps: 767 (early stop)
- Final loss: ~2.53
- Training strategy: stop pada fase sebelum overfitting
Model dihentikan pada titik di mana:
- Knowledge mulai terbentuk
- Komunikasi masih natural
- Belum terjadi template overfitting
Current Capabilities
Model ini mampu:
- β Menjawab pertanyaan kesehatan dasar (dalam bentuk sederhana)
- β Memahami struktur pertanyaan β jawaban
- β Menjaga percakapan tetap natural
- β Menghindari halusinasi ekstrem
Observed Behavior (IMPORTANT)
Model menunjukkan karakteristik berikut:
- Cenderung memberikan jawaban aman dan umum
- Kadang menghasilkan respons terlalu generik
- Belum konsisten memberikan detail faktual spesifik
Contoh:
Q: Apa gejala demam berdarah?
A: "Gejala disesuaikan meliputi berbagai manifestasi klinis."
π Ini menunjukkan:
- Struktur benar β
- Konten masih lemah β
Limitations
- β Belum memiliki knowledge medis yang dalam
- β Cenderung fallback ke jawaban generik
- β Belum cocok untuk use-case medis nyata
- β Belum reliable untuk pertanyaan spesifik
Design Positioning
Model ini bukan:
- β Medical expert model
- β Production-ready healthcare model
Model ini adalah:
Foundation model dengan exposure awal ke domain kesehatan
Recommended Usage
Gunakan model ini sebagai:
base model untuk fine-tuning lanjutan
Pipeline yang disarankan:
- EL1 β Communication + shallow knowledge β
- EL2 β Strong knowledge injection (dataset faktual)
- EL3 β Refinement & specialization
Improvement Direction
Untuk meningkatkan kualitas model:
- Tambahkan dataset faktual (definisi, gejala, penyebab)
- Kurangi pola jawaban generik ("tergantung kondisi", dll)
- Tingkatkan density informasi per sample
Architecture
- ~200M parameters
- 16 layers
- Hidden size 768
- GQA (12Q / 4KV)
- MoE (2 experts, top-1 routing)
- Context length: 512
- RoPE theta: 500000
Example Prompt Format
[BOS][USER]Apa itu hipertensi?[ASST]
File Structure
Model disimpan sebagai:
- klinexa_el1_model.pt
Catatan: Format custom (bukan HuggingFace standard), perlu load manual.
License
Apache 2.0
- Downloads last month
- 315