Bakat-8B-Base
Model Details
Model Description
Bakat-8B-Base adalah base model bahasa Indonesia yang dirancang untuk Continued Pre-Training (CPT) pada domain kebijakan dan pengawasan ruang digital. Model ini dibangun di atas arsitektur Qwen3-8B, dengan pendekatan LoRA (Low-Rank Adaptation) dan 4-bit quantization untuk efisiensi memori dan komputasi.
- Developed by: Tim 1 AITF
- Model type: Causal Language Model (LoRA Adapter)
- Base architecture: Qwen3-8B
- Primary language: Indonesian (id)
- License: Apache-2.0
Training Data Composition
| Kategori | Elemen | Jumlah Token (M) | Persentase |
|---|---|---|---|
| DTP | Okupasi PON TIK, Tren Pekerjaan, Kompetensi & SDM, Kebijakan & Regulasi DTP, Teknologi Digital Talent | 94 | 43.9% |
| PRD | Judi Online, Hoax, Perlindungan Anak, Konten Edukasi, Kebijakan & Regulasi PRD, Kekerasan Masyarakat | 92 | 42.9% |
| Wikipedia ID | Pengetahuan Umum Berbahasa Indonesia | 28.2 | 13.2% |
| Total | – | 214.2 | 100% |
Intended Use
Direct Use (Recommended)
Model ini ditujukan untuk Continued Pre-Training, khususnya untuk:
- Adaptasi domain kebijakan publik dan regulasi digital
- Pengayaan pengetahuan spesifik Indonesia
- Pre-adaptation sebelum Instruction Tuning atau SFT
Out-of-Scope Use
- Long-context conversations (belum dioptimalkan)
- High-stakes decision making (legal, medis, finansial)
- Chat-oriented instruction following tanpa fine-tuning lanjutan
Bias, Risks, and Limitations
- Dataset didominasi oleh domain kebijakan dan pengawasan ruang digital, sehingga bias topikal dapat muncul pada domain non-terkait.
- Model belum melalui tahap preference alignment (RLHF/DPO).
- Konten Wikipedia digunakan sebagai penyeimbang, namun tidak menjamin netralitas penuh.
Pengguna disarankan melakukan evaluasi tambahan sebelum penggunaan produksi.
Recommendations
- Gunakan Qwen3 chat template untuk hasil generasi terbaik.
- Lakukan Instruction Fine-Tuning atau Preference Tuning sebelum deployment ke end-user.
- Verifikasi keluaran model untuk informasi kritikal.
How to Get Started
Load the model using HuggingFace Transformers:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
# 1. Configuration
model_id = "aitfindonesia/Bakat-8B-Base" # Replace with your actual Hub ID
# 2. Load Model
# Use bfloat16 for A100/A10G, float16 for T4
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
# 3. Inference Example (Completion)
input_text = "Strategi utama untuk mengurangi gap talenta digital di Indonesia adalah"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
with torch.no_grad():
outputs = model.generate(
**inputs,
max_new_tokens=100,
do_sample=True,
temperature=0.7
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Training Details
Training Data
- Total size: ~214M tokens
- Domains: Digital Talent Policy (DTP), Pengawasan Ruang Digital (PRD), Wikipedia Indonesia
- Split: Train (90%) / Validation (10%)
Training Procedure
Model dilatih menggunakan Continued Pre-Training (CPT) dengan LoRA pada HuggingFace Transformers.
Hyperparameters
- Precision: bf16 (mixed precision)
- Quantization: 4-bit (nf4)
- LoRA Rank (r): 8
- LoRA Alpha: 16
- Target modules: q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
- Batch size: 4 / device
- Gradient accumulation: 16 (effective batch size = 32)
- Learning rate: 2e-4 (linear schedule)
- Warmup ratio: 0.03
- Epochs: 1
- Optimizer: adamw_8bit
Evaluation
Results
- Final Training Loss: ~1.2685
- Final Validation Loss: ~1.264
- Training Perplexity: ~3.56
- Validation Perplexity: ~3.55
Benchmark (General)
- MMLU: ~74.20
- IndoMMLU: ~65.66
- XCOPA-ID: ~75.80
Environmental Impact
Estimasi emisi karbon mengikuti metodologi Lacoste et al. (2019).
- Hardware: NVIDIA A100 80GB
- Training time: ~36 jam
- Compute region: Indonesia
- Infrastructure: University / Private Server
Framework Versions
- Transformers: 4.x
- PyTorch: 2.x
- Datasets: 2.x
- Tokenizers: 0.x
- Downloads last month
- 678
Model tree for aitfindonesia/KomdigiUB-8B-Base
Base model
Qwen/Qwen3-8B-Base
Finetuned
Qwen/Qwen3-8B