UB 2025: PRD Pemberantasan Judol
Collection
9 items • Updated
Bakat-8B-Base adalah base model bahasa Indonesia yang dirancang untuk Continued Pre-Training (CPT) pada domain kebijakan dan pengawasan ruang digital. Model ini dibangun di atas arsitektur Qwen3-8B, dengan pendekatan LoRA (Low-Rank Adaptation) dan 4-bit quantization untuk efisiensi memori dan komputasi.
| Kategori | Elemen | Jumlah Token (M) | Persentase |
|---|---|---|---|
| DTP | Okupasi PON TIK, Tren Pekerjaan, Kompetensi & SDM, Kebijakan & Regulasi DTP, Teknologi Digital Talent | 94 | 43.9% |
| PRD | Judi Online, Hoax, Perlindungan Anak, Konten Edukasi, Kebijakan & Regulasi PRD, Kekerasan Masyarakat | 92 | 42.9% |
| Wikipedia ID | Pengetahuan Umum Berbahasa Indonesia | 28.2 | 13.2% |
| Total | – | 214.2 | 100% |
Model ini ditujukan untuk Continued Pre-Training, khususnya untuk:
Pengguna disarankan melakukan evaluasi tambahan sebelum penggunaan produksi.
Load the model using HuggingFace Transformers:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
# 1. Configuration
model_id = "aitfindonesia/Bakat-8B-Base" # Replace with your actual Hub ID
# 2. Load Model
# Use bfloat16 for A100/A10G, float16 for T4
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
# 3. Inference Example (Completion)
input_text = "Strategi utama untuk mengurangi gap talenta digital di Indonesia adalah"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
with torch.no_grad():
outputs = model.generate(
**inputs,
max_new_tokens=100,
do_sample=True,
temperature=0.7
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Model dilatih menggunakan Continued Pre-Training (CPT) dengan LoRA pada HuggingFace Transformers.
Estimasi emisi karbon mengikuti metodologi Lacoste et al. (2019).
Base model
Qwen/Qwen3-8B-Base