Indonesia Named Entity Recognition (NER) using BERT
Aplikasi berbasis Streamlit untuk mendeteksi entitas bernama (Named Entity Recognition / NER) pada teks berbahasa Indonesia menggunakan BERT (Bidirectional Encoder Representations from Transformers) yang telah di-fine-tune.
Proyek ini dirancang untuk kebutuhan analisis teks domain medis, namun dapat dikembangkan untuk domain lain seperti berita, hukum, atau sosial media.
π Fitur Utama
- π Prediksi otomatis entitas (mis. nama penyakit, spesies, lokasi, dsb.) dari teks input.
- π¨ Highlight visual interaktif untuk setiap entitas yang terdeteksi.
- βοΈ Berbasis model BERT yang telah di-fine-tune untuk tugas token classification.
- π Tabel hasil entitas yang dapat diperluas (expandable).
- π» Aplikasi berbasis web (Streamlit) β berjalan lokal maupun di-deploy ke cloud.
π§ Model yang Digunakan
Model menggunakan arsitektur BERT (Bidirectional Encoder Representations from Transformers) yang telah di-fine-tune pada dataset NER Bahasa Indonesia.
Struktur folder model:
fine_tuned_bert_ner/ β βββ config.json
βββ pytorch_model.bin
βββ tokenizer_config.json
βββ vocab.txt
βββ special_tokens_map.json
Pastikan folder ini berada satu direktori dengan file app.py.
π οΈ Cara Menjalankan Proyek
1οΈβ£ Clone Repository
git clone https://github.com/decoderr24/Indonesian-NER-using-BERT.git
cd Indonesian-NER-using-BERT
2οΈβ£ Install Dependencies
Gunakan Python 3.8+ dan jalankan:
pip install -r requirements.txt
Atau manual:
pip install streamlit torch transformers pandas
3οΈβ£ Jalankan Aplikasi
streamlit run app.py
Kemudian buka browser di:
- Downloads last month
- 3