trakad-ner-v1
Türkçe Akademik NER + KVKK Anonimleştirici — dbmdz/bert-base-turkish-cased
üzerine fine-tune edilmiş, Türkçe akademik metinlerde 7 entity türünü tespit
eden token classification modeli.
tr-academic-nlp toolkit'inin Secure Academic Middleware mimarisinde
KVKK shield olarak görev alır — kullanıcının verisini Frontier LLM'lere
göndermeden önce hassas entity'leri lokalde maskeler.
Entity türleri (7)
| Etiket | Tanım | Örnek |
|---|---|---|
YAZAR |
Akademik makale yazarı | "Prof. Dr. Ayşe Yılmaz" |
KURUM |
Üniversite, enstitü, fakülte, bölüm | "Hacettepe Üniversitesi Tıp Fakültesi" |
DERGI |
Akademik dergi veya konferans adı | "Türk Bilişim Dergisi" |
YIL |
Yayın yılı (4 hane, 1900-2030) | "2023" |
METODOLOJI |
ML modeli, algoritma, bilimsel yöntem | "BERT", "MANOVA", "k-means" |
DATASET |
Veri seti adı | "MNIST", "IMDB", "WikiNeural" |
METRIK |
Değerlendirme metriği | "F1 skoru", "ROUGE-L", "doğruluk" |
BIO scheme: 1 (O) + 2 × 7 (B-/I- her entity için) = 15 etiket.
Kullanım
from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline
model_id = "hakansabunis/trakad-ner-v1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForTokenClassification.from_pretrained(model_id)
ner = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")
text = "Prof. Dr. Ayşe Yılmaz Hacettepe Üniversitesi'nde 2023 yılında BERT ile çalışma yaptı."
print(ner(text))
tr-academic-nlp middleware ile
from tr_academic_nlp import AcademicPipeline
pipe = AcademicPipeline(llm_model="qwen2.5:7b")
result = pipe.analyze_and_rewrite(
"Prof. Dr. Ayşe Yılmaz'ın ODTÜ'de 2023'te yaptığı BERT çalışması...",
task="summarize",
)
# → veriler [KİŞİ_1] / [KURUM_1] / [YIL_1] olarak maskelenip yerel Qwen'a
# gönderilir, cevap geri çözülür ve kullanıcıya temiz akademik özet döner.
Eğitim verisi
Üretim:
umutertugrul/turkish-academic-theses-dataset(CC-BY-4.0, 650K abstract) →--sample-n 2000ile 1986 paragraph filtrelendi (load_umutertugrul.py).- Sonnet 4.5 (Anthropic API) ile 7-entity batch annotation
(
batch_label_via_anthropic_api.py). - Offset hataları text-anchored repair ile düzeltildi (
fix_offsets.py). - Ek temizleme: kelime sınırları, ünvan stripping, yıl normalize
(
fix_ner_labels.py). - ~1500 paragraph eğitime hazır (eval split sonrası ~360 sentence test).
Sınırlılıklar (Limitations)
- Anonimleştirici olarak kullanırken manuel doğrulama önerilir — model her entity'yi yakalamayabilir; KVKK kritik durumlarda çift kontrol şart.
- Sosyal bilim / eğitim alanı bias'ı: Eğitim verisinin büyük kısmı umutertugrul'da en sık görülen sosyal bilim tezleri. Mühendislik / doğa bilimleri tezlerinde performans biraz daha düşük olabilir.
- DERGI etiketinde veri az: Tezlerde dergi adı nadiren geçer; akademik makale korpusuna ileri fine-tune planlanıyor.
- Sub-word tokenization: İlk subword'a label, sonrakilere
-100— uzun bileşik kelimelerde label propagation eksik kalabilir. - Akademik metin dışı performans bilinmiyor (haber, sosyal medya, vb.).
- Bu model "v1" pilot sürümdür; daha geniş gold-corpus ile v2 yol haritasında.
Etik & KVKK
Bu model tr-academic-nlp toolkit'inin KVKK shield'i olarak tasarlandı:
hassas entity'leri Frontier LLM'lere göndermeden lokalde maskeler.
Production KVKK uygulamaları için:
- Maskeleme öncesi/sonrası audit log tutun
- Recall %100 olmadığı için çift kontrol uygulayın
- Sensitive metinleri sadece
web=Falselokal modda işleyin
Lisans
Apache 2.0 — modeller, kod ve dokümantasyon.
Atıf
@misc{sabunis2026trakadner,
author = {Sabunis, Hakan},
title = {trakad-ner-v1: Turkish Academic NER + KVKK Anonymizer},
year = {2026},
publisher = {HuggingFace},
howpublished = {\url{https://huggingface.co/hakansabunis/trakad-ner-v1}}
}
Upstream attribution:
- Training data derived from
umutertugrul/turkish-academic-theses-dataset(CC-BY-4.0). - Base model:
dbmdz/bert-base-turkish-cased.
Repo
- GitHub: https://github.com/hakansabunis/tr-academic-nlp
- Author: Hakan Sabunis · HuggingFace · hakansabunis@gmail.com
- Downloads last month
- 28
Model tree for hakansabunis/trakad-ner-v1
Base model
dbmdz/bert-base-turkish-cased