trakad-ner-v1

Türkçe Akademik NER + KVKK Anonimleştirici — dbmdz/bert-base-turkish-cased üzerine fine-tune edilmiş, Türkçe akademik metinlerde 7 entity türünü tespit eden token classification modeli.

tr-academic-nlp toolkit'inin Secure Academic Middleware mimarisinde KVKK shield olarak görev alır — kullanıcının verisini Frontier LLM'lere göndermeden önce hassas entity'leri lokalde maskeler.

Entity türleri (7)

Etiket	Tanım	Örnek
`YAZAR`	Akademik makale yazarı	"Prof. Dr. Ayşe Yılmaz"
`KURUM`	Üniversite, enstitü, fakülte, bölüm	"Hacettepe Üniversitesi Tıp Fakültesi"
`DERGI`	Akademik dergi veya konferans adı	"Türk Bilişim Dergisi"
`YIL`	Yayın yılı (4 hane, 1900-2030)	"2023"
`METODOLOJI`	ML modeli, algoritma, bilimsel yöntem	"BERT", "MANOVA", "k-means"
`DATASET`	Veri seti adı	"MNIST", "IMDB", "WikiNeural"
`METRIK`	Değerlendirme metriği	"F1 skoru", "ROUGE-L", "doğruluk"

BIO scheme: 1 (O) + 2 × 7 (B-/I- her entity için) = 15 etiket.

Kullanım

from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline

model_id = "hakansabunis/trakad-ner-v1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForTokenClassification.from_pretrained(model_id)

ner = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")
text = "Prof. Dr. Ayşe Yılmaz Hacettepe Üniversitesi'nde 2023 yılında BERT ile çalışma yaptı."
print(ner(text))

tr-academic-nlp middleware ile

from tr_academic_nlp import AcademicPipeline

pipe = AcademicPipeline(llm_model="qwen2.5:7b")
result = pipe.analyze_and_rewrite(
    "Prof. Dr. Ayşe Yılmaz'ın ODTÜ'de 2023'te yaptığı BERT çalışması...",
    task="summarize",
)
# → veriler [KİŞİ_1] / [KURUM_1] / [YIL_1] olarak maskelenip yerel Qwen'a
#   gönderilir, cevap geri çözülür ve kullanıcıya temiz akademik özet döner.

Eğitim verisi

Üretim:

umutertugrul/turkish-academic-theses-dataset (CC-BY-4.0, 650K abstract) → --sample-n 2000 ile 1986 paragraph filtrelendi (load_umutertugrul.py).
Sonnet 4.5 (Anthropic API) ile 7-entity batch annotation (batch_label_via_anthropic_api.py).
Offset hataları text-anchored repair ile düzeltildi (fix_offsets.py).
Ek temizleme: kelime sınırları, ünvan stripping, yıl normalize (fix_ner_labels.py).
~1500 paragraph eğitime hazır (eval split sonrası ~360 sentence test).

Sınırlılıklar (Limitations)

Anonimleştirici olarak kullanırken manuel doğrulama önerilir — model her entity'yi yakalamayabilir; KVKK kritik durumlarda çift kontrol şart.
Sosyal bilim / eğitim alanı bias'ı: Eğitim verisinin büyük kısmı umutertugrul'da en sık görülen sosyal bilim tezleri. Mühendislik / doğa bilimleri tezlerinde performans biraz daha düşük olabilir.
DERGI etiketinde veri az: Tezlerde dergi adı nadiren geçer; akademik makale korpusuna ileri fine-tune planlanıyor.
Sub-word tokenization: İlk subword'a label, sonrakilere -100 — uzun bileşik kelimelerde label propagation eksik kalabilir.
Akademik metin dışı performans bilinmiyor (haber, sosyal medya, vb.).
Bu model "v1" pilot sürümdür; daha geniş gold-corpus ile v2 yol haritasında.

Etik & KVKK

Bu model tr-academic-nlp toolkit'inin KVKK shield'i olarak tasarlandı: hassas entity'leri Frontier LLM'lere göndermeden lokalde maskeler. Production KVKK uygulamaları için:

Maskeleme öncesi/sonrası audit log tutun
Recall %100 olmadığı için çift kontrol uygulayın
Sensitive metinleri sadece web=False lokal modda işleyin

Lisans

Apache 2.0 — modeller, kod ve dokümantasyon.

Atıf

@misc{sabunis2026trakadner,
  author = {Sabunis, Hakan},
  title = {trakad-ner-v1: Turkish Academic NER + KVKK Anonymizer},
  year = {2026},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/hakansabunis/trakad-ner-v1}}
}

Upstream attribution:

Training data derived from umutertugrul/turkish-academic-theses-dataset (CC-BY-4.0).
Base model: dbmdz/bert-base-turkish-cased.

Repo

GitHub: https://github.com/hakansabunis/tr-academic-nlp
Author: Hakan Sabunis · HuggingFace · hakansabunis@gmail.com

Downloads last month: 28

Safetensors

Model size

0.1B params

Tensor type

F32

Model tree for hakansabunis/trakad-ner-v1

Base model

dbmdz/bert-base-turkish-cased

Finetuned

(169)

this model

hakansabunis
/

trakad-ner-v1