trakad-ner-v1

Türkçe Akademik NER + KVKK Anonimleştiricidbmdz/bert-base-turkish-cased üzerine fine-tune edilmiş, Türkçe akademik metinlerde 7 entity türünü tespit eden token classification modeli.

tr-academic-nlp toolkit'inin Secure Academic Middleware mimarisinde KVKK shield olarak görev alır — kullanıcının verisini Frontier LLM'lere göndermeden önce hassas entity'leri lokalde maskeler.

Entity türleri (7)

Etiket Tanım Örnek
YAZAR Akademik makale yazarı "Prof. Dr. Ayşe Yılmaz"
KURUM Üniversite, enstitü, fakülte, bölüm "Hacettepe Üniversitesi Tıp Fakültesi"
DERGI Akademik dergi veya konferans adı "Türk Bilişim Dergisi"
YIL Yayın yılı (4 hane, 1900-2030) "2023"
METODOLOJI ML modeli, algoritma, bilimsel yöntem "BERT", "MANOVA", "k-means"
DATASET Veri seti adı "MNIST", "IMDB", "WikiNeural"
METRIK Değerlendirme metriği "F1 skoru", "ROUGE-L", "doğruluk"

BIO scheme: 1 (O) + 2 × 7 (B-/I- her entity için) = 15 etiket.

Kullanım

from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline

model_id = "hakansabunis/trakad-ner-v1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForTokenClassification.from_pretrained(model_id)

ner = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")
text = "Prof. Dr. Ayşe Yılmaz Hacettepe Üniversitesi'nde 2023 yılında BERT ile çalışma yaptı."
print(ner(text))

tr-academic-nlp middleware ile

from tr_academic_nlp import AcademicPipeline

pipe = AcademicPipeline(llm_model="qwen2.5:7b")
result = pipe.analyze_and_rewrite(
    "Prof. Dr. Ayşe Yılmaz'ın ODTÜ'de 2023'te yaptığı BERT çalışması...",
    task="summarize",
)
# → veriler [KİŞİ_1] / [KURUM_1] / [YIL_1] olarak maskelenip yerel Qwen'a
#   gönderilir, cevap geri çözülür ve kullanıcıya temiz akademik özet döner.

Eğitim verisi

Üretim:

  1. umutertugrul/turkish-academic-theses-dataset (CC-BY-4.0, 650K abstract) → --sample-n 2000 ile 1986 paragraph filtrelendi (load_umutertugrul.py).
  2. Sonnet 4.5 (Anthropic API) ile 7-entity batch annotation (batch_label_via_anthropic_api.py).
  3. Offset hataları text-anchored repair ile düzeltildi (fix_offsets.py).
  4. Ek temizleme: kelime sınırları, ünvan stripping, yıl normalize (fix_ner_labels.py).
  5. ~1500 paragraph eğitime hazır (eval split sonrası ~360 sentence test).

Sınırlılıklar (Limitations)

  • Anonimleştirici olarak kullanırken manuel doğrulama önerilir — model her entity'yi yakalamayabilir; KVKK kritik durumlarda çift kontrol şart.
  • Sosyal bilim / eğitim alanı bias'ı: Eğitim verisinin büyük kısmı umutertugrul'da en sık görülen sosyal bilim tezleri. Mühendislik / doğa bilimleri tezlerinde performans biraz daha düşük olabilir.
  • DERGI etiketinde veri az: Tezlerde dergi adı nadiren geçer; akademik makale korpusuna ileri fine-tune planlanıyor.
  • Sub-word tokenization: İlk subword'a label, sonrakilere -100 — uzun bileşik kelimelerde label propagation eksik kalabilir.
  • Akademik metin dışı performans bilinmiyor (haber, sosyal medya, vb.).
  • Bu model "v1" pilot sürümdür; daha geniş gold-corpus ile v2 yol haritasında.

Etik & KVKK

Bu model tr-academic-nlp toolkit'inin KVKK shield'i olarak tasarlandı: hassas entity'leri Frontier LLM'lere göndermeden lokalde maskeler. Production KVKK uygulamaları için:

  • Maskeleme öncesi/sonrası audit log tutun
  • Recall %100 olmadığı için çift kontrol uygulayın
  • Sensitive metinleri sadece web=False lokal modda işleyin

Lisans

Apache 2.0 — modeller, kod ve dokümantasyon.

Atıf

@misc{sabunis2026trakadner,
  author = {Sabunis, Hakan},
  title = {trakad-ner-v1: Turkish Academic NER + KVKK Anonymizer},
  year = {2026},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/hakansabunis/trakad-ner-v1}}
}

Upstream attribution:

Repo

Downloads last month
28
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for hakansabunis/trakad-ner-v1

Finetuned
(169)
this model

Dataset used to train hakansabunis/trakad-ner-v1