cagrigungor's picture
Update README.md
2efa57b verified
metadata
library_name: transformers
tags:
  - turkish
  - toxic
license: apache-2.0
language:
  - tr

Turkish Toxic Comment Classifier

TEST: Live/Canlı Test

Model ID: cagrigungor/turkishtoxic-classifier
Model Type: Classification Task: Toxic / Non-Toxic Text Classification (Türkçe metinlerde toksisite tespiti)


Overview

Bu model, tamamen sıfırdan eğitilmiş Türkçe bir toksisite sınıflandırıcısıdır.
Amaç, bir metnin küfür, hakaret, nefret söylemi gibi toksik içerik taşıyıp taşımadığını belirlemektir.

Model, Türkçe doğal dil işleme (NLP) alanında açık kaynak olarak geliştirilen bir projenin parçasıdır
ve içerik güvenliği, moderasyon sistemleri veya sosyal medya metin analizi gibi alanlarda kullanılabilir.


Training Details

Parametre Değer
Base Architecture (12 katman, 512 gizli boyut, 8 dikkat başlığı)
Tokenizer SentencePiece (32,005 kelime)
Corpus Size 17M+ Türkçe cümle
Pretraining Objective Masked Language Modeling (MLM)
Downstream Task Toxic Comment Classification
Training Samples 100K Türkçe yorum
Accuracy (Validation) 0.9389
F1 (Macro) 0.9385
Max Sequence Length 256
Optimizer AdamW
Learning Rate 3e-5
Epochs 3
Batch Size 64

Labels

Label Açıklama
toxic Küfür, hakaret veya saldırgan dil içeren metin
notoxic Tarafsız, olumlu veya bilgilendirici metin

Quick Usage

Modeli doğrudan transformers.pipeline ile yükleyip test edebilirsiniz:

from transformers import pipeline

# Modeli yükle
clf = pipeline("text-classification", model="cagrigungor/turkishtoxic-classifier")

# Tek örnek testi
print(clf("bugün hava çok güzel."))

Expected Output:

[{'label': 'notoxic', 'score': 0.992}] You can also test multiple sentences at once: