turkish-conspiracy-detection / README.md

Add detailed model card with comprehensive documentation

4eb1640 verified 6 months ago

4.88 kB

	---
	language: tr
	tags:
	- turkish
	- conspiracy-detection
	- bert
	- classification
	- text-classification
	- fine-tuned
	license: apache-2.0
	datasets:
	- custom
	metrics:
	- accuracy
	- f1
	- precision
	- recall
	model-index:
	- name: turkish-conspiracy-detection
	results:
	- task:
	type: text-classification
	name: Text Classification
	dataset:
	type: custom
	name: Turkish Conspiracy Detection Dataset
	metrics:
	- type: accuracy
	value: 0.9879
	name: Accuracy
	- type: f1
	value: 0.9879
	name: F1 Score
	- type: precision
	value: 0.9879
	name: Precision
	- type: recall
	value: 0.9879
	name: Recall
	---

	# Türkçe Komplo Teorisi Tespit Modeli

	Bu model, Türkçe metinlerde komplo teorisi tespiti yapmak için fine-tune edilmiş BERT tabanlı bir sınıflandırma modelidir.

	## Model Detayları

	### Model Açıklaması
	- Geliştirici: Metinimo19
	- Model Türü: Text Classification (İkili Sınıflandırma)
	- Dil: Türkçe (tr)
	- Temel Model: [savasy/bert-base-turkish-sentiment-cased](https://huggingface.co/savasy/bert-base-turkish-sentiment-cased)
	- Fine-tuning Görevi: Komplo teorisi vs gerçek haber ayrımı
	- Lisans: Apache 2.0

	### Model Kaynakları
	- Repository: https://huggingface.co/Metinimo19/turkish-conspiracy-detection
	- Temel Model: https://huggingface.co/savasy/bert-base-turkish-sentiment-cased

	## Kullanım

	### Doğrudan Kullanım
	Model, Türkçe metinlerde komplo teorisi tespiti için kullanılabilir:

	```python
	from transformers import AutoTokenizer, AutoModelForSequenceClassification
	import torch

	# Model ve tokenizer'ı yükle
	tokenizer = AutoTokenizer.from_pretrained("Metinimo19/turkish-conspiracy-detection")
	model = AutoModelForSequenceClassification.from_pretrained("Metinimo19/turkish-conspiracy-detection")

	# Örnek metin
	text = "5G teknolojisi insanları kontrol etmek için tasarlanmış gizli bir sistemdir."

	# Tahmin yap
	inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
	with torch.no_grad():
	outputs = model(**inputs)
	predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
	predicted_class = torch.argmax(predictions, dim=-1).item()

	# Sonuç
	result = "Komplo Teorisi" if predicted_class == 1 else "Gerçek Haber"
	confidence = predictions[0][predicted_class].item()
	print(f"Tahmin: {result} (Güven: {confidence:.2%})")
	```

	## Eğitim Detayları

	### Eğitim Verisi
	- Veri Seti Boyutu: 1,651 Türkçe örnek
	- Sınıf Dağılımı: Dengeli (yaklaşık %50 gerçek haber, %50 komplo teorisi)
	- Veri Türü: Türkçe metinler (haberler, sosyal medya içerikleri, makale özetleri)

	### Eğitim Prosedürü

	#### Eğitim Hiperparametreleri
	- Batch Size: 16 (train ve eval)
	- Learning Rate: 2e-5
	- Epochs: 3
	- Warmup Steps: 500
	- Weight Decay: 0.01
	- Optimizer: AdamW
	- Mixed Precision: FP16 (GPU kullanımında)

	#### Veri Bölünmesi
	- Eğitim: %70 (1,155 örnek)
	- Doğrulama: %15 (248 örnek)
	- Test: %15 (248 örnek)

	## Değerlendirme

	### Test Sonuçları
	Model test seti üzerinde şu performansı gösterdi:

	\| Metrik \| Değer \|
	\|--------\|-------\|
	\| Accuracy \| 0.9879 \|
	\| F1 Score \| 0.9879 \|
	\| Precision \| 0.9879 \|
	\| Recall \| 0.9879 \|

	### Sınıf Tanımları
	- 0: Gerçek Haber - Doğrulanabilir, güvenilir kaynaklardan gelen bilgiler
	- 1: Komplo Teorisi - Kanıtlanmamış, spekülatif veya yanlış bilgiler

	## Sınırlamalar ve Önyargılar

	### Sınırlamalar
	- Model sadece Türkçe metinler için eğitilmiştir
	- 512 token uzunluğundaki metinlerle sınırlıdır
	- Eğitim verisinin boyutu nispeten küçüktür (1,651 örnek)
	- Belirli konularda (5G, aşı, uzaylılar vb.) daha fazla veri içerir

	### Öneriler
	- Kritik kararlar için model çıktılarını tek başına kullanmayın
	- Sonuçları uzman değerlendirmesiyle destekleyin
	- Modelin sınırlarını göz önünde bulundurun

	## Teknik Özellikler

	### Model Mimarisi
	- Temel Mimari: BERT (Bidirectional Encoder Representations from Transformers)
	- Parametre Sayısı: ~110M parametre
	- Sınıflandırma Katmanı: Linear layer (768 → 2)
	- Aktivasyon: Softmax

	### Hesaplama Altyapısı
	- Eğitim Platformu: Google Colab
	- GPU: Tesla T4 (16GB)
	- Eğitim Süresi: Yaklaşık 10-15 dakika
	- Framework: PyTorch + Transformers

	## Nasıl Başlanır

	```python
	from transformers import pipeline

	# Pipeline kullanarak basit kullanım
	classifier = pipeline("text-classification", model="Metinimo19/turkish-conspiracy-detection")
	result = classifier("Ay'a hiç çıkmadık, tüm görüntüler sahteydi.")
	print(result)
	```

	---

	Bu model, eğitim ve araştırma amaçları için geliştirilmiştir. Üretim ortamında kullanmadan önce kapsamlı testler yapılması önerilir.