|
|
--- |
|
|
language: tr |
|
|
tags: |
|
|
- turkish |
|
|
- conspiracy-detection |
|
|
- bert |
|
|
- classification |
|
|
- text-classification |
|
|
- fine-tuned |
|
|
license: apache-2.0 |
|
|
datasets: |
|
|
- custom |
|
|
metrics: |
|
|
- accuracy |
|
|
- f1 |
|
|
- precision |
|
|
- recall |
|
|
model-index: |
|
|
- name: turkish-conspiracy-detection |
|
|
results: |
|
|
- task: |
|
|
type: text-classification |
|
|
name: Text Classification |
|
|
dataset: |
|
|
type: custom |
|
|
name: Turkish Conspiracy Detection Dataset |
|
|
metrics: |
|
|
- type: accuracy |
|
|
value: 0.9879 |
|
|
name: Accuracy |
|
|
- type: f1 |
|
|
value: 0.9879 |
|
|
name: F1 Score |
|
|
- type: precision |
|
|
value: 0.9879 |
|
|
name: Precision |
|
|
- type: recall |
|
|
value: 0.9879 |
|
|
name: Recall |
|
|
--- |
|
|
|
|
|
# Türkçe Komplo Teorisi Tespit Modeli |
|
|
|
|
|
Bu model, Türkçe metinlerde komplo teorisi tespiti yapmak için fine-tune edilmiş BERT tabanlı bir sınıflandırma modelidir. |
|
|
|
|
|
## Model Detayları |
|
|
|
|
|
### Model Açıklaması |
|
|
- **Geliştirici**: Metinimo19 |
|
|
- **Model Türü**: Text Classification (İkili Sınıflandırma) |
|
|
- **Dil**: Türkçe (tr) |
|
|
- **Temel Model**: [savasy/bert-base-turkish-sentiment-cased](https://huggingface.co/savasy/bert-base-turkish-sentiment-cased) |
|
|
- **Fine-tuning Görevi**: Komplo teorisi vs gerçek haber ayrımı |
|
|
- **Lisans**: Apache 2.0 |
|
|
|
|
|
### Model Kaynakları |
|
|
- **Repository**: https://huggingface.co/Metinimo19/turkish-conspiracy-detection |
|
|
- **Temel Model**: https://huggingface.co/savasy/bert-base-turkish-sentiment-cased |
|
|
|
|
|
## Kullanım |
|
|
|
|
|
### Doğrudan Kullanım |
|
|
Model, Türkçe metinlerde komplo teorisi tespiti için kullanılabilir: |
|
|
|
|
|
```python |
|
|
from transformers import AutoTokenizer, AutoModelForSequenceClassification |
|
|
import torch |
|
|
|
|
|
# Model ve tokenizer'ı yükle |
|
|
tokenizer = AutoTokenizer.from_pretrained("Metinimo19/turkish-conspiracy-detection") |
|
|
model = AutoModelForSequenceClassification.from_pretrained("Metinimo19/turkish-conspiracy-detection") |
|
|
|
|
|
# Örnek metin |
|
|
text = "5G teknolojisi insanları kontrol etmek için tasarlanmış gizli bir sistemdir." |
|
|
|
|
|
# Tahmin yap |
|
|
inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512) |
|
|
with torch.no_grad(): |
|
|
outputs = model(**inputs) |
|
|
predictions = torch.nn.functional.softmax(outputs.logits, dim=-1) |
|
|
predicted_class = torch.argmax(predictions, dim=-1).item() |
|
|
|
|
|
# Sonuç |
|
|
result = "Komplo Teorisi" if predicted_class == 1 else "Gerçek Haber" |
|
|
confidence = predictions[0][predicted_class].item() |
|
|
print(f"Tahmin: {result} (Güven: {confidence:.2%})") |
|
|
``` |
|
|
|
|
|
## Eğitim Detayları |
|
|
|
|
|
### Eğitim Verisi |
|
|
- **Veri Seti Boyutu**: 1,651 Türkçe örnek |
|
|
- **Sınıf Dağılımı**: Dengeli (yaklaşık %50 gerçek haber, %50 komplo teorisi) |
|
|
- **Veri Türü**: Türkçe metinler (haberler, sosyal medya içerikleri, makale özetleri) |
|
|
|
|
|
### Eğitim Prosedürü |
|
|
|
|
|
#### Eğitim Hiperparametreleri |
|
|
- **Batch Size**: 16 (train ve eval) |
|
|
- **Learning Rate**: 2e-5 |
|
|
- **Epochs**: 3 |
|
|
- **Warmup Steps**: 500 |
|
|
- **Weight Decay**: 0.01 |
|
|
- **Optimizer**: AdamW |
|
|
- **Mixed Precision**: FP16 (GPU kullanımında) |
|
|
|
|
|
#### Veri Bölünmesi |
|
|
- **Eğitim**: %70 (1,155 örnek) |
|
|
- **Doğrulama**: %15 (248 örnek) |
|
|
- **Test**: %15 (248 örnek) |
|
|
|
|
|
## Değerlendirme |
|
|
|
|
|
### Test Sonuçları |
|
|
Model test seti üzerinde şu performansı gösterdi: |
|
|
|
|
|
| Metrik | Değer | |
|
|
|--------|-------| |
|
|
| **Accuracy** | 0.9879 | |
|
|
| **F1 Score** | 0.9879 | |
|
|
| **Precision** | 0.9879 | |
|
|
| **Recall** | 0.9879 | |
|
|
|
|
|
### Sınıf Tanımları |
|
|
- **0**: Gerçek Haber - Doğrulanabilir, güvenilir kaynaklardan gelen bilgiler |
|
|
- **1**: Komplo Teorisi - Kanıtlanmamış, spekülatif veya yanlış bilgiler |
|
|
|
|
|
## Sınırlamalar ve Önyargılar |
|
|
|
|
|
### Sınırlamalar |
|
|
- Model sadece Türkçe metinler için eğitilmiştir |
|
|
- 512 token uzunluğundaki metinlerle sınırlıdır |
|
|
- Eğitim verisinin boyutu nispeten küçüktür (1,651 örnek) |
|
|
- Belirli konularda (5G, aşı, uzaylılar vb.) daha fazla veri içerir |
|
|
|
|
|
### Öneriler |
|
|
- Kritik kararlar için model çıktılarını tek başına kullanmayın |
|
|
- Sonuçları uzman değerlendirmesiyle destekleyin |
|
|
- Modelin sınırlarını göz önünde bulundurun |
|
|
|
|
|
## Teknik Özellikler |
|
|
|
|
|
### Model Mimarisi |
|
|
- **Temel Mimari**: BERT (Bidirectional Encoder Representations from Transformers) |
|
|
- **Parametre Sayısı**: ~110M parametre |
|
|
- **Sınıflandırma Katmanı**: Linear layer (768 → 2) |
|
|
- **Aktivasyon**: Softmax |
|
|
|
|
|
### Hesaplama Altyapısı |
|
|
- **Eğitim Platformu**: Google Colab |
|
|
- **GPU**: Tesla T4 (16GB) |
|
|
- **Eğitim Süresi**: Yaklaşık 10-15 dakika |
|
|
- **Framework**: PyTorch + Transformers |
|
|
|
|
|
## Nasıl Başlanır |
|
|
|
|
|
```python |
|
|
from transformers import pipeline |
|
|
|
|
|
# Pipeline kullanarak basit kullanım |
|
|
classifier = pipeline("text-classification", model="Metinimo19/turkish-conspiracy-detection") |
|
|
result = classifier("Ay'a hiç çıkmadık, tüm görüntüler sahteydi.") |
|
|
print(result) |
|
|
``` |
|
|
|
|
|
--- |
|
|
|
|
|
*Bu model, eğitim ve araştırma amaçları için geliştirilmiştir. Üretim ortamında kullanmadan önce kapsamlı testler yapılması önerilir.* |
|
|
|