ruSpamModels
/

ruSpam_big

Text Classification

text-embeddings-inference

Model card Files Files and versions

ruSpam_big / README.md

darkQibit's picture

Update README.md

3300bb2 verified 11 days ago

|

history blame contribute delete

2.29 kB

	---
	library_name: transformers
	license: cc-by-nc-nd-4.0
	datasets:
	- ruSpamModels/russian-spam-detection
	---
	# ruSpam_big

	Модель `ruSpam_big` — нейросеть для определения спама в русскоязычных текстах. Обучена на почти 5 миллионах примеров, показывает высокую точность и устойчивость, но иногда может ошибаться на сообщениях с коммерческой тематикой.

	## Архитектура

	* Базовая модель: RuBERT
	* Тип задачи: бинарная классификация (СПАМ / НЕ СПАМ)
	* Количество меток: 1 (используется сигмоида для вероятности спама)
	* Фреймворк: PyTorch + Transformers (Hugging Face)

	## Пример использования

	```python
	import torch
	from transformers import AutoTokenizer, AutoModelForSequenceClassification

	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	tokenizer = AutoTokenizer.from_pretrained("ruSpamModels/ruSpam_big")
	model = AutoModelForSequenceClassification.from_pretrained(
	"NeuroSpaceX/ruSpam_big", num_labels=1
	).to(device).eval()

	text = "Пример сообщения"
	encoding = tokenizer(text, padding="max_length", truncation=True, max_length=512, return_tensors="pt")
	input_ids = encoding["input_ids"].to(device)
	attention_mask = encoding["attention_mask"].to(device)

	with torch.no_grad():
	outputs = model(input_ids, attention_mask=attention_mask).logits
	prediction = torch.sigmoid(outputs).cpu().numpy()[0][0]
	is_spam = prediction >= 0.5

	print(f"Результат: {'СПАМ' if is_spam else 'НЕ СПАМ'} (уверенность: {prediction:.4f})")
	```

	---

	## 💖 Поддержка проекта

	Если проект оказался полезен, вы можете поддержать его развитие:

	- TON:
	`UQAvc2APxFcmNg0-K8TJ8ykdkl2GjwveuVfFd8-NOwHGEeqv`

	- Рубли (Telegram):
	Перейдите по старт-ссылке бота
	👉 [@ModProtectorBot](https://t.me/ModProtectorBot?start=donate)

	Спасибо за поддержку ❤️