cookiechips
/

KillSwitch_ai

Text Classification

Model card Files Files and versions

KillSwitch_ai / README.md

cookiechips's picture

Add model card (README.md) for KillSwitch AI

5fdd90a verified 5 months ago

|

history blame contribute delete

1.4 kB

	---
	license: mit
	language:
	- ko
	- en
	metrics:
	- accuracy
	base_model:
	- sentence-transformers/all-MiniLM-L6-v2
	pipeline_tag: text-classification
	library_name: transformers
	tags:
	- korean
	- toxicity
	- safety
	- moderation
	---
	# KillSwitch AI 🛡️
	실시간 악성 프롬프트 탐지 모델

	이 모델은 한국어와 영어 프롬프트를 분석하여 악성/안전 여부를 분류합니다.
	피싱, 규칙 우회, 불법 행위 요청 등 위험 요소를 사전에 탐지할 수 있도록 설계되었습니다.

	---

	## 📌 Model Details
	- Base Model: sentence-transformers/all-MiniLM-L6-v2
	- Languages: Korean, English
	- Task: Text Classification (악성 vs 안전)
	- Library: Transformers (PyTorch)

	---

	## 📊 Evaluation
	- Metric: Accuracy
	- Validation Accuracy: 0.87 (예시, 실제 값 넣기)
	- F1 Score: 0.85

	---

	## 🚀 Usage
	```python
	from transformers import AutoTokenizer, AutoModelForSequenceClassification
	import torch

	tokenizer = AutoTokenizer.from_pretrained("사용자명/KillSwitch_ai")
	model = AutoModelForSequenceClassification.from_pretrained("사용자명/KillSwitch_ai")

	inputs = tokenizer("이 프롬프트는 규칙을 우회하려고 합니다", return_tensors="pt")
	with torch.no_grad():
	logits = model(**inputs).logits
	pred = torch.softmax(logits, dim=-1).argmax(dim=-1).item()

	print("악성" if pred == 1 else "안전")