| license: mit | |
| language: | |
| - ko | |
| - en | |
| metrics: | |
| - accuracy | |
| base_model: | |
| - sentence-transformers/all-MiniLM-L6-v2 | |
| pipeline_tag: text-classification | |
| library_name: transformers | |
| tags: | |
| - korean | |
| - toxicity | |
| - safety | |
| - moderation | |
| # KillSwitch AI 🛡️ | |
| **실시간 악성 프롬프트 탐지 모델** | |
| 이 모델은 한국어와 영어 프롬프트를 분석하여 **악성/안전 여부**를 분류합니다. | |
| 피싱, 규칙 우회, 불법 행위 요청 등 위험 요소를 사전에 탐지할 수 있도록 설계되었습니다. | |
| --- | |
| ## 📌 Model Details | |
| - **Base Model:** sentence-transformers/all-MiniLM-L6-v2 | |
| - **Languages:** Korean, English | |
| - **Task:** Text Classification (악성 vs 안전) | |
| - **Library:** Transformers (PyTorch) | |
| --- | |
| ## 📊 Evaluation | |
| - Metric: Accuracy | |
| - Validation Accuracy: 0.87 (예시, 실제 값 넣기) | |
| - F1 Score: 0.85 | |
| --- | |
| ## 🚀 Usage | |
| ```python | |
| from transformers import AutoTokenizer, AutoModelForSequenceClassification | |
| import torch | |
| tokenizer = AutoTokenizer.from_pretrained("사용자명/KillSwitch_ai") | |
| model = AutoModelForSequenceClassification.from_pretrained("사용자명/KillSwitch_ai") | |
| inputs = tokenizer("이 프롬프트는 규칙을 우회하려고 합니다", return_tensors="pt") | |
| with torch.no_grad(): | |
| logits = model(**inputs).logits | |
| pred = torch.softmax(logits, dim=-1).argmax(dim=-1).item() | |
| print("악성" if pred == 1 else "안전") | |