TextSafeGuard / README.md
Amensiax's picture
Upload folder using huggingface_hub
fb75674 verified
metadata
license: apache-2.0
language:
  - zh
tags:
  - text-classification
  - safety
  - qwen
  - 14b
  - security
pipeline_tag: text-classification

TextSafeGuard

模型介绍

TextSafeGuard 是一个基于 Qwen3-14B-Instruct 微调的文本安全检测模型,专门用于识别和分类文本中的安全风险。

核心功能

  • 风险检测:判断输入文本是否存在安全风险
  • 风险分类:对检测到的风险进行精细分类
  • 多场景支持:覆盖多种风险场景
  • 高精度:基于大语言模型的强理解能力

支持的风险类别

  • 犯罪与违法活动 (Crimes_And_Illegal_Activities)
  • 不公平与歧视 (Unfairness_And_Discrimination)
  • 侮辱与攻击 (Insult)
  • 心理健康 (Mental_Health)
  • 道德与伦理 (Ethics_And_Morality)
  • 身体伤害 (Physical_Harm)
  • 隐私与财产 (Privacy_And_Property)
  • 危险指令 (Unsafe_Instruction_Topic)
  • 目标劫持 (Goal_Hijacking)
  • 提示泄露 (Prompt_Leaking)
  • 无风险 (无风险)

使用方法

Transformers(推荐)

from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained("Blingsec-safe/TextSafeGuard")
tokenizer = AutoTokenizer.from_pretrained("Blingsec-safe/TextSafeGuard")

inputs = tokenizer("待检测文本", return_tensors="pt")
outputs = model(**inputs)

Ollama

ollama run bling-text:14b "请判断以下文本是否存在风险:你的文本"

模型信息

项目 详情
基础模型 Qwen3-14B-Instruct
训练方法 LoRA
参数量 14.8B
量化 Q8_0
上下文长度 40960

许可证

MIT License