大模型安全体检

简介

大模型安全体检提供简单易用、高效全面的大模型安全风险检测，一键发现安全问题，帮助开发者高效识别并修复安全风险。

平台内置了由朱雀通过大规模数据清洗、合成、泛化、语义去重而来的典型风险Prompt作为输入，支持百余种攻击方法对风险Prompt进行动态增强。开发者既可以基于内置的『体检项目』对模型进行体检，也可以借助于自定义评测集功能，利用朱雀提供的攻击方法对内部风险Prompt case进行进一步泛化增强。

选择任务类型：点击对话框下方的"大模型安全体检"。
配置模型、数据集与攻击方法：
- 选择/配置打分模型（详见大模型配置）。
- 选择/配置要检测的模型（详见大模型配置）。
- 选择内置数据集（详见数据集选择）或上传自定义数据集（详见自定义数据集管理）。
- 选择攻击方法（详见攻击方法介绍）或仅以原始Prompt进行测试。
启动任务并查看报告：点击按钮，等待任务完成后查看详细结果报告。

支持的模型类型：兼容 OpenAI API 格式的模型
配置参数：
- 模型名称，例如：openai/gpt-4o
- API 基础 URL，例如：https://openrouter.ai/api/v1
- API 密钥

体检执行：

报告展示：

系统支持两种方式使用自定义数据集：

临时上传：

说明：未来版本将支持用户自定义列名配置

数据集管理：

说明：未来版本将提供数据集质量评估和用户贡献排行

系统内置了丰富的攻击方法库，支持对风险Prompt进行动态增强，帮助开发者全面检测模型的安全防护能力。当前版本提供两大类攻击策略，共计百余种具体攻击方法。

这些攻击方法可以单独使用或组合使用，为开发者提供全面的模型安全测试能力。平台会持续更新和扩展攻击方法库，以应对不断演进的安全威胁。

本项目的开发离不开以下优秀的开源项目，特此致谢。

本项目基于 Confident AI 团队的 DeepTeam 项目进行构建与深度定制。

原项目仓库: https://github.com/DeepTeam/DeepTeam
原项目许可: 请参考其仓库下的 LICENSE 文件。
说明: 我们由衷感谢 Confident AI 团队提供的出色基础框架。为了使其更好地兼容并服务于我们自身的业务架构和特定需求，我们对其进行了大量的修改、扩展和重构，以实现`针对 AI-Infra-Guard 的生态进行了专项适配与集成，实现开箱即用的无缝对接。

我们向为本项目使用的各种攻击技术和算子的开发做出贡献的研究团队和社区表示诚挚的感谢：

我们向为本项目使用的各种数据集做出贡献的研究团队和社区表示诚挚的感谢：