Spaces:
Running
Running
metadata
title: GuardLLM — Prompt Security Visualizer
emoji: 🛡️
colorFrom: blue
colorTo: indigo
sdk: gradio
sdk_version: 6.12.0
app_file: app.py
pinned: false
license: apache-2.0
hardware: cpu-basic
tags:
- prompt-injection
- jailbreak
- llm-security
- t-sne
- visualization
GuardLLM — Prompt Security Visualizer
Visualisation interactive t-SNE des embeddings de prompts, classés par type d'attaque, avec analyse de risque en temps réel.
Fonctionnalités
- Espace d'embedding t-SNE : ~6 000 prompts du neuralchemy/Prompt-injection-dataset visualisés en 2D via les embeddings de Llama Prompt Guard 2.
- Exploration interactive : cliquez sur un point pour voir le texte complet et l'analyse de risque. Filtrez par catégorie d'attaque et niveau de sévérité.
- Analyse en temps réel : entrez n'importe quel prompt manuellement pour une évaluation instantanée.
- 12 catégories d'attaque : direct_injection, jailbreak, system_extraction, encoding_obfuscation, persona_replacement, indirect_injection, token_smuggling, many_shot, crescendo, context_overflow, prompt_leaking, et benign.
Comment ça marche
- Les embeddings sont extraits du token [CLS] de Llama Prompt Guard 2 (86M) — un classificateur DeBERTa fine-tuné par Meta.
- t-SNE réduit les embeddings 768D en 2D pour la visualisation.
- Les points sont colorés par catégorie d'attaque.
- Cliquer sur un point lance le classificateur en temps réel et affiche l'évaluation de risque.
Premier lancement
Au premier lancement, l'app va :
- Télécharger le dataset neuralchemy (~6 274 samples, config core)
- Calculer les embeddings CLS pour tous les prompts (~10-20 min sur CPU)
- Lancer la réduction t-SNE
- Mettre en cache dans
cache/pour les lancements suivants
Crédits
- Modèle : meta-llama/Llama-Prompt-Guard-2-86M
- Dataset : [neuralchemy/Prompt-injection-dataset](https://huggingface.co/datasets/neuralchemy/Prompt-injection-datase