Spaces:
Running
Running
Upload README.md with huggingface_hub
Browse files
README.md
CHANGED
|
@@ -1,13 +1,49 @@
|
|
| 1 |
---
|
| 2 |
-
title: GuardLLM
|
| 3 |
-
emoji:
|
| 4 |
-
colorFrom:
|
| 5 |
-
colorTo:
|
| 6 |
sdk: gradio
|
| 7 |
-
sdk_version:
|
| 8 |
app_file: app.py
|
| 9 |
pinned: false
|
| 10 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 11 |
---
|
| 12 |
|
| 13 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
---
|
| 2 |
+
title: GuardLLM — Prompt Security Visualizer
|
| 3 |
+
emoji: "\U0001f6e1\ufe0f"
|
| 4 |
+
colorFrom: blue
|
| 5 |
+
colorTo: indigo
|
| 6 |
sdk: gradio
|
| 7 |
+
sdk_version: "5.0"
|
| 8 |
app_file: app.py
|
| 9 |
pinned: false
|
| 10 |
+
license: apache-2.0
|
| 11 |
+
hardware: cpu-basic
|
| 12 |
+
tags:
|
| 13 |
+
- prompt-injection
|
| 14 |
+
- jailbreak
|
| 15 |
+
- llm-security
|
| 16 |
+
- t-sne
|
| 17 |
+
- visualization
|
| 18 |
---
|
| 19 |
|
| 20 |
+
# GuardLLM — Prompt Security Visualizer
|
| 21 |
+
|
| 22 |
+
Visualisation interactive t-SNE des embeddings de prompts, classés par type d'attaque, avec analyse de risque en temps réel.
|
| 23 |
+
|
| 24 |
+
## Fonctionnalités
|
| 25 |
+
|
| 26 |
+
- **Espace d'embedding t-SNE** : ~6 000 prompts du [neuralchemy/Prompt-injection-dataset](https://huggingface.co/datasets/neuralchemy/Prompt-injection-dataset) visualisés en 2D via les embeddings de Llama Prompt Guard 2.
|
| 27 |
+
- **Exploration interactive** : cliquez sur un point pour voir le texte complet et l'analyse de risque. Filtrez par catégorie d'attaque et niveau de sévérité.
|
| 28 |
+
- **Analyse en temps réel** : entrez n'importe quel prompt manuellement pour une évaluation instantanée.
|
| 29 |
+
- **12 catégories d'attaque** : direct_injection, jailbreak, system_extraction, encoding_obfuscation, persona_replacement, indirect_injection, token_smuggling, many_shot, crescendo, context_overflow, prompt_leaking, et benign.
|
| 30 |
+
|
| 31 |
+
## Comment ça marche
|
| 32 |
+
|
| 33 |
+
1. Les embeddings sont extraits du **token [CLS]** de [Llama Prompt Guard 2 (86M)](https://huggingface.co/meta-llama/Llama-Prompt-Guard-2-86M) — un classificateur DeBERTa fine-tuné par Meta.
|
| 34 |
+
2. **t-SNE** réduit les embeddings 768D en 2D pour la visualisation.
|
| 35 |
+
3. Les points sont colorés par catégorie d'attaque.
|
| 36 |
+
4. Cliquer sur un point lance le classificateur en temps réel et affiche l'évaluation de risque.
|
| 37 |
+
|
| 38 |
+
## Premier lancement
|
| 39 |
+
|
| 40 |
+
Au premier lancement, l'app va :
|
| 41 |
+
1. Télécharger le dataset neuralchemy (~6 274 samples, config core)
|
| 42 |
+
2. Calculer les embeddings CLS pour tous les prompts (~10-20 min sur CPU)
|
| 43 |
+
3. Lancer la réduction t-SNE
|
| 44 |
+
4. Mettre en cache dans `cache/` pour les lancements suivants
|
| 45 |
+
|
| 46 |
+
## Crédits
|
| 47 |
+
|
| 48 |
+
- **Modèle** : [meta-llama/Llama-Prompt-Guard-2-86M](https://huggingface.co/meta-llama/Llama-Prompt-Guard-2-86M)
|
| 49 |
+
- **Dataset** : [neuralchemy/Prompt-injection-dataset](https://huggingface.co/datasets/neuralchemy/Prompt-injection-dataset)
|