AlephBeth-AI commited on
Commit
3513d00
·
verified ·
1 Parent(s): 043b9de

Upload README.md with huggingface_hub

Browse files
Files changed (1) hide show
  1. README.md +43 -7
README.md CHANGED
@@ -1,13 +1,49 @@
1
  ---
2
- title: GuardLLM
3
- emoji: 🌖
4
- colorFrom: gray
5
- colorTo: red
6
  sdk: gradio
7
- sdk_version: 6.12.0
8
  app_file: app.py
9
  pinned: false
10
- short_description: Prompt Security Analyzer powered by Llama Prompt Guard 2
 
 
 
 
 
 
 
11
  ---
12
 
13
- Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
+ title: GuardLLM — Prompt Security Visualizer
3
+ emoji: "\U0001f6e1\ufe0f"
4
+ colorFrom: blue
5
+ colorTo: indigo
6
  sdk: gradio
7
+ sdk_version: "5.0"
8
  app_file: app.py
9
  pinned: false
10
+ license: apache-2.0
11
+ hardware: cpu-basic
12
+ tags:
13
+ - prompt-injection
14
+ - jailbreak
15
+ - llm-security
16
+ - t-sne
17
+ - visualization
18
  ---
19
 
20
+ # GuardLLM Prompt Security Visualizer
21
+
22
+ Visualisation interactive t-SNE des embeddings de prompts, classés par type d'attaque, avec analyse de risque en temps réel.
23
+
24
+ ## Fonctionnalités
25
+
26
+ - **Espace d'embedding t-SNE** : ~6 000 prompts du [neuralchemy/Prompt-injection-dataset](https://huggingface.co/datasets/neuralchemy/Prompt-injection-dataset) visualisés en 2D via les embeddings de Llama Prompt Guard 2.
27
+ - **Exploration interactive** : cliquez sur un point pour voir le texte complet et l'analyse de risque. Filtrez par catégorie d'attaque et niveau de sévérité.
28
+ - **Analyse en temps réel** : entrez n'importe quel prompt manuellement pour une évaluation instantanée.
29
+ - **12 catégories d'attaque** : direct_injection, jailbreak, system_extraction, encoding_obfuscation, persona_replacement, indirect_injection, token_smuggling, many_shot, crescendo, context_overflow, prompt_leaking, et benign.
30
+
31
+ ## Comment ça marche
32
+
33
+ 1. Les embeddings sont extraits du **token [CLS]** de [Llama Prompt Guard 2 (86M)](https://huggingface.co/meta-llama/Llama-Prompt-Guard-2-86M) — un classificateur DeBERTa fine-tuné par Meta.
34
+ 2. **t-SNE** réduit les embeddings 768D en 2D pour la visualisation.
35
+ 3. Les points sont colorés par catégorie d'attaque.
36
+ 4. Cliquer sur un point lance le classificateur en temps réel et affiche l'évaluation de risque.
37
+
38
+ ## Premier lancement
39
+
40
+ Au premier lancement, l'app va :
41
+ 1. Télécharger le dataset neuralchemy (~6 274 samples, config core)
42
+ 2. Calculer les embeddings CLS pour tous les prompts (~10-20 min sur CPU)
43
+ 3. Lancer la réduction t-SNE
44
+ 4. Mettre en cache dans `cache/` pour les lancements suivants
45
+
46
+ ## Crédits
47
+
48
+ - **Modèle** : [meta-llama/Llama-Prompt-Guard-2-86M](https://huggingface.co/meta-llama/Llama-Prompt-Guard-2-86M)
49
+ - **Dataset** : [neuralchemy/Prompt-injection-dataset](https://huggingface.co/datasets/neuralchemy/Prompt-injection-dataset)