Spaces:

AlephBeth-AI
/

GuardLLM

Running

App Files Files Community

GuardLLM / README.md

AlephBeth-AI

Upload README.md with huggingface_hub

c020e5c verified 4 days ago

preview code

raw

history blame contribute delete

2.2 kB

metadata

title: GuardLLM — Prompt Security Visualizer
emoji: 🛡️
colorFrom: blue
colorTo: indigo
sdk: gradio
sdk_version: 6.12.0
app_file: app.py
pinned: false
license: apache-2.0
hardware: cpu-basic
tags:
  - prompt-injection
  - jailbreak
  - llm-security
  - t-sne
  - visualization

GuardLLM — Prompt Security Visualizer

Visualisation interactive t-SNE des embeddings de prompts, classés par type d'attaque, avec analyse de risque en temps réel.

Fonctionnalités

Espace d'embedding t-SNE : ~6 000 prompts du neuralchemy/Prompt-injection-dataset visualisés en 2D via les embeddings de Llama Prompt Guard 2.
Exploration interactive : cliquez sur un point pour voir le texte complet et l'analyse de risque. Filtrez par catégorie d'attaque et niveau de sévérité.
Analyse en temps réel : entrez n'importe quel prompt manuellement pour une évaluation instantanée.
12 catégories d'attaque : direct_injection, jailbreak, system_extraction, encoding_obfuscation, persona_replacement, indirect_injection, token_smuggling, many_shot, crescendo, context_overflow, prompt_leaking, et benign.

Comment ça marche

Les embeddings sont extraits du token [CLS] de Llama Prompt Guard 2 (86M) — un classificateur DeBERTa fine-tuné par Meta.
t-SNE réduit les embeddings 768D en 2D pour la visualisation.
Les points sont colorés par catégorie d'attaque.
Cliquer sur un point lance le classificateur en temps réel et affiche l'évaluation de risque.

Premier lancement

Au premier lancement, l'app va :

Télécharger le dataset neuralchemy (~6 274 samples, config core)
Calculer les embeddings CLS pour tous les prompts (~10-20 min sur CPU)
Lancer la réduction t-SNE
Mettre en cache dans cache/ pour les lancements suivants

Crédits

Modèle : meta-llama/Llama-Prompt-Guard-2-86M
Dataset : [neuralchemy/Prompt-injection-dataset](https://huggingface.co/datasets/neuralchemy/Prompt-injection-datase