Upload GNN turn-level model artifacts

Files changed (3) hide show

README.md ADDED Viewed

+---
+language: en
+tags:
+  - gnn
+  - jailbreak-detection
+  - text-classification
+model-index:
+  - name: predict_gnn_phi4_14b
+    results:
+      - task:
+          type: text-classification
+          name: Jailbreak Detection
+        metrics:
+          - name: F1
+            type: f1
+            value: 0.9274
+          - name: PR-AUC
+            type: pr_auc
+            value: 0.9636
+          - name: ROC-AUC
+            type: roc_auc
+            value: 0.9700
+          - name: Precision
+            type: precision
+            value: 0.9345
+          - name: Recall
+            type: recall
+            value: 0.9257
+---
+# GNN Jailbreak Prediction Model (phi4:14b)
+Homogeneous GNN classifier for unsafe/jailbreak likelihood in multi-turn conversations.
+## Evaluation Results
+| Metric         | Value  |
+|----------------|--------|
+| F1             | 0.9274 |
+| PR-AUC         | 0.9636 |
+| ROC-AUC        | 0.9700 |
+| Precision      | 0.9345 |
+| Recall         | 0.9257 |
+| Best Threshold | 0.500 |
+## Training Details
+- **Target model**: `phi4:14b`
+- **Datasets**: harmbench
+- **Split column**: `goal`
+- **Seed**: `42`
+- **Sentence model**: `sentence-transformers/all-MiniLM-L6-v2`
+- **Hidden channels**: `128`
+- **Num layers**: `2`
+- **Dropout**: `0.3`
+## Dataset Size (training samples)
+Prepared turn-level samples: 395

gnn_homo_payload.pt ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a3de3797a8ff4c91fa839a1c2bdebcad1c7255f1b6ea21a8e729b7dbc5b4f66
+size 974405

metadata.json ADDED Viewed

+{
+  "csv": "/home/digayona/multi_turn_jailbreak_RL/GNN/turns_table_llama3_8b_harmbench.csv",
+  "target_model": "phi4:14b",
+  "threshold": 0.5,
+  "sentence_model_name": "sentence-transformers/all-MiniLM-L6-v2",
+  "n_rows": 395,
+  "n_models": 1,
+  "split_col": "goal",
+  "seed": 42,
+  "model_kwargs": {
+    "hidden_channels": 128,
+    "num_layers": 2,
+    "dropout": 0.3
+  },
+  "test_metrics": {
+    "roc_auc": 0.9700266193433895,
+    "pr_auc": 0.9635752681366716,
+    "f1": 0.9274120884668552,
+    "precision": 0.9345029239766081,
+    "recall": 0.9257142857142856
+  }
+}