cod2-agent2: deepseek-ai/DeepSeek-R1-Distill-Llama-8B fine-tuned su DiverseVul
Modello base: deepseek-ai/DeepSeek-R1-Distill-Llama-8B (licenza ereditata).
Macro-categoria: cod2 -- Mancanza di controllo sui dati in ingresso
CWE target:
- CWE-190 (Integer Overflow or Wraparound)
- CWE-20 (Improper Input Validation)
- CWE-400 (Uncontrolled Resource Consumption)
Ruolo nell'ensemble
- Agente
A2del tritticocod2. - Peso nel voto pesato: 0.3.
- Checkpoint di origine:
last.
Formato di output
Una singola riga in italiano:
verdetto: VULN, cwe: CWE-XXX
verdetto: SAFE, cwe: N/A
Inferenza consigliata
- Precisione: BF16 + Flash Attention 2.
- Decoding: greedy (
do_sample=False,repetition_penalty=1.05). max_new_tokens=24,force_prefix="verdetto:".
Smoke test (post-merge, 20 sample)
| Metrica | Valore |
|---|---|
| Parse success rate | 1.000 |
| Accuracy binaria | 0.700 |
| Recall VULNERABLE | 0.700 |
| Recall SAFE | 0.700 |
| F1 macro | 0.700 |
| CWE accuracy@1 (sui VULN ground truth) | 0.600 |
| Sample falliti (parse o errore) | 0/20 |
Le metriche sono indicative su 20 sample stratificati (10 SAFE + 10 VULN)
estratti deterministicamente (seed=42) dal test set
data/test/cod2. Per metriche complete riferirsi
al run di evaluation su test set held-out completo.
Pipeline di inferenza
Questo modello e' uno dei 12 agenti dell'ensemble multi-modello
vuln-detect-ensemble. Viene caricato dal model_registry in coppia con
gli altri 2 agenti del trittico cod2 (max 1 trittico residente
in VRAM per volta).
- Downloads last month
- 11
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support