cod1-agent2: Qwen/Qwen2.5-Coder-14B-Instruct fine-tuned su DiverseVul

Modello base: Qwen/Qwen2.5-Coder-14B-Instruct (licenza ereditata).

Macro-categoria: cod1 -- Vulnerabilita di Memoria

CWE target:

  • CWE-125 (Out-of-Bounds Read)
  • CWE-416 (Use-After-Free)
  • CWE-787 (Out-of-Bounds Write)

Ruolo nell'ensemble

  • Agente A2 del trittico cod1.
  • Peso nel voto pesato: 0.3.
  • Checkpoint di origine: best.

Formato di output

Una singola riga in italiano:

verdetto: VULN, cwe: CWE-XXX
verdetto: SAFE, cwe: N/A

Inferenza consigliata

  • Precisione: BF16 + Flash Attention 2.
  • Decoding: greedy (do_sample=False, repetition_penalty=1.05).
  • max_new_tokens=24, force_prefix="verdetto:".

Smoke test (post-merge, 20 sample)

Metrica Valore
Parse success rate 1.000
Accuracy binaria 0.500
Recall VULNERABLE 0.000
Recall SAFE 1.000
F1 macro 0.500
CWE accuracy@1 (sui VULN ground truth) 0.000
Sample falliti (parse o errore) 0/20

Le metriche sono indicative su 20 sample stratificati (10 SAFE + 10 VULN) estratti deterministicamente (seed=42) dal test set data/test/cod1. Per metriche complete riferirsi al run di evaluation su test set held-out completo.

Pipeline di inferenza

Questo modello e' uno dei 12 agenti dell'ensemble multi-modello vuln-detect-ensemble. Viene caricato dal model_registry in coppia con gli altri 2 agenti del trittico cod1 (max 1 trittico residente in VRAM per volta).

Downloads last month
33
Safetensors
Model size
15B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support