neuralghost
/

darkforensic-7b

@@ -123,32 +123,44 @@ print(tokenizer.decode(out[0], skip_special_tokens=True))
 ## Evaluación
-Evaluación head-to-head sobre 15 preguntas representativas tomadas del
-corpus de producción, juzgadas por Anthropic Claude Sonnet 4.6 sobre
-una rúbrica de 4 dimensiones (escala 1–10).
-| Dimensión | Claude Sonnet 4.6 | **darkforensic-7b** | Gemini 2.5 Flash |
-|---|---:|---:|---:|
-| Exactitud | 6.73 | **5.67** | 1.43 |
-| Profundidad | 6.93 | **5.13** | 1.00 |
-| Accionabilidad | 7.20 | **6.20** | 1.00 |
-| Claridad | 7.60 | **7.13** | 1.57 |
-| **Avg** | **7.12** | **6.03** | **1.25** |
-| Respuestas críticas (avg ≤ 3.0) | 0% | **0%** | 100% |
 **Interpretación honesta**:
-- **vs Claude Sonnet 4.6**: alcanza el ~85% de la calidad de un modelo
-  ~100× más caro y que requiere API externa. Pierde sobre todo en
-  profundidad — un 7B no es un trillón-parámetros.
-- **vs Gemini 2.5 Flash**: vence ampliamente en todas las dimensiones.
-  Gemini Flash falla en el 100% de los casos (respuestas truncadas o
-  no específicas al contexto dark-web). DarkForensic falla en el 0%.
 - **vs base (qwen2.5:3b)**: mejora consistente en todas las
   dimensiones; ganancia media geométrica +7.4% (ver paper).
-**Limitaciones del eval**: la muestra de 15 preguntas es pequeña. El eval
-v3 que ejecutaremos para la próxima versión ampliará a 100+ preguntas
-con dos jueces independientes y rúbrica refinada.
 ## Roadmap

 ## Evaluación
+Evaluación head-to-head contra el **teacher (Claude Sonnet 4.6)** sobre
+15 preguntas representativas tomadas del corpus de producción, juzgadas
+por Claude Sonnet 4.6 sobre una rúbrica de 4 dimensiones (escala 1–10).
+Ambos modelos limitados a `max_tokens = 1500` para comparación justa.
+| Dimensión | Claude Sonnet 4.6 (teacher) | **darkforensic-7b** |
+|---|---:|---:|
+| Exactitud | 6.73 | **5.67** |
+| Profundidad | 6.93 | **5.13** |
+| Accionabilidad | 7.20 | **6.20** |
+| Claridad | 7.60 | **7.13** |
+| **Avg** | **7.12** | **6.03** |
+| Respuestas críticas (avg ≤ 3.0) | 0/15 | **0/15** |
 **Interpretación honesta**:
+- **vs Claude Sonnet 4.6 (teacher)**: alcanza el ~85% de la calidad de
+  un modelo ~100× más caro y que requiere API externa. Pierde sobre
+  todo en profundidad analítica — un 7B no es un trillón-parámetros.
+  Diferencia en claridad casi nula (7.13 vs 7.60).
 - **vs base (qwen2.5:3b)**: mejora consistente en todas las
   dimensiones; ganancia media geométrica +7.4% (ver paper).
+- **Críticos**: 0 de 15. Operativamente no produce respuestas vacías
+  o dañinas.
+**Caveats metodológicos** (declarados para transparencia):
+- 15 preguntas es muestra pequeña. Estadísticamente preliminar.
+- Single-judge eval: Claude Sonnet 4.6 fue teacher Y juez — sesgo
+  conocido en literatura (favorece su propio style). v3 introducirá un
+  segundo juez independiente y reportará inter-judge agreement.
+- El primer run del eval incluyó Gemini 2.5 Flash como referencia
+  comercial peer, pero las respuestas se truncaron por un problema
+  de configuración del cliente (`max_tokens` insuficiente,
+  respuestas <150 caracteres en la mitad de las preguntas). Para
+  no sesgar la comparación con un cliente mal configurado, **Gemini
+  se excluyó** del chart final. Se re-ejecutará en v3 con
+  configuración correcta.
+**v3** ampliará el eval a 100+ preguntas con dos jueces independientes.
 ## Roadmap