Update README — table without Gemini (misconfigured client run, excluded)
Browse files
README.md
CHANGED
|
@@ -123,32 +123,44 @@ print(tokenizer.decode(out[0], skip_special_tokens=True))
|
|
| 123 |
|
| 124 |
## Evaluación
|
| 125 |
|
| 126 |
-
Evaluación head-to-head
|
| 127 |
-
|
| 128 |
-
una rúbrica de 4 dimensiones (escala 1–10).
|
| 129 |
-
|
| 130 |
-
|
| 131 |
-
|
|
| 132 |
-
|
|
| 133 |
-
|
|
| 134 |
-
|
|
| 135 |
-
|
|
| 136 |
-
|
|
| 137 |
-
|
|
|
|
|
| 138 |
|
| 139 |
**Interpretación honesta**:
|
| 140 |
-
- **vs Claude Sonnet 4.6**: alcanza el ~85% de la calidad de
|
| 141 |
-
~100× más caro y que requiere API externa. Pierde sobre
|
| 142 |
-
profundidad — un 7B no es un trillón-parámetros.
|
| 143 |
-
|
| 144 |
-
Gemini Flash falla en el 100% de los casos (respuestas truncadas o
|
| 145 |
-
no específicas al contexto dark-web). DarkForensic falla en el 0%.
|
| 146 |
- **vs base (qwen2.5:3b)**: mejora consistente en todas las
|
| 147 |
dimensiones; ganancia media geométrica +7.4% (ver paper).
|
| 148 |
-
|
| 149 |
-
|
| 150 |
-
|
| 151 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 152 |
|
| 153 |
## Roadmap
|
| 154 |
|
|
|
|
| 123 |
|
| 124 |
## Evaluación
|
| 125 |
|
| 126 |
+
Evaluación head-to-head contra el **teacher (Claude Sonnet 4.6)** sobre
|
| 127 |
+
15 preguntas representativas tomadas del corpus de producción, juzgadas
|
| 128 |
+
por Claude Sonnet 4.6 sobre una rúbrica de 4 dimensiones (escala 1–10).
|
| 129 |
+
Ambos modelos limitados a `max_tokens = 1500` para comparación justa.
|
| 130 |
+
|
| 131 |
+
| Dimensión | Claude Sonnet 4.6 (teacher) | **darkforensic-7b** |
|
| 132 |
+
|---|---:|---:|
|
| 133 |
+
| Exactitud | 6.73 | **5.67** |
|
| 134 |
+
| Profundidad | 6.93 | **5.13** |
|
| 135 |
+
| Accionabilidad | 7.20 | **6.20** |
|
| 136 |
+
| Claridad | 7.60 | **7.13** |
|
| 137 |
+
| **Avg** | **7.12** | **6.03** |
|
| 138 |
+
| Respuestas críticas (avg ≤ 3.0) | 0/15 | **0/15** |
|
| 139 |
|
| 140 |
**Interpretación honesta**:
|
| 141 |
+
- **vs Claude Sonnet 4.6 (teacher)**: alcanza el ~85% de la calidad de
|
| 142 |
+
un modelo ~100× más caro y que requiere API externa. Pierde sobre
|
| 143 |
+
todo en profundidad analítica — un 7B no es un trillón-parámetros.
|
| 144 |
+
Diferencia en claridad casi nula (7.13 vs 7.60).
|
|
|
|
|
|
|
| 145 |
- **vs base (qwen2.5:3b)**: mejora consistente en todas las
|
| 146 |
dimensiones; ganancia media geométrica +7.4% (ver paper).
|
| 147 |
+
- **Críticos**: 0 de 15. Operativamente no produce respuestas vacías
|
| 148 |
+
o dañinas.
|
| 149 |
+
|
| 150 |
+
**Caveats metodológicos** (declarados para transparencia):
|
| 151 |
+
- 15 preguntas es muestra pequeña. Estadísticamente preliminar.
|
| 152 |
+
- Single-judge eval: Claude Sonnet 4.6 fue teacher Y juez — sesgo
|
| 153 |
+
conocido en literatura (favorece su propio style). v3 introducirá un
|
| 154 |
+
segundo juez independiente y reportará inter-judge agreement.
|
| 155 |
+
- El primer run del eval incluyó Gemini 2.5 Flash como referencia
|
| 156 |
+
comercial peer, pero las respuestas se truncaron por un problema
|
| 157 |
+
de configuración del cliente (`max_tokens` insuficiente,
|
| 158 |
+
respuestas <150 caracteres en la mitad de las preguntas). Para
|
| 159 |
+
no sesgar la comparación con un cliente mal configurado, **Gemini
|
| 160 |
+
se excluyó** del chart final. Se re-ejecutará en v3 con
|
| 161 |
+
configuración correcta.
|
| 162 |
+
|
| 163 |
+
**v3** ampliará el eval a 100+ preguntas con dos jueces independientes.
|
| 164 |
|
| 165 |
## Roadmap
|
| 166 |
|