jmpicon2026 commited on
Commit
5b30d8d
·
verified ·
1 Parent(s): 98bc7de

Update README — table without Gemini (misconfigured client run, excluded)

Browse files
Files changed (1) hide show
  1. README.md +34 -22
README.md CHANGED
@@ -123,32 +123,44 @@ print(tokenizer.decode(out[0], skip_special_tokens=True))
123
 
124
  ## Evaluación
125
 
126
- Evaluación head-to-head sobre 15 preguntas representativas tomadas del
127
- corpus de producción, juzgadas por Anthropic Claude Sonnet 4.6 sobre
128
- una rúbrica de 4 dimensiones (escala 1–10).
129
-
130
- | Dimensión | Claude Sonnet 4.6 | **darkforensic-7b** | Gemini 2.5 Flash |
131
- |---|---:|---:|---:|
132
- | Exactitud | 6.73 | **5.67** | 1.43 |
133
- | Profundidad | 6.93 | **5.13** | 1.00 |
134
- | Accionabilidad | 7.20 | **6.20** | 1.00 |
135
- | Claridad | 7.60 | **7.13** | 1.57 |
136
- | **Avg** | **7.12** | **6.03** | **1.25** |
137
- | Respuestas críticas (avg ≤ 3.0) | 0% | **0%** | 100% |
 
138
 
139
  **Interpretación honesta**:
140
- - **vs Claude Sonnet 4.6**: alcanza el ~85% de la calidad de un modelo
141
- ~100× más caro y que requiere API externa. Pierde sobre todo en
142
- profundidad — un 7B no es un trillón-parámetros.
143
- - **vs Gemini 2.5 Flash**: vence ampliamente en todas las dimensiones.
144
- Gemini Flash falla en el 100% de los casos (respuestas truncadas o
145
- no específicas al contexto dark-web). DarkForensic falla en el 0%.
146
  - **vs base (qwen2.5:3b)**: mejora consistente en todas las
147
  dimensiones; ganancia media geométrica +7.4% (ver paper).
148
-
149
- **Limitaciones del eval**: la muestra de 15 preguntas es pequeña. El eval
150
- v3 que ejecutaremos para la próxima versión ampliará a 100+ preguntas
151
- con dos jueces independientes y rúbrica refinada.
 
 
 
 
 
 
 
 
 
 
 
 
 
152
 
153
  ## Roadmap
154
 
 
123
 
124
  ## Evaluación
125
 
126
+ Evaluación head-to-head contra el **teacher (Claude Sonnet 4.6)** sobre
127
+ 15 preguntas representativas tomadas del corpus de producción, juzgadas
128
+ por Claude Sonnet 4.6 sobre una rúbrica de 4 dimensiones (escala 1–10).
129
+ Ambos modelos limitados a `max_tokens = 1500` para comparación justa.
130
+
131
+ | Dimensión | Claude Sonnet 4.6 (teacher) | **darkforensic-7b** |
132
+ |---|---:|---:|
133
+ | Exactitud | 6.73 | **5.67** |
134
+ | Profundidad | 6.93 | **5.13** |
135
+ | Accionabilidad | 7.20 | **6.20** |
136
+ | Claridad | 7.60 | **7.13** |
137
+ | **Avg** | **7.12** | **6.03** |
138
+ | Respuestas críticas (avg ≤ 3.0) | 0/15 | **0/15** |
139
 
140
  **Interpretación honesta**:
141
+ - **vs Claude Sonnet 4.6 (teacher)**: alcanza el ~85% de la calidad de
142
+ un modelo ~100× más caro y que requiere API externa. Pierde sobre
143
+ todo en profundidad analítica — un 7B no es un trillón-parámetros.
144
+ Diferencia en claridad casi nula (7.13 vs 7.60).
 
 
145
  - **vs base (qwen2.5:3b)**: mejora consistente en todas las
146
  dimensiones; ganancia media geométrica +7.4% (ver paper).
147
+ - **Críticos**: 0 de 15. Operativamente no produce respuestas vacías
148
+ o dañinas.
149
+
150
+ **Caveats metodológicos** (declarados para transparencia):
151
+ - 15 preguntas es muestra pequeña. Estadísticamente preliminar.
152
+ - Single-judge eval: Claude Sonnet 4.6 fue teacher Y juez — sesgo
153
+ conocido en literatura (favorece su propio style). v3 introducirá un
154
+ segundo juez independiente y reportará inter-judge agreement.
155
+ - El primer run del eval incluyó Gemini 2.5 Flash como referencia
156
+ comercial peer, pero las respuestas se truncaron por un problema
157
+ de configuración del cliente (`max_tokens` insuficiente,
158
+ respuestas <150 caracteres en la mitad de las preguntas). Para
159
+ no sesgar la comparación con un cliente mal configurado, **Gemini
160
+ se excluyó** del chart final. Se re-ejecutará en v3 con
161
+ configuración correcta.
162
+
163
+ **v3** ampliará el eval a 100+ preguntas con dos jueces independientes.
164
 
165
  ## Roadmap
166