CarlosAGDev/ltv-lora-qa

LoRA-QA (v0.1.0) del LTV Framework. Genera 2-4 sub-preguntas atomicas y auto-contenidas para verificar una afirmacion check-worthy clasificada. Tercer paso del pipeline de Triage, despues de LoRA-CW y LoRA-CLF.

Formato de salida

{
  "questions": [
    {"question": "...", "answer_type": "Boolean"},
    {"question": "...", "answer_type": "Extractive"}
  ]
}

answer_type puede ser: Boolean, Extractive, o Abstractive.

Detalles del Entrenamiento

Entrenado sobre anotaciones sinteticas generadas por gemini-3.1-flash-lite. Pool balanceado: Event/Property Claim capeado a 500 (de 973 disponibles), split estratificado por claim_type (15% eval, 85% train).

Claim type entrenado Claims (pool)
Event/Property Claim 500 (cap desde 973)
Numerical Claim 207
Causal Claim 12
Position Statement 8
Quote Verification 0 (ausente en v0.1)
Total 727

Hiperparametros

  • Modelo Base: google/gemma-4-E2B-it
  • Max Sequence Length: 512
  • Epochs: 1
  • Batch Size (Per Device): 4
  • Gradient Accumulation Steps: 4
  • Learning Rate: 0.0002
  • Optimizer: paged_adamw_8bit

Resultados (v0.1.0)

Evaluado sobre 110 muestras (15% held-out, estratificado por claim_type). Tiempo de evaluacion: 32m 6s (~17.5 s/ejemplo).

Validez del esquema de salida

Metrica Valor
JSON valido + schema OK 110/110 (100%)
Fallos de parseo 0

Validez por claim_type

Claim type Validos / Total %
Event/Property Claim 76/76 100%
Numerical Claim 31/31 100%
Causal Claim 2/2 100%
Position Statement 1/1 100%

Distribucion de n_questions (Referencia vs Generado)

n preguntas Referencia Generado
2 14 2
3 92 107
4 4 1

Distribucion de answer_type (Referencia vs Generado)

answer_type Ref count Ref % Gen count Gen %
Boolean 130 40.6% 127 38.6%
Extractive 146 45.6% 171 52.0%
Abstractive 44 13.8% 31 9.4%

Notas de comportamiento

  • Generacion perfecta en v0.1: el modelo produce JSON valido y schema-correcto en el 100% de los casos evaluados, para los 4 tipos de claim disponibles.
  • Preferencia por 3 preguntas: el modelo genera 3 sub-preguntas en el 97% de los casos (referencia: 84%), colapsando los extremos (2 y 4 preguntas se usan mucho menos). Para la mayoria de afirmaciones esto es correcto, pero puede infragenerar preguntas para claims complejos que merecen 4.
  • Sesgo Extractive / falta de Abstractive: genera Extractive un 6% mas de lo esperado (52% vs 45.6%) y Abstractive un 4% menos (9.4% vs 13.8%). El modelo favorece preguntas de hecho concreto sobre preguntas de sintesis o explicacion causal.

Limitaciones y mejoras para v0.2.0

  1. Quote Verification ausente: 0 ejemplos en el batch sintetico actual. Al completar las 7,440 anotaciones aparecera este tipo. Hasta entonces el modelo no ha aprendido a generar preguntas para citas textuales.
  2. Causal y Position muy escasos (12 y 8 claims): los resultados 100% para estos tipos son prometedores pero no estadisticamente robustos con 2 y 1 ejemplos de eval.
  3. Distribucion de n_questions sesgada hacia 3: agregar ejemplos con 2 y 4 preguntas equilibrara la distribucion generada.
  4. Reducir sesgo Extractive: el batch sintetico completo dara mas ejemplos con Abstractive (tipicamente en Causal y Position Statement).
Downloads last month
-
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for CarlosAGDev/ltv-lora-qa

Adapter
(113)
this model

Collection including CarlosAGDev/ltv-lora-qa