CarlosAGDev/ltv-lora-qa

LoRA-QA (v0.1.0) del LTV Framework. Genera 2-4 sub-preguntas atomicas y auto-contenidas para verificar una afirmacion check-worthy clasificada. Tercer paso del pipeline de Triage, despues de LoRA-CW y LoRA-CLF.

Formato de salida

{
  "questions": [
    {"question": "...", "answer_type": "Boolean"},
    {"question": "...", "answer_type": "Extractive"}
  ]
}

answer_type puede ser: Boolean, Extractive, o Abstractive.

Detalles del Entrenamiento

Entrenado sobre anotaciones sinteticas generadas por gemini-3.1-flash-lite. Pool balanceado: Event/Property Claim capeado a 500 (de 973 disponibles), split estratificado por claim_type (15% eval, 85% train).

Claim type entrenado	Claims (pool)
Event/Property Claim	500 (cap desde 973)
Numerical Claim	207
Causal Claim	12
Position Statement	8
Quote Verification	0 (ausente en v0.1)
Total	727

Hiperparametros

Modelo Base: google/gemma-4-E2B-it
Max Sequence Length: 512
Epochs: 1
Batch Size (Per Device): 4
Gradient Accumulation Steps: 4
Learning Rate: 0.0002
Optimizer: paged_adamw_8bit

Resultados (v0.1.0)

Evaluado sobre 110 muestras (15% held-out, estratificado por claim_type). Tiempo de evaluacion: 32m 6s (~17.5 s/ejemplo).

Validez del esquema de salida

Metrica	Valor
JSON valido + schema OK	110/110 (100%)
Fallos de parseo	0

Validez por claim_type

Claim type	Validos / Total	%
Event/Property Claim	76/76	100%
Numerical Claim	31/31	100%
Causal Claim	2/2	100%
Position Statement	1/1	100%

Distribucion de n_questions (Referencia vs Generado)

n preguntas	Referencia	Generado
2	14	2
3	92	107
4	4	1

Distribucion de answer_type (Referencia vs Generado)

answer_type	Ref count	Ref %	Gen count	Gen %
Boolean	130	40.6%	127	38.6%
Extractive	146	45.6%	171	52.0%
Abstractive	44	13.8%	31	9.4%

Notas de comportamiento

Generacion perfecta en v0.1: el modelo produce JSON valido y schema-correcto en el 100% de los casos evaluados, para los 4 tipos de claim disponibles.
Preferencia por 3 preguntas: el modelo genera 3 sub-preguntas en el 97% de los casos (referencia: 84%), colapsando los extremos (2 y 4 preguntas se usan mucho menos). Para la mayoria de afirmaciones esto es correcto, pero puede infragenerar preguntas para claims complejos que merecen 4.
Sesgo Extractive / falta de Abstractive: genera Extractive un 6% mas de lo esperado (52% vs 45.6%) y Abstractive un 4% menos (9.4% vs 13.8%). El modelo favorece preguntas de hecho concreto sobre preguntas de sintesis o explicacion causal.

Limitaciones y mejoras para v0.2.0

Quote Verification ausente: 0 ejemplos en el batch sintetico actual. Al completar las 7,440 anotaciones aparecera este tipo. Hasta entonces el modelo no ha aprendido a generar preguntas para citas textuales.
Causal y Position muy escasos (12 y 8 claims): los resultados 100% para estos tipos son prometedores pero no estadisticamente robustos con 2 y 1 ejemplos de eval.
Distribucion de n_questions sesgada hacia 3: agregar ejemplos con 2 y 4 preguntas equilibrara la distribucion generada.
Reducir sesgo Extractive: el batch sintetico completo dara mas ejemplos con Abstractive (tipicamente en Causal y Position Statement).

Downloads last month: -

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for CarlosAGDev/ltv-lora-qa

Base model

google/gemma-4-E2B

Finetuned

google/gemma-4-E2B-it

Adapter

(113)

this model

Collection including CarlosAGDev/ltv-lora-qa

LTV LoRA Adapters

Collection

3 items • Updated about 11 hours ago • 1