- Terminar de correr todo hasta ahora
- Para DBPedia, comparar DPCal con LoRA en función de la cantidad de muestras entrenando con un conjunto limitado de datos. Repetir para cuando el modelo fue previamente fine-tuneado con datos out-of-domain. Graficar Zero-shot. Ver plot dbpedia_nce. Debería verse que en algún momento LoRA supera a DPCal pero para pocas muestras, debería funcionar bien DPCal.

DPCal helps on non-finetuned and fine-tuned-on-matched-data models:
Zero-shot/Few-shot/LoraMatchedAns/LoraMatchedFS/BERT + DPCal/HistBinning/VectorScaling/etc

You can choose DPCal if you have limited budget of data:
Zero-shot/LoramatchedAns/LoraMatchedFS/DPCal vs number of samples

If you have other data, calibrate after train:
LoraMismatchedAns/LoraMismatchedFS/Instruct/InstructFewShot + DPCal (use zero-shot/zero-shot+dpcal as baseline)


sin es con 100 deberia dar mejor que con 70
el mejor deberia ser sin es calibrado en el 30


instruct base
instruc + dpcal en todos
instruct + 70-30 lora
instruct + 70-30 lora + dpcal
instruc + 100 lora (no es)
instruct + 100 lora (con steps de lora70-30)


Data split:
- Set 1: first p% of the data
- Set 2: last 100-p% of the data
- Set 3: 100% of the data

Methods:
1. No Adaptation (baseline): Do not use training data
2. Calibration: Use Set 3 for calibration

3. LoRA p%: Use Set 1 for training LoRA and Set 2 for validation
4. LoRA 100%: Use Set 3 for training LoRA with number of steps used in method 3.

5. LoRA p% without ES: Use Set 1 for training LoRA without Early Stopping
6. LoRA 100% without ES: Use Set 3 for training LoRA without Early Stopping

7. LoRA p% + Cal: Method 3 plus calibration on Set 2.
8. LoRA 100% + Cal: Method 4 plus calibration with parameters of method 7.

9. LoRA p% without ES + Cal: Method 5 plus calibration on Set 2.
10. LoRA 100% without ES + Cal: Method 6 plus calibration with parameters of method 9.

* = No ES
x = ES

Red = LoRA p
Green = LoRA 100

Solid (-) = No calibration
Dashed (--) = Temp Scaling
Dotted (:) = DP Calibration


icen laboratorio
cerca del RR, tambien hay bus a la universidad
estacion de orsay
qualcum


Cosas para el paper:

- Hay que argumentar que un modelo robusto es un modelo que puede clasificar bien para cualquier set de respuestas que se le presente
- Capaz podemos venderlo como un framework alternativo a prompt engineering en donde elgís las posibles respuestas y se las das como answers en lugar de en el prompt. 

- Métodos PEFTs son efectivos: https://aclanthology.org/2021.acl-long.172.pdf
- Ejemplo de catastrofic forgeting en medical domain: https://arxiv.org/abs/2203.13381
- Otro ejemplo de catastrofic forgeting: https://arxiv.org/abs/2308.08747
- Mixture of Prompts: https://arxiv.org/pdf/2310.02842
- Filtrado de muestras para hacer in domain finetuning: https://arxiv.org/abs/2410.14745
- Blog que habla sobre catastrofic forgetting: https://blog.arcee.ai/the-hidden-obstacles-of-domain-adaptation-in-llms/
- Synthetic generation: https://arxiv.org/abs/2303.00807
- Training budget guide: https://aclanthology.org/2024.eamt-1.51/
- Prompt engineering: https://ieeexplore.ieee.org/abstract/document/9908590
- Paper de continual pretraining: https://arxiv.org/abs/2004.10964


No tiene que ver con el paper pero sí con el proyecto de pablo: https://arxiv.org/abs/2310.01444

Mostrar NER y NCE con todos los métodos de adaptación
otro plot con LoRA p=1.0 no ES con calibracion
en dbpedia, comparar distribuciones en pocas mustras del sin calibrar y del calibrado.


TODO:
- Hacer y agregar plots de la primera sección de resultados
- Hacer y agregar plots de la segunda sección de resultados
- Análisis de las posteriors de las clases
- Análisis de las posteriors por fuera de la distribución de tokens de interés
- Escribir la primera parte de la sección de entrenamiento (descripción de LoRA y fine-tuning)
- Agregar related works
- Escribir el experimental setup
- agregar las referencias al .bib
- Terminar de correr Qwen y agregar al apéndice
<!-- - Ver intervalos y ver si agrego muestras al test
- Ver si tengo que correr más seeds -->
<!-- - Correr / buscar en resultados viejos para muchas muestras en Llama3.2 y todos los datasets, y agregar calibración:
    - Base model
    - Instruct model
    - Base trained on mismatched data
    - Instruct trained on mismatched data
    - LoRA p=1.0 con early stopping en Base
    - LoRA p=1.0 con early stopping en Instruct -->