|
|
- Terminar de correr todo hasta ahora |
|
|
- Para DBPedia, comparar DPCal con LoRA en función de la cantidad de muestras entrenando con un conjunto limitado de datos. Repetir para cuando el modelo fue previamente fine-tuneado con datos out-of-domain. Graficar Zero-shot. Ver plot dbpedia_nce. Debería verse que en algún momento LoRA supera a DPCal pero para pocas muestras, debería funcionar bien DPCal. |
|
|
|
|
|
DPCal helps on non-finetuned and fine-tuned-on-matched-data models: |
|
|
Zero-shot/Few-shot/LoraMatchedAns/LoraMatchedFS/BERT + DPCal/HistBinning/VectorScaling/etc |
|
|
|
|
|
You can choose DPCal if you have limited budget of data: |
|
|
Zero-shot/LoramatchedAns/LoraMatchedFS/DPCal vs number of samples |
|
|
|
|
|
If you have other data, calibrate after train: |
|
|
LoraMismatchedAns/LoraMismatchedFS/Instruct/InstructFewShot + DPCal (use zero-shot/zero-shot+dpcal as baseline) |
|
|
|
|
|
|
|
|
sin es con 100 deberia dar mejor que con 70 |
|
|
el mejor deberia ser sin es calibrado en el 30 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
instruct base |
|
|
instruc + dpcal en todos |
|
|
instruct + 70-30 lora |
|
|
instruct + 70-30 lora + dpcal |
|
|
instruc + 100 lora (no es) |
|
|
instruct + 100 lora (con steps de lora70-30) |
|
|
|
|
|
|
|
|
|
|
|
Data split: |
|
|
- Set 1: first p% of the data |
|
|
- Set 2: last 100-p% of the data |
|
|
- Set 3: 100% of the data |
|
|
|
|
|
Methods: |
|
|
1. No Adaptation (baseline): Do not use training data |
|
|
2. Calibration: Use Set 3 for calibration |
|
|
|
|
|
3. LoRA p%: Use Set 1 for training LoRA and Set 2 for validation |
|
|
4. LoRA 100%: Use Set 3 for training LoRA with number of steps used in method 3. |
|
|
|
|
|
5. LoRA p% without ES: Use Set 1 for training LoRA without Early Stopping |
|
|
6. LoRA 100% without ES: Use Set 3 for training LoRA without Early Stopping |
|
|
|
|
|
7. LoRA p% + Cal: Method 3 plus calibration on Set 2. |
|
|
8. LoRA 100% + Cal: Method 4 plus calibration with parameters of method 7. |
|
|
|
|
|
9. LoRA p% without ES + Cal: Method 5 plus calibration on Set 2. |
|
|
10. LoRA 100% without ES + Cal: Method 6 plus calibration with parameters of method 9. |
|
|
|
|
|
* = No ES |
|
|
x = ES |
|
|
|
|
|
Red = LoRA p |
|
|
Green = LoRA 100 |
|
|
|
|
|
Solid (-) = No calibration |
|
|
Dashed (--) = Temp Scaling |
|
|
Dotted (:) = DP Calibration |
|
|
|
|
|
|
|
|
|
|
|
icen laboratorio |
|
|
cerca del RR, tambien hay bus a la universidad |
|
|
estacion de orsay |
|
|
qualcum |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Cosas para el paper: |
|
|
|
|
|
- Hay que argumentar que un modelo robusto es un modelo que puede clasificar bien para cualquier set de respuestas que se le presente |
|
|
- Capaz podemos venderlo como un framework alternativo a prompt engineering en donde elgís las posibles respuestas y se las das como answers en lugar de en el prompt. |
|
|
|
|
|
- Métodos PEFTs son efectivos: https: |
|
|
- Ejemplo de catastrofic forgeting en medical domain: https: |
|
|
- Otro ejemplo de catastrofic forgeting: https: |
|
|
- Mixture of Prompts: https: |
|
|
- Filtrado de muestras para hacer in domain finetuning: https: |
|
|
- Blog que habla sobre catastrofic forgetting: https: |
|
|
- Synthetic generation: https: |
|
|
- Training budget guide: https: |
|
|
- Prompt engineering: https: |
|
|
- Paper de continual pretraining: https: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
No tiene que ver con el paper pero sí con el proyecto de pablo: https: |
|
|
|
|
|
Mostrar NER y NCE con todos los métodos de adaptación |
|
|
otro plot con LoRA p=1.0 no ES con calibracion |
|
|
en dbpedia, comparar distribuciones en pocas mustras del sin calibrar y del calibrado. |
|
|
|
|
|
|
|
|
|
|
|
TODO: |
|
|
- Hacer y agregar plots de la primera sección de resultados |
|
|
- Hacer y agregar plots de la segunda sección de resultados |
|
|
- Análisis de las posteriors de las clases |
|
|
- Análisis de las posteriors por fuera de la distribución de tokens de interés |
|
|
- Escribir la primera parte de la sección de entrenamiento (descripción de LoRA y fine-tuning) |
|
|
- Agregar related works |
|
|
- Escribir el experimental setup |
|
|
- agregar las referencias al .bib |
|
|
- Terminar de correr Qwen y agregar al apéndice |
|
|
<!-- - Ver intervalos y ver si agrego muestras al test |
|
|
- Ver si tengo que correr más seeds --> |
|
|
<!-- - Correr / buscar en resultados viejos para muchas muestras en Llama3.2 y todos los datasets, y agregar calibración: |
|
|
- Base model |
|
|
- Instruct model |
|
|
- Base trained on mismatched data |
|
|
- Instruct trained on mismatched data |
|
|
- LoRA p=1.0 con early stopping en Base |
|
|
- LoRA p=1.0 con early stopping en Instruct --> |
|
|
|
|
|
|
|
|
|
|
|
|