File size: 4,458 Bytes
91ed952 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 |
- Terminar de correr todo hasta ahora
- Para DBPedia, comparar DPCal con LoRA en función de la cantidad de muestras entrenando con un conjunto limitado de datos. Repetir para cuando el modelo fue previamente fine-tuneado con datos out-of-domain. Graficar Zero-shot. Ver plot dbpedia_nce. Debería verse que en algún momento LoRA supera a DPCal pero para pocas muestras, debería funcionar bien DPCal.
DPCal helps on non-finetuned and fine-tuned-on-matched-data models:
Zero-shot/Few-shot/LoraMatchedAns/LoraMatchedFS/BERT + DPCal/HistBinning/VectorScaling/etc
You can choose DPCal if you have limited budget of data:
Zero-shot/LoramatchedAns/LoraMatchedFS/DPCal vs number of samples
If you have other data, calibrate after train:
LoraMismatchedAns/LoraMismatchedFS/Instruct/InstructFewShot + DPCal (use zero-shot/zero-shot+dpcal as baseline)
sin es con 100 deberia dar mejor que con 70
el mejor deberia ser sin es calibrado en el 30
instruct base
instruc + dpcal en todos
instruct + 70-30 lora
instruct + 70-30 lora + dpcal
instruc + 100 lora (no es)
instruct + 100 lora (con steps de lora70-30)
Data split:
- Set 1: first p% of the data
- Set 2: last 100-p% of the data
- Set 3: 100% of the data
Methods:
1. No Adaptation (baseline): Do not use training data
2. Calibration: Use Set 3 for calibration
3. LoRA p%: Use Set 1 for training LoRA and Set 2 for validation
4. LoRA 100%: Use Set 3 for training LoRA with number of steps used in method 3.
5. LoRA p% without ES: Use Set 1 for training LoRA without Early Stopping
6. LoRA 100% without ES: Use Set 3 for training LoRA without Early Stopping
7. LoRA p% + Cal: Method 3 plus calibration on Set 2.
8. LoRA 100% + Cal: Method 4 plus calibration with parameters of method 7.
9. LoRA p% without ES + Cal: Method 5 plus calibration on Set 2.
10. LoRA 100% without ES + Cal: Method 6 plus calibration with parameters of method 9.
* = No ES
x = ES
Red = LoRA p
Green = LoRA 100
Solid (-) = No calibration
Dashed (--) = Temp Scaling
Dotted (:) = DP Calibration
icen laboratorio
cerca del RR, tambien hay bus a la universidad
estacion de orsay
qualcum
Cosas para el paper:
- Hay que argumentar que un modelo robusto es un modelo que puede clasificar bien para cualquier set de respuestas que se le presente
- Capaz podemos venderlo como un framework alternativo a prompt engineering en donde elgís las posibles respuestas y se las das como answers en lugar de en el prompt.
- Métodos PEFTs son efectivos: https://aclanthology.org/2021.acl-long.172.pdf
- Ejemplo de catastrofic forgeting en medical domain: https://arxiv.org/abs/2203.13381
- Otro ejemplo de catastrofic forgeting: https://arxiv.org/abs/2308.08747
- Mixture of Prompts: https://arxiv.org/pdf/2310.02842
- Filtrado de muestras para hacer in domain finetuning: https://arxiv.org/abs/2410.14745
- Blog que habla sobre catastrofic forgetting: https://blog.arcee.ai/the-hidden-obstacles-of-domain-adaptation-in-llms/
- Synthetic generation: https://arxiv.org/abs/2303.00807
- Training budget guide: https://aclanthology.org/2024.eamt-1.51/
- Prompt engineering: https://ieeexplore.ieee.org/abstract/document/9908590
- Paper de continual pretraining: https://arxiv.org/abs/2004.10964
No tiene que ver con el paper pero sí con el proyecto de pablo: https://arxiv.org/abs/2310.01444
Mostrar NER y NCE con todos los métodos de adaptación
otro plot con LoRA p=1.0 no ES con calibracion
en dbpedia, comparar distribuciones en pocas mustras del sin calibrar y del calibrado.
TODO:
- Hacer y agregar plots de la primera sección de resultados
- Hacer y agregar plots de la segunda sección de resultados
- Análisis de las posteriors de las clases
- Análisis de las posteriors por fuera de la distribución de tokens de interés
- Escribir la primera parte de la sección de entrenamiento (descripción de LoRA y fine-tuning)
- Agregar related works
- Escribir el experimental setup
- agregar las referencias al .bib
- Terminar de correr Qwen y agregar al apéndice
<!-- - Ver intervalos y ver si agrego muestras al test
- Ver si tengo que correr más seeds -->
<!-- - Correr / buscar en resultados viejos para muchas muestras en Llama3.2 y todos los datasets, y agregar calibración:
- Base model
- Instruct model
- Base trained on mismatched data
- Instruct trained on mismatched data
- LoRA p=1.0 con early stopping en Base
- LoRA p=1.0 con early stopping en Instruct -->
|