|
|
--- |
|
|
library_name: transformers |
|
|
datasets: |
|
|
- cardiffnlp/tweet_eval |
|
|
base_model: |
|
|
- OuteAI/Lite-Oute-1-300M-Instruct |
|
|
--- |
|
|
|
|
|
# Описание |
|
|
|
|
|
Следовало дообучить базовую модель с помощью самописной реализации LoRA |
|
|
|
|
|
# Детали |
|
|
|
|
|
Морозились все слои кроме слоев лоры |
|
|
Параметры Лоры - r=8, alpha=16, target_submodules=["k_proj", "v_proj"] |
|
|
Гиперпараметры самые удачные - |
|
|
BATCH_SIZE = 16 |
|
|
|
|
|
LEARNING_RATE = 3e-4 |
|
|
|
|
|
NUM_EPOCHS = 1 |
|
|
И бралось всего 30к из тренировочной выборки |
|
|
# Метрики |
|
|
Удалось достичь Validation F1: 0.35012584001260394 |
|
|
На тесте же |
|
|
|
|
|
 |
|
|
|
|
|
P.S. |
|
|
|
|
|
Слишком много рандома, почти всегда вначале были метрики 0 и плохая генерация при рестарте с теми же параметрами выходили метрики сильно лучше. |