timcryt's picture
Create README.md
d2593a9 verified
---
base_model:
- DeepChem/ChemBERTa-10M-MLM
pipeline_tag: feature-extraction
tags:
- chemistry
datasets:
- zpn/zinc20
---
Репозиторий к докладу "Физическое информирование фундаментальных языковых моделей в химии через многозадачную регрессию"
Содержимое репозитория
- `train_model.py`: скрипт обучения модели, гиперпараметры обучения задаются в параметрах скрипта
- `test_model.py`: скрипт валидации модели, тестирующий модель на заданных бенчмарках
- `models/`:
- `models/model_mtr_{x}_mlm_{y}.pth`: чекпоинт с весами одной из 15 моделей где числа `x` и `y` соотносятся весам MTR и MLM функций потерь соответственно
- `support/`:
- `support/*.csv`: файлы с датасетами для тестирования моделей
- `support/normalization_params.pth`: нормализационные параметры для rdkit дескрипторов
- `support/smiles_10k.txt`: пример датасета (первые 640k молекул из ZINC20)