--- base_model: - DeepChem/ChemBERTa-10M-MLM pipeline_tag: feature-extraction tags: - chemistry datasets: - zpn/zinc20 --- Репозиторий к докладу "Физическое информирование фундаментальных языковых моделей в химии через многозадачную регрессию" Содержимое репозитория - `train_model.py`: скрипт обучения модели, гиперпараметры обучения задаются в параметрах скрипта - `test_model.py`: скрипт валидации модели, тестирующий модель на заданных бенчмарках - `models/`: - `models/model_mtr_{x}_mlm_{y}.pth`: чекпоинт с весами одной из 15 моделей где числа `x` и `y` соотносятся весам MTR и MLM функций потерь соответственно - `support/`: - `support/*.csv`: файлы с датасетами для тестирования моделей - `support/normalization_params.pth`: нормализационные параметры для rdkit дескрипторов - `support/smiles_10k.txt`: пример датасета (первые 640k молекул из ZINC20)