timcryt's picture
Create README.md
d2593a9 verified
metadata
base_model:
  - DeepChem/ChemBERTa-10M-MLM
pipeline_tag: feature-extraction
tags:
  - chemistry
datasets:
  - zpn/zinc20

Репозиторий к докладу "Физическое информирование фундаментальных языковых моделей в химии через многозадачную регрессию"

Содержимое репозитория

  • train_model.py: скрипт обучения модели, гиперпараметры обучения задаются в параметрах скрипта

  • test_model.py: скрипт валидации модели, тестирующий модель на заданных бенчмарках

  • models/:

    • models/model_mtr_{x}_mlm_{y}.pth: чекпоинт с весами одной из 15 моделей где числа x и y соотносятся весам MTR и MLM функций потерь соответственно
  • support/:

    • support/*.csv: файлы с датасетами для тестирования моделей
    • support/normalization_params.pth: нормализационные параметры для rdkit дескрипторов
    • support/smiles_10k.txt: пример датасета (первые 640k молекул из ZINC20)