Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

combined_protein_to_smiles/config.yaml +346 -0
combined_protein_to_smiles/epoch_000.ckpt +3 -0
poc_vox_to_mol_vox/config.yaml +190 -0
poc_vox_to_mol_vox/epoch_173.ckpt +3 -0

combined_protein_to_smiles/config.yaml ADDED Viewed

	@@ -0,0 +1,346 @@

+task_name: CombinedHiQBAggPropPoc2Mol
+tags:
+- combined_data
+train: true
+test: true
+optimized_metric: val/loss
+ckpt_path: logs/CombinedHiQBindCkptFrmPrevCombined/runs/2025-05-06_20-51-46/checkpoints/last.ckpt
+seed: 42
+data:
+  train_dataset:
+    poc2mol_output_dataset:
+      poc2mol_model:
+        _target_: src.models.poc2mol.Poc2Mol
+        config:
+          _target_: src.models.poc2mol.ResUnetConfig
+          in_channels: 4
+          out_channels: 9
+          final_sigmoid: false
+          f_maps: 64
+          layer_order: gcr
+          num_groups: 8
+          num_levels: 5
+          conv_padding: 1
+          conv_upscale: 2
+          upsample: default
+          dropout_prob: 0.1
+          basic_module: ${oc.select:src.models.pytorch3dunet_lib.unet3d.buildingblocks.ResNetBlockSE,
+            src.models.pytorch3dunet_lib.unet3d.buildingblocks.ResNetBlockSE}
+        loss:
+          name: BCEDiceLoss
+          weight: null
+          normalization: sigmoid
+          alpha: 1.0
+          beta: 1.0
+        matmul_precision: high
+        lr: 0.0001
+        scheduler:
+          type: cosine_with_min_lr
+          num_warmup_steps: 50
+          min_lr_rate: 0.1
+          interval: step
+          frequency: 1
+        img_save_dir: ${paths.img_save_dir}
+      _target_: src.data.vox2smiles.datasets.Poc2MolOutputDataset
+      ckpt_path: logs/poc2mol/runs/2025-04-21_18-13-26/checkpoints/epoch_173.ckpt
+      complex_dataset:
+        _target_: src.data.poc2mol.datasets.ParquetDataset
+        data_path: ../hiqbind/parquet/train
+        translation: 6.0
+        rotate: true
+        config:
+          _target_: src.data.common.voxelization.config.Poc2MolDataConfig
+          batch_size: 1
+          has_protein: true
+          protein_channel_indices:
+          - 0
+          - 1
+          - 2
+          - 3
+          protein_channels:
+            0:
+            - C
+            1:
+            - O
+            2:
+            - 'N'
+            3:
+            - S
+          protein_channel_names:
+          - carbon
+          - oxygen
+          - nitrogen
+          - sulphur
+          ligand_channel_indices:
+          - 4
+          - 5
+          - 6
+          - 7
+          - 8
+          - 9
+          - 10
+          - 11
+          - 12
+          ligand_channels:
+            0:
+            - C
+            1:
+            - O
+            2:
+            - 'N'
+            3:
+            - S
+            4:
+            - Cl
+            5:
+            - F
+            6:
+            - I
+            7:
+            - Br
+            8:
+            - C
+            - H
+            - O
+            - 'N'
+            - S
+            - Cl
+            - F
+            - I
+            - Br
+          ligand_channel_names:
+          - carbon
+          - oxygen
+          - nitrogen
+          - sulphur
+          - chlorine
+          - fluorine
+          - iodine
+          - bromine
+          - other
+          vox_size: 0.75
+          box_dims:
+          - 24.0
+          - 24.0
+          - 24.0
+          random_rotation: true
+          random_translation: 6.0
+    _target_: src.data.vox2smiles.datasets.CombinedDataset
+    ratio: 0.75
+    max_poc2mol_loss: 0.78
+    vox2smiles_dataset:
+      _target_: src.data.vox2smiles.datasets.ParquetVox2SmilesDataset
+      data_path: ../zinc20_parquet
+      random_rotation: true
+      random_translation: 6.0
+      config: ${data.config}
+  secondary_val_dataset:
+    poc2mol_model:
+      _target_: src.models.poc2mol.Poc2Mol
+      config:
+        _target_: src.models.poc2mol.ResUnetConfig
+        in_channels: 4
+        out_channels: 9
+        final_sigmoid: false
+        f_maps: 64
+        layer_order: gcr
+        num_groups: 8
+        num_levels: 5
+        conv_padding: 1
+        conv_upscale: 2
+        upsample: default
+        dropout_prob: 0.1
+        basic_module: ${oc.select:src.models.pytorch3dunet_lib.unet3d.buildingblocks.ResNetBlockSE,
+          src.models.pytorch3dunet_lib.unet3d.buildingblocks.ResNetBlockSE}
+      loss:
+        name: BCEDiceLoss
+        weight: null
+        normalization: sigmoid
+        alpha: 1.0
+        beta: 1.0
+      matmul_precision: high
+      lr: 0.0001
+      scheduler:
+        type: cosine_with_min_lr
+        num_warmup_steps: 50
+        min_lr_rate: 0.1
+        interval: step
+        frequency: 1
+      img_save_dir: ${paths.img_save_dir}
+    _target_: src.data.vox2smiles.datasets.Poc2MolOutputDataset
+    ckpt_path: logs/poc2mol/runs/2025-04-21_18-13-26/checkpoints/epoch_173.ckpt
+    complex_dataset:
+      _target_: src.data.poc2mol.datasets.ParquetDataset
+      data_path: ../hiqbind/parquet/val
+      translation: 6.0
+      rotate: true
+      config:
+        _target_: src.data.common.voxelization.config.Poc2MolDataConfig
+        batch_size: 1
+        has_protein: true
+        protein_channel_indices:
+        - 0
+        - 1
+        - 2
+        - 3
+        protein_channels:
+          0:
+          - C
+          1:
+          - O
+          2:
+          - 'N'
+          3:
+          - S
+        protein_channel_names:
+        - carbon
+        - oxygen
+        - nitrogen
+        - sulphur
+        ligand_channel_indices:
+        - 4
+        - 5
+        - 6
+        - 7
+        - 8
+        - 9
+        - 10
+        - 11
+        - 12
+        ligand_channels:
+          0:
+          - C
+          1:
+          - O
+          2:
+          - 'N'
+          3:
+          - S
+          4:
+          - Cl
+          5:
+          - F
+          6:
+          - I
+          7:
+          - Br
+          8:
+          - C
+          - H
+          - O
+          - 'N'
+          - S
+          - Cl
+          - F
+          - I
+          - Br
+        ligand_channel_names:
+        - carbon
+        - oxygen
+        - nitrogen
+        - sulphur
+        - chlorine
+        - fluorine
+        - iodine
+        - bromine
+        - other
+        vox_size: 0.75
+        box_dims:
+        - 24.0
+        - 24.0
+        - 24.0
+        random_rotation: true
+        random_translation: 6.0
+  _target_: src.data.vox2smiles.data_module.Vox2SmilesDataModule
+  data_path: ../geom/rdkit_folder/drugs
+  num_workers: 0
+  config:
+    _target_: src.data.common.voxelization.config.Vox2SmilesDataConfig
+    batch_size: 2
+    max_smiles_len: 200
+    has_protein: false
+    include_hydrogens: false
+model:
+  _target_: src.models.vox2smiles.VoxToSmilesModel
+  config:
+    hidden_size: 768
+    num_hidden_layers: 8
+    num_attention_heads: 8
+    intermediate_size: 3072
+    hidden_act: gelu
+    hidden_dropout_prob: 0.0
+    attention_probs_dropout_prob: 0.0
+    initializer_range: 0.02
+    layer_norm_eps: 1.0e-12
+    image_size:
+    - 32
+    - 32
+    - 32
+    patch_size: 4
+    num_channels: 9
+    qkv_bias: true
+    encoder_stride: 2
+    lr: 0.0001
+    torch_dtype: bfloat16
+    scheduler:
+      type: warmup_stable_decay
+      num_warmup_steps: 2000
+      num_stable_steps: 400000
+      num_decay_steps: 400000
+      min_lr_ratio: 0.3
+      interval: step
+  override_optimizer_on_load: true
+callbacks:
+  model_checkpoint:
+    _target_: lightning.pytorch.callbacks.ModelCheckpoint
+    dirpath: ${paths.output_dir}/checkpoints
+    filename: epoch_{epoch:03d}
+    monitor: val/loss
+    verbose: false
+    save_last: true
+    save_top_k: 1
+    mode: min
+    auto_insert_metric_name: false
+    save_weights_only: false
+    every_n_train_steps: null
+    train_time_interval: null
+    every_n_epochs: null
+    save_on_train_epoch_end: null
+  model_summary:
+    max_depth: 3
+logger:
+  wandb:
+    _target_: lightning.pytorch.loggers.wandb.WandbLogger
+    save_dir: ${paths.output_dir}
+    offline: false
+    id: null
+    anonymous: null
+    project: voxelSmiles
+    log_model: false
+    prefix: ''
+    group: vox2smilesZinc
+    tags:
+    - zinc
+    - hiqbind
+    job_type: train
+    entity: cath
+trainer:
+  _target_: lightning.pytorch.trainer.Trainer
+  default_root_dir: ${paths.output_dir}
+  max_epochs: 50000
+  accelerator: gpu
+  devices: 1
+  precision: bf16-mixed
+  check_val_every_n_epoch: 1
+  val_check_interval: 6000
+  deterministic: false
+  log_every_n_steps: 50
+  accumulate_grad_batches: 2
+  gradient_clip_val: 1.0
+paths:
+  root_dir: ${oc.env:PROJECT_ROOT}
+  data_dir: ${paths.root_dir}/../data/
+  log_dir: ${paths.root_dir}/logs/
+  output_dir: ${hydra:runtime.output_dir}
+  work_dir: ${hydra:runtime.cwd}
+  img_save_dir: ${paths.output_dir}/images

combined_protein_to_smiles/epoch_000.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f70b224e5e6341db53d31335918cddc550e7a1f7bcf07873a1fc0054efe80794
+size 1032531935

poc_vox_to_mol_vox/config.yaml ADDED Viewed

	@@ -0,0 +1,190 @@

+task_name: poc2mol
+tags:
+- dev
+train: true
+test: true
+optimized_metric: val/loss
+ckpt_path: null
+seed: 42
+data:
+  _target_: src.data.poc2mol.data_module.ComplexDataModule
+  pdb_dir: null
+  val_pdb_dir: null
+  num_workers: 3
+  train_dataset:
+    _target_: src.data.poc2mol.datasets.ParquetDataset
+    data_path: ../hiqbind/parquet/train
+    config: ${data.config}
+  val_dataset:
+    _target_: src.data.poc2mol.datasets.ParquetDataset
+    data_path: ../hiqbind/parquet/val
+    config: ${data.config}
+  test_dataset:
+    _target_: src.data.poc2mol.datasets.ParquetDataset
+    data_path: ../hiqbind/parquet/test
+    config: ${data.config}
+  config:
+    _target_: src.data.common.voxelization.config.Poc2MolDataConfig
+    remove_hydrogens: true
+    batch_size: 2
+    target_samples_per_batch: 128
+    ligand_channel_names:
+    - carbon
+    - oxygen
+    - nitrogen
+    - sulfur
+    - chlorine
+    - fluorine
+    - iodine
+    - bromine
+    - other
+    protein_channel_names:
+    - carbon
+    - oxygen
+    - nitrogen
+    - sulfur
+    fnames: null
+    protein_channel_indices:
+    - 0
+    - 1
+    - 2
+    - 3
+    ligand_channel_indices:
+    - 4
+    - 5
+    - 6
+    - 7
+    - 8
+    - 9
+    - 10
+    - 11
+    - 12
+    vox_size: 0.75
+    box_dims:
+    - 24.0
+    - 24.0
+    - 24.0
+    random_rotation: true
+    random_translation: 6.0
+    has_protein: true
+    protein_channels:
+      0:
+      - C
+      1:
+      - O
+      2:
+      - 'N'
+      3:
+      - S
+    ligand_channels:
+      0:
+      - C
+      1:
+      - O
+      2:
+      - 'N'
+      3:
+      - S
+      4:
+      - Cl
+      5:
+      - F
+      6:
+      - I
+      7:
+      - Br
+      8:
+      - C
+      - H
+      - O
+      - 'N'
+      - S
+      - Cl
+      - F
+      - I
+      - Br
+    max_atom_dist: 32.0
+    dtype: ${oc.select:torch.bfloat16,torch.bfloat16}
+model:
+  _target_: src.models.poc2mol.Poc2Mol
+  config:
+    _target_: src.models.poc2mol.ResUnetConfig
+    in_channels: 4
+    out_channels: 9
+    final_sigmoid: false
+    f_maps: 64
+    layer_order: gcr
+    num_groups: 8
+    num_levels: 5
+    conv_padding: 1
+    conv_upscale: 2
+    upsample: default
+    dropout_prob: 0.1
+    basic_module: ${oc.select:src.models.pytorch3dunet_lib.unet3d.buildingblocks.ResNetBlockSE,
+      src.models.pytorch3dunet_lib.unet3d.buildingblocks.ResNetBlockSE}
+  loss:
+    name: BCEDiceLoss
+    weight: null
+    normalization: sigmoid
+    alpha: 1.0
+    beta: 1.0
+  matmul_precision: high
+  lr: 0.0001
+  scheduler_name: constant_with_warmup
+  num_warmup_steps: 180
+  img_save_dir: ${paths.img_save_dir}
+  override_optimizer_on_load: false
+callbacks:
+  model_checkpoint:
+    _target_: lightning.pytorch.callbacks.ModelCheckpoint
+    dirpath: ${paths.output_dir}/checkpoints
+    filename: epoch_{epoch:03d}
+    monitor: val/loss
+    verbose: false
+    save_last: true
+    save_top_k: 1
+    mode: min
+    auto_insert_metric_name: false
+    save_weights_only: false
+    every_n_train_steps: null
+    train_time_interval: null
+    every_n_epochs: null
+    save_on_train_epoch_end: null
+  model_summary:
+    max_depth: 3
+logger:
+  wandb:
+    _target_: lightning.pytorch.loggers.wandb.WandbLogger
+    save_dir: ${paths.output_dir}
+    offline: false
+    id: null
+    anonymous: null
+    project: poc2mol
+    log_model: false
+    prefix: ''
+    group: poc2mol
+    tags:
+    - dev
+    job_type: train
+    entity: cath
+trainer:
+  _target_: lightning.pytorch.trainer.Trainer
+  default_root_dir: ${paths.output_dir}
+  max_epochs: 50000
+  accelerator: gpu
+  devices: 1
+  precision: bf16-mixed
+  check_val_every_n_epoch: 2
+  val_check_interval: null
+  deterministic: false
+  log_every_n_steps: 50
+  accumulate_grad_batches: 32
+  gradient_clip_val: 1.0
+  num_sanity_val_steps: 0
+paths:
+  root_dir: ${oc.env:PROJECT_ROOT}
+  data_dir: ${paths.root_dir}/../data/
+  log_dir: ${paths.root_dir}/logs/
+  output_dir: ${hydra:runtime.output_dir}
+  work_dir: ${hydra:runtime.cwd}
+  img_save_dir: ${paths.output_dir}/images

poc_vox_to_mol_vox/epoch_173.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1efa85a57a326cea0ab586cc0e1ad71150102049342c4ba15efb7061e0e7f49c
+size 1406981136