judewells
/

ProFam-1

Model card Files Files and versions

xet

Community

judewells commited on Mar 10

Commit

2cc62d2

verified ·

1 Parent(s): 2beaee8

Fix module paths: src.* -> profam.* (.hydra/config.yaml)

Browse files

Files changed (1) hide show

.hydra/config.yaml +45 -45

.hydra/config.yaml CHANGED Viewed

@@ -8,7 +8,7 @@ ckpt_path: null
 seed: 12345
 float32_matmul_precision: high
 model:
-  _target_: src.models.llama.LlamaLitModule
   scheduler_name: constant_with_warmup
   num_warmup_steps: 200
   num_training_steps: 1000000
@@ -48,7 +48,7 @@ model:
       rope_type: llama3
 callbacks:
   throughput:
-    _target_: src.utils.callbacks.TokenThroughputMonitor
   model_checkpoint:
     _target_: lightning.pytorch.callbacks.ModelCheckpoint
     dirpath: ${paths.output_dir}/checkpoints
@@ -70,14 +70,14 @@ callbacks:
   rich_progress_bar:
     _target_: lightning.pytorch.callbacks.RichProgressBar
   timer:
-    _target_: src.utils.callbacks.EpochTimerCallback
   print:
-    _target_: src.utils.callbacks.PrintCallback
   sample_counter:
-    _target_: src.utils.callbacks.SampleCounter
 logger:
   wandb:
-    _target_: src.utils.loggers.WandbLogger
     save_dir: ${paths.output_dir}
     offline: false
     id: null
@@ -93,7 +93,7 @@ logger:
     log_hydra_config_file: true
     log_git_hash: true
 trainer:
-  _target_: src.utils.trainer.ProFamTrainer
   default_root_dir: ${paths.output_dir}
   max_epochs: 10000
   max_steps: -1
@@ -144,7 +144,7 @@ extras:
   enforce_tags: true
   print_config: true
 tokenizer:
-  _target_: src.data.tokenizers.ProFamTokenizer
   tokenizer_file: data/profam_tokenizer.json
   unk_token: '[UNK]'
   pad_token: '[PAD]'
@@ -195,7 +195,7 @@ extra_callbacks:
     prompt_builder:
       preprocessor:
         cfg:
-          _target_: src.data.processors.PreprocessingConfig
           document_token: '[RAW]'
           drop_first_protein: false
           keep_first_protein: false
@@ -204,34 +204,34 @@ extra_callbacks:
           shuffle_proteins_in_document: true
           padding: do_not_pad
         transform_fns:
-        - _target_: src.data.processors.transforms.replace_nans_in_coords
           _partial_: true
           fill_value: 0.0
-        _target_: src.data.processors.ProteinDocumentPreprocessor
-      _target_: src.models.inference.PromptBuilder
-    _target_: src.pipelines.callback.SamplingEvaluationPipelineCallback
     pipeline:
-      _target_: src.pipelines.unconditional_sequence.UnconditionalSequenceEvaluationPipeline
       num_generations: 5
       max_tokens: 20000
       max_generated_length: 300
       pipeline_id: unconditional_sampling
       save_results_to_file: false
     evaluators:
-      _target_: src.evaluators.esmfold.ESMFoldSamplingEvaluator
       name: esmfold_example
 data:
-  _target_: src.data.datamodule.ProteinDataMixture
   dataset_builders:
     openfold_train:
-      _target_: src.data.builders.family_text_memmap_datasets.ProteinFamilyMemmapDatasetBuilder
       name: openfold_train
       dataset_root: ${paths.data_dir}/openfold/uniclust30_clustered_shuffled_final_text/train_test_split_v2/train_filtered
       tokenizer: ${tokenizer}
       preprocessor:
-        _target_: src.data.processors.ProteinDocumentPreprocessor
         cfg:
-          _target_: src.data.processors.AlignedProteinPreprocessingConfig
           document_token: '[RAW]'
           drop_first_protein: false
           keep_first_protein: false
@@ -244,11 +244,11 @@ data:
           to_upper: true
           use_msa_pos: false
         transform_fns:
-        - _target_: src.data.processors.transforms.replace_nans_in_coords
           _partial_: true
           fill_value: 0.0
     proteingym:
-      _target_: src.data.builders.proteingym.ProteinGymDataset
       name: proteingym
       dms_ids: ${constants.gym_val_assay_list}
       seed: 42
@@ -264,15 +264,15 @@ data:
       keep_wt: false
       drop_wt: true
     foldseek_s50_train:
-      _target_: src.data.builders.family_text_memmap_datasets.ProteinFamilyMemmapDatasetBuilder
       name: foldseek_s50_train
       dataset_root: ${paths.data_dir}/foldseek/foldseek_s50_seq_only_text/train_test_split_v2/train_filtered
       tokenizer: ${tokenizer}
       seed: ${seed}
       preprocessor:
-        _target_: src.data.processors.ProteinDocumentPreprocessor
         cfg:
-          _target_: src.data.processors.PreprocessingConfig
           document_token: '[RAW]'
           drop_first_protein: false
           keep_first_protein: false
@@ -281,18 +281,18 @@ data:
           shuffle_proteins_in_document: true
           padding: do_not_pad
         transform_fns:
-        - _target_: src.data.processors.transforms.replace_nans_in_coords
           _partial_: true
           fill_value: 0.0
     uniref90_train:
-      _target_: src.data.builders.family_text_memmap_datasets.ProteinFamilyMemmapDatasetBuilder
       name: uniref90_train
       dataset_root: ${paths.data_dir}/uniref/uniref90_text_shuffled/train_test_split_v2/train_filtered
       tokenizer: ${tokenizer}
       preprocessor:
-        _target_: src.data.processors.ProteinDocumentPreprocessor
         cfg:
-          _target_: src.data.processors.PreprocessingConfig
           document_token: '[RAW]'
           drop_first_protein: false
           keep_first_protein: false
@@ -301,18 +301,18 @@ data:
           shuffle_proteins_in_document: true
           padding: do_not_pad
         transform_fns:
-        - _target_: src.data.processors.transforms.replace_nans_in_coords
           _partial_: true
           fill_value: 0.0
     uniref90_val:
-      _target_: src.data.builders.family_text_memmap_datasets.ProteinFamilyMemmapDatasetBuilder
       name: uniref90_val
       dataset_root: ${paths.data_dir}/uniref/uniref90_text_shuffled/train_test_split_v2/val_filtered
       tokenizer: ${tokenizer}
       preprocessor:
-        _target_: src.data.processors.ProteinDocumentPreprocessor
         cfg:
-          _target_: src.data.processors.PreprocessingConfig
           document_token: '[RAW]'
           drop_first_protein: false
           keep_first_protein: false
@@ -321,19 +321,19 @@ data:
           shuffle_proteins_in_document: true
           padding: do_not_pad
         transform_fns:
-        - _target_: src.data.processors.transforms.replace_nans_in_coords
           _partial_: true
           fill_value: 0.0
     funfams_s50_train:
-      _target_: src.data.builders.family_text_memmap_datasets.ProteinFamilyMemmapDatasetBuilder
       name: funfams_s50_train
       dataset_root: ${paths.data_dir}/funfams/s50_text/train_test_split_v2/train_filtered
       tokenizer: ${tokenizer}
       seed: ${seed}
       preprocessor:
-        _target_: src.data.processors.ProteinDocumentPreprocessor
         cfg:
-          _target_: src.data.processors.AlignedProteinPreprocessingConfig
           document_token: '[RAW]'
           drop_first_protein: false
           keep_first_protein: false
@@ -346,18 +346,18 @@ data:
           to_upper: true
           use_msa_pos: false
         transform_fns:
-        - _target_: src.data.processors.transforms.replace_nans_in_coords
           _partial_: true
           fill_value: 0.0
     funfams_s50_val:
-      _target_: src.data.builders.family_text_memmap_datasets.ProteinFamilyMemmapDatasetBuilder
       name: funfams_s50_val
       dataset_root: ${paths.data_dir}/funfams/s50_text/train_test_split_v2/val_filtered
       tokenizer: ${tokenizer}
       preprocessor:
-        _target_: src.data.processors.ProteinDocumentPreprocessor
         cfg:
-          _target_: src.data.processors.AlignedProteinPreprocessingConfig
           document_token: '[RAW]'
           drop_first_protein: false
           keep_first_protein: false
@@ -370,19 +370,19 @@ data:
           to_upper: true
           use_msa_pos: false
         transform_fns:
-        - _target_: src.data.processors.transforms.replace_nans_in_coords
           _partial_: true
           fill_value: 0.0
     foldseek_s50_val:
-      _target_: src.data.builders.family_text_memmap_datasets.ProteinFamilyMemmapDatasetBuilder
       name: foldseek_s50_val
       dataset_root: ${paths.data_dir}/foldseek/foldseek_s50_seq_only_text/train_test_split_v2/val_filtered
       tokenizer: ${tokenizer}
       seed: ${seed}
       preprocessor:
-        _target_: src.data.processors.ProteinDocumentPreprocessor
         cfg:
-          _target_: src.data.processors.PreprocessingConfig
           document_token: '[RAW]'
           drop_first_protein: false
           keep_first_protein: false
@@ -391,7 +391,7 @@ data:
           shuffle_proteins_in_document: true
           padding: do_not_pad
         transform_fns:
-        - _target_: src.data.processors.transforms.replace_nans_in_coords
           _partial_: true
           fill_value: 0.0
   data_weights:

 seed: 12345
 float32_matmul_precision: high
 model:
+  _target_: profam.models.llama.LlamaLitModule
   scheduler_name: constant_with_warmup
   num_warmup_steps: 200
   num_training_steps: 1000000
       rope_type: llama3
 callbacks:
   throughput:
+    _target_: profam.utils.callbacks.TokenThroughputMonitor
   model_checkpoint:
     _target_: lightning.pytorch.callbacks.ModelCheckpoint
     dirpath: ${paths.output_dir}/checkpoints
   rich_progress_bar:
     _target_: lightning.pytorch.callbacks.RichProgressBar
   timer:
+    _target_: profam.utils.callbacks.EpochTimerCallback
   print:
+    _target_: profam.utils.callbacks.PrintCallback
   sample_counter:
+    _target_: profam.utils.callbacks.SampleCounter
 logger:
   wandb:
+    _target_: profam.utils.loggers.WandbLogger
     save_dir: ${paths.output_dir}
     offline: false
     id: null
     log_hydra_config_file: true
     log_git_hash: true
 trainer:
+  _target_: profam.utils.trainer.ProFamTrainer
   default_root_dir: ${paths.output_dir}
   max_epochs: 10000
   max_steps: -1
   enforce_tags: true
   print_config: true
 tokenizer:
+  _target_: profam.data.tokenizers.ProFamTokenizer
   tokenizer_file: data/profam_tokenizer.json
   unk_token: '[UNK]'
   pad_token: '[PAD]'
     prompt_builder:
       preprocessor:
         cfg:
+          _target_: profam.data.processors.PreprocessingConfig
           document_token: '[RAW]'
           drop_first_protein: false
           keep_first_protein: false
           shuffle_proteins_in_document: true
           padding: do_not_pad
         transform_fns:
+        - _target_: profam.data.processors.transforms.replace_nans_in_coords
           _partial_: true
           fill_value: 0.0
+        _target_: profam.data.processors.ProteinDocumentPreprocessor
+      _target_: profam.models.inference.PromptBuilder
+    _target_: profam.pipelines.callback.SamplingEvaluationPipelineCallback
     pipeline:
+      _target_: profam.pipelines.unconditional_sequence.UnconditionalSequenceEvaluationPipeline
       num_generations: 5
       max_tokens: 20000
       max_generated_length: 300
       pipeline_id: unconditional_sampling
       save_results_to_file: false
     evaluators:
+      _target_: profam.evaluators.esmfold.ESMFoldSamplingEvaluator
       name: esmfold_example
 data:
+  _target_: profam.data.datamodule.ProteinDataMixture
   dataset_builders:
     openfold_train:
+      _target_: profam.data.builders.family_text_memmap_datasets.ProteinFamilyMemmapDatasetBuilder
       name: openfold_train
       dataset_root: ${paths.data_dir}/openfold/uniclust30_clustered_shuffled_final_text/train_test_split_v2/train_filtered
       tokenizer: ${tokenizer}
       preprocessor:
+        _target_: profam.data.processors.ProteinDocumentPreprocessor
         cfg:
+          _target_: profam.data.processors.AlignedProteinPreprocessingConfig
           document_token: '[RAW]'
           drop_first_protein: false
           keep_first_protein: false
           to_upper: true
           use_msa_pos: false
         transform_fns:
+        - _target_: profam.data.processors.transforms.replace_nans_in_coords
           _partial_: true
           fill_value: 0.0
     proteingym:
+      _target_: profam.data.builders.proteingym.ProteinGymDataset
       name: proteingym
       dms_ids: ${constants.gym_val_assay_list}
       seed: 42
       keep_wt: false
       drop_wt: true
     foldseek_s50_train:
+      _target_: profam.data.builders.family_text_memmap_datasets.ProteinFamilyMemmapDatasetBuilder
       name: foldseek_s50_train
       dataset_root: ${paths.data_dir}/foldseek/foldseek_s50_seq_only_text/train_test_split_v2/train_filtered
       tokenizer: ${tokenizer}
       seed: ${seed}
       preprocessor:
+        _target_: profam.data.processors.ProteinDocumentPreprocessor
         cfg:
+          _target_: profam.data.processors.PreprocessingConfig
           document_token: '[RAW]'
           drop_first_protein: false
           keep_first_protein: false
           shuffle_proteins_in_document: true
           padding: do_not_pad
         transform_fns:
+        - _target_: profam.data.processors.transforms.replace_nans_in_coords
           _partial_: true
           fill_value: 0.0
     uniref90_train:
+      _target_: profam.data.builders.family_text_memmap_datasets.ProteinFamilyMemmapDatasetBuilder
       name: uniref90_train
       dataset_root: ${paths.data_dir}/uniref/uniref90_text_shuffled/train_test_split_v2/train_filtered
       tokenizer: ${tokenizer}
       preprocessor:
+        _target_: profam.data.processors.ProteinDocumentPreprocessor
         cfg:
+          _target_: profam.data.processors.PreprocessingConfig
           document_token: '[RAW]'
           drop_first_protein: false
           keep_first_protein: false
           shuffle_proteins_in_document: true
           padding: do_not_pad
         transform_fns:
+        - _target_: profam.data.processors.transforms.replace_nans_in_coords
           _partial_: true
           fill_value: 0.0
     uniref90_val:
+      _target_: profam.data.builders.family_text_memmap_datasets.ProteinFamilyMemmapDatasetBuilder
       name: uniref90_val
       dataset_root: ${paths.data_dir}/uniref/uniref90_text_shuffled/train_test_split_v2/val_filtered
       tokenizer: ${tokenizer}
       preprocessor:
+        _target_: profam.data.processors.ProteinDocumentPreprocessor
         cfg:
+          _target_: profam.data.processors.PreprocessingConfig
           document_token: '[RAW]'
           drop_first_protein: false
           keep_first_protein: false
           shuffle_proteins_in_document: true
           padding: do_not_pad
         transform_fns:
+        - _target_: profam.data.processors.transforms.replace_nans_in_coords
           _partial_: true
           fill_value: 0.0
     funfams_s50_train:
+      _target_: profam.data.builders.family_text_memmap_datasets.ProteinFamilyMemmapDatasetBuilder
       name: funfams_s50_train
       dataset_root: ${paths.data_dir}/funfams/s50_text/train_test_split_v2/train_filtered
       tokenizer: ${tokenizer}
       seed: ${seed}
       preprocessor:
+        _target_: profam.data.processors.ProteinDocumentPreprocessor
         cfg:
+          _target_: profam.data.processors.AlignedProteinPreprocessingConfig
           document_token: '[RAW]'
           drop_first_protein: false
           keep_first_protein: false
           to_upper: true
           use_msa_pos: false
         transform_fns:
+        - _target_: profam.data.processors.transforms.replace_nans_in_coords
           _partial_: true
           fill_value: 0.0
     funfams_s50_val:
+      _target_: profam.data.builders.family_text_memmap_datasets.ProteinFamilyMemmapDatasetBuilder
       name: funfams_s50_val
       dataset_root: ${paths.data_dir}/funfams/s50_text/train_test_split_v2/val_filtered
       tokenizer: ${tokenizer}
       preprocessor:
+        _target_: profam.data.processors.ProteinDocumentPreprocessor
         cfg:
+          _target_: profam.data.processors.AlignedProteinPreprocessingConfig
           document_token: '[RAW]'
           drop_first_protein: false
           keep_first_protein: false
           to_upper: true
           use_msa_pos: false
         transform_fns:
+        - _target_: profam.data.processors.transforms.replace_nans_in_coords
           _partial_: true
           fill_value: 0.0
     foldseek_s50_val:
+      _target_: profam.data.builders.family_text_memmap_datasets.ProteinFamilyMemmapDatasetBuilder
       name: foldseek_s50_val
       dataset_root: ${paths.data_dir}/foldseek/foldseek_s50_seq_only_text/train_test_split_v2/val_filtered
       tokenizer: ${tokenizer}
       seed: ${seed}
       preprocessor:
+        _target_: profam.data.processors.ProteinDocumentPreprocessor
         cfg:
+          _target_: profam.data.processors.PreprocessingConfig
           document_token: '[RAW]'
           drop_first_protein: false
           keep_first_protein: false
           shuffle_proteins_in_document: true
           padding: do_not_pad
         transform_fns:
+        - _target_: profam.data.processors.transforms.replace_nans_in_coords
           _partial_: true
           fill_value: 0.0
   data_weights: