judewells
/

ProFam-1

Model card Files Files and versions

xet

Community

judewells commited on Mar 10

Commit

fe4084f

verified ·

1 Parent(s): 2cc62d2

Fix module paths: src.* -> profam.* (.hydra/gym_config.yaml)

Browse files

Files changed (1) hide show

.hydra/gym_config.yaml +16 -16

.hydra/gym_config.yaml CHANGED Viewed

@@ -8,7 +8,7 @@ ckpt_path: null
 seed: 12345
 float32_matmul_precision: high
 model:
-  _target_: src.models.llama.LlamaLitModule
   scheduler_name: constant_with_warmup
   num_warmup_steps: 200
   num_training_steps: 1000000
@@ -49,7 +49,7 @@ model:
       rope_type: llama3
 callbacks:
   throughput:
-    _target_: src.utils.callbacks.TokenThroughputMonitor
   model_checkpoint:
     _target_: lightning.pytorch.callbacks.ModelCheckpoint
     dirpath: ${paths.output_dir}/checkpoints
@@ -71,15 +71,15 @@ callbacks:
   rich_progress_bar:
     _target_: lightning.pytorch.callbacks.RichProgressBar
   timer:
-    _target_: src.utils.callbacks.EpochTimerCallback
   print:
-    _target_: src.utils.callbacks.PrintCallback
   sample_counter:
-    _target_: src.utils.callbacks.SampleCounter
 logger: null
 trainer:
-  _target_: src.utils.trainer.ProFamTrainer
   default_root_dir: ${paths.output_dir}
   max_epochs: 10000
   max_steps: -1
@@ -130,7 +130,7 @@ extras:
   enforce_tags: true
   print_config: true
 tokenizer:
-  _target_: src.data.tokenizers.ProFamTokenizer
   tokenizer_file: data/profam_tokenizer.json
   unk_token: '[UNK]'
   pad_token: '[PAD]'
@@ -181,7 +181,7 @@ extra_callbacks:
     prompt_builder:
       preprocessor:
         cfg:
-          _target_: src.data.processors.PreprocessingConfig
           document_token: '[RAW]'
           drop_first_protein: false
           keep_first_protein: false
@@ -190,27 +190,27 @@ extra_callbacks:
           shuffle_proteins_in_document: true
           padding: do_not_pad
         transform_fns:
-        - _target_: src.data.processors.transforms.replace_nans_in_coords
           _partial_: true
           fill_value: 0.0
-        _target_: src.data.processors.ProteinDocumentPreprocessor
-      _target_: src.models.inference.PromptBuilder
-    _target_: src.pipelines.callback.SamplingEvaluationPipelineCallback
     pipeline:
-      _target_: src.pipelines.unconditional_sequence.UnconditionalSequenceEvaluationPipeline
       num_generations: 5
       max_tokens: 20000
       max_generated_length: 300
       pipeline_id: unconditional_sampling
       save_results_to_file: false
     evaluators:
-      _target_: src.evaluators.esmfold.ESMFoldSamplingEvaluator
       name: esmfold_example
 data:
-  _target_: src.data.datamodule.ProteinDataMixture
   dataset_builders:
     proteingym:
-      _target_: src.data.builders.proteingym.ProteinGymDataset
       name: proteingym
       dms_ids: ${constants.gym_val_assay_list}
       seed: 42

 seed: 12345
 float32_matmul_precision: high
 model:
+  _target_: profam.models.llama.LlamaLitModule
   scheduler_name: constant_with_warmup
   num_warmup_steps: 200
   num_training_steps: 1000000
       rope_type: llama3
 callbacks:
   throughput:
+    _target_: profam.utils.callbacks.TokenThroughputMonitor
   model_checkpoint:
     _target_: lightning.pytorch.callbacks.ModelCheckpoint
     dirpath: ${paths.output_dir}/checkpoints
   rich_progress_bar:
     _target_: lightning.pytorch.callbacks.RichProgressBar
   timer:
+    _target_: profam.utils.callbacks.EpochTimerCallback
   print:
+    _target_: profam.utils.callbacks.PrintCallback
   sample_counter:
+    _target_: profam.utils.callbacks.SampleCounter
 logger: null
 trainer:
+  _target_: profam.utils.trainer.ProFamTrainer
   default_root_dir: ${paths.output_dir}
   max_epochs: 10000
   max_steps: -1
   enforce_tags: true
   print_config: true
 tokenizer:
+  _target_: profam.data.tokenizers.ProFamTokenizer
   tokenizer_file: data/profam_tokenizer.json
   unk_token: '[UNK]'
   pad_token: '[PAD]'
     prompt_builder:
       preprocessor:
         cfg:
+          _target_: profam.data.processors.PreprocessingConfig
           document_token: '[RAW]'
           drop_first_protein: false
           keep_first_protein: false
           shuffle_proteins_in_document: true
           padding: do_not_pad
         transform_fns:
+        - _target_: profam.data.processors.transforms.replace_nans_in_coords
           _partial_: true
           fill_value: 0.0
+        _target_: profam.data.processors.ProteinDocumentPreprocessor
+      _target_: profam.models.inference.PromptBuilder
+    _target_: profam.pipelines.callback.SamplingEvaluationPipelineCallback
     pipeline:
+      _target_: profam.pipelines.unconditional_sequence.UnconditionalSequenceEvaluationPipeline
       num_generations: 5
       max_tokens: 20000
       max_generated_length: 300
       pipeline_id: unconditional_sampling
       save_results_to_file: false
     evaluators:
+      _target_: profam.evaluators.esmfold.ESMFoldSamplingEvaluator
       name: esmfold_example
 data:
+  _target_: profam.data.datamodule.ProteinDataMixture
   dataset_builders:
     proteingym:
+      _target_: profam.data.builders.proteingym.ProteinGymDataset
       name: proteingym
       dms_ids: ${constants.gym_val_assay_list}
       seed: 42