jzshared
/

Mamba2_12.8K-100B

Model card Files Files and versions

xet

Community

andyjzhao commited on Jan 17

Commit

12bf15f

verified ·

1 Parent(s): e92bf6a

Upload hydra_cfg.yaml with huggingface_hub

Browse files

Files changed (1) hide show

hydra_cfg.yaml +32 -10

hydra_cfg.yaml CHANGED Viewed

@@ -28,6 +28,21 @@ _dataset_cfg_lookup:
     hf_path: null
     path: data/hg38_cds_dataset_4m_filtered
     type: refseq
 alias: Mamba2_12.8K-100B
 alpha_exp: 1.0
 alpha_max: 0.03
@@ -37,8 +52,8 @@ bp_per_token: 128
 cluster: mila
 cmd: python src/scripts/train_genezip_v1.py exp=glm/stage1 data=gencode_human_12.8k
   model=hnet/mamba2 max_len=12800 batch_size=8 grad_acc_steps=4 max_train_steps=30600
-  eval_steps=100 use_routing_floor=false strictness_max=0 alias=Mamba2_12.8K-100B
-  use_wandb=true upload_to_hf=true hf_repo=jzshared/Mamba2_12.8K-100B
 config_path: null
 data: gencode_human_12.8k
 data_alias: ${.data}_${max_len}
@@ -60,17 +75,20 @@ hf_repo: jzshared/Mamba2_12.8K-100B
 hf_user: jzshared
 is_distributed: true
 local_rank: 0
 logging:
   level: info
   log_wandb_metric_to_stdout: true
 lr: 0.001
-master_port: '37739'
 max_data_samples: null
-max_eval_samples: 1000
 max_len: 12800
 max_length: ${max_len}
 max_train_steps: 30600
 min_routing_tokens: 8
 mode: Stage1
 model:
   arch: hnet
@@ -105,6 +123,9 @@ model_cfg:
   tie_embeddings: true
   vocab_size: 12
 name: hnet_base
 private: false
 project_root: ${hydra:runtime.cwd}
 r_hi: 0.3
@@ -120,6 +141,7 @@ source: ${dataset.type}
 strictness_exp: 1.0
 strictness_max: 0
 tokenizer: fast
 training:
   adam_beta1: 0.9
   adam_beta2: 0.95
@@ -136,9 +158,9 @@ training:
   label_names:
   - input_ids
   learning_rate: ${lr}
-  logging_steps: 10
   lr_scheduler_type: linear
-  max_grad_norm: 2.0
   max_train_steps: ${max_train_steps}
   num_train_epochs: ${epochs}
   output_dir: ${dirs.output}
@@ -153,7 +175,7 @@ training:
   warmup_steps: 500
   weight_decay: 0.1
 training_alias: ${mode}_glm_s1_${region_info}_bp${bp_per_token}_aw${warmup_steps}_amax${alpha_max}_smax${strictness_max}_lr${lr}_e${epochs}_ms${max_train_steps}_maxlen${max_len}
-uid: tkh89gtk
 upload_to_hf: true
 use_routing_floor: false
 use_wandb: true
@@ -162,13 +184,13 @@ version: NA
 wandb:
   dir: ${dirs.wandb_cache}
   entity: ${oc.select:env.vars.wandb_entity,${oc.env:WANDB_ENTITY,null}}
-  id: tkh89gtk
   mode: online
   name: Mamba2_12.8K-100B
-  project: ${oc.select:env.vars.wandb_proj,DNAFM}
   step_metric: null
   tags:
   - ${mode}
-  url: https://wandb.ai/jzshared/DNAFM/runs/tkh89gtk
 warmup_steps: 0
 world_size: 8

     hf_path: null
     path: data/hg38_cds_dataset_4m_filtered
     type: refseq
+  orca32m_cmp_seq:
+    eval_split: validation
+    hf_path: jzshared/orca32m_cmp
+    label_key: label_ut
+    mask_key: mask_ut
+    num_workers: 0
+    path: data/orca32m_cmp_seq
+    pin_memory: true
+    reference_id: hg38
+    sequence_format: string
+    sequence_key: sequence
+    shuffle: true
+    test_split: test
+    train_split: train
+    type: cmp_seq
 alias: Mamba2_12.8K-100B
 alpha_exp: 1.0
 alpha_max: 0.03
 cluster: mila
 cmd: python src/scripts/train_genezip_v1.py exp=glm/stage1 data=gencode_human_12.8k
   model=hnet/mamba2 max_len=12800 batch_size=8 grad_acc_steps=4 max_train_steps=30600
+  eval_steps=100 upload_to_hf=true wandb.project=DNAFM_v2 use_routing_floor=false
+  strictness_max=0 alias=Mamba2_12.8K-100B use_wandb=true hf_repo=jzshared/Mamba2_12.8K-100B
 config_path: null
 data: gencode_human_12.8k
 data_alias: ${.data}_${max_len}
 hf_user: jzshared
 is_distributed: true
 local_rank: 0
+log_every: 10
 logging:
   level: info
   log_wandb_metric_to_stdout: true
 lr: 0.001
+master_port: '43837'
 max_data_samples: null
+max_eval_samples: ${num_valid_samples}
+max_grad_norm: 2.0
 max_len: 12800
 max_length: ${max_len}
 max_train_steps: 30600
 min_routing_tokens: 8
+mixed_precision: bf16
 mode: Stage1
 model:
   arch: hnet
   tie_embeddings: true
   vocab_size: 12
 name: hnet_base
+num_test_samples: 0
+num_train_samples: 0
+num_valid_samples: 0
 private: false
 project_root: ${hydra:runtime.cwd}
 r_hi: 0.3
 strictness_exp: 1.0
 strictness_max: 0
 tokenizer: fast
+train_steps: 9999999
 training:
   adam_beta1: 0.9
   adam_beta2: 0.95
   label_names:
   - input_ids
   learning_rate: ${lr}
+  logging_steps: ${log_every}
   lr_scheduler_type: linear
+  max_grad_norm: ${max_grad_norm}
   max_train_steps: ${max_train_steps}
   num_train_epochs: ${epochs}
   output_dir: ${dirs.output}
   warmup_steps: 500
   weight_decay: 0.1
 training_alias: ${mode}_glm_s1_${region_info}_bp${bp_per_token}_aw${warmup_steps}_amax${alpha_max}_smax${strictness_max}_lr${lr}_e${epochs}_ms${max_train_steps}_maxlen${max_len}
+uid: 8vsgvsbs
 upload_to_hf: true
 use_routing_floor: false
 use_wandb: true
 wandb:
   dir: ${dirs.wandb_cache}
   entity: ${oc.select:env.vars.wandb_entity,${oc.env:WANDB_ENTITY,null}}
+  id: 8vsgvsbs
   mode: online
   name: Mamba2_12.8K-100B
+  project: DNAFM_v2
   step_metric: null
   tags:
   - ${mode}
+  url: https://wandb.ai/jzshared/DNAFM_v2/runs/8vsgvsbs
 warmup_steps: 0
 world_size: 8