HaiwenXia commited on Jan 25

Commit

5eb0aae

verified ·

1 Parent(s): 87136b4

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

contrastive/20260123_1403_tune_mulan_transformer/config copy.yaml +163 -0
contrastive/20260123_1403_tune_mulan_transformer/config.yaml +163 -0
contrastive/20260123_1403_tune_mulan_transformer/contrastive_learning/1769148247.0608797/events.out.tfevents.1769148247.MACLAB-S004.302904.1 +3 -0
contrastive/20260123_1403_tune_mulan_transformer/contrastive_learning/1769148247.062121/hparams.yml +5 -0
contrastive/20260123_1403_tune_mulan_transformer/contrastive_learning/events.out.tfevents.1769148247.MACLAB-S004.302904.0 +3 -0
contrastive/20260123_1403_tune_mulan_transformer/logs/train.log +15 -0
contrastive/train.20260123_1403_tune_mulan_transformer.log +0 -0
downstream/20260121_1942/config.yaml +56 -0
downstream/20260121_1942/train.log +113 -0
downstream/20260121_2108/config.yaml +56 -0
downstream/20260121_2108/train.log +26 -0
downstream/20260121_2112/config.yaml +56 -0
downstream/20260121_2112/train.log +41 -0
downstream/20260121_2116/config.yaml +56 -0
downstream/20260121_2116/train.log +41 -0
downstream/20260121_2117/config.yaml +56 -0
downstream/20260121_2117/train.log +114 -0
downstream/20260121_2145/config.yaml +56 -0
downstream/20260121_2145/train.log +128 -0
downstream/20260121_2200/config.yaml +59 -0
downstream/20260121_2200/train.log +8 -0
downstream/20260121_2202/config.yaml +59 -0
downstream/20260121_2202/train.log +34 -0
downstream/20260121_2203/config.yaml +55 -0
downstream/20260121_2203/train.log +94 -0
downstream/20260121_2243/config.yaml +55 -0
downstream/20260121_2243/train.log +112 -0
downstream/20260121_2300/config.yaml +56 -0
downstream/20260121_2300/train.log +7 -0
downstream/20260121_2319/config.yaml +55 -0
downstream/20260121_2319/train.log +45 -0
downstream/20260121_2327/config.yaml +56 -0
downstream/20260121_2327/train.log +156 -0
downstream/20260123_0028/downstream_config.yaml +54 -0
downstream/20260123_0028/train.log +71 -0
downstream_mixed/20260122_1200/config.yaml +56 -0
downstream_mixed/20260122_1200/train.log +152 -0
downstream_mixed/20260122_1955/config.yaml +69 -0
downstream_mixed/20260122_1955/downstream_config.yaml +58 -0
downstream_mixed/20260122_1955/train.log +153 -0
downstream_mixed_linear/20260122_1143/config.yaml +144 -0
downstream_mixed_linear/20260122_1143/downstream_config.yaml +56 -0
downstream_mixed_linear/20260122_1143/predicted_0122_1533.jsonl +0 -0
downstream_mixed_linear/20260122_1143/train.log +111 -0
finetune_human/20260124_2143/config.yaml +142 -0
finetune_human/20260124_2143/reward_model/1769262210.5061178/events.out.tfevents.1769262210.MACLAB-S004.2626926.1 +3 -0
finetune_human/20260124_2143/reward_model/1769262210.5078583/hparams.yml +4 -0
finetune_human/20260124_2143/reward_model/events.out.tfevents.1769262210.MACLAB-S004.2626926.0 +3 -0
finetune_human/20260124_2143/train.20260124_2143.log +803 -0
finetune_human/20260124_2354/config.yaml +142 -0

contrastive/20260123_1403_tune_mulan_transformer/config copy.yaml ADDED Viewed

	@@ -0,0 +1,163 @@

+model:  #* this is the actual model config used in training
+  name: reward
+  model_name: OpenMuQ/MuQ-MuLan-large
+  dim: 768
+  mode: concat_text_late
+  attention_mode: CA
+  mlp_dim: 768
+  output_dim: 2
+  sr: 24000
+  prompt_tf_depth: 1
+  joint_tf_depth: 1
+  dim_head: 64
+  heads: 8
+  attn_dropout: 0.0
+  ff_dropout: 0.0
+  ff_mult: 4
+  use_layer_idx: -1
+  freeze_audio: true
+  freeze_text: true
+  train_muq_depth: 0
+  text_encoder:
+    name: muq_mulan
+    tune: transformer
+    model_name: google/flan-t5-base
+    max_seq_len: 512
+    tune_last_n_layers: 6
+    use_lora: false
+    lora_r: 64
+    lora_alpha: 64
+    lora_dropout: 0.1
+    lora_target_modules: null
+  gradient_checkpointing: true
+  downsample:
+    eval: mean_4x
+    ref: null
+    text: mlp
+    configs:
+      none:
+        kind: none
+        factor: 1
+      mean:
+        kind: mean
+        factor: 10
+      mean_4x:
+        kind: mean+mlp
+        factor: 4
+        mlp_ratio: 2.0
+        dropout: 0.0
+      conv_4x:
+        kind: conv
+        factor: 4
+        stage: 1
+        kernel_size: 5
+        use_layernorm: true
+      conv2_4x:
+        kind: conv*2
+        factor: 4
+        kernel_size: 5
+        use_layernorm: true
+      glu_4x:
+        kind: gluconv*2+pw
+        factor: 4
+        kernel_size: 5
+        use_layernorm: true
+      mlp:
+        kind: mean
+        factor: 1
+      mean_10x:
+        kind: mean+mlp
+        factor: 10
+        mlp_ratio: 2.0
+        dropout: 0.0
+      mean_30x:
+        kind: mean+mlp
+        factor: 30
+        mlp_ratio: 2.0
+        dropout: 0.0
+  text_lora_config: null
+  null_embedding:
+    text:
+      dropout: 0.2
+      length: 10
+    lyrics:
+      dropout: 0.3
+      length: 10
+    audio:
+      dropout: 0.5
+      length: 10
+  category_embeddings: null
+  load_config:
+    checkpoint_path: null
+    frozen_from_pretrained: true
+    pretrained_name: OpenMuQ/MuQ-MuLan-large
+    strict: false
+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+run_name: tune_mulan_transformer
+basics:
+  save_dir: ${project_root}/experiments/contrastive
+  random_seed: 42
+data:
+  mode: raw_text_frozen_audio
+  dataset_dir: ${project_root}/CMI-Training/contrastive_training
+  generation_index: null
+  max_samples: null
+  require_embeddings: true
+  require_scores: false
+  muq_mulan_model: OpenMuQ/MuQ-MuLan-large
+  sample_rate: 24000
+  gen_max_duration: 600.0
+  prompt_max_duration: 600.0
+  audio_trick:
+    enabled: true
+    prob: 0.3
+    duration: 10.0
+  audio_dropout:
+    enabled: true
+    min_duration: 500
+    max_duration: 1200
+    apply_to_eval: true
+    apply_to_ref: true
+    eval_only_on_training: true
+  val_frac: 0.01
+loss:
+  loss_schedule:
+    use_matching_loss: 0
+    use_classification_loss: 0
+    use_hard_negatives: 0
+  classification_temp: 1.0
+  pos_scale: 2.0
+  threshold_mode: momentum
+  threshold_momentum: 0.99
+  global_threshold_path: null
+  threshold_percentile: 0.5
+  hard_negative_ratio: 0.8
+  similarity_fn: matching
+  matching_temperature: 0.07
+  use_queue: false
+  queue_size: 4096
+train:
+  num_epochs: 100
+  output_dir: experiments/contrastive_learning
+  optimizer:
+    lr: 0.0005
+    muqmulan_lr: 0.0001
+    weight_decay: 0.01
+    beta1: 0.9
+    beta2: 0.999
+  scheduler:
+    type: cosine
+    warmup_steps: 1000
+    min_lr: 1.0e-05
+  gradient_accumulation_steps: 3
+  max_grad_norm: 10.0
+  mixed_precision: bf16
+  log_with: tensorboard
+  log_interval: 10
+  val_interval: 1
+  save_interval: 5
+  resume_from_checkpoint: null
+  batch_size: 40
+  matching_only_batch_size: 48
+  num_workers: 4
+DEVICES: 6,7

contrastive/20260123_1403_tune_mulan_transformer/config.yaml ADDED Viewed

	@@ -0,0 +1,163 @@

+model: #* this might be used for downstream tasks
+  name: reward
+  model_name: OpenMuQ/MuQ-MuLan-large
+  dim: 768
+  mode: concat_text_late
+  attention_mode: CA
+  mlp_dim: 768
+  output_dim: 2
+  sr: 24000
+  prompt_tf_depth: 1
+  joint_tf_depth: 1
+  dim_head: 64
+  heads: 8
+  attn_dropout: 0.0
+  ff_dropout: 0.0
+  ff_mult: 4
+  use_layer_idx: -1
+  freeze_audio: true
+  freeze_text: true
+  train_muq_depth: 0
+  text_encoder:
+    name: muq_mulan
+    tune: null
+    model_name: google/flan-t5-base
+    max_seq_len: 512
+    tune_last_n_layers: 6
+    use_lora: false
+    lora_r: 64
+    lora_alpha: 64
+    lora_dropout: 0.1
+    lora_target_modules: null
+  gradient_checkpointing: true
+  downsample:
+    eval: mean_4x
+    ref: null
+    text: mlp
+    configs:
+      none:
+        kind: none
+        factor: 1
+      mean:
+        kind: mean
+        factor: 10
+      mean_4x:
+        kind: mean+mlp
+        factor: 4
+        mlp_ratio: 2.0
+        dropout: 0.0
+      conv_4x:
+        kind: conv
+        factor: 4
+        stage: 1
+        kernel_size: 5
+        use_layernorm: true
+      conv2_4x:
+        kind: conv*2
+        factor: 4
+        kernel_size: 5
+        use_layernorm: true
+      glu_4x:
+        kind: gluconv*2+pw
+        factor: 4
+        kernel_size: 5
+        use_layernorm: true
+      mlp:
+        kind: mean
+        factor: 1
+      mean_10x:
+        kind: mean+mlp
+        factor: 10
+        mlp_ratio: 2.0
+        dropout: 0.0
+      mean_30x:
+        kind: mean+mlp
+        factor: 30
+        mlp_ratio: 2.0
+        dropout: 0.0
+  text_lora_config: null
+  null_embedding:
+    text:
+      dropout: 0.2
+      length: 10
+    lyrics:
+      dropout: 0.3
+      length: 10
+    audio:
+      dropout: 0.5
+      length: 10
+  category_embeddings: null
+  load_config:
+    checkpoint_path: null
+    frozen_from_pretrained: true
+    pretrained_name: OpenMuQ/MuQ-MuLan-large
+    strict: false
+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+run_name: tune_mulan_transformer
+basics:
+  save_dir: ${project_root}/experiments/contrastive
+  random_seed: 42
+data:
+  mode: raw_text_frozen_audio
+  dataset_dir: ${project_root}/CMI-Training/contrastive_training
+  generation_index: null
+  max_samples: null
+  require_embeddings: true
+  require_scores: false
+  muq_mulan_model: OpenMuQ/MuQ-MuLan-large
+  sample_rate: 24000
+  gen_max_duration: 600.0
+  prompt_max_duration: 600.0
+  audio_trick:
+    enabled: true
+    prob: 0.3
+    duration: 10.0
+  audio_dropout:
+    enabled: true
+    min_duration: 500
+    max_duration: 1200
+    apply_to_eval: true
+    apply_to_ref: true
+    eval_only_on_training: true
+  val_frac: 0.01
+loss:
+  loss_schedule:
+    use_matching_loss: 0
+    use_classification_loss: 0
+    use_hard_negatives: 0
+  classification_temp: 1.0
+  pos_scale: 2.0
+  threshold_mode: momentum
+  threshold_momentum: 0.99
+  global_threshold_path: null
+  threshold_percentile: 0.5
+  hard_negative_ratio: 0.8
+  similarity_fn: matching
+  matching_temperature: 0.07
+  use_queue: false
+  queue_size: 4096
+train:
+  num_epochs: 100
+  output_dir: experiments/contrastive_learning
+  optimizer:
+    lr: 0.0005
+    muqmulan_lr: 0.0001
+    weight_decay: 0.01
+    beta1: 0.9
+    beta2: 0.999
+  scheduler:
+    type: cosine
+    warmup_steps: 1000
+    min_lr: 1.0e-05
+  gradient_accumulation_steps: 3
+  max_grad_norm: 10.0
+  mixed_precision: bf16
+  log_with: tensorboard
+  log_interval: 10
+  val_interval: 1
+  save_interval: 5
+  resume_from_checkpoint: null
+  batch_size: 40
+  matching_only_batch_size: 48
+  num_workers: 4
+DEVICES: 6,7

contrastive/20260123_1403_tune_mulan_transformer/contrastive_learning/1769148247.0608797/events.out.tfevents.1769148247.MACLAB-S004.302904.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a00f486274e8f7144a0e8f471355f64b41223095199a68f18fe63bcdc3730550
+size 539

contrastive/20260123_1403_tune_mulan_transformer/contrastive_learning/1769148247.062121/hparams.yml ADDED Viewed

	@@ -0,0 +1,5 @@

+batch_size: 40
+grad_accum_steps: 3
+learning_rate: 0.0005
+mode: raw_text_frozen_audio
+num_epochs: 100

contrastive/20260123_1403_tune_mulan_transformer/contrastive_learning/events.out.tfevents.1769148247.MACLAB-S004.302904.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2fa0b781f4514bb879e7966e7b64a7d314194abd176a69d93d0fdc13b4faf225
+size 10147608

contrastive/20260123_1403_tune_mulan_transformer/logs/train.log ADDED Viewed

	@@ -0,0 +1,15 @@

+2026-01-23 14:04:07 | INFO | EMA enabled: decay=0.9999, update_every=1
+2026-01-23 14:04:07 | INFO | Created model: concat_text_late mode, CA attention
+2026-01-23 14:04:07 | INFO | Gradient checkpointing enabled
+2026-01-23 14:04:07 | INFO | Created ContrastiveLoss: threshold_mode=momentum, percentile=0.5
+2026-01-23 14:04:07 | INFO | Optimizer: AdamW (lr=0.0005, muqmulan_lr=0.0001)
+2026-01-23 14:04:07 | INFO | Scheduler: Warmup(1000) + CosineAnnealing
+2026-01-23 14:04:07 | INFO | Train: 1514 batches, Val: 8 batches
+2026-01-23 14:04:07 | INFO | ✓ Audio cropping enabled: min=500, max=1200
+2026-01-23 14:04:07 | INFO |   Apply to eval: True, ref: True
+2026-01-23 14:04:07 | INFO |   Modes: train=random, val=center
+2026-01-23 14:04:07 | INFO | Batch sizes: normal=40, matching_only=48
+2026-01-23 14:04:07 | INFO | Parameters: 683.856M total, 71.623M trainable
+2026-01-23 14:04:07 | INFO | Trainable modules: null_text_embedding, null_lyrics_embedding, null_audio_embedding, prompt_transformer, joint_transformer, score_projector, single_score_projector, alignment_head, quality_head, text_module, eval_downsampler, ref_downsampler
+2026-01-23 14:04:07 | INFO | Trainer initialized on 2 GPU(s)
+2026-01-23 14:04:07 | INFO | Mixed precision: bf16

contrastive/train.20260123_1403_tune_mulan_transformer.log ADDED Viewed

The diff for this file is too large to render. See raw diff

downstream/20260121_1942/config.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+basics:
+  random_seed: 42
+  save_dir: ${project_root}/experiments/downstream
+run_name: null
+tasks:
+- musicality
+- alignment
+- preference
+backbone:
+  checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+  freeze: true
+  from_ema: false
+dataset:
+  train_file: ${project_root}/train_multitask.jsonl
+  test_file: ${project_root}/test_multitask.jsonl
+heads:
+  hidden_dim: 768
+  init_from: null
+  musicality:
+    use_mlp: false
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  alignment:
+    use_mlp: false
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  preference:
+    use_mlp: false
+    dropout: 0.1
+train:
+  num_epochs: 10
+  num_train_steps: 2000
+  batch_size: 48
+  learning_rate: 0.001
+  weight_decay: 0.01
+  max_grad_norm: 1.0
+  warmup_steps: 100
+  schedule_type: cosine
+  min_lr_ratio: 0.01
+  dataset_mode: sequential
+  steps_per_task: 1000
+  log_interval: 50
+  val_interval: 1000
+  save_interval: 1000
+  num_workers: 8
+  resume: null
+device: cuda:0

downstream/20260121_1942/train.log ADDED Viewed

	@@ -0,0 +1,113 @@

+2026-01-21 19:42:29 | INFO | Starting downstream training: 20260121_1942
+2026-01-21 19:42:29 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_1942
+2026-01-21 19:42:29 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_1942/config.yaml
+2026-01-21 19:42:29 | INFO | Training tasks: ['musicality', 'alignment', 'preference']
+2026-01-21 19:42:29 | INFO | Dataset mode: sequential
+2026-01-21 19:42:32 | INFO | Loading backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 19:42:32 | INFO | Using checkpoint config for model
+2026-01-21 19:42:38 | WARNING | Missing keys: 283
+2026-01-21 19:42:38 | INFO | Loaded backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 19:42:38 | INFO | Added linear head for task 'musicality'
+2026-01-21 19:42:38 | INFO | Added linear head for task 'alignment'
+2026-01-21 19:42:38 | INFO | Added linear head for task 'preference'
+2026-01-21 19:42:38 | INFO | Loading train data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/train_multitask.jsonl
+2026-01-21 19:42:38 | INFO | Loading test data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/test_multitask.jsonl
+2026-01-21 19:42:38 | INFO | Task 'musicality': train=4322, test=913
+2026-01-21 19:42:38 | INFO | Task 'alignment': train=1923, test=913
+2026-01-21 19:42:38 | INFO | Task 'preference': train=1065, test=275
+2026-01-21 19:42:38 | INFO | [SEQUENTIAL MODE] Training 3 tasks, 1000 steps each
+2026-01-21 19:42:38 | INFO |
+============================================================
+2026-01-21 19:42:38 | INFO | Starting Task 1/3: musicality
+2026-01-21 19:42:38 | INFO | ============================================================
+2026-01-21 19:42:38 | INFO | Task 'musicality' trainable parameters: 769
+2026-01-21 19:42:54 | INFO | [Task musicality][Step 50/1000] loss=2.4938 | mae=2.4938
+2026-01-21 19:43:10 | INFO | [Task musicality][Step 100/1000] loss=1.0211 | mae=1.0211
+2026-01-21 19:43:19 | INFO | [Task musicality][Step 150/1000] loss=0.8535 | mae=0.8535
+2026-01-21 19:43:32 | INFO | [Task musicality][Step 200/1000] loss=0.7434 | mae=0.7434
+2026-01-21 19:43:43 | INFO | [Task musicality][Step 250/1000] loss=0.7352 | mae=0.7352
+2026-01-21 19:43:56 | INFO | [Task musicality][Step 300/1000] loss=0.6973 | mae=0.6973
+2026-01-21 19:44:06 | INFO | [Task musicality][Step 350/1000] loss=0.6773 | mae=0.6773
+2026-01-21 19:44:19 | INFO | [Task musicality][Step 400/1000] loss=0.6354 | mae=0.6354
+2026-01-21 19:44:30 | INFO | [Task musicality][Step 450/1000] loss=0.6352 | mae=0.6352
+2026-01-21 19:44:43 | INFO | [Task musicality][Step 500/1000] loss=0.6213 | mae=0.6213
+2026-01-21 19:44:56 | INFO | [Task musicality][Step 550/1000] loss=0.6211 | mae=0.6211
+2026-01-21 19:45:08 | INFO | [Task musicality][Step 600/1000] loss=0.5835 | mae=0.5835
+2026-01-21 19:45:21 | INFO | [Task musicality][Step 650/1000] loss=0.5852 | mae=0.5852
+2026-01-21 19:45:31 | INFO | [Task musicality][Step 700/1000] loss=0.5859 | mae=0.5859
+2026-01-21 19:45:45 | INFO | [Task musicality][Step 750/1000] loss=0.5658 | mae=0.5658
+2026-01-21 19:45:55 | INFO | [Task musicality][Step 800/1000] loss=0.5481 | mae=0.5481
+2026-01-21 19:46:09 | INFO | [Task musicality][Step 850/1000] loss=0.5400 | mae=0.5400
+2026-01-21 19:46:19 | INFO | [Task musicality][Step 900/1000] loss=0.5486 | mae=0.5486
+2026-01-21 19:46:32 | INFO | [Task musicality][Step 950/1000] loss=0.5365 | mae=0.5365
+2026-01-21 19:46:46 | INFO | [Task musicality][Step 1000/1000] loss=0.5278 | mae=0.5278
+2026-01-21 19:46:52 | INFO | [Val] musicality: loss=1.4280 | mae=1.4280
+2026-01-21 19:46:52 | INFO | Task 'musicality' complete. Running validation...
+2026-01-21 19:46:57 | INFO | [Final Val for musicality] loss=1.4280 | mae=1.4280
+2026-01-21 19:46:57 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_1942/ckpt/task_musicality_final.pt
+2026-01-21 19:46:57 | INFO |
+============================================================
+2026-01-21 19:46:57 | INFO | Starting Task 2/3: alignment
+2026-01-21 19:46:57 | INFO | ============================================================
+2026-01-21 19:46:57 | INFO | Task 'alignment' trainable parameters: 769
+2026-01-21 19:47:05 | INFO | [Task alignment][Step 50/1000] loss=2.4024 | mae=2.4024
+2026-01-21 19:47:11 | INFO | [Task alignment][Step 100/1000] loss=0.9916 | mae=0.9916
+2026-01-21 19:47:18 | INFO | [Task alignment][Step 150/1000] loss=0.8597 | mae=0.8597
+2026-01-21 19:47:24 | INFO | [Task alignment][Step 200/1000] loss=0.7863 | mae=0.7863
+2026-01-21 19:47:33 | INFO | [Task alignment][Step 250/1000] loss=0.7473 | mae=0.7473
+2026-01-21 19:47:40 | INFO | [Task alignment][Step 300/1000] loss=0.7150 | mae=0.7150
+2026-01-21 19:47:46 | INFO | [Task alignment][Step 350/1000] loss=0.7370 | mae=0.7370
+2026-01-21 19:47:54 | INFO | [Task alignment][Step 400/1000] loss=0.7159 | mae=0.7159
+2026-01-21 19:48:02 | INFO | [Task alignment][Step 450/1000] loss=0.6949 | mae=0.6949
+2026-01-21 19:48:10 | INFO | [Task alignment][Step 500/1000] loss=0.6663 | mae=0.6663
+2026-01-21 19:48:18 | INFO | [Task alignment][Step 550/1000] loss=0.6535 | mae=0.6535
+2026-01-21 19:48:24 | INFO | [Task alignment][Step 600/1000] loss=0.6601 | mae=0.6601
+2026-01-21 19:48:32 | INFO | [Task alignment][Step 650/1000] loss=0.6296 | mae=0.6296
+2026-01-21 19:48:39 | INFO | [Task alignment][Step 700/1000] loss=0.5975 | mae=0.5975
+2026-01-21 19:48:45 | INFO | [Task alignment][Step 750/1000] loss=0.5953 | mae=0.5953
+2026-01-21 19:48:51 | INFO | [Task alignment][Step 800/1000] loss=0.5881 | mae=0.5881
+2026-01-21 19:49:00 | INFO | [Task alignment][Step 850/1000] loss=0.5822 | mae=0.5822
+2026-01-21 19:49:06 | INFO | [Task alignment][Step 900/1000] loss=0.5667 | mae=0.5667
+2026-01-21 19:49:12 | INFO | [Task alignment][Step 950/1000] loss=0.5752 | mae=0.5752
+2026-01-21 19:49:20 | INFO | [Task alignment][Step 1000/1000] loss=0.5615 | mae=0.5615
+2026-01-21 19:49:23 | INFO | [Val] alignment: loss=1.3554 | mae=1.3554
+2026-01-21 19:49:23 | INFO | Task 'alignment' complete. Running validation...
+2026-01-21 19:49:28 | INFO | [Final Val for alignment] loss=1.3554 | mae=1.3554
+2026-01-21 19:49:28 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_1942/ckpt/task_alignment_final.pt
+2026-01-21 19:49:28 | INFO |
+============================================================
+2026-01-21 19:49:28 | INFO | Starting Task 3/3: preference
+2026-01-21 19:49:28 | INFO | ============================================================
+2026-01-21 19:49:28 | INFO | Task 'preference' trainable parameters: 769
+2026-01-21 19:50:48 | INFO | [Task preference][Step 50/1000] loss=0.9186 | accuracy=0.5758
+2026-01-21 19:51:56 | INFO | [Task preference][Step 100/1000] loss=0.5793 | accuracy=0.7038
+2026-01-21 19:53:04 | INFO | [Task preference][Step 150/1000] loss=0.5304 | accuracy=0.7379
+2026-01-21 19:54:19 | INFO | [Task preference][Step 200/1000] loss=0.5223 | accuracy=0.7467
+2026-01-21 19:55:29 | INFO | [Task preference][Step 250/1000] loss=0.4683 | accuracy=0.7692
+2026-01-21 19:56:38 | INFO | [Task preference][Step 300/1000] loss=0.4672 | accuracy=0.7746
+2026-01-21 19:57:49 | INFO | [Task preference][Step 350/1000] loss=0.4507 | accuracy=0.7767
+2026-01-21 19:59:03 | INFO | [Task preference][Step 400/1000] loss=0.4282 | accuracy=0.7896
+2026-01-21 20:00:12 | INFO | [Task preference][Step 450/1000] loss=0.4177 | accuracy=0.8004
+2026-01-21 20:01:21 | INFO | [Task preference][Step 500/1000] loss=0.4111 | accuracy=0.8008
+2026-01-21 20:02:29 | INFO | [Task preference][Step 550/1000] loss=0.3968 | accuracy=0.8163
+2026-01-21 20:03:42 | INFO | [Task preference][Step 600/1000] loss=0.3853 | accuracy=0.8217
+2026-01-21 20:04:56 | INFO | [Task preference][Step 650/1000] loss=0.3910 | accuracy=0.8088
+2026-01-21 20:06:09 | INFO | [Task preference][Step 700/1000] loss=0.3718 | accuracy=0.8300
+2026-01-21 20:07:32 | INFO | [Task preference][Step 750/1000] loss=0.3781 | accuracy=0.8221
+2026-01-21 20:08:42 | INFO | [Task preference][Step 800/1000] loss=0.3685 | accuracy=0.8263
+2026-01-21 20:09:56 | INFO | [Task preference][Step 850/1000] loss=0.3704 | accuracy=0.8304
+2026-01-21 20:11:07 | INFO | [Task preference][Step 900/1000] loss=0.3680 | accuracy=0.8279
+2026-01-21 20:12:22 | INFO | [Task preference][Step 950/1000] loss=0.3623 | accuracy=0.8358
+2026-01-21 20:13:32 | INFO | [Task preference][Step 1000/1000] loss=0.3644 | accuracy=0.8296
+2026-01-21 20:13:44 | INFO | [Val] preference: loss=0.5676 | accuracy=0.7223
+2026-01-21 20:13:44 | INFO | Task 'preference' complete. Running validation...
+2026-01-21 20:13:52 | INFO | [Final Val for preference] loss=0.5676 | accuracy=0.7223
+2026-01-21 20:13:52 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_1942/ckpt/task_preference_final.pt
+2026-01-21 20:13:52 | INFO |
+============================================================
+2026-01-21 20:13:52 | INFO | All tasks complete. Running final validation for all tasks...
+2026-01-21 20:13:57 | INFO | [Final Val] musicality: loss=1.4280 | mae=1.4280
+2026-01-21 20:14:01 | INFO | [Final Val] alignment: loss=1.3554 | mae=1.3554
+2026-01-21 20:14:09 | INFO | [Final Val] preference: loss=0.5676 | accuracy=0.7223
+2026-01-21 20:14:09 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_1942/ckpt/downstream_final.pt
+2026-01-21 20:14:09 | INFO | Done! Checkpoint saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_1942/ckpt/downstream_final.pt

downstream/20260121_2108/config.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+basics:
+  random_seed: 42
+  save_dir: ${project_root}/experiments/downstream
+run_name: null
+tasks:
+- musicality
+- alignment
+- preference
+backbone:
+  checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+  freeze: true
+  from_ema: false
+dataset:
+  train_file: ${project_root}/train_multitask.jsonl
+  test_file: ${project_root}/test_multitask.jsonl
+heads:
+  hidden_dim: 768
+  init_from: score_projector
+  musicality:
+    use_mlp: false
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  alignment:
+    use_mlp: false
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  preference:
+    use_mlp: false
+    dropout: 0.1
+train:
+  num_epochs: 10
+  num_train_steps: 2000
+  batch_size: 48
+  learning_rate: 0.001
+  weight_decay: 0.01
+  max_grad_norm: 1.0
+  warmup_steps: 100
+  schedule_type: cosine
+  min_lr_ratio: 0.01
+  dataset_mode: sequential
+  steps_per_task: 1000
+  log_interval: 50
+  val_interval: 1000
+  save_interval: 1000
+  num_workers: 8
+  resume: null
+device: cuda:0

downstream/20260121_2108/train.log ADDED Viewed

	@@ -0,0 +1,26 @@

+2026-01-21 21:08:36 | INFO | Starting downstream training: 20260121_2108
+2026-01-21 21:08:36 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2108
+2026-01-21 21:08:36 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2108/config.yaml
+2026-01-21 21:08:36 | INFO | Training tasks: ['musicality', 'alignment', 'preference']
+2026-01-21 21:08:36 | INFO | Dataset mode: sequential
+2026-01-21 21:08:39 | INFO | Loading backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 21:08:39 | INFO | Using checkpoint config for model
+2026-01-21 21:08:44 | WARNING | Missing keys: 283
+2026-01-21 21:08:45 | INFO | Loaded backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 21:08:45 | INFO | Added linear head for task 'musicality'
+2026-01-21 21:08:45 | INFO | Added linear head for task 'alignment'
+2026-01-21 21:08:45 | INFO | Added linear head for task 'preference'
+2026-01-21 21:08:45 | INFO | Initializing heads from backbone 'score_projector'
+2026-01-21 21:08:45 | INFO | Initializing 3 heads from 'score_projector'
+2026-01-21 21:08:45 | INFO |   Task 'musicality': type=linear, ordinal=False
+2026-01-21 21:08:45 | INFO | Initializing head from 'score_projector' (type=linear, from_ema=False)
+2026-01-21 21:08:45 | INFO |   Warning: output dim mismatch (2 vs 1), using first 1 dims
+2026-01-21 21:08:45 | INFO |   Initialized final linear layer from source
+2026-01-21 21:08:45 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 21:08:45 | INFO |   Task 'alignment': type=linear, ordinal=False
+2026-01-21 21:08:45 | INFO | Initializing head from 'score_projector' (type=linear, from_ema=False)
+2026-01-21 21:08:45 | INFO |   Warning: output dim mismatch (2 vs 1), using first 1 dims
+2026-01-21 21:08:45 | INFO |   Initialized final linear layer from source
+2026-01-21 21:08:45 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 21:08:45 | INFO |   Task 'preference': type=linear, ordinal=False
+2026-01-21 21:08:45 | INFO | Initializing head from 'score_projector' (type=linear, from_ema=False)

downstream/20260121_2112/config.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+basics:
+  random_seed: 42
+  save_dir: ${project_root}/experiments/downstream
+run_name: null
+tasks:
+- musicality
+- alignment
+- preference
+backbone:
+  checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+  freeze: true
+  from_ema: false
+dataset:
+  train_file: ${project_root}/train_multitask.jsonl
+  test_file: ${project_root}/test_multitask.jsonl
+heads:
+  hidden_dim: 768
+  init_from: score_projector
+  musicality:
+    use_mlp: false
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  alignment:
+    use_mlp: false
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  preference:
+    use_mlp: false
+    dropout: 0.1
+train:
+  num_epochs: 10
+  num_train_steps: 2000
+  batch_size: 48
+  learning_rate: 0.001
+  weight_decay: 0.01
+  max_grad_norm: 1.0
+  warmup_steps: 100
+  schedule_type: cosine
+  min_lr_ratio: 0.01
+  dataset_mode: sequential
+  steps_per_task: 1000
+  log_interval: 50
+  val_interval: 1000
+  save_interval: 1000
+  num_workers: 8
+  resume: null
+device: cuda:0

downstream/20260121_2112/train.log ADDED Viewed

	@@ -0,0 +1,41 @@

+2026-01-21 21:12:23 | INFO | Starting downstream training: 20260121_2112
+2026-01-21 21:12:23 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2112
+2026-01-21 21:12:23 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2112/config.yaml
+2026-01-21 21:12:23 | INFO | Training tasks: ['musicality', 'alignment', 'preference']
+2026-01-21 21:12:23 | INFO | Dataset mode: sequential
+2026-01-21 21:12:26 | INFO | Loading backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 21:12:26 | INFO | Using checkpoint config for model
+2026-01-21 21:12:31 | WARNING | Missing keys: 283
+2026-01-21 21:12:32 | INFO | Loaded backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 21:12:32 | INFO | Added linear head for task 'musicality'
+2026-01-21 21:12:32 | INFO | Added linear head for task 'alignment'
+2026-01-21 21:12:32 | INFO | Added linear head for task 'preference'
+2026-01-21 21:12:32 | INFO | Initializing heads from backbone 'score_projector'
+2026-01-21 21:12:32 | INFO | Initializing 3 heads from 'score_projector'
+2026-01-21 21:12:32 | INFO |   Task 'musicality': type=linear, ordinal=False
+2026-01-21 21:12:32 | INFO | Initializing head from 'score_projector' (type=linear, from_ema=False)
+2026-01-21 21:12:32 | INFO |   Warning: output dim mismatch (2 vs 1), using first 1 dims
+2026-01-21 21:12:32 | INFO |   Initialized final linear layer from source
+2026-01-21 21:12:32 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 21:12:32 | INFO |   Task 'alignment': type=linear, ordinal=False
+2026-01-21 21:12:32 | INFO | Initializing head from 'score_projector' (type=linear, from_ema=False)
+2026-01-21 21:12:32 | INFO |   Warning: output dim mismatch (2 vs 1), using first 1 dims
+2026-01-21 21:12:32 | INFO |   Initialized final linear layer from source
+2026-01-21 21:12:32 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 21:12:32 | INFO |   Task 'preference': type=linear, ordinal=False
+2026-01-21 21:12:32 | INFO | Initializing head from 'score_projector' (type=linear, from_ema=False)
+2026-01-21 21:12:32 | INFO |   Warning: output dim mismatch (2 vs 1), using first 1 dims
+2026-01-21 21:12:32 | INFO |   Initialized final linear layer from source
+2026-01-21 21:12:32 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 21:12:32 | INFO | ✓ All heads initialized
+2026-01-21 21:12:32 | INFO | Loading train data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/train_multitask.jsonl
+2026-01-21 21:12:32 | INFO | Loading test data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/test_multitask.jsonl
+2026-01-21 21:12:32 | INFO | Task 'musicality': train=4322, test=913
+2026-01-21 21:12:32 | INFO | Task 'alignment': train=1923, test=913
+2026-01-21 21:12:32 | INFO | Task 'preference': train=1065, test=275
+2026-01-21 21:12:32 | INFO | [SEQUENTIAL MODE] Training 3 tasks, 1000 steps each
+2026-01-21 21:12:32 | INFO |
+============================================================
+2026-01-21 21:12:32 | INFO | Starting Task 1/3: musicality
+2026-01-21 21:12:32 | INFO | ============================================================
+2026-01-21 21:12:32 | INFO | Task 'musicality' trainable parameters: 769

downstream/20260121_2116/config.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+basics:
+  random_seed: 42
+  save_dir: ${project_root}/experiments/downstream
+run_name: null
+tasks:
+- musicality
+- alignment
+- preference
+backbone:
+  checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+  freeze: true
+  from_ema: false
+dataset:
+  train_file: ${project_root}/train_multitask.jsonl
+  test_file: ${project_root}/test_multitask.jsonl
+heads:
+  hidden_dim: 768
+  init_from: score_projector
+  musicality:
+    use_mlp: false
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  alignment:
+    use_mlp: false
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  preference:
+    use_mlp: false
+    dropout: 0.1
+train:
+  num_epochs: 10
+  num_train_steps: 2000
+  batch_size: 48
+  learning_rate: 0.001
+  weight_decay: 0.01
+  max_grad_norm: 1.0
+  warmup_steps: 100
+  schedule_type: cosine
+  min_lr_ratio: 0.01
+  dataset_mode: sequential
+  steps_per_task: 1000
+  log_interval: 50
+  val_interval: 1000
+  save_interval: 1000
+  num_workers: 8
+  resume: null
+device: cuda:0

downstream/20260121_2116/train.log ADDED Viewed

	@@ -0,0 +1,41 @@

+2026-01-21 21:16:13 | INFO | Starting downstream training: 20260121_2116
+2026-01-21 21:16:13 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2116
+2026-01-21 21:16:13 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2116/config.yaml
+2026-01-21 21:16:13 | INFO | Training tasks: ['musicality', 'alignment', 'preference']
+2026-01-21 21:16:13 | INFO | Dataset mode: sequential
+2026-01-21 21:16:16 | INFO | Loading backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 21:16:16 | INFO | Using checkpoint config for model
+2026-01-21 21:16:22 | WARNING | Missing keys: 283
+2026-01-21 21:16:22 | INFO | Loaded backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 21:16:22 | INFO | Added linear head for task 'musicality'
+2026-01-21 21:16:22 | INFO | Added linear head for task 'alignment'
+2026-01-21 21:16:22 | INFO | Added linear head for task 'preference'
+2026-01-21 21:16:22 | INFO | Initializing heads from backbone 'score_projector'
+2026-01-21 21:16:22 | INFO | Initializing 3 heads from 'score_projector'
+2026-01-21 21:16:22 | INFO |   Task 'musicality': type=linear, ordinal=False
+2026-01-21 21:16:22 | INFO | Initializing head from 'score_projector' (type=linear, from_ema=False)
+2026-01-21 21:16:23 | INFO |   Warning: output dim mismatch (2 vs 1), using first 1 dims
+2026-01-21 21:16:23 | INFO |   Initialized final linear layer from source
+2026-01-21 21:16:23 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 21:16:23 | INFO |   Task 'alignment': type=linear, ordinal=False
+2026-01-21 21:16:23 | INFO | Initializing head from 'score_projector' (type=linear, from_ema=False)
+2026-01-21 21:16:23 | INFO |   Warning: output dim mismatch (2 vs 1), using first 1 dims
+2026-01-21 21:16:23 | INFO |   Initialized final linear layer from source
+2026-01-21 21:16:23 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 21:16:23 | INFO |   Task 'preference': type=linear, ordinal=False
+2026-01-21 21:16:23 | INFO | Initializing head from 'score_projector' (type=linear, from_ema=False)
+2026-01-21 21:16:23 | INFO |   Warning: output dim mismatch (2 vs 1), using first 1 dims
+2026-01-21 21:16:23 | INFO |   Initialized final linear layer from source
+2026-01-21 21:16:23 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 21:16:23 | INFO | ✓ All heads initialized
+2026-01-21 21:16:23 | INFO | Loading train data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/train_multitask.jsonl
+2026-01-21 21:16:23 | INFO | Loading test data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/test_multitask.jsonl
+2026-01-21 21:16:23 | INFO | Task 'musicality': train=4322, test=913
+2026-01-21 21:16:23 | INFO | Task 'alignment': train=1923, test=913
+2026-01-21 21:16:23 | INFO | Task 'preference': train=1065, test=275
+2026-01-21 21:16:23 | INFO | [SEQUENTIAL MODE] Training 3 tasks, 1000 steps each
+2026-01-21 21:16:23 | INFO |
+============================================================
+2026-01-21 21:16:23 | INFO | Starting Task 1/3: musicality
+2026-01-21 21:16:23 | INFO | ============================================================
+2026-01-21 21:16:23 | INFO | Task 'musicality' trainable parameters: 769

downstream/20260121_2117/config.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+basics:
+  random_seed: 42
+  save_dir: ${project_root}/experiments/downstream
+run_name: null
+tasks:
+- musicality
+- alignment
+- preference
+backbone:
+  checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+  freeze: true
+  from_ema: false
+dataset:
+  train_file: ${project_root}/train_multitask.jsonl
+  test_file: ${project_root}/test_multitask.jsonl
+heads:
+  hidden_dim: 768
+  init_from: score_projector
+  musicality:
+    use_mlp: false
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  alignment:
+    use_mlp: false
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  preference:
+    use_mlp: false
+    dropout: 0.1
+train:
+  num_epochs: 10
+  num_train_steps: 2000
+  batch_size: 48
+  learning_rate: 0.001
+  weight_decay: 0.01
+  max_grad_norm: 1.0
+  warmup_steps: 100
+  schedule_type: cosine
+  min_lr_ratio: 0.01
+  dataset_mode: sequential
+  steps_per_task: 1000
+  log_interval: 50
+  val_interval: 1000
+  save_interval: 1000
+  num_workers: 8
+  resume: null
+device: cuda:1

downstream/20260121_2117/train.log ADDED Viewed

	@@ -0,0 +1,114 @@

+2026-01-21 21:17:16 | INFO | Starting downstream training: 20260121_2117
+2026-01-21 21:17:16 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2117
+2026-01-21 21:17:16 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2117/config.yaml
+2026-01-21 21:17:16 | INFO | Training tasks: ['musicality', 'alignment', 'preference']
+2026-01-21 21:17:16 | INFO | Dataset mode: sequential
+2026-01-21 21:17:19 | INFO | Loading backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 21:17:19 | INFO | Using checkpoint config for model
+2026-01-21 21:17:24 | WARNING | Missing keys: 283
+2026-01-21 21:17:25 | INFO | Loaded backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 21:17:25 | INFO | Added linear head for task 'musicality'
+2026-01-21 21:17:25 | INFO | Added linear head for task 'alignment'
+2026-01-21 21:17:25 | INFO | Added linear head for task 'preference'
+2026-01-21 21:17:25 | INFO | Initializing heads from backbone 'score_projector'
+2026-01-21 21:17:25 | INFO | Initializing 3 heads from 'score_projector'
+2026-01-21 21:17:25 | INFO |   Task 'musicality': type=linear, ordinal=False
+2026-01-21 21:17:25 | INFO | Initializing head from 'score_projector' (type=linear, from_ema=False)
+2026-01-21 21:17:25 | INFO |   Warning: output dim mismatch (2 vs 1), using first 1 dims
+2026-01-21 21:17:25 | INFO |   Initialized final linear layer from source
+2026-01-21 21:17:25 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 21:17:25 | INFO |   Task 'alignment': type=linear, ordinal=False
+2026-01-21 21:17:25 | INFO | Initializing head from 'score_projector' (type=linear, from_ema=False)
+2026-01-21 21:17:25 | INFO |   Warning: output dim mismatch (2 vs 1), using first 1 dims
+2026-01-21 21:17:25 | INFO |   Initialized final linear layer from source
+2026-01-21 21:17:25 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 21:17:25 | INFO |   Task 'preference': type=linear, ordinal=False
+2026-01-21 21:17:25 | INFO | Initializing head from 'score_projector' (type=linear, from_ema=False)
+2026-01-21 21:17:25 | INFO |   Warning: output dim mismatch (2 vs 1), using first 1 dims
+2026-01-21 21:17:25 | INFO |   Initialized final linear layer from source
+2026-01-21 21:17:25 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 21:17:25 | INFO | ✓ All heads initialized
+2026-01-21 21:17:25 | INFO | Loading train data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/train_multitask.jsonl
+2026-01-21 21:17:25 | INFO | Loading test data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/test_multitask.jsonl
+2026-01-21 21:17:25 | INFO | Task 'musicality': train=4322, test=913
+2026-01-21 21:17:25 | INFO | Task 'alignment': train=1923, test=913
+2026-01-21 21:17:25 | INFO | Task 'preference': train=1065, test=275
+2026-01-21 21:17:25 | INFO | [SEQUENTIAL MODE] Training 3 tasks, 1000 steps each
+2026-01-21 21:17:25 | INFO |
+============================================================
+2026-01-21 21:17:25 | INFO | Starting Task 1/3: musicality
+2026-01-21 21:17:25 | INFO | ============================================================
+2026-01-21 21:17:25 | INFO | Task 'musicality' trainable parameters: 769
+2026-01-21 21:17:43 | INFO | [Task musicality][Step 50/1000] loss=1.9747 | mae=1.9747
+2026-01-21 21:17:57 | INFO | [Task musicality][Step 100/1000] loss=0.9926 | mae=0.9926
+2026-01-21 21:18:07 | INFO | [Task musicality][Step 150/1000] loss=0.8076 | mae=0.8076
+2026-01-21 21:18:21 | INFO | [Task musicality][Step 200/1000] loss=0.7166 | mae=0.7166
+2026-01-21 21:18:32 | INFO | [Task musicality][Step 250/1000] loss=0.7024 | mae=0.7024
+2026-01-21 21:18:47 | INFO | [Task musicality][Step 300/1000] loss=0.6726 | mae=0.6726
+2026-01-21 21:18:57 | INFO | [Task musicality][Step 350/1000] loss=0.6763 | mae=0.6763
+2026-01-21 21:19:11 | INFO | [Task musicality][Step 400/1000] loss=0.6693 | mae=0.6693
+2026-01-21 21:19:23 | INFO | [Task musicality][Step 450/1000] loss=0.6402 | mae=0.6402
+2026-01-21 21:19:38 | INFO | [Task musicality][Step 500/1000] loss=0.5858 | mae=0.5858
+2026-01-21 21:19:51 | INFO | [Task musicality][Step 550/1000] loss=0.6195 | mae=0.6195
+2026-01-21 21:20:02 | INFO | [Task musicality][Step 600/1000] loss=0.5754 | mae=0.5754
+2026-01-21 21:20:17 | INFO | [Task musicality][Step 650/1000] loss=0.5761 | mae=0.5761
+2026-01-21 21:20:27 | INFO | [Task musicality][Step 700/1000] loss=0.5701 | mae=0.5701
+2026-01-21 21:20:40 | INFO | [Task musicality][Step 750/1000] loss=0.5714 | mae=0.5714
+2026-01-21 21:20:50 | INFO | [Task musicality][Step 800/1000] loss=0.5381 | mae=0.5381
+2026-01-21 21:21:04 | INFO | [Task musicality][Step 850/1000] loss=0.5339 | mae=0.5339
+2026-01-21 21:21:15 | INFO | [Task musicality][Step 900/1000] loss=0.5365 | mae=0.5365
+2026-01-21 21:21:28 | INFO | [Task musicality][Step 950/1000] loss=0.5234 | mae=0.5234
+2026-01-21 21:21:44 | INFO | [Task musicality][Step 1000/1000] loss=0.5216 | mae=0.5216
+2026-01-21 21:21:52 | INFO | [Val] musicality: loss=1.1082 | mae=1.1082
+2026-01-21 21:21:52 | INFO | Task 'musicality' complete. Running validation...
+2026-01-21 21:21:56 | INFO | [Final Val for musicality] loss=1.1082 | mae=1.1082
+2026-01-21 21:21:56 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2117/ckpt/task_musicality_final.pt
+2026-01-21 21:21:56 | INFO |
+============================================================
+2026-01-21 21:21:56 | INFO | Starting Task 2/3: alignment
+2026-01-21 21:21:56 | INFO | ============================================================
+2026-01-21 21:21:56 | INFO | Task 'alignment' trainable parameters: 769
+2026-01-21 21:22:07 | INFO | [Task alignment][Step 50/1000] loss=2.4289 | mae=2.4289
+2026-01-21 21:22:18 | INFO | [Task alignment][Step 100/1000] loss=1.0527 | mae=1.0527
+2026-01-21 21:22:32 | INFO | [Task alignment][Step 150/1000] loss=0.8799 | mae=0.8799
+2026-01-21 21:22:44 | INFO | [Task alignment][Step 200/1000] loss=0.7955 | mae=0.7955
+2026-01-21 21:22:56 | INFO | [Task alignment][Step 250/1000] loss=0.7785 | mae=0.7785
+2026-01-21 21:23:04 | INFO | [Task alignment][Step 300/1000] loss=0.7468 | mae=0.7468
+2026-01-21 21:23:11 | INFO | [Task alignment][Step 350/1000] loss=0.7138 | mae=0.7138
+2026-01-21 21:23:19 | INFO | [Task alignment][Step 400/1000] loss=0.6950 | mae=0.6950
+2026-01-21 21:23:34 | INFO | [Task alignment][Step 450/1000] loss=0.6641 | mae=0.6641
+2026-01-21 21:23:47 | INFO | [Task alignment][Step 500/1000] loss=0.6494 | mae=0.6494
+2026-01-21 21:23:55 | INFO | [Task alignment][Step 550/1000] loss=0.6224 | mae=0.6224
+2026-01-21 21:24:08 | INFO | [Task alignment][Step 600/1000] loss=0.6417 | mae=0.6417
+2026-01-21 21:24:19 | INFO | [Task alignment][Step 650/1000] loss=0.6137 | mae=0.6137
+2026-01-21 21:24:28 | INFO | [Task alignment][Step 700/1000] loss=0.5973 | mae=0.5973
+2026-01-21 21:24:37 | INFO | [Task alignment][Step 750/1000] loss=0.5893 | mae=0.5893
+2026-01-21 21:24:47 | INFO | [Task alignment][Step 800/1000] loss=0.5758 | mae=0.5758
+2026-01-21 21:25:02 | INFO | [Task alignment][Step 850/1000] loss=0.5727 | mae=0.5727
+2026-01-21 21:25:13 | INFO | [Task alignment][Step 900/1000] loss=0.5572 | mae=0.5572
+2026-01-21 21:25:23 | INFO | [Task alignment][Step 950/1000] loss=0.5710 | mae=0.5710
+2026-01-21 21:25:34 | INFO | [Task alignment][Step 1000/1000] loss=0.5488 | mae=0.5488
+2026-01-21 21:25:38 | INFO | [Val] alignment: loss=1.2893 | mae=1.2893
+2026-01-21 21:25:38 | INFO | Task 'alignment' complete. Running validation...
+2026-01-21 21:25:43 | INFO | [Final Val for alignment] loss=1.2893 | mae=1.2893
+2026-01-21 21:25:43 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2117/ckpt/task_alignment_final.pt
+2026-01-21 21:25:43 | INFO |
+============================================================
+2026-01-21 21:25:43 | INFO | Starting Task 3/3: preference
+2026-01-21 21:25:43 | INFO | ============================================================
+2026-01-21 21:25:43 | INFO | Task 'preference' trainable parameters: 769
+2026-01-21 21:27:09 | INFO | [Task preference][Step 50/1000] loss=0.7531 | accuracy=0.6267
+2026-01-21 21:28:26 | INFO | [Task preference][Step 100/1000] loss=0.5513 | accuracy=0.7275
+2026-01-21 21:29:43 | INFO | [Task preference][Step 150/1000] loss=0.5132 | accuracy=0.7400
+2026-01-21 21:31:03 | INFO | [Task preference][Step 200/1000] loss=0.5026 | accuracy=0.7579
+2026-01-21 21:32:17 | INFO | [Task preference][Step 250/1000] loss=0.4554 | accuracy=0.7738
+2026-01-21 21:33:30 | INFO | [Task preference][Step 300/1000] loss=0.4522 | accuracy=0.7754
+2026-01-21 21:34:44 | INFO | [Task preference][Step 350/1000] loss=0.4400 | accuracy=0.7821
+2026-01-21 21:36:04 | INFO | [Task preference][Step 400/1000] loss=0.4237 | accuracy=0.7988
+2026-01-21 21:37:13 | INFO | [Task preference][Step 450/1000] loss=0.4104 | accuracy=0.8054
+2026-01-21 21:38:22 | INFO | [Task preference][Step 500/1000] loss=0.4061 | accuracy=0.8067
+2026-01-21 21:39:32 | INFO | [Task preference][Step 550/1000] loss=0.3888 | accuracy=0.8225
+2026-01-21 21:40:46 | INFO | [Task preference][Step 600/1000] loss=0.3797 | accuracy=0.8213
+2026-01-21 21:41:55 | INFO | [Task preference][Step 650/1000] loss=0.3849 | accuracy=0.8208
+2026-01-21 21:43:08 | INFO | [Task preference][Step 700/1000] loss=0.3678 | accuracy=0.8329
+2026-01-21 21:44:35 | INFO | [Task preference][Step 750/1000] loss=0.3720 | accuracy=0.8308

downstream/20260121_2145/config.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+basics:
+  random_seed: 42
+  save_dir: ${project_root}/experiments/downstream
+run_name: null
+tasks:
+- musicality
+- alignment
+- preference
+backbone:
+  checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+  freeze: true
+  from_ema: false
+dataset:
+  train_file: ${project_root}/train_multitask.jsonl
+  test_file: ${project_root}/test_multitask.jsonl
+heads:
+  hidden_dim: 768
+  init_from: score_projector
+  musicality:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  alignment:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  preference:
+    use_mlp: true
+    dropout: 0.1
+train:
+  num_epochs: 10
+  num_train_steps: 2000
+  batch_size: 48
+  learning_rate: 0.001
+  weight_decay: 0.01
+  max_grad_norm: 1.0
+  warmup_steps: 100
+  schedule_type: cosine
+  min_lr_ratio: 0.01
+  dataset_mode: sequential
+  steps_per_task: 1000
+  log_interval: 50
+  val_interval: 1000
+  save_interval: 1000
+  num_workers: 8
+  resume: null
+device: cuda:2

downstream/20260121_2145/train.log ADDED Viewed

	@@ -0,0 +1,128 @@

+2026-01-21 21:45:31 | INFO | Starting downstream training: 20260121_2145
+2026-01-21 21:45:31 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2145
+2026-01-21 21:45:31 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2145/config.yaml
+2026-01-21 21:45:31 | INFO | Training tasks: ['musicality', 'alignment', 'preference']
+2026-01-21 21:45:31 | INFO | Dataset mode: sequential
+2026-01-21 21:45:34 | INFO | Loading backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 21:45:34 | INFO | Using checkpoint config for model
+2026-01-21 21:45:39 | WARNING | Missing keys: 283
+2026-01-21 21:45:40 | INFO | Loaded backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 21:45:40 | INFO | Added mlp head for task 'musicality'
+2026-01-21 21:45:40 | INFO | Added mlp head for task 'alignment'
+2026-01-21 21:45:40 | INFO | Added mlp head for task 'preference'
+2026-01-21 21:45:40 | INFO | Initializing heads from backbone 'score_projector'
+2026-01-21 21:45:40 | INFO | Initializing 3 heads from 'score_projector'
+2026-01-21 21:45:40 | INFO |   Task 'musicality': type=mlp, ordinal=False
+2026-01-21 21:45:40 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-21 21:45:40 | INFO |   Loaded 4 parameters, 2 missing
+2026-01-21 21:45:40 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 21:45:40 | INFO |   Task 'alignment': type=mlp, ordinal=False
+2026-01-21 21:45:40 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-21 21:45:40 | INFO |   Loaded 4 parameters, 2 missing
+2026-01-21 21:45:40 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 21:45:40 | INFO |   Task 'preference': type=mlp, ordinal=False
+2026-01-21 21:45:40 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-21 21:45:40 | INFO |   Loaded 4 parameters, 2 missing
+2026-01-21 21:45:40 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 21:45:40 | INFO | ✓ All heads initialized
+2026-01-21 21:45:40 | INFO | Loading train data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/train_multitask.jsonl
+2026-01-21 21:45:40 | INFO | Loading test data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/test_multitask.jsonl
+2026-01-21 21:45:40 | INFO | Task 'musicality': train=4322, test=913
+2026-01-21 21:45:40 | INFO | Task 'alignment': train=1923, test=913
+2026-01-21 21:45:40 | INFO | Task 'preference': train=1065, test=275
+2026-01-21 21:45:40 | INFO | [SEQUENTIAL MODE] Training 3 tasks, 1000 steps each
+2026-01-21 21:45:40 | INFO |
+============================================================
+2026-01-21 21:45:40 | INFO | Starting Task 1/3: musicality
+2026-01-21 21:45:40 | INFO | ============================================================
+2026-01-21 21:45:40 | INFO | Task 'musicality' trainable parameters: 592,897
+2026-01-21 21:46:00 | INFO | [Task musicality][Step 50/1000] loss=1.7786 | mae=1.7786
+2026-01-21 21:46:18 | INFO | [Task musicality][Step 100/1000] loss=0.7543 | mae=0.7543
+2026-01-21 21:46:30 | INFO | [Task musicality][Step 150/1000] loss=0.6762 | mae=0.6762
+2026-01-21 21:46:45 | INFO | [Task musicality][Step 200/1000] loss=0.6404 | mae=0.6404
+2026-01-21 21:46:59 | INFO | [Task musicality][Step 250/1000] loss=0.5936 | mae=0.5936
+2026-01-21 21:47:15 | INFO | [Task musicality][Step 300/1000] loss=0.5754 | mae=0.5754
+2026-01-21 21:47:30 | INFO | [Task musicality][Step 350/1000] loss=0.5510 | mae=0.5510
+2026-01-21 21:47:43 | INFO | [Task musicality][Step 400/1000] loss=0.5132 | mae=0.5132
+2026-01-21 21:47:54 | INFO | [Task musicality][Step 450/1000] loss=0.5287 | mae=0.5287
+2026-01-21 21:48:12 | INFO | [Task musicality][Step 500/1000] loss=0.4958 | mae=0.4958
+2026-01-21 21:48:30 | INFO | [Task musicality][Step 550/1000] loss=0.4961 | mae=0.4961
+2026-01-21 21:48:43 | INFO | [Task musicality][Step 600/1000] loss=0.4833 | mae=0.4833
+2026-01-21 21:48:59 | INFO | [Task musicality][Step 650/1000] loss=0.4410 | mae=0.4410
+2026-01-21 21:49:14 | INFO | [Task musicality][Step 700/1000] loss=0.4480 | mae=0.4480
+2026-01-21 21:49:34 | INFO | [Task musicality][Step 750/1000] loss=0.4393 | mae=0.4393
+2026-01-21 21:49:49 | INFO | [Task musicality][Step 800/1000] loss=0.4295 | mae=0.4295
+2026-01-21 21:50:07 | INFO | [Task musicality][Step 850/1000] loss=0.4026 | mae=0.4026
+2026-01-21 21:50:23 | INFO | [Task musicality][Step 900/1000] loss=0.4080 | mae=0.4080
+2026-01-21 21:50:41 | INFO | [Task musicality][Step 950/1000] loss=0.3985 | mae=0.3985
+2026-01-21 21:50:58 | INFO | [Task musicality][Step 1000/1000] loss=0.4006 | mae=0.4006
+2026-01-21 21:51:05 | INFO | [Val] musicality: loss=0.6058 | mae=0.6058
+2026-01-21 21:51:05 | INFO | Task 'musicality' complete. Running validation...
+2026-01-21 21:51:10 | INFO | [Final Val for musicality] loss=0.6058 | mae=0.6058
+2026-01-21 21:51:10 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2145/ckpt/task_musicality_final.pt
+2026-01-21 21:51:10 | INFO |
+============================================================
+2026-01-21 21:51:10 | INFO | Starting Task 2/3: alignment
+2026-01-21 21:51:10 | INFO | ============================================================
+2026-01-21 21:51:10 | INFO | Task 'alignment' trainable parameters: 592,897
+2026-01-21 21:51:26 | INFO | [Task alignment][Step 50/1000] loss=1.8262 | mae=1.8262
+2026-01-21 21:51:38 | INFO | [Task alignment][Step 100/1000] loss=0.7283 | mae=0.7283
+2026-01-21 21:51:50 | INFO | [Task alignment][Step 150/1000] loss=0.6792 | mae=0.6792
+2026-01-21 21:52:03 | INFO | [Task alignment][Step 200/1000] loss=0.5979 | mae=0.5979
+2026-01-21 21:52:14 | INFO | [Task alignment][Step 250/1000] loss=0.5766 | mae=0.5766
+2026-01-21 21:52:24 | INFO | [Task alignment][Step 300/1000] loss=0.5427 | mae=0.5427
+2026-01-21 21:52:34 | INFO | [Task alignment][Step 350/1000] loss=0.5330 | mae=0.5330
+2026-01-21 21:52:40 | INFO | [Task alignment][Step 400/1000] loss=0.5115 | mae=0.5115
+2026-01-21 21:52:48 | INFO | [Task alignment][Step 450/1000] loss=0.4688 | mae=0.4688
+2026-01-21 21:52:54 | INFO | [Task alignment][Step 500/1000] loss=0.4563 | mae=0.4563
+2026-01-21 21:53:00 | INFO | [Task alignment][Step 550/1000] loss=0.4392 | mae=0.4392
+2026-01-21 21:53:10 | INFO | [Task alignment][Step 600/1000] loss=0.4127 | mae=0.4127
+2026-01-21 21:53:20 | INFO | [Task alignment][Step 650/1000] loss=0.3947 | mae=0.3947
+2026-01-21 21:53:28 | INFO | [Task alignment][Step 700/1000] loss=0.3776 | mae=0.3776
+2026-01-21 21:53:37 | INFO | [Task alignment][Step 750/1000] loss=0.3523 | mae=0.3523
+2026-01-21 21:53:45 | INFO | [Task alignment][Step 800/1000] loss=0.3439 | mae=0.3439
+2026-01-21 21:53:55 | INFO | [Task alignment][Step 850/1000] loss=0.3254 | mae=0.3254
+2026-01-21 21:54:08 | INFO | [Task alignment][Step 900/1000] loss=0.3240 | mae=0.3240
+2026-01-21 21:54:21 | INFO | [Task alignment][Step 950/1000] loss=0.3232 | mae=0.3232
+2026-01-21 21:54:33 | INFO | [Task alignment][Step 1000/1000] loss=0.3232 | mae=0.3232
+2026-01-21 21:54:39 | INFO | [Val] alignment: loss=0.6060 | mae=0.6060
+2026-01-21 21:54:39 | INFO | Task 'alignment' complete. Running validation...
+2026-01-21 21:54:44 | INFO | [Final Val for alignment] loss=0.6060 | mae=0.6060
+2026-01-21 21:54:44 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2145/ckpt/task_alignment_final.pt
+2026-01-21 21:54:44 | INFO |
+============================================================
+2026-01-21 21:54:44 | INFO | Starting Task 3/3: preference
+2026-01-21 21:54:44 | INFO | ============================================================
+2026-01-21 21:54:44 | INFO | Task 'preference' trainable parameters: 592,897
+2026-01-21 21:56:24 | INFO | [Task preference][Step 50/1000] loss=0.5985 | accuracy=0.6663
+2026-01-21 21:57:46 | INFO | [Task preference][Step 100/1000] loss=0.4507 | accuracy=0.7896
+2026-01-21 21:59:02 | INFO | [Task preference][Step 150/1000] loss=0.3691 | accuracy=0.8363
+2026-01-21 22:00:22 | INFO | [Task preference][Step 200/1000] loss=0.2699 | accuracy=0.8992
+2026-01-21 22:01:38 | INFO | [Task preference][Step 250/1000] loss=0.1960 | accuracy=0.9267
+2026-01-21 22:02:51 | INFO | [Task preference][Step 300/1000] loss=0.1390 | accuracy=0.9500
+2026-01-21 22:04:05 | INFO | [Task preference][Step 350/1000] loss=0.1032 | accuracy=0.9683
+2026-01-21 22:05:24 | INFO | [Task preference][Step 400/1000] loss=0.0626 | accuracy=0.9842
+2026-01-21 22:06:58 | INFO | [Task preference][Step 450/1000] loss=0.0451 | accuracy=0.9908
+2026-01-21 22:08:26 | INFO | [Task preference][Step 500/1000] loss=0.0280 | accuracy=0.9958
+2026-01-21 22:09:49 | INFO | [Task preference][Step 550/1000] loss=0.0195 | accuracy=0.9979
+2026-01-21 22:11:22 | INFO | [Task preference][Step 600/1000] loss=0.0139 | accuracy=0.9996
+2026-01-21 22:12:48 | INFO | [Task preference][Step 650/1000] loss=0.0127 | accuracy=0.9988
+2026-01-21 22:14:19 | INFO | [Task preference][Step 700/1000] loss=0.0113 | accuracy=0.9992
+2026-01-21 22:15:52 | INFO | [Task preference][Step 750/1000] loss=0.0107 | accuracy=0.9996
+2026-01-21 22:17:16 | INFO | [Task preference][Step 800/1000] loss=0.0084 | accuracy=1.0000
+2026-01-21 22:18:49 | INFO | [Task preference][Step 850/1000] loss=0.0088 | accuracy=1.0000
+2026-01-21 22:20:27 | INFO | [Task preference][Step 900/1000] loss=0.0086 | accuracy=0.9996
+2026-01-21 22:22:09 | INFO | [Task preference][Step 950/1000] loss=0.0077 | accuracy=0.9996
+2026-01-21 22:23:32 | INFO | [Task preference][Step 1000/1000] loss=0.0081 | accuracy=0.9996
+2026-01-21 22:23:45 | INFO | [Val] preference: loss=1.1195 | accuracy=0.7176
+2026-01-21 22:23:45 | INFO | Task 'preference' complete. Running validation...
+2026-01-21 22:23:55 | INFO | [Final Val for preference] loss=1.1195 | accuracy=0.7176
+2026-01-21 22:23:55 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2145/ckpt/task_preference_final.pt
+2026-01-21 22:23:55 | INFO |
+============================================================
+2026-01-21 22:23:55 | INFO | All tasks complete. Running final validation for all tasks...
+2026-01-21 22:24:01 | INFO | [Final Val] musicality: loss=0.6058 | mae=0.6058
+2026-01-21 22:24:08 | INFO | [Final Val] alignment: loss=0.6060 | mae=0.6060
+2026-01-21 22:24:16 | INFO | [Final Val] preference: loss=1.1195 | accuracy=0.7176
+2026-01-21 22:24:16 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2145/ckpt/downstream_final.pt
+2026-01-21 22:24:16 | INFO | Done! Checkpoint saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2145/ckpt/downstream_final.pt

downstream/20260121_2200/config.yaml ADDED Viewed

	@@ -0,0 +1,59 @@

+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+basics:
+  random_seed: 42
+  save_dir: ${project_root}/experiments/downstream
+run_name: null
+tasks:
+- musicality
+- alignment
+backbone:
+  checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+  freeze: true
+  from_ema: false
+dataset:
+  train_file: ${project_root}/train_multitask.jsonl
+  test_file: ${project_root}/test_multitask.jsonl
+heads:
+  hidden_dim: 768
+  init_from: score_projector
+  musicality:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+    type: ordinal
+    tau: 1.0
+  alignment:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+    type: ordinal
+    tau: 1.0
+  preference:
+    use_mlp: true
+    dropout: 0.1
+train:
+  num_epochs: 10
+  num_train_steps: 2000
+  batch_size: 48
+  learning_rate: 0.001
+  weight_decay: 0.01
+  max_grad_norm: 1.0
+  warmup_steps: 100
+  schedule_type: cosine
+  min_lr_ratio: 0.01
+  dataset_mode: sequential
+  steps_per_task: 1000
+  log_interval: 50
+  val_interval: 1000
+  save_interval: 1000
+  num_workers: 8
+  resume: null
+device: cuda:2

downstream/20260121_2200/train.log ADDED Viewed

	@@ -0,0 +1,8 @@

+2026-01-21 22:00:33 | INFO | Starting downstream training: 20260121_2200
+2026-01-21 22:00:33 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2200
+2026-01-21 22:00:33 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2200/config.yaml
+2026-01-21 22:00:33 | INFO | Training tasks: ['musicality', 'alignment']
+2026-01-21 22:00:33 | INFO | Dataset mode: sequential
+2026-01-21 22:00:35 | INFO | Loading backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 22:00:35 | INFO | Using checkpoint config for model
+2026-01-21 22:00:41 | WARNING | Missing keys: 283

downstream/20260121_2202/config.yaml ADDED Viewed

	@@ -0,0 +1,59 @@

+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+basics:
+  random_seed: 42
+  save_dir: ${project_root}/experiments/downstream
+run_name: null
+tasks:
+- musicality
+- alignment
+backbone:
+  checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+  freeze: true
+  from_ema: false
+dataset:
+  train_file: ${project_root}/train_multitask.jsonl
+  test_file: ${project_root}/test_multitask.jsonl
+heads:
+  hidden_dim: 768
+  init_from: score_projector
+  musicality:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+    type: ordinal
+    tau: 1.0
+  alignment:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+    type: ordinal
+    tau: 1.0
+  preference:
+    use_mlp: true
+    dropout: 0.1
+train:
+  num_epochs: 10
+  num_train_steps: 2000
+  batch_size: 48
+  learning_rate: 0.001
+  weight_decay: 0.01
+  max_grad_norm: 1.0
+  warmup_steps: 100
+  schedule_type: cosine
+  min_lr_ratio: 0.01
+  dataset_mode: sequential
+  steps_per_task: 1000
+  log_interval: 50
+  val_interval: 1000
+  save_interval: 1000
+  num_workers: 8
+  resume: null
+device: cuda:3

downstream/20260121_2202/train.log ADDED Viewed

	@@ -0,0 +1,34 @@

+2026-01-21 22:02:15 | INFO | Starting downstream training: 20260121_2202
+2026-01-21 22:02:15 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2202
+2026-01-21 22:02:15 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2202/config.yaml
+2026-01-21 22:02:15 | INFO | Training tasks: ['musicality', 'alignment']
+2026-01-21 22:02:15 | INFO | Dataset mode: sequential
+2026-01-21 22:02:18 | INFO | Loading backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 22:02:18 | INFO | Using checkpoint config for model
+2026-01-21 22:02:24 | WARNING | Missing keys: 283
+2026-01-21 22:02:24 | INFO | Loaded backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 22:02:24 | INFO | Added mlp head for task 'musicality'
+2026-01-21 22:02:24 | INFO | Added mlp head for task 'alignment'
+2026-01-21 22:02:24 | INFO | Initializing heads from backbone 'score_projector'
+2026-01-21 22:02:24 | INFO | Initializing 2 heads from 'score_projector'
+2026-01-21 22:02:24 | INFO |   Task 'musicality': type=mlp, ordinal=False
+2026-01-21 22:02:24 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-21 22:02:24 | INFO |   Loaded 4 parameters, 2 missing
+2026-01-21 22:02:24 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 22:02:24 | INFO |   Task 'alignment': type=mlp, ordinal=False
+2026-01-21 22:02:24 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-21 22:02:24 | INFO |   Loaded 4 parameters, 2 missing
+2026-01-21 22:02:24 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 22:02:24 | INFO | ✓ All heads initialized
+2026-01-21 22:02:24 | INFO | Loading train data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/train_multitask.jsonl
+2026-01-21 22:02:24 | INFO | Loading test data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/test_multitask.jsonl
+2026-01-21 22:02:24 | INFO | Task 'musicality': train=4322, test=913
+2026-01-21 22:02:24 | INFO | Task 'alignment': train=1923, test=913
+2026-01-21 22:02:24 | INFO | [SEQUENTIAL MODE] Training 2 tasks, 1000 steps each
+2026-01-21 22:02:24 | INFO |
+============================================================
+2026-01-21 22:02:24 | INFO | Starting Task 1/2: musicality
+2026-01-21 22:02:24 | INFO | ============================================================
+2026-01-21 22:02:24 | INFO | Task 'musicality' trainable parameters: 592,897
+2026-01-21 22:02:44 | INFO | [Task musicality][Step 50/1000] loss=1.7686 | mae=1.7686
+2026-01-21 22:02:58 | INFO | [Task musicality][Step 100/1000] loss=0.7030 | mae=0.7030

downstream/20260121_2203/config.yaml ADDED Viewed

	@@ -0,0 +1,55 @@

+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+basics:
+  random_seed: 42
+  save_dir: ${project_root}/experiments/downstream
+run_name: null
+tasks:
+- musicality
+- alignment
+backbone:
+  checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+  freeze: true
+  from_ema: false
+dataset:
+  train_file: ${project_root}/train_multitask.jsonl
+  test_file: ${project_root}/test_multitask.jsonl
+heads:
+  hidden_dim: 768
+  init_from: score_projector
+  musicality:
+    use_mlp: true
+    ordinal: true
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  alignment:
+    use_mlp: true
+    ordinal: true
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  preference:
+    use_mlp: true
+    dropout: 0.1
+train:
+  num_epochs: 10
+  num_train_steps: 2000
+  batch_size: 48
+  learning_rate: 0.001
+  weight_decay: 0.01
+  max_grad_norm: 1.0
+  warmup_steps: 100
+  schedule_type: cosine
+  min_lr_ratio: 0.01
+  dataset_mode: sequential
+  steps_per_task: 1000
+  log_interval: 50
+  val_interval: 1000
+  save_interval: 1000
+  num_workers: 8
+  resume: null
+device: cuda:3

downstream/20260121_2203/train.log ADDED Viewed

	@@ -0,0 +1,94 @@

+2026-01-21 22:03:30 | INFO | Starting downstream training: 20260121_2203
+2026-01-21 22:03:30 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2203
+2026-01-21 22:03:30 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2203/config.yaml
+2026-01-21 22:03:30 | INFO | Training tasks: ['musicality', 'alignment']
+2026-01-21 22:03:30 | INFO | Dataset mode: sequential
+2026-01-21 22:03:32 | INFO | Loading backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 22:03:33 | INFO | Using checkpoint config for model
+2026-01-21 22:03:38 | WARNING | Missing keys: 283
+2026-01-21 22:03:39 | INFO | Loaded backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 22:03:39 | INFO | Added ordinal head for task 'musicality'
+2026-01-21 22:03:39 | INFO | Added ordinal head for task 'alignment'
+2026-01-21 22:03:39 | INFO | Initializing heads from backbone 'score_projector'
+2026-01-21 22:03:39 | INFO | Initializing 2 heads from 'score_projector'
+2026-01-21 22:03:39 | INFO |   Task 'musicality': type=mlp, ordinal=True
+2026-01-21 22:03:39 | INFO | Initializing Ordinal head from 'score_projector' (from_ema=False)
+2026-01-21 22:03:39 | INFO |   Loaded 4 parameters, 2 missing
+2026-01-21 22:03:39 | INFO | ✓ Ordinal head MLP initialized from 'score_projector'
+2026-01-21 22:03:39 | INFO |   Note: Ordinal thresholds remain randomly initialized
+2026-01-21 22:03:39 | INFO |   Task 'alignment': type=mlp, ordinal=True
+2026-01-21 22:03:39 | INFO | Initializing Ordinal head from 'score_projector' (from_ema=False)
+2026-01-21 22:03:39 | INFO |   Loaded 4 parameters, 2 missing
+2026-01-21 22:03:39 | INFO | ✓ Ordinal head MLP initialized from 'score_projector'
+2026-01-21 22:03:39 | INFO |   Note: Ordinal thresholds remain randomly initialized
+2026-01-21 22:03:39 | INFO | ✓ All heads initialized
+2026-01-21 22:03:39 | INFO | Loading train data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/train_multitask.jsonl
+2026-01-21 22:03:39 | INFO | Loading test data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/test_multitask.jsonl
+2026-01-21 22:03:39 | INFO | Task 'musicality': train=4322, test=913
+2026-01-21 22:03:39 | INFO | Task 'alignment': train=1923, test=913
+2026-01-21 22:03:39 | INFO | [SEQUENTIAL MODE] Training 2 tasks, 1000 steps each
+2026-01-21 22:03:39 | INFO |
+============================================================
+2026-01-21 22:03:39 | INFO | Starting Task 1/2: musicality
+2026-01-21 22:03:39 | INFO | ============================================================
+2026-01-21 22:03:39 | INFO | Task 'musicality' trainable parameters: 592,906
+2026-01-21 22:04:02 | INFO | [Task musicality][Step 50/1000] loss=2.0734 | mae=0.7631
+2026-01-21 22:04:18 | INFO | [Task musicality][Step 100/1000] loss=1.9539 | mae=0.5993
+2026-01-21 22:04:30 | INFO | [Task musicality][Step 150/1000] loss=1.9282 | mae=0.5796
+2026-01-21 22:04:46 | INFO | [Task musicality][Step 200/1000] loss=1.8968 | mae=0.5612
+2026-01-21 22:04:58 | INFO | [Task musicality][Step 250/1000] loss=1.8660 | mae=0.5441
+2026-01-21 22:05:13 | INFO | [Task musicality][Step 300/1000] loss=1.8148 | mae=0.5014
+2026-01-21 22:05:26 | INFO | [Task musicality][Step 350/1000] loss=1.8131 | mae=0.5150
+2026-01-21 22:05:43 | INFO | [Task musicality][Step 400/1000] loss=1.7905 | mae=0.5027
+2026-01-21 22:05:57 | INFO | [Task musicality][Step 450/1000] loss=1.7558 | mae=0.4793
+2026-01-21 22:06:14 | INFO | [Task musicality][Step 500/1000] loss=1.7351 | mae=0.4567
+2026-01-21 22:06:31 | INFO | [Task musicality][Step 550/1000] loss=1.7292 | mae=0.4727
+2026-01-21 22:06:44 | INFO | [Task musicality][Step 600/1000] loss=1.6897 | mae=0.4319
+2026-01-21 22:07:02 | INFO | [Task musicality][Step 650/1000] loss=1.6883 | mae=0.4249
+2026-01-21 22:07:16 | INFO | [Task musicality][Step 700/1000] loss=1.6641 | mae=0.4092
+2026-01-21 22:07:35 | INFO | [Task musicality][Step 750/1000] loss=1.6474 | mae=0.3982
+2026-01-21 22:07:48 | INFO | [Task musicality][Step 800/1000] loss=1.6376 | mae=0.3938
+2026-01-21 22:08:06 | INFO | [Task musicality][Step 850/1000] loss=1.6277 | mae=0.3840
+2026-01-21 22:08:19 | INFO | [Task musicality][Step 900/1000] loss=1.6306 | mae=0.3790
+2026-01-21 22:08:35 | INFO | [Task musicality][Step 950/1000] loss=1.6176 | mae=0.3722
+2026-01-21 22:08:53 | INFO | [Task musicality][Step 1000/1000] loss=1.6133 | mae=0.3613
+2026-01-21 22:09:02 | INFO | [Val] musicality: loss=2.0307 | mae=0.7057
+2026-01-21 22:09:02 | INFO | Task 'musicality' complete. Running validation...
+2026-01-21 22:09:09 | INFO | [Final Val for musicality] loss=2.0307 | mae=0.7057
+2026-01-21 22:09:09 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2203/ckpt/task_musicality_final.pt
+2026-01-21 22:09:09 | INFO |
+============================================================
+2026-01-21 22:09:09 | INFO | Starting Task 2/2: alignment
+2026-01-21 22:09:09 | INFO | ============================================================
+2026-01-21 22:09:09 | INFO | Task 'alignment' trainable parameters: 592,906
+2026-01-21 22:09:22 | INFO | [Task alignment][Step 50/1000] loss=2.0490 | mae=0.6992
+2026-01-21 22:09:34 | INFO | [Task alignment][Step 100/1000] loss=1.9639 | mae=0.5939
+2026-01-21 22:09:47 | INFO | [Task alignment][Step 150/1000] loss=1.9356 | mae=0.5761
+2026-01-21 22:09:59 | INFO | [Task alignment][Step 200/1000] loss=1.8931 | mae=0.5401
+2026-01-21 22:10:12 | INFO | [Task alignment][Step 250/1000] loss=1.8464 | mae=0.5062
+2026-01-21 22:10:25 | INFO | [Task alignment][Step 300/1000] loss=1.8200 | mae=0.4874
+2026-01-21 22:10:37 | INFO | [Task alignment][Step 350/1000] loss=1.7858 | mae=0.4652
+2026-01-21 22:10:47 | INFO | [Task alignment][Step 400/1000] loss=1.7651 | mae=0.4574
+2026-01-21 22:11:04 | INFO | [Task alignment][Step 450/1000] loss=1.7110 | mae=0.4072
+2026-01-21 22:11:17 | INFO | [Task alignment][Step 500/1000] loss=1.6871 | mae=0.3807
+2026-01-21 22:11:30 | INFO | [Task alignment][Step 550/1000] loss=1.6525 | mae=0.3685
+2026-01-21 22:11:43 | INFO | [Task alignment][Step 600/1000] loss=1.6413 | mae=0.3528
+2026-01-21 22:11:58 | INFO | [Task alignment][Step 650/1000] loss=1.6069 | mae=0.3283
+2026-01-21 22:12:12 | INFO | [Task alignment][Step 700/1000] loss=1.5852 | mae=0.3045
+2026-01-21 22:12:26 | INFO | [Task alignment][Step 750/1000] loss=1.5635 | mae=0.2865
+2026-01-21 22:12:38 | INFO | [Task alignment][Step 800/1000] loss=1.5526 | mae=0.2740
+2026-01-21 22:12:53 | INFO | [Task alignment][Step 850/1000] loss=1.5392 | mae=0.2679
+2026-01-21 22:13:07 | INFO | [Task alignment][Step 900/1000] loss=1.5294 | mae=0.2544
+2026-01-21 22:13:21 | INFO | [Task alignment][Step 950/1000] loss=1.5273 | mae=0.2547
+2026-01-21 22:13:36 | INFO | [Task alignment][Step 1000/1000] loss=1.5287 | mae=0.2516
+2026-01-21 22:13:44 | INFO | [Val] alignment: loss=1.9828 | mae=0.6563
+2026-01-21 22:13:44 | INFO | Task 'alignment' complete. Running validation...
+2026-01-21 22:13:52 | INFO | [Final Val for alignment] loss=1.9828 | mae=0.6563
+2026-01-21 22:13:52 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2203/ckpt/task_alignment_final.pt
+2026-01-21 22:13:52 | INFO |
+============================================================
+2026-01-21 22:13:52 | INFO | All tasks complete. Running final validation for all tasks...
+2026-01-21 22:14:00 | INFO | [Final Val] musicality: loss=2.0307 | mae=0.7057
+2026-01-21 22:14:07 | INFO | [Final Val] alignment: loss=1.9828 | mae=0.6563
+2026-01-21 22:14:07 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2203/ckpt/downstream_final.pt
+2026-01-21 22:14:07 | INFO | Done! Checkpoint saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2203/ckpt/downstream_final.pt

downstream/20260121_2243/config.yaml ADDED Viewed

	@@ -0,0 +1,55 @@

+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+basics:
+  random_seed: 42
+  save_dir: ${project_root}/experiments/downstream
+run_name: null
+tasks:
+- musicality
+- alignment
+backbone:
+  checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+  freeze: true
+  from_ema: false
+dataset:
+  train_file: ${project_root}/train_multitask.jsonl
+  test_file: ${project_root}/test_multitask.jsonl
+heads:
+  hidden_dim: 768
+  init_from: score_projector
+  musicality:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  alignment:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  preference:
+    use_mlp: true
+    dropout: 0.1
+train:
+  num_epochs: 10
+  num_train_steps: 2000
+  batch_size: 48
+  learning_rate: 0.001
+  weight_decay: 0.01
+  max_grad_norm: 1.0
+  warmup_steps: 100
+  schedule_type: cosine
+  min_lr_ratio: 0.01
+  dataset_mode: sequential
+  steps_per_task: 5000
+  log_interval: 200
+  val_interval: 1000
+  save_interval: 1000
+  num_workers: 8
+  resume: null
+device: cuda:3

downstream/20260121_2243/train.log ADDED Viewed

	@@ -0,0 +1,112 @@

+2026-01-21 22:43:58 | INFO | Starting downstream training: 20260121_2243
+2026-01-21 22:43:58 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2243
+2026-01-21 22:43:58 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2243/config.yaml
+2026-01-21 22:43:58 | INFO | Training tasks: ['musicality', 'alignment']
+2026-01-21 22:43:58 | INFO | Dataset mode: sequential
+2026-01-21 22:44:01 | INFO | Loading backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 22:44:01 | INFO | Using checkpoint config for model
+2026-01-21 22:44:08 | WARNING | Missing keys: 283
+2026-01-21 22:44:09 | INFO | Loaded backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 22:44:09 | INFO | Added mlp head for task 'musicality'
+2026-01-21 22:44:09 | INFO | Added mlp head for task 'alignment'
+2026-01-21 22:44:09 | INFO | Initializing heads from backbone 'score_projector'
+2026-01-21 22:44:09 | INFO | Initializing 2 heads from 'score_projector'
+2026-01-21 22:44:09 | INFO |   Task 'musicality': type=mlp, ordinal=False
+2026-01-21 22:44:09 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-21 22:44:09 | INFO |   Slicing 3.weight -> 4.weight: torch.Size([2, 768]) -> torch.Size([1, 768])
+2026-01-21 22:44:09 | INFO |   Loaded 6 parameters, 0 missing
+2026-01-21 22:44:09 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 22:44:09 | INFO |   Task 'alignment': type=mlp, ordinal=False
+2026-01-21 22:44:09 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-21 22:44:09 | INFO |   Slicing 3.weight -> 4.weight: torch.Size([2, 768]) -> torch.Size([1, 768])
+2026-01-21 22:44:09 | INFO |   Loaded 6 parameters, 0 missing
+2026-01-21 22:44:09 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 22:44:09 | INFO | ✓ All heads initialized
+2026-01-21 22:44:09 | INFO | Loading train data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/train_multitask.jsonl
+2026-01-21 22:44:09 | INFO | Loading test data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/test_multitask.jsonl
+2026-01-21 22:44:09 | INFO | Task 'musicality': train=4322, test=913
+2026-01-21 22:44:09 | INFO | Task 'alignment': train=1923, test=913
+2026-01-21 22:44:09 | INFO | [SEQUENTIAL MODE] Training 2 tasks, 5000 steps each
+2026-01-21 22:44:09 | INFO |
+============================================================
+2026-01-21 22:44:09 | INFO | Starting Task 1/2: musicality
+2026-01-21 22:44:09 | INFO | ============================================================
+2026-01-21 22:44:09 | INFO | Task 'musicality' trainable parameters: 592,897
+2026-01-21 22:45:12 | INFO | [Task musicality][Step 200/5000] loss=1.1968 | mae=1.1968
+2026-01-21 22:46:00 | INFO | [Task musicality][Step 400/5000] loss=0.5557 | mae=0.5557
+2026-01-21 22:46:55 | INFO | [Task musicality][Step 600/5000] loss=0.5162 | mae=0.5162
+2026-01-21 22:47:56 | INFO | [Task musicality][Step 800/5000] loss=0.4912 | mae=0.4912
+2026-01-21 22:48:59 | INFO | [Task musicality][Step 1000/5000] loss=0.4753 | mae=0.4753
+2026-01-21 22:49:05 | INFO | [Val] musicality: loss=0.6083 | mae=0.6083
+2026-01-21 22:49:55 | INFO | [Task musicality][Step 1200/5000] loss=0.4478 | mae=0.4478
+2026-01-21 22:50:55 | INFO | [Task musicality][Step 1400/5000] loss=0.4372 | mae=0.4372
+2026-01-21 22:51:46 | INFO | [Task musicality][Step 1600/5000] loss=0.4211 | mae=0.4211
+2026-01-21 22:52:40 | INFO | [Task musicality][Step 1800/5000] loss=0.4047 | mae=0.4047
+2026-01-21 22:53:35 | INFO | [Task musicality][Step 2000/5000] loss=0.3909 | mae=0.3909
+2026-01-21 22:53:39 | INFO | [Val] musicality: loss=0.6811 | mae=0.6811
+2026-01-21 22:54:28 | INFO | [Task musicality][Step 2200/5000] loss=0.3705 | mae=0.3705
+2026-01-21 22:55:18 | INFO | [Task musicality][Step 2400/5000] loss=0.3584 | mae=0.3584
+2026-01-21 22:56:08 | INFO | [Task musicality][Step 2600/5000] loss=0.3527 | mae=0.3527
+2026-01-21 22:57:02 | INFO | [Task musicality][Step 2800/5000] loss=0.3346 | mae=0.3346
+2026-01-21 22:57:51 | INFO | [Task musicality][Step 3000/5000] loss=0.3218 | mae=0.3218
+2026-01-21 22:57:56 | INFO | [Val] musicality: loss=0.7101 | mae=0.7101
+2026-01-21 22:58:44 | INFO | [Task musicality][Step 3200/5000] loss=0.3070 | mae=0.3070
+2026-01-21 22:59:34 | INFO | [Task musicality][Step 3400/5000] loss=0.2961 | mae=0.2961
+2026-01-21 23:00:25 | INFO | [Task musicality][Step 3600/5000] loss=0.2865 | mae=0.2865
+2026-01-21 23:01:18 | INFO | [Task musicality][Step 3800/5000] loss=0.2746 | mae=0.2746
+2026-01-21 23:02:07 | INFO | [Task musicality][Step 4000/5000] loss=0.2674 | mae=0.2674
+2026-01-21 23:02:10 | INFO | [Val] musicality: loss=0.7399 | mae=0.7399
+2026-01-21 23:02:59 | INFO | [Task musicality][Step 4200/5000] loss=0.2614 | mae=0.2614
+2026-01-21 23:03:51 | INFO | [Task musicality][Step 4400/5000] loss=0.2596 | mae=0.2596
+2026-01-21 23:04:44 | INFO | [Task musicality][Step 4600/5000] loss=0.2512 | mae=0.2512
+2026-01-21 23:05:30 | INFO | [Task musicality][Step 4800/5000] loss=0.2500 | mae=0.2500
+2026-01-21 23:06:20 | INFO | [Task musicality][Step 5000/5000] loss=0.2514 | mae=0.2514
+2026-01-21 23:06:24 | INFO | [Val] musicality: loss=0.7481 | mae=0.7481
+2026-01-21 23:06:24 | INFO | Task 'musicality' complete. Running validation...
+2026-01-21 23:06:28 | INFO | [Final Val for musicality] loss=0.7481 | mae=0.7481
+2026-01-21 23:06:28 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2243/ckpt/task_musicality_final.pt
+2026-01-21 23:06:28 | INFO |
+============================================================
+2026-01-21 23:06:28 | INFO | Starting Task 2/2: alignment
+2026-01-21 23:06:28 | INFO | ============================================================
+2026-01-21 23:06:28 | INFO | Task 'alignment' trainable parameters: 592,897
+2026-01-21 23:07:03 | INFO | [Task alignment][Step 200/5000] loss=1.0436 | mae=1.0436
+2026-01-21 23:07:36 | INFO | [Task alignment][Step 400/5000] loss=0.5449 | mae=0.5449
+2026-01-21 23:08:11 | INFO | [Task alignment][Step 600/5000] loss=0.4820 | mae=0.4820
+2026-01-21 23:08:39 | INFO | [Task alignment][Step 800/5000] loss=0.4418 | mae=0.4418
+2026-01-21 23:09:09 | INFO | [Task alignment][Step 1000/5000] loss=0.4081 | mae=0.4081
+2026-01-21 23:09:14 | INFO | [Val] alignment: loss=0.6495 | mae=0.6495
+2026-01-21 23:09:46 | INFO | [Task alignment][Step 1200/5000] loss=0.3896 | mae=0.3896
+2026-01-21 23:10:18 | INFO | [Task alignment][Step 1400/5000] loss=0.3590 | mae=0.3590
+2026-01-21 23:10:50 | INFO | [Task alignment][Step 1600/5000] loss=0.3413 | mae=0.3413
+2026-01-21 23:11:26 | INFO | [Task alignment][Step 1800/5000] loss=0.3241 | mae=0.3241
+2026-01-21 23:11:58 | INFO | [Task alignment][Step 2000/5000] loss=0.3065 | mae=0.3065
+2026-01-21 23:12:04 | INFO | [Val] alignment: loss=0.6834 | mae=0.6834
+2026-01-21 23:12:37 | INFO | [Task alignment][Step 2200/5000] loss=0.2848 | mae=0.2848
+2026-01-21 23:13:09 | INFO | [Task alignment][Step 2400/5000] loss=0.2722 | mae=0.2722
+2026-01-21 23:13:44 | INFO | [Task alignment][Step 2600/5000] loss=0.2566 | mae=0.2566
+2026-01-21 23:14:15 | INFO | [Task alignment][Step 2800/5000] loss=0.2472 | mae=0.2472
+2026-01-21 23:14:47 | INFO | [Task alignment][Step 3000/5000] loss=0.2325 | mae=0.2325
+2026-01-21 23:14:53 | INFO | [Val] alignment: loss=0.7010 | mae=0.7010
+2026-01-21 23:15:24 | INFO | [Task alignment][Step 3200/5000] loss=0.2203 | mae=0.2203
+2026-01-21 23:15:59 | INFO | [Task alignment][Step 3400/5000] loss=0.2091 | mae=0.2091
+2026-01-21 23:16:33 | INFO | [Task alignment][Step 3600/5000] loss=0.2033 | mae=0.2033
+2026-01-21 23:17:11 | INFO | [Task alignment][Step 3800/5000] loss=0.1936 | mae=0.1936
+2026-01-21 23:17:45 | INFO | [Task alignment][Step 4000/5000] loss=0.1850 | mae=0.1850
+2026-01-21 23:17:50 | INFO | [Val] alignment: loss=0.7168 | mae=0.7168
+2026-01-21 23:18:25 | INFO | [Task alignment][Step 4200/5000] loss=0.1814 | mae=0.1814
+2026-01-21 23:18:57 | INFO | [Task alignment][Step 4400/5000] loss=0.1766 | mae=0.1766
+2026-01-21 23:19:31 | INFO | [Task alignment][Step 4600/5000] loss=0.1719 | mae=0.1719
+2026-01-21 23:20:05 | INFO | [Task alignment][Step 4800/5000] loss=0.1727 | mae=0.1727
+2026-01-21 23:20:39 | INFO | [Task alignment][Step 5000/5000] loss=0.1724 | mae=0.1724
+2026-01-21 23:20:45 | INFO | [Val] alignment: loss=0.7154 | mae=0.7154
+2026-01-21 23:20:45 | INFO | Task 'alignment' complete. Running validation...
+2026-01-21 23:20:49 | INFO | [Final Val for alignment] loss=0.7154 | mae=0.7154
+2026-01-21 23:20:49 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2243/ckpt/task_alignment_final.pt
+2026-01-21 23:20:49 | INFO |
+============================================================
+2026-01-21 23:20:49 | INFO | All tasks complete. Running final validation for all tasks...
+2026-01-21 23:20:53 | INFO | [Final Val] musicality: loss=0.7481 | mae=0.7481
+2026-01-21 23:20:58 | INFO | [Final Val] alignment: loss=0.7154 | mae=0.7154
+2026-01-21 23:20:58 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2243/ckpt/downstream_final.pt
+2026-01-21 23:20:58 | INFO | Done! Checkpoint saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2243/ckpt/downstream_final.pt

downstream/20260121_2300/config.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+basics:
+  random_seed: 42
+  save_dir: ${project_root}/experiments/downstream
+run_name: null
+tasks:
+- musicality
+- alignment
+backbone:
+  checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/contrastive/20260121_0043_tune
+    transformer/ckpt/reward_model.0.pt
+  freeze: true
+  from_ema: false
+dataset:
+  train_file: ${project_root}/train_multitask.jsonl
+  test_file: ${project_root}/test_multitask.jsonl
+heads:
+  hidden_dim: 768
+  init_from: score_projector
+  musicality:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  alignment:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  preference:
+    use_mlp: true
+    dropout: 0.1
+train:
+  num_epochs: 10
+  num_train_steps: 2000
+  batch_size: 48
+  learning_rate: 0.001
+  weight_decay: 0.01
+  max_grad_norm: 1.0
+  warmup_steps: 100
+  schedule_type: cosine
+  min_lr_ratio: 0.01
+  dataset_mode: sequential
+  steps_per_task: 5000
+  log_interval: 200
+  val_interval: 1000
+  save_interval: 1000
+  num_workers: 8
+  resume: null
+device: cuda:0

downstream/20260121_2300/train.log ADDED Viewed

	@@ -0,0 +1,7 @@

+2026-01-21 23:00:41 | INFO | Starting downstream training: 20260121_2300
+2026-01-21 23:00:41 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2300
+2026-01-21 23:00:41 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2300/config.yaml
+2026-01-21 23:00:41 | INFO | Training tasks: ['musicality', 'alignment']
+2026-01-21 23:00:41 | INFO | Dataset mode: sequential
+2026-01-21 23:00:44 | INFO | Loading backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/contrastive/20260121_0043_tune transformer/ckpt/reward_model.0.pt
+2026-01-21 23:00:44 | INFO | Using checkpoint config for model

downstream/20260121_2319/config.yaml ADDED Viewed

	@@ -0,0 +1,55 @@

+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+basics:
+  random_seed: 42
+  save_dir: ${project_root}/experiments/downstream
+run_name: null
+tasks:
+- musicality
+- alignment
+backbone:
+  checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+  freeze: true
+  from_ema: false
+dataset:
+  train_file: ${project_root}/train_multitask.jsonl
+  test_file: ${project_root}/test_multitask.jsonl
+heads:
+  hidden_dim: 768
+  init_from: score_projector
+  musicality:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  alignment:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  preference:
+    use_mlp: true
+    dropout: 0.1
+train:
+  num_epochs: 10
+  num_train_steps: 2000
+  batch_size: 48
+  learning_rate: 0.001
+  weight_decay: 0.01
+  max_grad_norm: 1.0
+  warmup_steps: 100
+  schedule_type: cosine
+  min_lr_ratio: 0.01
+  dataset_mode: sequential
+  steps_per_task: 5000
+  log_interval: 200
+  val_interval: 1000
+  save_interval: 1000
+  num_workers: 8
+  resume: null
+device: cuda:1

downstream/20260121_2319/train.log ADDED Viewed

	@@ -0,0 +1,45 @@

+2026-01-21 23:19:02 | INFO | Starting downstream training: 20260121_2319
+2026-01-21 23:19:02 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2319
+2026-01-21 23:19:02 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2319/config.yaml
+2026-01-21 23:19:02 | INFO | Training tasks: ['musicality', 'alignment']
+2026-01-21 23:19:02 | INFO | Dataset mode: sequential
+2026-01-21 23:19:22 | INFO | Starting downstream training: 20260121_2319
+2026-01-21 23:19:22 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2319
+2026-01-21 23:19:22 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2319/config.yaml
+2026-01-21 23:19:22 | INFO | Training tasks: ['musicality', 'alignment']
+2026-01-21 23:19:22 | INFO | Dataset mode: sequential
+2026-01-21 23:19:39 | INFO | Starting downstream training: 20260121_2319
+2026-01-21 23:19:39 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2319
+2026-01-21 23:19:39 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2319/config.yaml
+2026-01-21 23:19:39 | INFO | Training tasks: ['musicality', 'alignment']
+2026-01-21 23:19:39 | INFO | Dataset mode: sequential
+2026-01-21 23:19:42 | INFO | Loading backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 23:19:42 | INFO | Using checkpoint config for model
+2026-01-21 23:19:48 | INFO | Missing keys (794): ['alignment_head.0.weight', 'alignment_head.0.bias', 'alignment_head.1.weight', 'alignment_head.1.bias', 'alignment_head.3.weight']...
+2026-01-21 23:19:48 | WARNING | Missing keys: 283
+2026-01-21 23:19:49 | INFO | Loaded backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-21 23:19:49 | INFO | Added mlp head for task 'musicality'
+2026-01-21 23:19:49 | INFO | Added mlp head for task 'alignment'
+2026-01-21 23:19:49 | INFO | Initializing heads from backbone 'score_projector'
+2026-01-21 23:19:49 | INFO | Initializing 2 heads from 'score_projector'
+2026-01-21 23:19:49 | INFO |   Task 'musicality': type=mlp, ordinal=False
+2026-01-21 23:19:49 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-21 23:19:49 | INFO |   Slicing 3.weight -> 4.weight: torch.Size([2, 768]) -> torch.Size([1, 768])
+2026-01-21 23:19:49 | INFO |   Loaded 6 parameters, 0 missing
+2026-01-21 23:19:49 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 23:19:49 | INFO |   Task 'alignment': type=mlp, ordinal=False
+2026-01-21 23:19:49 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-21 23:19:49 | INFO |   Slicing 3.weight -> 4.weight: torch.Size([2, 768]) -> torch.Size([1, 768])
+2026-01-21 23:19:49 | INFO |   Loaded 6 parameters, 0 missing
+2026-01-21 23:19:49 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 23:19:49 | INFO | ✓ All heads initialized
+2026-01-21 23:19:49 | INFO | Loading train data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/train_multitask.jsonl
+2026-01-21 23:19:49 | INFO | Loading test data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/test_multitask.jsonl
+2026-01-21 23:19:49 | INFO | Task 'musicality': train=4322, test=913
+2026-01-21 23:19:49 | INFO | Task 'alignment': train=1923, test=913
+2026-01-21 23:19:49 | INFO | [SEQUENTIAL MODE] Training 2 tasks, 5000 steps each
+2026-01-21 23:19:49 | INFO |
+============================================================
+2026-01-21 23:19:49 | INFO | Starting Task 1/2: musicality
+2026-01-21 23:19:49 | INFO | ============================================================
+2026-01-21 23:19:49 | INFO | Task 'musicality' trainable parameters: 592,897

downstream/20260121_2327/config.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+basics:
+  random_seed: 42
+  save_dir: ${project_root}/experiments/downstream
+run_name: null
+tasks:
+- musicality
+- alignment
+backbone:
+  checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/contrastive/20260121_0043_tune
+    transformer/ckpt/reward_model.0.pt
+  freeze: true
+  from_ema: false
+dataset:
+  train_file: ${project_root}/train_multitask.jsonl
+  test_file: ${project_root}/test_multitask.jsonl
+heads:
+  hidden_dim: 768
+  init_from: score_projector
+  musicality:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  alignment:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  preference:
+    use_mlp: true
+    dropout: 0.1
+train:
+  num_epochs: 10
+  num_train_steps: 2000
+  batch_size: 48
+  learning_rate: 0.001
+  weight_decay: 0.01
+  max_grad_norm: 1.0
+  warmup_steps: 100
+  schedule_type: cosine
+  min_lr_ratio: 0.01
+  dataset_mode: sequential
+  steps_per_task: 5000
+  log_interval: 200
+  val_interval: 1000
+  save_interval: 1000
+  num_workers: 8
+  resume: null
+device: cuda:1

downstream/20260121_2327/train.log ADDED Viewed

	@@ -0,0 +1,156 @@

+2026-01-21 23:27:01 | INFO | Starting downstream training: 20260121_2327
+2026-01-21 23:27:01 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2327
+2026-01-21 23:27:01 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2327/config.yaml
+2026-01-21 23:27:01 | INFO | Training tasks: ['musicality', 'alignment']
+2026-01-21 23:27:01 | INFO | Dataset mode: sequential
+2026-01-21 23:27:03 | INFO | Loading backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/contrastive/20260121_0043_tune transformer/ckpt/reward_model.0.pt
+2026-01-21 23:27:03 | INFO | Using checkpoint config for model
+2026-01-21 23:27:09 | INFO | Skipping score_projector.3.weight: shape mismatch (ckpt torch.Size([1, 768]) vs model torch.Size([2, 768])), will use randomly initialized weights
+2026-01-21 23:27:09 | INFO | Skipping score_projector.3.bias: shape mismatch (ckpt torch.Size([1]) vs model torch.Size([2])), will use randomly initialized weights
+2026-01-21 23:27:09 | INFO | Missing keys (570): ['score_projector.3.weight', 'score_projector.3.bias', 'text_module.model.shared.weight', 'text_module.model.encoder.embed_tokens.weight', 'text_module.model.encoder.block.0.layer.0.SelfAttention.q.weight']...
+2026-01-21 23:27:09 | WARNING | Missing keys: 59
+2026-01-21 23:27:10 | INFO | Loaded backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/contrastive/20260121_0043_tune transformer/ckpt/reward_model.0.pt
+2026-01-21 23:27:10 | INFO | Added mlp head for task 'musicality'
+2026-01-21 23:27:10 | INFO | Added mlp head for task 'alignment'
+2026-01-21 23:27:10 | INFO | Initializing heads from backbone 'score_projector'
+2026-01-21 23:27:10 | INFO | Initializing 2 heads from 'score_projector'
+2026-01-21 23:27:10 | INFO |   Task 'musicality': type=mlp, ordinal=False
+2026-01-21 23:27:10 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-21 23:27:10 | INFO |   Mapped 3.weight -> 4.weight
+2026-01-21 23:27:10 | INFO |   Mapped 3.bias -> 4.bias
+2026-01-21 23:27:10 | INFO |   Loaded 6 parameters, 0 missing
+2026-01-21 23:27:10 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 23:27:10 | INFO |   Task 'alignment': type=mlp, ordinal=False
+2026-01-21 23:27:10 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-21 23:27:10 | INFO |   Mapped 3.weight -> 4.weight
+2026-01-21 23:27:10 | INFO |   Mapped 3.bias -> 4.bias
+2026-01-21 23:27:10 | INFO |   Loaded 6 parameters, 0 missing
+2026-01-21 23:27:10 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 23:27:10 | INFO | ✓ All heads initialized
+2026-01-21 23:27:10 | INFO | Loading train data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/train_multitask.jsonl
+2026-01-21 23:27:10 | INFO | Loading test data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/test_multitask.jsonl
+2026-01-21 23:27:10 | INFO | Task 'musicality': train=4322, test=913
+2026-01-21 23:27:10 | INFO | Task 'alignment': train=1923, test=913
+2026-01-21 23:27:10 | INFO | [SEQUENTIAL MODE] Training 2 tasks, 5000 steps each
+2026-01-21 23:27:10 | INFO |
+============================================================
+2026-01-21 23:27:10 | INFO | Starting Task 1/2: musicality
+2026-01-21 23:27:10 | INFO | ============================================================
+2026-01-21 23:27:10 | INFO | Task 'musicality' trainable parameters: 592,897
+2026-01-21 23:27:43 | INFO | Starting downstream training: 20260121_2327
+2026-01-21 23:27:43 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2327
+2026-01-21 23:27:43 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2327/config.yaml
+2026-01-21 23:27:43 | INFO | Training tasks: ['musicality', 'alignment']
+2026-01-21 23:27:43 | INFO | Dataset mode: sequential
+2026-01-21 23:27:45 | INFO | Loading backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/contrastive/20260121_0043_tune transformer/ckpt/reward_model.0.pt
+2026-01-21 23:27:45 | INFO | Using checkpoint config for model
+2026-01-21 23:27:51 | INFO | Skipping score_projector.3.weight: shape mismatch (ckpt torch.Size([1, 768]) vs model torch.Size([2, 768])), will use randomly initialized weights
+2026-01-21 23:27:51 | INFO | Skipping score_projector.3.bias: shape mismatch (ckpt torch.Size([1]) vs model torch.Size([2])), will use randomly initialized weights
+2026-01-21 23:27:51 | INFO | Missing keys (570): ['score_projector.3.weight', 'score_projector.3.bias', 'text_module.model.shared.weight', 'text_module.model.encoder.embed_tokens.weight', 'text_module.model.encoder.block.0.layer.0.SelfAttention.q.weight']...
+2026-01-21 23:27:51 | WARNING | Missing keys: 59
+2026-01-21 23:27:52 | INFO | Loaded backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/contrastive/20260121_0043_tune transformer/ckpt/reward_model.0.pt
+2026-01-21 23:27:52 | INFO | Added mlp head for task 'musicality'
+2026-01-21 23:27:52 | INFO | Added mlp head for task 'alignment'
+2026-01-21 23:27:52 | INFO | Initializing heads from backbone 'score_projector'
+2026-01-21 23:27:52 | INFO | Initializing 2 heads from 'score_projector'
+2026-01-21 23:27:52 | INFO |   Task 'musicality': type=mlp, ordinal=False
+2026-01-21 23:27:52 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-21 23:27:52 | INFO |   Mapped 3.weight -> 4.weight
+2026-01-21 23:27:52 | INFO |   Mapped 3.bias -> 4.bias
+2026-01-21 23:27:52 | INFO |   Loaded 6 parameters, 0 missing
+2026-01-21 23:27:52 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 23:27:52 | INFO |   Task 'alignment': type=mlp, ordinal=False
+2026-01-21 23:27:52 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-21 23:27:52 | INFO |   Mapped 3.weight -> 4.weight
+2026-01-21 23:27:52 | INFO |   Mapped 3.bias -> 4.bias
+2026-01-21 23:27:52 | INFO |   Loaded 6 parameters, 0 missing
+2026-01-21 23:27:52 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-21 23:27:52 | INFO | ✓ All heads initialized
+2026-01-21 23:27:52 | INFO | Loading train data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/train_multitask.jsonl
+2026-01-21 23:27:52 | INFO | Loading test data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/test_multitask.jsonl
+2026-01-21 23:27:52 | INFO | Task 'musicality': train=4322, test=913
+2026-01-21 23:27:52 | INFO | Task 'alignment': train=1923, test=913
+2026-01-21 23:27:52 | INFO | [SEQUENTIAL MODE] Training 2 tasks, 5000 steps each
+2026-01-21 23:27:52 | INFO |
+============================================================
+2026-01-21 23:27:52 | INFO | Starting Task 1/2: musicality
+2026-01-21 23:27:52 | INFO | ============================================================
+2026-01-21 23:27:52 | INFO | Task 'musicality' trainable parameters: 592,897
+2026-01-21 23:28:46 | INFO | [Task musicality][Step 200/5000] loss=0.7480 | mse=1.1321
+2026-01-21 23:29:34 | INFO | [Task musicality][Step 400/5000] loss=0.5146 | mse=0.4447
+2026-01-21 23:30:28 | INFO | [Task musicality][Step 600/5000] loss=0.4973 | mse=0.4153
+2026-01-21 23:31:20 | INFO | [Task musicality][Step 800/5000] loss=0.4934 | mse=0.4153
+2026-01-21 23:32:17 | INFO | [Task musicality][Step 1000/5000] loss=0.4766 | mse=0.3859
+2026-01-21 23:32:22 | INFO | [Val] musicality: loss=1.5986 | mse=3.2512
+2026-01-21 23:33:12 | INFO | [Task musicality][Step 1200/5000] loss=0.4538 | mse=0.3574
+2026-01-21 23:34:00 | INFO | [Task musicality][Step 1400/5000] loss=0.4543 | mse=0.3581
+2026-01-21 23:34:54 | INFO | [Task musicality][Step 1600/5000] loss=0.4426 | mse=0.3487
+2026-01-21 23:35:45 | INFO | [Task musicality][Step 1800/5000] loss=0.4348 | mse=0.3336
+2026-01-21 23:36:40 | INFO | [Task musicality][Step 2000/5000] loss=0.4232 | mse=0.3218
+2026-01-21 23:36:43 | INFO | [Val] musicality: loss=1.0229 | mse=1.7325
+2026-01-21 23:37:32 | INFO | [Task musicality][Step 2200/5000] loss=0.4281 | mse=0.3258
+2026-01-21 23:38:22 | INFO | [Task musicality][Step 2400/5000] loss=0.4129 | mse=0.3094
+2026-01-21 23:39:13 | INFO | [Task musicality][Step 2600/5000] loss=0.4015 | mse=0.2967
+2026-01-21 23:40:04 | INFO | [Task musicality][Step 2800/5000] loss=0.3916 | mse=0.2818
+2026-01-21 23:40:52 | INFO | [Task musicality][Step 3000/5000] loss=0.3814 | mse=0.2732
+2026-01-21 23:40:55 | INFO | [Val] musicality: loss=0.7424 | mse=0.9581
+2026-01-21 23:41:42 | INFO | [Task musicality][Step 3200/5000] loss=0.3737 | mse=0.2659
+2026-01-21 23:42:30 | INFO | [Task musicality][Step 3400/5000] loss=0.3633 | mse=0.2544
+2026-01-21 23:43:27 | INFO | [Task musicality][Step 3600/5000] loss=0.3555 | mse=0.2459
+2026-01-21 23:44:19 | INFO | [Task musicality][Step 3800/5000] loss=0.3470 | mse=0.2390
+2026-01-21 23:45:12 | INFO | [Task musicality][Step 4000/5000] loss=0.3362 | mse=0.2276
+2026-01-21 23:45:14 | INFO | [Val] musicality: loss=0.7599 | mse=0.9227
+2026-01-21 23:46:09 | INFO | [Task musicality][Step 4200/5000] loss=0.3332 | mse=0.2259
+2026-01-21 23:47:02 | INFO | [Task musicality][Step 4400/5000] loss=0.3287 | mse=0.2197
+2026-01-21 23:48:00 | INFO | [Task musicality][Step 4600/5000] loss=0.3225 | mse=0.2162
+2026-01-21 23:48:52 | INFO | [Task musicality][Step 4800/5000] loss=0.3192 | mse=0.2123
+2026-01-21 23:50:06 | INFO | [Task musicality][Step 5000/5000] loss=0.3236 | mse=0.2188
+2026-01-21 23:50:09 | INFO | [Val] musicality: loss=0.7602 | mse=0.9111
+2026-01-21 23:50:09 | INFO | Task 'musicality' complete. Running validation...
+2026-01-21 23:50:12 | INFO | [Final Val for musicality] loss=0.7602 | mse=0.9111
+2026-01-21 23:50:12 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2327/ckpt/task_musicality_final.pt
+2026-01-21 23:50:12 | INFO |
+============================================================
+2026-01-21 23:50:12 | INFO | Starting Task 2/2: alignment
+2026-01-21 23:50:12 | INFO | ============================================================
+2026-01-21 23:50:12 | INFO | Task 'alignment' trainable parameters: 592,897
+2026-01-21 23:50:31 | INFO | [Task alignment][Step 200/5000] loss=0.7793 | mse=1.1387
+2026-01-21 23:50:47 | INFO | [Task alignment][Step 400/5000] loss=0.5957 | mse=0.5738
+2026-01-21 23:51:07 | INFO | [Task alignment][Step 600/5000] loss=0.5749 | mse=0.5411
+2026-01-21 23:51:25 | INFO | [Task alignment][Step 800/5000] loss=0.5583 | mse=0.5129
+2026-01-21 23:51:42 | INFO | [Task alignment][Step 1000/5000] loss=0.5405 | mse=0.4850
+2026-01-21 23:51:45 | INFO | [Val] alignment: loss=2.3135 | mse=6.4499
+2026-01-21 23:52:05 | INFO | [Task alignment][Step 1200/5000] loss=0.5375 | mse=0.4818
+2026-01-21 23:52:23 | INFO | [Task alignment][Step 1400/5000] loss=0.5087 | mse=0.4395
+2026-01-21 23:52:40 | INFO | [Task alignment][Step 1600/5000] loss=0.4874 | mse=0.4093
+2026-01-21 23:53:04 | INFO | [Task alignment][Step 1800/5000] loss=0.4706 | mse=0.3846
+2026-01-21 23:53:26 | INFO | [Task alignment][Step 2000/5000] loss=0.4602 | mse=0.3714
+2026-01-21 23:53:29 | INFO | [Val] alignment: loss=1.9561 | mse=5.3080
+2026-01-21 23:53:51 | INFO | [Task alignment][Step 2200/5000] loss=0.4380 | mse=0.3463
+2026-01-21 23:54:11 | INFO | [Task alignment][Step 2400/5000] loss=0.4152 | mse=0.3179
+2026-01-21 23:54:27 | INFO | [Task alignment][Step 2600/5000] loss=0.3968 | mse=0.2991
+2026-01-21 23:54:47 | INFO | [Task alignment][Step 2800/5000] loss=0.3833 | mse=0.2826
+2026-01-21 23:55:06 | INFO | [Task alignment][Step 3000/5000] loss=0.3697 | mse=0.2693
+2026-01-21 23:55:08 | INFO | [Val] alignment: loss=1.5442 | mse=3.9591
+2026-01-21 23:55:24 | INFO | [Task alignment][Step 3200/5000] loss=0.3551 | mse=0.2510
+2026-01-21 23:55:46 | INFO | [Task alignment][Step 3400/5000] loss=0.3389 | mse=0.2355
+2026-01-21 23:56:02 | INFO | [Task alignment][Step 3600/5000] loss=0.3294 | mse=0.2257
+2026-01-21 23:56:22 | INFO | [Task alignment][Step 3800/5000] loss=0.3186 | mse=0.2177
+2026-01-21 23:56:44 | INFO | [Task alignment][Step 4000/5000] loss=0.3100 | mse=0.2095
+2026-01-21 23:56:47 | INFO | [Val] alignment: loss=1.2328 | mse=2.7735
+2026-01-21 23:57:03 | INFO | [Task alignment][Step 4200/5000] loss=0.2984 | mse=0.1996
+2026-01-21 23:57:19 | INFO | [Task alignment][Step 4400/5000] loss=0.2988 | mse=0.1998
+2026-01-21 23:57:38 | INFO | [Task alignment][Step 4600/5000] loss=0.2932 | mse=0.1953
+2026-01-21 23:57:55 | INFO | [Task alignment][Step 4800/5000] loss=0.2916 | mse=0.1949
+2026-01-21 23:58:12 | INFO | [Task alignment][Step 5000/5000] loss=0.2898 | mse=0.1938
+2026-01-21 23:58:15 | INFO | [Val] alignment: loss=1.2016 | mse=2.6704
+2026-01-21 23:58:15 | INFO | Task 'alignment' complete. Running validation...
+2026-01-21 23:58:18 | INFO | [Final Val for alignment] loss=1.2016 | mse=2.6704
+2026-01-21 23:58:18 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2327/ckpt/task_alignment_final.pt
+2026-01-21 23:58:18 | INFO |
+============================================================
+2026-01-21 23:58:18 | INFO | All tasks complete. Running final validation for all tasks...
+2026-01-21 23:58:22 | INFO | [Final Val] musicality: loss=0.7602 | mse=0.9111
+2026-01-21 23:58:25 | INFO | [Final Val] alignment: loss=1.2016 | mse=2.6704
+2026-01-21 23:58:25 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2327/ckpt/downstream_final.pt
+2026-01-21 23:58:25 | INFO | Done! Checkpoint saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260121_2327/ckpt/downstream_final.pt

downstream/20260123_0028/downstream_config.yaml ADDED Viewed

	@@ -0,0 +1,54 @@

+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+basics:
+  random_seed: 42
+  save_dir: ${project_root}/experiments/downstream
+run_name: null
+tasks:
+- musicality
+backbone:
+  checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/contrastive/20260121_0056_tune_t5_transformer/ckpt/reward_model.best_49205.pt
+  freeze: true
+  from_ema: false
+dataset:
+  train_file: ${project_root}/train_multitask.jsonl
+  test_file: ${project_root}/test_multitask.jsonl
+heads:
+  hidden_dim: 768
+  init_from: score_projector
+  musicality:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  alignment:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  preference:
+    use_mlp: true
+    dropout: 0.1
+train:
+  num_epochs: 10
+  num_train_steps: 2000
+  batch_size: 48
+  learning_rate: 0.001
+  weight_decay: 0.01
+  max_grad_norm: 1.0
+  warmup_steps: 100
+  schedule_type: cosine
+  min_lr_ratio: 0.01
+  dataset_mode: sequential
+  steps_per_task: 5000
+  log_interval: 200
+  val_interval: 1000
+  save_interval: 1000
+  num_workers: 8
+  resume: null
+device: cuda:4

downstream/20260123_0028/train.log ADDED Viewed

	@@ -0,0 +1,71 @@

+2026-01-23 00:28:23 | INFO | Starting downstream training: 20260123_0028
+2026-01-23 00:28:23 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260123_0028
+2026-01-23 00:28:23 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260123_0028/downstream_config.yaml
+2026-01-23 00:28:23 | INFO | Training tasks: ['musicality']
+2026-01-23 00:28:23 | INFO | Dataset mode: sequential
+2026-01-23 00:28:26 | INFO | Loading backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/contrastive/20260121_0056_tune_t5_transformer/ckpt/reward_model.best_49205.pt
+2026-01-23 00:28:27 | INFO | Using checkpoint config for model
+2026-01-23 00:28:33 | INFO | Skipping score_projector.3.weight: shape mismatch (ckpt torch.Size([1, 768]) vs model torch.Size([2, 768])), will use randomly initialized weights
+2026-01-23 00:28:33 | INFO | Skipping score_projector.3.bias: shape mismatch (ckpt torch.Size([1]) vs model torch.Size([2])), will use randomly initialized weights
+2026-01-23 00:28:33 | INFO | Missing keys (570): ['score_projector.3.weight', 'score_projector.3.bias', 'text_module.model.shared.weight', 'text_module.model.encoder.embed_tokens.weight', 'text_module.model.encoder.block.0.layer.0.SelfAttention.q.weight']...
+2026-01-23 00:28:33 | WARNING | Missing keys: 59
+2026-01-23 00:28:33 | INFO | Loaded backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/contrastive/20260121_0056_tune_t5_transformer/ckpt/reward_model.best_49205.pt
+2026-01-23 00:28:33 | INFO | Created DownstreamTaskModel (backbone frozen)
+2026-01-23 00:28:33 | INFO | Added mlp head for task 'musicality'
+2026-01-23 00:28:33 | INFO | Initializing heads from backbone 'score_projector'
+2026-01-23 00:28:33 | INFO | Initializing 1 heads from 'score_projector'
+2026-01-23 00:28:33 | INFO |   Task 'musicality': type=mlp, ordinal=False
+2026-01-23 00:28:33 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-23 00:28:33 | INFO |   Mapped 3.weight -> 4.weight
+2026-01-23 00:28:33 | INFO |   Mapped 3.bias -> 4.bias
+2026-01-23 00:28:33 | INFO |   Loaded 6 parameters, 0 missing
+2026-01-23 00:28:33 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-23 00:28:33 | INFO | ✓ All heads initialized
+2026-01-23 00:28:33 | INFO | Loading train data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/train_multitask.jsonl
+2026-01-23 00:28:33 | INFO | Loading test data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/test_multitask.jsonl
+2026-01-23 00:28:33 | INFO | Task 'musicality': train=4322, test=913
+2026-01-23 00:28:33 | INFO | [SEQUENTIAL MODE] Training 1 tasks, 5000 steps each
+2026-01-23 00:28:33 | INFO |
+============================================================
+2026-01-23 00:28:33 | INFO | Starting Task 1/1: musicality
+2026-01-23 00:28:33 | INFO | ============================================================
+2026-01-23 00:28:33 | INFO | Task 'musicality' trainable parameters: 592,897
+2026-01-23 00:29:35 | INFO | [Task musicality][Step 200/5000] loss=0.7903 | mse=1.1744
+2026-01-23 00:30:26 | INFO | [Task musicality][Step 400/5000] loss=0.5796 | mse=0.5450
+2026-01-23 00:31:22 | INFO | [Task musicality][Step 600/5000] loss=0.5725 | mse=0.5392
+2026-01-23 00:32:25 | INFO | [Task musicality][Step 800/5000] loss=0.5767 | mse=0.5413
+2026-01-23 00:33:21 | INFO | [Task musicality][Step 1000/5000] loss=0.5483 | mse=0.4924
+2026-01-23 00:33:25 | INFO | [Val] musicality: loss=2.1414 | mse=5.9358
+2026-01-23 00:34:22 | INFO | [Task musicality][Step 1200/5000] loss=0.5340 | mse=0.4705
+2026-01-23 00:35:20 | INFO | [Task musicality][Step 1400/5000] loss=0.5328 | mse=0.4756
+2026-01-23 00:36:11 | INFO | [Task musicality][Step 1600/5000] loss=0.5312 | mse=0.4669
+2026-01-23 00:37:02 | INFO | [Task musicality][Step 1800/5000] loss=0.5304 | mse=0.4696
+2026-01-23 00:38:00 | INFO | [Task musicality][Step 2000/5000] loss=0.5116 | mse=0.4377
+2026-01-23 00:38:03 | INFO | [Val] musicality: loss=2.0244 | mse=5.7591
+2026-01-23 00:38:55 | INFO | [Task musicality][Step 2200/5000] loss=0.5056 | mse=0.4309
+2026-01-23 00:39:47 | INFO | [Task musicality][Step 2400/5000] loss=0.5109 | mse=0.4386
+2026-01-23 00:40:44 | INFO | [Task musicality][Step 2600/5000] loss=0.4995 | mse=0.4218
+2026-01-23 00:41:39 | INFO | [Task musicality][Step 2800/5000] loss=0.4991 | mse=0.4187
+2026-01-23 00:42:29 | INFO | [Task musicality][Step 3000/5000] loss=0.4946 | mse=0.4163
+2026-01-23 00:42:32 | INFO | [Val] musicality: loss=1.9526 | mse=5.2377
+2026-01-23 00:43:24 | INFO | [Task musicality][Step 3200/5000] loss=0.4876 | mse=0.4065
+2026-01-23 00:44:17 | INFO | [Task musicality][Step 3400/5000] loss=0.4854 | mse=0.4062
+2026-01-23 00:45:09 | INFO | [Task musicality][Step 3600/5000] loss=0.4806 | mse=0.3975
+2026-01-23 00:46:05 | INFO | [Task musicality][Step 3800/5000] loss=0.4834 | mse=0.3997
+2026-01-23 00:47:00 | INFO | [Task musicality][Step 4000/5000] loss=0.4770 | mse=0.3938
+2026-01-23 00:47:03 | INFO | [Val] musicality: loss=1.7301 | mse=4.4097
+2026-01-23 00:47:54 | INFO | [Task musicality][Step 4200/5000] loss=0.4680 | mse=0.3779
+2026-01-23 00:48:53 | INFO | [Task musicality][Step 4400/5000] loss=0.4696 | mse=0.3838
+2026-01-23 00:49:55 | INFO | [Task musicality][Step 4600/5000] loss=0.4686 | mse=0.3824
+2026-01-23 00:50:48 | INFO | [Task musicality][Step 4800/5000] loss=0.4648 | mse=0.3765
+2026-01-23 00:51:41 | INFO | [Task musicality][Step 5000/5000] loss=0.4687 | mse=0.3847
+2026-01-23 00:51:44 | INFO | [Val] musicality: loss=1.7043 | mse=4.3205
+2026-01-23 00:51:44 | INFO | Task 'musicality' complete. Running validation...
+2026-01-23 00:51:48 | INFO | [Final Val for musicality] loss=1.7043 | mse=4.3205
+2026-01-23 00:51:48 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260123_0028/ckpt/task_musicality_final.pt
+2026-01-23 00:51:48 | INFO |
+============================================================
+2026-01-23 00:51:48 | INFO | All tasks complete. Running final validation for all tasks...
+2026-01-23 00:51:51 | INFO | [Final Val] musicality: loss=1.7043 | mse=4.3205
+2026-01-23 00:51:51 | INFO | Saved checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260123_0028/ckpt/downstream_final.pt
+2026-01-23 00:51:51 | INFO | Done! Checkpoint saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream/20260123_0028/ckpt/downstream_final.pt

downstream_mixed/20260122_1200/config.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+basics:
+  random_seed: 42
+  save_dir: ${project_root}/experiments/downstream_mixed
+run_name: null
+tasks:
+- musicality
+- alignment
+- preference
+backbone:
+  checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+  freeze: false
+  freeze_encoder_only: true
+  from_ema: false
+dataset:
+  train_file: ${project_root}/train_multitask.jsonl
+  test_file: ${project_root}/test_multitask.jsonl
+heads:
+  hidden_dim: 768
+  init_from: score_projector
+  musicality:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  alignment:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  preference:
+    use_mlp: true
+    dropout: 0.1
+train:
+  dataset_mode: mixed
+  num_train_steps: 5000
+  batch_size: 32
+  learning_rate: 0.0001
+  backbone_learning_rate: 1.0e-05
+  weight_decay: 0.01
+  max_grad_norm: 1.0
+  warmup_steps: 200
+  schedule_type: cosine
+  min_lr_ratio: 0.01
+  log_interval: 100
+  val_interval: 500
+  save_interval: 1000
+  num_workers: 8
+  resume: null
+device: cuda:1

downstream_mixed/20260122_1200/train.log ADDED Viewed

	@@ -0,0 +1,152 @@

+2026-01-22 12:00:33 | INFO | Starting downstream training: 20260122_1200
+2026-01-22 12:00:33 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1200
+2026-01-22 12:00:33 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1200/config.yaml
+2026-01-22 12:00:33 | INFO | Training tasks: ['musicality', 'alignment', 'preference']
+2026-01-22 12:00:33 | INFO | Dataset mode: mixed
+2026-01-22 12:00:36 | INFO | Loading backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-22 12:00:36 | INFO | Using checkpoint config for model
+2026-01-22 12:00:43 | INFO | Missing keys (794): ['alignment_head.0.weight', 'alignment_head.0.bias', 'alignment_head.1.weight', 'alignment_head.1.bias', 'alignment_head.3.weight']...
+2026-01-22 12:00:43 | WARNING | Missing keys: 283
+2026-01-22 12:00:44 | INFO | Loaded backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-22 12:00:44 | INFO | Created MixedDownstreamTaskModel (freeze_encoder_only=True)
+2026-01-22 12:00:44 | INFO | Added mlp head for task 'musicality'
+2026-01-22 12:00:44 | INFO | Added mlp head for task 'alignment'
+2026-01-22 12:00:44 | INFO | Added mlp head for task 'preference'
+2026-01-22 12:00:44 | INFO | Initializing heads from backbone 'score_projector'
+2026-01-22 12:00:44 | INFO | Initializing 3 heads from 'score_projector'
+2026-01-22 12:00:44 | INFO |   Task 'musicality': type=mlp, ordinal=False
+2026-01-22 12:00:44 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-22 12:00:44 | INFO |   Slicing 3.weight -> 4.weight: torch.Size([2, 768]) -> torch.Size([1, 768])
+2026-01-22 12:00:44 | INFO |   Loaded 6 parameters, 0 missing
+2026-01-22 12:00:44 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-22 12:00:44 | INFO |   Task 'alignment': type=mlp, ordinal=False
+2026-01-22 12:00:44 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-22 12:00:44 | INFO |   Slicing 3.weight -> 4.weight: torch.Size([2, 768]) -> torch.Size([1, 768])
+2026-01-22 12:00:44 | INFO |   Loaded 6 parameters, 0 missing
+2026-01-22 12:00:44 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-22 12:00:44 | INFO |   Task 'preference': type=mlp, ordinal=False
+2026-01-22 12:00:44 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-22 12:00:44 | INFO |   Slicing 3.weight -> 4.weight: torch.Size([2, 768]) -> torch.Size([1, 768])
+2026-01-22 12:00:44 | INFO |   Loaded 6 parameters, 0 missing
+2026-01-22 12:00:44 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-22 12:00:44 | INFO | ✓ All heads initialized
+2026-01-22 12:00:44 | INFO | Loading train data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/train_multitask.jsonl
+2026-01-22 12:00:44 | INFO | Loading test data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/test_multitask.jsonl
+2026-01-22 12:00:44 | INFO | Task 'musicality': train=4322, test=913
+2026-01-22 12:00:44 | INFO | Task 'alignment': train=1923, test=913
+2026-01-22 12:00:44 | INFO | Task 'preference': train=1065, test=275
+2026-01-22 12:00:44 | INFO | Backbone trainable parameters: 21,279,237 (lr=1e-05)
+2026-01-22 12:00:44 | INFO | Head parameters: 1,778,691 (lr=0.0001)
+2026-01-22 12:00:44 | INFO | Total trainable parameters: 23,057,928
+2026-01-22 12:00:44 | INFO | [MIXED MODE] Starting training for 5000 steps
+2026-01-22 12:00:44 | INFO |   Backbone LR: 1e-05, Head LR: 0.0001
+2026-01-22 12:03:00 | INFO | [Step 100] musicality/loss=4.0637 | musicality/mse=26.2373 | alignment/loss=3.0336 | alignment/mse=14.6745 | preference/loss=1.5111 | preference/accuracy=0.5675 | lr_backbone=5.05e-06 | lr_heads=5.05e-05
+2026-01-22 12:04:58 | INFO | [Step 200] musicality/loss=1.0183 | musicality/mse=1.7072 | alignment/loss=0.9960 | alignment/mse=1.6934 | preference/loss=0.6578 | preference/accuracy=0.6678 | lr_backbone=1.00e-05 | lr_heads=1.00e-04
+2026-01-22 12:06:51 | INFO | [Step 300] musicality/loss=0.6885 | musicality/mse=0.7626 | alignment/loss=0.6725 | alignment/mse=0.7337 | preference/loss=0.5054 | preference/accuracy=0.7491 | lr_backbone=9.99e-06 | lr_heads=9.99e-05
+2026-01-22 12:08:47 | INFO | [Step 400] musicality/loss=0.6275 | musicality/mse=0.6383 | alignment/loss=0.6024 | alignment/mse=0.5992 | preference/loss=0.4471 | preference/accuracy=0.7819 | lr_backbone=9.96e-06 | lr_heads=9.96e-05
+2026-01-22 12:10:39 | INFO | [Step 500] musicality/loss=0.5644 | musicality/mse=0.5226 | alignment/loss=0.5718 | alignment/mse=0.5490 | preference/loss=0.4029 | preference/accuracy=0.8100 | lr_backbone=9.90e-06 | lr_heads=9.90e-05
+2026-01-22 12:10:39 | INFO | [Step 500] Running validation...
+2026-01-22 12:10:44 | INFO | [Val] musicality: loss=0.6608 | mse=0.6632
+2026-01-22 12:10:49 | INFO | [Val] alignment: loss=0.6571 | mse=0.7059
+2026-01-22 12:10:59 | INFO | [Val] preference: loss=0.5869 | accuracy=0.7231
+2026-01-22 12:10:59 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1200/ckpt/mixed_best.pt (81.2MB, 58 params)
+2026-01-22 12:10:59 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1200/ckpt/mixed_best_full.pt (161.6MB, 3 heads)
+2026-01-22 12:10:59 | INFO | New best model saved (val_loss=0.6349)
+2026-01-22 12:13:03 | INFO | [Step 600] musicality/loss=0.5445 | musicality/mse=0.4930 | alignment/loss=0.5371 | alignment/mse=0.4832 | preference/loss=0.3639 | preference/accuracy=0.8369 | lr_backbone=9.83e-06 | lr_heads=9.83e-05
+2026-01-22 12:15:04 | INFO | [Step 700] musicality/loss=0.5212 | musicality/mse=0.4580 | alignment/loss=0.5114 | alignment/mse=0.4531 | preference/loss=0.3288 | preference/accuracy=0.8612 | lr_backbone=9.73e-06 | lr_heads=9.73e-05
+2026-01-22 12:17:04 | INFO | [Step 800] musicality/loss=0.5041 | musicality/mse=0.4401 | alignment/loss=0.4980 | alignment/mse=0.4283 | preference/loss=0.3097 | preference/accuracy=0.8694 | lr_backbone=9.62e-06 | lr_heads=9.62e-05
+2026-01-22 12:19:00 | INFO | [Step 900] musicality/loss=0.4869 | musicality/mse=0.4069 | alignment/loss=0.4819 | alignment/mse=0.4107 | preference/loss=0.2636 | preference/accuracy=0.8972 | lr_backbone=9.48e-06 | lr_heads=9.48e-05
+2026-01-22 12:20:56 | INFO | [Step 1000] musicality/loss=0.4772 | musicality/mse=0.3909 | alignment/loss=0.4657 | alignment/mse=0.3832 | preference/loss=0.2406 | preference/accuracy=0.9075 | lr_backbone=9.33e-06 | lr_heads=9.33e-05
+2026-01-22 12:20:56 | INFO | [Step 1000] Running validation...
+2026-01-22 12:21:01 | INFO | [Val] musicality: loss=0.6333 | mse=0.6206
+2026-01-22 12:21:09 | INFO | [Val] alignment: loss=0.6804 | mse=0.7634
+2026-01-22 12:21:18 | INFO | [Val] preference: loss=0.6525 | accuracy=0.7290
+2026-01-22 12:21:18 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1200/ckpt/mixed_step_1000.pt (81.2MB, 58 params)
+2026-01-22 12:21:18 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1200/ckpt/mixed_step_1000_full.pt (161.6MB, 3 heads)
+2026-01-22 12:23:17 | INFO | [Step 1100] musicality/loss=0.4655 | musicality/mse=0.3807 | alignment/loss=0.4512 | alignment/mse=0.3668 | preference/loss=0.2191 | preference/accuracy=0.9225 | lr_backbone=9.16e-06 | lr_heads=9.16e-05
+2026-01-22 12:25:13 | INFO | [Step 1200] musicality/loss=0.4532 | musicality/mse=0.3656 | alignment/loss=0.4378 | alignment/mse=0.3502 | preference/loss=0.1958 | preference/accuracy=0.9363 | lr_backbone=8.97e-06 | lr_heads=8.97e-05
+2026-01-22 12:27:18 | INFO | [Step 1300] musicality/loss=0.4398 | musicality/mse=0.3375 | alignment/loss=0.4246 | alignment/mse=0.3317 | preference/loss=0.1737 | preference/accuracy=0.9472 | lr_backbone=8.76e-06 | lr_heads=8.76e-05
+2026-01-22 12:29:21 | INFO | [Step 1400] musicality/loss=0.4341 | musicality/mse=0.3397 | alignment/loss=0.4080 | alignment/mse=0.3086 | preference/loss=0.1520 | preference/accuracy=0.9534 | lr_backbone=8.54e-06 | lr_heads=8.54e-05
+2026-01-22 12:31:24 | INFO | [Step 1500] musicality/loss=0.4334 | musicality/mse=0.3378 | alignment/loss=0.4012 | alignment/mse=0.2984 | preference/loss=0.1414 | preference/accuracy=0.9547 | lr_backbone=8.30e-06 | lr_heads=8.30e-05
+2026-01-22 12:31:24 | INFO | [Step 1500] Running validation...
+2026-01-22 12:31:28 | INFO | [Val] musicality: loss=0.6763 | mse=0.7138
+2026-01-22 12:31:33 | INFO | [Val] alignment: loss=0.7246 | mse=0.8572
+2026-01-22 12:31:40 | INFO | [Val] preference: loss=0.8507 | accuracy=0.7173
+2026-01-22 12:33:37 | INFO | [Step 1600] musicality/loss=0.4255 | musicality/mse=0.3209 | alignment/loss=0.3842 | alignment/mse=0.2749 | preference/loss=0.1293 | preference/accuracy=0.9566 | lr_backbone=8.04e-06 | lr_heads=8.04e-05
+2026-01-22 12:35:41 | INFO | [Step 1700] musicality/loss=0.4066 | musicality/mse=0.3057 | alignment/loss=0.3841 | alignment/mse=0.2792 | preference/loss=0.1069 | preference/accuracy=0.9703 | lr_backbone=7.78e-06 | lr_heads=7.78e-05
+2026-01-22 12:37:40 | INFO | [Step 1800] musicality/loss=0.4080 | musicality/mse=0.3009 | alignment/loss=0.3715 | alignment/mse=0.2686 | preference/loss=0.1050 | preference/accuracy=0.9722 | lr_backbone=7.50e-06 | lr_heads=7.50e-05
+2026-01-22 12:39:42 | INFO | [Step 1900] musicality/loss=0.3994 | musicality/mse=0.2916 | alignment/loss=0.3563 | alignment/mse=0.2474 | preference/loss=0.0925 | preference/accuracy=0.9759 | lr_backbone=7.21e-06 | lr_heads=7.21e-05
+2026-01-22 12:41:44 | INFO | [Step 2000] musicality/loss=0.3932 | musicality/mse=0.2833 | alignment/loss=0.3522 | alignment/mse=0.2453 | preference/loss=0.0871 | preference/accuracy=0.9759 | lr_backbone=6.91e-06 | lr_heads=6.91e-05
+2026-01-22 12:41:44 | INFO | [Step 2000] Running validation...
+2026-01-22 12:41:48 | INFO | [Val] musicality: loss=0.6617 | mse=0.6857
+2026-01-22 12:41:52 | INFO | [Val] alignment: loss=0.7773 | mse=0.9801
+2026-01-22 12:41:59 | INFO | [Val] preference: loss=1.0762 | accuracy=0.6999
+2026-01-22 12:42:00 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1200/ckpt/mixed_step_2000.pt (81.2MB, 58 params)
+2026-01-22 12:42:00 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1200/ckpt/mixed_step_2000_full.pt (161.6MB, 3 heads)
+2026-01-22 12:43:55 | INFO | [Step 2100] musicality/loss=0.3933 | musicality/mse=0.2810 | alignment/loss=0.3404 | alignment/mse=0.2300 | preference/loss=0.0796 | preference/accuracy=0.9797 | lr_backbone=6.61e-06 | lr_heads=6.61e-05
+2026-01-22 12:45:52 | INFO | [Step 2200] musicality/loss=0.3666 | musicality/mse=0.2535 | alignment/loss=0.3335 | alignment/mse=0.2198 | preference/loss=0.0720 | preference/accuracy=0.9822 | lr_backbone=6.29e-06 | lr_heads=6.29e-05
+2026-01-22 12:47:46 | INFO | [Step 2300] musicality/loss=0.3828 | musicality/mse=0.2731 | alignment/loss=0.3260 | alignment/mse=0.2147 | preference/loss=0.0662 | preference/accuracy=0.9856 | lr_backbone=5.98e-06 | lr_heads=5.98e-05
+2026-01-22 12:49:37 | INFO | [Step 2400] musicality/loss=0.3704 | musicality/mse=0.2589 | alignment/loss=0.3215 | alignment/mse=0.2067 | preference/loss=0.0641 | preference/accuracy=0.9831 | lr_backbone=5.65e-06 | lr_heads=5.65e-05
+2026-01-22 12:51:41 | INFO | [Step 2500] musicality/loss=0.3680 | musicality/mse=0.2558 | alignment/loss=0.3119 | alignment/mse=0.1950 | preference/loss=0.0548 | preference/accuracy=0.9866 | lr_backbone=5.33e-06 | lr_heads=5.33e-05
+2026-01-22 12:51:41 | INFO | [Step 2500] Running validation...
+2026-01-22 12:51:45 | INFO | [Val] musicality: loss=0.6730 | mse=0.7145
+2026-01-22 12:51:49 | INFO | [Val] alignment: loss=0.7797 | mse=0.9899
+2026-01-22 12:51:56 | INFO | [Val] preference: loss=1.1633 | accuracy=0.7127
+2026-01-22 12:53:51 | INFO | [Step 2600] musicality/loss=0.3629 | musicality/mse=0.2462 | alignment/loss=0.3097 | alignment/mse=0.1931 | preference/loss=0.0521 | preference/accuracy=0.9884 | lr_backbone=5.00e-06 | lr_heads=5.00e-05
+2026-01-22 12:55:42 | INFO | [Step 2700] musicality/loss=0.3622 | musicality/mse=0.2491 | alignment/loss=0.2991 | alignment/mse=0.1803 | preference/loss=0.0474 | preference/accuracy=0.9900 | lr_backbone=4.67e-06 | lr_heads=4.67e-05
+2026-01-22 12:57:46 | INFO | [Step 2800] musicality/loss=0.3593 | musicality/mse=0.2445 | alignment/loss=0.2913 | alignment/mse=0.1758 | preference/loss=0.0468 | preference/accuracy=0.9919 | lr_backbone=4.35e-06 | lr_heads=4.35e-05
+2026-01-22 12:59:53 | INFO | [Step 2900] musicality/loss=0.3444 | musicality/mse=0.2250 | alignment/loss=0.3002 | alignment/mse=0.1828 | preference/loss=0.0455 | preference/accuracy=0.9903 | lr_backbone=4.02e-06 | lr_heads=4.02e-05
+2026-01-22 13:01:55 | INFO | [Step 3000] musicality/loss=0.3463 | musicality/mse=0.2247 | alignment/loss=0.2832 | alignment/mse=0.1671 | preference/loss=0.0444 | preference/accuracy=0.9903 | lr_backbone=3.71e-06 | lr_heads=3.71e-05
+2026-01-22 13:01:55 | INFO | [Step 3000] Running validation...
+2026-01-22 13:01:58 | INFO | [Val] musicality: loss=0.6822 | mse=0.7429
+2026-01-22 13:02:02 | INFO | [Val] alignment: loss=0.8000 | mse=1.0463
+2026-01-22 13:02:09 | INFO | [Val] preference: loss=1.2784 | accuracy=0.7058
+2026-01-22 13:02:09 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1200/ckpt/mixed_step_3000.pt (81.2MB, 58 params)
+2026-01-22 13:02:09 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1200/ckpt/mixed_step_3000_full.pt (161.6MB, 3 heads)
+2026-01-22 13:04:19 | INFO | [Step 3100] musicality/loss=0.3449 | musicality/mse=0.2249 | alignment/loss=0.2821 | alignment/mse=0.1644 | preference/loss=0.0420 | preference/accuracy=0.9912 | lr_backbone=3.39e-06 | lr_heads=3.39e-05
+2026-01-22 13:06:23 | INFO | [Step 3200] musicality/loss=0.3391 | musicality/mse=0.2169 | alignment/loss=0.2769 | alignment/mse=0.1577 | preference/loss=0.0362 | preference/accuracy=0.9916 | lr_backbone=3.09e-06 | lr_heads=3.09e-05
+2026-01-22 13:08:21 | INFO | [Step 3300] musicality/loss=0.3372 | musicality/mse=0.2252 | alignment/loss=0.2789 | alignment/mse=0.1595 | preference/loss=0.0374 | preference/accuracy=0.9928 | lr_backbone=2.79e-06 | lr_heads=2.79e-05
+2026-01-22 13:10:26 | INFO | [Step 3400] musicality/loss=0.3323 | musicality/mse=0.2121 | alignment/loss=0.2744 | alignment/mse=0.1610 | preference/loss=0.0376 | preference/accuracy=0.9897 | lr_backbone=2.50e-06 | lr_heads=2.50e-05
+2026-01-22 13:12:22 | INFO | [Step 3500] musicality/loss=0.3326 | musicality/mse=0.2191 | alignment/loss=0.2689 | alignment/mse=0.1545 | preference/loss=0.0375 | preference/accuracy=0.9922 | lr_backbone=2.22e-06 | lr_heads=2.22e-05
+2026-01-22 13:12:22 | INFO | [Step 3500] Running validation...
+2026-01-22 13:12:26 | INFO | [Val] musicality: loss=0.7052 | mse=0.7941
+2026-01-22 13:12:31 | INFO | [Val] alignment: loss=0.7979 | mse=1.0505
+2026-01-22 13:12:38 | INFO | [Val] preference: loss=1.3824 | accuracy=0.6871
+2026-01-22 13:14:37 | INFO | [Step 3600] musicality/loss=0.3297 | musicality/mse=0.2113 | alignment/loss=0.2602 | alignment/mse=0.1440 | preference/loss=0.0351 | preference/accuracy=0.9928 | lr_backbone=1.96e-06 | lr_heads=1.96e-05
+2026-01-22 13:16:45 | INFO | [Step 3700] musicality/loss=0.3212 | musicality/mse=0.2035 | alignment/loss=0.2628 | alignment/mse=0.1474 | preference/loss=0.0336 | preference/accuracy=0.9928 | lr_backbone=1.70e-06 | lr_heads=1.70e-05
+2026-01-22 13:18:51 | INFO | [Step 3800] musicality/loss=0.3207 | musicality/mse=0.1961 | alignment/loss=0.2625 | alignment/mse=0.1466 | preference/loss=0.0336 | preference/accuracy=0.9941 | lr_backbone=1.46e-06 | lr_heads=1.46e-05
+2026-01-22 13:20:47 | INFO | [Step 3900] musicality/loss=0.3257 | musicality/mse=0.2132 | alignment/loss=0.2556 | alignment/mse=0.1387 | preference/loss=0.0300 | preference/accuracy=0.9953 | lr_backbone=1.24e-06 | lr_heads=1.24e-05
+2026-01-22 13:22:53 | INFO | [Step 4000] musicality/loss=0.3214 | musicality/mse=0.2049 | alignment/loss=0.2551 | alignment/mse=0.1389 | preference/loss=0.0310 | preference/accuracy=0.9966 | lr_backbone=1.03e-06 | lr_heads=1.03e-05
+2026-01-22 13:22:53 | INFO | [Step 4000] Running validation...
+2026-01-22 13:22:58 | INFO | [Val] musicality: loss=0.6972 | mse=0.7796
+2026-01-22 13:23:02 | INFO | [Val] alignment: loss=0.8132 | mse=1.0816
+2026-01-22 13:23:10 | INFO | [Val] preference: loss=1.4036 | accuracy=0.6965
+2026-01-22 13:23:10 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1200/ckpt/mixed_step_4000.pt (81.2MB, 58 params)
+2026-01-22 13:23:10 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1200/ckpt/mixed_step_4000_full.pt (161.6MB, 3 heads)
+2026-01-22 13:25:13 | INFO | [Step 4100] musicality/loss=0.3218 | musicality/mse=0.2021 | alignment/loss=0.2590 | alignment/mse=0.1476 | preference/loss=0.0311 | preference/accuracy=0.9934 | lr_backbone=8.43e-07 | lr_heads=8.43e-06
+2026-01-22 13:27:13 | INFO | [Step 4200] musicality/loss=0.3236 | musicality/mse=0.2082 | alignment/loss=0.2549 | alignment/mse=0.1375 | preference/loss=0.0300 | preference/accuracy=0.9956 | lr_backbone=6.70e-07 | lr_heads=6.70e-06
+2026-01-22 13:29:11 | INFO | [Step 4300] musicality/loss=0.3143 | musicality/mse=0.1926 | alignment/loss=0.2508 | alignment/mse=0.1364 | preference/loss=0.0328 | preference/accuracy=0.9938 | lr_backbone=5.16e-07 | lr_heads=5.16e-06
+2026-01-22 13:31:10 | INFO | [Step 4400] musicality/loss=0.3274 | musicality/mse=0.2154 | alignment/loss=0.2571 | alignment/mse=0.1395 | preference/loss=0.0303 | preference/accuracy=0.9941 | lr_backbone=3.81e-07 | lr_heads=3.81e-06
+2026-01-22 13:33:13 | INFO | [Step 4500] musicality/loss=0.3214 | musicality/mse=0.2035 | alignment/loss=0.2498 | alignment/mse=0.1368 | preference/loss=0.0318 | preference/accuracy=0.9947 | lr_backbone=2.65e-07 | lr_heads=2.65e-06
+2026-01-22 13:33:13 | INFO | [Step 4500] Running validation...
+2026-01-22 13:33:17 | INFO | [Val] musicality: loss=0.6957 | mse=0.7749
+2026-01-22 13:33:21 | INFO | [Val] alignment: loss=0.8114 | mse=1.0750
+2026-01-22 13:33:28 | INFO | [Val] preference: loss=1.4276 | accuracy=0.6965
+2026-01-22 13:35:34 | INFO | [Step 4600] musicality/loss=0.3194 | musicality/mse=0.1995 | alignment/loss=0.2504 | alignment/mse=0.1391 | preference/loss=0.0274 | preference/accuracy=0.9966 | lr_backbone=1.70e-07 | lr_heads=1.70e-06
+2026-01-22 13:37:34 | INFO | [Step 4700] musicality/loss=0.3210 | musicality/mse=0.2021 | alignment/loss=0.2475 | alignment/mse=0.1335 | preference/loss=0.0311 | preference/accuracy=0.9947 | lr_backbone=9.61e-08 | lr_heads=9.61e-07
+2026-01-22 13:39:36 | INFO | [Step 4800] musicality/loss=0.3196 | musicality/mse=0.2007 | alignment/loss=0.2581 | alignment/mse=0.1434 | preference/loss=0.0277 | preference/accuracy=0.9962 | lr_backbone=4.28e-08 | lr_heads=4.28e-07
+2026-01-22 13:41:37 | INFO | [Step 4900] musicality/loss=0.3171 | musicality/mse=0.2014 | alignment/loss=0.2531 | alignment/mse=0.1374 | preference/loss=0.0261 | preference/accuracy=0.9975 | lr_backbone=1.07e-08 | lr_heads=1.07e-07
+2026-01-22 13:43:33 | INFO | [Step 5000] musicality/loss=0.3200 | musicality/mse=0.1975 | alignment/loss=0.2537 | alignment/mse=0.1386 | preference/loss=0.0290 | preference/accuracy=0.9944 | lr_backbone=0.00e+00 | lr_heads=0.00e+00
+2026-01-22 13:43:33 | INFO | [Step 5000] Running validation...
+2026-01-22 13:43:37 | INFO | [Val] musicality: loss=0.6978 | mse=0.7797
+2026-01-22 13:43:42 | INFO | [Val] alignment: loss=0.8105 | mse=1.0741
+2026-01-22 13:43:49 | INFO | [Val] preference: loss=1.4317 | accuracy=0.6930
+2026-01-22 13:43:49 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1200/ckpt/mixed_step_5000.pt (81.2MB, 58 params)
+2026-01-22 13:43:49 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1200/ckpt/mixed_step_5000_full.pt (161.6MB, 3 heads)
+2026-01-22 13:43:49 | INFO | Training complete. Running final validation...
+2026-01-22 13:43:54 | INFO | [Final Val] musicality: loss=0.6978 | mse=0.7797
+2026-01-22 13:43:59 | INFO | [Final Val] alignment: loss=0.8105 | mse=1.0741
+2026-01-22 13:44:08 | INFO | [Final Val] preference: loss=1.4317 | accuracy=0.6930
+2026-01-22 13:44:08 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1200/ckpt/mixed_final.pt (81.2MB, 58 params)
+2026-01-22 13:44:08 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1200/ckpt/mixed_final_full.pt (161.6MB, 3 heads)
+2026-01-22 13:44:08 | INFO | Done! Checkpoint saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1200/ckpt/mixed_final.pt

downstream_mixed/20260122_1955/config.yaml ADDED Viewed

	@@ -0,0 +1,69 @@

+attention_mode: CA
+attn_dropout: 0.0
+category_embeddings: null
+dim: 768
+dim_head: 64
+downsample:
+  configs:
+    conv2_4x:
+      factor: 4
+      kernel_size: 5
+      kind: conv*2
+      use_layernorm: true
+    conv_4x:
+      factor: 4
+      kernel_size: 5
+      kind: conv
+      stage: 1
+      use_layernorm: true
+    glu_4x:
+      factor: 4
+      kernel_size: 5
+      kind: gluconv*2+pw
+      use_layernorm: true
+    mean:
+      factor: 2
+      kind: mean
+    mean_4x:
+      dropout: 0.0
+      factor: 30
+      kind: mean+mlp
+      mlp_ratio: 2.0
+    none:
+      factor: 1
+      kind: none
+  eval: mean_4x
+  ref: null
+  text: none
+ff_dropout: 0.0
+ff_mult: 4
+freeze_audio: true
+freeze_text: true
+heads: 8
+joint_tf_depth: 1
+load_config:
+  checkpoint_path: null
+  frozen_from_pretrained: true
+  pretrained_name: OpenMuQ/MuQ-MuLan-large
+  strict: false
+mlp_dim: 768
+mode: text_only
+model_name: OpenMuQ/MuQ-MuLan-large
+name: reward
+null_embedding:
+  audio:
+    dropout: 0.5
+    length: 10
+  lyrics:
+    dropout: 0.3
+    length: 10
+  text:
+    dropout: 0.2
+    length: 10
+output_dim: 2
+prompt_tf_depth: 1
+sr: 24000
+text_encoder: muq_mulan
+text_lora_config: null
+train_muq_depth: 0
+use_layer_idx: -1

downstream_mixed/20260122_1955/downstream_config.yaml ADDED Viewed

	@@ -0,0 +1,58 @@

+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+basics:
+  random_seed: 42
+  save_dir: ${project_root}/experiments/downstream_mixed
+run_name: null
+tasks:
+- musicality
+- alignment
+- preference
+backbone:
+  checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+  freeze: false
+  freeze_encoder_only: true
+  from_ema: false
+dataset:
+  train_file: ${project_root}/train_multitask.jsonl
+  test_file: ${project_root}/test_multitask.jsonl
+heads:
+  hidden_dim: 768
+  init_from: score_projector
+  musicality:
+    use_mlp: true
+    ordinal: false
+    dropout: 0.1
+    use_tanh: true
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  alignment:
+    use_mlp: true
+    use_tanh: true
+    ordinal: false
+    dropout: 0.1
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  preference:
+    use_mlp: true
+    dropout: 0.1
+train:
+  dataset_mode: mixed
+  num_train_steps: 5000
+  batch_size: 32
+  learning_rate: 0.0001
+  backbone_learning_rate: 1.0e-05
+  weight_decay: 0.01
+  max_grad_norm: 1.0
+  warmup_steps: 200
+  schedule_type: cosine
+  min_lr_ratio: 0.01
+  log_interval: 100
+  val_interval: 500
+  save_interval: 1000
+  num_workers: 8
+  resume: null
+device: cuda

downstream_mixed/20260122_1955/train.log ADDED Viewed

	@@ -0,0 +1,153 @@

+2026-01-22 19:55:26 | INFO | Starting downstream training: 20260122_1955
+2026-01-22 19:55:26 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1955
+2026-01-22 19:55:26 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1955/downstream_config.yaml
+2026-01-22 19:55:26 | INFO | Training tasks: ['musicality', 'alignment', 'preference']
+2026-01-22 19:55:26 | INFO | Dataset mode: mixed
+2026-01-22 19:55:29 | INFO | Loading backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-22 19:55:29 | INFO | Using checkpoint config for model
+2026-01-22 19:55:35 | INFO | Missing keys (794): ['alignment_head.0.weight', 'alignment_head.0.bias', 'alignment_head.1.weight', 'alignment_head.1.bias', 'alignment_head.3.weight']...
+2026-01-22 19:55:35 | WARNING | Missing keys: 283
+2026-01-22 19:55:36 | INFO | Loaded backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-22 19:55:36 | INFO | Created MixedDownstreamTaskModel (freeze_encoder_only=True)
+2026-01-22 19:55:36 | INFO | Added mlp head for task 'musicality'
+2026-01-22 19:55:36 | INFO | Added mlp head for task 'alignment'
+2026-01-22 19:55:36 | INFO | Added mlp head for task 'preference'
+2026-01-22 19:55:36 | INFO | Initializing heads from backbone 'score_projector'
+2026-01-22 19:55:36 | INFO | Initializing 3 heads from 'score_projector'
+2026-01-22 19:55:36 | INFO |   Task 'musicality': type=mlp, ordinal=False
+2026-01-22 19:55:36 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-22 19:55:36 | INFO |   Slicing 3.weight -> 4.weight: torch.Size([2, 768]) -> torch.Size([1, 768])
+2026-01-22 19:55:36 | INFO |   Loaded 6 parameters, 0 missing
+2026-01-22 19:55:36 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-22 19:55:36 | INFO |   Task 'alignment': type=mlp, ordinal=False
+2026-01-22 19:55:36 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-22 19:55:36 | INFO |   Slicing 3.weight -> 4.weight: torch.Size([2, 768]) -> torch.Size([1, 768])
+2026-01-22 19:55:36 | INFO |   Loaded 6 parameters, 0 missing
+2026-01-22 19:55:36 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-22 19:55:36 | INFO |   Task 'preference': type=mlp, ordinal=False
+2026-01-22 19:55:36 | INFO | Initializing head from 'score_projector' (type=mlp, from_ema=False)
+2026-01-22 19:55:36 | INFO |   Slicing 3.weight -> 4.weight: torch.Size([2, 768]) -> torch.Size([1, 768])
+2026-01-22 19:55:36 | INFO |   Loaded 6 parameters, 0 missing
+2026-01-22 19:55:36 | INFO | ✓ Head initialized from 'score_projector'
+2026-01-22 19:55:36 | INFO | ✓ All heads initialized
+2026-01-22 19:55:36 | INFO | Loading train data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/train_multitask.jsonl
+2026-01-22 19:55:36 | INFO | Loading test data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/test_multitask.jsonl
+2026-01-22 19:55:36 | INFO | Task 'musicality': train=4322, test=913
+2026-01-22 19:55:36 | INFO | Task 'alignment': train=1923, test=913
+2026-01-22 19:55:36 | INFO | Task 'preference': train=1065, test=275
+2026-01-22 19:55:36 | INFO | Backbone trainable parameters: 21,279,237 (lr=1e-05)
+2026-01-22 19:55:36 | INFO | Head parameters: 1,778,691 (lr=0.0001)
+2026-01-22 19:55:36 | INFO | Total trainable parameters: 23,057,928
+2026-01-22 19:55:36 | INFO | [MIXED MODE] Starting training for 5000 steps
+2026-01-22 19:55:36 | INFO |   Backbone LR: 1e-05, Head LR: 0.0001
+2026-01-22 19:58:02 | INFO | [Step 100] musicality/loss=4.0102 | musicality/mse=25.7604 | alignment/loss=3.0251 | alignment/mse=14.7271 | preference/loss=1.5069 | preference/accuracy=0.5759 | lr_backbone=5.05e-06 | lr_heads=5.05e-05
+2026-01-22 20:00:09 | INFO | [Step 200] musicality/loss=1.0180 | musicality/mse=1.7198 | alignment/loss=1.0024 | alignment/mse=1.7404 | preference/loss=0.6600 | preference/accuracy=0.6647 | lr_backbone=1.00e-05 | lr_heads=1.00e-04
+2026-01-22 20:02:13 | INFO | [Step 300] musicality/loss=0.6936 | musicality/mse=0.7847 | alignment/loss=0.6862 | alignment/mse=0.7737 | preference/loss=0.5112 | preference/accuracy=0.7488 | lr_backbone=9.99e-06 | lr_heads=9.99e-05
+2026-01-22 20:04:17 | INFO | [Step 400] musicality/loss=0.6136 | musicality/mse=0.6091 | alignment/loss=0.5997 | alignment/mse=0.5944 | preference/loss=0.4582 | preference/accuracy=0.7828 | lr_backbone=9.96e-06 | lr_heads=9.96e-05
+2026-01-22 20:06:15 | INFO | [Step 500] musicality/loss=0.5617 | musicality/mse=0.5180 | alignment/loss=0.5633 | alignment/mse=0.5330 | preference/loss=0.4022 | preference/accuracy=0.8131 | lr_backbone=9.90e-06 | lr_heads=9.90e-05
+2026-01-22 20:06:15 | INFO | [Step 500] Running validation...
+2026-01-22 20:06:21 | INFO | [Val] musicality: loss=0.6488 | mse=0.6439
+2026-01-22 20:06:26 | INFO | [Val] alignment: loss=0.6735 | mse=0.7288
+2026-01-22 20:06:42 | INFO | [Val] preference: loss=0.5791 | accuracy=0.7301
+2026-01-22 20:06:42 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1955/ckpt/mixed_best.pt (81.2MB, 58 params)
+2026-01-22 20:06:42 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1955/ckpt/mixed_best_full.pt (161.6MB, 3 heads)
+2026-01-22 20:06:42 | INFO | Saved model config to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1955/config.yaml
+2026-01-22 20:06:42 | INFO | New best model saved (val_loss=0.6338)
+2026-01-22 20:08:48 | INFO | [Step 600] musicality/loss=0.5497 | musicality/mse=0.5046 | alignment/loss=0.5343 | alignment/mse=0.4822 | preference/loss=0.3690 | preference/accuracy=0.8356 | lr_backbone=9.83e-06 | lr_heads=9.83e-05
+2026-01-22 20:10:58 | INFO | [Step 700] musicality/loss=0.5343 | musicality/mse=0.4759 | alignment/loss=0.5158 | alignment/mse=0.4526 | preference/loss=0.3361 | preference/accuracy=0.8562 | lr_backbone=9.73e-06 | lr_heads=9.73e-05
+2026-01-22 20:13:04 | INFO | [Step 800] musicality/loss=0.5077 | musicality/mse=0.4405 | alignment/loss=0.4961 | alignment/mse=0.4343 | preference/loss=0.3054 | preference/accuracy=0.8659 | lr_backbone=9.62e-06 | lr_heads=9.62e-05
+2026-01-22 20:15:10 | INFO | [Step 900] musicality/loss=0.4827 | musicality/mse=0.4026 | alignment/loss=0.4907 | alignment/mse=0.4216 | preference/loss=0.2724 | preference/accuracy=0.8909 | lr_backbone=9.48e-06 | lr_heads=9.48e-05
+2026-01-22 20:17:16 | INFO | [Step 1000] musicality/loss=0.4706 | musicality/mse=0.3813 | alignment/loss=0.4595 | alignment/mse=0.3812 | preference/loss=0.2412 | preference/accuracy=0.9059 | lr_backbone=9.33e-06 | lr_heads=9.33e-05
+2026-01-22 20:17:16 | INFO | [Step 1000] Running validation...
+2026-01-22 20:17:20 | INFO | [Val] musicality: loss=0.6520 | mse=0.6573
+2026-01-22 20:17:25 | INFO | [Val] alignment: loss=0.7110 | mse=0.8175
+2026-01-22 20:17:33 | INFO | [Val] preference: loss=0.6850 | accuracy=0.7290
+2026-01-22 20:17:33 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1955/ckpt/mixed_step_1000.pt (81.2MB, 58 params)
+2026-01-22 20:17:33 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1955/ckpt/mixed_step_1000_full.pt (161.6MB, 3 heads)
+2026-01-22 20:19:38 | INFO | [Step 1100] musicality/loss=0.4653 | musicality/mse=0.3839 | alignment/loss=0.4591 | alignment/mse=0.3804 | preference/loss=0.2110 | preference/accuracy=0.9219 | lr_backbone=9.16e-06 | lr_heads=9.16e-05
+2026-01-22 20:21:40 | INFO | [Step 1200] musicality/loss=0.4585 | musicality/mse=0.3653 | alignment/loss=0.4425 | alignment/mse=0.3537 | preference/loss=0.1931 | preference/accuracy=0.9275 | lr_backbone=8.97e-06 | lr_heads=8.97e-05
+2026-01-22 20:23:52 | INFO | [Step 1300] musicality/loss=0.4420 | musicality/mse=0.3432 | alignment/loss=0.4205 | alignment/mse=0.3258 | preference/loss=0.1749 | preference/accuracy=0.9450 | lr_backbone=8.76e-06 | lr_heads=8.76e-05
+2026-01-22 20:25:58 | INFO | [Step 1400] musicality/loss=0.4351 | musicality/mse=0.3408 | alignment/loss=0.4205 | alignment/mse=0.3224 | preference/loss=0.1601 | preference/accuracy=0.9466 | lr_backbone=8.54e-06 | lr_heads=8.54e-05
+2026-01-22 20:28:00 | INFO | [Step 1500] musicality/loss=0.4294 | musicality/mse=0.3276 | alignment/loss=0.3935 | alignment/mse=0.2947 | preference/loss=0.1411 | preference/accuracy=0.9563 | lr_backbone=8.30e-06 | lr_heads=8.30e-05
+2026-01-22 20:28:00 | INFO | [Step 1500] Running validation...
+2026-01-22 20:28:04 | INFO | [Val] musicality: loss=0.6670 | mse=0.6936
+2026-01-22 20:28:08 | INFO | [Val] alignment: loss=0.7408 | mse=0.8923
+2026-01-22 20:28:16 | INFO | [Val] preference: loss=0.8865 | accuracy=0.7151
+2026-01-22 20:30:15 | INFO | [Step 1600] musicality/loss=0.4214 | musicality/mse=0.3162 | alignment/loss=0.3917 | alignment/mse=0.2898 | preference/loss=0.1362 | preference/accuracy=0.9572 | lr_backbone=8.04e-06 | lr_heads=8.04e-05
+2026-01-22 20:32:17 | INFO | [Step 1700] musicality/loss=0.4154 | musicality/mse=0.3088 | alignment/loss=0.3825 | alignment/mse=0.2771 | preference/loss=0.1202 | preference/accuracy=0.9637 | lr_backbone=7.78e-06 | lr_heads=7.78e-05
+2026-01-22 20:34:22 | INFO | [Step 1800] musicality/loss=0.4103 | musicality/mse=0.3085 | alignment/loss=0.3628 | alignment/mse=0.2559 | preference/loss=0.1093 | preference/accuracy=0.9694 | lr_backbone=7.50e-06 | lr_heads=7.50e-05
+2026-01-22 20:36:26 | INFO | [Step 1900] musicality/loss=0.3988 | musicality/mse=0.2859 | alignment/loss=0.3553 | alignment/mse=0.2509 | preference/loss=0.0938 | preference/accuracy=0.9725 | lr_backbone=7.21e-06 | lr_heads=7.21e-05
+2026-01-22 20:38:26 | INFO | [Step 2000] musicality/loss=0.3971 | musicality/mse=0.2937 | alignment/loss=0.3568 | alignment/mse=0.2439 | preference/loss=0.0850 | preference/accuracy=0.9800 | lr_backbone=6.91e-06 | lr_heads=6.91e-05
+2026-01-22 20:38:26 | INFO | [Step 2000] Running validation...
+2026-01-22 20:38:29 | INFO | [Val] musicality: loss=0.6845 | mse=0.7318
+2026-01-22 20:38:33 | INFO | [Val] alignment: loss=0.7468 | mse=0.9195
+2026-01-22 20:38:40 | INFO | [Val] preference: loss=1.0557 | accuracy=0.7127
+2026-01-22 20:38:40 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1955/ckpt/mixed_step_2000.pt (81.2MB, 58 params)
+2026-01-22 20:38:40 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1955/ckpt/mixed_step_2000_full.pt (161.6MB, 3 heads)
+2026-01-22 20:40:41 | INFO | [Step 2100] musicality/loss=0.3805 | musicality/mse=0.2657 | alignment/loss=0.3390 | alignment/mse=0.2305 | preference/loss=0.0812 | preference/accuracy=0.9769 | lr_backbone=6.61e-06 | lr_heads=6.61e-05
+2026-01-22 20:42:41 | INFO | [Step 2200] musicality/loss=0.3902 | musicality/mse=0.2838 | alignment/loss=0.3319 | alignment/mse=0.2229 | preference/loss=0.0766 | preference/accuracy=0.9784 | lr_backbone=6.29e-06 | lr_heads=6.29e-05
+2026-01-22 20:44:45 | INFO | [Step 2300] musicality/loss=0.3838 | musicality/mse=0.2732 | alignment/loss=0.3318 | alignment/mse=0.2150 | preference/loss=0.0723 | preference/accuracy=0.9784 | lr_backbone=5.98e-06 | lr_heads=5.98e-05
+2026-01-22 20:46:49 | INFO | [Step 2400] musicality/loss=0.3717 | musicality/mse=0.2606 | alignment/loss=0.3228 | alignment/mse=0.2107 | preference/loss=0.0689 | preference/accuracy=0.9834 | lr_backbone=5.65e-06 | lr_heads=5.65e-05
+2026-01-22 20:48:54 | INFO | [Step 2500] musicality/loss=0.3597 | musicality/mse=0.2386 | alignment/loss=0.3152 | alignment/mse=0.2051 | preference/loss=0.0572 | preference/accuracy=0.9853 | lr_backbone=5.33e-06 | lr_heads=5.33e-05
+2026-01-22 20:48:54 | INFO | [Step 2500] Running validation...
+2026-01-22 20:48:58 | INFO | [Val] musicality: loss=0.6836 | mse=0.7373
+2026-01-22 20:49:03 | INFO | [Val] alignment: loss=0.7766 | mse=0.9850
+2026-01-22 20:49:10 | INFO | [Val] preference: loss=1.2142 | accuracy=0.6906
+2026-01-22 20:51:14 | INFO | [Step 2600] musicality/loss=0.3659 | musicality/mse=0.2496 | alignment/loss=0.3106 | alignment/mse=0.1954 | preference/loss=0.0531 | preference/accuracy=0.9891 | lr_backbone=5.00e-06 | lr_heads=5.00e-05
+2026-01-22 20:53:13 | INFO | [Step 2700] musicality/loss=0.3661 | musicality/mse=0.2551 | alignment/loss=0.3030 | alignment/mse=0.1852 | preference/loss=0.0515 | preference/accuracy=0.9875 | lr_backbone=4.67e-06 | lr_heads=4.67e-05
+2026-01-22 20:55:14 | INFO | [Step 2800] musicality/loss=0.3553 | musicality/mse=0.2406 | alignment/loss=0.3005 | alignment/mse=0.1872 | preference/loss=0.0515 | preference/accuracy=0.9888 | lr_backbone=4.35e-06 | lr_heads=4.35e-05
+2026-01-22 20:57:16 | INFO | [Step 2900] musicality/loss=0.3592 | musicality/mse=0.2419 | alignment/loss=0.2965 | alignment/mse=0.1796 | preference/loss=0.0445 | preference/accuracy=0.9888 | lr_backbone=4.02e-06 | lr_heads=4.02e-05
+2026-01-22 20:59:16 | INFO | [Step 3000] musicality/loss=0.3505 | musicality/mse=0.2338 | alignment/loss=0.2840 | alignment/mse=0.1693 | preference/loss=0.0439 | preference/accuracy=0.9916 | lr_backbone=3.71e-06 | lr_heads=3.71e-05
+2026-01-22 20:59:16 | INFO | [Step 3000] Running validation...
+2026-01-22 20:59:20 | INFO | [Val] musicality: loss=0.7002 | mse=0.7711
+2026-01-22 20:59:25 | INFO | [Val] alignment: loss=0.7825 | mse=1.0091
+2026-01-22 20:59:32 | INFO | [Val] preference: loss=1.3055 | accuracy=0.6965
+2026-01-22 20:59:32 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1955/ckpt/mixed_step_3000.pt (81.2MB, 58 params)
+2026-01-22 20:59:32 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1955/ckpt/mixed_step_3000_full.pt (161.6MB, 3 heads)
+2026-01-22 21:01:30 | INFO | [Step 3100] musicality/loss=0.3430 | musicality/mse=0.2244 | alignment/loss=0.2829 | alignment/mse=0.1674 | preference/loss=0.0455 | preference/accuracy=0.9903 | lr_backbone=3.39e-06 | lr_heads=3.39e-05
+2026-01-22 21:03:28 | INFO | [Step 3200] musicality/loss=0.3406 | musicality/mse=0.2224 | alignment/loss=0.2833 | alignment/mse=0.1693 | preference/loss=0.0406 | preference/accuracy=0.9903 | lr_backbone=3.09e-06 | lr_heads=3.09e-05
+2026-01-22 21:05:26 | INFO | [Step 3300] musicality/loss=0.3375 | musicality/mse=0.2178 | alignment/loss=0.2742 | alignment/mse=0.1619 | preference/loss=0.0361 | preference/accuracy=0.9925 | lr_backbone=2.79e-06 | lr_heads=2.79e-05
+2026-01-22 21:07:33 | INFO | [Step 3400] musicality/loss=0.3322 | musicality/mse=0.2134 | alignment/loss=0.2738 | alignment/mse=0.1624 | preference/loss=0.0381 | preference/accuracy=0.9931 | lr_backbone=2.50e-06 | lr_heads=2.50e-05
+2026-01-22 21:09:29 | INFO | [Step 3500] musicality/loss=0.3395 | musicality/mse=0.2221 | alignment/loss=0.2694 | alignment/mse=0.1529 | preference/loss=0.0383 | preference/accuracy=0.9919 | lr_backbone=2.22e-06 | lr_heads=2.22e-05
+2026-01-22 21:09:29 | INFO | [Step 3500] Running validation...
+2026-01-22 21:09:34 | INFO | [Val] musicality: loss=0.7099 | mse=0.7968
+2026-01-22 21:09:39 | INFO | [Val] alignment: loss=0.7999 | mse=1.0596
+2026-01-22 21:09:47 | INFO | [Val] preference: loss=1.4323 | accuracy=0.6860
+2026-01-22 21:11:45 | INFO | [Step 3600] musicality/loss=0.3416 | musicality/mse=0.2289 | alignment/loss=0.2664 | alignment/mse=0.1553 | preference/loss=0.0351 | preference/accuracy=0.9944 | lr_backbone=1.96e-06 | lr_heads=1.96e-05
+2026-01-22 21:13:47 | INFO | [Step 3700] musicality/loss=0.3342 | musicality/mse=0.2132 | alignment/loss=0.2616 | alignment/mse=0.1459 | preference/loss=0.0350 | preference/accuracy=0.9931 | lr_backbone=1.70e-06 | lr_heads=1.70e-05
+2026-01-22 21:15:53 | INFO | [Step 3800] musicality/loss=0.3355 | musicality/mse=0.2140 | alignment/loss=0.2655 | alignment/mse=0.1539 | preference/loss=0.0359 | preference/accuracy=0.9931 | lr_backbone=1.46e-06 | lr_heads=1.46e-05
+2026-01-22 21:17:52 | INFO | [Step 3900] musicality/loss=0.3208 | musicality/mse=0.2009 | alignment/loss=0.2614 | alignment/mse=0.1469 | preference/loss=0.0318 | preference/accuracy=0.9950 | lr_backbone=1.24e-06 | lr_heads=1.24e-05
+2026-01-22 21:19:50 | INFO | [Step 4000] musicality/loss=0.3265 | musicality/mse=0.2104 | alignment/loss=0.2603 | alignment/mse=0.1458 | preference/loss=0.0311 | preference/accuracy=0.9950 | lr_backbone=1.03e-06 | lr_heads=1.03e-05
+2026-01-22 21:19:50 | INFO | [Step 4000] Running validation...
+2026-01-22 21:19:55 | INFO | [Val] musicality: loss=0.7095 | mse=0.7949
+2026-01-22 21:19:58 | INFO | [Val] alignment: loss=0.8059 | mse=1.0730
+2026-01-22 21:20:06 | INFO | [Val] preference: loss=1.4329 | accuracy=0.6802
+2026-01-22 21:20:06 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1955/ckpt/mixed_step_4000.pt (81.2MB, 58 params)
+2026-01-22 21:20:06 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1955/ckpt/mixed_step_4000_full.pt (161.6MB, 3 heads)
+2026-01-22 21:22:06 | INFO | [Step 4100] musicality/loss=0.3249 | musicality/mse=0.2018 | alignment/loss=0.2543 | alignment/mse=0.1402 | preference/loss=0.0294 | preference/accuracy=0.9956 | lr_backbone=8.43e-07 | lr_heads=8.43e-06
+2026-01-22 21:24:01 | INFO | [Step 4200] musicality/loss=0.3225 | musicality/mse=0.2066 | alignment/loss=0.2586 | alignment/mse=0.1471 | preference/loss=0.0328 | preference/accuracy=0.9931 | lr_backbone=6.70e-07 | lr_heads=6.70e-06
+2026-01-22 21:25:56 | INFO | [Step 4300] musicality/loss=0.3226 | musicality/mse=0.2079 | alignment/loss=0.2555 | alignment/mse=0.1438 | preference/loss=0.0289 | preference/accuracy=0.9947 | lr_backbone=5.16e-07 | lr_heads=5.16e-06
+2026-01-22 21:27:56 | INFO | [Step 4400] musicality/loss=0.3169 | musicality/mse=0.1972 | alignment/loss=0.2543 | alignment/mse=0.1377 | preference/loss=0.0299 | preference/accuracy=0.9941 | lr_backbone=3.81e-07 | lr_heads=3.81e-06
+2026-01-22 21:29:52 | INFO | [Step 4500] musicality/loss=0.3281 | musicality/mse=0.2140 | alignment/loss=0.2503 | alignment/mse=0.1388 | preference/loss=0.0312 | preference/accuracy=0.9953 | lr_backbone=2.65e-07 | lr_heads=2.65e-06
+2026-01-22 21:29:52 | INFO | [Step 4500] Running validation...
+2026-01-22 21:29:57 | INFO | [Val] musicality: loss=0.7054 | mse=0.7867
+2026-01-22 21:30:02 | INFO | [Val] alignment: loss=0.8063 | mse=1.0763
+2026-01-22 21:30:11 | INFO | [Val] preference: loss=1.4512 | accuracy=0.6767
+2026-01-22 21:32:14 | INFO | [Step 4600] musicality/loss=0.3216 | musicality/mse=0.2008 | alignment/loss=0.2560 | alignment/mse=0.1431 | preference/loss=0.0332 | preference/accuracy=0.9944 | lr_backbone=1.70e-07 | lr_heads=1.70e-06
+2026-01-22 21:34:14 | INFO | [Step 4700] musicality/loss=0.3259 | musicality/mse=0.2067 | alignment/loss=0.2512 | alignment/mse=0.1408 | preference/loss=0.0284 | preference/accuracy=0.9956 | lr_backbone=9.61e-08 | lr_heads=9.61e-07
+2026-01-22 21:36:15 | INFO | [Step 4800] musicality/loss=0.3268 | musicality/mse=0.2086 | alignment/loss=0.2501 | alignment/mse=0.1375 | preference/loss=0.0310 | preference/accuracy=0.9928 | lr_backbone=4.28e-08 | lr_heads=4.28e-07
+2026-01-22 21:38:19 | INFO | [Step 4900] musicality/loss=0.3168 | musicality/mse=0.1950 | alignment/loss=0.2517 | alignment/mse=0.1389 | preference/loss=0.0309 | preference/accuracy=0.9938 | lr_backbone=1.07e-08 | lr_heads=1.07e-07
+2026-01-22 21:40:24 | INFO | [Step 5000] musicality/loss=0.3217 | musicality/mse=0.2037 | alignment/loss=0.2489 | alignment/mse=0.1369 | preference/loss=0.0322 | preference/accuracy=0.9938 | lr_backbone=0.00e+00 | lr_heads=0.00e+00
+2026-01-22 21:40:24 | INFO | [Step 5000] Running validation...
+2026-01-22 21:40:28 | INFO | [Val] musicality: loss=0.7057 | mse=0.7873
+2026-01-22 21:40:32 | INFO | [Val] alignment: loss=0.8051 | mse=1.0733
+2026-01-22 21:40:39 | INFO | [Val] preference: loss=1.4580 | accuracy=0.6767
+2026-01-22 21:40:39 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1955/ckpt/mixed_step_5000.pt (81.2MB, 58 params)
+2026-01-22 21:40:39 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1955/ckpt/mixed_step_5000_full.pt (161.6MB, 3 heads)
+2026-01-22 21:40:39 | INFO | Training complete. Running final validation...
+2026-01-22 21:40:44 | INFO | [Final Val] musicality: loss=0.7057 | mse=0.7873
+2026-01-22 21:40:48 | INFO | [Final Val] alignment: loss=0.8051 | mse=1.0733
+2026-01-22 21:40:56 | INFO | [Final Val] preference: loss=1.4580 | accuracy=0.6767
+2026-01-22 21:40:56 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1955/ckpt/mixed_final.pt (81.2MB, 58 params)
+2026-01-22 21:40:57 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1955/ckpt/mixed_final_full.pt (161.6MB, 3 heads)
+2026-01-22 21:40:57 | INFO | Done! Checkpoint saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed/20260122_1955/ckpt/mixed_final.pt

downstream_mixed_linear/20260122_1143/config.yaml ADDED Viewed

	@@ -0,0 +1,144 @@

+DEVICES: '7'
+accelerate:
+  mixed_precision: bf16
+basics:
+  random_seed: 42
+  save_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model
+dataset:
+  audio_dropout:
+    apply_to_eval: true
+    apply_to_ref: true
+    enabled: true
+    eval_only_on_training: true
+    max_duration: 1000
+    min_duration: 250
+  cache_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/tmp
+  db_path: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/backend/database.db
+  duration: 600.0
+  embedding_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/supervised_embeddings
+  max_samples: null
+  max_val_samples: null
+  preference_file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/unbiased_qwen/train.json
+  sample_rate: 24000
+  use_preextracted: true
+  val_preference_file: null
+loss:
+  IF_ratio: 0.5
+  filter_ties: true
+  label_smoothing: 0.0
+  reduction: mean
+model:
+  attention_mode: CA
+  attn_dropout: 0.0
+  category_embeddings: null
+  dim: 768
+  dim_head: 64
+  downsample:
+    configs:
+      conv2_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv*2
+        use_layernorm: true
+      conv_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv
+        stage: 1
+        use_layernorm: true
+      glu_4x:
+        factor: 4
+        kernel_size: 5
+        kind: gluconv*2+pw
+        use_layernorm: true
+      mean:
+        factor: 2
+        kind: mean
+      mean_4x:
+        dropout: 0.0
+        factor: 30
+        kind: mean+mlp
+        mlp_ratio: 2.0
+      none:
+        factor: 1
+        kind: none
+    eval: mean_4x
+    ref: null
+    text: none
+  ff_dropout: 0.0
+  ff_mult: 4
+  freeze_audio: true
+  freeze_text: true
+  gradient_checkpointing: false
+  heads: 8
+  joint_tf_depth: 1
+  load_config:
+    checkpoint_path: null
+    frozen_from_pretrained: true
+    pretrained_name: OpenMuQ/MuQ-MuLan-large
+    strict: false
+  mlp_dim: 768
+  mode: text_only
+  model_name: OpenMuQ/MuQ-MuLan-large
+  name: reward
+  null_embedding:
+    audio:
+      dropout: 0.5
+      length: 10
+    lyrics:
+      dropout: 0.3
+      length: 10
+    text:
+      dropout: 0.2
+      length: 10
+  output_dim: 2
+  prompt_tf_depth: 1
+  sr: 24000
+  text_encoder:
+    name: muq_mulan
+    tune: null
+  text_lora_config: null
+  train_muq_depth: 0
+  train_muqmulan: false
+  use_layer_idx: -1
+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+run_name: null
+train:
+  batch_size: 24
+  betas:
+  - 0.9
+  - 0.99
+  ema_decay: 0.9999
+  ema_update_every: 1
+  enable_gradient_checkpointing: true
+  force_clear_prev_results: false
+  grad_accum_every: 2
+  log_tensorboard: true
+  lr_schedule:
+    min_lr_ratio: 0.001
+    name: linear_cosine
+    total_steps: 30000
+    warmup_steps: 300
+  max_grad_norm: 100
+  mlp_lr: 0.0002
+  num_train_steps: 30000
+  num_valid_batches: 10
+  num_workers: 8
+  other_lr: null
+  resume: null
+  resume_optimizer: false
+  save_model_every: 2000
+  use_checkpoint_config: false
+  use_ema: true
+  use_lion: false
+  valid_batch_size: 20
+  valid_every: 2000
+  valid_frac: 0.1
+  verify_weights_on_load: true
+validate:
+  checkpoint: null
+  dir: null
+  max_failure_cases: 30
+  num_batches: null
+  only: false
+  trust_checkpoint: true

downstream_mixed_linear/20260122_1143/downstream_config.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+basics:
+  random_seed: 42
+  save_dir: ${project_root}/experiments/downstream_mixed_linear
+run_name: null
+tasks:
+- musicality
+- alignment
+- preference
+backbone:
+  checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+  freeze: false
+  freeze_encoder_only: true
+  from_ema: false
+dataset:
+  train_file: ${project_root}/train_multitask.jsonl
+  test_file: ${project_root}/test_multitask.jsonl
+heads:
+  hidden_dim: 768
+  init_from: null
+  musicality:
+    use_mlp: false
+    ordinal: false
+    dropout: 0.0
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  alignment:
+    use_mlp: false
+    ordinal: false
+    dropout: 0.0
+    num_categories: 9
+    y_min: 1.0
+    y_max: 5.0
+    step: 0.5
+  preference:
+    use_mlp: false
+    dropout: 0.0
+train:
+  dataset_mode: mixed
+  num_train_steps: 5000
+  batch_size: 32
+  learning_rate: 0.0005
+  backbone_learning_rate: 1.0e-05
+  weight_decay: 0.01
+  max_grad_norm: 1.0
+  warmup_steps: 200
+  schedule_type: cosine
+  min_lr_ratio: 0.01
+  log_interval: 100
+  val_interval: 500
+  save_interval: 1000
+  num_workers: 8
+  resume: null
+device: cuda

downstream_mixed_linear/20260122_1143/predicted_0122_1533.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

downstream_mixed_linear/20260122_1143/train.log ADDED Viewed

	@@ -0,0 +1,111 @@

+2026-01-22 11:43:55 | INFO | Starting downstream training: 20260122_1143
+2026-01-22 11:43:55 | INFO | Results will be saved to: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed_linear/20260122_1143
+2026-01-22 11:43:55 | INFO | Config saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed_linear/20260122_1143/config.yaml
+2026-01-22 11:43:55 | INFO | Training tasks: ['musicality', 'alignment', 'preference']
+2026-01-22 11:43:55 | INFO | Dataset mode: mixed
+2026-01-22 11:43:58 | INFO | Loading backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-22 11:43:58 | INFO | Using checkpoint config for model
+2026-01-22 11:44:03 | INFO | Missing keys (794): ['alignment_head.0.weight', 'alignment_head.0.bias', 'alignment_head.1.weight', 'alignment_head.1.bias', 'alignment_head.3.weight']...
+2026-01-22 11:44:03 | WARNING | Missing keys: 283
+2026-01-22 11:44:04 | INFO | Loaded backbone from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260118_1213/ckpt/reward_model.best_29999.pt
+2026-01-22 11:44:04 | INFO | Created MixedDownstreamTaskModel (freeze_encoder_only=True)
+2026-01-22 11:44:04 | INFO | Added linear head for task 'musicality'
+2026-01-22 11:44:04 | INFO | Added linear head for task 'alignment'
+2026-01-22 11:44:04 | INFO | Added linear head for task 'preference'
+2026-01-22 11:44:04 | INFO | Loading train data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/train_multitask.jsonl
+2026-01-22 11:44:04 | INFO | Loading test data from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/test_multitask.jsonl
+2026-01-22 11:44:04 | INFO | Task 'musicality': train=4322, test=913
+2026-01-22 11:44:04 | INFO | Task 'alignment': train=1923, test=913
+2026-01-22 11:44:04 | INFO | Task 'preference': train=1065, test=275
+2026-01-22 11:44:04 | INFO | Backbone trainable parameters: 21,279,237 (lr=1e-05)
+2026-01-22 11:44:04 | INFO | Head parameters: 2,307 (lr=0.0005)
+2026-01-22 11:44:04 | INFO | Total trainable parameters: 21,281,544
+2026-01-22 11:44:04 | INFO | [MIXED MODE] Starting training for 5000 steps
+2026-01-22 11:44:04 | INFO |   Backbone LR: 1e-05, Head LR: 0.0005
+2026-01-22 11:46:24 | INFO | [Step 100] musicality/loss=2.2005 | musicality/mse=8.3402 | alignment/loss=2.2115 | alignment/mse=9.0544 | preference/loss=0.9264 | preference/accuracy=0.5772 | lr_backbone=5.05e-06 | lr_heads=2.53e-04
+2026-01-22 11:48:37 | INFO | [Step 200] musicality/loss=0.7967 | musicality/mse=1.0614 | alignment/loss=0.7918 | alignment/mse=1.0462 | preference/loss=0.5578 | preference/accuracy=0.7228 | lr_backbone=1.00e-05 | lr_heads=5.00e-04
+2026-01-22 11:50:55 | INFO | [Step 300] musicality/loss=0.6328 | musicality/mse=0.6628 | alignment/loss=0.6676 | alignment/mse=0.7203 | preference/loss=0.4710 | preference/accuracy=0.7700 | lr_backbone=9.99e-06 | lr_heads=4.99e-04
+2026-01-22 11:53:17 | INFO | [Step 400] musicality/loss=0.5768 | musicality/mse=0.5607 | alignment/loss=0.6102 | alignment/mse=0.6049 | preference/loss=0.4418 | preference/accuracy=0.7941 | lr_backbone=9.96e-06 | lr_heads=4.98e-04
+2026-01-22 11:55:31 | INFO | [Step 500] musicality/loss=0.5430 | musicality/mse=0.4994 | alignment/loss=0.5927 | alignment/mse=0.5801 | preference/loss=0.4014 | preference/accuracy=0.8159 | lr_backbone=9.90e-06 | lr_heads=4.95e-04
+2026-01-22 11:55:31 | INFO | [Step 500] Running validation...
+2026-01-22 11:55:40 | INFO | [Val] musicality: loss=1.1473 | mse=1.8126
+2026-01-22 11:55:47 | INFO | [Val] alignment: loss=1.0390 | mse=1.5827
+2026-01-22 11:56:00 | INFO | [Val] preference: loss=0.5431 | accuracy=0.7405
+2026-01-22 11:56:00 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed_linear/20260122_1143/ckpt/mixed_best.pt (81.2MB, 58 params)
+2026-01-22 11:56:00 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed_linear/20260122_1143/ckpt/mixed_best_full.pt (141.3MB, 3 heads)
+2026-01-22 11:56:00 | INFO | New best model saved (val_loss=0.9098)
+2026-01-22 11:58:16 | INFO | [Step 600] musicality/loss=0.5325 | musicality/mse=0.4837 | alignment/loss=0.5695 | alignment/mse=0.5422 | preference/loss=0.3828 | preference/accuracy=0.8187 | lr_backbone=9.83e-06 | lr_heads=4.91e-04
+2026-01-22 12:00:34 | INFO | [Step 700] musicality/loss=0.5178 | musicality/mse=0.4543 | alignment/loss=0.5538 | alignment/mse=0.5039 | preference/loss=0.3556 | preference/accuracy=0.8400 | lr_backbone=9.73e-06 | lr_heads=4.87e-04
+2026-01-22 12:02:52 | INFO | [Step 800] musicality/loss=0.4982 | musicality/mse=0.4278 | alignment/loss=0.5263 | alignment/mse=0.4646 | preference/loss=0.3258 | preference/accuracy=0.8547 | lr_backbone=9.62e-06 | lr_heads=4.81e-04
+2026-01-22 12:05:06 | INFO | [Step 900] musicality/loss=0.4885 | musicality/mse=0.4085 | alignment/loss=0.5110 | alignment/mse=0.4444 | preference/loss=0.2978 | preference/accuracy=0.8709 | lr_backbone=9.48e-06 | lr_heads=4.74e-04
+2026-01-22 12:07:14 | INFO | [Step 1000] musicality/loss=0.4678 | musicality/mse=0.3857 | alignment/loss=0.4986 | alignment/mse=0.4226 | preference/loss=0.2730 | preference/accuracy=0.8916 | lr_backbone=9.33e-06 | lr_heads=4.67e-04
+2026-01-22 12:07:14 | INFO | [Step 1000] Running validation...
+2026-01-22 12:07:19 | INFO | [Val] musicality: loss=1.3048 | mse=2.2855
+2026-01-22 12:07:24 | INFO | [Val] alignment: loss=1.2686 | mse=2.1902
+2026-01-22 12:07:34 | INFO | [Val] preference: loss=0.6575 | accuracy=0.7058
+2026-01-22 12:07:34 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed_linear/20260122_1143/ckpt/mixed_step_1000.pt (81.2MB, 58 params)
+2026-01-22 12:07:34 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed_linear/20260122_1143/ckpt/mixed_step_1000_full.pt (141.3MB, 3 heads)
+2026-01-22 12:09:42 | INFO | [Step 1100] musicality/loss=0.4760 | musicality/mse=0.3916 | alignment/loss=0.4768 | alignment/mse=0.3976 | preference/loss=0.2531 | preference/accuracy=0.8972 | lr_backbone=9.16e-06 | lr_heads=4.58e-04
+2026-01-22 12:11:45 | INFO | [Step 1200] musicality/loss=0.4702 | musicality/mse=0.3893 | alignment/loss=0.4787 | alignment/mse=0.3995 | preference/loss=0.2229 | preference/accuracy=0.9147 | lr_backbone=8.97e-06 | lr_heads=4.48e-04
+2026-01-22 12:13:48 | INFO | [Step 1300] musicality/loss=0.4608 | musicality/mse=0.3740 | alignment/loss=0.4580 | alignment/mse=0.3734 | preference/loss=0.2015 | preference/accuracy=0.9309 | lr_backbone=8.76e-06 | lr_heads=4.38e-04
+2026-01-22 12:15:48 | INFO | [Step 1400] musicality/loss=0.4470 | musicality/mse=0.3551 | alignment/loss=0.4462 | alignment/mse=0.3573 | preference/loss=0.1836 | preference/accuracy=0.9369 | lr_backbone=8.54e-06 | lr_heads=4.27e-04
+2026-01-22 12:17:55 | INFO | [Step 1500] musicality/loss=0.4396 | musicality/mse=0.3439 | alignment/loss=0.4267 | alignment/mse=0.3357 | preference/loss=0.1711 | preference/accuracy=0.9428 | lr_backbone=8.30e-06 | lr_heads=4.15e-04
+2026-01-22 12:17:55 | INFO | [Step 1500] Running validation...
+2026-01-22 12:18:00 | INFO | [Val] musicality: loss=1.3053 | mse=2.2794
+2026-01-22 12:18:05 | INFO | [Val] alignment: loss=1.1733 | mse=1.9250
+2026-01-22 12:18:12 | INFO | [Val] preference: loss=0.9029 | accuracy=0.6954
+2026-01-22 12:20:16 | INFO | [Step 1600] musicality/loss=0.4350 | musicality/mse=0.3406 | alignment/loss=0.4201 | alignment/mse=0.3266 | preference/loss=0.1518 | preference/accuracy=0.9556 | lr_backbone=8.04e-06 | lr_heads=4.02e-04
+2026-01-22 12:22:29 | INFO | [Step 1700] musicality/loss=0.4266 | musicality/mse=0.3288 | alignment/loss=0.4157 | alignment/mse=0.3292 | preference/loss=0.1400 | preference/accuracy=0.9616 | lr_backbone=7.78e-06 | lr_heads=3.89e-04
+2026-01-22 12:24:36 | INFO | [Step 1800] musicality/loss=0.4175 | musicality/mse=0.3159 | alignment/loss=0.4053 | alignment/mse=0.3053 | preference/loss=0.1269 | preference/accuracy=0.9672 | lr_backbone=7.50e-06 | lr_heads=3.75e-04
+2026-01-22 12:26:44 | INFO | [Step 1900] musicality/loss=0.4130 | musicality/mse=0.3172 | alignment/loss=0.3933 | alignment/mse=0.2983 | preference/loss=0.1208 | preference/accuracy=0.9647 | lr_backbone=7.21e-06 | lr_heads=3.61e-04
+2026-01-22 12:28:50 | INFO | [Step 2000] musicality/loss=0.3964 | musicality/mse=0.2923 | alignment/loss=0.3785 | alignment/mse=0.2798 | preference/loss=0.1063 | preference/accuracy=0.9744 | lr_backbone=6.91e-06 | lr_heads=3.46e-04
+2026-01-22 12:28:50 | INFO | [Step 2000] Running validation...
+2026-01-22 12:28:54 | INFO | [Val] musicality: loss=1.2472 | mse=2.1547
+2026-01-22 12:28:59 | INFO | [Val] alignment: loss=1.3002 | mse=2.3432
+2026-01-22 12:29:06 | INFO | [Val] preference: loss=1.0439 | accuracy=0.6999
+2026-01-22 12:29:06 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed_linear/20260122_1143/ckpt/mixed_step_2000.pt (81.2MB, 58 params)
+2026-01-22 12:29:07 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed_linear/20260122_1143/ckpt/mixed_step_2000_full.pt (141.3MB, 3 heads)
+2026-01-22 12:31:17 | INFO | [Step 2100] musicality/loss=0.3994 | musicality/mse=0.2960 | alignment/loss=0.3650 | alignment/mse=0.2675 | preference/loss=0.1017 | preference/accuracy=0.9750 | lr_backbone=6.61e-06 | lr_heads=3.30e-04
+2026-01-22 12:33:21 | INFO | [Step 2200] musicality/loss=0.3913 | musicality/mse=0.2835 | alignment/loss=0.3655 | alignment/mse=0.2679 | preference/loss=0.0847 | preference/accuracy=0.9816 | lr_backbone=6.29e-06 | lr_heads=3.15e-04
+2026-01-22 12:35:26 | INFO | [Step 2300] musicality/loss=0.3898 | musicality/mse=0.2861 | alignment/loss=0.3502 | alignment/mse=0.2519 | preference/loss=0.0748 | preference/accuracy=0.9838 | lr_backbone=5.98e-06 | lr_heads=2.99e-04
+2026-01-22 12:37:23 | INFO | [Step 2400] musicality/loss=0.3874 | musicality/mse=0.2812 | alignment/loss=0.3407 | alignment/mse=0.2414 | preference/loss=0.0749 | preference/accuracy=0.9822 | lr_backbone=5.65e-06 | lr_heads=2.83e-04
+2026-01-22 12:39:29 | INFO | [Step 2500] musicality/loss=0.3718 | musicality/mse=0.2615 | alignment/loss=0.3326 | alignment/mse=0.2398 | preference/loss=0.0760 | preference/accuracy=0.9831 | lr_backbone=5.33e-06 | lr_heads=2.66e-04
+2026-01-22 12:39:29 | INFO | [Step 2500] Running validation...
+2026-01-22 12:39:34 | INFO | [Val] musicality: loss=1.3347 | mse=2.3899
+2026-01-22 12:39:39 | INFO | [Val] alignment: loss=1.2975 | mse=2.3241
+2026-01-22 12:39:47 | INFO | [Val] preference: loss=1.1918 | accuracy=0.7023
+2026-01-22 12:41:57 | INFO | [Step 2600] musicality/loss=0.3819 | musicality/mse=0.2791 | alignment/loss=0.3210 | alignment/mse=0.2263 | preference/loss=0.0686 | preference/accuracy=0.9831 | lr_backbone=5.00e-06 | lr_heads=2.50e-04
+2026-01-22 12:44:04 | INFO | [Step 2700] musicality/loss=0.3627 | musicality/mse=0.2539 | alignment/loss=0.3177 | alignment/mse=0.2255 | preference/loss=0.0612 | preference/accuracy=0.9894 | lr_backbone=4.67e-06 | lr_heads=2.34e-04
+2026-01-22 12:46:14 | INFO | [Step 2800] musicality/loss=0.3585 | musicality/mse=0.2494 | alignment/loss=0.3108 | alignment/mse=0.2167 | preference/loss=0.0606 | preference/accuracy=0.9888 | lr_backbone=4.35e-06 | lr_heads=2.17e-04
+2026-01-22 12:48:15 | INFO | [Step 2900] musicality/loss=0.3659 | musicality/mse=0.2576 | alignment/loss=0.3024 | alignment/mse=0.2116 | preference/loss=0.0593 | preference/accuracy=0.9869 | lr_backbone=4.02e-06 | lr_heads=2.01e-04
+2026-01-22 12:50:20 | INFO | [Step 3000] musicality/loss=0.3553 | musicality/mse=0.2498 | alignment/loss=0.2947 | alignment/mse=0.2077 | preference/loss=0.0585 | preference/accuracy=0.9878 | lr_backbone=3.71e-06 | lr_heads=1.85e-04
+2026-01-22 12:50:20 | INFO | [Step 3000] Running validation...
+2026-01-22 12:50:25 | INFO | [Val] musicality: loss=1.3277 | mse=2.3656
+2026-01-22 12:50:30 | INFO | [Val] alignment: loss=1.2973 | mse=2.3727
+2026-01-22 12:50:38 | INFO | [Val] preference: loss=1.3603 | accuracy=0.6919
+2026-01-22 12:50:38 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed_linear/20260122_1143/ckpt/mixed_step_3000.pt (81.2MB, 58 params)
+2026-01-22 12:50:38 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed_linear/20260122_1143/ckpt/mixed_step_3000_full.pt (141.3MB, 3 heads)
+2026-01-22 12:52:38 | INFO | [Step 3100] musicality/loss=0.3486 | musicality/mse=0.2427 | alignment/loss=0.2857 | alignment/mse=0.1987 | preference/loss=0.0523 | preference/accuracy=0.9900 | lr_backbone=3.39e-06 | lr_heads=1.70e-04
+2026-01-22 12:54:36 | INFO | [Step 3200] musicality/loss=0.3537 | musicality/mse=0.2494 | alignment/loss=0.2805 | alignment/mse=0.1955 | preference/loss=0.0583 | preference/accuracy=0.9869 | lr_backbone=3.09e-06 | lr_heads=1.54e-04
+2026-01-22 12:56:42 | INFO | [Step 3300] musicality/loss=0.3390 | musicality/mse=0.2315 | alignment/loss=0.2796 | alignment/mse=0.1946 | preference/loss=0.0515 | preference/accuracy=0.9922 | lr_backbone=2.79e-06 | lr_heads=1.39e-04
+2026-01-22 12:58:57 | INFO | [Step 3400] musicality/loss=0.3474 | musicality/mse=0.2402 | alignment/loss=0.2661 | alignment/mse=0.1839 | preference/loss=0.0536 | preference/accuracy=0.9859 | lr_backbone=2.50e-06 | lr_heads=1.25e-04
+2026-01-22 13:01:01 | INFO | [Step 3500] musicality/loss=0.3431 | musicality/mse=0.2380 | alignment/loss=0.2742 | alignment/mse=0.1948 | preference/loss=0.0469 | preference/accuracy=0.9916 | lr_backbone=2.22e-06 | lr_heads=1.11e-04
+2026-01-22 13:01:01 | INFO | [Step 3500] Running validation...
+2026-01-22 13:01:05 | INFO | [Val] musicality: loss=1.3314 | mse=2.3666
+2026-01-22 13:01:09 | INFO | [Val] alignment: loss=1.3121 | mse=2.4192
+2026-01-22 13:01:18 | INFO | [Val] preference: loss=1.3744 | accuracy=0.6954
+2026-01-22 13:03:23 | INFO | [Step 3600] musicality/loss=0.3315 | musicality/mse=0.2288 | alignment/loss=0.2630 | alignment/mse=0.1819 | preference/loss=0.0501 | preference/accuracy=0.9897 | lr_backbone=1.96e-06 | lr_heads=9.78e-05
+2026-01-22 13:05:35 | INFO | [Step 3700] musicality/loss=0.3355 | musicality/mse=0.2339 | alignment/loss=0.2564 | alignment/mse=0.1801 | preference/loss=0.0435 | preference/accuracy=0.9931 | lr_backbone=1.70e-06 | lr_heads=8.52e-05
+2026-01-22 13:07:35 | INFO | [Step 3800] musicality/loss=0.3233 | musicality/mse=0.2131 | alignment/loss=0.2572 | alignment/mse=0.1828 | preference/loss=0.0474 | preference/accuracy=0.9916 | lr_backbone=1.46e-06 | lr_heads=7.32e-05
+2026-01-22 13:09:36 | INFO | [Step 3900] musicality/loss=0.3264 | musicality/mse=0.2250 | alignment/loss=0.2501 | alignment/mse=0.1753 | preference/loss=0.0467 | preference/accuracy=0.9891 | lr_backbone=1.24e-06 | lr_heads=6.20e-05
+2026-01-22 13:11:37 | INFO | [Step 4000] musicality/loss=0.3311 | musicality/mse=0.2319 | alignment/loss=0.2497 | alignment/mse=0.1790 | preference/loss=0.0453 | preference/accuracy=0.9909 | lr_backbone=1.03e-06 | lr_heads=5.17e-05
+2026-01-22 13:11:37 | INFO | [Step 4000] Running validation...
+2026-01-22 13:11:41 | INFO | [Val] musicality: loss=1.3147 | mse=2.3406
+2026-01-22 13:11:45 | INFO | [Val] alignment: loss=1.3227 | mse=2.4580
+2026-01-22 13:11:53 | INFO | [Val] preference: loss=1.4434 | accuracy=0.6954
+2026-01-22 13:11:53 | INFO | Saved RewardModel checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed_linear/20260122_1143/ckpt/mixed_step_4000.pt (81.2MB, 58 params)
+2026-01-22 13:11:53 | INFO | Saved full training checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/downstream_mixed_linear/20260122_1143/ckpt/mixed_step_4000_full.pt (141.3MB, 3 heads)
+2026-01-22 13:13:52 | INFO | [Step 4100] musicality/loss=0.3189 | musicality/mse=0.2125 | alignment/loss=0.2453 | alignment/mse=0.1733 | preference/loss=0.0447 | preference/accuracy=0.9922 | lr_backbone=8.43e-07 | lr_heads=4.21e-05
+2026-01-22 13:15:55 | INFO | [Step 4200] musicality/loss=0.3213 | musicality/mse=0.2174 | alignment/loss=0.2428 | alignment/mse=0.1738 | preference/loss=0.0405 | preference/accuracy=0.9934 | lr_backbone=6.70e-07 | lr_heads=3.35e-05
+2026-01-22 13:17:53 | INFO | [Step 4300] musicality/loss=0.3200 | musicality/mse=0.2224 | alignment/loss=0.2357 | alignment/mse=0.1659 | preference/loss=0.0388 | preference/accuracy=0.9941 | lr_backbone=5.16e-07 | lr_heads=2.58e-05
+2026-01-22 13:19:56 | INFO | [Step 4400] musicality/loss=0.3121 | musicality/mse=0.2100 | alignment/loss=0.2416 | alignment/mse=0.1771 | preference/loss=0.0408 | preference/accuracy=0.9950 | lr_backbone=3.81e-07 | lr_heads=1.90e-05

finetune_human/20260124_2143/config.yaml ADDED Viewed

	@@ -0,0 +1,142 @@

+DEVICES: '3'
+accelerate:
+  mixed_precision: bf16
+basics:
+  random_seed: 42
+  save_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model
+dataset:
+  audio_dropout:
+    apply_to_eval: false
+    apply_to_ref: true
+    enabled: false
+    eval_only_on_training: true
+    max_duration: 1500
+    min_duration: 1500
+    train_mode: start
+  cache_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/tmp
+  db_path: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/backend/database.db
+  duration: 600.0
+  embedding_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/supervised_embeddings
+  max_samples: null
+  max_val_samples: null
+  metadata_jsonl: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/all_comparisons.jsonl
+  mode: raw_text_frozen_audio
+  preference_file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/human_annotations/train.json
+  sample_rate: 24000
+  val_preference_file: null
+loss:
+  IF_ratio: 0.5
+  filter_ties: true
+  label_smoothing: 0.0
+  reduction: mean
+model:
+  attention_mode: SA
+  attn_dropout: 0.0
+  category_embeddings: null
+  dim: 768
+  dim_head: 64
+  downsample:
+    configs:
+      conv2_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv*2
+        use_layernorm: true
+      conv_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv
+        stage: 1
+        use_layernorm: true
+      glu_4x:
+        factor: 4
+        kernel_size: 5
+        kind: gluconv*2+pw
+        use_layernorm: true
+      mean:
+        factor: 2
+        kind: mean
+      mean_4x:
+        dropout: 0.0
+        factor: 30
+        kind: mean+mlp
+        mlp_ratio: 2.0
+      none:
+        factor: 1
+        kind: none
+    eval: mean_4x
+    ref: null
+    text: none
+  ff_dropout: 0.0
+  ff_mult: 4
+  freeze_audio: true
+  freeze_text: true
+  gradient_checkpointing: false
+  heads: 8
+  joint_tf_depth: 1
+  load_config:
+    checkpoint_path: null
+    frozen_from_pretrained: true
+    pretrained_name: OpenMuQ/MuQ-MuLan-large
+    strict: false
+  mlp_dim: 768
+  mode: concat_text_late
+  model_name: OpenMuQ/MuQ-MuLan-large
+  name: reward
+  no_condition: false
+  null_embedding:
+    audio:
+      dropout: 0.5
+      length: 10
+    lyrics:
+      dropout: 0.3
+      length: 10
+    text:
+      dropout: 0
+      length: 10
+  output_dim: 2
+  prompt_tf_depth: 4
+  sr: 24000
+  text_encoder:
+    name: muq_mulan
+    tune: null
+  text_lora_config: null
+  train_muq_depth: 0
+  train_muqmulan: false
+  use_audio: true
+  use_layer_idx: -1
+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+run_name: null
+train:
+  batch_size: 48
+  betas:
+  - 0.9
+  - 0.99
+  ema_decay: 0.9999
+  ema_update_every: 1
+  enable_gradient_checkpointing: true
+  force_clear_prev_results: false
+  grad_accum_every: 1
+  log_tensorboard: true
+  lr_schedule:
+    min_lr_ratio: 0.001
+    name: linear_cosine
+    total_steps: 4000
+    warmup_steps: 300
+  max_grad_norm: 1
+  mlp_lr: 0.0001
+  num_train_steps: 4000
+  num_valid_batches: null
+  num_workers: 8
+  other_lr: 1.0e-05
+  resume: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.best_29999.pt
+  resume_optimizer: false
+  save_model_every: 2000
+  use_checkpoint_config: true
+  use_ema: true
+  use_lion: false
+  valid_batch_size: 20
+  valid_every: 100
+  valid_frac: 0.1
+  verify_weights_on_load: true
+validate_only: false

finetune_human/20260124_2143/reward_model/1769262210.5061178/events.out.tfevents.1769262210.MACLAB-S004.2626926.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82ee766b07252644d7045f50ffd3d29ed1cbc0b26a834bdb1d855c526f959108
+size 503

finetune_human/20260124_2143/reward_model/1769262210.5078583/hparams.yml ADDED Viewed

	@@ -0,0 +1,4 @@

+batch_size: 48
+grad_accum_every: 1
+learning_rate: 0.0001
+num_train_steps: 4000

finetune_human/20260124_2143/reward_model/events.out.tfevents.1769262210.MACLAB-S004.2626926.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:361130a96e5393eb1f50a4f818c47547a16295e3f01976ce0e9113e0a561cf68
+size 2219689

finetune_human/20260124_2143/train.20260124_2143.log ADDED Viewed

	@@ -0,0 +1,803 @@

+2026-01-24 21:43:19 | INFO | Log file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/train.20260124_2143.log
+2026-01-24 21:43:19 | INFO | Random seed set to 42
+2026-01-24 21:43:21 | INFO | Created RawTextFrozenAudioDataset with 3463 samples
+2026-01-24 21:43:21 | INFO | Split dataset into train (3117) and validation (346) sets (ratio: 10.00%)
+2026-01-24 21:43:21 | INFO | Will resume from checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.best_29999.pt
+2026-01-24 21:43:21 | INFO | Using checkpoint config for model initialization (continue training mode)
+2026-01-24 21:43:29 | INFO | Created RewardAttentionModel with attention_mode=SA
+2026-01-24 21:43:29 | INFO | Created PreferenceLoss with filter_ties=True
+2026-01-24 21:43:29 | INFO | ✓ Gradient checkpointing enabled
+2026-01-24 21:43:29 | INFO | ✓ EMA enabled with decay=0.9999, update_every=1 (CPU offload)
+2026-01-24 21:43:29 | INFO | MLP head parameters: 1,186,563 params, lr=0.0001
+2026-01-24 21:43:29 | INFO | Other parameters: 37,397,634 params, lr=1e-05
+2026-01-24 21:43:29 | INFO | Using lr_schedule=linear_cosine warmup_steps=300 total_steps=4000
+2026-01-24 21:43:29 | INFO | Training with fixed validation set
+2026-01-24 21:43:29 | INFO | Train batch_size: 48, Valid batch_size: 20
+2026-01-24 21:43:29 | INFO | Missing keys (782): ['text_module.model.embeddings.word_embeddings.weight', 'text_module.model.embeddings.position_embeddings.weight', 'text_module.model.embeddings.token_type_embeddings.weight', 'text_module.model.embeddings.LayerNorm.weight', 'text_module.model.embeddings.LayerNorm.bias']...
+2026-01-24 21:43:29 | INFO | ✓ EMA state loaded
+2026-01-24 21:43:29 | INFO | ✓ Starting from step 0 (transfer learning mode, ignoring checkpoint steps=29999)
+2026-01-24 21:43:29 | INFO | Resumed from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.best_29999.pt
+2026-01-24 21:43:29 | INFO | Parameters: 701.162M total, 38.584M trainable
+2026-01-24 21:43:29 | INFO |   Text encoder (frozen): 328.389M
+2026-01-24 21:43:29 | INFO |   Audio encoder (frozen): 334.189M
+2026-01-24 21:43:29 | INFO |   Other trainable: 38.584M
+2026-01-24 21:43:29 | INFO | ℹ No LoRA configuration detected
+2026-01-24 21:43:30 | INFO | ============================================================
+2026-01-24 21:43:30 | INFO | Ready to start training
+2026-01-24 21:43:30 | INFO | ============================================================
+2026-01-24 21:43:30 | INFO | Starting training from step 0
+2026-01-24 21:43:30 | INFO | ===== Accelerator / CUDA Debug Info =====
+2026-01-24 21:43:30 | INFO | accelerator.device = cuda
+2026-01-24 21:43:30 | INFO | mixed_precision = bf16
+2026-01-24 21:43:30 | INFO | distributed_type = NO
+2026-01-24 21:43:30 | INFO | num_processes = 1
+2026-01-24 21:43:30 | INFO | process_index = 0
+2026-01-24 21:43:30 | INFO | is_main_process = True
+2026-01-24 21:43:30 | INFO | torch.cuda.is_available() = True
+2026-01-24 21:43:30 | INFO | torch.cuda.device_count() = 1
+2026-01-24 21:43:30 | INFO | current_device = 0
+2026-01-24 21:43:30 | INFO | device_name = NVIDIA GeForce RTX 4090
+2026-01-24 21:43:30 | INFO | model parameter device = cuda:0
+2026-01-24 21:43:30 | INFO | Training for 4000.0 steps (~63 epochs, 64 steps/epoch)
+2026-01-24 21:43:38 | INFO | Step 0: loss=1.6133 | IF_loss=2.2461, MQ_loss=0.9805 | acc=0.740 (IF=0.708, MQ=0.771) | lr=0.000001
+2026-01-24 21:43:38 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.0.pt (filtered to 38.584M trainable parameters)
+2026-01-24 21:43:39 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.0.pt (575.2MB)
+2026-01-24 21:43:39 | INFO | Step 0: Saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.0.pt
+2026-01-24 21:45:32 | INFO |
+============================================================
+Validation Results (took 9.56s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6821
+  Quality Acc: 0.6387
+  Average Acc: 0.6604
+  Total Loss: 1.8726
+  Instruction Loss: 1.6586
+  Quality Loss: 2.0866
+============================================================
+2026-01-24 21:45:32 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_99.pt (filtered to 38.584M trainable parameters)
+2026-01-24 21:45:33 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_99.pt (575.2MB)
+2026-01-24 21:45:33 | INFO | Best 1 checkpoints:
+2026-01-24 21:45:33 | INFO |   1. Step 99: acc=0.6604 (reward_model.best_99.pt)
+2026-01-24 21:45:34 | INFO | Step 100: loss=1.5309 | IF_loss=1.2373, MQ_loss=1.8246 | acc=0.646 (IF=0.688, MQ=0.604) | lr=0.000034
+2026-01-24 21:47:29 | INFO |
+============================================================
+Validation Results (took 8.11s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.6387
+  Average Acc: 0.6618
+  Total Loss: 1.8631
+  Instruction Loss: 1.6525
+  Quality Loss: 2.0736
+============================================================
+2026-01-24 21:47:29 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_199.pt (filtered to 38.584M trainable parameters)
+2026-01-24 21:47:30 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_199.pt (575.2MB)
+2026-01-24 21:47:30 | INFO | Best 2 checkpoints:
+2026-01-24 21:47:30 | INFO |   1. Step 199: acc=0.6618 (reward_model.best_199.pt)
+2026-01-24 21:47:30 | INFO |   2. Step 99: acc=0.6604 (reward_model.best_99.pt)
+2026-01-24 21:47:31 | INFO | Step 200: loss=0.4360 | IF_loss=0.4299, MQ_loss=0.4421 | acc=0.833 (IF=0.812, MQ=0.854) | lr=0.000067
+2026-01-24 21:49:25 | INFO |
+============================================================
+Validation Results (took 9.42s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.6387
+  Average Acc: 0.6618
+  Total Loss: 1.8438
+  Instruction Loss: 1.6364
+  Quality Loss: 2.0512
+============================================================
+2026-01-24 21:49:25 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_299.pt (filtered to 38.584M trainable parameters)
+2026-01-24 21:49:25 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_299.pt (575.2MB)
+2026-01-24 21:49:25 | INFO | Best 3 checkpoints:
+2026-01-24 21:49:25 | INFO |   1. Step 199: acc=0.6618 (reward_model.best_199.pt)
+2026-01-24 21:49:25 | INFO |   2. Step 299: acc=0.6618 (reward_model.best_299.pt)
+2026-01-24 21:49:25 | INFO |   3. Step 99: acc=0.6604 (reward_model.best_99.pt)
+2026-01-24 21:49:26 | INFO | Step 300: loss=0.4121 | IF_loss=0.5007, MQ_loss=0.3235 | acc=0.844 (IF=0.792, MQ=0.896) | lr=0.000100
+2026-01-24 21:51:23 | INFO |
+============================================================
+Validation Results (took 7.32s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.6387
+  Average Acc: 0.6618
+  Total Loss: 1.8266
+  Instruction Loss: 1.6230
+  Quality Loss: 2.0303
+============================================================
+2026-01-24 21:51:23 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_399.pt (filtered to 38.584M trainable parameters)
+2026-01-24 21:51:24 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_399.pt (575.2MB)
+2026-01-24 21:51:24 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_99.pt
+2026-01-24 21:51:24 | INFO | Best 3 checkpoints:
+2026-01-24 21:51:24 | INFO |   1. Step 199: acc=0.6618 (reward_model.best_199.pt)
+2026-01-24 21:51:24 | INFO |   2. Step 299: acc=0.6618 (reward_model.best_299.pt)
+2026-01-24 21:51:24 | INFO |   3. Step 399: acc=0.6618 (reward_model.best_399.pt)
+2026-01-24 21:51:25 | INFO | Step 400: loss=0.4819 | IF_loss=0.4988, MQ_loss=0.4650 | acc=0.760 (IF=0.708, MQ=0.812) | lr=0.000100
+2026-01-24 21:53:18 | INFO |
+============================================================
+Validation Results (took 8.30s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6821
+  Quality Acc: 0.6416
+  Average Acc: 0.6618
+  Total Loss: 1.8103
+  Instruction Loss: 1.6100
+  Quality Loss: 2.0107
+============================================================
+2026-01-24 21:53:18 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_499.pt (filtered to 38.584M trainable parameters)
+2026-01-24 21:53:19 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_499.pt (575.2MB)
+2026-01-24 21:53:19 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_499.pt
+2026-01-24 21:53:19 | INFO | Best 3 checkpoints:
+2026-01-24 21:53:19 | INFO |   1. Step 199: acc=0.6618 (reward_model.best_199.pt)
+2026-01-24 21:53:19 | INFO |   2. Step 299: acc=0.6618 (reward_model.best_299.pt)
+2026-01-24 21:53:19 | INFO |   3. Step 399: acc=0.6618 (reward_model.best_399.pt)
+2026-01-24 21:53:20 | INFO | Step 500: loss=0.4074 | IF_loss=0.4939, MQ_loss=0.3209 | acc=0.854 (IF=0.792, MQ=0.917) | lr=0.000099
+2026-01-24 21:55:17 | INFO |
+============================================================
+Validation Results (took 7.55s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6821
+  Quality Acc: 0.6416
+  Average Acc: 0.6618
+  Total Loss: 1.7951
+  Instruction Loss: 1.5986
+  Quality Loss: 1.9916
+============================================================
+2026-01-24 21:55:17 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_599.pt (filtered to 38.584M trainable parameters)
+2026-01-24 21:55:17 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_599.pt (575.2MB)
+2026-01-24 21:55:17 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_599.pt
+2026-01-24 21:55:17 | INFO | Best 3 checkpoints:
+2026-01-24 21:55:17 | INFO |   1. Step 199: acc=0.6618 (reward_model.best_199.pt)
+2026-01-24 21:55:17 | INFO |   2. Step 299: acc=0.6618 (reward_model.best_299.pt)
+2026-01-24 21:55:17 | INFO |   3. Step 399: acc=0.6618 (reward_model.best_399.pt)
+2026-01-24 21:55:18 | INFO | Step 600: loss=0.3505 | IF_loss=0.3784, MQ_loss=0.3226 | acc=0.844 (IF=0.812, MQ=0.875) | lr=0.000098
+2026-01-24 21:57:14 | INFO |
+============================================================
+Validation Results (took 7.89s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6821
+  Quality Acc: 0.6445
+  Average Acc: 0.6633
+  Total Loss: 1.7807
+  Instruction Loss: 1.5876
+  Quality Loss: 1.9739
+============================================================
+2026-01-24 21:57:14 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_699.pt (filtered to 38.584M trainable parameters)
+2026-01-24 21:57:14 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_699.pt (575.2MB)
+2026-01-24 21:57:14 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_399.pt
+2026-01-24 21:57:14 | INFO | Best 3 checkpoints:
+2026-01-24 21:57:14 | INFO |   1. Step 699: acc=0.6633 (reward_model.best_699.pt)
+2026-01-24 21:57:14 | INFO |   2. Step 199: acc=0.6618 (reward_model.best_199.pt)
+2026-01-24 21:57:14 | INFO |   3. Step 299: acc=0.6618 (reward_model.best_299.pt)
+2026-01-24 21:57:15 | INFO | Step 700: loss=0.2439 | IF_loss=0.3054, MQ_loss=0.1823 | acc=0.875 (IF=0.854, MQ=0.896) | lr=0.000097
+2026-01-24 21:59:13 | INFO |
+============================================================
+Validation Results (took 7.71s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6821
+  Quality Acc: 0.6474
+  Average Acc: 0.6647
+  Total Loss: 1.7686
+  Instruction Loss: 1.5780
+  Quality Loss: 1.9591
+============================================================
+2026-01-24 21:59:13 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_799.pt (filtered to 38.584M trainable parameters)
+2026-01-24 21:59:13 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_799.pt (575.2MB)
+2026-01-24 21:59:13 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_299.pt
+2026-01-24 21:59:13 | INFO | Best 3 checkpoints:
+2026-01-24 21:59:13 | INFO |   1. Step 799: acc=0.6647 (reward_model.best_799.pt)
+2026-01-24 21:59:13 | INFO |   2. Step 699: acc=0.6633 (reward_model.best_699.pt)
+2026-01-24 21:59:13 | INFO |   3. Step 199: acc=0.6618 (reward_model.best_199.pt)
+2026-01-24 21:59:14 | INFO | Step 800: loss=0.2827 | IF_loss=0.3525, MQ_loss=0.2128 | acc=0.885 (IF=0.875, MQ=0.896) | lr=0.000096
+2026-01-24 22:01:11 | INFO |
+============================================================
+Validation Results (took 7.05s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.6474
+  Average Acc: 0.6662
+  Total Loss: 1.7570
+  Instruction Loss: 1.5693
+  Quality Loss: 1.9446
+============================================================
+2026-01-24 22:01:11 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_899.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:01:12 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_899.pt (575.2MB)
+2026-01-24 22:01:12 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_199.pt
+2026-01-24 22:01:12 | INFO | Best 3 checkpoints:
+2026-01-24 22:01:12 | INFO |   1. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:01:12 | INFO |   2. Step 799: acc=0.6647 (reward_model.best_799.pt)
+2026-01-24 22:01:12 | INFO |   3. Step 699: acc=0.6633 (reward_model.best_699.pt)
+2026-01-24 22:01:13 | INFO | Step 900: loss=0.1525 | IF_loss=0.1838, MQ_loss=0.1212 | acc=0.958 (IF=0.958, MQ=0.958) | lr=0.000094
+2026-01-24 22:03:07 | INFO |
+============================================================
+Validation Results (took 7.74s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6821
+  Quality Acc: 0.6474
+  Average Acc: 0.6647
+  Total Loss: 1.7472
+  Instruction Loss: 1.5625
+  Quality Loss: 1.9319
+============================================================
+2026-01-24 22:03:07 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_999.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:03:08 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_999.pt (575.2MB)
+2026-01-24 22:03:08 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_699.pt
+2026-01-24 22:03:08 | INFO | Best 3 checkpoints:
+2026-01-24 22:03:08 | INFO |   1. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:03:08 | INFO |   2. Step 799: acc=0.6647 (reward_model.best_799.pt)
+2026-01-24 22:03:08 | INFO |   3. Step 999: acc=0.6647 (reward_model.best_999.pt)
+2026-01-24 22:03:09 | INFO | Step 1000: loss=0.1671 | IF_loss=0.1673, MQ_loss=0.1668 | acc=0.969 (IF=0.979, MQ=0.958) | lr=0.000091
+2026-01-24 22:05:04 | INFO |
+============================================================
+Validation Results (took 6.94s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.6474
+  Average Acc: 0.6662
+  Total Loss: 1.7380
+  Instruction Loss: 1.5555
+  Quality Loss: 1.9205
+============================================================
+2026-01-24 22:05:04 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1099.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:05:04 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1099.pt (575.2MB)
+2026-01-24 22:05:04 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_999.pt
+2026-01-24 22:05:04 | INFO | Best 3 checkpoints:
+2026-01-24 22:05:04 | INFO |   1. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:05:04 | INFO |   2. Step 1099: acc=0.6662 (reward_model.best_1099.pt)
+2026-01-24 22:05:04 | INFO |   3. Step 799: acc=0.6647 (reward_model.best_799.pt)
+2026-01-24 22:05:05 | INFO | Step 1100: loss=0.1267 | IF_loss=0.1381, MQ_loss=0.1154 | acc=0.948 (IF=0.958, MQ=0.938) | lr=0.000089
+2026-01-24 22:07:02 | INFO |
+============================================================
+Validation Results (took 7.34s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.6416
+  Average Acc: 0.6633
+  Total Loss: 1.7320
+  Instruction Loss: 1.5520
+  Quality Loss: 1.9119
+============================================================
+2026-01-24 22:07:02 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1199.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:07:03 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1199.pt (575.2MB)
+2026-01-24 22:07:03 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1199.pt
+2026-01-24 22:07:03 | INFO | Best 3 checkpoints:
+2026-01-24 22:07:03 | INFO |   1. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:07:03 | INFO |   2. Step 1099: acc=0.6662 (reward_model.best_1099.pt)
+2026-01-24 22:07:03 | INFO |   3. Step 799: acc=0.6647 (reward_model.best_799.pt)
+2026-01-24 22:07:04 | INFO | Step 1200: loss=0.1201 | IF_loss=0.1744, MQ_loss=0.0657 | acc=0.948 (IF=0.917, MQ=0.979) | lr=0.000086
+2026-01-24 22:08:59 | INFO |
+============================================================
+Validation Results (took 7.61s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.6416
+  Average Acc: 0.6633
+  Total Loss: 1.7259
+  Instruction Loss: 1.5481
+  Quality Loss: 1.9036
+============================================================
+2026-01-24 22:08:59 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1299.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:09:00 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1299.pt (575.2MB)
+2026-01-24 22:09:00 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1299.pt
+2026-01-24 22:09:00 | INFO | Best 3 checkpoints:
+2026-01-24 22:09:00 | INFO |   1. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:09:00 | INFO |   2. Step 1099: acc=0.6662 (reward_model.best_1099.pt)
+2026-01-24 22:09:00 | INFO |   3. Step 799: acc=0.6647 (reward_model.best_799.pt)
+2026-01-24 22:09:01 | INFO | Step 1300: loss=0.0937 | IF_loss=0.1357, MQ_loss=0.0516 | acc=0.958 (IF=0.938, MQ=0.979) | lr=0.000083
+2026-01-24 22:10:53 | INFO |
+============================================================
+Validation Results (took 7.24s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.6416
+  Average Acc: 0.6633
+  Total Loss: 1.7217
+  Instruction Loss: 1.5459
+  Quality Loss: 1.8975
+============================================================
+2026-01-24 22:10:53 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1399.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:10:54 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1399.pt (575.2MB)
+2026-01-24 22:10:54 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1399.pt
+2026-01-24 22:10:54 | INFO | Best 3 checkpoints:
+2026-01-24 22:10:54 | INFO |   1. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:10:54 | INFO |   2. Step 1099: acc=0.6662 (reward_model.best_1099.pt)
+2026-01-24 22:10:54 | INFO |   3. Step 799: acc=0.6647 (reward_model.best_799.pt)
+2026-01-24 22:10:55 | INFO | Step 1400: loss=0.0782 | IF_loss=0.1080, MQ_loss=0.0484 | acc=0.990 (IF=0.979, MQ=1.000) | lr=0.000080
+2026-01-24 22:12:49 | INFO |
+============================================================
+Validation Results (took 7.28s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.6416
+  Average Acc: 0.6662
+  Total Loss: 1.7182
+  Instruction Loss: 1.5441
+  Quality Loss: 1.8922
+============================================================
+2026-01-24 22:12:49 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1499.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:12:49 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1499.pt (575.2MB)
+2026-01-24 22:12:49 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_799.pt
+2026-01-24 22:12:49 | INFO | Best 3 checkpoints:
+2026-01-24 22:12:49 | INFO |   1. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:12:49 | INFO |   2. Step 1099: acc=0.6662 (reward_model.best_1099.pt)
+2026-01-24 22:12:49 | INFO |   3. Step 1499: acc=0.6662 (reward_model.best_1499.pt)
+2026-01-24 22:12:50 | INFO | Step 1500: loss=0.0699 | IF_loss=0.0703, MQ_loss=0.0695 | acc=0.979 (IF=0.979, MQ=0.979) | lr=0.000076
+2026-01-24 22:14:41 | INFO |
+============================================================
+Validation Results (took 7.76s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.6416
+  Average Acc: 0.6662
+  Total Loss: 1.7151
+  Instruction Loss: 1.5435
+  Quality Loss: 1.8867
+============================================================
+2026-01-24 22:14:41 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1599.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:14:42 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1599.pt (575.2MB)
+2026-01-24 22:14:42 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1599.pt
+2026-01-24 22:14:42 | INFO | Best 3 checkpoints:
+2026-01-24 22:14:42 | INFO |   1. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:14:42 | INFO |   2. Step 1099: acc=0.6662 (reward_model.best_1099.pt)
+2026-01-24 22:14:42 | INFO |   3. Step 1499: acc=0.6662 (reward_model.best_1499.pt)
+2026-01-24 22:14:46 | INFO | Step 1600: loss=0.0346 | IF_loss=0.0421, MQ_loss=0.0272 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000072
+2026-01-24 22:16:34 | INFO |
+============================================================
+Validation Results (took 7.04s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.6445
+  Average Acc: 0.6676
+  Total Loss: 1.7117
+  Instruction Loss: 1.5434
+  Quality Loss: 1.8800
+============================================================
+2026-01-24 22:16:34 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1699.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:16:35 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1699.pt (575.2MB)
+2026-01-24 22:16:35 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1499.pt
+2026-01-24 22:16:35 | INFO | Best 3 checkpoints:
+2026-01-24 22:16:35 | INFO |   1. Step 1699: acc=0.6676 (reward_model.best_1699.pt)
+2026-01-24 22:16:35 | INFO |   2. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:16:35 | INFO |   3. Step 1099: acc=0.6662 (reward_model.best_1099.pt)
+2026-01-24 22:16:36 | INFO | Step 1700: loss=0.0480 | IF_loss=0.0609, MQ_loss=0.0350 | acc=0.990 (IF=0.979, MQ=1.000) | lr=0.000069
+2026-01-24 22:18:30 | INFO |
+============================================================
+Validation Results (took 7.06s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6936
+  Quality Acc: 0.6445
+  Average Acc: 0.6691
+  Total Loss: 1.7110
+  Instruction Loss: 1.5436
+  Quality Loss: 1.8783
+============================================================
+2026-01-24 22:18:30 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1799.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:18:30 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1799.pt (575.2MB)
+2026-01-24 22:18:30 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1099.pt
+2026-01-24 22:18:30 | INFO | Best 3 checkpoints:
+2026-01-24 22:18:30 | INFO |   1. Step 1799: acc=0.6691 (reward_model.best_1799.pt)
+2026-01-24 22:18:30 | INFO |   2. Step 1699: acc=0.6676 (reward_model.best_1699.pt)
+2026-01-24 22:18:30 | INFO |   3. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:18:32 | INFO | Step 1800: loss=0.0316 | IF_loss=0.0473, MQ_loss=0.0159 | acc=0.990 (IF=0.979, MQ=1.000) | lr=0.000065
+2026-01-24 22:20:24 | INFO |
+============================================================
+Validation Results (took 7.18s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.6474
+  Average Acc: 0.6691
+  Total Loss: 1.7090
+  Instruction Loss: 1.5445
+  Quality Loss: 1.8734
+============================================================
+2026-01-24 22:20:24 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1899.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:20:25 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1899.pt (575.2MB)
+2026-01-24 22:20:25 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_899.pt
+2026-01-24 22:20:25 | INFO | Best 3 checkpoints:
+2026-01-24 22:20:25 | INFO |   1. Step 1799: acc=0.6691 (reward_model.best_1799.pt)
+2026-01-24 22:20:25 | INFO |   2. Step 1899: acc=0.6691 (reward_model.best_1899.pt)
+2026-01-24 22:20:25 | INFO |   3. Step 1699: acc=0.6676 (reward_model.best_1699.pt)
+2026-01-24 22:20:26 | INFO | Step 1900: loss=0.0415 | IF_loss=0.0539, MQ_loss=0.0290 | acc=0.990 (IF=0.979, MQ=1.000) | lr=0.000061
+2026-01-24 22:22:22 | INFO |
+============================================================
+Validation Results (took 7.27s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6936
+  Quality Acc: 0.6474
+  Average Acc: 0.6705
+  Total Loss: 1.7083
+  Instruction Loss: 1.5455
+  Quality Loss: 1.8711
+============================================================
+2026-01-24 22:22:22 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1999.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:22:22 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1999.pt (575.2MB)
+2026-01-24 22:22:22 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1699.pt
+2026-01-24 22:22:22 | INFO | Best 3 checkpoints:
+2026-01-24 22:22:22 | INFO |   1. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:22:22 | INFO |   2. Step 1799: acc=0.6691 (reward_model.best_1799.pt)
+2026-01-24 22:22:22 | INFO |   3. Step 1899: acc=0.6691 (reward_model.best_1899.pt)
+2026-01-24 22:22:23 | INFO | Step 2000: loss=0.0589 | IF_loss=0.0511, MQ_loss=0.0667 | acc=0.979 (IF=0.979, MQ=0.979) | lr=0.000056
+2026-01-24 22:22:23 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.2000.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:22:24 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.2000.pt (575.2MB)
+2026-01-24 22:22:24 | INFO | Step 2000: Saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.2000.pt
+2026-01-24 22:24:18 | INFO |
+============================================================
+Validation Results (took 7.25s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6474
+  Average Acc: 0.6676
+  Total Loss: 1.7086
+  Instruction Loss: 1.5472
+  Quality Loss: 1.8700
+============================================================
+2026-01-24 22:24:18 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2099.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:24:19 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2099.pt (575.2MB)
+2026-01-24 22:24:19 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2099.pt
+2026-01-24 22:24:19 | INFO | Best 3 checkpoints:
+2026-01-24 22:24:19 | INFO |   1. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:24:19 | INFO |   2. Step 1799: acc=0.6691 (reward_model.best_1799.pt)
+2026-01-24 22:24:19 | INFO |   3. Step 1899: acc=0.6691 (reward_model.best_1899.pt)
+2026-01-24 22:24:20 | INFO | Step 2100: loss=0.0284 | IF_loss=0.0286, MQ_loss=0.0281 | acc=0.990 (IF=1.000, MQ=0.979) | lr=0.000052
+2026-01-24 22:26:12 | INFO |
+============================================================
+Validation Results (took 7.00s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6503
+  Average Acc: 0.6691
+  Total Loss: 1.7083
+  Instruction Loss: 1.5495
+  Quality Loss: 1.8672
+============================================================
+2026-01-24 22:26:12 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2199.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:26:13 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2199.pt (575.2MB)
+2026-01-24 22:26:13 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1899.pt
+2026-01-24 22:26:13 | INFO | Best 3 checkpoints:
+2026-01-24 22:26:13 | INFO |   1. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:26:13 | INFO |   2. Step 2199: acc=0.6691 (reward_model.best_2199.pt)
+2026-01-24 22:26:13 | INFO |   3. Step 1799: acc=0.6691 (reward_model.best_1799.pt)
+2026-01-24 22:26:14 | INFO | Step 2200: loss=0.0061 | IF_loss=0.0038, MQ_loss=0.0085 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000048
+2026-01-24 22:28:05 | INFO |
+============================================================
+Validation Results (took 7.64s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6532
+  Average Acc: 0.6705
+  Total Loss: 1.7088
+  Instruction Loss: 1.5525
+  Quality Loss: 1.8651
+============================================================
+2026-01-24 22:28:05 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2299.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:28:05 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2299.pt (575.2MB)
+2026-01-24 22:28:05 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1799.pt
+2026-01-24 22:28:05 | INFO | Best 3 checkpoints:
+2026-01-24 22:28:05 | INFO |   1. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:28:05 | INFO |   2. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:28:05 | INFO |   3. Step 2199: acc=0.6691 (reward_model.best_2199.pt)
+2026-01-24 22:28:06 | INFO | Step 2300: loss=0.0451 | IF_loss=0.0768, MQ_loss=0.0134 | acc=0.990 (IF=0.979, MQ=1.000) | lr=0.000044
+2026-01-24 22:30:00 | INFO |
+============================================================
+Validation Results (took 7.30s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.6532
+  Average Acc: 0.6720
+  Total Loss: 1.7079
+  Instruction Loss: 1.5530
+  Quality Loss: 1.8628
+============================================================
+2026-01-24 22:30:00 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2399.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:30:01 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2399.pt (575.2MB)
+2026-01-24 22:30:01 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2199.pt
+2026-01-24 22:30:01 | INFO | Best 3 checkpoints:
+2026-01-24 22:30:01 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:30:01 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:30:01 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:30:02 | INFO | Step 2400: loss=0.0141 | IF_loss=0.0160, MQ_loss=0.0122 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000039
+2026-01-24 22:31:52 | INFO |
+============================================================
+Validation Results (took 6.60s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6503
+  Average Acc: 0.6691
+  Total Loss: 1.7095
+  Instruction Loss: 1.5571
+  Quality Loss: 1.8619
+============================================================
+2026-01-24 22:31:53 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2499.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:31:53 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2499.pt (575.2MB)
+2026-01-24 22:31:53 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2499.pt
+2026-01-24 22:31:53 | INFO | Best 3 checkpoints:
+2026-01-24 22:31:53 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:31:53 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:31:53 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:31:54 | INFO | Step 2500: loss=0.0073 | IF_loss=0.0109, MQ_loss=0.0036 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000035
+2026-01-24 22:33:43 | INFO |
+============================================================
+Validation Results (took 6.93s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6503
+  Average Acc: 0.6691
+  Total Loss: 1.7093
+  Instruction Loss: 1.5586
+  Quality Loss: 1.8601
+============================================================
+2026-01-24 22:33:43 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2599.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:33:43 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2599.pt (575.2MB)
+2026-01-24 22:33:43 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2599.pt
+2026-01-24 22:33:43 | INFO | Best 3 checkpoints:
+2026-01-24 22:33:43 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:33:43 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:33:43 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:33:44 | INFO | Step 2600: loss=0.0025 | IF_loss=0.0039, MQ_loss=0.0011 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000031
+2026-01-24 22:35:39 | INFO |
+============================================================
+Validation Results (took 6.71s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6503
+  Average Acc: 0.6691
+  Total Loss: 1.7105
+  Instruction Loss: 1.5632
+  Quality Loss: 1.8577
+============================================================
+2026-01-24 22:35:39 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2699.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:35:39 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2699.pt (575.2MB)
+2026-01-24 22:35:39 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2699.pt
+2026-01-24 22:35:39 | INFO | Best 3 checkpoints:
+2026-01-24 22:35:39 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:35:39 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:35:39 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:35:40 | INFO | Step 2700: loss=0.0285 | IF_loss=0.0436, MQ_loss=0.0134 | acc=0.990 (IF=0.979, MQ=1.000) | lr=0.000028
+2026-01-24 22:37:31 | INFO |
+============================================================
+Validation Results (took 7.15s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.6503
+  Average Acc: 0.6676
+  Total Loss: 1.7119
+  Instruction Loss: 1.5662
+  Quality Loss: 1.8576
+============================================================
+2026-01-24 22:37:31 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2799.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:37:32 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2799.pt (575.2MB)
+2026-01-24 22:37:32 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2799.pt
+2026-01-24 22:37:32 | INFO | Best 3 checkpoints:
+2026-01-24 22:37:32 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:37:32 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:37:32 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:37:33 | INFO | Step 2800: loss=0.0054 | IF_loss=0.0086, MQ_loss=0.0023 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000024
+2026-01-24 22:39:25 | INFO |
+============================================================
+Validation Results (took 6.52s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6503
+  Average Acc: 0.6691
+  Total Loss: 1.7105
+  Instruction Loss: 1.5670
+  Quality Loss: 1.8540
+============================================================
+2026-01-24 22:39:25 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2899.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:39:26 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2899.pt (575.2MB)
+2026-01-24 22:39:26 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2899.pt
+2026-01-24 22:39:26 | INFO | Best 3 checkpoints:
+2026-01-24 22:39:26 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:39:26 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:39:26 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:39:27 | INFO | Step 2900: loss=0.0121 | IF_loss=0.0158, MQ_loss=0.0084 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000020
+2026-01-24 22:41:17 | INFO |
+============================================================
+Validation Results (took 7.44s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6503
+  Average Acc: 0.6691
+  Total Loss: 1.7130
+  Instruction Loss: 1.5717
+  Quality Loss: 1.8543
+============================================================
+2026-01-24 22:41:17 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2999.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:41:17 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2999.pt (575.2MB)
+2026-01-24 22:41:18 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2999.pt
+2026-01-24 22:41:18 | INFO | Best 3 checkpoints:
+2026-01-24 22:41:18 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:41:18 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:41:18 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:41:19 | INFO | Step 3000: loss=0.0040 | IF_loss=0.0024, MQ_loss=0.0055 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000017
+2026-01-24 22:43:12 | INFO |
+============================================================
+Validation Results (took 6.84s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.6503
+  Average Acc: 0.6705
+  Total Loss: 1.7137
+  Instruction Loss: 1.5743
+  Quality Loss: 1.8532
+============================================================
+2026-01-24 22:43:12 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3099.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:43:12 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3099.pt (575.2MB)
+2026-01-24 22:43:12 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3099.pt
+2026-01-24 22:43:12 | INFO | Best 3 checkpoints:
+2026-01-24 22:43:12 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:43:12 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:43:12 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:43:13 | INFO | Step 3100: loss=0.0095 | IF_loss=0.0161, MQ_loss=0.0029 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000014
+2026-01-24 22:45:04 | INFO |
+============================================================
+Validation Results (took 7.66s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6503
+  Average Acc: 0.6691
+  Total Loss: 1.7135
+  Instruction Loss: 1.5760
+  Quality Loss: 1.8510
+============================================================
+2026-01-24 22:45:04 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3199.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:45:04 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3199.pt (575.2MB)
+2026-01-24 22:45:04 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3199.pt
+2026-01-24 22:45:04 | INFO | Best 3 checkpoints:
+2026-01-24 22:45:04 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:45:04 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:45:04 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:45:08 | INFO | Step 3200: loss=0.0050 | IF_loss=0.0072, MQ_loss=0.0027 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000011
+2026-01-24 22:46:57 | INFO |
+============================================================
+Validation Results (took 6.84s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6503
+  Average Acc: 0.6691
+  Total Loss: 1.7154
+  Instruction Loss: 1.5809
+  Quality Loss: 1.8499
+============================================================
+2026-01-24 22:46:57 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3299.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:46:57 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3299.pt (575.2MB)
+2026-01-24 22:46:57 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3299.pt
+2026-01-24 22:46:57 | INFO | Best 3 checkpoints:
+2026-01-24 22:46:57 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:46:57 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:46:57 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:46:58 | INFO | Step 3300: loss=0.0362 | IF_loss=0.0503, MQ_loss=0.0221 | acc=0.990 (IF=0.979, MQ=1.000) | lr=0.000009
+2026-01-24 22:48:50 | INFO |
+============================================================
+Validation Results (took 6.83s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6532
+  Average Acc: 0.6705
+  Total Loss: 1.7154
+  Instruction Loss: 1.5832
+  Quality Loss: 1.8477
+============================================================
+2026-01-24 22:48:50 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3399.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:48:51 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3399.pt (575.2MB)
+2026-01-24 22:48:51 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3399.pt
+2026-01-24 22:48:51 | INFO | Best 3 checkpoints:
+2026-01-24 22:48:51 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:48:51 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:48:51 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:48:52 | INFO | Step 3400: loss=0.0082 | IF_loss=0.0113, MQ_loss=0.0051 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000006
+2026-01-24 22:50:41 | INFO |
+============================================================
+Validation Results (took 7.19s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.6590
+  Average Acc: 0.6749
+  Total Loss: 1.7151
+  Instruction Loss: 1.5847
+  Quality Loss: 1.8456
+============================================================
+2026-01-24 22:50:41 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3499.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:50:41 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3499.pt (575.2MB)
+2026-01-24 22:50:41 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2299.pt
+2026-01-24 22:50:41 | INFO | Best 3 checkpoints:
+2026-01-24 22:50:41 | INFO |   1. Step 3499: acc=0.6749 (reward_model.best_3499.pt)
+2026-01-24 22:50:41 | INFO |   2. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:50:41 | INFO |   3. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:50:42 | INFO | Step 3500: loss=0.0045 | IF_loss=0.0077, MQ_loss=0.0013 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000005
+2026-01-24 22:52:33 | INFO |
+============================================================
+Validation Results (took 7.08s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6590
+  Average Acc: 0.6734
+  Total Loss: 1.7160
+  Instruction Loss: 1.5876
+  Quality Loss: 1.8445
+============================================================
+2026-01-24 22:52:33 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3599.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:52:34 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3599.pt (575.2MB)
+2026-01-24 22:52:34 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1999.pt
+2026-01-24 22:52:34 | INFO | Best 3 checkpoints:
+2026-01-24 22:52:34 | INFO |   1. Step 3499: acc=0.6749 (reward_model.best_3499.pt)
+2026-01-24 22:52:34 | INFO |   2. Step 3599: acc=0.6734 (reward_model.best_3599.pt)
+2026-01-24 22:52:34 | INFO |   3. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:52:35 | INFO | Step 3600: loss=0.0126 | IF_loss=0.0220, MQ_loss=0.0031 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000003
+2026-01-24 22:54:24 | INFO |
+============================================================
+Validation Results (took 7.20s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6590
+  Average Acc: 0.6734
+  Total Loss: 1.7161
+  Instruction Loss: 1.5894
+  Quality Loss: 1.8428
+============================================================
+2026-01-24 22:54:24 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3699.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:54:24 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3699.pt (575.2MB)
+2026-01-24 22:54:24 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2399.pt
+2026-01-24 22:54:24 | INFO | Best 3 checkpoints:
+2026-01-24 22:54:24 | INFO |   1. Step 3499: acc=0.6749 (reward_model.best_3499.pt)
+2026-01-24 22:54:24 | INFO |   2. Step 3599: acc=0.6734 (reward_model.best_3599.pt)
+2026-01-24 22:54:24 | INFO |   3. Step 3699: acc=0.6734 (reward_model.best_3699.pt)
+2026-01-24 22:54:25 | INFO | Step 3700: loss=0.0085 | IF_loss=0.0041, MQ_loss=0.0130 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000002
+2026-01-24 22:56:18 | INFO |
+============================================================
+Validation Results (took 6.85s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6618
+  Average Acc: 0.6749
+  Total Loss: 1.7157
+  Instruction Loss: 1.5912
+  Quality Loss: 1.8403
+============================================================
+2026-01-24 22:56:18 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3799.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:56:19 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3799.pt (575.2MB)
+2026-01-24 22:56:19 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3699.pt
+2026-01-24 22:56:19 | INFO | Best 3 checkpoints:
+2026-01-24 22:56:19 | INFO |   1. Step 3499: acc=0.6749 (reward_model.best_3499.pt)
+2026-01-24 22:56:19 | INFO |   2. Step 3799: acc=0.6749 (reward_model.best_3799.pt)
+2026-01-24 22:56:19 | INFO |   3. Step 3599: acc=0.6734 (reward_model.best_3599.pt)
+2026-01-24 22:56:20 | INFO | Step 3800: loss=0.0120 | IF_loss=0.0037, MQ_loss=0.0202 | acc=0.990 (IF=1.000, MQ=0.979) | lr=0.000001
+2026-01-24 22:58:09 | INFO |
+============================================================
+Validation Results (took 7.39s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.6590
+  Average Acc: 0.6749
+  Total Loss: 1.7163
+  Instruction Loss: 1.5935
+  Quality Loss: 1.8391
+============================================================
+2026-01-24 22:58:09 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3899.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:58:10 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3899.pt (575.2MB)
+2026-01-24 22:58:10 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3599.pt
+2026-01-24 22:58:10 | INFO | Best 3 checkpoints:
+2026-01-24 22:58:10 | INFO |   1. Step 3499: acc=0.6749 (reward_model.best_3499.pt)
+2026-01-24 22:58:10 | INFO |   2. Step 3799: acc=0.6749 (reward_model.best_3799.pt)
+2026-01-24 22:58:10 | INFO |   3. Step 3899: acc=0.6749 (reward_model.best_3899.pt)
+2026-01-24 22:58:11 | INFO | Step 3900: loss=0.0060 | IF_loss=0.0040, MQ_loss=0.0080 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000000
+2026-01-24 23:00:02 | INFO |
+============================================================
+Validation Results (took 6.60s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.6590
+  Average Acc: 0.6749
+  Total Loss: 1.7165
+  Instruction Loss: 1.5967
+  Quality Loss: 1.8363
+============================================================
+2026-01-24 23:00:02 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3999.pt (filtered to 38.584M trainable parameters)
+2026-01-24 23:00:02 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3999.pt (575.2MB)
+2026-01-24 23:00:02 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3999.pt
+2026-01-24 23:00:02 | INFO | Best 3 checkpoints:
+2026-01-24 23:00:02 | INFO |   1. Step 3499: acc=0.6749 (reward_model.best_3499.pt)
+2026-01-24 23:00:02 | INFO |   2. Step 3799: acc=0.6749 (reward_model.best_3799.pt)
+2026-01-24 23:00:02 | INFO |   3. Step 3899: acc=0.6749 (reward_model.best_3899.pt)
+2026-01-24 23:00:02 | INFO | Training complete!
+2026-01-24 23:00:02 | INFO | Training complete!

finetune_human/20260124_2354/config.yaml ADDED Viewed

	@@ -0,0 +1,142 @@

+DEVICES: '3'
+accelerate:
+  mixed_precision: bf16
+basics:
+  random_seed: 42
+  save_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model
+dataset:
+  audio_dropout:
+    apply_to_eval: false
+    apply_to_ref: true
+    enabled: true
+    eval_only_on_training: true
+    max_duration: 1500
+    min_duration: 200
+    train_mode: start
+  cache_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/tmp
+  db_path: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/backend/database.db
+  duration: 600.0
+  embedding_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/supervised_embeddings
+  max_samples: null
+  max_val_samples: null
+  metadata_jsonl: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/all_comparisons.jsonl
+  mode: raw_text_frozen_audio
+  preference_file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/human_annotations/train.json
+  sample_rate: 24000
+  val_preference_file: null
+loss:
+  IF_ratio: 0.5
+  filter_ties: true
+  label_smoothing: 0.0
+  reduction: mean
+model:
+  attention_mode: SA
+  attn_dropout: 0.0
+  category_embeddings: null
+  dim: 768
+  dim_head: 64
+  downsample:
+    configs:
+      conv2_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv*2
+        use_layernorm: true
+      conv_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv
+        stage: 1
+        use_layernorm: true
+      glu_4x:
+        factor: 4
+        kernel_size: 5
+        kind: gluconv*2+pw
+        use_layernorm: true
+      mean:
+        factor: 2
+        kind: mean
+      mean_4x:
+        dropout: 0.0
+        factor: 30
+        kind: mean+mlp
+        mlp_ratio: 2.0
+      none:
+        factor: 1
+        kind: none
+    eval: mean_4x
+    ref: null
+    text: none
+  ff_dropout: 0.0
+  ff_mult: 4
+  freeze_audio: true
+  freeze_text: true
+  gradient_checkpointing: false
+  heads: 8
+  joint_tf_depth: 1
+  load_config:
+    checkpoint_path: null
+    frozen_from_pretrained: true
+    pretrained_name: OpenMuQ/MuQ-MuLan-large
+    strict: false
+  mlp_dim: 768
+  mode: concat_text_late
+  model_name: OpenMuQ/MuQ-MuLan-large
+  name: reward
+  no_condition: false
+  null_embedding:
+    audio:
+      dropout: 0.5
+      length: 10
+    lyrics:
+      dropout: 0.3
+      length: 10
+    text:
+      dropout: 0
+      length: 10
+  output_dim: 2
+  prompt_tf_depth: 4
+  sr: 24000
+  text_encoder:
+    name: muq_mulan
+    tune: null
+  text_lora_config: null
+  train_muq_depth: 0
+  train_muqmulan: false
+  use_audio: true
+  use_layer_idx: -1
+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+run_name: null
+train:
+  batch_size: 48
+  betas:
+  - 0.9
+  - 0.99
+  ema_decay: 0.9999
+  ema_update_every: 1
+  enable_gradient_checkpointing: true
+  force_clear_prev_results: false
+  grad_accum_every: 1
+  log_tensorboard: true
+  lr_schedule:
+    min_lr_ratio: 0.001
+    name: linear_cosine
+    total_steps: 4000
+    warmup_steps: 10
+  max_grad_norm: 1
+  mlp_lr: 1.0e-05
+  num_train_steps: 4000
+  num_valid_batches: null
+  num_workers: 8
+  other_lr: 1.0e-05
+  resume: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.best_29999.pt
+  resume_optimizer: false
+  save_model_every: 2000
+  use_checkpoint_config: true
+  use_ema: false
+  use_lion: false
+  valid_batch_size: 20
+  valid_every: 100
+  valid_frac: 0.1
+  verify_weights_on_load: true
+validate_only: false