diff --git a/.gitattributes b/.gitattributes
index 759cec7289e4e41ec97e57aa1e2e915874e774e3..31f30c15c389bee0ebe31118e1592a08068dd343 100644
--- a/.gitattributes
+++ b/.gitattributes
@@ -57,3 +57,12 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 2025.12.18/04.43.54_train_llmbc_lowdim_box-close-v2/wandb/run-20251218_044410-v5c3a4ag/run-v5c3a4ag.wandb filter=lfs diff=lfs merge=lfs -text
 2025.12.18/04.43.59_train_llmbc_lowdim_box-close-v2/logs.json.txt filter=lfs diff=lfs merge=lfs -text
 2025.12.18/04.43.59_train_llmbc_lowdim_box-close-v2/wandb/run-20251218_044411-dwnu9dgu/run-dwnu9dgu.wandb filter=lfs diff=lfs merge=lfs -text
+2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/run-dwqvyi2n.wandb filter=lfs diff=lfs merge=lfs -text
+2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt filter=lfs diff=lfs merge=lfs -text
+2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/run-czbe67ue.wandb filter=lfs diff=lfs merge=lfs -text
+2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt filter=lfs diff=lfs merge=lfs -text
+2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/run-pgfbe1bv.wandb filter=lfs diff=lfs merge=lfs -text
+2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt filter=lfs diff=lfs merge=lfs -text
+2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/run-wn6bouke.wandb filter=lfs diff=lfs merge=lfs -text
+2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt filter=lfs diff=lfs merge=lfs -text
+2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/run-wvteizn9.wandb filter=lfs diff=lfs merge=lfs -text
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..3e85301528b11b30ba7645629e461f67705469a7
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
@@ -0,0 +1,193 @@
+name: train_llm_diffusion_unet_lowdim
+_target_: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+keypoint_visible_rate: 1.0
+obs_as_local_cond: false
+obs_as_global_cond: true
+pred_action_steps_only: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+  model:
+    _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+    input_dim: '${eval: ${task.action_dim} if ${obs_as_local_cond} or ${obs_as_global_cond}
+      else ${task.obs_dim} + ${task.action_dim}}'
+    local_cond_dim: '${eval: ${task.obs_dim} if ${obs_as_local_cond} else None}'
+    global_cond_dim: '${eval: ${task.obs_dim}*${n_obs_steps} if ${obs_as_global_cond}
+      else None}'
+    diffusion_step_embed_dim: 256
+    down_dims:
+    - 256
+    - 512
+    - 1024
+    kernel_size: 5
+    n_groups: 8
+    cond_predict_scale: true
+  noise_scheduler:
+    _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+    num_train_timesteps: 100
+    beta_start: 0.0001
+    beta_end: 0.02
+    beta_schedule: squaredcos_cap_v2
+    variance_type: fixed_small
+    clip_sample: true
+    prediction_type: epsilon
+  horizon: ${horizon}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  n_obs_steps: ${n_obs_steps}
+  num_inference_steps: 100
+  obs_as_local_cond: ${obs_as_local_cond}
+  obs_as_global_cond: ${obs_as_global_cond}
+  pred_action_steps_only: ${pred_action_steps_only}
+  oa_step_convention: true
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${obs_dim}
+      action_dim: ${action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  loss_dp_weight: 1.0
+  loss_llm_weight: 0.001
+  normalize_llm_loss: true
+  reweight_llm_loss: true
+ema:
+  _target_: llmbc.model.diffusion.ema_model.EMAModel
+  update_after_step: 0
+  inv_gamma: 1.0
+  power: 0.75
+  min_value: 0.0
+  max_value: 0.9999
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: false
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.0001
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 43
+  debug: false
+  resume: true
+  lr_scheduler: cosine
+  lr_warmup_steps: 500
+  num_epochs: 1001
+  gradient_accumulate_every: 16
+  use_ema: true
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: parking-v0
+  obs_dim: 18
+  action_dim: 2
+  env_runner:
+    _target_: llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner
+    env_name: llf-highway-parking-v0
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 80
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    - fp
+    visual: false
+    discount: 0.99
+  dataset:
+    _target_: llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset
+    data_path: datasets/parking-v0.pt
+    data_path2: datasets/parking-v0.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    obs_eef_target: true
+    use_manual_normalizer: false
+    val_ratio: 0.02
+    dummy_normalizer: false
+  instructor:
+    _target_: llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..72f42ae0af6b46491f1d5a0482a2511593d869f5
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
@@ -0,0 +1,156 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - policy.loss_llm_weight=1.0e-3
+    - training.seed=43
+  job:
+    name: train
+    chdir: null
+    override_dirname: policy.loss_llm_weight=1.0e-3,training.seed=43
+    id: ???
+    num: ???
+    config_name: llmdp_parking-v0.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /root/workspace/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /root/workspace/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /root/workspace/LLM-BC/data/outputs/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..f4d268b6714047edf6d4d30b34335ef180cdaf8b
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
@@ -0,0 +1,2 @@
+- policy.loss_llm_weight=1.0e-3
+- training.seed=43
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0000-test_success_rate=0.000.ckpt b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0000-test_success_rate=0.000.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..b8deb81de0a10fe29c919510b09a4ba21dc046b1
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0000-test_success_rate=0.000.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:76adca146ef108eea3da0b8c6c9b3c17bd11609c848bd2dc21ea9745fbc0eb3b
+size 1042506738
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..4eac643568ac61cb8ce1973dcba598793ff4f93d
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a46bf401ce83d21e34ee2c8d0d8f5648f71eafebad6a0ed07d6b50c945c1e2c6
+size 1042506738
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt
new file mode 100644
index 0000000000000000000000000000000000000000..08e03a7fcf516f85aac2436e111f70672b0c2bd8
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt
@@ -0,0 +1,1822 @@
+{"train_loss": 1.584212064743042, "train_loss_dp": 1.5841915607452393, "train_loss_llm": 0.02053701877593994, "global_step": 0, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.3509715795516968, "train_loss_dp": 1.3509111404418945, "train_loss_llm": 0.06048786640167236, "global_step": 1, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 0.7406488656997681, "train_loss_dp": 0.7406478524208069, "train_loss_llm": 0.0010235309600830078, "global_step": 2, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.4030135869979858, "train_loss_dp": 1.4030135869979858, "train_loss_llm": 0.0, "global_step": 3, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.456469178199768, "train_loss_dp": 1.4563829898834229, "train_loss_llm": 0.08615481853485107, "global_step": 4, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.397457480430603, "train_loss_dp": 1.3974237442016602, "train_loss_llm": 0.03369978070259094, "global_step": 5, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.2881828546524048, "train_loss_dp": 1.2881211042404175, "train_loss_llm": 0.061731815338134766, "global_step": 6, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.1544742584228516, "train_loss_dp": 1.154394268989563, "train_loss_llm": 0.07995033264160156, "global_step": 7, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.648735523223877, "train_loss_dp": 1.6486905813217163, "train_loss_llm": 0.04494208097457886, "global_step": 8, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.3915210962295532, "train_loss_dp": 1.3914196491241455, "train_loss_llm": 0.10149455070495605, "global_step": 9, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.277463674545288, "train_loss_dp": 1.2773866653442383, "train_loss_llm": 0.0769805908203125, "global_step": 10, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 0.9763931632041931, "train_loss_dp": 0.976382315158844, "train_loss_llm": 0.010874509811401367, "global_step": 11, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.169583797454834, "train_loss_dp": 1.1694921255111694, "train_loss_llm": 0.09163951873779297, "global_step": 12, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.0743613243103027, "train_loss_dp": 1.0743613243103027, "train_loss_llm": 0.0, "global_step": 13, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.0671827793121338, "train_loss_dp": 1.0671169757843018, "train_loss_llm": 0.0657501220703125, "global_step": 14, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.082355260848999, "train_loss_dp": 1.0823049545288086, "train_loss_llm": 0.05028796195983887, "global_step": 15, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 0.6610438823699951, "train_loss_dp": 0.6608175039291382, "train_loss_llm": 0.22635769844055176, "global_step": 16, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.119051218032837, "train_loss_dp": 1.1190288066864014, "train_loss_llm": 0.022393226623535156, "global_step": 17, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 0.767219066619873, "train_loss_dp": 0.7671853303909302, "train_loss_llm": 0.03376579284667969, "global_step": 18, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 0.9423946738243103, "train_loss_dp": 0.9423728585243225, "train_loss_llm": 0.0218353271484375, "global_step": 19, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 0.9455877542495728, "train_loss_dp": 0.9455302953720093, "train_loss_llm": 0.05746126174926758, "global_step": 20, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 0.7436941266059875, "train_loss_dp": 0.7436941266059875, "train_loss_llm": 0.0, "global_step": 21, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 0.9128386974334717, "train_loss_dp": 0.9127398133277893, "train_loss_llm": 0.09885787963867188, "global_step": 22, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 0.8227022886276245, "train_loss_dp": 0.8227022886276245, "train_loss_llm": 0.0, "global_step": 23, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.2501555681228638, "train_loss_dp": 1.2500942945480347, "train_loss_llm": 0.061251163482666016, "global_step": 24, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.008962869644165, "train_loss_dp": 1.0089459419250488, "train_loss_llm": 0.01688098907470703, "global_step": 25, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.0481932163238525, "train_loss_dp": 1.0481932163238525, "train_loss_llm": 0.0, "global_step": 26, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 0.9715693593025208, "train_loss_dp": 0.97154301404953, "train_loss_llm": 0.026337146759033203, "global_step": 27, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.2402427196502686, "train_loss_dp": 1.24019193649292, "train_loss_llm": 0.05081942677497864, "global_step": 28, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 0.7423131465911865, "train_loss_dp": 0.7422574162483215, "train_loss_llm": 0.05572676658630371, "global_step": 29, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 0.5535826086997986, "train_loss_dp": 0.5535818338394165, "train_loss_llm": 0.0007506012916564941, "global_step": 30, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.2650575637817383, "train_loss_dp": 1.2650337219238281, "train_loss_llm": 0.023813724517822266, "global_step": 31, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 0.7979075312614441, "train_loss_dp": 0.7978873252868652, "train_loss_llm": 0.020177006721496582, "global_step": 32, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 0.6174359917640686, "train_loss_dp": 0.6173502802848816, "train_loss_llm": 0.08573532104492188, "global_step": 33, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.256456732749939, "train_loss_dp": 1.2564506530761719, "train_loss_llm": 0.006051063537597656, "global_step": 34, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 0.6507096886634827, "train_loss_dp": 0.6506468057632446, "train_loss_llm": 0.0628899335861206, "global_step": 35, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 0.9657294154167175, "train_loss_dp": 0.9657005071640015, "train_loss_llm": 0.02890145778656006, "global_step": 36, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.0518122911453247, "train_loss_dp": 1.0517884492874146, "train_loss_llm": 0.023801326751708984, "global_step": 37, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.220955491065979, "train_loss_dp": 1.2208878993988037, "train_loss_llm": 0.06760895252227783, "global_step": 38, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.3647172451019287, "train_loss_dp": 1.364563226699829, "train_loss_llm": 0.15395903587341309, "global_step": 39, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.2888078689575195, "train_loss_dp": 1.2887752056121826, "train_loss_llm": 0.03260934352874756, "global_step": 40, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.4209038019180298, "train_loss_dp": 1.420896053314209, "train_loss_llm": 0.007785797119140625, "global_step": 41, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.1304152011871338, "train_loss_dp": 1.13034987449646, "train_loss_llm": 0.065338134765625, "global_step": 42, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.0144778490066528, "train_loss_dp": 1.0144038200378418, "train_loss_llm": 0.07400798797607422, "global_step": 43, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.0965862274169922, "train_loss_dp": 1.0964620113372803, "train_loss_llm": 0.12418735027313232, "global_step": 44, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 0.684991180896759, "train_loss_dp": 0.6849498152732849, "train_loss_llm": 0.041373252868652344, "global_step": 45, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.0818216800689697, "train_loss_dp": 1.0816850662231445, "train_loss_llm": 0.13655471801757812, "global_step": 46, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.0445877313613892, "train_loss_dp": 1.0445877313613892, "train_loss_llm": 0.0, "global_step": 47, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 0.9332404136657715, "train_loss_dp": 0.9331947565078735, "train_loss_llm": 0.04567146301269531, "global_step": 48, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 0.8548876047134399, "train_loss_dp": 0.8548094034194946, "train_loss_llm": 0.07818734645843506, "global_step": 49, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.459986925125122, "train_loss_dp": 1.4599182605743408, "train_loss_llm": 0.06863117218017578, "global_step": 50, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 0.9072558879852295, "train_loss_dp": 0.9071120023727417, "train_loss_llm": 0.1438666582107544, "global_step": 51, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.4977858066558838, "train_loss_dp": 1.4977385997772217, "train_loss_llm": 0.0471729040145874, "global_step": 52, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.2498892545700073, "train_loss_dp": 1.2497504949569702, "train_loss_llm": 0.1387782096862793, "global_step": 53, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 0.9412508606910706, "train_loss_dp": 0.94119793176651, "train_loss_llm": 0.05291318893432617, "global_step": 54, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.2258288860321045, "train_loss_dp": 1.2257816791534424, "train_loss_llm": 0.04716682434082031, "global_step": 55, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 0.797616720199585, "train_loss_dp": 0.7976117134094238, "train_loss_llm": 0.0050201416015625, "global_step": 56, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 0.9315491318702698, "train_loss_dp": 0.9314504265785217, "train_loss_llm": 0.09869939088821411, "global_step": 57, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.3646819591522217, "train_loss_dp": 1.3645731210708618, "train_loss_llm": 0.10887336730957031, "global_step": 58, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.1499512195587158, "train_loss_dp": 1.1498115062713623, "train_loss_llm": 0.13971710205078125, "global_step": 59, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.1805932521820068, "train_loss_dp": 1.1805095672607422, "train_loss_llm": 0.08373802900314331, "global_step": 60, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 0.9145111441612244, "train_loss_dp": 0.9143643379211426, "train_loss_llm": 0.14680027961730957, "global_step": 61, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.242118000984192, "train_loss_dp": 1.2420870065689087, "train_loss_llm": 0.031042098999023438, "global_step": 62, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 0.8343066573143005, "train_loss_dp": 0.8340754508972168, "train_loss_llm": 0.23122406005859375, "global_step": 63, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 0.9973825216293335, "train_loss_dp": 0.9972646832466125, "train_loss_llm": 0.11784744262695312, "global_step": 64, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.1601258516311646, "train_loss_dp": 1.1601258516311646, "train_loss_llm": 0.0, "global_step": 65, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.106430172920227, "train_loss_dp": 1.106389045715332, "train_loss_llm": 0.04111337661743164, "global_step": 66, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 0.7498306035995483, "train_loss_dp": 0.7498193383216858, "train_loss_llm": 0.01123952865600586, "global_step": 67, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 0.790002703666687, "train_loss_dp": 0.789957582950592, "train_loss_llm": 0.045107245445251465, "global_step": 68, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 0.8616355657577515, "train_loss_dp": 0.8615328669548035, "train_loss_llm": 0.10271883010864258, "global_step": 69, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.1231355667114258, "train_loss_dp": 1.1230902671813965, "train_loss_llm": 0.04525566101074219, "global_step": 70, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.4467943906784058, "train_loss_dp": 1.4466471672058105, "train_loss_llm": 0.14722073078155518, "global_step": 71, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.141728401184082, "train_loss_dp": 1.1417163610458374, "train_loss_llm": 0.012060284614562988, "global_step": 72, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 0.8628751039505005, "train_loss_dp": 0.862860918045044, "train_loss_llm": 0.014200150966644287, "global_step": 73, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.4728089570999146, "train_loss_dp": 1.4727833271026611, "train_loss_llm": 0.02567267417907715, "global_step": 74, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.1074737310409546, "train_loss_dp": 1.1074508428573608, "train_loss_llm": 0.022847652435302734, "global_step": 75, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 0.5433670282363892, "train_loss_dp": 0.5433350801467896, "train_loss_llm": 0.031957387924194336, "global_step": 76, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.2242873907089233, "train_loss_dp": 1.2241184711456299, "train_loss_llm": 0.16892242431640625, "global_step": 77, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.1774516105651855, "train_loss_dp": 1.1773849725723267, "train_loss_llm": 0.0666208267211914, "global_step": 78, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 0.8609738945960999, "train_loss_dp": 0.8609738945960999, "train_loss_llm": 0.0, "global_step": 79, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.4864081144332886, "train_loss_dp": 1.4863454103469849, "train_loss_llm": 0.06268882751464844, "global_step": 80, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.4250843524932861, "train_loss_dp": 1.4250843524932861, "train_loss_llm": 0.0, "global_step": 81, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 0.9402849674224854, "train_loss_dp": 0.9402279853820801, "train_loss_llm": 0.05696392059326172, "global_step": 82, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 0.8969389200210571, "train_loss_dp": 0.8968610167503357, "train_loss_llm": 0.07790565490722656, "global_step": 83, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.015427827835083, "train_loss_dp": 1.0152238607406616, "train_loss_llm": 0.2039966583251953, "global_step": 84, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.369526982307434, "train_loss_dp": 1.368984580039978, "train_loss_llm": 0.5423965454101562, "global_step": 85, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.2403662204742432, "train_loss_dp": 1.240328073501587, "train_loss_llm": 0.03819757699966431, "global_step": 86, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 0.9843577742576599, "train_loss_dp": 0.9843427538871765, "train_loss_llm": 0.015025198459625244, "global_step": 87, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 0.7886460423469543, "train_loss_dp": 0.7885423302650452, "train_loss_llm": 0.10371208190917969, "global_step": 88, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.3004546165466309, "train_loss_dp": 1.3004546165466309, "train_loss_llm": 0.0, "global_step": 89, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.1139429807662964, "train_loss_dp": 1.1138951778411865, "train_loss_llm": 0.047780513763427734, "global_step": 90, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 0.7028528451919556, "train_loss_dp": 0.7027795314788818, "train_loss_llm": 0.07330703735351562, "global_step": 91, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.2457467317581177, "train_loss_dp": 1.2456955909729004, "train_loss_llm": 0.051190853118896484, "global_step": 92, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.5244622230529785, "train_loss_dp": 1.5244622230529785, "train_loss_llm": 0.0, "global_step": 93, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 0.9260349869728088, "train_loss_dp": 0.9259523153305054, "train_loss_llm": 0.08265519142150879, "global_step": 94, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 0.8803447484970093, "train_loss_dp": 0.8803120851516724, "train_loss_llm": 0.03263401985168457, "global_step": 95, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.3575724363327026, "train_loss_dp": 1.3575425148010254, "train_loss_llm": 0.029898405075073242, "global_step": 96, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.344500184059143, "train_loss_dp": 1.3443934917449951, "train_loss_llm": 0.10665911436080933, "global_step": 97, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 0.8885849118232727, "train_loss_dp": 0.8885518908500671, "train_loss_llm": 0.03299665451049805, "global_step": 98, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 0.5301737189292908, "train_loss_dp": 0.5301291942596436, "train_loss_llm": 0.044506072998046875, "global_step": 99, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.3198484182357788, "train_loss_dp": 1.3198355436325073, "train_loss_llm": 0.012874722480773926, "global_step": 100, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.3116744756698608, "train_loss_dp": 1.3116211891174316, "train_loss_llm": 0.05324411392211914, "global_step": 101, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.5408016443252563, "train_loss_dp": 1.5407394170761108, "train_loss_llm": 0.06226325035095215, "global_step": 102, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.183902621269226, "train_loss_dp": 1.183881163597107, "train_loss_llm": 0.02147054672241211, "global_step": 103, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 0.6106773614883423, "train_loss_dp": 0.6106773614883423, "train_loss_llm": 0.0, "global_step": 104, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 0.8990824818611145, "train_loss_dp": 0.8986680507659912, "train_loss_llm": 0.41440582275390625, "global_step": 105, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 0.8319640159606934, "train_loss_dp": 0.8319640159606934, "train_loss_llm": 0.0, "global_step": 106, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.4574679136276245, "train_loss_dp": 1.4574167728424072, "train_loss_llm": 0.05110776424407959, "global_step": 107, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.117538332939148, "train_loss_dp": 1.117314338684082, "train_loss_llm": 0.22404956817626953, "global_step": 108, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.2486820220947266, "train_loss_dp": 1.2486143112182617, "train_loss_llm": 0.06769812107086182, "global_step": 109, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.2970269918441772, "train_loss_dp": 1.2969352006912231, "train_loss_llm": 0.09180128574371338, "global_step": 110, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 0.522554337978363, "train_loss_dp": 0.522554337978363, "train_loss_llm": 0.0, "global_step": 111, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.2564254999160767, "train_loss_dp": 1.2560431957244873, "train_loss_llm": 0.3822956085205078, "global_step": 112, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 0.806625247001648, "train_loss_dp": 0.8065905570983887, "train_loss_llm": 0.03467059135437012, "global_step": 113, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 0.9814441204071045, "train_loss_dp": 0.981414794921875, "train_loss_llm": 0.029316186904907227, "global_step": 114, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.0898563861846924, "train_loss_dp": 1.089754581451416, "train_loss_llm": 0.101808562874794, "global_step": 115, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 0.9284612536430359, "train_loss_dp": 0.9284530282020569, "train_loss_llm": 0.008252620697021484, "global_step": 116, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.1635361909866333, "train_loss_dp": 1.1634297370910645, "train_loss_llm": 0.10646778345108032, "global_step": 117, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.4653187990188599, "train_loss_dp": 1.4652433395385742, "train_loss_llm": 0.07542049884796143, "global_step": 118, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.0314466953277588, "train_loss_dp": 1.0313738584518433, "train_loss_llm": 0.07285642623901367, "global_step": 119, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.0369715690612793, "train_loss_dp": 1.0369715690612793, "train_loss_llm": 0.0, "global_step": 120, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.0917017459869385, "train_loss_dp": 1.0916529893875122, "train_loss_llm": 0.04880809783935547, "global_step": 121, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.1321251392364502, "train_loss_dp": 1.1320061683654785, "train_loss_llm": 0.11893081665039062, "global_step": 122, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 0.8723985552787781, "train_loss_dp": 0.872390866279602, "train_loss_llm": 0.007687866687774658, "global_step": 123, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 0.6877979636192322, "train_loss_dp": 0.6877604722976685, "train_loss_llm": 0.03748130798339844, "global_step": 124, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 0.9232978224754333, "train_loss_dp": 0.9232194423675537, "train_loss_llm": 0.07837772369384766, "global_step": 125, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 0.9893462657928467, "train_loss_dp": 0.9892688989639282, "train_loss_llm": 0.07736778259277344, "global_step": 126, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 0.9492454528808594, "train_loss_dp": 0.9492250680923462, "train_loss_llm": 0.02037191390991211, "global_step": 127, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.0874762535095215, "train_loss_dp": 1.08734130859375, "train_loss_llm": 0.13493919372558594, "global_step": 128, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.608189344406128, "train_loss_dp": 1.6080808639526367, "train_loss_llm": 0.10844850540161133, "global_step": 129, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.1704919338226318, "train_loss_dp": 1.1704919338226318, "train_loss_llm": 0.0, "global_step": 130, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.1047970056533813, "train_loss_dp": 1.1047970056533813, "train_loss_llm": 0.0, "global_step": 131, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.6968932747840881, "train_loss_dp": 0.6968733072280884, "train_loss_llm": 0.019984006881713867, "global_step": 132, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.4333815574645996, "train_loss_dp": 1.4333815574645996, "train_loss_llm": 0.0, "global_step": 133, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.3930352926254272, "train_loss_dp": 1.3930258750915527, "train_loss_llm": 0.00940704345703125, "global_step": 134, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.125378131866455, "train_loss_dp": 1.1253337860107422, "train_loss_llm": 0.044327497482299805, "global_step": 135, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.9417292475700378, "train_loss_dp": 0.9417292475700378, "train_loss_llm": 0.0, "global_step": 136, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.9834505915641785, "train_loss_dp": 0.9833695292472839, "train_loss_llm": 0.08103466033935547, "global_step": 137, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.083022952079773, "train_loss_dp": 1.0829339027404785, "train_loss_llm": 0.0890665054321289, "global_step": 138, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.2417882680892944, "train_loss_dp": 1.2416338920593262, "train_loss_llm": 0.15442323684692383, "global_step": 139, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.6342485547065735, "train_loss_dp": 0.6342070698738098, "train_loss_llm": 0.041459083557128906, "global_step": 140, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.9630793929100037, "train_loss_dp": 0.9630159139633179, "train_loss_llm": 0.06347143650054932, "global_step": 141, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.360073447227478, "train_loss_dp": 1.3599836826324463, "train_loss_llm": 0.08975458145141602, "global_step": 142, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.9066413640975952, "train_loss_dp": 0.906582236289978, "train_loss_llm": 0.05910921096801758, "global_step": 143, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.5031995177268982, "train_loss_dp": 0.5031675696372986, "train_loss_llm": 0.03197154402732849, "global_step": 144, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.0106604099273682, "train_loss_dp": 1.0106604099273682, "train_loss_llm": 0.0, "global_step": 145, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.034807562828064, "train_loss_dp": 1.0346782207489014, "train_loss_llm": 0.1293947696685791, "global_step": 146, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 0.6155884861946106, "train_loss_dp": 0.6155718564987183, "train_loss_llm": 0.016642093658447266, "global_step": 147, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 0.9614964723587036, "train_loss_dp": 0.9613873362541199, "train_loss_llm": 0.1091647744178772, "global_step": 148, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 0.8614369034767151, "train_loss_dp": 0.8614369034767151, "train_loss_llm": 0.0, "global_step": 149, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.1518328189849854, "train_loss_dp": 1.1516294479370117, "train_loss_llm": 0.2034158706665039, "global_step": 150, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.4762523174285889, "train_loss_dp": 1.4761571884155273, "train_loss_llm": 0.09515553712844849, "global_step": 151, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 0.7780506014823914, "train_loss_dp": 0.7780223488807678, "train_loss_llm": 0.02825331687927246, "global_step": 152, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 0.7144703269004822, "train_loss_dp": 0.7144584655761719, "train_loss_llm": 0.011889457702636719, "global_step": 153, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.430595874786377, "train_loss_dp": 1.4303466081619263, "train_loss_llm": 0.2492828369140625, "global_step": 154, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.0544248819351196, "train_loss_dp": 1.05438232421875, "train_loss_llm": 0.04258096218109131, "global_step": 155, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.2694976329803467, "train_loss_dp": 1.269495964050293, "train_loss_llm": 0.0017004013061523438, "global_step": 156, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 0.8506639003753662, "train_loss_dp": 0.8506319522857666, "train_loss_llm": 0.03194397687911987, "global_step": 157, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 0.6307858228683472, "train_loss_dp": 0.6307858228683472, "train_loss_llm": 0.0, "global_step": 158, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 0.9639497995376587, "train_loss_dp": 0.9639315009117126, "train_loss_llm": 0.018327713012695312, "global_step": 159, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.3249784708023071, "train_loss_dp": 1.3249590396881104, "train_loss_llm": 0.019421696662902832, "global_step": 160, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.7495611906051636, "train_loss_dp": 0.7495205402374268, "train_loss_llm": 0.040648579597473145, "global_step": 161, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.8463878035545349, "train_loss_dp": 0.8463701009750366, "train_loss_llm": 0.01772955060005188, "global_step": 162, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.8886207938194275, "train_loss_dp": 0.8885235786437988, "train_loss_llm": 0.09723806381225586, "global_step": 163, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.425516128540039, "train_loss_dp": 1.4255006313323975, "train_loss_llm": 0.015480995178222656, "global_step": 164, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.0550721883773804, "train_loss_dp": 1.0548782348632812, "train_loss_llm": 0.19393932819366455, "global_step": 165, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.8543484807014465, "train_loss_dp": 0.8543086051940918, "train_loss_llm": 0.03988218307495117, "global_step": 166, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.6031508445739746, "train_loss_dp": 0.603107750415802, "train_loss_llm": 0.04310929775238037, "global_step": 167, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.903008222579956, "train_loss_dp": 0.9030027389526367, "train_loss_llm": 0.0054607391357421875, "global_step": 168, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.9238842725753784, "train_loss_dp": 0.9238673448562622, "train_loss_llm": 0.016934514045715332, "global_step": 169, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.7680912613868713, "train_loss_dp": 0.7680912613868713, "train_loss_llm": 0.0, "global_step": 170, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.7963102459907532, "train_loss_dp": 0.7962750196456909, "train_loss_llm": 0.03521418571472168, "global_step": 171, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.799488365650177, "train_loss_dp": 0.7994449138641357, "train_loss_llm": 0.04346156120300293, "global_step": 172, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.7140839099884033, "train_loss_dp": 0.7140449285507202, "train_loss_llm": 0.038956642150878906, "global_step": 173, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.8976284265518188, "train_loss_dp": 0.8976284265518188, "train_loss_llm": 0.0, "global_step": 174, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.2293331623077393, "train_loss_dp": 1.2292847633361816, "train_loss_llm": 0.04838824272155762, "global_step": 175, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.8289145827293396, "train_loss_dp": 0.828912079334259, "train_loss_llm": 0.0025064945220947266, "global_step": 176, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 0.8510803580284119, "train_loss_dp": 0.851053774356842, "train_loss_llm": 0.026601076126098633, "global_step": 177, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.0814563035964966, "train_loss_dp": 1.0814323425292969, "train_loss_llm": 0.023986101150512695, "global_step": 178, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.0240824222564697, "train_loss_dp": 1.0240824222564697, "train_loss_llm": 0.0, "global_step": 179, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.2998948097229004, "train_loss_dp": 1.2998772859573364, "train_loss_llm": 0.017505884170532227, "global_step": 180, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 0.7462502121925354, "train_loss_dp": 0.7462090253829956, "train_loss_llm": 0.04119551181793213, "global_step": 181, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 0.7491618394851685, "train_loss_dp": 0.7491587996482849, "train_loss_llm": 0.0030646324157714844, "global_step": 182, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.193934679031372, "train_loss_dp": 1.1934454441070557, "train_loss_llm": 0.48927879333496094, "global_step": 183, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.1383217573165894, "train_loss_dp": 1.1382874250411987, "train_loss_llm": 0.03432750701904297, "global_step": 184, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.2188855409622192, "train_loss_dp": 1.2186205387115479, "train_loss_llm": 0.2650318145751953, "global_step": 185, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.123530387878418, "train_loss_dp": 1.1234893798828125, "train_loss_llm": 0.04102545976638794, "global_step": 186, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 0.6441295742988586, "train_loss_dp": 0.644106924533844, "train_loss_llm": 0.022638320922851562, "global_step": 187, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 0.98773193359375, "train_loss_dp": 0.98773193359375, "train_loss_llm": 0.0, "global_step": 188, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 0.8960794806480408, "train_loss_dp": 0.8960275650024414, "train_loss_llm": 0.05191922187805176, "global_step": 189, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.0720824003219604, "train_loss_dp": 1.072055459022522, "train_loss_llm": 0.026918411254882812, "global_step": 190, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.0509346723556519, "train_loss_dp": 1.050851821899414, "train_loss_llm": 0.08284354209899902, "global_step": 191, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 0.753635823726654, "train_loss_dp": 0.7536323070526123, "train_loss_llm": 0.0035355091094970703, "global_step": 192, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 0.7968106865882874, "train_loss_dp": 0.7967892289161682, "train_loss_llm": 0.021448135375976562, "global_step": 193, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 0.7801899909973145, "train_loss_dp": 0.7801237106323242, "train_loss_llm": 0.06629347801208496, "global_step": 194, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 0.8627963662147522, "train_loss_dp": 0.862765908241272, "train_loss_llm": 0.030440330505371094, "global_step": 195, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.0998589992523193, "train_loss_dp": 1.099848985671997, "train_loss_llm": 0.01005864143371582, "global_step": 196, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.3959203958511353, "train_loss_dp": 1.3957713842391968, "train_loss_llm": 0.14898681640625, "global_step": 197, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.6596566438674927, "train_loss_dp": 1.6596417427062988, "train_loss_llm": 0.014874458312988281, "global_step": 198, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.0013128519058228, "train_loss_dp": 1.001204013824463, "train_loss_llm": 0.10878753662109375, "global_step": 199, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 0.8997296094894409, "train_loss_dp": 0.8996686935424805, "train_loss_llm": 0.060891926288604736, "global_step": 200, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 0.9920060038566589, "train_loss_dp": 0.9919755458831787, "train_loss_llm": 0.030485033988952637, "global_step": 201, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.0357743501663208, "train_loss_dp": 1.0356944799423218, "train_loss_llm": 0.07986056804656982, "global_step": 202, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.3493947982788086, "train_loss_dp": 1.34938645362854, "train_loss_llm": 0.008385658264160156, "global_step": 203, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 0.9346659183502197, "train_loss_dp": 0.9346659183502197, "train_loss_llm": 0.0, "global_step": 204, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.0141457319259644, "train_loss_dp": 1.0140408277511597, "train_loss_llm": 0.1048513650894165, "global_step": 205, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.3996750116348267, "train_loss_dp": 1.3996471166610718, "train_loss_llm": 0.027875900268554688, "global_step": 206, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.2552481889724731, "train_loss_dp": 1.2552481889724731, "train_loss_llm": 0.0, "global_step": 207, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 0.9182592630386353, "train_loss_dp": 0.9182592630386353, "train_loss_llm": 0.0, "global_step": 208, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.6379077434539795, "train_loss_dp": 1.6378824710845947, "train_loss_llm": 0.025251388549804688, "global_step": 209, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.1076246500015259, "train_loss_dp": 1.1075533628463745, "train_loss_llm": 0.07132399082183838, "global_step": 210, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.1842437982559204, "train_loss_dp": 1.1841970682144165, "train_loss_llm": 0.046706557273864746, "global_step": 211, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.2685015201568604, "train_loss_dp": 1.2684597969055176, "train_loss_llm": 0.04175710678100586, "global_step": 212, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.4084135293960571, "train_loss_dp": 1.4082891941070557, "train_loss_llm": 0.12437319755554199, "global_step": 213, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 0.8349601030349731, "train_loss_dp": 0.8349601030349731, "train_loss_llm": 0.0, "global_step": 214, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 0.7133560180664062, "train_loss_dp": 0.7133057117462158, "train_loss_llm": 0.05030179023742676, "global_step": 215, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 0.9592747688293457, "train_loss_dp": 0.9592434167861938, "train_loss_llm": 0.03136003017425537, "global_step": 216, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.2008010149002075, "train_loss_dp": 1.2007732391357422, "train_loss_llm": 0.027722716331481934, "global_step": 217, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.3033549785614014, "train_loss_dp": 1.3032437562942505, "train_loss_llm": 0.11121511459350586, "global_step": 218, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.1214038133621216, "train_loss_dp": 1.1213631629943848, "train_loss_llm": 0.04067230224609375, "global_step": 219, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.0823057889938354, "train_loss_dp": 1.0822782516479492, "train_loss_llm": 0.02758312225341797, "global_step": 220, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 0.7182209491729736, "train_loss_dp": 0.7182209491729736, "train_loss_llm": 0.0, "global_step": 221, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.0741372108459473, "train_loss_dp": 1.0740580558776855, "train_loss_llm": 0.07916450500488281, "global_step": 222, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 0.7865626215934753, "train_loss_dp": 0.786544919013977, "train_loss_llm": 0.017694473266601562, "global_step": 223, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.3305597305297852, "train_loss_dp": 1.3305411338806152, "train_loss_llm": 0.018578648567199707, "global_step": 224, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.7157458066940308, "train_loss_dp": 0.7157458066940308, "train_loss_llm": 0.0, "global_step": 225, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.8945764899253845, "train_loss_dp": 0.8945235013961792, "train_loss_llm": 0.053011178970336914, "global_step": 226, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.9754056930541992, "train_loss_dp": 0.9753521680831909, "train_loss_llm": 0.053554534912109375, "global_step": 227, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.1120045185089111, "train_loss_dp": 1.111945629119873, "train_loss_llm": 0.05885028839111328, "global_step": 228, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.60544353723526, "train_loss_dp": 0.605438768863678, "train_loss_llm": 0.004791259765625, "global_step": 229, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.9977233409881592, "train_loss_dp": 0.9977233409881592, "train_loss_llm": 0.0, "global_step": 230, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.831294596195221, "train_loss_dp": 0.8312020897865295, "train_loss_llm": 0.09249675273895264, "global_step": 231, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.355017066001892, "train_loss_dp": 1.3549602031707764, "train_loss_llm": 0.056809842586517334, "global_step": 232, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.6675766706466675, "train_loss_dp": 0.667526125907898, "train_loss_llm": 0.0505223274230957, "global_step": 233, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.2051335573196411, "train_loss_dp": 1.2051031589508057, "train_loss_llm": 0.030341386795043945, "global_step": 234, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.7196345925331116, "train_loss_dp": 0.7196258306503296, "train_loss_llm": 0.008778758347034454, "global_step": 235, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.193480372428894, "train_loss_dp": 1.1933737993240356, "train_loss_llm": 0.10662555694580078, "global_step": 236, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.0232605934143066, "train_loss_dp": 1.0232577323913574, "train_loss_llm": 0.0029120445251464844, "global_step": 237, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.9025157690048218, "train_loss_dp": 0.9023778438568115, "train_loss_llm": 0.1379103660583496, "global_step": 238, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.8745401501655579, "train_loss_dp": 0.8745194673538208, "train_loss_llm": 0.020668983459472656, "global_step": 239, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.9043452739715576, "train_loss_dp": 0.9043442010879517, "train_loss_llm": 0.001067519187927246, "global_step": 240, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.9863615036010742, "train_loss_dp": 0.9863426089286804, "train_loss_llm": 0.018899202346801758, "global_step": 241, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.9628721475601196, "train_loss_dp": 0.9628616571426392, "train_loss_llm": 0.010509490966796875, "global_step": 242, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.4189918041229248, "train_loss_dp": 1.4189372062683105, "train_loss_llm": 0.05460858345031738, "global_step": 243, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.3798496723175049, "train_loss_dp": 1.3798186779022217, "train_loss_llm": 0.030939340591430664, "global_step": 244, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.6619327664375305, "train_loss_dp": 0.6619192361831665, "train_loss_llm": 0.013519287109375, "global_step": 245, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.9113155007362366, "train_loss_dp": 0.9112974405288696, "train_loss_llm": 0.01807868480682373, "global_step": 246, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.3908557891845703, "train_loss_dp": 1.3907772302627563, "train_loss_llm": 0.0785561203956604, "global_step": 247, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.8984333276748657, "train_loss_dp": 0.8984333276748657, "train_loss_llm": 0.0, "global_step": 248, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.7197579741477966, "train_loss_dp": 0.7197555303573608, "train_loss_llm": 0.0024466514587402344, "global_step": 249, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.1478559970855713, "train_loss_dp": 1.1478041410446167, "train_loss_llm": 0.05188608169555664, "global_step": 250, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.2753045558929443, "train_loss_dp": 1.2750437259674072, "train_loss_llm": 0.26079368591308594, "global_step": 251, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.2261061668395996, "train_loss_dp": 1.2260866165161133, "train_loss_llm": 0.019559144973754883, "global_step": 252, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.7264124751091003, "train_loss_dp": 0.7261409759521484, "train_loss_llm": 0.2714996337890625, "global_step": 253, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.0465813875198364, "train_loss_dp": 1.0465017557144165, "train_loss_llm": 0.07965129613876343, "global_step": 254, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.7091459035873413, "train_loss_dp": 1.7090821266174316, "train_loss_llm": 0.06379961967468262, "global_step": 255, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.7793259024620056, "train_loss_dp": 0.7792659997940063, "train_loss_llm": 0.05989360809326172, "global_step": 256, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 0.9556071758270264, "train_loss_dp": 0.9555487632751465, "train_loss_llm": 0.058414459228515625, "global_step": 257, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 0.9025496244430542, "train_loss_dp": 0.902411937713623, "train_loss_llm": 0.13770675659179688, "global_step": 258, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 0.7787319421768188, "train_loss_dp": 0.7787133455276489, "train_loss_llm": 0.01859283447265625, "global_step": 259, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.161360502243042, "train_loss_dp": 1.1613000631332397, "train_loss_llm": 0.0604400634765625, "global_step": 260, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.5823705196380615, "train_loss_dp": 1.5823044776916504, "train_loss_llm": 0.06598806381225586, "global_step": 261, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.0833197832107544, "train_loss_dp": 1.0832931995391846, "train_loss_llm": 0.026585161685943604, "global_step": 262, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.2646126747131348, "train_loss_dp": 1.2645773887634277, "train_loss_llm": 0.03524613380432129, "global_step": 263, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 0.7856850028038025, "train_loss_dp": 0.7856365442276001, "train_loss_llm": 0.04845428466796875, "global_step": 264, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 0.9856991171836853, "train_loss_dp": 0.9856642484664917, "train_loss_llm": 0.03486204147338867, "global_step": 265, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 0.7507554292678833, "train_loss_dp": 0.7505965828895569, "train_loss_llm": 0.1588348150253296, "global_step": 266, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 0.9519780278205872, "train_loss_dp": 0.9519431591033936, "train_loss_llm": 0.034893035888671875, "global_step": 267, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 0.8101128339767456, "train_loss_dp": 0.8101128339767456, "train_loss_llm": 0.0, "global_step": 268, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 0.7737469673156738, "train_loss_dp": 0.773723840713501, "train_loss_llm": 0.02312368154525757, "global_step": 269, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.395948886871338, "train_loss_dp": 1.395736813545227, "train_loss_llm": 0.2120673656463623, "global_step": 270, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 0.8729194402694702, "train_loss_dp": 0.8728817701339722, "train_loss_llm": 0.03767538070678711, "global_step": 271, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 0.8762640357017517, "train_loss_dp": 0.8762331008911133, "train_loss_llm": 0.03092902898788452, "global_step": 272, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.936651349067688, "train_loss_dp": 0.936651349067688, "train_loss_llm": 0.0, "global_step": 273, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.3675591945648193, "train_loss_dp": 1.3673537969589233, "train_loss_llm": 0.20539188385009766, "global_step": 274, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.016748070716858, "train_loss_dp": 1.0166888236999512, "train_loss_llm": 0.05922400951385498, "global_step": 275, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.0281487703323364, "train_loss_dp": 1.0280787944793701, "train_loss_llm": 0.06996262073516846, "global_step": 276, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.7024919986724854, "train_loss_dp": 0.7024198770523071, "train_loss_llm": 0.07210493087768555, "global_step": 277, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.8107359409332275, "train_loss_dp": 0.8106868267059326, "train_loss_llm": 0.04912757873535156, "global_step": 278, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.9938054084777832, "train_loss_dp": 0.9937149286270142, "train_loss_llm": 0.09048700332641602, "global_step": 279, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.1649975776672363, "train_loss_dp": 1.1649315357208252, "train_loss_llm": 0.0660470724105835, "global_step": 280, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.880172848701477, "train_loss_dp": 0.8801488876342773, "train_loss_llm": 0.023984134197235107, "global_step": 281, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.7812032103538513, "train_loss_dp": 0.7811821103096008, "train_loss_llm": 0.021071910858154297, "global_step": 282, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.0962631702423096, "train_loss_dp": 1.096242070198059, "train_loss_llm": 0.02108311653137207, "global_step": 283, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.1078263521194458, "train_loss_dp": 1.1078081130981445, "train_loss_llm": 0.018259048461914062, "global_step": 284, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.313059687614441, "train_loss_dp": 1.3130137920379639, "train_loss_llm": 0.04591989517211914, "global_step": 285, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.9924246668815613, "train_loss_dp": 0.9922784566879272, "train_loss_llm": 0.14621973037719727, "global_step": 286, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.8488844633102417, "train_loss_dp": 0.8488621711730957, "train_loss_llm": 0.022294163703918457, "global_step": 287, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.8544558882713318, "train_loss_dp": 0.8543275594711304, "train_loss_llm": 0.12832260131835938, "global_step": 288, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.7979118824005127, "train_loss_dp": 0.7978771328926086, "train_loss_llm": 0.034725189208984375, "global_step": 289, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.903079628944397, "train_loss_dp": 0.9030039310455322, "train_loss_llm": 0.07568502426147461, "global_step": 290, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.809930145740509, "train_loss_dp": 0.8099180459976196, "train_loss_llm": 0.012090682983398438, "global_step": 291, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.8303297758102417, "train_loss_dp": 0.8303112387657166, "train_loss_llm": 0.018537044525146484, "global_step": 292, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.7918844819068909, "train_loss_dp": 0.7918638586997986, "train_loss_llm": 0.020645618438720703, "global_step": 293, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.9700764417648315, "train_loss_dp": 0.9700069427490234, "train_loss_llm": 0.06950271129608154, "global_step": 294, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.736629843711853, "train_loss_dp": 0.7366040945053101, "train_loss_llm": 0.025759220123291016, "global_step": 295, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.0577788352966309, "train_loss_dp": 1.0577788352966309, "train_loss_llm": 0.0, "global_step": 296, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.1129732131958008, "train_loss_dp": 1.112950325012207, "train_loss_llm": 0.02292156219482422, "global_step": 297, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.7052371501922607, "train_loss_dp": 0.705231249332428, "train_loss_llm": 0.005923748016357422, "global_step": 298, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.9141127467155457, "train_loss_dp": 0.9140796661376953, "train_loss_llm": 0.03310871124267578, "global_step": 299, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.074500560760498, "train_loss_dp": 1.0744643211364746, "train_loss_llm": 0.03623628616333008, "global_step": 300, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.7432102560997009, "train_loss_dp": 0.7432060837745667, "train_loss_llm": 0.0041658878326416016, "global_step": 301, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.6708964109420776, "train_loss_dp": 0.6707764863967896, "train_loss_llm": 0.11992204189300537, "global_step": 302, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.0638326406478882, "train_loss_dp": 1.0637989044189453, "train_loss_llm": 0.033712148666381836, "global_step": 303, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.224412202835083, "train_loss_dp": 1.2242679595947266, "train_loss_llm": 0.14418745040893555, "global_step": 304, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.2657157182693481, "train_loss_dp": 1.2657155990600586, "train_loss_llm": 0.00012350082397460938, "global_step": 305, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.7114555835723877, "train_loss_dp": 0.7114417552947998, "train_loss_llm": 0.01381826400756836, "global_step": 306, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.0090168714523315, "train_loss_dp": 1.0090168714523315, "train_loss_llm": 0.0, "global_step": 307, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.8857108950614929, "train_loss_dp": 0.8856183290481567, "train_loss_llm": 0.09257221221923828, "global_step": 308, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.8730384707450867, "train_loss_dp": 0.8730289936065674, "train_loss_llm": 0.009486675262451172, "global_step": 309, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.9663783311843872, "train_loss_dp": 0.9663757085800171, "train_loss_llm": 0.0026450157165527344, "global_step": 310, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.0128567218780518, "train_loss_dp": 1.0127876996994019, "train_loss_llm": 0.06899642944335938, "global_step": 311, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.1561665534973145, "train_loss_dp": 1.1561530828475952, "train_loss_llm": 0.013425827026367188, "global_step": 312, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.021163821220398, "train_loss_dp": 1.021134376525879, "train_loss_llm": 0.029426097869873047, "global_step": 313, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.7481138110160828, "train_loss_dp": 0.7480605244636536, "train_loss_llm": 0.05327939987182617, "global_step": 314, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.8060787916183472, "train_loss_dp": 0.8060787916183472, "train_loss_llm": 0.0, "global_step": 315, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.7686330676078796, "train_loss_dp": 0.7685840129852295, "train_loss_llm": 0.04903995990753174, "global_step": 316, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.004427194595337, "train_loss_dp": 1.004427194595337, "train_loss_llm": 0.0, "global_step": 317, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.9383341073989868, "train_loss_dp": 0.9383020997047424, "train_loss_llm": 0.03199803829193115, "global_step": 318, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.140406847000122, "train_loss_dp": 1.1403595209121704, "train_loss_llm": 0.047332584857940674, "global_step": 319, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.0616041421890259, "train_loss_dp": 1.0615711212158203, "train_loss_llm": 0.03299856185913086, "global_step": 320, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.3097059726715088, "train_loss_dp": 1.3094966411590576, "train_loss_llm": 0.20929884910583496, "global_step": 321, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.726189911365509, "train_loss_dp": 0.726189911365509, "train_loss_llm": 0.0, "global_step": 322, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.9506128430366516, "train_loss_dp": 0.9505939483642578, "train_loss_llm": 0.018895864486694336, "global_step": 323, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.1062898635864258, "train_loss_dp": 1.1062719821929932, "train_loss_llm": 0.01790618896484375, "global_step": 324, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.7786787152290344, "train_loss_dp": 0.7786606550216675, "train_loss_llm": 0.018055200576782227, "global_step": 325, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.7454636096954346, "train_loss_dp": 0.7454556226730347, "train_loss_llm": 0.008004844188690186, "global_step": 326, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.631337583065033, "train_loss_dp": 0.6312555074691772, "train_loss_llm": 0.08208990097045898, "global_step": 327, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.571188747882843, "train_loss_dp": 0.5711557865142822, "train_loss_llm": 0.03298652172088623, "global_step": 328, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.5950407981872559, "train_loss_dp": 0.5950068235397339, "train_loss_llm": 0.03395509719848633, "global_step": 329, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.0511219501495361, "train_loss_dp": 1.0510971546173096, "train_loss_llm": 0.024762630462646484, "global_step": 330, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.9392469525337219, "train_loss_dp": 0.9391989707946777, "train_loss_llm": 0.04796409606933594, "global_step": 331, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.6436355710029602, "train_loss_dp": 0.6435462236404419, "train_loss_llm": 0.08933162689208984, "global_step": 332, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.1317108869552612, "train_loss_dp": 1.1316704750061035, "train_loss_llm": 0.040468692779541016, "global_step": 333, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.1203209161758423, "train_loss_dp": 1.120298147201538, "train_loss_llm": 0.0228121280670166, "global_step": 334, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.123265027999878, "train_loss_dp": 1.1231796741485596, "train_loss_llm": 0.08534574508666992, "global_step": 335, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.7794533967971802, "train_loss_dp": 0.7794316411018372, "train_loss_llm": 0.021731853485107422, "global_step": 336, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.0506004095077515, "train_loss_dp": 1.0505372285842896, "train_loss_llm": 0.0631561279296875, "global_step": 337, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.6085354685783386, "train_loss_dp": 0.608381450176239, "train_loss_llm": 0.1540203094482422, "global_step": 338, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.138121485710144, "train_loss_dp": 1.1380188465118408, "train_loss_llm": 0.10260963439941406, "global_step": 339, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.1718631982803345, "train_loss_dp": 1.1717665195465088, "train_loss_llm": 0.09663307666778564, "global_step": 340, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.5162973403930664, "train_loss_dp": 0.516236424446106, "train_loss_llm": 0.060942649841308594, "global_step": 341, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.212270975112915, "train_loss_dp": 1.211812973022461, "train_loss_llm": 0.45798778533935547, "global_step": 342, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.362517237663269, "train_loss_dp": 1.3622970581054688, "train_loss_llm": 0.2201709747314453, "global_step": 343, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.9752863049507141, "train_loss_dp": 0.9752817749977112, "train_loss_llm": 0.004530191421508789, "global_step": 344, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.9521274566650391, "train_loss_dp": 0.9520770311355591, "train_loss_llm": 0.050445556640625, "global_step": 345, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.0602459907531738, "train_loss_dp": 1.060064673423767, "train_loss_llm": 0.18131965398788452, "global_step": 346, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.6865035891532898, "train_loss_dp": 0.6864352226257324, "train_loss_llm": 0.06835174560546875, "global_step": 347, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.7812849879264832, "train_loss_dp": 0.7812718749046326, "train_loss_llm": 0.013106346130371094, "global_step": 348, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.5357110500335693, "train_loss_dp": 1.5357110500335693, "train_loss_llm": 0.0, "global_step": 349, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.6265106201171875, "train_loss_dp": 0.6264235377311707, "train_loss_llm": 0.0870819091796875, "global_step": 350, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.9027184844017029, "train_loss_dp": 0.902691125869751, "train_loss_llm": 0.027363181114196777, "global_step": 351, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.025476336479187, "train_loss_dp": 1.0253403186798096, "train_loss_llm": 0.13595974445343018, "global_step": 352, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.0283253192901611, "train_loss_dp": 1.0282611846923828, "train_loss_llm": 0.06412744522094727, "global_step": 353, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.7340739369392395, "train_loss_dp": 0.7338701486587524, "train_loss_llm": 0.20377898216247559, "global_step": 354, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.9878488183021545, "train_loss_dp": 0.9878315329551697, "train_loss_llm": 0.017307281494140625, "global_step": 355, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.6219332218170166, "train_loss_dp": 1.6218600273132324, "train_loss_llm": 0.0732259750366211, "global_step": 356, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.8566223978996277, "train_loss_dp": 0.8566176295280457, "train_loss_llm": 0.004755496978759766, "global_step": 357, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.885615348815918, "train_loss_dp": 0.885615348815918, "train_loss_llm": 0.0, "global_step": 358, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.8278520107269287, "train_loss_dp": 0.8278520107269287, "train_loss_llm": 0.0, "global_step": 359, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.3959556818008423, "train_loss_dp": 1.3957343101501465, "train_loss_llm": 0.2214193344116211, "global_step": 360, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.8750618696212769, "train_loss_dp": 0.8750618696212769, "train_loss_llm": 0.0, "global_step": 361, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.6334642767906189, "train_loss_dp": 0.6334314346313477, "train_loss_llm": 0.03285104036331177, "global_step": 362, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.0799195766448975, "train_loss_dp": 1.0798370838165283, "train_loss_llm": 0.08249568939208984, "global_step": 363, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.1601884365081787, "train_loss_dp": 1.1601054668426514, "train_loss_llm": 0.0829167366027832, "global_step": 364, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.081758737564087, "train_loss_dp": 1.0817116498947144, "train_loss_llm": 0.04705810546875, "global_step": 365, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.9759175181388855, "train_loss_dp": 0.9759175181388855, "train_loss_llm": 0.0, "global_step": 366, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.026642084121704, "train_loss_dp": 1.026597023010254, "train_loss_llm": 0.04501771926879883, "global_step": 367, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.9276124835014343, "train_loss_dp": 0.9274992942810059, "train_loss_llm": 0.11318016052246094, "global_step": 368, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.7726048827171326, "train_loss_dp": 0.7725441455841064, "train_loss_llm": 0.06073880195617676, "global_step": 369, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.86375492811203, "train_loss_dp": 0.8636415004730225, "train_loss_llm": 0.11343097686767578, "global_step": 370, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.8028140068054199, "train_loss_dp": 0.8027851581573486, "train_loss_llm": 0.028863906860351562, "global_step": 371, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.6991972923278809, "train_loss_dp": 0.699181854724884, "train_loss_llm": 0.015412688255310059, "global_step": 372, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.0333067178726196, "train_loss_dp": 1.0332984924316406, "train_loss_llm": 0.008231639862060547, "global_step": 373, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.6350075602531433, "train_loss_dp": 0.6349921226501465, "train_loss_llm": 0.015434980392456055, "global_step": 374, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.7151608467102051, "train_loss_dp": 0.7151474952697754, "train_loss_llm": 0.013323187828063965, "global_step": 375, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.8462456464767456, "train_loss_dp": 0.8462456464767456, "train_loss_llm": 0.0, "global_step": 376, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.0425065755844116, "train_loss_dp": 1.0424669981002808, "train_loss_llm": 0.03954315185546875, "global_step": 377, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.4051774740219116, "train_loss_dp": 1.4047319889068604, "train_loss_llm": 0.445453405380249, "global_step": 378, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.9490416646003723, "train_loss_dp": 0.9489597082138062, "train_loss_llm": 0.08196449279785156, "global_step": 379, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.8245850205421448, "train_loss_dp": 0.8245722055435181, "train_loss_llm": 0.012838363647460938, "global_step": 380, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.186753511428833, "train_loss_dp": 1.1862233877182007, "train_loss_llm": 0.530081033706665, "global_step": 381, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.0297726392745972, "train_loss_dp": 1.029693841934204, "train_loss_llm": 0.07880675792694092, "global_step": 382, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.9900963306427002, "train_loss_dp": 0.9900006651878357, "train_loss_llm": 0.0956718921661377, "global_step": 383, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.6873138546943665, "train_loss_dp": 0.6873037815093994, "train_loss_llm": 0.010064482688903809, "global_step": 384, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.0414282083511353, "train_loss_dp": 1.041321039199829, "train_loss_llm": 0.10714244842529297, "global_step": 385, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.8162178993225098, "train_loss_dp": 0.8161762952804565, "train_loss_llm": 0.04160499572753906, "global_step": 386, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.8835409283638, "train_loss_dp": 0.8834999799728394, "train_loss_llm": 0.04093426465988159, "global_step": 387, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.7302025556564331, "train_loss_dp": 0.7301415205001831, "train_loss_llm": 0.061014652252197266, "global_step": 388, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.5398634076118469, "train_loss_dp": 0.5398274660110474, "train_loss_llm": 0.03595256805419922, "global_step": 389, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.7101472616195679, "train_loss_dp": 0.7100929021835327, "train_loss_llm": 0.05435752868652344, "global_step": 390, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.1088447570800781, "train_loss_dp": 1.1088447570800781, "train_loss_llm": 0.0, "global_step": 391, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.7969580292701721, "train_loss_dp": 0.7968719601631165, "train_loss_llm": 0.0860440731048584, "global_step": 392, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.9308093786239624, "train_loss_dp": 0.9308093786239624, "train_loss_llm": 0.0, "global_step": 393, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.9850828051567078, "train_loss_dp": 0.9850240349769592, "train_loss_llm": 0.05878448486328125, "global_step": 394, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.8893481492996216, "train_loss_dp": 0.8892498016357422, "train_loss_llm": 0.09835195541381836, "global_step": 395, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.839368999004364, "train_loss_dp": 0.8393605947494507, "train_loss_llm": 0.008399009704589844, "global_step": 396, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.7995375394821167, "train_loss_dp": 0.7995375394821167, "train_loss_llm": 0.0, "global_step": 397, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.1549015045166016, "train_loss_dp": 1.1549015045166016, "train_loss_llm": 0.0, "global_step": 398, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.9231443405151367, "train_loss_dp": 0.9231002330780029, "train_loss_llm": 0.04411458969116211, "global_step": 399, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.3786424398422241, "train_loss_dp": 1.378493070602417, "train_loss_llm": 0.14938831329345703, "global_step": 400, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.8732122182846069, "train_loss_dp": 0.8731415867805481, "train_loss_llm": 0.07065296173095703, "global_step": 401, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.5816848278045654, "train_loss_dp": 0.5816689729690552, "train_loss_llm": 0.01582646369934082, "global_step": 402, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.7158780097961426, "train_loss_dp": 0.7158597111701965, "train_loss_llm": 0.018304109573364258, "global_step": 403, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.6567087173461914, "train_loss_dp": 0.6565182209014893, "train_loss_llm": 0.19048690795898438, "global_step": 404, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.4648958444595337, "train_loss_dp": 1.4648687839508057, "train_loss_llm": 0.027034759521484375, "global_step": 405, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.1840875148773193, "train_loss_dp": 1.1839357614517212, "train_loss_llm": 0.15180861949920654, "global_step": 406, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.6169370412826538, "train_loss_dp": 1.6168873310089111, "train_loss_llm": 0.049655914306640625, "global_step": 407, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.9358566999435425, "train_loss_dp": 0.9358190298080444, "train_loss_llm": 0.037665605545043945, "global_step": 408, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.9108558893203735, "train_loss_dp": 0.9107317328453064, "train_loss_llm": 0.12415695190429688, "global_step": 409, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.5552148818969727, "train_loss_dp": 0.5551714301109314, "train_loss_llm": 0.043466806411743164, "global_step": 410, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.9190055727958679, "train_loss_dp": 0.9188939332962036, "train_loss_llm": 0.11164259910583496, "global_step": 411, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.5460938215255737, "train_loss_dp": 0.5460308194160461, "train_loss_llm": 0.06302070617675781, "global_step": 412, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.9273142218589783, "train_loss_dp": 0.9271705150604248, "train_loss_llm": 0.14371883869171143, "global_step": 413, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.8692426085472107, "train_loss_dp": 0.8691361546516418, "train_loss_llm": 0.10643196105957031, "global_step": 414, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.1693038940429688, "train_loss_dp": 1.1693038940429688, "train_loss_llm": 0.0, "global_step": 415, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.2602983713150024, "train_loss_dp": 1.2602496147155762, "train_loss_llm": 0.04869842529296875, "global_step": 416, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.9466715455055237, "train_loss_dp": 0.9466715455055237, "train_loss_llm": 0.0, "global_step": 417, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.1448849439620972, "train_loss_dp": 1.1448732614517212, "train_loss_llm": 0.01163029670715332, "global_step": 418, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.8907740712165833, "train_loss_dp": 0.8906740546226501, "train_loss_llm": 0.10001993179321289, "global_step": 419, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.2473067045211792, "train_loss_dp": 1.2472681999206543, "train_loss_llm": 0.03850436210632324, "global_step": 420, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.7704777717590332, "train_loss_dp": 0.7704777717590332, "train_loss_llm": 0.0, "global_step": 421, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.7278013825416565, "train_loss_dp": 0.7277548909187317, "train_loss_llm": 0.046491146087646484, "global_step": 422, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.7366148233413696, "train_loss_dp": 0.736483097076416, "train_loss_llm": 0.13175201416015625, "global_step": 423, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.0113292932510376, "train_loss_dp": 1.01130211353302, "train_loss_llm": 0.027164220809936523, "global_step": 424, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.9861606955528259, "train_loss_dp": 0.9861391186714172, "train_loss_llm": 0.02156829833984375, "global_step": 425, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.824619472026825, "train_loss_dp": 0.8245521783828735, "train_loss_llm": 0.06730842590332031, "global_step": 426, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.3652387857437134, "train_loss_dp": 1.3650954961776733, "train_loss_llm": 0.14328718185424805, "global_step": 427, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.5482562780380249, "train_loss_dp": 0.5482562780380249, "train_loss_llm": 0.0, "global_step": 428, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.5586099028587341, "train_loss_dp": 0.5586099028587341, "train_loss_llm": 0.0, "global_step": 429, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.2521781921386719, "train_loss_dp": 1.2521781921386719, "train_loss_llm": 0.0, "global_step": 430, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.8612114191055298, "train_loss_dp": 0.8611884117126465, "train_loss_llm": 0.022988557815551758, "global_step": 431, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.0646092891693115, "train_loss_dp": 1.0646092891693115, "train_loss_llm": 0.0, "global_step": 432, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.060714602470398, "train_loss_dp": 1.060692310333252, "train_loss_llm": 0.022298455238342285, "global_step": 433, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.1945557594299316, "train_loss_dp": 1.1944509744644165, "train_loss_llm": 0.10474395751953125, "global_step": 434, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.8991498947143555, "train_loss_dp": 0.8991380333900452, "train_loss_llm": 0.011844635009765625, "global_step": 435, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.7904940843582153, "train_loss_dp": 0.7904837131500244, "train_loss_llm": 0.01038360595703125, "global_step": 436, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.091713786125183, "train_loss_dp": 1.0913944244384766, "train_loss_llm": 0.3193826675415039, "global_step": 437, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.9692855477333069, "train_loss_dp": 0.969272255897522, "train_loss_llm": 0.01326829195022583, "global_step": 438, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.7809245586395264, "train_loss_dp": 1.7808582782745361, "train_loss_llm": 0.06632709503173828, "global_step": 439, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.8087412714958191, "train_loss_dp": 0.8086715936660767, "train_loss_llm": 0.06968355178833008, "global_step": 440, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.0324766635894775, "train_loss_dp": 1.0324254035949707, "train_loss_llm": 0.05126953125, "global_step": 441, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.6176209449768066, "train_loss_dp": 0.6175903081893921, "train_loss_llm": 0.030615806579589844, "global_step": 442, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.9269717931747437, "train_loss_dp": 0.9269065856933594, "train_loss_llm": 0.06519794464111328, "global_step": 443, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.705701470375061, "train_loss_dp": 0.705701470375061, "train_loss_llm": 0.0, "global_step": 444, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.235089898109436, "train_loss_dp": 1.235008716583252, "train_loss_llm": 0.08113336563110352, "global_step": 445, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.7443055510520935, "train_loss_dp": 0.7442344427108765, "train_loss_llm": 0.0711064338684082, "global_step": 446, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.1243181228637695, "train_loss_dp": 1.1238698959350586, "train_loss_llm": 0.44824981689453125, "global_step": 447, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.800401508808136, "train_loss_dp": 0.8003770709037781, "train_loss_llm": 0.024458885192871094, "global_step": 448, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.2139441967010498, "train_loss_dp": 1.2139441967010498, "train_loss_llm": 0.0, "global_step": 449, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.8555796146392822, "train_loss_dp": 0.8555796146392822, "train_loss_llm": 0.0, "global_step": 450, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.011670470237732, "train_loss_dp": 1.0115911960601807, "train_loss_llm": 0.07927381992340088, "global_step": 451, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.0849030017852783, "train_loss_dp": 1.0848685503005981, "train_loss_llm": 0.03445768356323242, "global_step": 452, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.9000522494316101, "train_loss_dp": 0.9000439643859863, "train_loss_llm": 0.008294105529785156, "global_step": 453, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.6313326358795166, "train_loss_dp": 0.6313220262527466, "train_loss_llm": 0.010595321655273438, "global_step": 454, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.3327351808547974, "train_loss_dp": 1.3326821327209473, "train_loss_llm": 0.053076744079589844, "global_step": 455, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.5747587084770203, "train_loss_dp": 0.5747430324554443, "train_loss_llm": 0.015677690505981445, "global_step": 456, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.0097123384475708, "train_loss_dp": 1.0096513032913208, "train_loss_llm": 0.06106770038604736, "global_step": 457, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.6368886232376099, "train_loss_dp": 0.6368886232376099, "train_loss_llm": 0.0, "global_step": 458, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.9414737224578857, "train_loss_dp": 0.9413670897483826, "train_loss_llm": 0.10666179656982422, "global_step": 459, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.3026325702667236, "train_loss_dp": 1.3025821447372437, "train_loss_llm": 0.05046224594116211, "global_step": 460, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.9246035218238831, "train_loss_dp": 0.9245976805686951, "train_loss_llm": 0.005859375, "global_step": 461, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.7514544129371643, "train_loss_dp": 0.7514544129371643, "train_loss_llm": 0.0, "global_step": 462, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.0119794607162476, "train_loss_dp": 1.0119354724884033, "train_loss_llm": 0.043990135192871094, "global_step": 463, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.6966183185577393, "train_loss_dp": 0.6965778470039368, "train_loss_llm": 0.04046058654785156, "global_step": 464, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.9683692455291748, "train_loss_dp": 0.9683505892753601, "train_loss_llm": 0.018645405769348145, "global_step": 465, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.8864551186561584, "train_loss_dp": 0.8863110542297363, "train_loss_llm": 0.14404582977294922, "global_step": 466, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.8288346529006958, "train_loss_dp": 0.8287829756736755, "train_loss_llm": 0.05167502164840698, "global_step": 467, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.0149682760238647, "train_loss_dp": 1.0149664878845215, "train_loss_llm": 0.001825094223022461, "global_step": 468, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.1619069576263428, "train_loss_dp": 1.161855697631836, "train_loss_llm": 0.05124962329864502, "global_step": 469, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.7893173694610596, "train_loss_dp": 0.7893060445785522, "train_loss_llm": 0.0113067626953125, "global_step": 470, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.3663010597229004, "train_loss_dp": 1.3663010597229004, "train_loss_llm": 0.0, "global_step": 471, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.6200345754623413, "train_loss_dp": 0.6199976205825806, "train_loss_llm": 0.03698372840881348, "global_step": 472, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.5978084802627563, "train_loss_dp": 0.5977650880813599, "train_loss_llm": 0.043415069580078125, "global_step": 473, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.7544329166412354, "train_loss_dp": 0.7543939352035522, "train_loss_llm": 0.03899812698364258, "global_step": 474, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.7901190519332886, "train_loss_dp": 0.7901190519332886, "train_loss_llm": 0.0, "global_step": 475, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.9544013142585754, "train_loss_dp": 0.9543713927268982, "train_loss_llm": 0.029931604862213135, "global_step": 476, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.6486201286315918, "train_loss_dp": 0.6485531330108643, "train_loss_llm": 0.06698322296142578, "global_step": 477, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.0358445644378662, "train_loss_dp": 1.0358116626739502, "train_loss_llm": 0.032931387424468994, "global_step": 478, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.2700186967849731, "train_loss_dp": 1.269940733909607, "train_loss_llm": 0.07799983024597168, "global_step": 479, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.9765834808349609, "train_loss_dp": 0.9765531420707703, "train_loss_llm": 0.03032684326171875, "global_step": 480, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.9303022623062134, "train_loss_dp": 0.9301844239234924, "train_loss_llm": 0.11785069108009338, "global_step": 481, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.253474473953247, "train_loss_dp": 1.251589298248291, "train_loss_llm": 1.8852310180664062, "global_step": 482, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.800106167793274, "train_loss_dp": 1.7987873554229736, "train_loss_llm": 1.3188056945800781, "global_step": 483, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.9912176132202148, "train_loss_dp": 0.9911895394325256, "train_loss_llm": 0.02809959650039673, "global_step": 484, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.6344923973083496, "train_loss_dp": 0.6343971490859985, "train_loss_llm": 0.0952531099319458, "global_step": 485, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.0083506107330322, "train_loss_dp": 1.0082958936691284, "train_loss_llm": 0.05472254753112793, "global_step": 486, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.9811505675315857, "train_loss_dp": 0.981141209602356, "train_loss_llm": 0.009344816207885742, "global_step": 487, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.5593747496604919, "train_loss_dp": 0.55930495262146, "train_loss_llm": 0.06976985931396484, "global_step": 488, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.7921294569969177, "train_loss_dp": 0.7920803427696228, "train_loss_llm": 0.049087852239608765, "global_step": 489, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.0838980674743652, "train_loss_dp": 1.0837479829788208, "train_loss_llm": 0.15007781982421875, "global_step": 490, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.0152705907821655, "train_loss_dp": 1.0152640342712402, "train_loss_llm": 0.0065915584564208984, "global_step": 491, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.8583982586860657, "train_loss_dp": 0.8583886623382568, "train_loss_llm": 0.009571075439453125, "global_step": 492, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.3947398066520691, "train_loss_dp": 0.39472222328186035, "train_loss_llm": 0.017576277256011963, "global_step": 493, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.139392375946045, "train_loss_dp": 1.139392375946045, "train_loss_llm": 0.0, "global_step": 494, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.985562801361084, "train_loss_dp": 0.9855340719223022, "train_loss_llm": 0.028722763061523438, "global_step": 495, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.6032148599624634, "train_loss_dp": 0.6032148599624634, "train_loss_llm": 0.0, "global_step": 496, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.7425645589828491, "train_loss_dp": 0.7425331473350525, "train_loss_llm": 0.0314311683177948, "global_step": 497, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.38828444480896, "train_loss_dp": 1.3881280422210693, "train_loss_llm": 0.1564478874206543, "global_step": 498, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.0419012308120728, "train_loss_dp": 1.0418635606765747, "train_loss_llm": 0.03768730163574219, "global_step": 499, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.2182319164276123, "train_loss_dp": 1.2180678844451904, "train_loss_llm": 0.1640911102294922, "global_step": 500, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.8781644105911255, "train_loss_dp": 0.8781393766403198, "train_loss_llm": 0.0250091552734375, "global_step": 501, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.6539285182952881, "train_loss_dp": 0.6539156436920166, "train_loss_llm": 0.0128592848777771, "global_step": 502, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.1961841583251953, "train_loss_dp": 1.19614577293396, "train_loss_llm": 0.038373470306396484, "global_step": 503, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.7572019100189209, "train_loss_dp": 0.7571561932563782, "train_loss_llm": 0.04569387435913086, "global_step": 504, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.8939281702041626, "train_loss_dp": 0.8939023017883301, "train_loss_llm": 0.025846481323242188, "global_step": 505, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.0205087661743164, "train_loss_dp": 1.0205087661743164, "train_loss_llm": 0.0, "global_step": 506, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.9445453882217407, "train_loss_dp": 0.9445453882217407, "train_loss_llm": 0.0, "global_step": 507, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.8616133332252502, "train_loss_dp": 0.8615937829017639, "train_loss_llm": 0.019575119018554688, "global_step": 508, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.0058668851852417, "train_loss_dp": 1.0058611631393433, "train_loss_llm": 0.005702555179595947, "global_step": 509, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.9550825953483582, "train_loss_dp": 0.9550610780715942, "train_loss_llm": 0.02152228355407715, "global_step": 510, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.2215523719787598, "train_loss_dp": 1.2215523719787598, "train_loss_llm": 0.0, "global_step": 511, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.8882782459259033, "train_loss_dp": 0.8882782459259033, "train_loss_llm": 0.0, "global_step": 512, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.9689890146255493, "train_loss_dp": 0.9689531922340393, "train_loss_llm": 0.03585082292556763, "global_step": 513, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.9572169184684753, "train_loss_dp": 0.9572169184684753, "train_loss_llm": 0.0, "global_step": 514, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.9696931838989258, "train_loss_dp": 0.9696931838989258, "train_loss_llm": 0.0, "global_step": 515, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.9383932948112488, "train_loss_dp": 0.9383524060249329, "train_loss_llm": 0.0408782958984375, "global_step": 516, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.6767992973327637, "train_loss_dp": 0.6767129302024841, "train_loss_llm": 0.08638334274291992, "global_step": 517, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.7528296113014221, "train_loss_dp": 0.7527680397033691, "train_loss_llm": 0.06159090995788574, "global_step": 518, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.1282076835632324, "train_loss_dp": 1.128046989440918, "train_loss_llm": 0.16066265106201172, "global_step": 519, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.9983043074607849, "train_loss_dp": 0.9982055425643921, "train_loss_llm": 0.09878242015838623, "global_step": 520, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.5792916417121887, "train_loss_dp": 0.5792720317840576, "train_loss_llm": 0.019631385803222656, "global_step": 521, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.6096526384353638, "train_loss_dp": 0.6094098687171936, "train_loss_llm": 0.24275970458984375, "global_step": 522, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.6621402502059937, "train_loss_dp": 0.6620496511459351, "train_loss_llm": 0.09058380126953125, "global_step": 523, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.1201329231262207, "train_loss_dp": 1.1201329231262207, "train_loss_llm": 0.0, "global_step": 524, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.865595817565918, "train_loss_dp": 0.8654696345329285, "train_loss_llm": 0.1261765956878662, "global_step": 525, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.6387217044830322, "train_loss_dp": 0.638710618019104, "train_loss_llm": 0.011076807975769043, "global_step": 526, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.8359240889549255, "train_loss_dp": 0.8358617424964905, "train_loss_llm": 0.06235790252685547, "global_step": 527, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.6768743991851807, "train_loss_dp": 0.6767756938934326, "train_loss_llm": 0.09871482849121094, "global_step": 528, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.7768034338951111, "train_loss_dp": 0.7767261266708374, "train_loss_llm": 0.07732677459716797, "global_step": 529, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.2716612815856934, "train_loss_dp": 1.271590232849121, "train_loss_llm": 0.07099771499633789, "global_step": 530, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.8630410432815552, "train_loss_dp": 0.8629333972930908, "train_loss_llm": 0.1076507568359375, "global_step": 531, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.2316997051239014, "train_loss_dp": 1.2316997051239014, "train_loss_llm": 0.0, "global_step": 532, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.639026403427124, "train_loss_dp": 0.6389731168746948, "train_loss_llm": 0.053297996520996094, "global_step": 533, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.7833759784698486, "train_loss_dp": 0.783185601234436, "train_loss_llm": 0.1903858184814453, "global_step": 534, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.5212388038635254, "train_loss_dp": 0.5212388038635254, "train_loss_llm": 0.0, "global_step": 535, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.0860358476638794, "train_loss_dp": 1.0858869552612305, "train_loss_llm": 0.14885473251342773, "global_step": 536, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.6187072396278381, "train_loss_dp": 0.6186702847480774, "train_loss_llm": 0.03694671392440796, "global_step": 537, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.8381630182266235, "train_loss_dp": 0.8380971550941467, "train_loss_llm": 0.06587624549865723, "global_step": 538, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.919586718082428, "train_loss_dp": 0.9195641279220581, "train_loss_llm": 0.0225830078125, "global_step": 539, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.8968902826309204, "train_loss_dp": 0.8968902826309204, "train_loss_llm": 0.0, "global_step": 540, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.6973195672035217, "train_loss_dp": 0.6972962617874146, "train_loss_llm": 0.023287057876586914, "global_step": 541, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.6493954062461853, "train_loss_dp": 0.6493954062461853, "train_loss_llm": 0.0, "global_step": 542, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.1911183595657349, "train_loss_dp": 1.1909961700439453, "train_loss_llm": 0.12223625183105469, "global_step": 543, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.9082401394844055, "train_loss_dp": 0.9081942439079285, "train_loss_llm": 0.04589653015136719, "global_step": 544, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.8910422921180725, "train_loss_dp": 0.8910117149353027, "train_loss_llm": 0.030567407608032227, "global_step": 545, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.9860072731971741, "train_loss_dp": 0.9859800338745117, "train_loss_llm": 0.027251482009887695, "global_step": 546, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.4777854084968567, "train_loss_dp": 0.4777659773826599, "train_loss_llm": 0.019438087940216064, "global_step": 547, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.48319318890571594, "train_loss_dp": 0.4831506013870239, "train_loss_llm": 0.04259181022644043, "global_step": 548, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.167243480682373, "train_loss_dp": 1.167243480682373, "train_loss_llm": 0.0, "global_step": 549, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.0102424621582031, "train_loss_dp": 1.0100873708724976, "train_loss_llm": 0.15509796142578125, "global_step": 550, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.5431917905807495, "train_loss_dp": 0.5431917905807495, "train_loss_llm": 0.0, "global_step": 551, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.0643881559371948, "train_loss_dp": 1.0640289783477783, "train_loss_llm": 0.359222412109375, "global_step": 552, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.4247260093688965, "train_loss_dp": 0.4246900677680969, "train_loss_llm": 0.03592681884765625, "global_step": 553, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.709513783454895, "train_loss_dp": 0.7093850374221802, "train_loss_llm": 0.12873315811157227, "global_step": 554, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.6079869270324707, "train_loss_dp": 0.6079869270324707, "train_loss_llm": 0.0, "global_step": 555, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.9759119153022766, "train_loss_dp": 0.9758774042129517, "train_loss_llm": 0.0345156192779541, "global_step": 556, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.6208433508872986, "train_loss_dp": 0.6208187341690063, "train_loss_llm": 0.024641036987304688, "global_step": 557, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.9816402792930603, "train_loss_dp": 0.9814959764480591, "train_loss_llm": 0.14428138732910156, "global_step": 558, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.7803829312324524, "train_loss_dp": 0.7803388833999634, "train_loss_llm": 0.044026851654052734, "global_step": 559, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.1884931325912476, "train_loss_dp": 1.1883082389831543, "train_loss_llm": 0.18484818935394287, "global_step": 560, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.0765196084976196, "train_loss_dp": 1.0764267444610596, "train_loss_llm": 0.09288537502288818, "global_step": 561, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.9162485003471375, "train_loss_dp": 0.9161683320999146, "train_loss_llm": 0.08014059066772461, "global_step": 562, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.6856995820999146, "train_loss_dp": 0.6855698823928833, "train_loss_llm": 0.12972116470336914, "global_step": 563, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.2351508140563965, "train_loss_dp": 1.235060453414917, "train_loss_llm": 0.09032559394836426, "global_step": 564, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.7991578578948975, "train_loss_dp": 0.7990843057632446, "train_loss_llm": 0.07355880737304688, "global_step": 565, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.8326270580291748, "train_loss_dp": 0.832368016242981, "train_loss_llm": 0.25905346870422363, "global_step": 566, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.95387864112854, "train_loss_dp": 0.953763484954834, "train_loss_llm": 0.11513924598693848, "global_step": 567, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.5777726769447327, "train_loss_dp": 0.5776928663253784, "train_loss_llm": 0.0798112154006958, "global_step": 568, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.1546045541763306, "train_loss_dp": 1.1544913053512573, "train_loss_llm": 0.11321902275085449, "global_step": 569, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.5680843591690063, "train_loss_dp": 0.5680336952209473, "train_loss_llm": 0.050658226013183594, "global_step": 570, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.7442782521247864, "train_loss_dp": 0.7442530989646912, "train_loss_llm": 0.025149822235107422, "global_step": 571, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.62002032995224, "train_loss_dp": 0.6199332475662231, "train_loss_llm": 0.08705520629882812, "global_step": 572, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.0058835744857788, "train_loss_dp": 1.0057871341705322, "train_loss_llm": 0.0964956283569336, "global_step": 573, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.8885656595230103, "train_loss_dp": 0.8885656595230103, "train_loss_llm": 0.0, "global_step": 574, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.8726513981819153, "train_loss_dp": 0.8725472688674927, "train_loss_llm": 0.10410916805267334, "global_step": 575, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.571343719959259, "train_loss_dp": 0.5713030099868774, "train_loss_llm": 0.0407329797744751, "global_step": 576, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.953843355178833, "train_loss_dp": 0.9533698558807373, "train_loss_llm": 0.47352123260498047, "global_step": 577, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.5608240365982056, "train_loss_dp": 0.5608240365982056, "train_loss_llm": 0.0, "global_step": 578, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.6220385432243347, "train_loss_dp": 0.6220276355743408, "train_loss_llm": 0.010919809341430664, "global_step": 579, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.38346484303474426, "train_loss_dp": 0.3834119439125061, "train_loss_llm": 0.05289649963378906, "global_step": 580, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.8515186309814453, "train_loss_dp": 0.8513908982276917, "train_loss_llm": 0.12775421142578125, "global_step": 581, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.8306943774223328, "train_loss_dp": 0.8306618332862854, "train_loss_llm": 0.032527923583984375, "global_step": 582, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.7882429361343384, "train_loss_dp": 0.7880434989929199, "train_loss_llm": 0.1994328498840332, "global_step": 583, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.0763636827468872, "train_loss_dp": 1.0763576030731201, "train_loss_llm": 0.006040334701538086, "global_step": 584, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.250211477279663, "train_loss_dp": 1.2501130104064941, "train_loss_llm": 0.09850502014160156, "global_step": 585, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.6565658450126648, "train_loss_dp": 0.6565658450126648, "train_loss_llm": 0.0, "global_step": 586, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.881247341632843, "train_loss_dp": 0.8812453150749207, "train_loss_llm": 0.002010345458984375, "global_step": 587, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.5199049711227417, "train_loss_dp": 0.5198025703430176, "train_loss_llm": 0.10239505767822266, "global_step": 588, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.9794957041740417, "train_loss_dp": 0.9794145822525024, "train_loss_llm": 0.0811457633972168, "global_step": 589, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.9367679357528687, "train_loss_dp": 0.9367616176605225, "train_loss_llm": 0.0063190460205078125, "global_step": 590, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.4800688624382019, "train_loss_dp": 0.4800654649734497, "train_loss_llm": 0.0033986568450927734, "global_step": 591, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.6783823370933533, "train_loss_dp": 0.678329586982727, "train_loss_llm": 0.05274391174316406, "global_step": 592, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.5973784327507019, "train_loss_dp": 0.5973518490791321, "train_loss_llm": 0.02660369873046875, "global_step": 593, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 1.2648121118545532, "train_loss_dp": 1.2646312713623047, "train_loss_llm": 0.18080711364746094, "global_step": 594, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.8354456424713135, "train_loss_dp": 0.8354456424713135, "train_loss_llm": 0.0, "global_step": 595, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.6843166351318359, "train_loss_dp": 0.6842555999755859, "train_loss_llm": 0.06103062629699707, "global_step": 596, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.7206169366836548, "train_loss_dp": 0.7205871343612671, "train_loss_llm": 0.02978515625, "global_step": 597, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.7803109288215637, "train_loss_dp": 0.7802457809448242, "train_loss_llm": 0.0651555061340332, "global_step": 598, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.6555648446083069, "train_loss_dp": 0.6555179357528687, "train_loss_llm": 0.04689335823059082, "global_step": 599, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.6714509725570679, "train_loss_dp": 0.6714329123497009, "train_loss_llm": 0.01804661750793457, "global_step": 600, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.557374894618988, "train_loss_dp": 0.5573552250862122, "train_loss_llm": 0.019679546356201172, "global_step": 601, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.6620850563049316, "train_loss_dp": 0.6620569229125977, "train_loss_llm": 0.028146743774414062, "global_step": 602, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.6985660791397095, "train_loss_dp": 0.6985228061676025, "train_loss_llm": 0.04326128959655762, "global_step": 603, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.8670926690101624, "train_loss_dp": 0.866996169090271, "train_loss_llm": 0.09649991989135742, "global_step": 604, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.5803453326225281, "train_loss_dp": 0.5802793502807617, "train_loss_llm": 0.06600570678710938, "global_step": 605, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.8377804160118103, "train_loss_dp": 0.8377635478973389, "train_loss_llm": 0.016887664794921875, "global_step": 606, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.559697687625885, "train_loss_dp": 0.559690535068512, "train_loss_llm": 0.007166385650634766, "global_step": 607, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.4624892771244049, "train_loss_dp": 0.4624892771244049, "train_loss_llm": 0.0, "global_step": 608, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.6565905809402466, "train_loss_dp": 0.6564768552780151, "train_loss_llm": 0.1137080192565918, "global_step": 609, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.9659574031829834, "train_loss_dp": 0.9659529328346252, "train_loss_llm": 0.004452705383300781, "global_step": 610, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.6496619582176208, "train_loss_dp": 0.6496256589889526, "train_loss_llm": 0.036281585693359375, "global_step": 611, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.9976333379745483, "train_loss_dp": 0.9976072311401367, "train_loss_llm": 0.026096820831298828, "global_step": 612, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 1.2429126501083374, "train_loss_dp": 1.2428932189941406, "train_loss_llm": 0.019433259963989258, "global_step": 613, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 1.2598559856414795, "train_loss_dp": 1.2598559856414795, "train_loss_llm": 0.0, "global_step": 614, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.5683257579803467, "train_loss_dp": 0.5683257579803467, "train_loss_llm": 0.0, "global_step": 615, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.8097469806671143, "train_loss_dp": 0.809714674949646, "train_loss_llm": 0.03232216835021973, "global_step": 616, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.8789616823196411, "train_loss_dp": 0.8789364695549011, "train_loss_llm": 0.025194168090820312, "global_step": 617, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.6594100594520569, "train_loss_dp": 0.6593613624572754, "train_loss_llm": 0.04866790771484375, "global_step": 618, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.5730040073394775, "train_loss_dp": 0.5730040073394775, "train_loss_llm": 0.0, "global_step": 619, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.9442840218544006, "train_loss_dp": 0.9442472457885742, "train_loss_llm": 0.03674888610839844, "global_step": 620, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 1.0253980159759521, "train_loss_dp": 1.0253980159759521, "train_loss_llm": 0.0, "global_step": 621, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.8216437697410583, "train_loss_dp": 0.8214637041091919, "train_loss_llm": 0.1800384521484375, "global_step": 622, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 1.2438936233520508, "train_loss_dp": 1.243860125541687, "train_loss_llm": 0.03350639343261719, "global_step": 623, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.6158456206321716, "train_loss_dp": 0.6156577467918396, "train_loss_llm": 0.18788456916809082, "global_step": 624, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.9923508763313293, "train_loss_dp": 0.9922364354133606, "train_loss_llm": 0.11443805694580078, "global_step": 625, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.8119192123413086, "train_loss_dp": 0.8119192123413086, "train_loss_llm": 0.0, "global_step": 626, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.5641729831695557, "train_loss_dp": 0.5641684532165527, "train_loss_llm": 0.0045337677001953125, "global_step": 627, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.7960246801376343, "train_loss_dp": 0.7959970831871033, "train_loss_llm": 0.02762603759765625, "global_step": 628, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.6120083332061768, "train_loss_dp": 0.6120083332061768, "train_loss_llm": 0.0, "global_step": 629, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.6491469740867615, "train_loss_dp": 0.6491092443466187, "train_loss_llm": 0.03772163391113281, "global_step": 630, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.8366751670837402, "train_loss_dp": 0.8366751670837402, "train_loss_llm": 0.0, "global_step": 631, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.6928781867027283, "train_loss_dp": 0.6928781867027283, "train_loss_llm": 0.0, "global_step": 632, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.6950255632400513, "train_loss_dp": 0.6950255632400513, "train_loss_llm": 0.0, "global_step": 633, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.7371247410774231, "train_loss_dp": 0.7371220588684082, "train_loss_llm": 0.002660036087036133, "global_step": 634, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 1.4577747583389282, "train_loss_dp": 1.4577747583389282, "train_loss_llm": 0.0, "global_step": 635, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 1.1043462753295898, "train_loss_dp": 1.1043034791946411, "train_loss_llm": 0.04285454750061035, "global_step": 636, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.6901022791862488, "train_loss_dp": 0.6900244951248169, "train_loss_llm": 0.07780742645263672, "global_step": 637, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.8020928502082825, "train_loss_dp": 0.8020125031471252, "train_loss_llm": 0.08034038543701172, "global_step": 638, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 1.041152834892273, "train_loss_dp": 1.0411219596862793, "train_loss_llm": 0.030921459197998047, "global_step": 639, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.6329668164253235, "train_loss_dp": 0.6327936053276062, "train_loss_llm": 0.17321014404296875, "global_step": 640, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.582412600517273, "train_loss_dp": 0.5823930501937866, "train_loss_llm": 0.019579172134399414, "global_step": 641, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.9643220901489258, "train_loss_dp": 0.9642429351806641, "train_loss_llm": 0.07915639877319336, "global_step": 642, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.46799659729003906, "train_loss_dp": 0.4679856598377228, "train_loss_llm": 0.01092606782913208, "global_step": 643, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.6759065389633179, "train_loss_dp": 0.6759065389633179, "train_loss_llm": 0.0, "global_step": 644, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.5194405317306519, "train_loss_dp": 0.5194188952445984, "train_loss_llm": 0.021660804748535156, "global_step": 645, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.7246469259262085, "train_loss_dp": 0.7246224284172058, "train_loss_llm": 0.02447509765625, "global_step": 646, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.6938673257827759, "train_loss_dp": 0.6938152313232422, "train_loss_llm": 0.052077293395996094, "global_step": 647, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.6800702810287476, "train_loss_dp": 0.6799634695053101, "train_loss_llm": 0.1067962646484375, "global_step": 648, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.561782717704773, "train_loss_dp": 0.5616215467453003, "train_loss_llm": 0.16114115715026855, "global_step": 649, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.45572584867477417, "train_loss_dp": 0.45572584867477417, "train_loss_llm": 0.0, "global_step": 650, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.388656884431839, "train_loss_dp": 0.38865089416503906, "train_loss_llm": 0.005993366241455078, "global_step": 651, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.5590171217918396, "train_loss_dp": 0.5589331984519958, "train_loss_llm": 0.08393001556396484, "global_step": 652, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.9405845403671265, "train_loss_dp": 0.9405304193496704, "train_loss_llm": 0.05412280559539795, "global_step": 653, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.9554554271334, "train_loss_dp": 0.9436489939689636, "train_loss_llm": 0.19496876001358032, "global_step": 654, "epoch": 0, "lr": 8.200000000000001e-06, "train/cumulative_reward": -20.273915188333778, "train/mean_score": -0.300768799875115, "train/success_rate": 0.0, "test/cumulative_reward": -22.43299029280709, "test/mean_score": -0.40863858961894545, "test/success_rate": 0.0, "val_loss": 0.8054596185684204, "train_action_mse_error": 1.4054243564605713}
+{"train_loss": 0.6286779642105103, "train_loss_dp": 0.6286779642105103, "train_loss_llm": 0.0, "global_step": 655, "epoch": 1, "lr": 8.200000000000001e-06}
+{"train_loss": 1.0606467723846436, "train_loss_dp": 1.0605934858322144, "train_loss_llm": 0.053228139877319336, "global_step": 656, "epoch": 1, "lr": 8.400000000000001e-06}
+{"train_loss": 0.6805813908576965, "train_loss_dp": 0.6805064678192139, "train_loss_llm": 0.07491493225097656, "global_step": 657, "epoch": 1, "lr": 8.400000000000001e-06}
+{"train_loss": 0.5111004710197449, "train_loss_dp": 0.5110427141189575, "train_loss_llm": 0.05774879455566406, "global_step": 658, "epoch": 1, "lr": 8.400000000000001e-06}
+{"train_loss": 1.6421326398849487, "train_loss_dp": 1.64210844039917, "train_loss_llm": 0.02425384521484375, "global_step": 659, "epoch": 1, "lr": 8.400000000000001e-06}
+{"train_loss": 0.7687203288078308, "train_loss_dp": 0.7686926126480103, "train_loss_llm": 0.027718663215637207, "global_step": 660, "epoch": 1, "lr": 8.400000000000001e-06}
+{"train_loss": 0.5947796106338501, "train_loss_dp": 0.5947796106338501, "train_loss_llm": 0.0, "global_step": 661, "epoch": 1, "lr": 8.400000000000001e-06}
+{"train_loss": 0.6627200841903687, "train_loss_dp": 0.6626926064491272, "train_loss_llm": 0.02746868133544922, "global_step": 662, "epoch": 1, "lr": 8.400000000000001e-06}
+{"train_loss": 0.5966749787330627, "train_loss_dp": 0.5965917706489563, "train_loss_llm": 0.08322548866271973, "global_step": 663, "epoch": 1, "lr": 8.400000000000001e-06}
+{"train_loss": 0.5434064865112305, "train_loss_dp": 0.5433467030525208, "train_loss_llm": 0.05979156494140625, "global_step": 664, "epoch": 1, "lr": 8.400000000000001e-06}
+{"train_loss": 0.7256275415420532, "train_loss_dp": 0.7256275415420532, "train_loss_llm": 0.0, "global_step": 665, "epoch": 1, "lr": 8.400000000000001e-06}
+{"train_loss": 0.7233604788780212, "train_loss_dp": 0.7233256101608276, "train_loss_llm": 0.03488516807556152, "global_step": 666, "epoch": 1, "lr": 8.400000000000001e-06}
+{"train_loss": 0.6507276892662048, "train_loss_dp": 0.6506772041320801, "train_loss_llm": 0.05047464370727539, "global_step": 667, "epoch": 1, "lr": 8.400000000000001e-06}
+{"train_loss": 0.5727855563163757, "train_loss_dp": 0.5727841854095459, "train_loss_llm": 0.0013642311096191406, "global_step": 668, "epoch": 1, "lr": 8.400000000000001e-06}
+{"train_loss": 0.9290465116500854, "train_loss_dp": 0.9289944171905518, "train_loss_llm": 0.05207109451293945, "global_step": 669, "epoch": 1, "lr": 8.400000000000001e-06}
+{"train_loss": 0.711564302444458, "train_loss_dp": 0.7115601301193237, "train_loss_llm": 0.004194378852844238, "global_step": 670, "epoch": 1, "lr": 8.400000000000001e-06}
+{"train_loss": 1.2926706075668335, "train_loss_dp": 1.2925070524215698, "train_loss_llm": 0.16353607177734375, "global_step": 671, "epoch": 1, "lr": 8.400000000000001e-06}
+{"train_loss": 0.8520423769950867, "train_loss_dp": 0.8520268797874451, "train_loss_llm": 0.015493392944335938, "global_step": 672, "epoch": 1, "lr": 8.599999999999999e-06}
+{"train_loss": 0.9908037781715393, "train_loss_dp": 0.9907625913619995, "train_loss_llm": 0.04116225242614746, "global_step": 673, "epoch": 1, "lr": 8.599999999999999e-06}
+{"train_loss": 0.35068127512931824, "train_loss_dp": 0.35067909955978394, "train_loss_llm": 0.002166748046875, "global_step": 674, "epoch": 1, "lr": 8.599999999999999e-06}
+{"train_loss": 0.8950497508049011, "train_loss_dp": 0.8948591351509094, "train_loss_llm": 0.19058847427368164, "global_step": 675, "epoch": 1, "lr": 8.599999999999999e-06}
+{"train_loss": 0.8937989473342896, "train_loss_dp": 0.8937832713127136, "train_loss_llm": 0.015699386596679688, "global_step": 676, "epoch": 1, "lr": 8.599999999999999e-06}
+{"train_loss": 0.5554799437522888, "train_loss_dp": 0.5554550886154175, "train_loss_llm": 0.02484130859375, "global_step": 677, "epoch": 1, "lr": 8.599999999999999e-06}
+{"train_loss": 0.5351716876029968, "train_loss_dp": 0.5350943803787231, "train_loss_llm": 0.07729792594909668, "global_step": 678, "epoch": 1, "lr": 8.599999999999999e-06}
+{"train_loss": 1.288693904876709, "train_loss_dp": 1.2885733842849731, "train_loss_llm": 0.12054443359375, "global_step": 679, "epoch": 1, "lr": 8.599999999999999e-06}
+{"train_loss": 0.6409841775894165, "train_loss_dp": 0.6407757997512817, "train_loss_llm": 0.20837688446044922, "global_step": 680, "epoch": 1, "lr": 8.599999999999999e-06}
+{"train_loss": 0.6937379837036133, "train_loss_dp": 0.6937307119369507, "train_loss_llm": 0.007287025451660156, "global_step": 681, "epoch": 1, "lr": 8.599999999999999e-06}
+{"train_loss": 1.1238082647323608, "train_loss_dp": 1.1237820386886597, "train_loss_llm": 0.026266098022460938, "global_step": 682, "epoch": 1, "lr": 8.599999999999999e-06}
+{"train_loss": 0.5402305126190186, "train_loss_dp": 0.5401978492736816, "train_loss_llm": 0.0326390266418457, "global_step": 683, "epoch": 1, "lr": 8.599999999999999e-06}
+{"train_loss": 0.5692968964576721, "train_loss_dp": 0.5692009329795837, "train_loss_llm": 0.09595489501953125, "global_step": 684, "epoch": 1, "lr": 8.599999999999999e-06}
+{"train_loss": 0.7595178484916687, "train_loss_dp": 0.7594995498657227, "train_loss_llm": 0.018285274505615234, "global_step": 685, "epoch": 1, "lr": 8.599999999999999e-06}
+{"train_loss": 0.9470522403717041, "train_loss_dp": 0.9469494819641113, "train_loss_llm": 0.10277318954467773, "global_step": 686, "epoch": 1, "lr": 8.599999999999999e-06}
+{"train_loss": 0.5944111943244934, "train_loss_dp": 0.5943291187286377, "train_loss_llm": 0.082061767578125, "global_step": 687, "epoch": 1, "lr": 8.599999999999999e-06}
+{"train_loss": 1.0310235023498535, "train_loss_dp": 1.0310217142105103, "train_loss_llm": 0.0018310546875, "global_step": 688, "epoch": 1, "lr": 8.8e-06}
+{"train_loss": 0.6262570023536682, "train_loss_dp": 0.6262127161026001, "train_loss_llm": 0.04425811767578125, "global_step": 689, "epoch": 1, "lr": 8.8e-06}
+{"train_loss": 0.6297692060470581, "train_loss_dp": 0.6297339200973511, "train_loss_llm": 0.035266876220703125, "global_step": 690, "epoch": 1, "lr": 8.8e-06}
+{"train_loss": 0.6624552607536316, "train_loss_dp": 0.6623828411102295, "train_loss_llm": 0.07243895530700684, "global_step": 691, "epoch": 1, "lr": 8.8e-06}
+{"train_loss": 0.42853420972824097, "train_loss_dp": 0.42849162220954895, "train_loss_llm": 0.04258847236633301, "global_step": 692, "epoch": 1, "lr": 8.8e-06}
+{"train_loss": 0.8334681987762451, "train_loss_dp": 0.8334552645683289, "train_loss_llm": 0.012920379638671875, "global_step": 693, "epoch": 1, "lr": 8.8e-06}
+{"train_loss": 0.9555108547210693, "train_loss_dp": 0.9555108547210693, "train_loss_llm": 0.0, "global_step": 694, "epoch": 1, "lr": 8.8e-06}
+{"train_loss": 0.7493752241134644, "train_loss_dp": 0.749275267124176, "train_loss_llm": 0.099945068359375, "global_step": 695, "epoch": 1, "lr": 8.8e-06}
+{"train_loss": 0.7998397350311279, "train_loss_dp": 0.7998397350311279, "train_loss_llm": 0.0, "global_step": 696, "epoch": 1, "lr": 8.8e-06}
+{"train_loss": 0.781636655330658, "train_loss_dp": 0.7815797328948975, "train_loss_llm": 0.05691361427307129, "global_step": 697, "epoch": 1, "lr": 8.8e-06}
+{"train_loss": 0.5786948800086975, "train_loss_dp": 0.5786789655685425, "train_loss_llm": 0.015913009643554688, "global_step": 698, "epoch": 1, "lr": 8.8e-06}
+{"train_loss": 0.7178733944892883, "train_loss_dp": 0.7178733944892883, "train_loss_llm": 0.0, "global_step": 699, "epoch": 1, "lr": 8.8e-06}
+{"train_loss": 0.6102563142776489, "train_loss_dp": 0.6102563142776489, "train_loss_llm": 0.0, "global_step": 700, "epoch": 1, "lr": 8.8e-06}
+{"train_loss": 1.0422613620758057, "train_loss_dp": 1.0422613620758057, "train_loss_llm": 0.0, "global_step": 701, "epoch": 1, "lr": 8.8e-06}
+{"train_loss": 0.799522340297699, "train_loss_dp": 0.799522340297699, "train_loss_llm": 0.0, "global_step": 702, "epoch": 1, "lr": 8.8e-06}
+{"train_loss": 0.7613547444343567, "train_loss_dp": 0.7612676024436951, "train_loss_llm": 0.08717107772827148, "global_step": 703, "epoch": 1, "lr": 8.8e-06}
+{"train_loss": 1.0346908569335938, "train_loss_dp": 1.0346436500549316, "train_loss_llm": 0.047158241271972656, "global_step": 704, "epoch": 1, "lr": 9e-06}
+{"train_loss": 0.5695762634277344, "train_loss_dp": 0.569523811340332, "train_loss_llm": 0.052422791719436646, "global_step": 705, "epoch": 1, "lr": 9e-06}
+{"train_loss": 0.791131854057312, "train_loss_dp": 0.7910889387130737, "train_loss_llm": 0.0429229736328125, "global_step": 706, "epoch": 1, "lr": 9e-06}
+{"train_loss": 1.3136032819747925, "train_loss_dp": 1.31349515914917, "train_loss_llm": 0.10812950134277344, "global_step": 707, "epoch": 1, "lr": 9e-06}
+{"train_loss": 0.9349767565727234, "train_loss_dp": 0.934648871421814, "train_loss_llm": 0.32785868644714355, "global_step": 708, "epoch": 1, "lr": 9e-06}
+{"train_loss": 1.103477120399475, "train_loss_dp": 1.103477120399475, "train_loss_llm": 0.0, "global_step": 709, "epoch": 1, "lr": 9e-06}
+{"train_loss": 0.9602998495101929, "train_loss_dp": 0.9602514505386353, "train_loss_llm": 0.04840850830078125, "global_step": 710, "epoch": 1, "lr": 9e-06}
+{"train_loss": 0.6552156209945679, "train_loss_dp": 0.6550919413566589, "train_loss_llm": 0.1236833930015564, "global_step": 711, "epoch": 1, "lr": 9e-06}
+{"train_loss": 0.5122665762901306, "train_loss_dp": 0.512222945690155, "train_loss_llm": 0.04360389709472656, "global_step": 712, "epoch": 1, "lr": 9e-06}
+{"train_loss": 0.7265646457672119, "train_loss_dp": 0.7265452146530151, "train_loss_llm": 0.019442439079284668, "global_step": 713, "epoch": 1, "lr": 9e-06}
+{"train_loss": 0.454463392496109, "train_loss_dp": 0.45443180203437805, "train_loss_llm": 0.031604766845703125, "global_step": 714, "epoch": 1, "lr": 9e-06}
+{"train_loss": 1.001089096069336, "train_loss_dp": 1.0010507106781006, "train_loss_llm": 0.03836464881896973, "global_step": 715, "epoch": 1, "lr": 9e-06}
+{"train_loss": 0.3802202045917511, "train_loss_dp": 0.3802059590816498, "train_loss_llm": 0.014236748218536377, "global_step": 716, "epoch": 1, "lr": 9e-06}
+{"train_loss": 0.6106222867965698, "train_loss_dp": 0.6105959415435791, "train_loss_llm": 0.02635800838470459, "global_step": 717, "epoch": 1, "lr": 9e-06}
+{"train_loss": 0.7488076686859131, "train_loss_dp": 0.7487655878067017, "train_loss_llm": 0.04209136962890625, "global_step": 718, "epoch": 1, "lr": 9e-06}
+{"train_loss": 0.6535308361053467, "train_loss_dp": 0.653471827507019, "train_loss_llm": 0.059009552001953125, "global_step": 719, "epoch": 1, "lr": 9e-06}
+{"train_loss": 0.6648043990135193, "train_loss_dp": 0.6648043990135193, "train_loss_llm": 0.0, "global_step": 720, "epoch": 1, "lr": 9.2e-06}
+{"train_loss": 0.5705176591873169, "train_loss_dp": 0.5705046653747559, "train_loss_llm": 0.013018608093261719, "global_step": 721, "epoch": 1, "lr": 9.2e-06}
+{"train_loss": 1.009296178817749, "train_loss_dp": 1.009181261062622, "train_loss_llm": 0.11490136384963989, "global_step": 722, "epoch": 1, "lr": 9.2e-06}
+{"train_loss": 0.3940848708152771, "train_loss_dp": 0.394081711769104, "train_loss_llm": 0.0031697750091552734, "global_step": 723, "epoch": 1, "lr": 9.2e-06}
+{"train_loss": 0.6965254545211792, "train_loss_dp": 0.6964843273162842, "train_loss_llm": 0.041148841381073, "global_step": 724, "epoch": 1, "lr": 9.2e-06}
+{"train_loss": 0.5110610127449036, "train_loss_dp": 0.5110442638397217, "train_loss_llm": 0.016758322715759277, "global_step": 725, "epoch": 1, "lr": 9.2e-06}
+{"train_loss": 0.9808205962181091, "train_loss_dp": 0.9806476831436157, "train_loss_llm": 0.17291641235351562, "global_step": 726, "epoch": 1, "lr": 9.2e-06}
+{"train_loss": 0.8924300670623779, "train_loss_dp": 0.8923943042755127, "train_loss_llm": 0.03578364849090576, "global_step": 727, "epoch": 1, "lr": 9.2e-06}
+{"train_loss": 0.43970975279808044, "train_loss_dp": 0.4396635890007019, "train_loss_llm": 0.046149253845214844, "global_step": 728, "epoch": 1, "lr": 9.2e-06}
+{"train_loss": 0.8100007176399231, "train_loss_dp": 0.8099993467330933, "train_loss_llm": 0.0013561248779296875, "global_step": 729, "epoch": 1, "lr": 9.2e-06}
+{"train_loss": 1.2787514925003052, "train_loss_dp": 1.2786251306533813, "train_loss_llm": 0.12633931636810303, "global_step": 730, "epoch": 1, "lr": 9.2e-06}
+{"train_loss": 1.2790297269821167, "train_loss_dp": 1.2789850234985352, "train_loss_llm": 0.044757843017578125, "global_step": 731, "epoch": 1, "lr": 9.2e-06}
+{"train_loss": 0.5392898917198181, "train_loss_dp": 0.5391455888748169, "train_loss_llm": 0.14432954788208008, "global_step": 732, "epoch": 1, "lr": 9.2e-06}
+{"train_loss": 0.5401759743690491, "train_loss_dp": 0.5401203632354736, "train_loss_llm": 0.05560111999511719, "global_step": 733, "epoch": 1, "lr": 9.2e-06}
+{"train_loss": 1.1971940994262695, "train_loss_dp": 1.1970953941345215, "train_loss_llm": 0.09870243072509766, "global_step": 734, "epoch": 1, "lr": 9.2e-06}
+{"train_loss": 0.976862370967865, "train_loss_dp": 0.9768133163452148, "train_loss_llm": 0.049053192138671875, "global_step": 735, "epoch": 1, "lr": 9.2e-06}
+{"train_loss": 0.620945155620575, "train_loss_dp": 0.6208927631378174, "train_loss_llm": 0.052390098571777344, "global_step": 736, "epoch": 1, "lr": 9.4e-06}
+{"train_loss": 0.41749924421310425, "train_loss_dp": 0.4174487888813019, "train_loss_llm": 0.05046510696411133, "global_step": 737, "epoch": 1, "lr": 9.4e-06}
+{"train_loss": 1.0546337366104126, "train_loss_dp": 1.0545835494995117, "train_loss_llm": 0.05023384094238281, "global_step": 738, "epoch": 1, "lr": 9.4e-06}
+{"train_loss": 0.9273021221160889, "train_loss_dp": 0.9272578954696655, "train_loss_llm": 0.04421377182006836, "global_step": 739, "epoch": 1, "lr": 9.4e-06}
+{"train_loss": 0.7210153341293335, "train_loss_dp": 0.7209938764572144, "train_loss_llm": 0.021478652954101562, "global_step": 740, "epoch": 1, "lr": 9.4e-06}
+{"train_loss": 0.9203454852104187, "train_loss_dp": 0.9203166961669922, "train_loss_llm": 0.02879270911216736, "global_step": 741, "epoch": 1, "lr": 9.4e-06}
+{"train_loss": 0.6320679187774658, "train_loss_dp": 0.6320679187774658, "train_loss_llm": 0.0, "global_step": 742, "epoch": 1, "lr": 9.4e-06}
+{"train_loss": 1.3840020895004272, "train_loss_dp": 1.3839259147644043, "train_loss_llm": 0.07618427276611328, "global_step": 743, "epoch": 1, "lr": 9.4e-06}
+{"train_loss": 1.1188825368881226, "train_loss_dp": 1.1187410354614258, "train_loss_llm": 0.1414428949356079, "global_step": 744, "epoch": 1, "lr": 9.4e-06}
+{"train_loss": 0.5528072118759155, "train_loss_dp": 0.5528072118759155, "train_loss_llm": 0.0, "global_step": 745, "epoch": 1, "lr": 9.4e-06}
+{"train_loss": 1.1108227968215942, "train_loss_dp": 1.1107747554779053, "train_loss_llm": 0.048066139221191406, "global_step": 746, "epoch": 1, "lr": 9.4e-06}
+{"train_loss": 0.4968094825744629, "train_loss_dp": 0.49668699502944946, "train_loss_llm": 0.12249755859375, "global_step": 747, "epoch": 1, "lr": 9.4e-06}
+{"train_loss": 0.6373499631881714, "train_loss_dp": 0.6373499631881714, "train_loss_llm": 0.0, "global_step": 748, "epoch": 1, "lr": 9.4e-06}
+{"train_loss": 0.5462157130241394, "train_loss_dp": 0.5461819171905518, "train_loss_llm": 0.03379249572753906, "global_step": 749, "epoch": 1, "lr": 9.4e-06}
+{"train_loss": 0.9347940683364868, "train_loss_dp": 0.934754490852356, "train_loss_llm": 0.03959214687347412, "global_step": 750, "epoch": 1, "lr": 9.4e-06}
+{"train_loss": 0.7169908881187439, "train_loss_dp": 0.7169644236564636, "train_loss_llm": 0.026492595672607422, "global_step": 751, "epoch": 1, "lr": 9.4e-06}
+{"train_loss": 0.9266678094863892, "train_loss_dp": 0.9265660047531128, "train_loss_llm": 0.10178303718566895, "global_step": 752, "epoch": 1, "lr": 9.600000000000001e-06}
+{"train_loss": 0.40171605348587036, "train_loss_dp": 0.4016786217689514, "train_loss_llm": 0.03743577003479004, "global_step": 753, "epoch": 1, "lr": 9.600000000000001e-06}
+{"train_loss": 0.8686323761940002, "train_loss_dp": 0.8685561418533325, "train_loss_llm": 0.07624244689941406, "global_step": 754, "epoch": 1, "lr": 9.600000000000001e-06}
+{"train_loss": 0.7449557781219482, "train_loss_dp": 0.7449160814285278, "train_loss_llm": 0.039710283279418945, "global_step": 755, "epoch": 1, "lr": 9.600000000000001e-06}
+{"train_loss": 0.7561184167861938, "train_loss_dp": 0.7561184167861938, "train_loss_llm": 0.0, "global_step": 756, "epoch": 1, "lr": 9.600000000000001e-06}
+{"train_loss": 1.1789934635162354, "train_loss_dp": 1.1789692640304565, "train_loss_llm": 0.0241701602935791, "global_step": 757, "epoch": 1, "lr": 9.600000000000001e-06}
+{"train_loss": 0.6157499551773071, "train_loss_dp": 0.6157320141792297, "train_loss_llm": 0.01793193817138672, "global_step": 758, "epoch": 1, "lr": 9.600000000000001e-06}
+{"train_loss": 0.4272823929786682, "train_loss_dp": 0.4272364377975464, "train_loss_llm": 0.045948028564453125, "global_step": 759, "epoch": 1, "lr": 9.600000000000001e-06}
+{"train_loss": 0.9567710757255554, "train_loss_dp": 0.956671416759491, "train_loss_llm": 0.09963703155517578, "global_step": 760, "epoch": 1, "lr": 9.600000000000001e-06}
+{"train_loss": 0.7435329556465149, "train_loss_dp": 0.7435104846954346, "train_loss_llm": 0.022470951080322266, "global_step": 761, "epoch": 1, "lr": 9.600000000000001e-06}
+{"train_loss": 0.799273669719696, "train_loss_dp": 0.7991825342178345, "train_loss_llm": 0.0911407470703125, "global_step": 762, "epoch": 1, "lr": 9.600000000000001e-06}
+{"train_loss": 0.7621304392814636, "train_loss_dp": 0.7618706226348877, "train_loss_llm": 0.2597990036010742, "global_step": 763, "epoch": 1, "lr": 9.600000000000001e-06}
+{"train_loss": 0.7466310262680054, "train_loss_dp": 0.7465660572052002, "train_loss_llm": 0.0649566650390625, "global_step": 764, "epoch": 1, "lr": 9.600000000000001e-06}
+{"train_loss": 0.5920302867889404, "train_loss_dp": 0.5920225381851196, "train_loss_llm": 0.00775909423828125, "global_step": 765, "epoch": 1, "lr": 9.600000000000001e-06}
+{"train_loss": 0.8338209986686707, "train_loss_dp": 0.8337929248809814, "train_loss_llm": 0.028073132038116455, "global_step": 766, "epoch": 1, "lr": 9.600000000000001e-06}
+{"train_loss": 0.7872973084449768, "train_loss_dp": 0.7872207760810852, "train_loss_llm": 0.07653260231018066, "global_step": 767, "epoch": 1, "lr": 9.600000000000001e-06}
+{"train_loss": 0.8445160388946533, "train_loss_dp": 0.8445031046867371, "train_loss_llm": 0.0129547119140625, "global_step": 768, "epoch": 1, "lr": 9.800000000000001e-06}
+{"train_loss": 0.5630680322647095, "train_loss_dp": 0.5630283951759338, "train_loss_llm": 0.03961467742919922, "global_step": 769, "epoch": 1, "lr": 9.800000000000001e-06}
+{"train_loss": 0.6789391040802002, "train_loss_dp": 0.6789391040802002, "train_loss_llm": 0.0, "global_step": 770, "epoch": 1, "lr": 9.800000000000001e-06}
+{"train_loss": 0.9381664395332336, "train_loss_dp": 0.9379003047943115, "train_loss_llm": 0.26613664627075195, "global_step": 771, "epoch": 1, "lr": 9.800000000000001e-06}
+{"train_loss": 0.41580209136009216, "train_loss_dp": 0.4157840609550476, "train_loss_llm": 0.01804518699645996, "global_step": 772, "epoch": 1, "lr": 9.800000000000001e-06}
+{"train_loss": 0.5910633206367493, "train_loss_dp": 0.5910070538520813, "train_loss_llm": 0.056276798248291016, "global_step": 773, "epoch": 1, "lr": 9.800000000000001e-06}
+{"train_loss": 0.4714764654636383, "train_loss_dp": 0.4714743494987488, "train_loss_llm": 0.0021152496337890625, "global_step": 774, "epoch": 1, "lr": 9.800000000000001e-06}
+{"train_loss": 0.5736584067344666, "train_loss_dp": 0.5735814571380615, "train_loss_llm": 0.07696914672851562, "global_step": 775, "epoch": 1, "lr": 9.800000000000001e-06}
+{"train_loss": 0.7882629036903381, "train_loss_dp": 0.7882629036903381, "train_loss_llm": 0.0, "global_step": 776, "epoch": 1, "lr": 9.800000000000001e-06}
+{"train_loss": 0.3740021586418152, "train_loss_dp": 0.3739737272262573, "train_loss_llm": 0.028424739837646484, "global_step": 777, "epoch": 1, "lr": 9.800000000000001e-06}
+{"train_loss": 0.7720177173614502, "train_loss_dp": 0.771985650062561, "train_loss_llm": 0.0320892333984375, "global_step": 778, "epoch": 1, "lr": 9.800000000000001e-06}
+{"train_loss": 0.7779307961463928, "train_loss_dp": 0.7779076099395752, "train_loss_llm": 0.023201465606689453, "global_step": 779, "epoch": 1, "lr": 9.800000000000001e-06}
+{"train_loss": 0.47910213470458984, "train_loss_dp": 0.47908180952072144, "train_loss_llm": 0.020330429077148438, "global_step": 780, "epoch": 1, "lr": 9.800000000000001e-06}
+{"train_loss": 0.6650292277336121, "train_loss_dp": 0.6649044156074524, "train_loss_llm": 0.1247866153717041, "global_step": 781, "epoch": 1, "lr": 9.800000000000001e-06}
+{"train_loss": 0.8202338814735413, "train_loss_dp": 0.8202338814735413, "train_loss_llm": 0.0, "global_step": 782, "epoch": 1, "lr": 9.800000000000001e-06}
+{"train_loss": 0.7394861578941345, "train_loss_dp": 0.7394734621047974, "train_loss_llm": 0.012703418731689453, "global_step": 783, "epoch": 1, "lr": 9.800000000000001e-06}
+{"train_loss": 0.7915710806846619, "train_loss_dp": 0.7915109992027283, "train_loss_llm": 0.06008481979370117, "global_step": 784, "epoch": 1, "lr": 1e-05}
+{"train_loss": 0.6717793941497803, "train_loss_dp": 0.6717243790626526, "train_loss_llm": 0.055031776428222656, "global_step": 785, "epoch": 1, "lr": 1e-05}
+{"train_loss": 0.6865711212158203, "train_loss_dp": 0.6865180730819702, "train_loss_llm": 0.05302143096923828, "global_step": 786, "epoch": 1, "lr": 1e-05}
+{"train_loss": 0.75443434715271, "train_loss_dp": 0.75443434715271, "train_loss_llm": 0.0, "global_step": 787, "epoch": 1, "lr": 1e-05}
+{"train_loss": 0.6028885841369629, "train_loss_dp": 0.6028885841369629, "train_loss_llm": 0.0, "global_step": 788, "epoch": 1, "lr": 1e-05}
+{"train_loss": 0.6311190724372864, "train_loss_dp": 0.6311068534851074, "train_loss_llm": 0.012220025062561035, "global_step": 789, "epoch": 1, "lr": 1e-05}
+{"train_loss": 0.9434689879417419, "train_loss_dp": 0.9432117938995361, "train_loss_llm": 0.25718748569488525, "global_step": 790, "epoch": 1, "lr": 1e-05}
+{"train_loss": 1.0165140628814697, "train_loss_dp": 1.0164679288864136, "train_loss_llm": 0.04608273506164551, "global_step": 791, "epoch": 1, "lr": 1e-05}
+{"train_loss": 0.7315854430198669, "train_loss_dp": 0.7314318418502808, "train_loss_llm": 0.1535787582397461, "global_step": 792, "epoch": 1, "lr": 1e-05}
+{"train_loss": 0.7201521992683411, "train_loss_dp": 0.7200865745544434, "train_loss_llm": 0.06564360857009888, "global_step": 793, "epoch": 1, "lr": 1e-05}
+{"train_loss": 0.9031412601470947, "train_loss_dp": 0.9029030203819275, "train_loss_llm": 0.23825454711914062, "global_step": 794, "epoch": 1, "lr": 1e-05}
+{"train_loss": 1.000945806503296, "train_loss_dp": 1.0008766651153564, "train_loss_llm": 0.06910562515258789, "global_step": 795, "epoch": 1, "lr": 1e-05}
+{"train_loss": 0.43630707263946533, "train_loss_dp": 0.43620845675468445, "train_loss_llm": 0.09861350059509277, "global_step": 796, "epoch": 1, "lr": 1e-05}
+{"train_loss": 0.8614810109138489, "train_loss_dp": 0.8613743782043457, "train_loss_llm": 0.10660362243652344, "global_step": 797, "epoch": 1, "lr": 1e-05}
+{"train_loss": 0.5485808253288269, "train_loss_dp": 0.5485565662384033, "train_loss_llm": 0.024261534214019775, "global_step": 798, "epoch": 1, "lr": 1e-05}
+{"train_loss": 0.6950957179069519, "train_loss_dp": 0.6950421333312988, "train_loss_llm": 0.05360215902328491, "global_step": 799, "epoch": 1, "lr": 1e-05}
+{"train_loss": 0.9017820954322815, "train_loss_dp": 0.9017499685287476, "train_loss_llm": 0.032138824462890625, "global_step": 800, "epoch": 1, "lr": 1.02e-05}
+{"train_loss": 0.7404942512512207, "train_loss_dp": 0.7404942512512207, "train_loss_llm": 0.0, "global_step": 801, "epoch": 1, "lr": 1.02e-05}
+{"train_loss": 0.5211668014526367, "train_loss_dp": 0.520866334438324, "train_loss_llm": 0.3004417419433594, "global_step": 802, "epoch": 1, "lr": 1.02e-05}
+{"train_loss": 0.782907247543335, "train_loss_dp": 0.782907247543335, "train_loss_llm": 0.0, "global_step": 803, "epoch": 1, "lr": 1.02e-05}
+{"train_loss": 0.4185012876987457, "train_loss_dp": 0.41847842931747437, "train_loss_llm": 0.022863388061523438, "global_step": 804, "epoch": 1, "lr": 1.02e-05}
+{"train_loss": 0.842081606388092, "train_loss_dp": 0.842045247554779, "train_loss_llm": 0.036373138427734375, "global_step": 805, "epoch": 1, "lr": 1.02e-05}
+{"train_loss": 0.4545939862728119, "train_loss_dp": 0.4545939862728119, "train_loss_llm": 0.0, "global_step": 806, "epoch": 1, "lr": 1.02e-05}
+{"train_loss": 0.435058057308197, "train_loss_dp": 0.43503156304359436, "train_loss_llm": 0.026483893394470215, "global_step": 807, "epoch": 1, "lr": 1.02e-05}
+{"train_loss": 0.5389347672462463, "train_loss_dp": 0.5389236211776733, "train_loss_llm": 0.011157989501953125, "global_step": 808, "epoch": 1, "lr": 1.02e-05}
+{"train_loss": 0.6583008170127869, "train_loss_dp": 0.6582723259925842, "train_loss_llm": 0.028476715087890625, "global_step": 809, "epoch": 1, "lr": 1.02e-05}
+{"train_loss": 0.8840243816375732, "train_loss_dp": 0.8840002417564392, "train_loss_llm": 0.024116039276123047, "global_step": 810, "epoch": 1, "lr": 1.02e-05}
+{"train_loss": 0.5826295614242554, "train_loss_dp": 0.5825210213661194, "train_loss_llm": 0.108551025390625, "global_step": 811, "epoch": 1, "lr": 1.02e-05}
+{"train_loss": 0.7671204209327698, "train_loss_dp": 0.7670434713363647, "train_loss_llm": 0.07694149017333984, "global_step": 812, "epoch": 1, "lr": 1.02e-05}
+{"train_loss": 0.614359438419342, "train_loss_dp": 0.6141022443771362, "train_loss_llm": 0.2571907043457031, "global_step": 813, "epoch": 1, "lr": 1.02e-05}
+{"train_loss": 0.609424889087677, "train_loss_dp": 0.609424889087677, "train_loss_llm": 0.0, "global_step": 814, "epoch": 1, "lr": 1.02e-05}
+{"train_loss": 0.835322380065918, "train_loss_dp": 0.8352415561676025, "train_loss_llm": 0.0808095932006836, "global_step": 815, "epoch": 1, "lr": 1.02e-05}
+{"train_loss": 0.7235328555107117, "train_loss_dp": 0.7234417200088501, "train_loss_llm": 0.09111881256103516, "global_step": 816, "epoch": 1, "lr": 1.04e-05}
+{"train_loss": 0.5545188188552856, "train_loss_dp": 0.5545188188552856, "train_loss_llm": 0.0, "global_step": 817, "epoch": 1, "lr": 1.04e-05}
+{"train_loss": 0.7346500158309937, "train_loss_dp": 0.7345578670501709, "train_loss_llm": 0.09213066101074219, "global_step": 818, "epoch": 1, "lr": 1.04e-05}
+{"train_loss": 0.6152979135513306, "train_loss_dp": 0.6152055263519287, "train_loss_llm": 0.09238409996032715, "global_step": 819, "epoch": 1, "lr": 1.04e-05}
+{"train_loss": 0.6221395134925842, "train_loss_dp": 0.6221311092376709, "train_loss_llm": 0.008423268795013428, "global_step": 820, "epoch": 1, "lr": 1.04e-05}
+{"train_loss": 0.5531020760536194, "train_loss_dp": 0.5530197024345398, "train_loss_llm": 0.0823788046836853, "global_step": 821, "epoch": 1, "lr": 1.04e-05}
+{"train_loss": 0.614608108997345, "train_loss_dp": 0.6145119667053223, "train_loss_llm": 0.09615516662597656, "global_step": 822, "epoch": 1, "lr": 1.04e-05}
+{"train_loss": 0.4161936640739441, "train_loss_dp": 0.416147917509079, "train_loss_llm": 0.045751094818115234, "global_step": 823, "epoch": 1, "lr": 1.04e-05}
+{"train_loss": 0.7055555582046509, "train_loss_dp": 0.7055555582046509, "train_loss_llm": 0.0, "global_step": 824, "epoch": 1, "lr": 1.04e-05}
+{"train_loss": 0.2876524329185486, "train_loss_dp": 0.2876524329185486, "train_loss_llm": 0.0, "global_step": 825, "epoch": 1, "lr": 1.04e-05}
+{"train_loss": 0.648938000202179, "train_loss_dp": 0.6489083170890808, "train_loss_llm": 0.0296630859375, "global_step": 826, "epoch": 1, "lr": 1.04e-05}
+{"train_loss": 1.2729971408843994, "train_loss_dp": 1.2729971408843994, "train_loss_llm": 0.0, "global_step": 827, "epoch": 1, "lr": 1.04e-05}
+{"train_loss": 0.5032532811164856, "train_loss_dp": 0.5032532811164856, "train_loss_llm": 0.0, "global_step": 828, "epoch": 1, "lr": 1.04e-05}
+{"train_loss": 0.3369000554084778, "train_loss_dp": 0.3368872404098511, "train_loss_llm": 0.012811660766601562, "global_step": 829, "epoch": 1, "lr": 1.04e-05}
+{"train_loss": 0.6468320488929749, "train_loss_dp": 0.646720290184021, "train_loss_llm": 0.11174905300140381, "global_step": 830, "epoch": 1, "lr": 1.04e-05}
+{"train_loss": 0.47123515605926514, "train_loss_dp": 0.4711809754371643, "train_loss_llm": 0.05419158935546875, "global_step": 831, "epoch": 1, "lr": 1.04e-05}
+{"train_loss": 0.9363309144973755, "train_loss_dp": 0.936299204826355, "train_loss_llm": 0.03170132637023926, "global_step": 832, "epoch": 1, "lr": 1.06e-05}
+{"train_loss": 0.4447648227214813, "train_loss_dp": 0.44471561908721924, "train_loss_llm": 0.04921674728393555, "global_step": 833, "epoch": 1, "lr": 1.06e-05}
+{"train_loss": 0.8407789468765259, "train_loss_dp": 0.8407144546508789, "train_loss_llm": 0.06449413299560547, "global_step": 834, "epoch": 1, "lr": 1.06e-05}
+{"train_loss": 0.6177341938018799, "train_loss_dp": 0.6177341938018799, "train_loss_llm": 0.0, "global_step": 835, "epoch": 1, "lr": 1.06e-05}
+{"train_loss": 0.7056211829185486, "train_loss_dp": 0.7054567933082581, "train_loss_llm": 0.16440153121948242, "global_step": 836, "epoch": 1, "lr": 1.06e-05}
+{"train_loss": 0.6390047073364258, "train_loss_dp": 0.6386888027191162, "train_loss_llm": 0.31589317321777344, "global_step": 837, "epoch": 1, "lr": 1.06e-05}
+{"train_loss": 0.43185892701148987, "train_loss_dp": 0.431832492351532, "train_loss_llm": 0.02644217014312744, "global_step": 838, "epoch": 1, "lr": 1.06e-05}
+{"train_loss": 0.42729106545448303, "train_loss_dp": 0.4272691011428833, "train_loss_llm": 0.021967172622680664, "global_step": 839, "epoch": 1, "lr": 1.06e-05}
+{"train_loss": 0.7307453155517578, "train_loss_dp": 0.7306761145591736, "train_loss_llm": 0.06917858123779297, "global_step": 840, "epoch": 1, "lr": 1.06e-05}
+{"train_loss": 0.669443666934967, "train_loss_dp": 0.6694101691246033, "train_loss_llm": 0.03347349166870117, "global_step": 841, "epoch": 1, "lr": 1.06e-05}
+{"train_loss": 0.8342584371566772, "train_loss_dp": 0.8342167139053345, "train_loss_llm": 0.04172801971435547, "global_step": 842, "epoch": 1, "lr": 1.06e-05}
+{"train_loss": 0.6441317796707153, "train_loss_dp": 0.6439844965934753, "train_loss_llm": 0.1472715139389038, "global_step": 843, "epoch": 1, "lr": 1.06e-05}
+{"train_loss": 0.5073971152305603, "train_loss_dp": 0.5073664784431458, "train_loss_llm": 0.03065025806427002, "global_step": 844, "epoch": 1, "lr": 1.06e-05}
+{"train_loss": 0.5663625001907349, "train_loss_dp": 0.5662926435470581, "train_loss_llm": 0.0698552131652832, "global_step": 845, "epoch": 1, "lr": 1.06e-05}
+{"train_loss": 0.6782156229019165, "train_loss_dp": 0.6781491041183472, "train_loss_llm": 0.06653439998626709, "global_step": 846, "epoch": 1, "lr": 1.06e-05}
+{"train_loss": 0.7822493314743042, "train_loss_dp": 0.7822493314743042, "train_loss_llm": 0.0, "global_step": 847, "epoch": 1, "lr": 1.06e-05}
+{"train_loss": 0.5798397064208984, "train_loss_dp": 0.5797958374023438, "train_loss_llm": 0.043851375579833984, "global_step": 848, "epoch": 1, "lr": 1.08e-05}
+{"train_loss": 0.8445757031440735, "train_loss_dp": 0.8444501161575317, "train_loss_llm": 0.125579833984375, "global_step": 849, "epoch": 1, "lr": 1.08e-05}
+{"train_loss": 0.6057226657867432, "train_loss_dp": 0.6057226657867432, "train_loss_llm": 0.0, "global_step": 850, "epoch": 1, "lr": 1.08e-05}
+{"train_loss": 0.544196367263794, "train_loss_dp": 0.5441406965255737, "train_loss_llm": 0.05567669868469238, "global_step": 851, "epoch": 1, "lr": 1.08e-05}
+{"train_loss": 0.5622442364692688, "train_loss_dp": 0.5621227025985718, "train_loss_llm": 0.12151765823364258, "global_step": 852, "epoch": 1, "lr": 1.08e-05}
+{"train_loss": 1.4345932006835938, "train_loss_dp": 1.434443473815918, "train_loss_llm": 0.14974260330200195, "global_step": 853, "epoch": 1, "lr": 1.08e-05}
+{"train_loss": 0.882527232170105, "train_loss_dp": 0.8824979066848755, "train_loss_llm": 0.029302597045898438, "global_step": 854, "epoch": 1, "lr": 1.08e-05}
+{"train_loss": 0.7799981832504272, "train_loss_dp": 0.7799302935600281, "train_loss_llm": 0.06790304183959961, "global_step": 855, "epoch": 1, "lr": 1.08e-05}
+{"train_loss": 0.695229709148407, "train_loss_dp": 0.6951637268066406, "train_loss_llm": 0.0659933090209961, "global_step": 856, "epoch": 1, "lr": 1.08e-05}
+{"train_loss": 0.5715188980102539, "train_loss_dp": 0.5714569091796875, "train_loss_llm": 0.06197386980056763, "global_step": 857, "epoch": 1, "lr": 1.08e-05}
+{"train_loss": 0.6126759648323059, "train_loss_dp": 0.6126386523246765, "train_loss_llm": 0.03730440139770508, "global_step": 858, "epoch": 1, "lr": 1.08e-05}
+{"train_loss": 0.7678961157798767, "train_loss_dp": 0.7678961157798767, "train_loss_llm": 0.0, "global_step": 859, "epoch": 1, "lr": 1.08e-05}
+{"train_loss": 0.5888599157333374, "train_loss_dp": 0.58882737159729, "train_loss_llm": 0.03252887725830078, "global_step": 860, "epoch": 1, "lr": 1.08e-05}
+{"train_loss": 0.792688250541687, "train_loss_dp": 0.7926003932952881, "train_loss_llm": 0.08782958984375, "global_step": 861, "epoch": 1, "lr": 1.08e-05}
+{"train_loss": 0.7838635444641113, "train_loss_dp": 0.7836738228797913, "train_loss_llm": 0.18970298767089844, "global_step": 862, "epoch": 1, "lr": 1.08e-05}
+{"train_loss": 0.5294464230537415, "train_loss_dp": 0.5293169617652893, "train_loss_llm": 0.12947845458984375, "global_step": 863, "epoch": 1, "lr": 1.08e-05}
+{"train_loss": 0.6251469254493713, "train_loss_dp": 0.6251437664031982, "train_loss_llm": 0.003154754638671875, "global_step": 864, "epoch": 1, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.9357447624206543, "train_loss_dp": 0.9356555938720703, "train_loss_llm": 0.08914566040039062, "global_step": 865, "epoch": 1, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.3455304801464081, "train_loss_dp": 0.3454844355583191, "train_loss_llm": 0.04605400562286377, "global_step": 866, "epoch": 1, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.829399585723877, "train_loss_dp": 0.8293562531471252, "train_loss_llm": 0.04335397481918335, "global_step": 867, "epoch": 1, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.31919679045677185, "train_loss_dp": 0.3191700577735901, "train_loss_llm": 0.026743292808532715, "global_step": 868, "epoch": 1, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.3346213102340698, "train_loss_dp": 0.334611177444458, "train_loss_llm": 0.010123789310455322, "global_step": 869, "epoch": 1, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.5995041728019714, "train_loss_dp": 0.5995041728019714, "train_loss_llm": 0.0, "global_step": 870, "epoch": 1, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.7949813604354858, "train_loss_dp": 0.7948722839355469, "train_loss_llm": 0.10908985137939453, "global_step": 871, "epoch": 1, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.7645193934440613, "train_loss_dp": 0.7643452882766724, "train_loss_llm": 0.17408227920532227, "global_step": 872, "epoch": 1, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.37365323305130005, "train_loss_dp": 0.37365323305130005, "train_loss_llm": 0.0, "global_step": 873, "epoch": 1, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.39687836170196533, "train_loss_dp": 0.39687836170196533, "train_loss_llm": 0.0, "global_step": 874, "epoch": 1, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.7881984710693359, "train_loss_dp": 0.7881487607955933, "train_loss_llm": 0.049693942070007324, "global_step": 875, "epoch": 1, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.7178365588188171, "train_loss_dp": 0.7178007364273071, "train_loss_llm": 0.03581047058105469, "global_step": 876, "epoch": 1, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.4025159776210785, "train_loss_dp": 0.40247416496276855, "train_loss_llm": 0.041806817054748535, "global_step": 877, "epoch": 1, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.4423607587814331, "train_loss_dp": 0.4422854781150818, "train_loss_llm": 0.07528442144393921, "global_step": 878, "epoch": 1, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.8750725984573364, "train_loss_dp": 0.8748512268066406, "train_loss_llm": 0.22136306762695312, "global_step": 879, "epoch": 1, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.6532050371170044, "train_loss_dp": 0.6531544923782349, "train_loss_llm": 0.05056190490722656, "global_step": 880, "epoch": 1, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.7445797920227051, "train_loss_dp": 0.7445603609085083, "train_loss_llm": 0.019427001476287842, "global_step": 881, "epoch": 1, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.5421775579452515, "train_loss_dp": 0.5421022772789001, "train_loss_llm": 0.07529067993164062, "global_step": 882, "epoch": 1, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.6572816371917725, "train_loss_dp": 0.6572816371917725, "train_loss_llm": 0.0, "global_step": 883, "epoch": 1, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.48606541752815247, "train_loss_dp": 0.48605015873908997, "train_loss_llm": 0.01526641845703125, "global_step": 884, "epoch": 1, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.46851861476898193, "train_loss_dp": 0.46851861476898193, "train_loss_llm": 0.0, "global_step": 885, "epoch": 1, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.3998109698295593, "train_loss_dp": 0.3998109698295593, "train_loss_llm": 0.0, "global_step": 886, "epoch": 1, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.43459853529930115, "train_loss_dp": 0.43459582328796387, "train_loss_llm": 0.0027213096618652344, "global_step": 887, "epoch": 1, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.5514111518859863, "train_loss_dp": 0.5514111518859863, "train_loss_llm": 0.0, "global_step": 888, "epoch": 1, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.6119160056114197, "train_loss_dp": 0.61187744140625, "train_loss_llm": 0.03857064247131348, "global_step": 889, "epoch": 1, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.4637964367866516, "train_loss_dp": 0.4637502431869507, "train_loss_llm": 0.0461888313293457, "global_step": 890, "epoch": 1, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.4831447899341583, "train_loss_dp": 0.48309051990509033, "train_loss_llm": 0.05426979064941406, "global_step": 891, "epoch": 1, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.4465875029563904, "train_loss_dp": 0.4464672803878784, "train_loss_llm": 0.12021923065185547, "global_step": 892, "epoch": 1, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.8897310495376587, "train_loss_dp": 0.8896670937538147, "train_loss_llm": 0.06396484375, "global_step": 893, "epoch": 1, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.659182071685791, "train_loss_dp": 0.6591819524765015, "train_loss_llm": 0.00010275840759277344, "global_step": 894, "epoch": 1, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.44220417737960815, "train_loss_dp": 0.4421032667160034, "train_loss_llm": 0.10091781616210938, "global_step": 895, "epoch": 1, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.3543018102645874, "train_loss_dp": 0.35428446531295776, "train_loss_llm": 0.017353296279907227, "global_step": 896, "epoch": 1, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.7114816904067993, "train_loss_dp": 0.7112166881561279, "train_loss_llm": 0.2650015354156494, "global_step": 897, "epoch": 1, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.5079099535942078, "train_loss_dp": 0.5078476667404175, "train_loss_llm": 0.062306880950927734, "global_step": 898, "epoch": 1, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.6711568832397461, "train_loss_dp": 0.6710902452468872, "train_loss_llm": 0.06662797927856445, "global_step": 899, "epoch": 1, "lr": 1.1400000000000001e-05}
+{"train_loss": 1.005799651145935, "train_loss_dp": 1.0056495666503906, "train_loss_llm": 0.15006637573242188, "global_step": 900, "epoch": 1, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.7552483677864075, "train_loss_dp": 0.7550995349884033, "train_loss_llm": 0.14881229400634766, "global_step": 901, "epoch": 1, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.5996947884559631, "train_loss_dp": 0.5996947884559631, "train_loss_llm": 0.0, "global_step": 902, "epoch": 1, "lr": 1.1400000000000001e-05}
+{"train_loss": 1.0435410737991333, "train_loss_dp": 1.0435410737991333, "train_loss_llm": 0.0, "global_step": 903, "epoch": 1, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.42974111437797546, "train_loss_dp": 0.42971107363700867, "train_loss_llm": 0.030052900314331055, "global_step": 904, "epoch": 1, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.46095719933509827, "train_loss_dp": 0.46086907386779785, "train_loss_llm": 0.08811187744140625, "global_step": 905, "epoch": 1, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.5084697008132935, "train_loss_dp": 0.5083936452865601, "train_loss_llm": 0.07602977752685547, "global_step": 906, "epoch": 1, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.6142576932907104, "train_loss_dp": 0.6142576932907104, "train_loss_llm": 0.0, "global_step": 907, "epoch": 1, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.5147894620895386, "train_loss_dp": 0.514750063419342, "train_loss_llm": 0.03941535949707031, "global_step": 908, "epoch": 1, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.5361379384994507, "train_loss_dp": 0.5360561609268188, "train_loss_llm": 0.08177638053894043, "global_step": 909, "epoch": 1, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.531592607498169, "train_loss_dp": 0.531592607498169, "train_loss_llm": 0.0, "global_step": 910, "epoch": 1, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.6060445308685303, "train_loss_dp": 0.6059864163398743, "train_loss_llm": 0.058112144470214844, "global_step": 911, "epoch": 1, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.8297142386436462, "train_loss_dp": 0.8296822309494019, "train_loss_llm": 0.03198099136352539, "global_step": 912, "epoch": 1, "lr": 1.16e-05}
+{"train_loss": 0.4758736193180084, "train_loss_dp": 0.47583097219467163, "train_loss_llm": 0.042635202407836914, "global_step": 913, "epoch": 1, "lr": 1.16e-05}
+{"train_loss": 0.7200191617012024, "train_loss_dp": 0.7199301719665527, "train_loss_llm": 0.08897519111633301, "global_step": 914, "epoch": 1, "lr": 1.16e-05}
+{"train_loss": 0.4354919493198395, "train_loss_dp": 0.4354919493198395, "train_loss_llm": 0.0, "global_step": 915, "epoch": 1, "lr": 1.16e-05}
+{"train_loss": 0.7287678718566895, "train_loss_dp": 0.7287212014198303, "train_loss_llm": 0.0466766357421875, "global_step": 916, "epoch": 1, "lr": 1.16e-05}
+{"train_loss": 0.9818627834320068, "train_loss_dp": 0.9817590713500977, "train_loss_llm": 0.1037372350692749, "global_step": 917, "epoch": 1, "lr": 1.16e-05}
+{"train_loss": 0.6118167638778687, "train_loss_dp": 0.6116860508918762, "train_loss_llm": 0.13072973489761353, "global_step": 918, "epoch": 1, "lr": 1.16e-05}
+{"train_loss": 0.533869206905365, "train_loss_dp": 0.5335738658905029, "train_loss_llm": 0.29531288146972656, "global_step": 919, "epoch": 1, "lr": 1.16e-05}
+{"train_loss": 0.4689105749130249, "train_loss_dp": 0.4689105749130249, "train_loss_llm": 0.0, "global_step": 920, "epoch": 1, "lr": 1.16e-05}
+{"train_loss": 0.369157075881958, "train_loss_dp": 0.369157075881958, "train_loss_llm": 0.0, "global_step": 921, "epoch": 1, "lr": 1.16e-05}
+{"train_loss": 0.26519936323165894, "train_loss_dp": 0.2651936113834381, "train_loss_llm": 0.0057509541511535645, "global_step": 922, "epoch": 1, "lr": 1.16e-05}
+{"train_loss": 0.6358211040496826, "train_loss_dp": 0.6357863545417786, "train_loss_llm": 0.03475165367126465, "global_step": 923, "epoch": 1, "lr": 1.16e-05}
+{"train_loss": 0.6266347169876099, "train_loss_dp": 0.6265395879745483, "train_loss_llm": 0.09514617919921875, "global_step": 924, "epoch": 1, "lr": 1.16e-05}
+{"train_loss": 0.6010189652442932, "train_loss_dp": 0.6008224487304688, "train_loss_llm": 0.19651615619659424, "global_step": 925, "epoch": 1, "lr": 1.16e-05}
+{"train_loss": 0.6223791837692261, "train_loss_dp": 0.6223791837692261, "train_loss_llm": 0.0, "global_step": 926, "epoch": 1, "lr": 1.16e-05}
+{"train_loss": 0.8885778188705444, "train_loss_dp": 0.8884730339050293, "train_loss_llm": 0.10477828979492188, "global_step": 927, "epoch": 1, "lr": 1.16e-05}
+{"train_loss": 0.5587880611419678, "train_loss_dp": 0.5587130784988403, "train_loss_llm": 0.07495880126953125, "global_step": 928, "epoch": 1, "lr": 1.18e-05}
+{"train_loss": 0.6972610950469971, "train_loss_dp": 0.6972454786300659, "train_loss_llm": 0.015596389770507812, "global_step": 929, "epoch": 1, "lr": 1.18e-05}
+{"train_loss": 0.46060389280319214, "train_loss_dp": 0.46057987213134766, "train_loss_llm": 0.024015188217163086, "global_step": 930, "epoch": 1, "lr": 1.18e-05}
+{"train_loss": 0.632857620716095, "train_loss_dp": 0.632857620716095, "train_loss_llm": 0.0, "global_step": 931, "epoch": 1, "lr": 1.18e-05}
+{"train_loss": 0.5355812311172485, "train_loss_dp": 0.535547137260437, "train_loss_llm": 0.034082889556884766, "global_step": 932, "epoch": 1, "lr": 1.18e-05}
+{"train_loss": 0.5457062125205994, "train_loss_dp": 0.5455929040908813, "train_loss_llm": 0.1132965087890625, "global_step": 933, "epoch": 1, "lr": 1.18e-05}
+{"train_loss": 0.47885239124298096, "train_loss_dp": 0.47885239124298096, "train_loss_llm": 0.0, "global_step": 934, "epoch": 1, "lr": 1.18e-05}
+{"train_loss": 0.6591033339500427, "train_loss_dp": 0.6589625477790833, "train_loss_llm": 0.14076781272888184, "global_step": 935, "epoch": 1, "lr": 1.18e-05}
+{"train_loss": 0.5875744819641113, "train_loss_dp": 0.5875431299209595, "train_loss_llm": 0.03136420249938965, "global_step": 936, "epoch": 1, "lr": 1.18e-05}
+{"train_loss": 0.31954044103622437, "train_loss_dp": 0.31954044103622437, "train_loss_llm": 0.0, "global_step": 937, "epoch": 1, "lr": 1.18e-05}
+{"train_loss": 0.8925554156303406, "train_loss_dp": 0.8925043344497681, "train_loss_llm": 0.051084280014038086, "global_step": 938, "epoch": 1, "lr": 1.18e-05}
+{"train_loss": 0.3756696581840515, "train_loss_dp": 0.37560105323791504, "train_loss_llm": 0.0686187744140625, "global_step": 939, "epoch": 1, "lr": 1.18e-05}
+{"train_loss": 0.4312325119972229, "train_loss_dp": 0.4311695992946625, "train_loss_llm": 0.06291937828063965, "global_step": 940, "epoch": 1, "lr": 1.18e-05}
+{"train_loss": 0.6445907950401306, "train_loss_dp": 0.644495964050293, "train_loss_llm": 0.0948336124420166, "global_step": 941, "epoch": 1, "lr": 1.18e-05}
+{"train_loss": 0.37635645270347595, "train_loss_dp": 0.37632426619529724, "train_loss_llm": 0.032199859619140625, "global_step": 942, "epoch": 1, "lr": 1.18e-05}
+{"train_loss": 0.7582786679267883, "train_loss_dp": 0.7581258416175842, "train_loss_llm": 0.15282249450683594, "global_step": 943, "epoch": 1, "lr": 1.18e-05}
+{"train_loss": 0.5915879011154175, "train_loss_dp": 0.5915600657463074, "train_loss_llm": 0.027846455574035645, "global_step": 944, "epoch": 1, "lr": 1.2e-05}
+{"train_loss": 0.3086841404438019, "train_loss_dp": 0.3086615800857544, "train_loss_llm": 0.022563934326171875, "global_step": 945, "epoch": 1, "lr": 1.2e-05}
+{"train_loss": 0.6123940348625183, "train_loss_dp": 0.6122670769691467, "train_loss_llm": 0.12697601318359375, "global_step": 946, "epoch": 1, "lr": 1.2e-05}
+{"train_loss": 0.45917803049087524, "train_loss_dp": 0.4591372013092041, "train_loss_llm": 0.04083657264709473, "global_step": 947, "epoch": 1, "lr": 1.2e-05}
+{"train_loss": 0.5069344639778137, "train_loss_dp": 0.506896436214447, "train_loss_llm": 0.037999629974365234, "global_step": 948, "epoch": 1, "lr": 1.2e-05}
+{"train_loss": 0.463357150554657, "train_loss_dp": 0.463357150554657, "train_loss_llm": 0.0, "global_step": 949, "epoch": 1, "lr": 1.2e-05}
+{"train_loss": 0.4907868802547455, "train_loss_dp": 0.49072274565696716, "train_loss_llm": 0.06412367522716522, "global_step": 950, "epoch": 1, "lr": 1.2e-05}
+{"train_loss": 0.2632567286491394, "train_loss_dp": 0.26325348019599915, "train_loss_llm": 0.0032449960708618164, "global_step": 951, "epoch": 1, "lr": 1.2e-05}
+{"train_loss": 0.4794793725013733, "train_loss_dp": 0.4794401526451111, "train_loss_llm": 0.03921103477478027, "global_step": 952, "epoch": 1, "lr": 1.2e-05}
+{"train_loss": 0.4411308765411377, "train_loss_dp": 0.4409675598144531, "train_loss_llm": 0.16331183910369873, "global_step": 953, "epoch": 1, "lr": 1.2e-05}
+{"train_loss": 0.4251302182674408, "train_loss_dp": 0.42510610818862915, "train_loss_llm": 0.02411174774169922, "global_step": 954, "epoch": 1, "lr": 1.2e-05}
+{"train_loss": 0.324870228767395, "train_loss_dp": 0.3248293399810791, "train_loss_llm": 0.04088020324707031, "global_step": 955, "epoch": 1, "lr": 1.2e-05}
+{"train_loss": 0.6234917044639587, "train_loss_dp": 0.6234087944030762, "train_loss_llm": 0.08289718627929688, "global_step": 956, "epoch": 1, "lr": 1.2e-05}
+{"train_loss": 0.45845600962638855, "train_loss_dp": 0.4583579897880554, "train_loss_llm": 0.09801101684570312, "global_step": 957, "epoch": 1, "lr": 1.2e-05}
+{"train_loss": 0.6522179245948792, "train_loss_dp": 0.6519269347190857, "train_loss_llm": 0.2910189628601074, "global_step": 958, "epoch": 1, "lr": 1.2e-05}
+{"train_loss": 0.5176234245300293, "train_loss_dp": 0.5174718499183655, "train_loss_llm": 0.15158653259277344, "global_step": 959, "epoch": 1, "lr": 1.2e-05}
+{"train_loss": 0.4561130702495575, "train_loss_dp": 0.4560208022594452, "train_loss_llm": 0.09226512908935547, "global_step": 960, "epoch": 1, "lr": 1.22e-05}
+{"train_loss": 0.42694181203842163, "train_loss_dp": 0.4268587529659271, "train_loss_llm": 0.08307230472564697, "global_step": 961, "epoch": 1, "lr": 1.22e-05}
+{"train_loss": 0.5893224477767944, "train_loss_dp": 0.5892702341079712, "train_loss_llm": 0.05222487449645996, "global_step": 962, "epoch": 1, "lr": 1.22e-05}
+{"train_loss": 0.3919945955276489, "train_loss_dp": 0.3919011950492859, "train_loss_llm": 0.09338617324829102, "global_step": 963, "epoch": 1, "lr": 1.22e-05}
+{"train_loss": 0.571145236492157, "train_loss_dp": 0.571145236492157, "train_loss_llm": 0.0, "global_step": 964, "epoch": 1, "lr": 1.22e-05}
+{"train_loss": 0.4613242447376251, "train_loss_dp": 0.46130046248435974, "train_loss_llm": 0.023772358894348145, "global_step": 965, "epoch": 1, "lr": 1.22e-05}
+{"train_loss": 0.583834171295166, "train_loss_dp": 0.5837104320526123, "train_loss_llm": 0.12375879287719727, "global_step": 966, "epoch": 1, "lr": 1.22e-05}
+{"train_loss": 0.48646196722984314, "train_loss_dp": 0.4863877296447754, "train_loss_llm": 0.07424497604370117, "global_step": 967, "epoch": 1, "lr": 1.22e-05}
+{"train_loss": 0.45348042249679565, "train_loss_dp": 0.4534720182418823, "train_loss_llm": 0.008401870727539062, "global_step": 968, "epoch": 1, "lr": 1.22e-05}
+{"train_loss": 0.9312474727630615, "train_loss_dp": 0.9311235547065735, "train_loss_llm": 0.12389373779296875, "global_step": 969, "epoch": 1, "lr": 1.22e-05}
+{"train_loss": 0.9999424815177917, "train_loss_dp": 0.9999003410339355, "train_loss_llm": 0.04214739799499512, "global_step": 970, "epoch": 1, "lr": 1.22e-05}
+{"train_loss": 0.41254720091819763, "train_loss_dp": 0.4124852418899536, "train_loss_llm": 0.06195974349975586, "global_step": 971, "epoch": 1, "lr": 1.22e-05}
+{"train_loss": 0.5485224723815918, "train_loss_dp": 0.5484738945960999, "train_loss_llm": 0.04859447479248047, "global_step": 972, "epoch": 1, "lr": 1.22e-05}
+{"train_loss": 0.5151084661483765, "train_loss_dp": 0.515083909034729, "train_loss_llm": 0.02452993392944336, "global_step": 973, "epoch": 1, "lr": 1.22e-05}
+{"train_loss": 0.40731069445610046, "train_loss_dp": 0.4072853922843933, "train_loss_llm": 0.025293827056884766, "global_step": 974, "epoch": 1, "lr": 1.22e-05}
+{"train_loss": 0.5737203359603882, "train_loss_dp": 0.5735223889350891, "train_loss_llm": 0.19793319702148438, "global_step": 975, "epoch": 1, "lr": 1.22e-05}
+{"train_loss": 0.4826865792274475, "train_loss_dp": 0.4826538562774658, "train_loss_llm": 0.032721519470214844, "global_step": 976, "epoch": 1, "lr": 1.24e-05}
+{"train_loss": 0.6111223101615906, "train_loss_dp": 0.6110938191413879, "train_loss_llm": 0.028493881225585938, "global_step": 977, "epoch": 1, "lr": 1.24e-05}
+{"train_loss": 0.24215179681777954, "train_loss_dp": 0.24214211106300354, "train_loss_llm": 0.009689569473266602, "global_step": 978, "epoch": 1, "lr": 1.24e-05}
+{"train_loss": 0.35809043049812317, "train_loss_dp": 0.35807669162750244, "train_loss_llm": 0.01373589038848877, "global_step": 979, "epoch": 1, "lr": 1.24e-05}
+{"train_loss": 0.44564729928970337, "train_loss_dp": 0.4456147253513336, "train_loss_llm": 0.03257274627685547, "global_step": 980, "epoch": 1, "lr": 1.24e-05}
+{"train_loss": 0.4518662989139557, "train_loss_dp": 0.4518311023712158, "train_loss_llm": 0.035199642181396484, "global_step": 981, "epoch": 1, "lr": 1.24e-05}
+{"train_loss": 0.4449961483478546, "train_loss_dp": 0.4448995590209961, "train_loss_llm": 0.096588134765625, "global_step": 982, "epoch": 1, "lr": 1.24e-05}
+{"train_loss": 0.5820526480674744, "train_loss_dp": 0.5820526480674744, "train_loss_llm": 0.0, "global_step": 983, "epoch": 1, "lr": 1.24e-05}
+{"train_loss": 0.5243782997131348, "train_loss_dp": 0.5243674516677856, "train_loss_llm": 0.010819435119628906, "global_step": 984, "epoch": 1, "lr": 1.24e-05}
+{"train_loss": 0.9954932332038879, "train_loss_dp": 0.9954932332038879, "train_loss_llm": 0.0, "global_step": 985, "epoch": 1, "lr": 1.24e-05}
+{"train_loss": 0.2954149842262268, "train_loss_dp": 0.29538825154304504, "train_loss_llm": 0.02672678232192993, "global_step": 986, "epoch": 1, "lr": 1.24e-05}
+{"train_loss": 0.5219789743423462, "train_loss_dp": 0.5219539403915405, "train_loss_llm": 0.0250624418258667, "global_step": 987, "epoch": 1, "lr": 1.24e-05}
+{"train_loss": 0.4193577170372009, "train_loss_dp": 0.4192465543746948, "train_loss_llm": 0.1111607551574707, "global_step": 988, "epoch": 1, "lr": 1.24e-05}
+{"train_loss": 0.28757941722869873, "train_loss_dp": 0.2875618636608124, "train_loss_llm": 0.017561912536621094, "global_step": 989, "epoch": 1, "lr": 1.24e-05}
+{"train_loss": 0.4002509117126465, "train_loss_dp": 0.4002445638179779, "train_loss_llm": 0.0063495635986328125, "global_step": 990, "epoch": 1, "lr": 1.24e-05}
+{"train_loss": 0.35476386547088623, "train_loss_dp": 0.35472261905670166, "train_loss_llm": 0.041234731674194336, "global_step": 991, "epoch": 1, "lr": 1.24e-05}
+{"train_loss": 0.39110997319221497, "train_loss_dp": 0.39102745056152344, "train_loss_llm": 0.08252495527267456, "global_step": 992, "epoch": 1, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.5901345610618591, "train_loss_dp": 0.5901018381118774, "train_loss_llm": 0.032723069190979004, "global_step": 993, "epoch": 1, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.9826005101203918, "train_loss_dp": 0.9825240969657898, "train_loss_llm": 0.07642650604248047, "global_step": 994, "epoch": 1, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.731489360332489, "train_loss_dp": 0.7313897609710693, "train_loss_llm": 0.09958243370056152, "global_step": 995, "epoch": 1, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.9856171011924744, "train_loss_dp": 0.9855995178222656, "train_loss_llm": 0.01759052276611328, "global_step": 996, "epoch": 1, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.33389532566070557, "train_loss_dp": 0.33387407660484314, "train_loss_llm": 0.0212557315826416, "global_step": 997, "epoch": 1, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.5711740851402283, "train_loss_dp": 0.5711449384689331, "train_loss_llm": 0.029144287109375, "global_step": 998, "epoch": 1, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.4911981225013733, "train_loss_dp": 0.49113935232162476, "train_loss_llm": 0.05876588821411133, "global_step": 999, "epoch": 1, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.5636475086212158, "train_loss_dp": 0.5636091232299805, "train_loss_llm": 0.038382530212402344, "global_step": 1000, "epoch": 1, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.5294382572174072, "train_loss_dp": 0.5293623208999634, "train_loss_llm": 0.07594513893127441, "global_step": 1001, "epoch": 1, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.5065525770187378, "train_loss_dp": 0.5064575672149658, "train_loss_llm": 0.09500980377197266, "global_step": 1002, "epoch": 1, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.22043152153491974, "train_loss_dp": 0.22030103206634521, "train_loss_llm": 0.1304931640625, "global_step": 1003, "epoch": 1, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.38081100583076477, "train_loss_dp": 0.3807913064956665, "train_loss_llm": 0.019697189331054688, "global_step": 1004, "epoch": 1, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.621188223361969, "train_loss_dp": 0.6210927963256836, "train_loss_llm": 0.09541034698486328, "global_step": 1005, "epoch": 1, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.6320388913154602, "train_loss_dp": 0.631986677646637, "train_loss_llm": 0.0522160530090332, "global_step": 1006, "epoch": 1, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.5532804727554321, "train_loss_dp": 0.5532804727554321, "train_loss_llm": 0.0, "global_step": 1007, "epoch": 1, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.6781607866287231, "train_loss_dp": 0.6780683994293213, "train_loss_llm": 0.09241008758544922, "global_step": 1008, "epoch": 1, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.44014251232147217, "train_loss_dp": 0.44010481238365173, "train_loss_llm": 0.03768712282180786, "global_step": 1009, "epoch": 1, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.5468920469284058, "train_loss_dp": 0.5467789173126221, "train_loss_llm": 0.11315122246742249, "global_step": 1010, "epoch": 1, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.23617546260356903, "train_loss_dp": 0.23605814576148987, "train_loss_llm": 0.11731332540512085, "global_step": 1011, "epoch": 1, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.4680459201335907, "train_loss_dp": 0.46802371740341187, "train_loss_llm": 0.022211670875549316, "global_step": 1012, "epoch": 1, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.4276094436645508, "train_loss_dp": 0.42754343152046204, "train_loss_llm": 0.06599932909011841, "global_step": 1013, "epoch": 1, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.7420710325241089, "train_loss_dp": 0.74196457862854, "train_loss_llm": 0.10646700859069824, "global_step": 1014, "epoch": 1, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.7917987108230591, "train_loss_dp": 0.791713297367096, "train_loss_llm": 0.08539199829101562, "global_step": 1015, "epoch": 1, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.6714497804641724, "train_loss_dp": 0.6714189052581787, "train_loss_llm": 0.03089076280593872, "global_step": 1016, "epoch": 1, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.5147109031677246, "train_loss_dp": 0.5146697759628296, "train_loss_llm": 0.041144490242004395, "global_step": 1017, "epoch": 1, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.6132935285568237, "train_loss_dp": 0.6131623983383179, "train_loss_llm": 0.1311016082763672, "global_step": 1018, "epoch": 1, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.5876805782318115, "train_loss_dp": 0.5876259207725525, "train_loss_llm": 0.054668426513671875, "global_step": 1019, "epoch": 1, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.40253564715385437, "train_loss_dp": 0.4025249481201172, "train_loss_llm": 0.010684967041015625, "global_step": 1020, "epoch": 1, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.5555243492126465, "train_loss_dp": 0.5554797053337097, "train_loss_llm": 0.04463207721710205, "global_step": 1021, "epoch": 1, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.5784623026847839, "train_loss_dp": 0.5783498287200928, "train_loss_llm": 0.11246085166931152, "global_step": 1022, "epoch": 1, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.34645259380340576, "train_loss_dp": 0.34643226861953735, "train_loss_llm": 0.02033078670501709, "global_step": 1023, "epoch": 1, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.32274359464645386, "train_loss_dp": 0.3226873576641083, "train_loss_llm": 0.05624401569366455, "global_step": 1024, "epoch": 1, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.5165492296218872, "train_loss_dp": 0.5164844393730164, "train_loss_llm": 0.0647735595703125, "global_step": 1025, "epoch": 1, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.8533170223236084, "train_loss_dp": 0.8533170223236084, "train_loss_llm": 0.0, "global_step": 1026, "epoch": 1, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.5102874040603638, "train_loss_dp": 0.5102490186691284, "train_loss_llm": 0.03838145732879639, "global_step": 1027, "epoch": 1, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.48026183247566223, "train_loss_dp": 0.4802284240722656, "train_loss_llm": 0.033417701721191406, "global_step": 1028, "epoch": 1, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.39286917448043823, "train_loss_dp": 0.3928324580192566, "train_loss_llm": 0.0367053747177124, "global_step": 1029, "epoch": 1, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.37840190529823303, "train_loss_dp": 0.3783687949180603, "train_loss_llm": 0.03309988975524902, "global_step": 1030, "epoch": 1, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.42171260714530945, "train_loss_dp": 0.4216948449611664, "train_loss_llm": 0.01775979995727539, "global_step": 1031, "epoch": 1, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.6821507811546326, "train_loss_dp": 0.6820880174636841, "train_loss_llm": 0.06276941299438477, "global_step": 1032, "epoch": 1, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.5240465998649597, "train_loss_dp": 0.5240098237991333, "train_loss_llm": 0.03674650192260742, "global_step": 1033, "epoch": 1, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.3174107074737549, "train_loss_dp": 0.3173612356185913, "train_loss_llm": 0.04947209358215332, "global_step": 1034, "epoch": 1, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.5113641619682312, "train_loss_dp": 0.5112789273262024, "train_loss_llm": 0.08523035049438477, "global_step": 1035, "epoch": 1, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.26431769132614136, "train_loss_dp": 0.26430320739746094, "train_loss_llm": 0.01448357105255127, "global_step": 1036, "epoch": 1, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.4661564230918884, "train_loss_dp": 0.4661458134651184, "train_loss_llm": 0.010595083236694336, "global_step": 1037, "epoch": 1, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.3958759903907776, "train_loss_dp": 0.3958456218242645, "train_loss_llm": 0.030362606048583984, "global_step": 1038, "epoch": 1, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.6556586027145386, "train_loss_dp": 0.6556376218795776, "train_loss_llm": 0.02100348472595215, "global_step": 1039, "epoch": 1, "lr": 1.3000000000000001e-05}
+{"train_loss": 1.049838900566101, "train_loss_dp": 1.0495308637619019, "train_loss_llm": 0.30799007415771484, "global_step": 1040, "epoch": 1, "lr": 1.32e-05}
+{"train_loss": 0.6006737351417542, "train_loss_dp": 0.6006631851196289, "train_loss_llm": 0.01054835319519043, "global_step": 1041, "epoch": 1, "lr": 1.32e-05}
+{"train_loss": 0.4329734146595001, "train_loss_dp": 0.4329589605331421, "train_loss_llm": 0.01445627212524414, "global_step": 1042, "epoch": 1, "lr": 1.32e-05}
+{"train_loss": 0.6829898953437805, "train_loss_dp": 0.6829076409339905, "train_loss_llm": 0.08227348327636719, "global_step": 1043, "epoch": 1, "lr": 1.32e-05}
+{"train_loss": 0.32751622796058655, "train_loss_dp": 0.3274666965007782, "train_loss_llm": 0.04953896999359131, "global_step": 1044, "epoch": 1, "lr": 1.32e-05}
+{"train_loss": 0.6041115522384644, "train_loss_dp": 0.6040588617324829, "train_loss_llm": 0.05268287658691406, "global_step": 1045, "epoch": 1, "lr": 1.32e-05}
+{"train_loss": 0.5581202507019043, "train_loss_dp": 0.558098554611206, "train_loss_llm": 0.021705150604248047, "global_step": 1046, "epoch": 1, "lr": 1.32e-05}
+{"train_loss": 0.7657779455184937, "train_loss_dp": 0.7656740546226501, "train_loss_llm": 0.10389184951782227, "global_step": 1047, "epoch": 1, "lr": 1.32e-05}
+{"train_loss": 0.543083667755127, "train_loss_dp": 0.543083667755127, "train_loss_llm": 0.0, "global_step": 1048, "epoch": 1, "lr": 1.32e-05}
+{"train_loss": 0.5536221861839294, "train_loss_dp": 0.5535781979560852, "train_loss_llm": 0.04399538040161133, "global_step": 1049, "epoch": 1, "lr": 1.32e-05}
+{"train_loss": 0.6679146885871887, "train_loss_dp": 0.667892336845398, "train_loss_llm": 0.022336959838867188, "global_step": 1050, "epoch": 1, "lr": 1.32e-05}
+{"train_loss": 0.8916605710983276, "train_loss_dp": 0.8915399312973022, "train_loss_llm": 0.12062597274780273, "global_step": 1051, "epoch": 1, "lr": 1.32e-05}
+{"train_loss": 0.3715142011642456, "train_loss_dp": 0.37150394916534424, "train_loss_llm": 0.010259628295898438, "global_step": 1052, "epoch": 1, "lr": 1.32e-05}
+{"train_loss": 0.6453821063041687, "train_loss_dp": 0.645294189453125, "train_loss_llm": 0.08794069290161133, "global_step": 1053, "epoch": 1, "lr": 1.32e-05}
+{"train_loss": 0.7751055955886841, "train_loss_dp": 0.7751055955886841, "train_loss_llm": 0.0, "global_step": 1054, "epoch": 1, "lr": 1.32e-05}
+{"train_loss": 0.6658352613449097, "train_loss_dp": 0.6656903028488159, "train_loss_llm": 0.1449812650680542, "global_step": 1055, "epoch": 1, "lr": 1.32e-05}
+{"train_loss": 0.8258033394813538, "train_loss_dp": 0.8257218599319458, "train_loss_llm": 0.08149933815002441, "global_step": 1056, "epoch": 1, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.32024624943733215, "train_loss_dp": 0.3201221823692322, "train_loss_llm": 0.12405776977539062, "global_step": 1057, "epoch": 1, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.763559103012085, "train_loss_dp": 0.763559103012085, "train_loss_llm": 0.0, "global_step": 1058, "epoch": 1, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.45825400948524475, "train_loss_dp": 0.45824968814849854, "train_loss_llm": 0.004332423210144043, "global_step": 1059, "epoch": 1, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.7057545185089111, "train_loss_dp": 0.7054944634437561, "train_loss_llm": 0.2600288391113281, "global_step": 1060, "epoch": 1, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.6399421095848083, "train_loss_dp": 0.6399001479148865, "train_loss_llm": 0.04197096824645996, "global_step": 1061, "epoch": 1, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.26040372252464294, "train_loss_dp": 0.26037484407424927, "train_loss_llm": 0.02886486053466797, "global_step": 1062, "epoch": 1, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.6250160932540894, "train_loss_dp": 0.6249439716339111, "train_loss_llm": 0.07210922241210938, "global_step": 1063, "epoch": 1, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.5530084371566772, "train_loss_dp": 0.5527957677841187, "train_loss_llm": 0.21265172958374023, "global_step": 1064, "epoch": 1, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.23308664560317993, "train_loss_dp": 0.2330411970615387, "train_loss_llm": 0.045442819595336914, "global_step": 1065, "epoch": 1, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.8740030527114868, "train_loss_dp": 0.8739230632781982, "train_loss_llm": 0.07996559143066406, "global_step": 1066, "epoch": 1, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.37389808893203735, "train_loss_dp": 0.37383630871772766, "train_loss_llm": 0.06176638603210449, "global_step": 1067, "epoch": 1, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.8320339322090149, "train_loss_dp": 0.8320221900939941, "train_loss_llm": 0.011744499206542969, "global_step": 1068, "epoch": 1, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.980373740196228, "train_loss_dp": 0.980373740196228, "train_loss_llm": 0.0, "global_step": 1069, "epoch": 1, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.6387790441513062, "train_loss_dp": 0.6387171149253845, "train_loss_llm": 0.061913251876831055, "global_step": 1070, "epoch": 1, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.5354564785957336, "train_loss_dp": 0.5354564785957336, "train_loss_llm": 0.0, "global_step": 1071, "epoch": 1, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.3381712734699249, "train_loss_dp": 0.33816438913345337, "train_loss_llm": 0.006895542144775391, "global_step": 1072, "epoch": 1, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.9778394103050232, "train_loss_dp": 0.9777936935424805, "train_loss_llm": 0.045688629150390625, "global_step": 1073, "epoch": 1, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.6740320324897766, "train_loss_dp": 0.6740056276321411, "train_loss_llm": 0.026386737823486328, "global_step": 1074, "epoch": 1, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.5817112326622009, "train_loss_dp": 0.5817002058029175, "train_loss_llm": 0.011046648025512695, "global_step": 1075, "epoch": 1, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.38235509395599365, "train_loss_dp": 0.3823047876358032, "train_loss_llm": 0.05029606819152832, "global_step": 1076, "epoch": 1, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.2985915243625641, "train_loss_dp": 0.2985484004020691, "train_loss_llm": 0.043120384216308594, "global_step": 1077, "epoch": 1, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.5985164642333984, "train_loss_dp": 0.5983401536941528, "train_loss_llm": 0.17630958557128906, "global_step": 1078, "epoch": 1, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.5203070640563965, "train_loss_dp": 0.5196165442466736, "train_loss_llm": 0.6905457973480225, "global_step": 1079, "epoch": 1, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.615581750869751, "train_loss_dp": 0.615581750869751, "train_loss_llm": 0.0, "global_step": 1080, "epoch": 1, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.37358033657073975, "train_loss_dp": 0.3735754191875458, "train_loss_llm": 0.0049179792404174805, "global_step": 1081, "epoch": 1, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.694087028503418, "train_loss_dp": 0.694087028503418, "train_loss_llm": 0.0, "global_step": 1082, "epoch": 1, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.3657194674015045, "train_loss_dp": 0.365719199180603, "train_loss_llm": 0.0002607107162475586, "global_step": 1083, "epoch": 1, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.7079512476921082, "train_loss_dp": 0.7077909708023071, "train_loss_llm": 0.16026878356933594, "global_step": 1084, "epoch": 1, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.5442458987236023, "train_loss_dp": 0.5441207885742188, "train_loss_llm": 0.12508630752563477, "global_step": 1085, "epoch": 1, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.5846847295761108, "train_loss_dp": 0.5846201777458191, "train_loss_llm": 0.0645294189453125, "global_step": 1086, "epoch": 1, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.5225463509559631, "train_loss_dp": 0.5223608613014221, "train_loss_llm": 0.18548583984375, "global_step": 1087, "epoch": 1, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.2930643558502197, "train_loss_dp": 0.2930643558502197, "train_loss_llm": 0.0, "global_step": 1088, "epoch": 1, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.39681464433670044, "train_loss_dp": 0.39669203758239746, "train_loss_llm": 0.12261414527893066, "global_step": 1089, "epoch": 1, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.6760087013244629, "train_loss_dp": 0.6758597493171692, "train_loss_llm": 0.1489715576171875, "global_step": 1090, "epoch": 1, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.7639070749282837, "train_loss_dp": 0.7639070749282837, "train_loss_llm": 0.0, "global_step": 1091, "epoch": 1, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.23789367079734802, "train_loss_dp": 0.23788988590240479, "train_loss_llm": 0.0037886500358581543, "global_step": 1092, "epoch": 1, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.6181440949440002, "train_loss_dp": 0.6180920600891113, "train_loss_llm": 0.05202984809875488, "global_step": 1093, "epoch": 1, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.385566771030426, "train_loss_dp": 0.3855552077293396, "train_loss_llm": 0.011565446853637695, "global_step": 1094, "epoch": 1, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.7795805335044861, "train_loss_dp": 0.7795629501342773, "train_loss_llm": 0.017576217651367188, "global_step": 1095, "epoch": 1, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.6920938491821289, "train_loss_dp": 0.6920938491821289, "train_loss_llm": 0.0, "global_step": 1096, "epoch": 1, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.4506792426109314, "train_loss_dp": 0.45052871108055115, "train_loss_llm": 0.1505279541015625, "global_step": 1097, "epoch": 1, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.28960880637168884, "train_loss_dp": 0.28960880637168884, "train_loss_llm": 0.0, "global_step": 1098, "epoch": 1, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.40254563093185425, "train_loss_dp": 0.4025338590145111, "train_loss_llm": 0.011774778366088867, "global_step": 1099, "epoch": 1, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.40947818756103516, "train_loss_dp": 0.40945637226104736, "train_loss_llm": 0.021820068359375, "global_step": 1100, "epoch": 1, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.6405590176582336, "train_loss_dp": 0.6405590176582336, "train_loss_llm": 0.0, "global_step": 1101, "epoch": 1, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.5052961111068726, "train_loss_dp": 0.5052961111068726, "train_loss_llm": 0.0, "global_step": 1102, "epoch": 1, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.42837581038475037, "train_loss_dp": 0.4283306896686554, "train_loss_llm": 0.045105934143066406, "global_step": 1103, "epoch": 1, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.6277629137039185, "train_loss_dp": 0.6276217103004456, "train_loss_llm": 0.1412041187286377, "global_step": 1104, "epoch": 1, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.5002710819244385, "train_loss_dp": 0.5001538991928101, "train_loss_llm": 0.11717987060546875, "global_step": 1105, "epoch": 1, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.5355164408683777, "train_loss_dp": 0.5354769229888916, "train_loss_llm": 0.03952503204345703, "global_step": 1106, "epoch": 1, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.2814085781574249, "train_loss_dp": 0.2813926935195923, "train_loss_llm": 0.01589357852935791, "global_step": 1107, "epoch": 1, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.31158730387687683, "train_loss_dp": 0.311445951461792, "train_loss_llm": 0.14135873317718506, "global_step": 1108, "epoch": 1, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.30055972933769226, "train_loss_dp": 0.3005453944206238, "train_loss_llm": 0.014345169067382812, "global_step": 1109, "epoch": 1, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.2918296456336975, "train_loss_dp": 0.2917986512184143, "train_loss_llm": 0.03098165988922119, "global_step": 1110, "epoch": 1, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.5849328637123108, "train_loss_dp": 0.5848805904388428, "train_loss_llm": 0.05229949951171875, "global_step": 1111, "epoch": 1, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.37960314750671387, "train_loss_dp": 0.37960314750671387, "train_loss_llm": 0.0, "global_step": 1112, "epoch": 1, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.41319891810417175, "train_loss_dp": 0.41302406787872314, "train_loss_llm": 0.17486387491226196, "global_step": 1113, "epoch": 1, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.6096940040588379, "train_loss_dp": 0.6096431016921997, "train_loss_llm": 0.05090522766113281, "global_step": 1114, "epoch": 1, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.3616302013397217, "train_loss_dp": 0.36162495613098145, "train_loss_llm": 0.005244135856628418, "global_step": 1115, "epoch": 1, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.5247961282730103, "train_loss_dp": 0.5247541666030884, "train_loss_llm": 0.04198920726776123, "global_step": 1116, "epoch": 1, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.5102592706680298, "train_loss_dp": 0.5102010369300842, "train_loss_llm": 0.058259010314941406, "global_step": 1117, "epoch": 1, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.39999186992645264, "train_loss_dp": 0.39999186992645264, "train_loss_llm": 0.0, "global_step": 1118, "epoch": 1, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.41442179679870605, "train_loss_dp": 0.41435906291007996, "train_loss_llm": 0.06272554397583008, "global_step": 1119, "epoch": 1, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.27608752250671387, "train_loss_dp": 0.276067316532135, "train_loss_llm": 0.020214557647705078, "global_step": 1120, "epoch": 1, "lr": 1.42e-05}
+{"train_loss": 0.42015278339385986, "train_loss_dp": 0.42010098695755005, "train_loss_llm": 0.05180096626281738, "global_step": 1121, "epoch": 1, "lr": 1.42e-05}
+{"train_loss": 0.6661018133163452, "train_loss_dp": 0.6659427881240845, "train_loss_llm": 0.15902233123779297, "global_step": 1122, "epoch": 1, "lr": 1.42e-05}
+{"train_loss": 0.32367628812789917, "train_loss_dp": 0.32361313700675964, "train_loss_llm": 0.06315994262695312, "global_step": 1123, "epoch": 1, "lr": 1.42e-05}
+{"train_loss": 0.5566983819007874, "train_loss_dp": 0.5565012693405151, "train_loss_llm": 0.1970958709716797, "global_step": 1124, "epoch": 1, "lr": 1.42e-05}
+{"train_loss": 0.6153571009635925, "train_loss_dp": 0.6153571009635925, "train_loss_llm": 0.0, "global_step": 1125, "epoch": 1, "lr": 1.42e-05}
+{"train_loss": 0.5557184815406799, "train_loss_dp": 0.555586576461792, "train_loss_llm": 0.13193130493164062, "global_step": 1126, "epoch": 1, "lr": 1.42e-05}
+{"train_loss": 0.8798628449440002, "train_loss_dp": 0.8798628449440002, "train_loss_llm": 0.0, "global_step": 1127, "epoch": 1, "lr": 1.42e-05}
+{"train_loss": 1.0838886499404907, "train_loss_dp": 1.083795189857483, "train_loss_llm": 0.09351730346679688, "global_step": 1128, "epoch": 1, "lr": 1.42e-05}
+{"train_loss": 0.38474544882774353, "train_loss_dp": 0.3847031593322754, "train_loss_llm": 0.04229593276977539, "global_step": 1129, "epoch": 1, "lr": 1.42e-05}
+{"train_loss": 0.5059794783592224, "train_loss_dp": 0.5059413313865662, "train_loss_llm": 0.03815722465515137, "global_step": 1130, "epoch": 1, "lr": 1.42e-05}
+{"train_loss": 0.6550360918045044, "train_loss_dp": 0.6550360918045044, "train_loss_llm": 0.0, "global_step": 1131, "epoch": 1, "lr": 1.42e-05}
+{"train_loss": 0.5360395908355713, "train_loss_dp": 0.5360195636749268, "train_loss_llm": 0.020005464553833008, "global_step": 1132, "epoch": 1, "lr": 1.42e-05}
+{"train_loss": 0.42692866921424866, "train_loss_dp": 0.42692846059799194, "train_loss_llm": 0.0001939535140991211, "global_step": 1133, "epoch": 1, "lr": 1.42e-05}
+{"train_loss": 0.31080499291419983, "train_loss_dp": 0.31077876687049866, "train_loss_llm": 0.026227474212646484, "global_step": 1134, "epoch": 1, "lr": 1.42e-05}
+{"train_loss": 0.31202831864356995, "train_loss_dp": 0.31202831864356995, "train_loss_llm": 0.0, "global_step": 1135, "epoch": 1, "lr": 1.42e-05}
+{"train_loss": 0.4415462613105774, "train_loss_dp": 0.441489577293396, "train_loss_llm": 0.056697845458984375, "global_step": 1136, "epoch": 1, "lr": 1.44e-05}
+{"train_loss": 0.7184619903564453, "train_loss_dp": 0.7183942198753357, "train_loss_llm": 0.06774091720581055, "global_step": 1137, "epoch": 1, "lr": 1.44e-05}
+{"train_loss": 0.44746315479278564, "train_loss_dp": 0.4474279284477234, "train_loss_llm": 0.03522682189941406, "global_step": 1138, "epoch": 1, "lr": 1.44e-05}
+{"train_loss": 0.46517911553382874, "train_loss_dp": 0.46508121490478516, "train_loss_llm": 0.09789657592773438, "global_step": 1139, "epoch": 1, "lr": 1.44e-05}
+{"train_loss": 0.5749468803405762, "train_loss_dp": 0.5749468803405762, "train_loss_llm": 0.0, "global_step": 1140, "epoch": 1, "lr": 1.44e-05}
+{"train_loss": 0.4609701335430145, "train_loss_dp": 0.4609491229057312, "train_loss_llm": 0.021004080772399902, "global_step": 1141, "epoch": 1, "lr": 1.44e-05}
+{"train_loss": 0.6636472940444946, "train_loss_dp": 0.6636472940444946, "train_loss_llm": 0.0, "global_step": 1142, "epoch": 1, "lr": 1.44e-05}
+{"train_loss": 0.5349041223526001, "train_loss_dp": 0.5348575711250305, "train_loss_llm": 0.046555280685424805, "global_step": 1143, "epoch": 1, "lr": 1.44e-05}
+{"train_loss": 0.48914891481399536, "train_loss_dp": 0.4891446530818939, "train_loss_llm": 0.004258155822753906, "global_step": 1144, "epoch": 1, "lr": 1.44e-05}
+{"train_loss": 0.4160918593406677, "train_loss_dp": 0.4160304367542267, "train_loss_llm": 0.061437129974365234, "global_step": 1145, "epoch": 1, "lr": 1.44e-05}
+{"train_loss": 0.2627212107181549, "train_loss_dp": 0.26269295811653137, "train_loss_llm": 0.028256893157958984, "global_step": 1146, "epoch": 1, "lr": 1.44e-05}
+{"train_loss": 0.37167271971702576, "train_loss_dp": 0.3716163635253906, "train_loss_llm": 0.056344032287597656, "global_step": 1147, "epoch": 1, "lr": 1.44e-05}
+{"train_loss": 0.5866238474845886, "train_loss_dp": 0.5866051912307739, "train_loss_llm": 0.018663883209228516, "global_step": 1148, "epoch": 1, "lr": 1.44e-05}
+{"train_loss": 0.5786496996879578, "train_loss_dp": 0.5784063935279846, "train_loss_llm": 0.24327826499938965, "global_step": 1149, "epoch": 1, "lr": 1.44e-05}
+{"train_loss": 0.45286452770233154, "train_loss_dp": 0.4528316259384155, "train_loss_llm": 0.03288745880126953, "global_step": 1150, "epoch": 1, "lr": 1.44e-05}
+{"train_loss": 0.4169972538948059, "train_loss_dp": 0.41695794463157654, "train_loss_llm": 0.03929853439331055, "global_step": 1151, "epoch": 1, "lr": 1.44e-05}
+{"train_loss": 0.796491265296936, "train_loss_dp": 0.7961093783378601, "train_loss_llm": 0.38189029693603516, "global_step": 1152, "epoch": 1, "lr": 1.4599999999999999e-05}
+{"train_loss": 0.41127634048461914, "train_loss_dp": 0.41121676564216614, "train_loss_llm": 0.059561729431152344, "global_step": 1153, "epoch": 1, "lr": 1.4599999999999999e-05}
+{"train_loss": 0.6905105113983154, "train_loss_dp": 0.6904489398002625, "train_loss_llm": 0.0615692138671875, "global_step": 1154, "epoch": 1, "lr": 1.4599999999999999e-05}
+{"train_loss": 0.382377564907074, "train_loss_dp": 0.38234591484069824, "train_loss_llm": 0.031638145446777344, "global_step": 1155, "epoch": 1, "lr": 1.4599999999999999e-05}
+{"train_loss": 0.46140149235725403, "train_loss_dp": 0.4613305330276489, "train_loss_llm": 0.07094764709472656, "global_step": 1156, "epoch": 1, "lr": 1.4599999999999999e-05}
+{"train_loss": 0.25149691104888916, "train_loss_dp": 0.2514694929122925, "train_loss_llm": 0.027431964874267578, "global_step": 1157, "epoch": 1, "lr": 1.4599999999999999e-05}
+{"train_loss": 0.645238995552063, "train_loss_dp": 0.6451578140258789, "train_loss_llm": 0.08115768432617188, "global_step": 1158, "epoch": 1, "lr": 1.4599999999999999e-05}
+{"train_loss": 0.37403973937034607, "train_loss_dp": 0.37403973937034607, "train_loss_llm": 0.0, "global_step": 1159, "epoch": 1, "lr": 1.4599999999999999e-05}
+{"train_loss": 0.7393695116043091, "train_loss_dp": 0.7392324805259705, "train_loss_llm": 0.13704657554626465, "global_step": 1160, "epoch": 1, "lr": 1.4599999999999999e-05}
+{"train_loss": 0.6133158206939697, "train_loss_dp": 0.6131987571716309, "train_loss_llm": 0.11708176136016846, "global_step": 1161, "epoch": 1, "lr": 1.4599999999999999e-05}
+{"train_loss": 0.5957886576652527, "train_loss_dp": 0.5956175327301025, "train_loss_llm": 0.171142578125, "global_step": 1162, "epoch": 1, "lr": 1.4599999999999999e-05}
+{"train_loss": 0.6586036086082458, "train_loss_dp": 0.6583095788955688, "train_loss_llm": 0.2940349578857422, "global_step": 1163, "epoch": 1, "lr": 1.4599999999999999e-05}
+{"train_loss": 0.27437007427215576, "train_loss_dp": 0.274346262216568, "train_loss_llm": 0.02380514144897461, "global_step": 1164, "epoch": 1, "lr": 1.4599999999999999e-05}
+{"train_loss": 0.5142667889595032, "train_loss_dp": 0.5142444968223572, "train_loss_llm": 0.02228260040283203, "global_step": 1165, "epoch": 1, "lr": 1.4599999999999999e-05}
+{"train_loss": 0.3504711091518402, "train_loss_dp": 0.3502589166164398, "train_loss_llm": 0.21220016479492188, "global_step": 1166, "epoch": 1, "lr": 1.4599999999999999e-05}
+{"train_loss": 0.3288711905479431, "train_loss_dp": 0.3288711905479431, "train_loss_llm": 0.0, "global_step": 1167, "epoch": 1, "lr": 1.4599999999999999e-05}
+{"train_loss": 0.4640542268753052, "train_loss_dp": 0.46400830149650574, "train_loss_llm": 0.0459136962890625, "global_step": 1168, "epoch": 1, "lr": 1.48e-05}
+{"train_loss": 0.5556075572967529, "train_loss_dp": 0.5554753541946411, "train_loss_llm": 0.13218212127685547, "global_step": 1169, "epoch": 1, "lr": 1.48e-05}
+{"train_loss": 0.4445418417453766, "train_loss_dp": 0.4445418417453766, "train_loss_llm": 0.0, "global_step": 1170, "epoch": 1, "lr": 1.48e-05}
+{"train_loss": 0.9938584566116333, "train_loss_dp": 0.9936205744743347, "train_loss_llm": 0.23787474632263184, "global_step": 1171, "epoch": 1, "lr": 1.48e-05}
+{"train_loss": 0.3965742290019989, "train_loss_dp": 0.3964841067790985, "train_loss_llm": 0.09012174606323242, "global_step": 1172, "epoch": 1, "lr": 1.48e-05}
+{"train_loss": 0.30944833159446716, "train_loss_dp": 0.30939722061157227, "train_loss_llm": 0.05111885070800781, "global_step": 1173, "epoch": 1, "lr": 1.48e-05}
+{"train_loss": 0.28853267431259155, "train_loss_dp": 0.288525253534317, "train_loss_llm": 0.007410287857055664, "global_step": 1174, "epoch": 1, "lr": 1.48e-05}
+{"train_loss": 0.3260510265827179, "train_loss_dp": 0.3259696364402771, "train_loss_llm": 0.08139896392822266, "global_step": 1175, "epoch": 1, "lr": 1.48e-05}
+{"train_loss": 0.28121623396873474, "train_loss_dp": 0.2811720669269562, "train_loss_llm": 0.044179439544677734, "global_step": 1176, "epoch": 1, "lr": 1.48e-05}
+{"train_loss": 0.5204858779907227, "train_loss_dp": 0.5204411745071411, "train_loss_llm": 0.04473316669464111, "global_step": 1177, "epoch": 1, "lr": 1.48e-05}
+{"train_loss": 0.43369969725608826, "train_loss_dp": 0.43366342782974243, "train_loss_llm": 0.03626525402069092, "global_step": 1178, "epoch": 1, "lr": 1.48e-05}
+{"train_loss": 0.6871618628501892, "train_loss_dp": 0.6869973540306091, "train_loss_llm": 0.16451692581176758, "global_step": 1179, "epoch": 1, "lr": 1.48e-05}
+{"train_loss": 0.49474066495895386, "train_loss_dp": 0.49471068382263184, "train_loss_llm": 0.02999591827392578, "global_step": 1180, "epoch": 1, "lr": 1.48e-05}
+{"train_loss": 0.7990348935127258, "train_loss_dp": 0.7988817691802979, "train_loss_llm": 0.1531529426574707, "global_step": 1181, "epoch": 1, "lr": 1.48e-05}
+{"train_loss": 0.35333049297332764, "train_loss_dp": 0.35333049297332764, "train_loss_llm": 0.0, "global_step": 1182, "epoch": 1, "lr": 1.48e-05}
+{"train_loss": 0.3567330539226532, "train_loss_dp": 0.3567240536212921, "train_loss_llm": 0.008989572525024414, "global_step": 1183, "epoch": 1, "lr": 1.48e-05}
+{"train_loss": 0.45825400948524475, "train_loss_dp": 0.45824089646339417, "train_loss_llm": 0.013108015060424805, "global_step": 1184, "epoch": 1, "lr": 1.5e-05}
+{"train_loss": 0.4958561360836029, "train_loss_dp": 0.4957205653190613, "train_loss_llm": 0.1355743408203125, "global_step": 1185, "epoch": 1, "lr": 1.5e-05}
+{"train_loss": 0.49415895342826843, "train_loss_dp": 0.49415895342826843, "train_loss_llm": 0.0, "global_step": 1186, "epoch": 1, "lr": 1.5e-05}
+{"train_loss": 0.6254599690437317, "train_loss_dp": 0.6253955960273743, "train_loss_llm": 0.06434774398803711, "global_step": 1187, "epoch": 1, "lr": 1.5e-05}
+{"train_loss": 0.5187321305274963, "train_loss_dp": 0.5187135934829712, "train_loss_llm": 0.01854419708251953, "global_step": 1188, "epoch": 1, "lr": 1.5e-05}
+{"train_loss": 0.7970201373100281, "train_loss_dp": 0.7969937324523926, "train_loss_llm": 0.026386260986328125, "global_step": 1189, "epoch": 1, "lr": 1.5e-05}
+{"train_loss": 0.30147695541381836, "train_loss_dp": 0.30147695541381836, "train_loss_llm": 0.0, "global_step": 1190, "epoch": 1, "lr": 1.5e-05}
+{"train_loss": 0.5288048386573792, "train_loss_dp": 0.5287469625473022, "train_loss_llm": 0.057877540588378906, "global_step": 1191, "epoch": 1, "lr": 1.5e-05}
+{"train_loss": 0.3793242573738098, "train_loss_dp": 0.37921813130378723, "train_loss_llm": 0.10611224174499512, "global_step": 1192, "epoch": 1, "lr": 1.5e-05}
+{"train_loss": 0.7479995489120483, "train_loss_dp": 0.747861385345459, "train_loss_llm": 0.13815069198608398, "global_step": 1193, "epoch": 1, "lr": 1.5e-05}
+{"train_loss": 0.6292248964309692, "train_loss_dp": 0.6292190551757812, "train_loss_llm": 0.00585174560546875, "global_step": 1194, "epoch": 1, "lr": 1.5e-05}
+{"train_loss": 0.4551697373390198, "train_loss_dp": 0.4551697373390198, "train_loss_llm": 0.0, "global_step": 1195, "epoch": 1, "lr": 1.5e-05}
+{"train_loss": 0.4193086624145508, "train_loss_dp": 0.41928720474243164, "train_loss_llm": 0.021458148956298828, "global_step": 1196, "epoch": 1, "lr": 1.5e-05}
+{"train_loss": 0.26667359471321106, "train_loss_dp": 0.26665863394737244, "train_loss_llm": 0.014949798583984375, "global_step": 1197, "epoch": 1, "lr": 1.5e-05}
+{"train_loss": 0.3591386079788208, "train_loss_dp": 0.35907700657844543, "train_loss_llm": 0.06160402297973633, "global_step": 1198, "epoch": 1, "lr": 1.5e-05}
+{"train_loss": 0.5328894257545471, "train_loss_dp": 0.532686173915863, "train_loss_llm": 0.2032303810119629, "global_step": 1199, "epoch": 1, "lr": 1.5e-05}
+{"train_loss": 0.3913491666316986, "train_loss_dp": 0.39130234718322754, "train_loss_llm": 0.046829938888549805, "global_step": 1200, "epoch": 1, "lr": 1.52e-05}
+{"train_loss": 0.8951895236968994, "train_loss_dp": 0.8947321176528931, "train_loss_llm": 0.4574270248413086, "global_step": 1201, "epoch": 1, "lr": 1.52e-05}
+{"train_loss": 0.6379411220550537, "train_loss_dp": 0.6379411220550537, "train_loss_llm": 0.0, "global_step": 1202, "epoch": 1, "lr": 1.52e-05}
+{"train_loss": 0.40603068470954895, "train_loss_dp": 0.40597623586654663, "train_loss_llm": 0.05444033443927765, "global_step": 1203, "epoch": 1, "lr": 1.52e-05}
+{"train_loss": 0.5522976517677307, "train_loss_dp": 0.55221027135849, "train_loss_llm": 0.08736062049865723, "global_step": 1204, "epoch": 1, "lr": 1.52e-05}
+{"train_loss": 0.6729556322097778, "train_loss_dp": 0.6728371381759644, "train_loss_llm": 0.11849915981292725, "global_step": 1205, "epoch": 1, "lr": 1.52e-05}
+{"train_loss": 0.41797322034835815, "train_loss_dp": 0.4179351329803467, "train_loss_llm": 0.03807997703552246, "global_step": 1206, "epoch": 1, "lr": 1.52e-05}
+{"train_loss": 0.24403008818626404, "train_loss_dp": 0.2440294325351715, "train_loss_llm": 0.0006482601165771484, "global_step": 1207, "epoch": 1, "lr": 1.52e-05}
+{"train_loss": 0.24900351464748383, "train_loss_dp": 0.24890807271003723, "train_loss_llm": 0.0954442024230957, "global_step": 1208, "epoch": 1, "lr": 1.52e-05}
+{"train_loss": 0.3740309774875641, "train_loss_dp": 0.37399616837501526, "train_loss_llm": 0.03480809926986694, "global_step": 1209, "epoch": 1, "lr": 1.52e-05}
+{"train_loss": 0.49403926730155945, "train_loss_dp": 0.49402669072151184, "train_loss_llm": 0.012574195861816406, "global_step": 1210, "epoch": 1, "lr": 1.52e-05}
+{"train_loss": 0.4420871436595917, "train_loss_dp": 0.44200530648231506, "train_loss_llm": 0.08184027671813965, "global_step": 1211, "epoch": 1, "lr": 1.52e-05}
+{"train_loss": 0.3406142592430115, "train_loss_dp": 0.3406142592430115, "train_loss_llm": 0.0, "global_step": 1212, "epoch": 1, "lr": 1.52e-05}
+{"train_loss": 0.19554787874221802, "train_loss_dp": 0.19551721215248108, "train_loss_llm": 0.030661582946777344, "global_step": 1213, "epoch": 1, "lr": 1.52e-05}
+{"train_loss": 0.5285040140151978, "train_loss_dp": 0.5285040140151978, "train_loss_llm": 0.0, "global_step": 1214, "epoch": 1, "lr": 1.52e-05}
+{"train_loss": 0.43615061044692993, "train_loss_dp": 0.43613481521606445, "train_loss_llm": 0.015790104866027832, "global_step": 1215, "epoch": 1, "lr": 1.52e-05}
+{"train_loss": 0.3846389055252075, "train_loss_dp": 0.38461917638778687, "train_loss_llm": 0.01972174644470215, "global_step": 1216, "epoch": 1, "lr": 1.54e-05}
+{"train_loss": 0.31784307956695557, "train_loss_dp": 0.31775301694869995, "train_loss_llm": 0.09005165100097656, "global_step": 1217, "epoch": 1, "lr": 1.54e-05}
+{"train_loss": 0.5972651243209839, "train_loss_dp": 0.5972651243209839, "train_loss_llm": 0.0, "global_step": 1218, "epoch": 1, "lr": 1.54e-05}
+{"train_loss": 0.4238147735595703, "train_loss_dp": 0.4237960875034332, "train_loss_llm": 0.018698692321777344, "global_step": 1219, "epoch": 1, "lr": 1.54e-05}
+{"train_loss": 0.5682658553123474, "train_loss_dp": 0.5681358575820923, "train_loss_llm": 0.13001251220703125, "global_step": 1220, "epoch": 1, "lr": 1.54e-05}
+{"train_loss": 0.16521264612674713, "train_loss_dp": 0.16518615186214447, "train_loss_llm": 0.026487231254577637, "global_step": 1221, "epoch": 1, "lr": 1.54e-05}
+{"train_loss": 0.36542192101478577, "train_loss_dp": 0.3653920292854309, "train_loss_llm": 0.029901504516601562, "global_step": 1222, "epoch": 1, "lr": 1.54e-05}
+{"train_loss": 0.46633830666542053, "train_loss_dp": 0.466241717338562, "train_loss_llm": 0.09658241271972656, "global_step": 1223, "epoch": 1, "lr": 1.54e-05}
+{"train_loss": 0.5285589694976807, "train_loss_dp": 0.5285545587539673, "train_loss_llm": 0.004425048828125, "global_step": 1224, "epoch": 1, "lr": 1.54e-05}
+{"train_loss": 0.48271316289901733, "train_loss_dp": 0.48268523812294006, "train_loss_llm": 0.027930021286010742, "global_step": 1225, "epoch": 1, "lr": 1.54e-05}
+{"train_loss": 0.4702359735965729, "train_loss_dp": 0.47019505500793457, "train_loss_llm": 0.04091024398803711, "global_step": 1226, "epoch": 1, "lr": 1.54e-05}
+{"train_loss": 0.6514462828636169, "train_loss_dp": 0.6514407396316528, "train_loss_llm": 0.00556182861328125, "global_step": 1227, "epoch": 1, "lr": 1.54e-05}
+{"train_loss": 0.4069552421569824, "train_loss_dp": 0.4068845510482788, "train_loss_llm": 0.07068240642547607, "global_step": 1228, "epoch": 1, "lr": 1.54e-05}
+{"train_loss": 0.24894100427627563, "train_loss_dp": 0.24890244007110596, "train_loss_llm": 0.03856372833251953, "global_step": 1229, "epoch": 1, "lr": 1.54e-05}
+{"train_loss": 0.7225334644317627, "train_loss_dp": 0.7224618196487427, "train_loss_llm": 0.0716552734375, "global_step": 1230, "epoch": 1, "lr": 1.54e-05}
+{"train_loss": 0.272892028093338, "train_loss_dp": 0.27283143997192383, "train_loss_llm": 0.06057929992675781, "global_step": 1231, "epoch": 1, "lr": 1.54e-05}
+{"train_loss": 0.8139492869377136, "train_loss_dp": 0.8138285279273987, "train_loss_llm": 0.12077713012695312, "global_step": 1232, "epoch": 1, "lr": 1.56e-05}
+{"train_loss": 0.7804324626922607, "train_loss_dp": 0.7804315090179443, "train_loss_llm": 0.0009765625, "global_step": 1233, "epoch": 1, "lr": 1.56e-05}
+{"train_loss": 0.4937290847301483, "train_loss_dp": 0.4936792254447937, "train_loss_llm": 0.049872398376464844, "global_step": 1234, "epoch": 1, "lr": 1.56e-05}
+{"train_loss": 0.9171605706214905, "train_loss_dp": 0.9171122312545776, "train_loss_llm": 0.04832172393798828, "global_step": 1235, "epoch": 1, "lr": 1.56e-05}
+{"train_loss": 0.6522141695022583, "train_loss_dp": 0.6521095037460327, "train_loss_llm": 0.10468387603759766, "global_step": 1236, "epoch": 1, "lr": 1.56e-05}
+{"train_loss": 0.5264755487442017, "train_loss_dp": 0.5263628959655762, "train_loss_llm": 0.11267757415771484, "global_step": 1237, "epoch": 1, "lr": 1.56e-05}
+{"train_loss": 0.4269704818725586, "train_loss_dp": 0.42695388197898865, "train_loss_llm": 0.0165863037109375, "global_step": 1238, "epoch": 1, "lr": 1.56e-05}
+{"train_loss": 0.4305848181247711, "train_loss_dp": 0.4305795729160309, "train_loss_llm": 0.005249977111816406, "global_step": 1239, "epoch": 1, "lr": 1.56e-05}
+{"train_loss": 0.6198045015335083, "train_loss_dp": 0.6198045015335083, "train_loss_llm": 0.0, "global_step": 1240, "epoch": 1, "lr": 1.56e-05}
+{"train_loss": 0.27281346917152405, "train_loss_dp": 0.2727603018283844, "train_loss_llm": 0.053177833557128906, "global_step": 1241, "epoch": 1, "lr": 1.56e-05}
+{"train_loss": 0.5989395380020142, "train_loss_dp": 0.5987883806228638, "train_loss_llm": 0.151156485080719, "global_step": 1242, "epoch": 1, "lr": 1.56e-05}
+{"train_loss": 0.49079394340515137, "train_loss_dp": 0.49075981974601746, "train_loss_llm": 0.03412151336669922, "global_step": 1243, "epoch": 1, "lr": 1.56e-05}
+{"train_loss": 0.4057765603065491, "train_loss_dp": 0.4057312607765198, "train_loss_llm": 0.04530835151672363, "global_step": 1244, "epoch": 1, "lr": 1.56e-05}
+{"train_loss": 0.6425384879112244, "train_loss_dp": 0.6424545049667358, "train_loss_llm": 0.08396399021148682, "global_step": 1245, "epoch": 1, "lr": 1.56e-05}
+{"train_loss": 0.49471166729927063, "train_loss_dp": 0.4946897327899933, "train_loss_llm": 0.02193129062652588, "global_step": 1246, "epoch": 1, "lr": 1.56e-05}
+{"train_loss": 0.3224329948425293, "train_loss_dp": 0.3223486542701721, "train_loss_llm": 0.08434200286865234, "global_step": 1247, "epoch": 1, "lr": 1.56e-05}
+{"train_loss": 0.4032365381717682, "train_loss_dp": 0.40303662419319153, "train_loss_llm": 0.1999058723449707, "global_step": 1248, "epoch": 1, "lr": 1.58e-05}
+{"train_loss": 0.4731558561325073, "train_loss_dp": 0.47312310338020325, "train_loss_llm": 0.03274071216583252, "global_step": 1249, "epoch": 1, "lr": 1.58e-05}
+{"train_loss": 0.3391873836517334, "train_loss_dp": 0.3391580581665039, "train_loss_llm": 0.029320359230041504, "global_step": 1250, "epoch": 1, "lr": 1.58e-05}
+{"train_loss": 0.44139033555984497, "train_loss_dp": 0.44136950373649597, "train_loss_llm": 0.020819902420043945, "global_step": 1251, "epoch": 1, "lr": 1.58e-05}
+{"train_loss": 0.7467286586761475, "train_loss_dp": 0.7466420531272888, "train_loss_llm": 0.0866246223449707, "global_step": 1252, "epoch": 1, "lr": 1.58e-05}
+{"train_loss": 0.42755115032196045, "train_loss_dp": 0.42751407623291016, "train_loss_llm": 0.03706139326095581, "global_step": 1253, "epoch": 1, "lr": 1.58e-05}
+{"train_loss": 0.3113727271556854, "train_loss_dp": 0.3113625645637512, "train_loss_llm": 0.010161042213439941, "global_step": 1254, "epoch": 1, "lr": 1.58e-05}
+{"train_loss": 0.6414088010787964, "train_loss_dp": 0.6413770914077759, "train_loss_llm": 0.03170967102050781, "global_step": 1255, "epoch": 1, "lr": 1.58e-05}
+{"train_loss": 0.2742976248264313, "train_loss_dp": 0.27428311109542847, "train_loss_llm": 0.01450347900390625, "global_step": 1256, "epoch": 1, "lr": 1.58e-05}
+{"train_loss": 0.16939781606197357, "train_loss_dp": 0.16939032077789307, "train_loss_llm": 0.007493078708648682, "global_step": 1257, "epoch": 1, "lr": 1.58e-05}
+{"train_loss": 0.3462526798248291, "train_loss_dp": 0.34624677896499634, "train_loss_llm": 0.0058917999267578125, "global_step": 1258, "epoch": 1, "lr": 1.58e-05}
+{"train_loss": 0.45244136452674866, "train_loss_dp": 0.45244136452674866, "train_loss_llm": 0.0, "global_step": 1259, "epoch": 1, "lr": 1.58e-05}
+{"train_loss": 0.23291927576065063, "train_loss_dp": 0.23288506269454956, "train_loss_llm": 0.03421509265899658, "global_step": 1260, "epoch": 1, "lr": 1.58e-05}
+{"train_loss": 0.6293180584907532, "train_loss_dp": 0.6292595863342285, "train_loss_llm": 0.05844736099243164, "global_step": 1261, "epoch": 1, "lr": 1.58e-05}
+{"train_loss": 0.4506518542766571, "train_loss_dp": 0.4505760669708252, "train_loss_llm": 0.07578563690185547, "global_step": 1262, "epoch": 1, "lr": 1.58e-05}
+{"train_loss": 0.5176275968551636, "train_loss_dp": 0.5176275968551636, "train_loss_llm": 0.0, "global_step": 1263, "epoch": 1, "lr": 1.58e-05}
+{"train_loss": 0.36113208532333374, "train_loss_dp": 0.36113208532333374, "train_loss_llm": 0.0, "global_step": 1264, "epoch": 1, "lr": 1.6000000000000003e-05}
+{"train_loss": 0.5261044502258301, "train_loss_dp": 0.5260655283927917, "train_loss_llm": 0.03889590501785278, "global_step": 1265, "epoch": 1, "lr": 1.6000000000000003e-05}
+{"train_loss": 0.658159077167511, "train_loss_dp": 0.658159077167511, "train_loss_llm": 0.0, "global_step": 1266, "epoch": 1, "lr": 1.6000000000000003e-05}
+{"train_loss": 0.7244383692741394, "train_loss_dp": 0.724231481552124, "train_loss_llm": 0.2068614959716797, "global_step": 1267, "epoch": 1, "lr": 1.6000000000000003e-05}
+{"train_loss": 0.28162726759910583, "train_loss_dp": 0.28159037232398987, "train_loss_llm": 0.03688192367553711, "global_step": 1268, "epoch": 1, "lr": 1.6000000000000003e-05}
+{"train_loss": 0.3317464292049408, "train_loss_dp": 0.3316630423069, "train_loss_llm": 0.08337569236755371, "global_step": 1269, "epoch": 1, "lr": 1.6000000000000003e-05}
+{"train_loss": 0.5346702933311462, "train_loss_dp": 0.5346702933311462, "train_loss_llm": 0.0, "global_step": 1270, "epoch": 1, "lr": 1.6000000000000003e-05}
+{"train_loss": 0.515180766582489, "train_loss_dp": 0.5150302648544312, "train_loss_llm": 0.15051448345184326, "global_step": 1271, "epoch": 1, "lr": 1.6000000000000003e-05}
+{"train_loss": 0.5910956859588623, "train_loss_dp": 0.5910956859588623, "train_loss_llm": 0.0, "global_step": 1272, "epoch": 1, "lr": 1.6000000000000003e-05}
+{"train_loss": 0.33984827995300293, "train_loss_dp": 0.33983612060546875, "train_loss_llm": 0.012157022953033447, "global_step": 1273, "epoch": 1, "lr": 1.6000000000000003e-05}
+{"train_loss": 0.5714912414550781, "train_loss_dp": 0.5714799165725708, "train_loss_llm": 0.011298298835754395, "global_step": 1274, "epoch": 1, "lr": 1.6000000000000003e-05}
+{"train_loss": 0.440916508436203, "train_loss_dp": 0.4408760964870453, "train_loss_llm": 0.040403008460998535, "global_step": 1275, "epoch": 1, "lr": 1.6000000000000003e-05}
+{"train_loss": 0.6472913026809692, "train_loss_dp": 0.6472903490066528, "train_loss_llm": 0.0009679794311523438, "global_step": 1276, "epoch": 1, "lr": 1.6000000000000003e-05}
+{"train_loss": 0.38411810994148254, "train_loss_dp": 0.3840952515602112, "train_loss_llm": 0.02284550666809082, "global_step": 1277, "epoch": 1, "lr": 1.6000000000000003e-05}
+{"train_loss": 0.5032110214233398, "train_loss_dp": 0.5031266212463379, "train_loss_llm": 0.08440566062927246, "global_step": 1278, "epoch": 1, "lr": 1.6000000000000003e-05}
+{"train_loss": 0.36481747031211853, "train_loss_dp": 0.36481747031211853, "train_loss_llm": 0.0, "global_step": 1279, "epoch": 1, "lr": 1.6000000000000003e-05}
+{"train_loss": 0.39700719714164734, "train_loss_dp": 0.396969735622406, "train_loss_llm": 0.03747272491455078, "global_step": 1280, "epoch": 1, "lr": 1.62e-05}
+{"train_loss": 0.5153549313545227, "train_loss_dp": 0.5152646899223328, "train_loss_llm": 0.09023666381835938, "global_step": 1281, "epoch": 1, "lr": 1.62e-05}
+{"train_loss": 0.5807873010635376, "train_loss_dp": 0.5807873010635376, "train_loss_llm": 0.0, "global_step": 1282, "epoch": 1, "lr": 1.62e-05}
+{"train_loss": 0.3742402493953705, "train_loss_dp": 0.3741748631000519, "train_loss_llm": 0.06538009643554688, "global_step": 1283, "epoch": 1, "lr": 1.62e-05}
+{"train_loss": 0.3575308322906494, "train_loss_dp": 0.3575308322906494, "train_loss_llm": 0.0, "global_step": 1284, "epoch": 1, "lr": 1.62e-05}
+{"train_loss": 0.24934019148349762, "train_loss_dp": 0.24934019148349762, "train_loss_llm": 0.0, "global_step": 1285, "epoch": 1, "lr": 1.62e-05}
+{"train_loss": 0.6736710667610168, "train_loss_dp": 0.6736699342727661, "train_loss_llm": 0.0011425018310546875, "global_step": 1286, "epoch": 1, "lr": 1.62e-05}
+{"train_loss": 0.3721017837524414, "train_loss_dp": 0.3719973564147949, "train_loss_llm": 0.10442209243774414, "global_step": 1287, "epoch": 1, "lr": 1.62e-05}
+{"train_loss": 0.3305608332157135, "train_loss_dp": 0.3305439352989197, "train_loss_llm": 0.01689767837524414, "global_step": 1288, "epoch": 1, "lr": 1.62e-05}
+{"train_loss": 0.38643839955329895, "train_loss_dp": 0.38639506697654724, "train_loss_llm": 0.0433310866355896, "global_step": 1289, "epoch": 1, "lr": 1.62e-05}
+{"train_loss": 0.3667048215866089, "train_loss_dp": 0.36666882038116455, "train_loss_llm": 0.03598994016647339, "global_step": 1290, "epoch": 1, "lr": 1.62e-05}
+{"train_loss": 0.632909893989563, "train_loss_dp": 0.6328389644622803, "train_loss_llm": 0.07092905044555664, "global_step": 1291, "epoch": 1, "lr": 1.62e-05}
+{"train_loss": 0.4019700884819031, "train_loss_dp": 0.40188899636268616, "train_loss_llm": 0.08110427856445312, "global_step": 1292, "epoch": 1, "lr": 1.62e-05}
+{"train_loss": 0.5099992156028748, "train_loss_dp": 0.5099725127220154, "train_loss_llm": 0.026678085327148438, "global_step": 1293, "epoch": 1, "lr": 1.62e-05}
+{"train_loss": 0.3423677384853363, "train_loss_dp": 0.3423619270324707, "train_loss_llm": 0.005807340145111084, "global_step": 1294, "epoch": 1, "lr": 1.62e-05}
+{"train_loss": 0.5745136737823486, "train_loss_dp": 0.5744763016700745, "train_loss_llm": 0.03739452362060547, "global_step": 1295, "epoch": 1, "lr": 1.62e-05}
+{"train_loss": 0.5977973937988281, "train_loss_dp": 0.5977973937988281, "train_loss_llm": 0.0, "global_step": 1296, "epoch": 1, "lr": 1.6400000000000002e-05}
+{"train_loss": 0.38156211376190186, "train_loss_dp": 0.38156211376190186, "train_loss_llm": 0.0, "global_step": 1297, "epoch": 1, "lr": 1.6400000000000002e-05}
+{"train_loss": 0.4984007179737091, "train_loss_dp": 0.4983863830566406, "train_loss_llm": 0.014328956604003906, "global_step": 1298, "epoch": 1, "lr": 1.6400000000000002e-05}
+{"train_loss": 0.29378169775009155, "train_loss_dp": 0.2937479317188263, "train_loss_llm": 0.0337677001953125, "global_step": 1299, "epoch": 1, "lr": 1.6400000000000002e-05}
+{"train_loss": 0.3658423125743866, "train_loss_dp": 0.3658317029476166, "train_loss_llm": 0.010623693466186523, "global_step": 1300, "epoch": 1, "lr": 1.6400000000000002e-05}
+{"train_loss": 0.29581525921821594, "train_loss_dp": 0.2957476079463959, "train_loss_llm": 0.06765007972717285, "global_step": 1301, "epoch": 1, "lr": 1.6400000000000002e-05}
+{"train_loss": 0.5042611360549927, "train_loss_dp": 0.5042433738708496, "train_loss_llm": 0.017754077911376953, "global_step": 1302, "epoch": 1, "lr": 1.6400000000000002e-05}
+{"train_loss": 0.17051874101161957, "train_loss_dp": 0.17051538825035095, "train_loss_llm": 0.003345489501953125, "global_step": 1303, "epoch": 1, "lr": 1.6400000000000002e-05}
+{"train_loss": 0.45279473066329956, "train_loss_dp": 0.45276743173599243, "train_loss_llm": 0.027292251586914062, "global_step": 1304, "epoch": 1, "lr": 1.6400000000000002e-05}
+{"train_loss": 0.6674057841300964, "train_loss_dp": 0.6673382520675659, "train_loss_llm": 0.06755638122558594, "global_step": 1305, "epoch": 1, "lr": 1.6400000000000002e-05}
+{"train_loss": 0.2158941924571991, "train_loss_dp": 0.2158745676279068, "train_loss_llm": 0.019626617431640625, "global_step": 1306, "epoch": 1, "lr": 1.6400000000000002e-05}
+{"train_loss": 0.18225635588169098, "train_loss_dp": 0.18224772810935974, "train_loss_llm": 0.008620738983154297, "global_step": 1307, "epoch": 1, "lr": 1.6400000000000002e-05}
+{"train_loss": 0.29418885707855225, "train_loss_dp": 0.29418885707855225, "train_loss_llm": 0.0, "global_step": 1308, "epoch": 1, "lr": 1.6400000000000002e-05}
+{"train_loss": 0.5844967967226306, "train_loss_dp": 0.42237502336502075, "train_loss_llm": 0.0, "global_step": 1309, "epoch": 1, "lr": 1.6400000000000002e-05, "val_loss": 0.4375905990600586}
+{"train_loss": 0.5461298227310181, "train_loss_dp": 0.5460147857666016, "train_loss_llm": 0.11506462097167969, "global_step": 1310, "epoch": 2, "lr": 1.6400000000000002e-05}
+{"train_loss": 0.4522109627723694, "train_loss_dp": 0.45220574736595154, "train_loss_llm": 0.005218029022216797, "global_step": 1311, "epoch": 2, "lr": 1.6400000000000002e-05}
+{"train_loss": 0.5875475406646729, "train_loss_dp": 0.5864342451095581, "train_loss_llm": 1.1132895946502686, "global_step": 1312, "epoch": 2, "lr": 1.66e-05}
+{"train_loss": 0.45266640186309814, "train_loss_dp": 0.4525860548019409, "train_loss_llm": 0.08035087585449219, "global_step": 1313, "epoch": 2, "lr": 1.66e-05}
+{"train_loss": 0.7845809459686279, "train_loss_dp": 0.7845624685287476, "train_loss_llm": 0.018500328063964844, "global_step": 1314, "epoch": 2, "lr": 1.66e-05}
+{"train_loss": 0.39934661984443665, "train_loss_dp": 0.3992876410484314, "train_loss_llm": 0.05897212028503418, "global_step": 1315, "epoch": 2, "lr": 1.66e-05}
+{"train_loss": 0.3945639133453369, "train_loss_dp": 0.39452266693115234, "train_loss_llm": 0.041240692138671875, "global_step": 1316, "epoch": 2, "lr": 1.66e-05}
+{"train_loss": 0.51334547996521, "train_loss_dp": 0.51334547996521, "train_loss_llm": 0.0, "global_step": 1317, "epoch": 2, "lr": 1.66e-05}
+{"train_loss": 0.4142315983772278, "train_loss_dp": 0.41415563225746155, "train_loss_llm": 0.07597661018371582, "global_step": 1318, "epoch": 2, "lr": 1.66e-05}
+{"train_loss": 0.3087150454521179, "train_loss_dp": 0.30866724252700806, "train_loss_llm": 0.04779052734375, "global_step": 1319, "epoch": 2, "lr": 1.66e-05}
+{"train_loss": 0.48707976937294006, "train_loss_dp": 0.48707976937294006, "train_loss_llm": 0.0, "global_step": 1320, "epoch": 2, "lr": 1.66e-05}
+{"train_loss": 0.23821914196014404, "train_loss_dp": 0.2381781041622162, "train_loss_llm": 0.04103660583496094, "global_step": 1321, "epoch": 2, "lr": 1.66e-05}
+{"train_loss": 0.4498176574707031, "train_loss_dp": 0.4496825933456421, "train_loss_llm": 0.1350536346435547, "global_step": 1322, "epoch": 2, "lr": 1.66e-05}
+{"train_loss": 0.4045073986053467, "train_loss_dp": 0.4044395983219147, "train_loss_llm": 0.06779289245605469, "global_step": 1323, "epoch": 2, "lr": 1.66e-05}
+{"train_loss": 0.36831289529800415, "train_loss_dp": 0.36831289529800415, "train_loss_llm": 0.0, "global_step": 1324, "epoch": 2, "lr": 1.66e-05}
+{"train_loss": 0.30469202995300293, "train_loss_dp": 0.3046479821205139, "train_loss_llm": 0.04403495788574219, "global_step": 1325, "epoch": 2, "lr": 1.66e-05}
+{"train_loss": 0.5364238023757935, "train_loss_dp": 0.5364174246788025, "train_loss_llm": 0.006381988525390625, "global_step": 1326, "epoch": 2, "lr": 1.66e-05}
+{"train_loss": 0.3934594988822937, "train_loss_dp": 0.39344972372055054, "train_loss_llm": 0.00976252555847168, "global_step": 1327, "epoch": 2, "lr": 1.66e-05}
+{"train_loss": 0.26082274317741394, "train_loss_dp": 0.26079127192497253, "train_loss_llm": 0.03147315979003906, "global_step": 1328, "epoch": 2, "lr": 1.6800000000000002e-05}
+{"train_loss": 0.593093752861023, "train_loss_dp": 0.5930238962173462, "train_loss_llm": 0.06986582279205322, "global_step": 1329, "epoch": 2, "lr": 1.6800000000000002e-05}
+{"train_loss": 0.45313817262649536, "train_loss_dp": 0.45290476083755493, "train_loss_llm": 0.23342132568359375, "global_step": 1330, "epoch": 2, "lr": 1.6800000000000002e-05}
+{"train_loss": 0.6378753781318665, "train_loss_dp": 0.637830913066864, "train_loss_llm": 0.04445505142211914, "global_step": 1331, "epoch": 2, "lr": 1.6800000000000002e-05}
+{"train_loss": 0.26620689034461975, "train_loss_dp": 0.2661597728729248, "train_loss_llm": 0.047115325927734375, "global_step": 1332, "epoch": 2, "lr": 1.6800000000000002e-05}
+{"train_loss": 0.39610058069229126, "train_loss_dp": 0.39598435163497925, "train_loss_llm": 0.11624026298522949, "global_step": 1333, "epoch": 2, "lr": 1.6800000000000002e-05}
+{"train_loss": 0.46882539987564087, "train_loss_dp": 0.46882539987564087, "train_loss_llm": 0.0, "global_step": 1334, "epoch": 2, "lr": 1.6800000000000002e-05}
+{"train_loss": 0.3519914448261261, "train_loss_dp": 0.3519595265388489, "train_loss_llm": 0.031932711601257324, "global_step": 1335, "epoch": 2, "lr": 1.6800000000000002e-05}
+{"train_loss": 0.5466257929801941, "train_loss_dp": 0.5464661717414856, "train_loss_llm": 0.15961933135986328, "global_step": 1336, "epoch": 2, "lr": 1.6800000000000002e-05}
+{"train_loss": 0.4293030798435211, "train_loss_dp": 0.42927539348602295, "train_loss_llm": 0.027673721313476562, "global_step": 1337, "epoch": 2, "lr": 1.6800000000000002e-05}
+{"train_loss": 0.5018010139465332, "train_loss_dp": 0.5017437934875488, "train_loss_llm": 0.05721569061279297, "global_step": 1338, "epoch": 2, "lr": 1.6800000000000002e-05}
+{"train_loss": 0.3528750240802765, "train_loss_dp": 0.35281902551651, "train_loss_llm": 0.05600917339324951, "global_step": 1339, "epoch": 2, "lr": 1.6800000000000002e-05}
+{"train_loss": 0.7152247428894043, "train_loss_dp": 0.7150025367736816, "train_loss_llm": 0.22221922874450684, "global_step": 1340, "epoch": 2, "lr": 1.6800000000000002e-05}
+{"train_loss": 0.3048119843006134, "train_loss_dp": 0.3047831952571869, "train_loss_llm": 0.028801918029785156, "global_step": 1341, "epoch": 2, "lr": 1.6800000000000002e-05}
+{"train_loss": 0.24077074229717255, "train_loss_dp": 0.24077074229717255, "train_loss_llm": 0.0, "global_step": 1342, "epoch": 2, "lr": 1.6800000000000002e-05}
+{"train_loss": 0.2457088828086853, "train_loss_dp": 0.24569560587406158, "train_loss_llm": 0.013270735740661621, "global_step": 1343, "epoch": 2, "lr": 1.6800000000000002e-05}
+{"train_loss": 0.31123077869415283, "train_loss_dp": 0.31121301651000977, "train_loss_llm": 0.01775670051574707, "global_step": 1344, "epoch": 2, "lr": 1.7000000000000003e-05}
+{"train_loss": 0.5884152054786682, "train_loss_dp": 0.5883570313453674, "train_loss_llm": 0.05817055702209473, "global_step": 1345, "epoch": 2, "lr": 1.7000000000000003e-05}
+{"train_loss": 0.2589702010154724, "train_loss_dp": 0.2589585781097412, "train_loss_llm": 0.011608898639678955, "global_step": 1346, "epoch": 2, "lr": 1.7000000000000003e-05}
+{"train_loss": 0.40924662351608276, "train_loss_dp": 0.40919771790504456, "train_loss_llm": 0.0489044189453125, "global_step": 1347, "epoch": 2, "lr": 1.7000000000000003e-05}
+{"train_loss": 0.5042983293533325, "train_loss_dp": 0.5042758584022522, "train_loss_llm": 0.022442102432250977, "global_step": 1348, "epoch": 2, "lr": 1.7000000000000003e-05}
+{"train_loss": 0.29117152094841003, "train_loss_dp": 0.2911473214626312, "train_loss_llm": 0.024196147918701172, "global_step": 1349, "epoch": 2, "lr": 1.7000000000000003e-05}
+{"train_loss": 0.493572473526001, "train_loss_dp": 0.4935430586338043, "train_loss_llm": 0.029410362243652344, "global_step": 1350, "epoch": 2, "lr": 1.7000000000000003e-05}
+{"train_loss": 0.4476502537727356, "train_loss_dp": 0.4476502537727356, "train_loss_llm": 0.0, "global_step": 1351, "epoch": 2, "lr": 1.7000000000000003e-05}
+{"train_loss": 0.3780584931373596, "train_loss_dp": 0.3780584931373596, "train_loss_llm": 0.0, "global_step": 1352, "epoch": 2, "lr": 1.7000000000000003e-05}
+{"train_loss": 0.48602309823036194, "train_loss_dp": 0.4859178066253662, "train_loss_llm": 0.10528397560119629, "global_step": 1353, "epoch": 2, "lr": 1.7000000000000003e-05}
+{"train_loss": 0.347954124212265, "train_loss_dp": 0.3479008972644806, "train_loss_llm": 0.05321383476257324, "global_step": 1354, "epoch": 2, "lr": 1.7000000000000003e-05}
+{"train_loss": 0.3067503571510315, "train_loss_dp": 0.3067503571510315, "train_loss_llm": 0.0, "global_step": 1355, "epoch": 2, "lr": 1.7000000000000003e-05}
+{"train_loss": 0.48987624049186707, "train_loss_dp": 0.48981043696403503, "train_loss_llm": 0.06580662727355957, "global_step": 1356, "epoch": 2, "lr": 1.7000000000000003e-05}
+{"train_loss": 0.5268065333366394, "train_loss_dp": 0.5267581939697266, "train_loss_llm": 0.048325538635253906, "global_step": 1357, "epoch": 2, "lr": 1.7000000000000003e-05}
+{"train_loss": 0.5208601355552673, "train_loss_dp": 0.5208560824394226, "train_loss_llm": 0.004063606262207031, "global_step": 1358, "epoch": 2, "lr": 1.7000000000000003e-05}
+{"train_loss": 0.17690052092075348, "train_loss_dp": 0.1768859624862671, "train_loss_llm": 0.014560699462890625, "global_step": 1359, "epoch": 2, "lr": 1.7000000000000003e-05}
+{"train_loss": 0.3177184760570526, "train_loss_dp": 0.31769031286239624, "train_loss_llm": 0.028177380561828613, "global_step": 1360, "epoch": 2, "lr": 1.7199999999999998e-05}
+{"train_loss": 0.3061907887458801, "train_loss_dp": 0.30616194009780884, "train_loss_llm": 0.028835296630859375, "global_step": 1361, "epoch": 2, "lr": 1.7199999999999998e-05}
+{"train_loss": 0.8207383751869202, "train_loss_dp": 0.8207183480262756, "train_loss_llm": 0.020026803016662598, "global_step": 1362, "epoch": 2, "lr": 1.7199999999999998e-05}
+{"train_loss": 0.47451165318489075, "train_loss_dp": 0.47449976205825806, "train_loss_llm": 0.011887907981872559, "global_step": 1363, "epoch": 2, "lr": 1.7199999999999998e-05}
+{"train_loss": 0.2335948646068573, "train_loss_dp": 0.2335626780986786, "train_loss_llm": 0.03219258785247803, "global_step": 1364, "epoch": 2, "lr": 1.7199999999999998e-05}
+{"train_loss": 0.46650269627571106, "train_loss_dp": 0.46642637252807617, "train_loss_llm": 0.07632791996002197, "global_step": 1365, "epoch": 2, "lr": 1.7199999999999998e-05}
+{"train_loss": 0.329752653837204, "train_loss_dp": 0.3297032117843628, "train_loss_llm": 0.0494389533996582, "global_step": 1366, "epoch": 2, "lr": 1.7199999999999998e-05}
+{"train_loss": 0.28214147686958313, "train_loss_dp": 0.2820884883403778, "train_loss_llm": 0.05300021171569824, "global_step": 1367, "epoch": 2, "lr": 1.7199999999999998e-05}
+{"train_loss": 0.61653071641922, "train_loss_dp": 0.6164937615394592, "train_loss_llm": 0.036981940269470215, "global_step": 1368, "epoch": 2, "lr": 1.7199999999999998e-05}
+{"train_loss": 0.27918943762779236, "train_loss_dp": 0.27915868163108826, "train_loss_llm": 0.030748367309570312, "global_step": 1369, "epoch": 2, "lr": 1.7199999999999998e-05}
+{"train_loss": 0.46965494751930237, "train_loss_dp": 0.4695984721183777, "train_loss_llm": 0.0564882755279541, "global_step": 1370, "epoch": 2, "lr": 1.7199999999999998e-05}
+{"train_loss": 0.3129017651081085, "train_loss_dp": 0.3127267360687256, "train_loss_llm": 0.17501509189605713, "global_step": 1371, "epoch": 2, "lr": 1.7199999999999998e-05}
+{"train_loss": 0.3233070373535156, "train_loss_dp": 0.32327812910079956, "train_loss_llm": 0.028911828994750977, "global_step": 1372, "epoch": 2, "lr": 1.7199999999999998e-05}
+{"train_loss": 0.49474194645881653, "train_loss_dp": 0.4946862757205963, "train_loss_llm": 0.05567216873168945, "global_step": 1373, "epoch": 2, "lr": 1.7199999999999998e-05}
+{"train_loss": 0.3738919496536255, "train_loss_dp": 0.3738919496536255, "train_loss_llm": 0.0, "global_step": 1374, "epoch": 2, "lr": 1.7199999999999998e-05}
+{"train_loss": 0.5889534950256348, "train_loss_dp": 0.5889534950256348, "train_loss_llm": 0.0, "global_step": 1375, "epoch": 2, "lr": 1.7199999999999998e-05}
+{"train_loss": 0.7784131765365601, "train_loss_dp": 0.7783097624778748, "train_loss_llm": 0.1034308671951294, "global_step": 1376, "epoch": 2, "lr": 1.74e-05}
+{"train_loss": 0.6344316601753235, "train_loss_dp": 0.634383499622345, "train_loss_llm": 0.048134803771972656, "global_step": 1377, "epoch": 2, "lr": 1.74e-05}
+{"train_loss": 0.17709684371948242, "train_loss_dp": 0.17709684371948242, "train_loss_llm": 0.0, "global_step": 1378, "epoch": 2, "lr": 1.74e-05}
+{"train_loss": 0.676128625869751, "train_loss_dp": 0.676128625869751, "train_loss_llm": 0.0, "global_step": 1379, "epoch": 2, "lr": 1.74e-05}
+{"train_loss": 0.5735947489738464, "train_loss_dp": 0.5735372304916382, "train_loss_llm": 0.057538509368896484, "global_step": 1380, "epoch": 2, "lr": 1.74e-05}
+{"train_loss": 0.45365405082702637, "train_loss_dp": 0.45357704162597656, "train_loss_llm": 0.07701921463012695, "global_step": 1381, "epoch": 2, "lr": 1.74e-05}
+{"train_loss": 0.4410616159439087, "train_loss_dp": 0.4410477876663208, "train_loss_llm": 0.013817787170410156, "global_step": 1382, "epoch": 2, "lr": 1.74e-05}
+{"train_loss": 0.2775753140449524, "train_loss_dp": 0.2775598168373108, "train_loss_llm": 0.015485167503356934, "global_step": 1383, "epoch": 2, "lr": 1.74e-05}
+{"train_loss": 0.6182257533073425, "train_loss_dp": 0.6180659532546997, "train_loss_llm": 0.15977859497070312, "global_step": 1384, "epoch": 2, "lr": 1.74e-05}
+{"train_loss": 0.6872274875640869, "train_loss_dp": 0.6871786117553711, "train_loss_llm": 0.04888486862182617, "global_step": 1385, "epoch": 2, "lr": 1.74e-05}
+{"train_loss": 0.6166258454322815, "train_loss_dp": 0.6165174245834351, "train_loss_llm": 0.1084144115447998, "global_step": 1386, "epoch": 2, "lr": 1.74e-05}
+{"train_loss": 0.4530080556869507, "train_loss_dp": 0.452910840511322, "train_loss_llm": 0.09722328186035156, "global_step": 1387, "epoch": 2, "lr": 1.74e-05}
+{"train_loss": 0.3359675407409668, "train_loss_dp": 0.33596688508987427, "train_loss_llm": 0.0006418228149414062, "global_step": 1388, "epoch": 2, "lr": 1.74e-05}
+{"train_loss": 0.6034276485443115, "train_loss_dp": 0.6033702492713928, "train_loss_llm": 0.05737733840942383, "global_step": 1389, "epoch": 2, "lr": 1.74e-05}
+{"train_loss": 0.38355883955955505, "train_loss_dp": 0.38349029421806335, "train_loss_llm": 0.06855666637420654, "global_step": 1390, "epoch": 2, "lr": 1.74e-05}
+{"train_loss": 0.1988234668970108, "train_loss_dp": 0.1987747848033905, "train_loss_llm": 0.04868113994598389, "global_step": 1391, "epoch": 2, "lr": 1.74e-05}
+{"train_loss": 0.5870933532714844, "train_loss_dp": 0.5870933532714844, "train_loss_llm": 0.0, "global_step": 1392, "epoch": 2, "lr": 1.76e-05}
+{"train_loss": 0.6086320877075195, "train_loss_dp": 0.6084740161895752, "train_loss_llm": 0.15806007385253906, "global_step": 1393, "epoch": 2, "lr": 1.76e-05}
+{"train_loss": 0.19554448127746582, "train_loss_dp": 0.19553986191749573, "train_loss_llm": 0.004612445831298828, "global_step": 1394, "epoch": 2, "lr": 1.76e-05}
+{"train_loss": 0.11727060377597809, "train_loss_dp": 0.1172422245144844, "train_loss_llm": 0.028381183743476868, "global_step": 1395, "epoch": 2, "lr": 1.76e-05}
+{"train_loss": 0.6679232716560364, "train_loss_dp": 0.6677985191345215, "train_loss_llm": 0.12476348876953125, "global_step": 1396, "epoch": 2, "lr": 1.76e-05}
+{"train_loss": 0.2266429364681244, "train_loss_dp": 0.2266429364681244, "train_loss_llm": 0.0, "global_step": 1397, "epoch": 2, "lr": 1.76e-05}
+{"train_loss": 0.3277338445186615, "train_loss_dp": 0.3276861906051636, "train_loss_llm": 0.04764294624328613, "global_step": 1398, "epoch": 2, "lr": 1.76e-05}
+{"train_loss": 0.48923420906066895, "train_loss_dp": 0.48923420906066895, "train_loss_llm": 0.0, "global_step": 1399, "epoch": 2, "lr": 1.76e-05}
+{"train_loss": 0.24866263568401337, "train_loss_dp": 0.24863611161708832, "train_loss_llm": 0.026523590087890625, "global_step": 1400, "epoch": 2, "lr": 1.76e-05}
+{"train_loss": 0.34904390573501587, "train_loss_dp": 0.34904390573501587, "train_loss_llm": 0.0, "global_step": 1401, "epoch": 2, "lr": 1.76e-05}
+{"train_loss": 0.6228765845298767, "train_loss_dp": 0.6228700876235962, "train_loss_llm": 0.0064945220947265625, "global_step": 1402, "epoch": 2, "lr": 1.76e-05}
+{"train_loss": 0.5965667366981506, "train_loss_dp": 0.596470057964325, "train_loss_llm": 0.09670448303222656, "global_step": 1403, "epoch": 2, "lr": 1.76e-05}
+{"train_loss": 0.6943506002426147, "train_loss_dp": 0.6943506002426147, "train_loss_llm": 0.0, "global_step": 1404, "epoch": 2, "lr": 1.76e-05}
+{"train_loss": 0.2513321042060852, "train_loss_dp": 0.2513321042060852, "train_loss_llm": 0.0, "global_step": 1405, "epoch": 2, "lr": 1.76e-05}
+{"train_loss": 0.3194984793663025, "train_loss_dp": 0.31949442625045776, "train_loss_llm": 0.0040667057037353516, "global_step": 1406, "epoch": 2, "lr": 1.76e-05}
+{"train_loss": 0.21936161816120148, "train_loss_dp": 0.2193506956100464, "train_loss_llm": 0.010919332504272461, "global_step": 1407, "epoch": 2, "lr": 1.76e-05}
+{"train_loss": 0.367271363735199, "train_loss_dp": 0.36722832918167114, "train_loss_llm": 0.04302924871444702, "global_step": 1408, "epoch": 2, "lr": 1.78e-05}
+{"train_loss": 0.14822670817375183, "train_loss_dp": 0.14820703864097595, "train_loss_llm": 0.019675731658935547, "global_step": 1409, "epoch": 2, "lr": 1.78e-05}
+{"train_loss": 0.5855360627174377, "train_loss_dp": 0.5855337381362915, "train_loss_llm": 0.0023174285888671875, "global_step": 1410, "epoch": 2, "lr": 1.78e-05}
+{"train_loss": 0.1769564151763916, "train_loss_dp": 0.17695361375808716, "train_loss_llm": 0.002802908420562744, "global_step": 1411, "epoch": 2, "lr": 1.78e-05}
+{"train_loss": 0.42785704135894775, "train_loss_dp": 0.4277392029762268, "train_loss_llm": 0.11783599853515625, "global_step": 1412, "epoch": 2, "lr": 1.78e-05}
+{"train_loss": 0.2641855776309967, "train_loss_dp": 0.264151006937027, "train_loss_llm": 0.03456178307533264, "global_step": 1413, "epoch": 2, "lr": 1.78e-05}
+{"train_loss": 0.41664403676986694, "train_loss_dp": 0.4165632724761963, "train_loss_llm": 0.08077049255371094, "global_step": 1414, "epoch": 2, "lr": 1.78e-05}
+{"train_loss": 0.6442342400550842, "train_loss_dp": 0.6439691781997681, "train_loss_llm": 0.26506900787353516, "global_step": 1415, "epoch": 2, "lr": 1.78e-05}
+{"train_loss": 0.5692737698554993, "train_loss_dp": 0.5692322850227356, "train_loss_llm": 0.04146385192871094, "global_step": 1416, "epoch": 2, "lr": 1.78e-05}
+{"train_loss": 0.2978382110595703, "train_loss_dp": 0.2977984547615051, "train_loss_llm": 0.039751291275024414, "global_step": 1417, "epoch": 2, "lr": 1.78e-05}
+{"train_loss": 0.313024640083313, "train_loss_dp": 0.313024640083313, "train_loss_llm": 0.0, "global_step": 1418, "epoch": 2, "lr": 1.78e-05}
+{"train_loss": 0.491900235414505, "train_loss_dp": 0.4917791783809662, "train_loss_llm": 0.121063232421875, "global_step": 1419, "epoch": 2, "lr": 1.78e-05}
+{"train_loss": 0.3398451805114746, "train_loss_dp": 0.33981263637542725, "train_loss_llm": 0.03254181146621704, "global_step": 1420, "epoch": 2, "lr": 1.78e-05}
+{"train_loss": 0.6058396100997925, "train_loss_dp": 0.6056984066963196, "train_loss_llm": 0.1412067413330078, "global_step": 1421, "epoch": 2, "lr": 1.78e-05}
+{"train_loss": 0.2561952471733093, "train_loss_dp": 0.2561551332473755, "train_loss_llm": 0.04010725021362305, "global_step": 1422, "epoch": 2, "lr": 1.78e-05}
+{"train_loss": 0.22505474090576172, "train_loss_dp": 0.22503024339675903, "train_loss_llm": 0.02449643611907959, "global_step": 1423, "epoch": 2, "lr": 1.78e-05}
+{"train_loss": 0.27153879404067993, "train_loss_dp": 0.2714988887310028, "train_loss_llm": 0.03989970684051514, "global_step": 1424, "epoch": 2, "lr": 1.8e-05}
+{"train_loss": 0.2974000573158264, "train_loss_dp": 0.2974000573158264, "train_loss_llm": 0.0, "global_step": 1425, "epoch": 2, "lr": 1.8e-05}
+{"train_loss": 0.3035290539264679, "train_loss_dp": 0.3034698963165283, "train_loss_llm": 0.05914306640625, "global_step": 1426, "epoch": 2, "lr": 1.8e-05}
+{"train_loss": 0.42022424936294556, "train_loss_dp": 0.4202049970626831, "train_loss_llm": 0.019252777099609375, "global_step": 1427, "epoch": 2, "lr": 1.8e-05}
+{"train_loss": 0.6567630767822266, "train_loss_dp": 0.6566229462623596, "train_loss_llm": 0.1401224136352539, "global_step": 1428, "epoch": 2, "lr": 1.8e-05}
+{"train_loss": 0.2659028172492981, "train_loss_dp": 0.26589301228523254, "train_loss_llm": 0.009791374206542969, "global_step": 1429, "epoch": 2, "lr": 1.8e-05}
+{"train_loss": 0.8055295348167419, "train_loss_dp": 0.8052029013633728, "train_loss_llm": 0.3266277313232422, "global_step": 1430, "epoch": 2, "lr": 1.8e-05}
+{"train_loss": 0.3482137620449066, "train_loss_dp": 0.34821146726608276, "train_loss_llm": 0.0022869110107421875, "global_step": 1431, "epoch": 2, "lr": 1.8e-05}
+{"train_loss": 0.3700908124446869, "train_loss_dp": 0.37004518508911133, "train_loss_llm": 0.045635223388671875, "global_step": 1432, "epoch": 2, "lr": 1.8e-05}
+{"train_loss": 0.5489981770515442, "train_loss_dp": 0.5489171147346497, "train_loss_llm": 0.08108329772949219, "global_step": 1433, "epoch": 2, "lr": 1.8e-05}
+{"train_loss": 0.4849318265914917, "train_loss_dp": 0.4848812222480774, "train_loss_llm": 0.05061626434326172, "global_step": 1434, "epoch": 2, "lr": 1.8e-05}
+{"train_loss": 0.67945396900177, "train_loss_dp": 0.6794437170028687, "train_loss_llm": 0.010231256484985352, "global_step": 1435, "epoch": 2, "lr": 1.8e-05}
+{"train_loss": 0.45843663811683655, "train_loss_dp": 0.4584306478500366, "train_loss_llm": 0.005980968475341797, "global_step": 1436, "epoch": 2, "lr": 1.8e-05}
+{"train_loss": 0.47523489594459534, "train_loss_dp": 0.4748840630054474, "train_loss_llm": 0.35081911087036133, "global_step": 1437, "epoch": 2, "lr": 1.8e-05}
+{"train_loss": 0.40915364027023315, "train_loss_dp": 0.40915364027023315, "train_loss_llm": 0.0, "global_step": 1438, "epoch": 2, "lr": 1.8e-05}
+{"train_loss": 0.30799803137779236, "train_loss_dp": 0.30797696113586426, "train_loss_llm": 0.02108001708984375, "global_step": 1439, "epoch": 2, "lr": 1.8e-05}
+{"train_loss": 0.42517757415771484, "train_loss_dp": 0.4251547157764435, "train_loss_llm": 0.022851943969726562, "global_step": 1440, "epoch": 2, "lr": 1.8200000000000002e-05}
+{"train_loss": 0.4572676420211792, "train_loss_dp": 0.4572528600692749, "train_loss_llm": 0.014776229858398438, "global_step": 1441, "epoch": 2, "lr": 1.8200000000000002e-05}
+{"train_loss": 0.6125100255012512, "train_loss_dp": 0.61243736743927, "train_loss_llm": 0.07264137268066406, "global_step": 1442, "epoch": 2, "lr": 1.8200000000000002e-05}
+{"train_loss": 0.4481043219566345, "train_loss_dp": 0.4481043219566345, "train_loss_llm": 0.0, "global_step": 1443, "epoch": 2, "lr": 1.8200000000000002e-05}
+{"train_loss": 0.7887555360794067, "train_loss_dp": 0.7887018918991089, "train_loss_llm": 0.053615570068359375, "global_step": 1444, "epoch": 2, "lr": 1.8200000000000002e-05}
+{"train_loss": 0.37032732367515564, "train_loss_dp": 0.3703092336654663, "train_loss_llm": 0.018096923828125, "global_step": 1445, "epoch": 2, "lr": 1.8200000000000002e-05}
+{"train_loss": 0.40531498193740845, "train_loss_dp": 0.4053047299385071, "train_loss_llm": 0.010253608226776123, "global_step": 1446, "epoch": 2, "lr": 1.8200000000000002e-05}
+{"train_loss": 0.49628373980522156, "train_loss_dp": 0.49628373980522156, "train_loss_llm": 0.0, "global_step": 1447, "epoch": 2, "lr": 1.8200000000000002e-05}
+{"train_loss": 0.3622480034828186, "train_loss_dp": 0.3622480034828186, "train_loss_llm": 0.0, "global_step": 1448, "epoch": 2, "lr": 1.8200000000000002e-05}
+{"train_loss": 0.22628812491893768, "train_loss_dp": 0.22625857591629028, "train_loss_llm": 0.029552340507507324, "global_step": 1449, "epoch": 2, "lr": 1.8200000000000002e-05}
+{"train_loss": 0.32903918623924255, "train_loss_dp": 0.3290111720561981, "train_loss_llm": 0.028008222579956055, "global_step": 1450, "epoch": 2, "lr": 1.8200000000000002e-05}
+{"train_loss": 0.2548869550228119, "train_loss_dp": 0.25486892461776733, "train_loss_llm": 0.01803135871887207, "global_step": 1451, "epoch": 2, "lr": 1.8200000000000002e-05}
+{"train_loss": 0.17254258692264557, "train_loss_dp": 0.17252808809280396, "train_loss_llm": 0.014495372772216797, "global_step": 1452, "epoch": 2, "lr": 1.8200000000000002e-05}
+{"train_loss": 0.5159029364585876, "train_loss_dp": 0.5158812999725342, "train_loss_llm": 0.02165144681930542, "global_step": 1453, "epoch": 2, "lr": 1.8200000000000002e-05}
+{"train_loss": 0.8055200576782227, "train_loss_dp": 0.8054831624031067, "train_loss_llm": 0.036866188049316406, "global_step": 1454, "epoch": 2, "lr": 1.8200000000000002e-05}
+{"train_loss": 0.657261073589325, "train_loss_dp": 0.6572311520576477, "train_loss_llm": 0.029922008514404297, "global_step": 1455, "epoch": 2, "lr": 1.8200000000000002e-05}
+{"train_loss": 0.40897029638290405, "train_loss_dp": 0.40896010398864746, "train_loss_llm": 0.01017904281616211, "global_step": 1456, "epoch": 2, "lr": 1.84e-05}
+{"train_loss": 0.3367432653903961, "train_loss_dp": 0.3367252051830292, "train_loss_llm": 0.01806497573852539, "global_step": 1457, "epoch": 2, "lr": 1.84e-05}
+{"train_loss": 0.325364887714386, "train_loss_dp": 0.325364887714386, "train_loss_llm": 0.0, "global_step": 1458, "epoch": 2, "lr": 1.84e-05}
+{"train_loss": 0.4850952625274658, "train_loss_dp": 0.4850717782974243, "train_loss_llm": 0.02348470687866211, "global_step": 1459, "epoch": 2, "lr": 1.84e-05}
+{"train_loss": 0.29840242862701416, "train_loss_dp": 0.2983872592449188, "train_loss_llm": 0.015166282653808594, "global_step": 1460, "epoch": 2, "lr": 1.84e-05}
+{"train_loss": 0.4112798571586609, "train_loss_dp": 0.4112798571586609, "train_loss_llm": 0.0, "global_step": 1461, "epoch": 2, "lr": 1.84e-05}
+{"train_loss": 0.49542567133903503, "train_loss_dp": 0.495388925075531, "train_loss_llm": 0.036746978759765625, "global_step": 1462, "epoch": 2, "lr": 1.84e-05}
+{"train_loss": 0.9000838398933411, "train_loss_dp": 0.9000838398933411, "train_loss_llm": 0.0, "global_step": 1463, "epoch": 2, "lr": 1.84e-05}
+{"train_loss": 0.42534059286117554, "train_loss_dp": 0.42524927854537964, "train_loss_llm": 0.0913240909576416, "global_step": 1464, "epoch": 2, "lr": 1.84e-05}
+{"train_loss": 0.3631213307380676, "train_loss_dp": 0.36308425664901733, "train_loss_llm": 0.03707730770111084, "global_step": 1465, "epoch": 2, "lr": 1.84e-05}
+{"train_loss": 0.3139359951019287, "train_loss_dp": 0.3139171898365021, "train_loss_llm": 0.018799781799316406, "global_step": 1466, "epoch": 2, "lr": 1.84e-05}
+{"train_loss": 0.605505645275116, "train_loss_dp": 0.6052611470222473, "train_loss_llm": 0.24451637268066406, "global_step": 1467, "epoch": 2, "lr": 1.84e-05}
+{"train_loss": 0.5349704623222351, "train_loss_dp": 0.5348011255264282, "train_loss_llm": 0.1693105697631836, "global_step": 1468, "epoch": 2, "lr": 1.84e-05}
+{"train_loss": 0.24720336496829987, "train_loss_dp": 0.24715498089790344, "train_loss_llm": 0.04837989807128906, "global_step": 1469, "epoch": 2, "lr": 1.84e-05}
+{"train_loss": 0.38701683282852173, "train_loss_dp": 0.38699811697006226, "train_loss_llm": 0.01870143413543701, "global_step": 1470, "epoch": 2, "lr": 1.84e-05}
+{"train_loss": 0.6821518540382385, "train_loss_dp": 0.6821019053459167, "train_loss_llm": 0.04993629455566406, "global_step": 1471, "epoch": 2, "lr": 1.84e-05}
+{"train_loss": 0.47793757915496826, "train_loss_dp": 0.47793757915496826, "train_loss_llm": 0.0, "global_step": 1472, "epoch": 2, "lr": 1.86e-05}
+{"train_loss": 0.22885893285274506, "train_loss_dp": 0.22884580492973328, "train_loss_llm": 0.013120651245117188, "global_step": 1473, "epoch": 2, "lr": 1.86e-05}
+{"train_loss": 0.6362415552139282, "train_loss_dp": 0.6362415552139282, "train_loss_llm": 0.0, "global_step": 1474, "epoch": 2, "lr": 1.86e-05}
+{"train_loss": 0.4579976499080658, "train_loss_dp": 0.457707017660141, "train_loss_llm": 0.2906465530395508, "global_step": 1475, "epoch": 2, "lr": 1.86e-05}
+{"train_loss": 0.2352725714445114, "train_loss_dp": 0.2352476418018341, "train_loss_llm": 0.02492392063140869, "global_step": 1476, "epoch": 2, "lr": 1.86e-05}
+{"train_loss": 0.3687816262245178, "train_loss_dp": 0.3687552809715271, "train_loss_llm": 0.026343822479248047, "global_step": 1477, "epoch": 2, "lr": 1.86e-05}
+{"train_loss": 0.4778384566307068, "train_loss_dp": 0.47761157155036926, "train_loss_llm": 0.22688579559326172, "global_step": 1478, "epoch": 2, "lr": 1.86e-05}
+{"train_loss": 0.37296828627586365, "train_loss_dp": 0.37296828627586365, "train_loss_llm": 0.0, "global_step": 1479, "epoch": 2, "lr": 1.86e-05}
+{"train_loss": 0.4119815528392792, "train_loss_dp": 0.4119202792644501, "train_loss_llm": 0.06127643585205078, "global_step": 1480, "epoch": 2, "lr": 1.86e-05}
+{"train_loss": 0.35385817289352417, "train_loss_dp": 0.35385817289352417, "train_loss_llm": 0.0, "global_step": 1481, "epoch": 2, "lr": 1.86e-05}
+{"train_loss": 0.23857854306697845, "train_loss_dp": 0.23857854306697845, "train_loss_llm": 0.0, "global_step": 1482, "epoch": 2, "lr": 1.86e-05}
+{"train_loss": 0.6947102546691895, "train_loss_dp": 0.6945257782936096, "train_loss_llm": 0.18445968627929688, "global_step": 1483, "epoch": 2, "lr": 1.86e-05}
+{"train_loss": 0.3946673572063446, "train_loss_dp": 0.3946673572063446, "train_loss_llm": 0.0, "global_step": 1484, "epoch": 2, "lr": 1.86e-05}
+{"train_loss": 0.45565301179885864, "train_loss_dp": 0.45565301179885864, "train_loss_llm": 0.0, "global_step": 1485, "epoch": 2, "lr": 1.86e-05}
+{"train_loss": 0.3689345717430115, "train_loss_dp": 0.3689044415950775, "train_loss_llm": 0.030120849609375, "global_step": 1486, "epoch": 2, "lr": 1.86e-05}
+{"train_loss": 0.5037249326705933, "train_loss_dp": 0.5035955309867859, "train_loss_llm": 0.12940025329589844, "global_step": 1487, "epoch": 2, "lr": 1.86e-05}
+{"train_loss": 0.7018558979034424, "train_loss_dp": 0.7017562985420227, "train_loss_llm": 0.09960508346557617, "global_step": 1488, "epoch": 2, "lr": 1.88e-05}
+{"train_loss": 0.3514680862426758, "train_loss_dp": 0.3514680862426758, "train_loss_llm": 0.0, "global_step": 1489, "epoch": 2, "lr": 1.88e-05}
+{"train_loss": 0.35607168078422546, "train_loss_dp": 0.3560526371002197, "train_loss_llm": 0.019056320190429688, "global_step": 1490, "epoch": 2, "lr": 1.88e-05}
+{"train_loss": 0.13339680433273315, "train_loss_dp": 0.13334251940250397, "train_loss_llm": 0.054286956787109375, "global_step": 1491, "epoch": 2, "lr": 1.88e-05}
+{"train_loss": 0.4931491017341614, "train_loss_dp": 0.4931491017341614, "train_loss_llm": 0.0, "global_step": 1492, "epoch": 2, "lr": 1.88e-05}
+{"train_loss": 0.27600133419036865, "train_loss_dp": 0.2759202718734741, "train_loss_llm": 0.08107376098632812, "global_step": 1493, "epoch": 2, "lr": 1.88e-05}
+{"train_loss": 0.2578909695148468, "train_loss_dp": 0.2577669620513916, "train_loss_llm": 0.12401580810546875, "global_step": 1494, "epoch": 2, "lr": 1.88e-05}
+{"train_loss": 0.44401490688323975, "train_loss_dp": 0.44401490688323975, "train_loss_llm": 0.0, "global_step": 1495, "epoch": 2, "lr": 1.88e-05}
+{"train_loss": 0.334486186504364, "train_loss_dp": 0.33440202474594116, "train_loss_llm": 0.08417320251464844, "global_step": 1496, "epoch": 2, "lr": 1.88e-05}
+{"train_loss": 0.1933465600013733, "train_loss_dp": 0.1933465600013733, "train_loss_llm": 0.0, "global_step": 1497, "epoch": 2, "lr": 1.88e-05}
+{"train_loss": 0.7130929231643677, "train_loss_dp": 0.7130591869354248, "train_loss_llm": 0.033710479736328125, "global_step": 1498, "epoch": 2, "lr": 1.88e-05}
+{"train_loss": 0.6005575060844421, "train_loss_dp": 0.6005575060844421, "train_loss_llm": 0.0, "global_step": 1499, "epoch": 2, "lr": 1.88e-05}
+{"train_loss": 0.31253165006637573, "train_loss_dp": 0.31248927116394043, "train_loss_llm": 0.042377471923828125, "global_step": 1500, "epoch": 2, "lr": 1.88e-05}
+{"train_loss": 0.5560753345489502, "train_loss_dp": 0.5560259222984314, "train_loss_llm": 0.049407005310058594, "global_step": 1501, "epoch": 2, "lr": 1.88e-05}
+{"train_loss": 0.4421895742416382, "train_loss_dp": 0.4421460032463074, "train_loss_llm": 0.04357290267944336, "global_step": 1502, "epoch": 2, "lr": 1.88e-05}
+{"train_loss": 0.7206663489341736, "train_loss_dp": 0.7206544280052185, "train_loss_llm": 0.011932373046875, "global_step": 1503, "epoch": 2, "lr": 1.88e-05}
+{"train_loss": 0.557333767414093, "train_loss_dp": 0.5573209524154663, "train_loss_llm": 0.012843549251556396, "global_step": 1504, "epoch": 2, "lr": 1.9e-05}
+{"train_loss": 0.39173373579978943, "train_loss_dp": 0.3917045295238495, "train_loss_llm": 0.029201745986938477, "global_step": 1505, "epoch": 2, "lr": 1.9e-05}
+{"train_loss": 0.4903312623500824, "train_loss_dp": 0.4901518225669861, "train_loss_llm": 0.1794438362121582, "global_step": 1506, "epoch": 2, "lr": 1.9e-05}
+{"train_loss": 0.3403095304965973, "train_loss_dp": 0.3402569890022278, "train_loss_llm": 0.05254983901977539, "global_step": 1507, "epoch": 2, "lr": 1.9e-05}
+{"train_loss": 0.41588056087493896, "train_loss_dp": 0.41588056087493896, "train_loss_llm": 0.0, "global_step": 1508, "epoch": 2, "lr": 1.9e-05}
+{"train_loss": 0.3275837302207947, "train_loss_dp": 0.3275837302207947, "train_loss_llm": 0.0, "global_step": 1509, "epoch": 2, "lr": 1.9e-05}
+{"train_loss": 0.24142581224441528, "train_loss_dp": 0.24141576886177063, "train_loss_llm": 0.010039865970611572, "global_step": 1510, "epoch": 2, "lr": 1.9e-05}
+{"train_loss": 0.4858570098876953, "train_loss_dp": 0.4855937063694, "train_loss_llm": 0.2633075714111328, "global_step": 1511, "epoch": 2, "lr": 1.9e-05}
+{"train_loss": 0.5164244771003723, "train_loss_dp": 0.5164153575897217, "train_loss_llm": 0.009141921997070312, "global_step": 1512, "epoch": 2, "lr": 1.9e-05}
+{"train_loss": 0.34524786472320557, "train_loss_dp": 0.3448573052883148, "train_loss_llm": 0.39057016372680664, "global_step": 1513, "epoch": 2, "lr": 1.9e-05}
+{"train_loss": 0.24356211721897125, "train_loss_dp": 0.24356211721897125, "train_loss_llm": 0.0, "global_step": 1514, "epoch": 2, "lr": 1.9e-05}
+{"train_loss": 0.4096069037914276, "train_loss_dp": 0.4095558822154999, "train_loss_llm": 0.051029205322265625, "global_step": 1515, "epoch": 2, "lr": 1.9e-05}
+{"train_loss": 0.3148663341999054, "train_loss_dp": 0.3148663341999054, "train_loss_llm": 0.0, "global_step": 1516, "epoch": 2, "lr": 1.9e-05}
+{"train_loss": 0.23961910605430603, "train_loss_dp": 0.239567369222641, "train_loss_llm": 0.05173724889755249, "global_step": 1517, "epoch": 2, "lr": 1.9e-05}
+{"train_loss": 0.40451812744140625, "train_loss_dp": 0.4044853746891022, "train_loss_llm": 0.03275442123413086, "global_step": 1518, "epoch": 2, "lr": 1.9e-05}
+{"train_loss": 0.16765423119068146, "train_loss_dp": 0.16763998568058014, "train_loss_llm": 0.014247238636016846, "global_step": 1519, "epoch": 2, "lr": 1.9e-05}
+{"train_loss": 0.34086835384368896, "train_loss_dp": 0.3407580256462097, "train_loss_llm": 0.11032676696777344, "global_step": 1520, "epoch": 2, "lr": 1.9200000000000003e-05}
+{"train_loss": 0.49676188826560974, "train_loss_dp": 0.4964294731616974, "train_loss_llm": 0.3324260711669922, "global_step": 1521, "epoch": 2, "lr": 1.9200000000000003e-05}
+{"train_loss": 0.15821808576583862, "train_loss_dp": 0.15821637213230133, "train_loss_llm": 0.001720428466796875, "global_step": 1522, "epoch": 2, "lr": 1.9200000000000003e-05}
+{"train_loss": 0.46339231729507446, "train_loss_dp": 0.46333712339401245, "train_loss_llm": 0.05518406629562378, "global_step": 1523, "epoch": 2, "lr": 1.9200000000000003e-05}
+{"train_loss": 0.5208709836006165, "train_loss_dp": 0.520825982093811, "train_loss_llm": 0.04500579833984375, "global_step": 1524, "epoch": 2, "lr": 1.9200000000000003e-05}
+{"train_loss": 0.24709771573543549, "train_loss_dp": 0.24707871675491333, "train_loss_llm": 0.018998146057128906, "global_step": 1525, "epoch": 2, "lr": 1.9200000000000003e-05}
+{"train_loss": 0.3611522316932678, "train_loss_dp": 0.3610336482524872, "train_loss_llm": 0.11857032775878906, "global_step": 1526, "epoch": 2, "lr": 1.9200000000000003e-05}
+{"train_loss": 0.3064274787902832, "train_loss_dp": 0.3064274787902832, "train_loss_llm": 0.0, "global_step": 1527, "epoch": 2, "lr": 1.9200000000000003e-05}
+{"train_loss": 0.3429732322692871, "train_loss_dp": 0.342943012714386, "train_loss_llm": 0.03022468090057373, "global_step": 1528, "epoch": 2, "lr": 1.9200000000000003e-05}
+{"train_loss": 0.48363015055656433, "train_loss_dp": 0.4835186004638672, "train_loss_llm": 0.11155271530151367, "global_step": 1529, "epoch": 2, "lr": 1.9200000000000003e-05}
+{"train_loss": 0.4380607306957245, "train_loss_dp": 0.4380338490009308, "train_loss_llm": 0.026877403259277344, "global_step": 1530, "epoch": 2, "lr": 1.9200000000000003e-05}
+{"train_loss": 0.41354894638061523, "train_loss_dp": 0.41348567605018616, "train_loss_llm": 0.0632619857788086, "global_step": 1531, "epoch": 2, "lr": 1.9200000000000003e-05}
+{"train_loss": 0.228851318359375, "train_loss_dp": 0.2288399487733841, "train_loss_llm": 0.011373162269592285, "global_step": 1532, "epoch": 2, "lr": 1.9200000000000003e-05}
+{"train_loss": 0.29388636350631714, "train_loss_dp": 0.29388636350631714, "train_loss_llm": 0.0, "global_step": 1533, "epoch": 2, "lr": 1.9200000000000003e-05}
+{"train_loss": 0.25293782353401184, "train_loss_dp": 0.2529204487800598, "train_loss_llm": 0.017366409301757812, "global_step": 1534, "epoch": 2, "lr": 1.9200000000000003e-05}
+{"train_loss": 0.7064698934555054, "train_loss_dp": 0.7064199447631836, "train_loss_llm": 0.049945831298828125, "global_step": 1535, "epoch": 2, "lr": 1.9200000000000003e-05}
+{"train_loss": 0.41072165966033936, "train_loss_dp": 0.4107101559638977, "train_loss_llm": 0.011517763137817383, "global_step": 1536, "epoch": 2, "lr": 1.94e-05}
+{"train_loss": 0.6619715094566345, "train_loss_dp": 0.6619436740875244, "train_loss_llm": 0.027830123901367188, "global_step": 1537, "epoch": 2, "lr": 1.94e-05}
+{"train_loss": 0.6824674606323242, "train_loss_dp": 0.6824396848678589, "train_loss_llm": 0.027794837951660156, "global_step": 1538, "epoch": 2, "lr": 1.94e-05}
+{"train_loss": 0.340963751077652, "train_loss_dp": 0.340963751077652, "train_loss_llm": 0.0, "global_step": 1539, "epoch": 2, "lr": 1.94e-05}
+{"train_loss": 0.6136988401412964, "train_loss_dp": 0.6136085987091064, "train_loss_llm": 0.0902247428894043, "global_step": 1540, "epoch": 2, "lr": 1.94e-05}
+{"train_loss": 0.3684254586696625, "train_loss_dp": 0.3683429956436157, "train_loss_llm": 0.08247756958007812, "global_step": 1541, "epoch": 2, "lr": 1.94e-05}
+{"train_loss": 0.31947052478790283, "train_loss_dp": 0.31937429308891296, "train_loss_llm": 0.09622812271118164, "global_step": 1542, "epoch": 2, "lr": 1.94e-05}
+{"train_loss": 0.29888373613357544, "train_loss_dp": 0.29886531829833984, "train_loss_llm": 0.018415331840515137, "global_step": 1543, "epoch": 2, "lr": 1.94e-05}
+{"train_loss": 0.541541576385498, "train_loss_dp": 0.541541576385498, "train_loss_llm": 0.0, "global_step": 1544, "epoch": 2, "lr": 1.94e-05}
+{"train_loss": 0.6655579805374146, "train_loss_dp": 0.6653974652290344, "train_loss_llm": 0.16050362586975098, "global_step": 1545, "epoch": 2, "lr": 1.94e-05}
+{"train_loss": 0.4283677637577057, "train_loss_dp": 0.42831483483314514, "train_loss_llm": 0.05292701721191406, "global_step": 1546, "epoch": 2, "lr": 1.94e-05}
+{"train_loss": 0.38767269253730774, "train_loss_dp": 0.38761210441589355, "train_loss_llm": 0.06058025360107422, "global_step": 1547, "epoch": 2, "lr": 1.94e-05}
+{"train_loss": 0.44334155321121216, "train_loss_dp": 0.4432497024536133, "train_loss_llm": 0.09183740615844727, "global_step": 1548, "epoch": 2, "lr": 1.94e-05}
+{"train_loss": 0.33947739005088806, "train_loss_dp": 0.3393048346042633, "train_loss_llm": 0.1725444793701172, "global_step": 1549, "epoch": 2, "lr": 1.94e-05}
+{"train_loss": 0.22753114998340607, "train_loss_dp": 0.22750742733478546, "train_loss_llm": 0.023718833923339844, "global_step": 1550, "epoch": 2, "lr": 1.94e-05}
+{"train_loss": 0.24616451561450958, "train_loss_dp": 0.24615174531936646, "train_loss_llm": 0.012772619724273682, "global_step": 1551, "epoch": 2, "lr": 1.94e-05}
+{"train_loss": 0.31939247250556946, "train_loss_dp": 0.3193783164024353, "train_loss_llm": 0.014161467552185059, "global_step": 1552, "epoch": 2, "lr": 1.9600000000000002e-05}
+{"train_loss": 0.277839720249176, "train_loss_dp": 0.27783098816871643, "train_loss_llm": 0.00873708724975586, "global_step": 1553, "epoch": 2, "lr": 1.9600000000000002e-05}
+{"train_loss": 0.19044484198093414, "train_loss_dp": 0.1904309093952179, "train_loss_llm": 0.013938665390014648, "global_step": 1554, "epoch": 2, "lr": 1.9600000000000002e-05}
+{"train_loss": 0.5082618594169617, "train_loss_dp": 0.5082618594169617, "train_loss_llm": 0.0, "global_step": 1555, "epoch": 2, "lr": 1.9600000000000002e-05}
+{"train_loss": 0.6653256416320801, "train_loss_dp": 0.6653256416320801, "train_loss_llm": 0.0, "global_step": 1556, "epoch": 2, "lr": 1.9600000000000002e-05}
+{"train_loss": 0.5545554757118225, "train_loss_dp": 0.5545110702514648, "train_loss_llm": 0.04440808296203613, "global_step": 1557, "epoch": 2, "lr": 1.9600000000000002e-05}
+{"train_loss": 0.3448870778083801, "train_loss_dp": 0.34488117694854736, "train_loss_llm": 0.005903363227844238, "global_step": 1558, "epoch": 2, "lr": 1.9600000000000002e-05}
+{"train_loss": 0.47107911109924316, "train_loss_dp": 0.47105228900909424, "train_loss_llm": 0.02682340145111084, "global_step": 1559, "epoch": 2, "lr": 1.9600000000000002e-05}
+{"train_loss": 0.6838380694389343, "train_loss_dp": 0.6837693452835083, "train_loss_llm": 0.06874370574951172, "global_step": 1560, "epoch": 2, "lr": 1.9600000000000002e-05}
+{"train_loss": 0.2013975977897644, "train_loss_dp": 0.2013755738735199, "train_loss_llm": 0.022017955780029297, "global_step": 1561, "epoch": 2, "lr": 1.9600000000000002e-05}
+{"train_loss": 0.27281826734542847, "train_loss_dp": 0.2727981507778168, "train_loss_llm": 0.020125091075897217, "global_step": 1562, "epoch": 2, "lr": 1.9600000000000002e-05}
+{"train_loss": 0.45724648237228394, "train_loss_dp": 0.4571923017501831, "train_loss_llm": 0.0541873574256897, "global_step": 1563, "epoch": 2, "lr": 1.9600000000000002e-05}
+{"train_loss": 0.45727282762527466, "train_loss_dp": 0.4572027623653412, "train_loss_llm": 0.07006454467773438, "global_step": 1564, "epoch": 2, "lr": 1.9600000000000002e-05}
+{"train_loss": 0.4156217575073242, "train_loss_dp": 0.41559895873069763, "train_loss_llm": 0.02279973030090332, "global_step": 1565, "epoch": 2, "lr": 1.9600000000000002e-05}
+{"train_loss": 0.11602748930454254, "train_loss_dp": 0.11602748930454254, "train_loss_llm": 0.0, "global_step": 1566, "epoch": 2, "lr": 1.9600000000000002e-05}
+{"train_loss": 0.2287437468767166, "train_loss_dp": 0.22870847582817078, "train_loss_llm": 0.03527212142944336, "global_step": 1567, "epoch": 2, "lr": 1.9600000000000002e-05}
+{"train_loss": 0.42072468996047974, "train_loss_dp": 0.42071133852005005, "train_loss_llm": 0.013344287872314453, "global_step": 1568, "epoch": 2, "lr": 1.9800000000000004e-05}
+{"train_loss": 0.4571496546268463, "train_loss_dp": 0.4571496546268463, "train_loss_llm": 0.0, "global_step": 1569, "epoch": 2, "lr": 1.9800000000000004e-05}
+{"train_loss": 0.3736245632171631, "train_loss_dp": 0.3735511302947998, "train_loss_llm": 0.07342243194580078, "global_step": 1570, "epoch": 2, "lr": 1.9800000000000004e-05}
+{"train_loss": 0.2626050114631653, "train_loss_dp": 0.2624986469745636, "train_loss_llm": 0.10637855529785156, "global_step": 1571, "epoch": 2, "lr": 1.9800000000000004e-05}
+{"train_loss": 0.4593939185142517, "train_loss_dp": 0.4593939185142517, "train_loss_llm": 0.0, "global_step": 1572, "epoch": 2, "lr": 1.9800000000000004e-05}
+{"train_loss": 0.22245149314403534, "train_loss_dp": 0.22243976593017578, "train_loss_llm": 0.011723846197128296, "global_step": 1573, "epoch": 2, "lr": 1.9800000000000004e-05}
+{"train_loss": 0.3783887028694153, "train_loss_dp": 0.3783312439918518, "train_loss_llm": 0.05744922161102295, "global_step": 1574, "epoch": 2, "lr": 1.9800000000000004e-05}
+{"train_loss": 0.35739561915397644, "train_loss_dp": 0.35737043619155884, "train_loss_llm": 0.02518177032470703, "global_step": 1575, "epoch": 2, "lr": 1.9800000000000004e-05}
+{"train_loss": 0.35956090688705444, "train_loss_dp": 0.359534353017807, "train_loss_llm": 0.026546478271484375, "global_step": 1576, "epoch": 2, "lr": 1.9800000000000004e-05}
+{"train_loss": 0.5634552836418152, "train_loss_dp": 0.563441276550293, "train_loss_llm": 0.014034271240234375, "global_step": 1577, "epoch": 2, "lr": 1.9800000000000004e-05}
+{"train_loss": 0.2864631712436676, "train_loss_dp": 0.2864553928375244, "train_loss_llm": 0.007780790328979492, "global_step": 1578, "epoch": 2, "lr": 1.9800000000000004e-05}
+{"train_loss": 0.2990238666534424, "train_loss_dp": 0.2990131974220276, "train_loss_llm": 0.01065826416015625, "global_step": 1579, "epoch": 2, "lr": 1.9800000000000004e-05}
+{"train_loss": 0.3911469578742981, "train_loss_dp": 0.39112943410873413, "train_loss_llm": 0.017523527145385742, "global_step": 1580, "epoch": 2, "lr": 1.9800000000000004e-05}
+{"train_loss": 0.44297662377357483, "train_loss_dp": 0.44297662377357483, "train_loss_llm": 0.0, "global_step": 1581, "epoch": 2, "lr": 1.9800000000000004e-05}
+{"train_loss": 0.3754960298538208, "train_loss_dp": 0.3754716217517853, "train_loss_llm": 0.02439594268798828, "global_step": 1582, "epoch": 2, "lr": 1.9800000000000004e-05}
+{"train_loss": 0.3266114294528961, "train_loss_dp": 0.32659029960632324, "train_loss_llm": 0.021122455596923828, "global_step": 1583, "epoch": 2, "lr": 1.9800000000000004e-05}
+{"train_loss": 0.3101552128791809, "train_loss_dp": 0.3101120591163635, "train_loss_llm": 0.04314994812011719, "global_step": 1584, "epoch": 2, "lr": 2e-05}
+{"train_loss": 0.4229680299758911, "train_loss_dp": 0.4229612946510315, "train_loss_llm": 0.006748676300048828, "global_step": 1585, "epoch": 2, "lr": 2e-05}
+{"train_loss": 0.23115026950836182, "train_loss_dp": 0.23110535740852356, "train_loss_llm": 0.044919490814208984, "global_step": 1586, "epoch": 2, "lr": 2e-05}
+{"train_loss": 0.15886852145195007, "train_loss_dp": 0.15884262323379517, "train_loss_llm": 0.025896072387695312, "global_step": 1587, "epoch": 2, "lr": 2e-05}
+{"train_loss": 0.4816657602787018, "train_loss_dp": 0.481598436832428, "train_loss_llm": 0.06733322143554688, "global_step": 1588, "epoch": 2, "lr": 2e-05}
+{"train_loss": 0.2611843943595886, "train_loss_dp": 0.261181116104126, "train_loss_llm": 0.0032777786254882812, "global_step": 1589, "epoch": 2, "lr": 2e-05}
+{"train_loss": 0.4354102313518524, "train_loss_dp": 0.4354102313518524, "train_loss_llm": 0.0, "global_step": 1590, "epoch": 2, "lr": 2e-05}
+{"train_loss": 0.5389266014099121, "train_loss_dp": 0.5388180017471313, "train_loss_llm": 0.1086273193359375, "global_step": 1591, "epoch": 2, "lr": 2e-05}
+{"train_loss": 0.134700745344162, "train_loss_dp": 0.1346879005432129, "train_loss_llm": 0.012847959995269775, "global_step": 1592, "epoch": 2, "lr": 2e-05}
+{"train_loss": 0.5299584269523621, "train_loss_dp": 0.5299026966094971, "train_loss_llm": 0.055736541748046875, "global_step": 1593, "epoch": 2, "lr": 2e-05}
+{"train_loss": 0.28163349628448486, "train_loss_dp": 0.28163349628448486, "train_loss_llm": 0.0, "global_step": 1594, "epoch": 2, "lr": 2e-05}
+{"train_loss": 0.344422310590744, "train_loss_dp": 0.34434646368026733, "train_loss_llm": 0.07583272457122803, "global_step": 1595, "epoch": 2, "lr": 2e-05}
+{"train_loss": 0.38502827286720276, "train_loss_dp": 0.38496047258377075, "train_loss_llm": 0.06781506538391113, "global_step": 1596, "epoch": 2, "lr": 2e-05}
+{"train_loss": 0.6474094986915588, "train_loss_dp": 0.6472633481025696, "train_loss_llm": 0.14615631103515625, "global_step": 1597, "epoch": 2, "lr": 2e-05}
+{"train_loss": 0.3215005397796631, "train_loss_dp": 0.3213563561439514, "train_loss_llm": 0.14418339729309082, "global_step": 1598, "epoch": 2, "lr": 2e-05}
+{"train_loss": 0.27081140875816345, "train_loss_dp": 0.27080366015434265, "train_loss_llm": 0.00773930549621582, "global_step": 1599, "epoch": 2, "lr": 2e-05}
+{"train_loss": 0.2914999723434448, "train_loss_dp": 0.2914999723434448, "train_loss_llm": 0.0, "global_step": 1600, "epoch": 2, "lr": 2.0200000000000003e-05}
+{"train_loss": 0.27935460209846497, "train_loss_dp": 0.2792603373527527, "train_loss_llm": 0.09426212310791016, "global_step": 1601, "epoch": 2, "lr": 2.0200000000000003e-05}
+{"train_loss": 0.3850131034851074, "train_loss_dp": 0.3849353790283203, "train_loss_llm": 0.0777130126953125, "global_step": 1602, "epoch": 2, "lr": 2.0200000000000003e-05}
+{"train_loss": 1.0089360475540161, "train_loss_dp": 1.0089360475540161, "train_loss_llm": 0.0, "global_step": 1603, "epoch": 2, "lr": 2.0200000000000003e-05}
+{"train_loss": 0.2840178310871124, "train_loss_dp": 0.283732146024704, "train_loss_llm": 0.2856864929199219, "global_step": 1604, "epoch": 2, "lr": 2.0200000000000003e-05}
+{"train_loss": 0.4315837025642395, "train_loss_dp": 0.4315837025642395, "train_loss_llm": 0.0, "global_step": 1605, "epoch": 2, "lr": 2.0200000000000003e-05}
+{"train_loss": 0.3158499598503113, "train_loss_dp": 0.31582581996917725, "train_loss_llm": 0.02413022518157959, "global_step": 1606, "epoch": 2, "lr": 2.0200000000000003e-05}
+{"train_loss": 0.2655298709869385, "train_loss_dp": 0.2655121982097626, "train_loss_llm": 0.017665445804595947, "global_step": 1607, "epoch": 2, "lr": 2.0200000000000003e-05}
+{"train_loss": 0.3504805862903595, "train_loss_dp": 0.35041359066963196, "train_loss_llm": 0.06699728965759277, "global_step": 1608, "epoch": 2, "lr": 2.0200000000000003e-05}
+{"train_loss": 0.3256145715713501, "train_loss_dp": 0.3256109654903412, "train_loss_llm": 0.0036020278930664062, "global_step": 1609, "epoch": 2, "lr": 2.0200000000000003e-05}
+{"train_loss": 0.260478675365448, "train_loss_dp": 0.2604486346244812, "train_loss_llm": 0.03003406524658203, "global_step": 1610, "epoch": 2, "lr": 2.0200000000000003e-05}
+{"train_loss": 0.3949489891529083, "train_loss_dp": 0.3949365019798279, "train_loss_llm": 0.01247406005859375, "global_step": 1611, "epoch": 2, "lr": 2.0200000000000003e-05}
+{"train_loss": 0.3663076162338257, "train_loss_dp": 0.3662267327308655, "train_loss_llm": 0.08089828491210938, "global_step": 1612, "epoch": 2, "lr": 2.0200000000000003e-05}
+{"train_loss": 0.306031197309494, "train_loss_dp": 0.30595260858535767, "train_loss_llm": 0.0785980224609375, "global_step": 1613, "epoch": 2, "lr": 2.0200000000000003e-05}
+{"train_loss": 0.3861580491065979, "train_loss_dp": 0.3861580491065979, "train_loss_llm": 0.0, "global_step": 1614, "epoch": 2, "lr": 2.0200000000000003e-05}
+{"train_loss": 0.23116937279701233, "train_loss_dp": 0.2311529964208603, "train_loss_llm": 0.016373753547668457, "global_step": 1615, "epoch": 2, "lr": 2.0200000000000003e-05}
+{"train_loss": 0.2399347871541977, "train_loss_dp": 0.23991981148719788, "train_loss_llm": 0.014971494674682617, "global_step": 1616, "epoch": 2, "lr": 2.04e-05}
+{"train_loss": 0.4684946537017822, "train_loss_dp": 0.4684939682483673, "train_loss_llm": 0.000688016414642334, "global_step": 1617, "epoch": 2, "lr": 2.04e-05}
+{"train_loss": 0.30041056871414185, "train_loss_dp": 0.30040961503982544, "train_loss_llm": 0.0009677410125732422, "global_step": 1618, "epoch": 2, "lr": 2.04e-05}
+{"train_loss": 0.40745413303375244, "train_loss_dp": 0.40741536021232605, "train_loss_llm": 0.03875809907913208, "global_step": 1619, "epoch": 2, "lr": 2.04e-05}
+{"train_loss": 0.3674084544181824, "train_loss_dp": 0.3674084544181824, "train_loss_llm": 0.0, "global_step": 1620, "epoch": 2, "lr": 2.04e-05}
+{"train_loss": 0.5050743818283081, "train_loss_dp": 0.5050743818283081, "train_loss_llm": 0.0, "global_step": 1621, "epoch": 2, "lr": 2.04e-05}
+{"train_loss": 0.3958868086338043, "train_loss_dp": 0.39588111639022827, "train_loss_llm": 0.005690217018127441, "global_step": 1622, "epoch": 2, "lr": 2.04e-05}
+{"train_loss": 0.3651716113090515, "train_loss_dp": 0.3651515245437622, "train_loss_llm": 0.020084857940673828, "global_step": 1623, "epoch": 2, "lr": 2.04e-05}
+{"train_loss": 0.12309964001178741, "train_loss_dp": 0.12307588011026382, "train_loss_llm": 0.023757576942443848, "global_step": 1624, "epoch": 2, "lr": 2.04e-05}
+{"train_loss": 0.3402220904827118, "train_loss_dp": 0.34014269709587097, "train_loss_llm": 0.07940661907196045, "global_step": 1625, "epoch": 2, "lr": 2.04e-05}
+{"train_loss": 0.4665110409259796, "train_loss_dp": 0.4665057361125946, "train_loss_llm": 0.0053157806396484375, "global_step": 1626, "epoch": 2, "lr": 2.04e-05}
+{"train_loss": 0.3865237832069397, "train_loss_dp": 0.3865237832069397, "train_loss_llm": 0.0, "global_step": 1627, "epoch": 2, "lr": 2.04e-05}
+{"train_loss": 0.16381843388080597, "train_loss_dp": 0.16379261016845703, "train_loss_llm": 0.02581813931465149, "global_step": 1628, "epoch": 2, "lr": 2.04e-05}
+{"train_loss": 0.4393589496612549, "train_loss_dp": 0.43926435708999634, "train_loss_llm": 0.09459495544433594, "global_step": 1629, "epoch": 2, "lr": 2.04e-05}
+{"train_loss": 0.32341107726097107, "train_loss_dp": 0.32341107726097107, "train_loss_llm": 0.0, "global_step": 1630, "epoch": 2, "lr": 2.04e-05}
+{"train_loss": 0.4076601564884186, "train_loss_dp": 0.407285213470459, "train_loss_llm": 0.3749523162841797, "global_step": 1631, "epoch": 2, "lr": 2.04e-05}
+{"train_loss": 0.4114755690097809, "train_loss_dp": 0.4114367365837097, "train_loss_llm": 0.0388340950012207, "global_step": 1632, "epoch": 2, "lr": 2.06e-05}
+{"train_loss": 0.5769613981246948, "train_loss_dp": 0.5769613981246948, "train_loss_llm": 0.0, "global_step": 1633, "epoch": 2, "lr": 2.06e-05}
+{"train_loss": 0.5130547881126404, "train_loss_dp": 0.5130051374435425, "train_loss_llm": 0.04967355728149414, "global_step": 1634, "epoch": 2, "lr": 2.06e-05}
+{"train_loss": 0.6947734951972961, "train_loss_dp": 0.6947734951972961, "train_loss_llm": 0.0, "global_step": 1635, "epoch": 2, "lr": 2.06e-05}
+{"train_loss": 0.6364736557006836, "train_loss_dp": 0.6362878084182739, "train_loss_llm": 0.18587017059326172, "global_step": 1636, "epoch": 2, "lr": 2.06e-05}
+{"train_loss": 0.3584628701210022, "train_loss_dp": 0.3584628701210022, "train_loss_llm": 0.0, "global_step": 1637, "epoch": 2, "lr": 2.06e-05}
+{"train_loss": 0.8252310156822205, "train_loss_dp": 0.8251010179519653, "train_loss_llm": 0.12998676300048828, "global_step": 1638, "epoch": 2, "lr": 2.06e-05}
+{"train_loss": 0.1430804282426834, "train_loss_dp": 0.14307469129562378, "train_loss_llm": 0.005737662315368652, "global_step": 1639, "epoch": 2, "lr": 2.06e-05}
+{"train_loss": 0.6190282106399536, "train_loss_dp": 0.6190282106399536, "train_loss_llm": 0.0, "global_step": 1640, "epoch": 2, "lr": 2.06e-05}
+{"train_loss": 0.24508334696292877, "train_loss_dp": 0.245052769780159, "train_loss_llm": 0.030584335327148438, "global_step": 1641, "epoch": 2, "lr": 2.06e-05}
+{"train_loss": 0.1677321493625641, "train_loss_dp": 0.16772787272930145, "train_loss_llm": 0.004279136657714844, "global_step": 1642, "epoch": 2, "lr": 2.06e-05}
+{"train_loss": 0.5479810237884521, "train_loss_dp": 0.5479748845100403, "train_loss_llm": 0.0061664581298828125, "global_step": 1643, "epoch": 2, "lr": 2.06e-05}
+{"train_loss": 0.1663104146718979, "train_loss_dp": 0.16627894341945648, "train_loss_llm": 0.0314708948135376, "global_step": 1644, "epoch": 2, "lr": 2.06e-05}
+{"train_loss": 0.3111219108104706, "train_loss_dp": 0.31106996536254883, "train_loss_llm": 0.05194664001464844, "global_step": 1645, "epoch": 2, "lr": 2.06e-05}
+{"train_loss": 0.3623178005218506, "train_loss_dp": 0.36218151450157166, "train_loss_llm": 0.1362762451171875, "global_step": 1646, "epoch": 2, "lr": 2.06e-05}
+{"train_loss": 0.2764107286930084, "train_loss_dp": 0.276225209236145, "train_loss_llm": 0.18552827835083008, "global_step": 1647, "epoch": 2, "lr": 2.06e-05}
+{"train_loss": 0.6133788228034973, "train_loss_dp": 0.6131917834281921, "train_loss_llm": 0.18701553344726562, "global_step": 1648, "epoch": 2, "lr": 2.08e-05}
+{"train_loss": 0.27399078011512756, "train_loss_dp": 0.2736693024635315, "train_loss_llm": 0.32148075103759766, "global_step": 1649, "epoch": 2, "lr": 2.08e-05}
+{"train_loss": 0.4859057664871216, "train_loss_dp": 0.485706627368927, "train_loss_llm": 0.19913864135742188, "global_step": 1650, "epoch": 2, "lr": 2.08e-05}
+{"train_loss": 0.1679651141166687, "train_loss_dp": 0.16794505715370178, "train_loss_llm": 0.020058900117874146, "global_step": 1651, "epoch": 2, "lr": 2.08e-05}
+{"train_loss": 0.6931495666503906, "train_loss_dp": 0.6929903626441956, "train_loss_llm": 0.15921401977539062, "global_step": 1652, "epoch": 2, "lr": 2.08e-05}
+{"train_loss": 0.5223144292831421, "train_loss_dp": 0.5222219228744507, "train_loss_llm": 0.092529296875, "global_step": 1653, "epoch": 2, "lr": 2.08e-05}
+{"train_loss": 0.272860050201416, "train_loss_dp": 0.27274996042251587, "train_loss_llm": 0.11007881164550781, "global_step": 1654, "epoch": 2, "lr": 2.08e-05}
+{"train_loss": 0.3121936321258545, "train_loss_dp": 0.3121767044067383, "train_loss_llm": 0.016936540603637695, "global_step": 1655, "epoch": 2, "lr": 2.08e-05}
+{"train_loss": 0.5125024914741516, "train_loss_dp": 0.5124024152755737, "train_loss_llm": 0.10010337829589844, "global_step": 1656, "epoch": 2, "lr": 2.08e-05}
+{"train_loss": 0.46336352825164795, "train_loss_dp": 0.46330392360687256, "train_loss_llm": 0.059600830078125, "global_step": 1657, "epoch": 2, "lr": 2.08e-05}
+{"train_loss": 0.29214581847190857, "train_loss_dp": 0.29214581847190857, "train_loss_llm": 0.0, "global_step": 1658, "epoch": 2, "lr": 2.08e-05}
+{"train_loss": 0.37989896535873413, "train_loss_dp": 0.37984779477119446, "train_loss_llm": 0.051177978515625, "global_step": 1659, "epoch": 2, "lr": 2.08e-05}
+{"train_loss": 0.4050445556640625, "train_loss_dp": 0.4049086272716522, "train_loss_llm": 0.1359415054321289, "global_step": 1660, "epoch": 2, "lr": 2.08e-05}
+{"train_loss": 0.3941931426525116, "train_loss_dp": 0.39414724707603455, "train_loss_llm": 0.04589080810546875, "global_step": 1661, "epoch": 2, "lr": 2.08e-05}
+{"train_loss": 0.34445974230766296, "train_loss_dp": 0.3442188501358032, "train_loss_llm": 0.24088776111602783, "global_step": 1662, "epoch": 2, "lr": 2.08e-05}
+{"train_loss": 0.5230912566184998, "train_loss_dp": 0.5230188369750977, "train_loss_llm": 0.07239151000976562, "global_step": 1663, "epoch": 2, "lr": 2.08e-05}
+{"train_loss": 0.25315460562705994, "train_loss_dp": 0.2531428933143616, "train_loss_llm": 0.011712074279785156, "global_step": 1664, "epoch": 2, "lr": 2.1e-05}
+{"train_loss": 0.2720279097557068, "train_loss_dp": 0.27202749252319336, "train_loss_llm": 0.0004119873046875, "global_step": 1665, "epoch": 2, "lr": 2.1e-05}
+{"train_loss": 0.34239643812179565, "train_loss_dp": 0.3423578143119812, "train_loss_llm": 0.03862190246582031, "global_step": 1666, "epoch": 2, "lr": 2.1e-05}
+{"train_loss": 0.20287871360778809, "train_loss_dp": 0.20286108553409576, "train_loss_llm": 0.01762533187866211, "global_step": 1667, "epoch": 2, "lr": 2.1e-05}
+{"train_loss": 0.32221558690071106, "train_loss_dp": 0.32216522097587585, "train_loss_llm": 0.05037188529968262, "global_step": 1668, "epoch": 2, "lr": 2.1e-05}
+{"train_loss": 0.5748631954193115, "train_loss_dp": 0.574802577495575, "train_loss_llm": 0.06061232089996338, "global_step": 1669, "epoch": 2, "lr": 2.1e-05}
+{"train_loss": 0.39713579416275024, "train_loss_dp": 0.39713162183761597, "train_loss_llm": 0.0041849613189697266, "global_step": 1670, "epoch": 2, "lr": 2.1e-05}
+{"train_loss": 0.3791690468788147, "train_loss_dp": 0.37916290760040283, "train_loss_llm": 0.0061511993408203125, "global_step": 1671, "epoch": 2, "lr": 2.1e-05}
+{"train_loss": 0.18592779338359833, "train_loss_dp": 0.18590271472930908, "train_loss_llm": 0.025077104568481445, "global_step": 1672, "epoch": 2, "lr": 2.1e-05}
+{"train_loss": 0.4074363708496094, "train_loss_dp": 0.4074069559574127, "train_loss_llm": 0.0294036865234375, "global_step": 1673, "epoch": 2, "lr": 2.1e-05}
+{"train_loss": 0.5035123825073242, "train_loss_dp": 0.5033669471740723, "train_loss_llm": 0.14542675018310547, "global_step": 1674, "epoch": 2, "lr": 2.1e-05}
+{"train_loss": 0.33685189485549927, "train_loss_dp": 0.33681219816207886, "train_loss_llm": 0.039684295654296875, "global_step": 1675, "epoch": 2, "lr": 2.1e-05}
+{"train_loss": 0.36102747917175293, "train_loss_dp": 0.36102747917175293, "train_loss_llm": 0.0, "global_step": 1676, "epoch": 2, "lr": 2.1e-05}
+{"train_loss": 0.17404045164585114, "train_loss_dp": 0.17402276396751404, "train_loss_llm": 0.017682969570159912, "global_step": 1677, "epoch": 2, "lr": 2.1e-05}
+{"train_loss": 0.3200642168521881, "train_loss_dp": 0.320052832365036, "train_loss_llm": 0.011373043060302734, "global_step": 1678, "epoch": 2, "lr": 2.1e-05}
+{"train_loss": 0.5864832997322083, "train_loss_dp": 0.586363673210144, "train_loss_llm": 0.11964762210845947, "global_step": 1679, "epoch": 2, "lr": 2.1e-05}
+{"train_loss": 0.7596833109855652, "train_loss_dp": 0.7596128582954407, "train_loss_llm": 0.07042694091796875, "global_step": 1680, "epoch": 2, "lr": 2.12e-05}
+{"train_loss": 0.32757115364074707, "train_loss_dp": 0.3275352120399475, "train_loss_llm": 0.0359344482421875, "global_step": 1681, "epoch": 2, "lr": 2.12e-05}
+{"train_loss": 0.259865939617157, "train_loss_dp": 0.25984853506088257, "train_loss_llm": 0.01741480827331543, "global_step": 1682, "epoch": 2, "lr": 2.12e-05}
+{"train_loss": 0.5328856706619263, "train_loss_dp": 0.5328856706619263, "train_loss_llm": 0.0, "global_step": 1683, "epoch": 2, "lr": 2.12e-05}
+{"train_loss": 0.2144842892885208, "train_loss_dp": 0.21446746587753296, "train_loss_llm": 0.016826748847961426, "global_step": 1684, "epoch": 2, "lr": 2.12e-05}
+{"train_loss": 0.6519566178321838, "train_loss_dp": 0.6513253450393677, "train_loss_llm": 0.6312551498413086, "global_step": 1685, "epoch": 2, "lr": 2.12e-05}
+{"train_loss": 0.24860401451587677, "train_loss_dp": 0.24856635928153992, "train_loss_llm": 0.03766059875488281, "global_step": 1686, "epoch": 2, "lr": 2.12e-05}
+{"train_loss": 0.5294605493545532, "train_loss_dp": 0.52945476770401, "train_loss_llm": 0.00577545166015625, "global_step": 1687, "epoch": 2, "lr": 2.12e-05}
+{"train_loss": 0.2821287512779236, "train_loss_dp": 0.2821287512779236, "train_loss_llm": 0.0, "global_step": 1688, "epoch": 2, "lr": 2.12e-05}
+{"train_loss": 0.1478482335805893, "train_loss_dp": 0.14783141016960144, "train_loss_llm": 0.01682758331298828, "global_step": 1689, "epoch": 2, "lr": 2.12e-05}
+{"train_loss": 0.21471785008907318, "train_loss_dp": 0.21462014317512512, "train_loss_llm": 0.09769988059997559, "global_step": 1690, "epoch": 2, "lr": 2.12e-05}
+{"train_loss": 0.4253946840763092, "train_loss_dp": 0.4253583252429962, "train_loss_llm": 0.036357879638671875, "global_step": 1691, "epoch": 2, "lr": 2.12e-05}
+{"train_loss": 0.6615922451019287, "train_loss_dp": 0.6611044406890869, "train_loss_llm": 0.48780250549316406, "global_step": 1692, "epoch": 2, "lr": 2.12e-05}
+{"train_loss": 0.2233978807926178, "train_loss_dp": 0.22338807582855225, "train_loss_llm": 0.009801864624023438, "global_step": 1693, "epoch": 2, "lr": 2.12e-05}
+{"train_loss": 0.23543663322925568, "train_loss_dp": 0.23540763556957245, "train_loss_llm": 0.02900242805480957, "global_step": 1694, "epoch": 2, "lr": 2.12e-05}
+{"train_loss": 0.3908780813217163, "train_loss_dp": 0.3908780813217163, "train_loss_llm": 0.0, "global_step": 1695, "epoch": 2, "lr": 2.12e-05}
+{"train_loss": 0.3389089107513428, "train_loss_dp": 0.33888423442840576, "train_loss_llm": 0.024684906005859375, "global_step": 1696, "epoch": 2, "lr": 2.1400000000000002e-05}
+{"train_loss": 0.4827191233634949, "train_loss_dp": 0.4827076196670532, "train_loss_llm": 0.011507034301757812, "global_step": 1697, "epoch": 2, "lr": 2.1400000000000002e-05}
+{"train_loss": 0.18654614686965942, "train_loss_dp": 0.18654614686965942, "train_loss_llm": 0.0, "global_step": 1698, "epoch": 2, "lr": 2.1400000000000002e-05}
+{"train_loss": 0.4217730760574341, "train_loss_dp": 0.42174243927001953, "train_loss_llm": 0.030625104904174805, "global_step": 1699, "epoch": 2, "lr": 2.1400000000000002e-05}
+{"train_loss": 0.21185770630836487, "train_loss_dp": 0.21185436844825745, "train_loss_llm": 0.003341197967529297, "global_step": 1700, "epoch": 2, "lr": 2.1400000000000002e-05}
+{"train_loss": 0.31546804308891296, "train_loss_dp": 0.3152006268501282, "train_loss_llm": 0.26741790771484375, "global_step": 1701, "epoch": 2, "lr": 2.1400000000000002e-05}
+{"train_loss": 0.29642099142074585, "train_loss_dp": 0.29642099142074585, "train_loss_llm": 0.0, "global_step": 1702, "epoch": 2, "lr": 2.1400000000000002e-05}
+{"train_loss": 0.40791308879852295, "train_loss_dp": 0.4073248505592346, "train_loss_llm": 0.5882296562194824, "global_step": 1703, "epoch": 2, "lr": 2.1400000000000002e-05}
+{"train_loss": 0.32621684670448303, "train_loss_dp": 0.32620370388031006, "train_loss_llm": 0.013141870498657227, "global_step": 1704, "epoch": 2, "lr": 2.1400000000000002e-05}
+{"train_loss": 0.191891610622406, "train_loss_dp": 0.1918734759092331, "train_loss_llm": 0.018130779266357422, "global_step": 1705, "epoch": 2, "lr": 2.1400000000000002e-05}
+{"train_loss": 0.3875872492790222, "train_loss_dp": 0.3875470459461212, "train_loss_llm": 0.04020833969116211, "global_step": 1706, "epoch": 2, "lr": 2.1400000000000002e-05}
+{"train_loss": 0.24266226589679718, "train_loss_dp": 0.24264192581176758, "train_loss_llm": 0.020342350006103516, "global_step": 1707, "epoch": 2, "lr": 2.1400000000000002e-05}
+{"train_loss": 0.24066877365112305, "train_loss_dp": 0.24066877365112305, "train_loss_llm": 0.0, "global_step": 1708, "epoch": 2, "lr": 2.1400000000000002e-05}
+{"train_loss": 0.27610793709754944, "train_loss_dp": 0.27608123421669006, "train_loss_llm": 0.02669382095336914, "global_step": 1709, "epoch": 2, "lr": 2.1400000000000002e-05}
+{"train_loss": 0.2708068788051605, "train_loss_dp": 0.27068156003952026, "train_loss_llm": 0.12532317638397217, "global_step": 1710, "epoch": 2, "lr": 2.1400000000000002e-05}
+{"train_loss": 0.171514630317688, "train_loss_dp": 0.17148801684379578, "train_loss_llm": 0.026609092950820923, "global_step": 1711, "epoch": 2, "lr": 2.1400000000000002e-05}
+{"train_loss": 0.35832056403160095, "train_loss_dp": 0.3582648038864136, "train_loss_llm": 0.05575299263000488, "global_step": 1712, "epoch": 2, "lr": 2.16e-05}
+{"train_loss": 0.4083630442619324, "train_loss_dp": 0.4083630442619324, "train_loss_llm": 0.0, "global_step": 1713, "epoch": 2, "lr": 2.16e-05}
+{"train_loss": 0.20514370501041412, "train_loss_dp": 0.20514044165611267, "train_loss_llm": 0.003265380859375, "global_step": 1714, "epoch": 2, "lr": 2.16e-05}
+{"train_loss": 0.4049780070781708, "train_loss_dp": 0.4048990309238434, "train_loss_llm": 0.07898616790771484, "global_step": 1715, "epoch": 2, "lr": 2.16e-05}
+{"train_loss": 0.20159980654716492, "train_loss_dp": 0.20159980654716492, "train_loss_llm": 0.0, "global_step": 1716, "epoch": 2, "lr": 2.16e-05}
+{"train_loss": 0.479297399520874, "train_loss_dp": 0.479297399520874, "train_loss_llm": 0.0, "global_step": 1717, "epoch": 2, "lr": 2.16e-05}
+{"train_loss": 0.5073170065879822, "train_loss_dp": 0.5073027610778809, "train_loss_llm": 0.014239788055419922, "global_step": 1718, "epoch": 2, "lr": 2.16e-05}
+{"train_loss": 0.3488081395626068, "train_loss_dp": 0.348676860332489, "train_loss_llm": 0.13127517700195312, "global_step": 1719, "epoch": 2, "lr": 2.16e-05}
+{"train_loss": 0.452090859413147, "train_loss_dp": 0.4519099295139313, "train_loss_llm": 0.1809406280517578, "global_step": 1720, "epoch": 2, "lr": 2.16e-05}
+{"train_loss": 0.28371426463127136, "train_loss_dp": 0.28369972109794617, "train_loss_llm": 0.014540672302246094, "global_step": 1721, "epoch": 2, "lr": 2.16e-05}
+{"train_loss": 0.27916061878204346, "train_loss_dp": 0.2789731025695801, "train_loss_llm": 0.18750762939453125, "global_step": 1722, "epoch": 2, "lr": 2.16e-05}
+{"train_loss": 0.29822415113449097, "train_loss_dp": 0.29822415113449097, "train_loss_llm": 0.0, "global_step": 1723, "epoch": 2, "lr": 2.16e-05}
+{"train_loss": 0.18526515364646912, "train_loss_dp": 0.18525896966457367, "train_loss_llm": 0.006190776824951172, "global_step": 1724, "epoch": 2, "lr": 2.16e-05}
+{"train_loss": 0.42115166783332825, "train_loss_dp": 0.42111197113990784, "train_loss_llm": 0.039693355560302734, "global_step": 1725, "epoch": 2, "lr": 2.16e-05}
+{"train_loss": 0.4437304139137268, "train_loss_dp": 0.4437304139137268, "train_loss_llm": 0.0, "global_step": 1726, "epoch": 2, "lr": 2.16e-05}
+{"train_loss": 0.24736447632312775, "train_loss_dp": 0.24734219908714294, "train_loss_llm": 0.022284507751464844, "global_step": 1727, "epoch": 2, "lr": 2.16e-05}
+{"train_loss": 0.7362299561500549, "train_loss_dp": 0.7360662817955017, "train_loss_llm": 0.16368865966796875, "global_step": 1728, "epoch": 2, "lr": 2.18e-05}
+{"train_loss": 0.23915456235408783, "train_loss_dp": 0.23912639915943146, "train_loss_llm": 0.02815687656402588, "global_step": 1729, "epoch": 2, "lr": 2.18e-05}
+{"train_loss": 0.4071521759033203, "train_loss_dp": 0.40714600682258606, "train_loss_llm": 0.006174564361572266, "global_step": 1730, "epoch": 2, "lr": 2.18e-05}
+{"train_loss": 0.30769988894462585, "train_loss_dp": 0.30769288539886475, "train_loss_llm": 0.0069925785064697266, "global_step": 1731, "epoch": 2, "lr": 2.18e-05}
+{"train_loss": 0.16111643612384796, "train_loss_dp": 0.16109086573123932, "train_loss_llm": 0.02556777000427246, "global_step": 1732, "epoch": 2, "lr": 2.18e-05}
+{"train_loss": 0.5930684208869934, "train_loss_dp": 0.5930684208869934, "train_loss_llm": 0.0, "global_step": 1733, "epoch": 2, "lr": 2.18e-05}
+{"train_loss": 0.23784023523330688, "train_loss_dp": 0.2378208041191101, "train_loss_llm": 0.0194242000579834, "global_step": 1734, "epoch": 2, "lr": 2.18e-05}
+{"train_loss": 0.19984975457191467, "train_loss_dp": 0.19982028007507324, "train_loss_llm": 0.029472410678863525, "global_step": 1735, "epoch": 2, "lr": 2.18e-05}
+{"train_loss": 0.5550875067710876, "train_loss_dp": 0.5549789071083069, "train_loss_llm": 0.10861718654632568, "global_step": 1736, "epoch": 2, "lr": 2.18e-05}
+{"train_loss": 0.49513912200927734, "train_loss_dp": 0.4950367212295532, "train_loss_llm": 0.10240864753723145, "global_step": 1737, "epoch": 2, "lr": 2.18e-05}
+{"train_loss": 0.2123599648475647, "train_loss_dp": 0.21228215098381042, "train_loss_llm": 0.07780885696411133, "global_step": 1738, "epoch": 2, "lr": 2.18e-05}
+{"train_loss": 0.584695041179657, "train_loss_dp": 0.584695041179657, "train_loss_llm": 0.0, "global_step": 1739, "epoch": 2, "lr": 2.18e-05}
+{"train_loss": 0.4126744270324707, "train_loss_dp": 0.4126657545566559, "train_loss_llm": 0.008674025535583496, "global_step": 1740, "epoch": 2, "lr": 2.18e-05}
+{"train_loss": 0.3341725170612335, "train_loss_dp": 0.3340996205806732, "train_loss_llm": 0.072906494140625, "global_step": 1741, "epoch": 2, "lr": 2.18e-05}
+{"train_loss": 0.6584390997886658, "train_loss_dp": 0.6584272384643555, "train_loss_llm": 0.01185905933380127, "global_step": 1742, "epoch": 2, "lr": 2.18e-05}
+{"train_loss": 0.22143806517124176, "train_loss_dp": 0.22140410542488098, "train_loss_llm": 0.03395271301269531, "global_step": 1743, "epoch": 2, "lr": 2.18e-05}
+{"train_loss": 0.26784414052963257, "train_loss_dp": 0.26784414052963257, "train_loss_llm": 0.0, "global_step": 1744, "epoch": 2, "lr": 2.2000000000000003e-05}
+{"train_loss": 0.4835006892681122, "train_loss_dp": 0.48331838846206665, "train_loss_llm": 0.18229103088378906, "global_step": 1745, "epoch": 2, "lr": 2.2000000000000003e-05}
+{"train_loss": 0.37815362215042114, "train_loss_dp": 0.37813234329223633, "train_loss_llm": 0.021292924880981445, "global_step": 1746, "epoch": 2, "lr": 2.2000000000000003e-05}
+{"train_loss": 0.4455145597457886, "train_loss_dp": 0.44545769691467285, "train_loss_llm": 0.05684971809387207, "global_step": 1747, "epoch": 2, "lr": 2.2000000000000003e-05}
+{"train_loss": 0.34017908573150635, "train_loss_dp": 0.34017908573150635, "train_loss_llm": 0.0, "global_step": 1748, "epoch": 2, "lr": 2.2000000000000003e-05}
+{"train_loss": 0.3768728971481323, "train_loss_dp": 0.3768728971481323, "train_loss_llm": 0.0, "global_step": 1749, "epoch": 2, "lr": 2.2000000000000003e-05}
+{"train_loss": 0.44966086745262146, "train_loss_dp": 0.449613094329834, "train_loss_llm": 0.04777717590332031, "global_step": 1750, "epoch": 2, "lr": 2.2000000000000003e-05}
+{"train_loss": 0.3941587209701538, "train_loss_dp": 0.39393576979637146, "train_loss_llm": 0.2229626178741455, "global_step": 1751, "epoch": 2, "lr": 2.2000000000000003e-05}
+{"train_loss": 0.2439686506986618, "train_loss_dp": 0.24391673505306244, "train_loss_llm": 0.051920413970947266, "global_step": 1752, "epoch": 2, "lr": 2.2000000000000003e-05}
+{"train_loss": 0.26704347133636475, "train_loss_dp": 0.2670166790485382, "train_loss_llm": 0.02677750587463379, "global_step": 1753, "epoch": 2, "lr": 2.2000000000000003e-05}
+{"train_loss": 0.25196224451065063, "train_loss_dp": 0.2519436180591583, "train_loss_llm": 0.01863682270050049, "global_step": 1754, "epoch": 2, "lr": 2.2000000000000003e-05}
+{"train_loss": 0.4808749854564667, "train_loss_dp": 0.4808579087257385, "train_loss_llm": 0.017087936401367188, "global_step": 1755, "epoch": 2, "lr": 2.2000000000000003e-05}
+{"train_loss": 0.34862953424453735, "train_loss_dp": 0.3485276699066162, "train_loss_llm": 0.10186004638671875, "global_step": 1756, "epoch": 2, "lr": 2.2000000000000003e-05}
+{"train_loss": 0.20286022126674652, "train_loss_dp": 0.2028389275074005, "train_loss_llm": 0.02128654718399048, "global_step": 1757, "epoch": 2, "lr": 2.2000000000000003e-05}
+{"train_loss": 0.3877285122871399, "train_loss_dp": 0.3877184987068176, "train_loss_llm": 0.01001596450805664, "global_step": 1758, "epoch": 2, "lr": 2.2000000000000003e-05}
+{"train_loss": 0.43552330136299133, "train_loss_dp": 0.435485303401947, "train_loss_llm": 0.03800809383392334, "global_step": 1759, "epoch": 2, "lr": 2.2000000000000003e-05}
+{"train_loss": 0.3968747556209564, "train_loss_dp": 0.3968406915664673, "train_loss_llm": 0.03406119346618652, "global_step": 1760, "epoch": 2, "lr": 2.22e-05}
+{"train_loss": 0.2646692097187042, "train_loss_dp": 0.2646408677101135, "train_loss_llm": 0.028327226638793945, "global_step": 1761, "epoch": 2, "lr": 2.22e-05}
+{"train_loss": 0.6339462995529175, "train_loss_dp": 0.6339060068130493, "train_loss_llm": 0.04031860828399658, "global_step": 1762, "epoch": 2, "lr": 2.22e-05}
+{"train_loss": 0.24510930478572845, "train_loss_dp": 0.24510930478572845, "train_loss_llm": 0.0, "global_step": 1763, "epoch": 2, "lr": 2.22e-05}
+{"train_loss": 0.507507860660553, "train_loss_dp": 0.507474958896637, "train_loss_llm": 0.03290557861328125, "global_step": 1764, "epoch": 2, "lr": 2.22e-05}
+{"train_loss": 0.10038730502128601, "train_loss_dp": 0.10038052499294281, "train_loss_llm": 0.006780505180358887, "global_step": 1765, "epoch": 2, "lr": 2.22e-05}
+{"train_loss": 0.5122055411338806, "train_loss_dp": 0.5120954513549805, "train_loss_llm": 0.1100921630859375, "global_step": 1766, "epoch": 2, "lr": 2.22e-05}
+{"train_loss": 0.2682313024997711, "train_loss_dp": 0.26817697286605835, "train_loss_llm": 0.05433940887451172, "global_step": 1767, "epoch": 2, "lr": 2.22e-05}
+{"train_loss": 0.37950751185417175, "train_loss_dp": 0.37948697805404663, "train_loss_llm": 0.020543813705444336, "global_step": 1768, "epoch": 2, "lr": 2.22e-05}
+{"train_loss": 0.41789811849594116, "train_loss_dp": 0.41779327392578125, "train_loss_llm": 0.10483002662658691, "global_step": 1769, "epoch": 2, "lr": 2.22e-05}
+{"train_loss": 0.3162480890750885, "train_loss_dp": 0.3161216378211975, "train_loss_llm": 0.1264597773551941, "global_step": 1770, "epoch": 2, "lr": 2.22e-05}
+{"train_loss": 0.41841357946395874, "train_loss_dp": 0.41838008165359497, "train_loss_llm": 0.033499717712402344, "global_step": 1771, "epoch": 2, "lr": 2.22e-05}
+{"train_loss": 0.5162732601165771, "train_loss_dp": 0.5162147879600525, "train_loss_llm": 0.05846667289733887, "global_step": 1772, "epoch": 2, "lr": 2.22e-05}
+{"train_loss": 0.18073879182338715, "train_loss_dp": 0.18073244392871857, "train_loss_llm": 0.006343483924865723, "global_step": 1773, "epoch": 2, "lr": 2.22e-05}
+{"train_loss": 0.2935746908187866, "train_loss_dp": 0.2935746908187866, "train_loss_llm": 0.0, "global_step": 1774, "epoch": 2, "lr": 2.22e-05}
+{"train_loss": 0.34401682019233704, "train_loss_dp": 0.34401682019233704, "train_loss_llm": 0.0, "global_step": 1775, "epoch": 2, "lr": 2.22e-05}
+{"train_loss": 0.4018886685371399, "train_loss_dp": 0.4018614888191223, "train_loss_llm": 0.027179241180419922, "global_step": 1776, "epoch": 2, "lr": 2.2400000000000002e-05}
+{"train_loss": 0.5163597464561462, "train_loss_dp": 0.5163553953170776, "train_loss_llm": 0.004346728324890137, "global_step": 1777, "epoch": 2, "lr": 2.2400000000000002e-05}
+{"train_loss": 0.46553364396095276, "train_loss_dp": 0.4655107259750366, "train_loss_llm": 0.02290940284729004, "global_step": 1778, "epoch": 2, "lr": 2.2400000000000002e-05}
+{"train_loss": 0.27739331126213074, "train_loss_dp": 0.27739331126213074, "train_loss_llm": 0.0, "global_step": 1779, "epoch": 2, "lr": 2.2400000000000002e-05}
+{"train_loss": 0.25348031520843506, "train_loss_dp": 0.2534340023994446, "train_loss_llm": 0.04631304740905762, "global_step": 1780, "epoch": 2, "lr": 2.2400000000000002e-05}
+{"train_loss": 0.25827720761299133, "train_loss_dp": 0.2582615315914154, "train_loss_llm": 0.01568603515625, "global_step": 1781, "epoch": 2, "lr": 2.2400000000000002e-05}
+{"train_loss": 0.44166749715805054, "train_loss_dp": 0.44166749715805054, "train_loss_llm": 0.0, "global_step": 1782, "epoch": 2, "lr": 2.2400000000000002e-05}
+{"train_loss": 0.190275639295578, "train_loss_dp": 0.19026640057563782, "train_loss_llm": 0.00923919677734375, "global_step": 1783, "epoch": 2, "lr": 2.2400000000000002e-05}
+{"train_loss": 0.350352942943573, "train_loss_dp": 0.350352942943573, "train_loss_llm": 0.0, "global_step": 1784, "epoch": 2, "lr": 2.2400000000000002e-05}
+{"train_loss": 0.21139992773532867, "train_loss_dp": 0.21139992773532867, "train_loss_llm": 0.0, "global_step": 1785, "epoch": 2, "lr": 2.2400000000000002e-05}
+{"train_loss": 0.47808462381362915, "train_loss_dp": 0.4780220687389374, "train_loss_llm": 0.06254196166992188, "global_step": 1786, "epoch": 2, "lr": 2.2400000000000002e-05}
+{"train_loss": 0.18218931555747986, "train_loss_dp": 0.1821562498807907, "train_loss_llm": 0.03307175636291504, "global_step": 1787, "epoch": 2, "lr": 2.2400000000000002e-05}
+{"train_loss": 0.6205728054046631, "train_loss_dp": 0.6205008029937744, "train_loss_llm": 0.07198381423950195, "global_step": 1788, "epoch": 2, "lr": 2.2400000000000002e-05}
+{"train_loss": 0.3332234025001526, "train_loss_dp": 0.3331146836280823, "train_loss_llm": 0.10871481895446777, "global_step": 1789, "epoch": 2, "lr": 2.2400000000000002e-05}
+{"train_loss": 0.2391471415758133, "train_loss_dp": 0.2391071617603302, "train_loss_llm": 0.03997325897216797, "global_step": 1790, "epoch": 2, "lr": 2.2400000000000002e-05}
+{"train_loss": 0.3445928394794464, "train_loss_dp": 0.34455007314682007, "train_loss_llm": 0.04277610778808594, "global_step": 1791, "epoch": 2, "lr": 2.2400000000000002e-05}
+{"train_loss": 0.43786823749542236, "train_loss_dp": 0.437821626663208, "train_loss_llm": 0.04661369323730469, "global_step": 1792, "epoch": 2, "lr": 2.26e-05}
+{"train_loss": 0.2724902033805847, "train_loss_dp": 0.27244827151298523, "train_loss_llm": 0.0419464111328125, "global_step": 1793, "epoch": 2, "lr": 2.26e-05}
+{"train_loss": 0.37203606963157654, "train_loss_dp": 0.3718051016330719, "train_loss_llm": 0.23096275329589844, "global_step": 1794, "epoch": 2, "lr": 2.26e-05}
+{"train_loss": 0.46630221605300903, "train_loss_dp": 0.4662197232246399, "train_loss_llm": 0.08250761032104492, "global_step": 1795, "epoch": 2, "lr": 2.26e-05}
+{"train_loss": 0.34376901388168335, "train_loss_dp": 0.3437396287918091, "train_loss_llm": 0.029387950897216797, "global_step": 1796, "epoch": 2, "lr": 2.26e-05}
+{"train_loss": 0.21896544098854065, "train_loss_dp": 0.21895992755889893, "train_loss_llm": 0.005509495735168457, "global_step": 1797, "epoch": 2, "lr": 2.26e-05}
+{"train_loss": 0.15048155188560486, "train_loss_dp": 0.15044741332530975, "train_loss_llm": 0.03413820266723633, "global_step": 1798, "epoch": 2, "lr": 2.26e-05}
+{"train_loss": 0.35876548290252686, "train_loss_dp": 0.35876548290252686, "train_loss_llm": 0.0, "global_step": 1799, "epoch": 2, "lr": 2.26e-05}
+{"train_loss": 0.42584994435310364, "train_loss_dp": 0.42583805322647095, "train_loss_llm": 0.011890411376953125, "global_step": 1800, "epoch": 2, "lr": 2.26e-05}
+{"train_loss": 0.2655892074108124, "train_loss_dp": 0.2655276954174042, "train_loss_llm": 0.061502695083618164, "global_step": 1801, "epoch": 2, "lr": 2.26e-05}
+{"train_loss": 0.22253885865211487, "train_loss_dp": 0.22252100706100464, "train_loss_llm": 0.01785886287689209, "global_step": 1802, "epoch": 2, "lr": 2.26e-05}
+{"train_loss": 0.18744534254074097, "train_loss_dp": 0.18743261694908142, "train_loss_llm": 0.012729376554489136, "global_step": 1803, "epoch": 2, "lr": 2.26e-05}
+{"train_loss": 0.5859230160713196, "train_loss_dp": 0.5858314037322998, "train_loss_llm": 0.09164142608642578, "global_step": 1804, "epoch": 2, "lr": 2.26e-05}
+{"train_loss": 0.2640981376171112, "train_loss_dp": 0.2640851140022278, "train_loss_llm": 0.013020515441894531, "global_step": 1805, "epoch": 2, "lr": 2.26e-05}
+{"train_loss": 0.32125961780548096, "train_loss_dp": 0.321214497089386, "train_loss_llm": 0.04511070251464844, "global_step": 1806, "epoch": 2, "lr": 2.26e-05}
+{"train_loss": 0.13374614715576172, "train_loss_dp": 0.1337384283542633, "train_loss_llm": 0.007718324661254883, "global_step": 1807, "epoch": 2, "lr": 2.26e-05}
+{"train_loss": 0.3032829761505127, "train_loss_dp": 0.30314069986343384, "train_loss_llm": 0.14227294921875, "global_step": 1808, "epoch": 2, "lr": 2.2800000000000002e-05}
+{"train_loss": 0.5616344213485718, "train_loss_dp": 0.5616344213485718, "train_loss_llm": 0.0, "global_step": 1809, "epoch": 2, "lr": 2.2800000000000002e-05}
+{"train_loss": 0.35642752051353455, "train_loss_dp": 0.3564121723175049, "train_loss_llm": 0.015362262725830078, "global_step": 1810, "epoch": 2, "lr": 2.2800000000000002e-05}
+{"train_loss": 0.24415458738803864, "train_loss_dp": 0.24412059783935547, "train_loss_llm": 0.033987224102020264, "global_step": 1811, "epoch": 2, "lr": 2.2800000000000002e-05}
+{"train_loss": 0.45777174830436707, "train_loss_dp": 0.45775777101516724, "train_loss_llm": 0.013968467712402344, "global_step": 1812, "epoch": 2, "lr": 2.2800000000000002e-05}
+{"train_loss": 0.5819284915924072, "train_loss_dp": 0.5819284915924072, "train_loss_llm": 0.0, "global_step": 1813, "epoch": 2, "lr": 2.2800000000000002e-05}
+{"train_loss": 0.4121599793434143, "train_loss_dp": 0.4121072292327881, "train_loss_llm": 0.05275225639343262, "global_step": 1814, "epoch": 2, "lr": 2.2800000000000002e-05}
+{"train_loss": 0.3958273231983185, "train_loss_dp": 0.39573872089385986, "train_loss_llm": 0.08861160278320312, "global_step": 1815, "epoch": 2, "lr": 2.2800000000000002e-05}
+{"train_loss": 0.2594657242298126, "train_loss_dp": 0.2594435214996338, "train_loss_llm": 0.02219909429550171, "global_step": 1816, "epoch": 2, "lr": 2.2800000000000002e-05}
+{"train_loss": 0.3725443482398987, "train_loss_dp": 0.3725251257419586, "train_loss_llm": 0.019222259521484375, "global_step": 1817, "epoch": 2, "lr": 2.2800000000000002e-05}
+{"train_loss": 0.3818003535270691, "train_loss_dp": 0.3817569613456726, "train_loss_llm": 0.04338502883911133, "global_step": 1818, "epoch": 2, "lr": 2.2800000000000002e-05}
+{"train_loss": 0.12277926504611969, "train_loss_dp": 0.12277926504611969, "train_loss_llm": 0.0, "global_step": 1819, "epoch": 2, "lr": 2.2800000000000002e-05}
+{"train_loss": 0.3088679313659668, "train_loss_dp": 0.30883073806762695, "train_loss_llm": 0.03718364238739014, "global_step": 1820, "epoch": 2, "lr": 2.2800000000000002e-05}
+{"train_loss": 0.30526238679885864, "train_loss_dp": 0.3052378296852112, "train_loss_llm": 0.02455425262451172, "global_step": 1821, "epoch": 2, "lr": 2.2800000000000002e-05}
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/train.log b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..6d259b7473b73ddfda509ed56c861a524b322fc8
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/train.log
@@ -0,0 +1,9 @@
+[2025-12-20 07:24:15,350][numexpr.utils][INFO] - Note: detected 128 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+[2025-12-20 07:24:15,350][numexpr.utils][INFO] - Note: NumExpr detected 128 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
+[2025-12-20 07:24:15,350][numexpr.utils][INFO] - NumExpr defaulting to 16 threads.
+[2025-12-20 07:24:17,234][datasets][INFO] - PyTorch version 2.2.2 available.
+[2025-12-20 07:24:17,235][datasets][INFO] - TensorFlow version 2.15.1 available.
+[2025-12-20 07:24:17,236][datasets][INFO] - JAX version 0.4.30 available.
+[2025-12-20 07:24:18,793][llmbc.model.diffusion.conditional_unet1d][INFO] - number of parameters: 6.514023e+07
+[2025-12-20 07:24:24,198][absl][INFO] - MUJOCO_GL=osmesa, attempting to import specified OpenGL backend.
+[2025-12-20 07:24:24,203][absl][INFO] - MuJoCo library version is: 2.3.7
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..399ebee49e5bfa9cea3a9596eb62e3d8d708e734
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log
@@ -0,0 +1,11 @@
+{"time":"2025-12-20T07:24:25.007883091Z","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2025-12-20T07:24:25.007892698Z","level":"INFO","msg":"created symlink","path":"/root/workspace/LLM-BC/data/outputs/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/logs/debug-core.log"}
+{"time":"2025-12-20T07:24:25.118329255Z","level":"INFO","msg":"created new stream","id":"dwqvyi2n"}
+{"time":"2025-12-20T07:24:25.118362086Z","level":"INFO","msg":"stream: started","id":"dwqvyi2n"}
+{"time":"2025-12-20T07:24:25.11838014Z","level":"INFO","msg":"sender: started","stream_id":"dwqvyi2n"}
+{"time":"2025-12-20T07:24:25.118372104Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"dwqvyi2n"}}
+{"time":"2025-12-20T07:24:25.118376708Z","level":"INFO","msg":"handler: started","stream_id":{"value":"dwqvyi2n"}}
+{"time":"2025-12-20T07:24:25.956798676Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-12-20T07:30:31.119846834Z","level":"INFO","msg":"stream: closing","id":"dwqvyi2n"}
+{"time":"2025-12-20T07:30:31.119894754Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-12-20T07:30:31.120691968Z","level":"INFO","msg":"Stopped system monitor"}
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..058ae37ce48ddb1c099f1bbdcfaa5f1888228c8b
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log
@@ -0,0 +1,27 @@
+2025-12-20 07:24:25,004 INFO    MainThread:48555 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2025-12-20 07:24:25,004 INFO    MainThread:48555 [wandb_setup.py:_flush():79] Configure stats pid to 48555
+2025-12-20 07:24:25,004 INFO    MainThread:48555 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_setup.py:_flush():79] Loading settings from /root/workspace/LLM-BC/wandb/settings
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/root/workspace/LLM-BC/train.py', 'program': '/root/workspace/LLM-BC/./train.py'}
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_setup.py:_flush():79] Applying login settings: {}
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_init.py:_log_setup():533] Logging user logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/logs/debug.log
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_init.py:_log_setup():534] Logging internal logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/logs/debug-internal.log
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_init.py:init():619] calling init triggers
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llm_diffusion_unet_lowdim', '_target_': 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace', 'obs_dim': 18, 'action_dim': 2, 'task_name': 'parking-v0', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'keypoint_visible_rate': 1.0, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy', 'model': {'_target_': 'llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D', 'input_dim': 2, 'local_cond_dim': None, 'global_cond_dim': 18, 'diffusion_step_embed_dim': 256, 'down_dims': [256, 512, 1024], 'kernel_size': 5, 'n_groups': 8, 'cond_predict_scale': True}, 'noise_scheduler': {'_target_': 'diffusers.schedulers.scheduling_ddpm.DDPMScheduler', 'num_train_timesteps': 100, 'beta_start': 0.0001, 'beta_end': 0.02, 'beta_schedule': 'squaredcos_cap_v2', 'variance_type': 'fixed_small', 'clip_sample': True, 'prediction_type': 'epsilon'}, 'horizon': 1, 'obs_dim': 18, 'action_dim': 2, 'n_action_steps': 1, 'n_obs_steps': 1, 'num_inference_steps': 100, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'oa_step_convention': True, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'parking-v0', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.24.13_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 18, 'action_dim': 2, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_dp_weight': 1.0, 'loss_llm_weight': 0.001, 'normalize_llm_loss': True, 'reweight_llm_loss': True}, 'ema': {'_target_': 'llmbc.model.diffusion.ema_model.EMAModel', 'update_after_step': 0, 'inv_gamma': 1.0, 'power': 0.75, 'min_value': 0.0, 'max_value': 0.9999}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': False, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.0001, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 43, 'debug': False, 'resume': True, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 500, 'num_epochs': 1001, 'gradient_accumulate_every': 16, 'use_ema': True, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'parking-v0-training', 'resume': True, 'mode': 'online', 'name': '2025.12.20-07.24.13_train_llm_diffusion_unet_lowdim_parking-v0', 'tags': ['train_llm_diffusion_unet_lowdim', 'parking-v0', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0', 'wandb_name_base': '2025.12.20-07.24.13_train_llm_diffusion_unet_lowdim_parking-v0'}, 'task': {'name': 'parking-v0', 'obs_dim': 18, 'action_dim': 2, 'env_runner': {'_target_': 'llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner', 'env_name': 'llf-highway-parking-v0', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 80, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.99}, 'dataset': {'_target_': 'llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset', 'data_path': 'datasets/parking-v0.pt', 'data_path2': 'datasets/parking-v0.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.02, 'dummy_normalizer': False}, 'instructor': {'_target_': 'llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.24.13_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_init.py:init():669] starting backend
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_init.py:init():673] sending inform_init request
+2025-12-20 07:24:25,006 INFO    MainThread:48555 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-12-20 07:24:25,006 INFO    MainThread:48555 [wandb_init.py:init():686] backend started and connected
+2025-12-20 07:24:25,012 INFO    MainThread:48555 [wandb_init.py:init():781] updated telemetry
+2025-12-20 07:24:25,041 INFO    MainThread:48555 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2025-12-20 07:24:25,954 INFO    MainThread:48555 [wandb_init.py:init():867] starting run threads in backend
+2025-12-20 07:24:26,296 INFO    MainThread:48555 [wandb_run.py:_console_start():2451] atexit reg
+2025-12-20 07:24:26,296 INFO    MainThread:48555 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2025-12-20 07:24:26,296 INFO    MainThread:48555 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2025-12-20 07:24:26,296 INFO    MainThread:48555 [wandb_run.py:_redirect():2389] Redirects installed.
+2025-12-20 07:24:26,298 INFO    MainThread:48555 [wandb_init.py:init():911] run started, returning control to user process
+2025-12-20 07:24:26,298 INFO    MainThread:48555 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/root/workspace/LLM-BC/data/outputs/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0'}
+2025-12-20 07:30:31,119 WARNING MsgRouterThr:48555 [router.py:message_loop():75] message_loop has been closed
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/files/config.yaml b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..0af10f35bbb441bea198611167e0ef23c60fa554
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/files/config.yaml
@@ -0,0 +1,304 @@
+_target_:
+    value: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+_wandb:
+    value:
+        cli_version: 0.18.6
+        m: []
+        python_version: 3.9.25
+        t:
+            "1":
+                - 1
+                - 2
+                - 3
+                - 5
+                - 11
+                - 12
+                - 41
+                - 49
+                - 50
+                - 51
+                - 53
+                - 55
+                - 71
+                - 83
+                - 95
+                - 98
+                - 100
+                - 105
+            "2":
+                - 1
+                - 2
+                - 3
+                - 5
+                - 11
+                - 12
+                - 41
+                - 49
+                - 50
+                - 51
+                - 53
+                - 55
+                - 71
+                - 83
+                - 95
+                - 98
+                - 100
+                - 105
+            "3":
+                - 13
+                - 15
+                - 16
+                - 23
+                - 55
+                - 61
+            "4": 3.9.25
+            "5": 0.18.6
+            "6": 4.47.1
+            "8":
+                - 5
+            "12": 0.18.6
+            "13": linux-x86_64
+action_dim:
+    value: 2
+checkpoint:
+    value:
+        save_last_ckpt: true
+        save_last_snapshot: false
+        topk:
+            format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+            k: 5
+            mode: max
+            monitor_key: test_success_rate
+dataloader:
+    value:
+        batch_size: 16
+        num_workers: 0
+        persistent_workers: false
+        pin_memory: false
+        shuffle: true
+ema:
+    value:
+        _target_: llmbc.model.diffusion.ema_model.EMAModel
+        inv_gamma: 1
+        max_value: 0.9999
+        min_value: 0
+        power: 0.75
+        update_after_step: 0
+exp_name:
+    value: default
+horizon:
+    value: 1
+keypoint_visible_rate:
+    value: 1
+llm:
+    value:
+        causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+        checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+        config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+        finetune_mode: orig
+        hydra:
+            job:
+                override_dirname: HuggingFaceTB/SmolLM2-135M-Instruct
+            run:
+                dir: data/outputs/2025.12.20/07.24.13_HuggingFaceTB/SmolLM2-135M-Instruct
+        llm_mode: ete-finetuned
+        lora_config:
+            bias: none
+            lora_alpha: 64
+            lora_dropout: 0.05
+            r: 32
+            task_type: CAUSAL_LM
+        max_length: 100
+        model_name: SmolLM2-135M-Instruct
+        name: HuggingFaceTB/SmolLM2-135M-Instruct
+        prompter:
+            _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+            use_joint_mlp_projector: true
+        use_joint_mlp_projector: true
+        use_quantization: false
+llm_do_sample:
+    value: false
+llm_orig_expert_feedback:
+    value: true
+logging:
+    value:
+        group: null
+        id: null
+        mode: online
+        name: 2025.12.20-07.24.13_train_llm_diffusion_unet_lowdim_parking-v0
+        project: parking-v0-training
+        resume: true
+        tags:
+            - train_llm_diffusion_unet_lowdim
+            - parking-v0
+            - default
+model_name:
+    value: HuggingFaceTB/SmolLM2-135M-Instruct
+multi_run:
+    value:
+        run_dir: data/outputs/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0
+        wandb_name_base: 2025.12.20-07.24.13_train_llm_diffusion_unet_lowdim_parking-v0
+n_action_steps:
+    value: 1
+n_latency_steps:
+    value: 0
+n_obs_steps:
+    value: 1
+name:
+    value: train_llm_diffusion_unet_lowdim
+obs_as_global_cond:
+    value: true
+obs_as_local_cond:
+    value: false
+obs_dim:
+    value: 18
+optimizer:
+    value:
+        _target_: torch.optim.AdamW
+        betas:
+            - 0.95
+            - 0.999
+        eps: 1e-08
+        lr: 0.0001
+        weight_decay: 1e-06
+output_dir:
+    value: /root/workspace/LLM-BC/data/outputs/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0
+past_action_visible:
+    value: false
+policy:
+    value:
+        _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+        action_dim: 2
+        horizon: 1
+        llm_discriminator:
+            _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+            llm_translator:
+                _target_: llmbc.translator.llm_translator.LLMTranslator
+                action_dim: 2
+                cfg:
+                    causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+                    checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+                    config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+                    finetune_mode: orig
+                    hydra:
+                        job:
+                            override_dirname: HuggingFaceTB/SmolLM2-135M-Instruct
+                        run:
+                            dir: data/outputs/2025.12.20/07.24.13_HuggingFaceTB/SmolLM2-135M-Instruct
+                    llm_mode: ete-finetuned
+                    lora_config:
+                        bias: none
+                        lora_alpha: 64
+                        lora_dropout: 0.05
+                        r: 32
+                        task_type: CAUSAL_LM
+                    max_length: 100
+                    model_name: SmolLM2-135M-Instruct
+                    name: HuggingFaceTB/SmolLM2-135M-Instruct
+                    prompter:
+                        _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+                        use_joint_mlp_projector: true
+                    use_joint_mlp_projector: true
+                    use_quantization: false
+                horizon: 1
+                n_action_steps: 1
+                n_obs_steps: 1
+                obs_dim: 18
+            task_id: parking-v0
+        loss_dp_weight: 1
+        loss_llm_weight: 0.001
+        model:
+            _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+            cond_predict_scale: true
+            diffusion_step_embed_dim: 256
+            down_dims:
+                - 256
+                - 512
+                - 1024
+            global_cond_dim: 18
+            input_dim: 2
+            kernel_size: 5
+            local_cond_dim: null
+            n_groups: 8
+        n_action_steps: 1
+        n_obs_steps: 1
+        noise_scheduler:
+            _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+            beta_end: 0.02
+            beta_schedule: squaredcos_cap_v2
+            beta_start: 0.0001
+            clip_sample: true
+            num_train_timesteps: 100
+            prediction_type: epsilon
+            variance_type: fixed_small
+        normalize_llm_loss: true
+        num_inference_steps: 100
+        oa_step_convention: true
+        obs_as_global_cond: true
+        obs_as_local_cond: false
+        obs_dim: 18
+        pred_action_steps_only: false
+        reweight_llm_loss: true
+pred_action_steps_only:
+    value: false
+task:
+    value:
+        action_dim: 2
+        dataset:
+            _target_: llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset
+            data_path: datasets/parking-v0.pt
+            data_path2: datasets/parking-v0.pt
+            dummy_normalizer: false
+            horizon: 1
+            obs_eef_target: true
+            pad_after: 0
+            pad_before: 0
+            use_manual_normalizer: false
+            val_ratio: 0.02
+        env_runner:
+            _target_: llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner
+            discount: 0.99
+            env_name: llf-highway-parking-v0
+            feedback_type:
+                - hp
+                - hn
+                - fp
+            instruction_type: b
+            max_steps: 80
+            n_action_steps: 1
+            n_envs: 10
+            n_obs_steps: 1
+            n_test: 50
+            n_train: 10
+            visual: false
+        instructor:
+            _target_: llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor
+        name: parking-v0
+        obs_dim: 18
+task_name:
+    value: parking-v0
+training:
+    value:
+        checkpoint_every: 5
+        debug: false
+        device: cuda:0
+        gradient_accumulate_every: 16
+        lr_scheduler: cosine
+        lr_warmup_steps: 500
+        max_train_steps: null
+        max_val_steps: null
+        num_epochs: 1001
+        resume: true
+        rollout_every: 5
+        sample_every: 5
+        seed: 43
+        tqdm_interval_sec: 1
+        use_ema: true
+        val_every: 1
+val_dataloader:
+    value:
+        batch_size: 16
+        num_workers: 0
+        persistent_workers: false
+        pin_memory: false
+        shuffle: false
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/files/output.log b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..f79197b3af03a05a5cdbcad3c4a4d4388dfd07f4
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/files/output.log
@@ -0,0 +1,59 @@
+/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/stable_baselines3/common/save_util.py:166: UserWarning: Could not deserialize object lr_schedule. Consider using `custom_objects` argument to replace this object.
+Exception: Can't get attribute 'FloatSchedule' on <module 'stable_baselines3.common.utils' from '/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/stable_baselines3/common/utils.py'>
+  warnings.warn(
+Wrapping the env with a `Monitor` wrapper
+Wrapping the env in a DummyVecEnv.
+Eval HighwayLowdimRunner 1/6:   0%|                                                          | 0/80 [00:00<?, ?it/s]/root/workspace/LLM-BC/llmbc/common/llfbench_util.py:39: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:275.)
+  obs = torch.tensor(obs, dtype=torch.float32).unsqueeze(dim=0).to(device)
+Traceback (most recent call last):                                                                                  
+  File "/root/workspace/LLM-BC/./train.py", line 35, in <module>
+    main()
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/main.py", line 90, in decorated_main
+    _run_hydra(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 389, in _run_hydra
+    _run_app(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 452, in _run_app
+    run_and_report(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 213, in run_and_report
+    return func()
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 453, in <lambda>
+    lambda: hydra.run(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/hydra.py", line 119, in run
+    ret = run_job(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/core/utils.py", line 186, in run_job
+    ret.return_value = task_function(task_cfg)
+  File "/root/workspace/LLM-BC/./train.py", line 32, in main
+    workspace.run()
+  File "/root/workspace/LLM-BC/llmbc/workspace/train_llm_diffusion_unet_lowdim_workspace.py", line 201, in run
+    loss.backward()
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/torch/_tensor.py", line 522, in backward
+    torch.autograd.backward(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/torch/autograd/__init__.py", line 266, in backward
+    Variable._execution_engine.run_backward(  # Calls into the C++ engine to run the backward pass
+KeyboardInterrupt
+Traceback (most recent call last):
+  File "/root/workspace/LLM-BC/./train.py", line 35, in <module>
+    main()
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/main.py", line 90, in decorated_main
+    _run_hydra(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 389, in _run_hydra
+    _run_app(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 452, in _run_app
+    run_and_report(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 213, in run_and_report
+    return func()
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 453, in <lambda>
+    lambda: hydra.run(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/hydra.py", line 119, in run
+    ret = run_job(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/core/utils.py", line 186, in run_job
+    ret.return_value = task_function(task_cfg)
+  File "/root/workspace/LLM-BC/./train.py", line 32, in main
+    workspace.run()
+  File "/root/workspace/LLM-BC/llmbc/workspace/train_llm_diffusion_unet_lowdim_workspace.py", line 201, in run
+    loss.backward()
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/torch/_tensor.py", line 522, in backward
+    torch.autograd.backward(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/torch/autograd/__init__.py", line 266, in backward
+    Variable._execution_engine.run_backward(  # Calls into the C++ engine to run the backward pass
+KeyboardInterrupt
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/files/requirements.txt b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..27dc0a45e9e927d4e7f77db7a0ac356897139a17
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/files/requirements.txt
@@ -0,0 +1,861 @@
+aiohappyeyeballs==2.6.1
+antlr4-python3-runtime==4.9.3
+asciitree==0.3.3
+async-timeout==5.0.1
+attrs==25.4.0
+certifi==2025.10.5
+charset-normalizer==3.4.4
+colorama==0.4.6
+dill==0.3.8
+docstring-parser==0.16
+eval_type_backport==0.2.2
+fasteners==0.20
+filelock==3.17.0
+frozenlist==1.8.0
+fsspec==2024.3.1
+gmpy2==2.2.1
+hf-xet==1.1.8
+idna==3.11
+llvmlite==0.39.1
+MarkupSafe==3.0.2
+mdurl==0.1.2
+mkl-service==2.4.0
+mpmath==1.3.0
+msgpack==1.1.1
+networkx==3.2.1
+packaging==25.0
+propcache==0.3.1
+psutil==7.0.0
+pycparser==2.23
+Pygments==2.19.1
+PyOpenGL==3.1.10
+PySocks==1.7.1
+tzdata==2025.2
+xxhash==3.5.0
+pytz==2025.2
+PyYAML==6.0.2
+regex==2025.9.1
+safetensors==0.5.3
+setuptools==80.9.0
+shtab==1.7.2
+six==1.17.0
+tqdm==4.67.1
+tensorflow==2.15.1
+uvloop==0.22.1
+wheel==0.45.1
+zipp==3.21.0
+requests-oauthlib==2.0.0
+Markdown==3.9
+google-auth-oauthlib==1.2.3
+tensorboard==2.15.2
+Jinja2==3.1.6
+markdown-it-py==2.2.0
+multiprocess==0.70.15
+numpy==1.23.5
+pip==23.3.2
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+brotlicffi==1.0.9.2
+hydra-core==1.2.0
+multidict==6.7.0
+pillow==11.3.0
+pycares==4.10.0
+rich==14.2.0
+sympy==1.14.0
+typeguard==4.4.4
+aiodns==3.5.0
+urllib3==2.5.0
+yarl==1.18.0
+aiohttp==3.12.15
+pyarrow==21.0.0
+astunparse==1.6.3
+pyarrow-hotfix==0.7
+tokenizers==0.21.0
+av==10.0.0
+einops==0.4.1
+Bottleneck==1.4.2
+mkl_fft==1.3.11
+mkl_random==1.2.8
+numba==0.56.4
+numcodecs==0.12.1
+numexpr==2.10.1
+pandas==2.3.3
+zarr==2.12.0
+datasets==2.19.0
+transformers==4.47.1
+accelerate==1.0.1
+peft==0.14.0
+trl==0.11.4
+torch==2.2.2
+tabulate==0.9.0
+sentencepiece==0.2.0
+pyperclip==1.11.0
+PyOpenGL-accelerate==3.1.10
+pydub==0.25.1
+py-cpuinfo==9.0.0
+pure_eval==0.2.3
+ptyprocess==0.7.0
+nvidia-ml-py==13.590.44
+hjson==3.1.0
+gym-notices==0.1.0
+glfw==2.0.0
+Farama-Notifications==0.0.4
+websockets==15.0.1
+wcwidth==0.2.14
+uc-micro-py==1.0.3
+typing-inspection==0.4.2
+triton==2.2.0
+trimesh==4.10.1
+transforms3d==0.4.2
+traitlets==5.14.3
+threadpoolctl==3.6.0
+tenacity==9.1.2
+sniffio==1.3.1
+smmap==5.0.2
+setproctitle==1.3.7
+sentry-sdk==2.47.0
+semantic-version==2.10.0
+scipy==1.13.1
+rpds-py==0.27.1
+python-multipart==0.0.20
+pyparsing==3.2.5
+pynvml==13.0.1
+pydantic_core==2.41.5
+pycryptodomex==3.23.0
+pyasn1==0.6.1
+google-pasta==0.2.0
+platformdirs==4.4.0
+pexpect==4.9.0
+parso==0.8.5
+orjson==3.11.5
+opencv-python==4.11.0.86
+stack-data==0.6.3
+omegaconf==2.2.1
+nvidia-nvtx-cu12==12.1.105
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-nccl-cu12==2.19.3
+nvidia-curand-cu12==10.3.2.106
+nvidia-cufft-cu12==11.0.2.54
+nvidia-cuda-runtime-cu12==12.1.105
+nvidia-cuda-nvrtc-cu12==12.1.105
+nvidia-cuda-cupti-cu12==12.1.105
+nvidia-cublas-cu12==12.1.3.1
+ninja==1.13.0
+narwhals==2.13.0
+lxml==6.0.2
+kiwisolver==1.4.7
+joblib==1.5.3
+jiter==0.12.0
+imageio-ffmpeg==0.6.0
+ImageIO==2.37.2
+h5py==3.14.0
+h11==0.16.0
+fonttools==4.60.2
+ffmpy==1.0.0
+fast_kinematics==0.2.2
+executing==2.2.1
+exceptiongroup==1.3.1
+docker-pycreds==0.4.0
+distro==1.9.0
+decorator==5.2.1
+dacite==1.9.2
+cycler==0.12.1
+contourpy==1.3.0
+cloudpickle==3.1.2
+click==8.1.8
+cachetools==6.2.4
+asttokens==3.0.1
+annotated-types==0.7.0
+annotated-doc==0.0.4
+aiofiles==25.1.0
+absl-py==2.3.1
+uvicorn==0.38.0
+tiktoken==0.8.0
+scikit-learn==1.6.1
+rsa==4.9.1
+referencing==0.36.2
+pydantic==2.12.5
+pyasn1_modules==0.4.2
+prompt_toolkit==3.0.52
+nvidia-cusparse-cu12==12.1.0.106
+nvidia-cudnn-cu12==8.9.2.26
+nltk==3.9.2
+mujoco==2.3.7
+mdit-py-plugins==0.3.3
+matplotlib-inline==0.2.1
+matplotlib==3.7.5
+linkify-it-py==2.0.3
+jedi==0.19.2
+huggingface-hub==0.26.2
+httpcore==1.0.9
+gymnasium==0.29.1
+grpcio==1.76.0
+gitdb==4.0.12
+blobfile==3.0.0
+anyio==4.12.0
+tyro==0.9.1
+toppra==0.6.3
+starlette==0.49.3
+seaborn==0.13.2
+rouge_score==0.1.2
+pynndescent==0.5.13
+nvidia-cusolver-cu12==11.4.5.107
+jsonschema-specifications==2025.9.1
+ipython==8.18.1
+httpx==0.28.1
+google-auth==2.41.1
+GitPython==3.1.45
+diffusers==0.31.0
+wandb==0.18.6
+umap-learn==0.5.9.post2
+openai==2.8.1
+mplib==0.1.1
+jsonschema==4.25.1
+gradio_client==0.2.9
+google-genai==1.47.0
+fastapi==0.124.4
+torchvision==0.17.2
+torchaudio==2.2.2
+sentence-transformers==3.2.1
+pytorch-seed==0.2.0
+deepspeed==0.16.1
+bitsandbytes==0.45.0
+altair==6.0.0
+timm==1.0.22
+gradio==3.36.1
+evaluate==0.4.3
+arm_pytorch_utilities==0.4.3
+tensorflow-io-gcs-filesystem==0.37.1
+tensorflow-estimator==2.15.0
+tensorboard-data-server==0.7.2
+tf-agents==0.19.0
+protobuf==4.25.8
+parse==1.19.1
+dm-tree==0.1.8
+termcolor==3.1.0
+oauthlib==3.3.1
+requests==2.32.0
+opt_einsum==3.4.0
+labmaze==1.0.6
+importlib-resources==5.13.0
+wrapt==1.14.2
+importlib-metadata==5.2.0
+FLAML==2.3.6
+dm-env==1.6
+diskcache==5.6.3
+Cython==0.29.37
+mujoco-py==2.1.2.14
+jaxlib==0.4.30
+dm-control==1.0.14
+cmudict==1.0.13
+syllables==1.0.9
+metaworld==2.0.0
+jax==0.4.30
+highway-env==1.9.1
+gym_bandits==0.0.2
+d4rl==1.1
+pyautogen==0.1.0
+pybullet==3.2.6
+Werkzeug==3.1.4
+flatbuffers==25.9.23
+pytorch-kinematics==0.7.5
+gin-config==0.5.0
+mani_skill==3.0.0b20
+tifffile==2024.8.30
+Shapely==1.8.4
+PyWavelets==1.6.0
+cffi==1.17.1
+scikit-image==0.19.3
+pymunk==6.2.1
+ml-dtypes==0.3.2
+tensorflow-probability==0.23.0
+stable-baselines3==2.2.1
+keras==2.15.0
+gast==0.7.0
+libclang==18.1.1
+llfbench==0.1.0
+llmbc==0.0.0
+pygame==2.6.1
+gym==0.23.1
+typing_extensions==4.15.0
+sapien==3.0.1
+aiohappyeyeballs==2.6.1
+antlr4-python3-runtime==4.9.3
+asciitree==0.3.3
+async-timeout==5.0.1
+attrs==25.4.0
+certifi==2025.10.5
+charset-normalizer==3.4.4
+colorama==0.4.6
+dill==0.3.8
+docstring-parser==0.16
+eval_type_backport==0.2.2
+fasteners==0.20
+filelock==3.17.0
+frozenlist==1.8.0
+fsspec==2024.3.1
+gmpy2==2.2.1
+hf-xet==1.1.8
+idna==3.11
+llvmlite==0.39.1
+MarkupSafe==3.0.2
+mdurl==0.1.2
+mkl-service==2.4.0
+mpmath==1.3.0
+msgpack==1.1.1
+networkx==3.2.1
+packaging==25.0
+propcache==0.3.1
+psutil==7.0.0
+pycparser==2.23
+Pygments==2.19.1
+PyOpenGL==3.1.10
+PySocks==1.7.1
+tzdata==2025.2
+xxhash==3.5.0
+pytz==2025.2
+PyYAML==6.0.2
+regex==2025.9.1
+safetensors==0.5.3
+setuptools==80.9.0
+shtab==1.7.2
+six==1.17.0
+tqdm==4.67.1
+tensorflow==2.15.1
+uvloop==0.22.1
+wheel==0.45.1
+zipp==3.21.0
+requests-oauthlib==2.0.0
+Markdown==3.9
+google-auth-oauthlib==1.2.3
+tensorboard==2.15.2
+Jinja2==3.1.6
+markdown-it-py==2.2.0
+multiprocess==0.70.15
+numpy==1.23.5
+pip==23.3.2
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+brotlicffi==1.0.9.2
+hydra-core==1.2.0
+multidict==6.7.0
+pillow==11.3.0
+pycares==4.10.0
+rich==14.2.0
+sympy==1.14.0
+typeguard==4.4.4
+aiodns==3.5.0
+urllib3==2.5.0
+yarl==1.18.0
+aiohttp==3.12.15
+pyarrow==21.0.0
+astunparse==1.6.3
+pyarrow-hotfix==0.7
+tokenizers==0.21.0
+av==10.0.0
+einops==0.4.1
+Bottleneck==1.4.2
+mkl_fft==1.3.11
+mkl_random==1.2.8
+numba==0.56.4
+numcodecs==0.12.1
+numexpr==2.10.1
+pandas==2.3.3
+zarr==2.12.0
+datasets==2.19.0
+transformers==4.47.1
+accelerate==1.0.1
+peft==0.14.0
+trl==0.11.4
+torch==2.2.2
+tabulate==0.9.0
+sentencepiece==0.2.0
+pyperclip==1.11.0
+PyOpenGL-accelerate==3.1.10
+pydub==0.25.1
+py-cpuinfo==9.0.0
+pure_eval==0.2.3
+ptyprocess==0.7.0
+nvidia-ml-py==13.590.44
+hjson==3.1.0
+gym-notices==0.1.0
+glfw==2.0.0
+Farama-Notifications==0.0.4
+websockets==15.0.1
+wcwidth==0.2.14
+uc-micro-py==1.0.3
+typing-inspection==0.4.2
+triton==2.2.0
+trimesh==4.10.1
+transforms3d==0.4.2
+traitlets==5.14.3
+threadpoolctl==3.6.0
+tenacity==9.1.2
+sniffio==1.3.1
+smmap==5.0.2
+setproctitle==1.3.7
+sentry-sdk==2.47.0
+semantic-version==2.10.0
+scipy==1.13.1
+rpds-py==0.27.1
+python-multipart==0.0.20
+pyparsing==3.2.5
+pynvml==13.0.1
+pydantic_core==2.41.5
+pycryptodomex==3.23.0
+pyasn1==0.6.1
+google-pasta==0.2.0
+platformdirs==4.4.0
+pexpect==4.9.0
+parso==0.8.5
+orjson==3.11.5
+opencv-python==4.11.0.86
+stack-data==0.6.3
+omegaconf==2.2.1
+nvidia-nvtx-cu12==12.1.105
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-nccl-cu12==2.19.3
+nvidia-curand-cu12==10.3.2.106
+nvidia-cufft-cu12==11.0.2.54
+nvidia-cuda-runtime-cu12==12.1.105
+nvidia-cuda-nvrtc-cu12==12.1.105
+nvidia-cuda-cupti-cu12==12.1.105
+nvidia-cublas-cu12==12.1.3.1
+ninja==1.13.0
+narwhals==2.13.0
+lxml==6.0.2
+kiwisolver==1.4.7
+joblib==1.5.3
+jiter==0.12.0
+imageio-ffmpeg==0.6.0
+ImageIO==2.37.2
+h5py==3.14.0
+h11==0.16.0
+fonttools==4.60.2
+ffmpy==1.0.0
+fast_kinematics==0.2.2
+executing==2.2.1
+exceptiongroup==1.3.1
+docker-pycreds==0.4.0
+distro==1.9.0
+decorator==5.2.1
+dacite==1.9.2
+cycler==0.12.1
+contourpy==1.3.0
+cloudpickle==3.1.2
+click==8.1.8
+cachetools==6.2.4
+asttokens==3.0.1
+annotated-types==0.7.0
+annotated-doc==0.0.4
+aiofiles==25.1.0
+absl-py==2.3.1
+uvicorn==0.38.0
+tiktoken==0.8.0
+scikit-learn==1.6.1
+rsa==4.9.1
+referencing==0.36.2
+pydantic==2.12.5
+pyasn1_modules==0.4.2
+prompt_toolkit==3.0.52
+nvidia-cusparse-cu12==12.1.0.106
+nvidia-cudnn-cu12==8.9.2.26
+nltk==3.9.2
+mujoco==2.3.7
+mdit-py-plugins==0.3.3
+matplotlib-inline==0.2.1
+matplotlib==3.7.5
+linkify-it-py==2.0.3
+jedi==0.19.2
+huggingface-hub==0.26.2
+httpcore==1.0.9
+gymnasium==0.29.1
+grpcio==1.76.0
+gitdb==4.0.12
+blobfile==3.0.0
+anyio==4.12.0
+tyro==0.9.1
+toppra==0.6.3
+starlette==0.49.3
+seaborn==0.13.2
+rouge_score==0.1.2
+pynndescent==0.5.13
+nvidia-cusolver-cu12==11.4.5.107
+jsonschema-specifications==2025.9.1
+ipython==8.18.1
+httpx==0.28.1
+google-auth==2.41.1
+GitPython==3.1.45
+diffusers==0.31.0
+wandb==0.18.6
+umap-learn==0.5.9.post2
+openai==2.8.1
+mplib==0.1.1
+jsonschema==4.25.1
+gradio_client==0.2.9
+google-genai==1.47.0
+fastapi==0.124.4
+torchvision==0.17.2
+torchaudio==2.2.2
+sentence-transformers==3.2.1
+pytorch-seed==0.2.0
+deepspeed==0.16.1
+bitsandbytes==0.45.0
+altair==6.0.0
+timm==1.0.22
+gradio==3.36.1
+evaluate==0.4.3
+arm_pytorch_utilities==0.4.3
+tensorflow-io-gcs-filesystem==0.37.1
+tensorflow-estimator==2.15.0
+tensorboard-data-server==0.7.2
+tf-agents==0.19.0
+protobuf==4.25.8
+parse==1.19.1
+dm-tree==0.1.8
+termcolor==3.1.0
+oauthlib==3.3.1
+requests==2.32.0
+opt_einsum==3.4.0
+labmaze==1.0.6
+importlib-resources==5.13.0
+wrapt==1.14.2
+importlib-metadata==5.2.0
+FLAML==2.3.6
+dm-env==1.6
+diskcache==5.6.3
+Cython==0.29.37
+mujoco-py==2.1.2.14
+jaxlib==0.4.30
+dm-control==1.0.14
+cmudict==1.0.13
+syllables==1.0.9
+metaworld==2.0.0
+jax==0.4.30
+highway-env==1.9.1
+gym_bandits==0.0.2
+d4rl==1.1
+pyautogen==0.1.0
+pybullet==3.2.6
+Werkzeug==3.1.4
+flatbuffers==25.9.23
+pytorch-kinematics==0.7.5
+gin-config==0.5.0
+mani_skill==3.0.0b20
+tifffile==2024.8.30
+Shapely==1.8.4
+PyWavelets==1.6.0
+cffi==1.17.1
+scikit-image==0.19.3
+pymunk==6.2.1
+ml-dtypes==0.3.2
+tensorflow-probability==0.23.0
+stable-baselines3==2.2.1
+keras==2.15.0
+gast==0.7.0
+libclang==18.1.1
+llfbench==0.1.0
+llmbc==0.0.0
+pygame==2.6.1
+gym==0.23.1
+typing_extensions==4.15.0
+sapien==3.0.1
+llmbc==0.0.0
+llmbc==0.0.0
+aiohappyeyeballs==2.6.1
+antlr4-python3-runtime==4.9.3
+asciitree==0.3.3
+async-timeout==5.0.1
+attrs==25.4.0
+certifi==2025.10.5
+charset-normalizer==3.4.4
+colorama==0.4.6
+dill==0.3.8
+docstring-parser==0.16
+eval_type_backport==0.2.2
+fasteners==0.20
+filelock==3.17.0
+frozenlist==1.8.0
+fsspec==2024.3.1
+gmpy2==2.2.1
+hf-xet==1.1.8
+idna==3.11
+llvmlite==0.39.1
+MarkupSafe==3.0.2
+mdurl==0.1.2
+mkl-service==2.4.0
+mpmath==1.3.0
+msgpack==1.1.1
+networkx==3.2.1
+packaging==25.0
+propcache==0.3.1
+psutil==7.0.0
+pycparser==2.23
+Pygments==2.19.1
+PyOpenGL==3.1.10
+PySocks==1.7.1
+tzdata==2025.2
+xxhash==3.5.0
+pytz==2025.2
+PyYAML==6.0.2
+regex==2025.9.1
+safetensors==0.5.3
+setuptools==80.9.0
+shtab==1.7.2
+six==1.17.0
+tqdm==4.67.1
+tensorflow==2.15.1
+uvloop==0.22.1
+wheel==0.45.1
+zipp==3.21.0
+requests-oauthlib==2.0.0
+Markdown==3.9
+google-auth-oauthlib==1.2.3
+tensorboard==2.15.2
+Jinja2==3.1.6
+markdown-it-py==2.2.0
+multiprocess==0.70.15
+numpy==1.23.5
+pip==23.3.2
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+brotlicffi==1.0.9.2
+hydra-core==1.2.0
+multidict==6.7.0
+pillow==11.3.0
+pycares==4.10.0
+rich==14.2.0
+sympy==1.14.0
+typeguard==4.4.4
+aiodns==3.5.0
+urllib3==2.5.0
+yarl==1.18.0
+aiohttp==3.12.15
+pyarrow==21.0.0
+astunparse==1.6.3
+pyarrow-hotfix==0.7
+tokenizers==0.21.0
+av==10.0.0
+einops==0.4.1
+Bottleneck==1.4.2
+mkl_fft==1.3.11
+mkl_random==1.2.8
+numba==0.56.4
+numcodecs==0.12.1
+numexpr==2.10.1
+pandas==2.3.3
+zarr==2.12.0
+datasets==2.19.0
+transformers==4.47.1
+accelerate==1.0.1
+peft==0.14.0
+trl==0.11.4
+torch==2.2.2
+tabulate==0.9.0
+sentencepiece==0.2.0
+pyperclip==1.11.0
+PyOpenGL-accelerate==3.1.10
+pydub==0.25.1
+py-cpuinfo==9.0.0
+pure_eval==0.2.3
+ptyprocess==0.7.0
+nvidia-ml-py==13.590.44
+hjson==3.1.0
+gym-notices==0.1.0
+glfw==2.0.0
+Farama-Notifications==0.0.4
+websockets==15.0.1
+wcwidth==0.2.14
+uc-micro-py==1.0.3
+typing-inspection==0.4.2
+triton==2.2.0
+trimesh==4.10.1
+transforms3d==0.4.2
+traitlets==5.14.3
+threadpoolctl==3.6.0
+tenacity==9.1.2
+sniffio==1.3.1
+smmap==5.0.2
+setproctitle==1.3.7
+sentry-sdk==2.47.0
+semantic-version==2.10.0
+scipy==1.13.1
+rpds-py==0.27.1
+python-multipart==0.0.20
+pyparsing==3.2.5
+pynvml==13.0.1
+pydantic_core==2.41.5
+pycryptodomex==3.23.0
+pyasn1==0.6.1
+google-pasta==0.2.0
+platformdirs==4.4.0
+pexpect==4.9.0
+parso==0.8.5
+orjson==3.11.5
+opencv-python==4.11.0.86
+stack-data==0.6.3
+omegaconf==2.2.1
+nvidia-nvtx-cu12==12.1.105
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-nccl-cu12==2.19.3
+nvidia-curand-cu12==10.3.2.106
+nvidia-cufft-cu12==11.0.2.54
+nvidia-cuda-runtime-cu12==12.1.105
+nvidia-cuda-nvrtc-cu12==12.1.105
+nvidia-cuda-cupti-cu12==12.1.105
+nvidia-cublas-cu12==12.1.3.1
+ninja==1.13.0
+narwhals==2.13.0
+lxml==6.0.2
+kiwisolver==1.4.7
+joblib==1.5.3
+jiter==0.12.0
+imageio-ffmpeg==0.6.0
+ImageIO==2.37.2
+h5py==3.14.0
+h11==0.16.0
+fonttools==4.60.2
+ffmpy==1.0.0
+fast_kinematics==0.2.2
+executing==2.2.1
+exceptiongroup==1.3.1
+docker-pycreds==0.4.0
+distro==1.9.0
+decorator==5.2.1
+dacite==1.9.2
+cycler==0.12.1
+contourpy==1.3.0
+cloudpickle==3.1.2
+click==8.1.8
+cachetools==6.2.4
+asttokens==3.0.1
+annotated-types==0.7.0
+annotated-doc==0.0.4
+aiofiles==25.1.0
+absl-py==2.3.1
+uvicorn==0.38.0
+tiktoken==0.8.0
+scikit-learn==1.6.1
+rsa==4.9.1
+referencing==0.36.2
+pydantic==2.12.5
+pyasn1_modules==0.4.2
+prompt_toolkit==3.0.52
+nvidia-cusparse-cu12==12.1.0.106
+nvidia-cudnn-cu12==8.9.2.26
+nltk==3.9.2
+mujoco==2.3.7
+mdit-py-plugins==0.3.3
+matplotlib-inline==0.2.1
+matplotlib==3.7.5
+linkify-it-py==2.0.3
+jedi==0.19.2
+huggingface-hub==0.26.2
+httpcore==1.0.9
+gymnasium==0.29.1
+grpcio==1.76.0
+gitdb==4.0.12
+blobfile==3.0.0
+anyio==4.12.0
+tyro==0.9.1
+toppra==0.6.3
+starlette==0.49.3
+seaborn==0.13.2
+rouge_score==0.1.2
+pynndescent==0.5.13
+nvidia-cusolver-cu12==11.4.5.107
+jsonschema-specifications==2025.9.1
+ipython==8.18.1
+httpx==0.28.1
+google-auth==2.41.1
+GitPython==3.1.45
+diffusers==0.31.0
+wandb==0.18.6
+umap-learn==0.5.9.post2
+openai==2.8.1
+mplib==0.1.1
+jsonschema==4.25.1
+gradio_client==0.2.9
+google-genai==1.47.0
+fastapi==0.124.4
+torchvision==0.17.2
+torchaudio==2.2.2
+sentence-transformers==3.2.1
+pytorch-seed==0.2.0
+deepspeed==0.16.1
+bitsandbytes==0.45.0
+altair==6.0.0
+timm==1.0.22
+gradio==3.36.1
+evaluate==0.4.3
+arm_pytorch_utilities==0.4.3
+tensorflow-io-gcs-filesystem==0.37.1
+tensorflow-estimator==2.15.0
+tensorboard-data-server==0.7.2
+tf-agents==0.19.0
+protobuf==4.25.8
+parse==1.19.1
+dm-tree==0.1.8
+termcolor==3.1.0
+oauthlib==3.3.1
+requests==2.32.0
+opt_einsum==3.4.0
+labmaze==1.0.6
+importlib-resources==5.13.0
+wrapt==1.14.2
+importlib-metadata==5.2.0
+FLAML==2.3.6
+dm-env==1.6
+diskcache==5.6.3
+Cython==0.29.37
+mujoco-py==2.1.2.14
+jaxlib==0.4.30
+dm-control==1.0.14
+cmudict==1.0.13
+syllables==1.0.9
+metaworld==2.0.0
+jax==0.4.30
+highway-env==1.9.1
+gym_bandits==0.0.2
+d4rl==1.1
+pyautogen==0.1.0
+pybullet==3.2.6
+Werkzeug==3.1.4
+flatbuffers==25.9.23
+pytorch-kinematics==0.7.5
+gin-config==0.5.0
+mani_skill==3.0.0b20
+tifffile==2024.8.30
+Shapely==1.8.4
+PyWavelets==1.6.0
+cffi==1.17.1
+scikit-image==0.19.3
+pymunk==6.2.1
+ml-dtypes==0.3.2
+tensorflow-probability==0.23.0
+stable-baselines3==2.2.1
+keras==2.15.0
+gast==0.7.0
+libclang==18.1.1
+llfbench==0.1.0
+llmbc==0.0.0
+pygame==2.6.1
+gym==0.23.1
+typing_extensions==4.15.0
+sapien==3.0.1
+autocommand==2.2.2
+backports.tarfile==1.2.0
+importlib_metadata==8.0.0
+inflect==7.3.1
+jaraco.collections==5.1.0
+jaraco.context==5.3.0
+jaraco.functools==4.0.1
+jaraco.text==3.12.1
+more-itertools==10.3.0
+packaging==24.2
+platformdirs==4.2.2
+tomli==2.0.1
+typeguard==4.3.0
+typing_extensions==4.12.2
+wheel==0.45.1
+zipp==3.19.2
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/files/wandb-metadata.json b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..39d9e4592d2ddc6b48c79c0ef2bcf1ce151af215
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/files/wandb-metadata.json
@@ -0,0 +1,57 @@
+{
+  "os": "Linux-4.18.0-513.24.1.el8_9.x86_64-x86_64-with-glibc2.31",
+  "python": "3.9.25",
+  "startedAt": "2025-12-20T07:24:25.006393Z",
+  "args": [
+    "--config-path",
+    "./config/main_table",
+    "--config-name",
+    "llmdp_parking-v0.yaml",
+    "policy.loss_llm_weight=1.0e-3",
+    "training.seed=43"
+  ],
+  "program": "/root/workspace/LLM-BC/./train.py",
+  "codePath": "train.py",
+  "git": {
+    "remote": "https://github.com/CHYang25/LLM-BC.git",
+    "commit": "19d4c838d567a3f93b4721dcb5cefc20b4873e61"
+  },
+  "email": "chris920325@gmail.com",
+  "root": "/root/workspace/LLM-BC/data/outputs/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0",
+  "host": "llmbc-cuda-545d8cd8bc-9ltjf",
+  "username": "root",
+  "executable": "/root/miniconda3/envs/llm-bc/bin/python3",
+  "codePathLocal": "train.py",
+  "cpu_count": 64,
+  "cpu_count_logical": 128,
+  "gpu": "NVIDIA H100 80GB HBM3",
+  "gpu_count": 2,
+  "disk": {
+    "/": {
+      "total": "23041585184768",
+      "used": "574751399936"
+    }
+  },
+  "memory": {
+    "total": "2163619737600"
+  },
+  "cpu": {
+    "count": 64,
+    "countLogical": 128
+  },
+  "gpu_nvidia": [
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    },
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    }
+  ],
+  "cudaVersion": "12.8"
+}
\ No newline at end of file
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/files/wandb-summary.json b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..343cf7dedbbc243455634736b176fc86f33ab425
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_timestamp":1.7662158310215356e+09,"test/mean_score":-0.40863858961894545,"train_action_mse_error":1.4054243564605713,"train_loss_dp":0.3052378296852112,"lr":2.2800000000000002e-05,"test/success_rate":0,"global_step":1821,"train/cumulative_reward":-20.273915188333778,"train/success_rate":0,"_runtime":366.11347906,"test/cumulative_reward":-22.43299029280709,"val_loss":0.4375905990600586,"train_loss_llm":0.02455425262451172,"_wandb":{"runtime":366},"train/mean_score":-0.300768799875115,"epoch":2,"_step":1821,"train_loss":0.30526238679885864}
\ No newline at end of file
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/logs/debug-core.log b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..1ca6d1023c6ddc0e58847da7ad6779343dd20c68
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/logs/debug-core.log
@@ -0,0 +1,12 @@
+{"time":"2025-12-20T07:24:24.395003869Z","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmp61or0irs/port-48555.txt","pid":48555,"debug":false,"disable-analytics":false}
+{"time":"2025-12-20T07:24:24.395031458Z","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2025-12-20T07:24:24.401496446Z","level":"INFO","msg":"Will exit if parent process dies.","ppid":48555}
+{"time":"2025-12-20T07:24:24.401497495Z","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":44553,"Zone":""}}
+{"time":"2025-12-20T07:24:24.588724508Z","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:53958"}
+{"time":"2025-12-20T07:24:25.007745819Z","level":"INFO","msg":"handleInformInit: received","streamId":"dwqvyi2n","id":"127.0.0.1:53958"}
+{"time":"2025-12-20T07:24:25.118365348Z","level":"INFO","msg":"handleInformInit: stream started","streamId":"dwqvyi2n","id":"127.0.0.1:53958"}
+{"time":"2025-12-20T07:30:31.119785754Z","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:53958"}
+{"time":"2025-12-20T07:30:31.119840518Z","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:53958"}
+{"time":"2025-12-20T07:30:31.119850971Z","level":"INFO","msg":"server is shutting down"}
+{"time":"2025-12-20T07:30:31.119896156Z","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:53958"}
+{"time":"2025-12-20T07:30:31.898035365Z","level":"INFO","msg":"Parent process exited, terminating service process."}
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/logs/debug-internal.log b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..399ebee49e5bfa9cea3a9596eb62e3d8d708e734
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/logs/debug-internal.log
@@ -0,0 +1,11 @@
+{"time":"2025-12-20T07:24:25.007883091Z","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2025-12-20T07:24:25.007892698Z","level":"INFO","msg":"created symlink","path":"/root/workspace/LLM-BC/data/outputs/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/logs/debug-core.log"}
+{"time":"2025-12-20T07:24:25.118329255Z","level":"INFO","msg":"created new stream","id":"dwqvyi2n"}
+{"time":"2025-12-20T07:24:25.118362086Z","level":"INFO","msg":"stream: started","id":"dwqvyi2n"}
+{"time":"2025-12-20T07:24:25.11838014Z","level":"INFO","msg":"sender: started","stream_id":"dwqvyi2n"}
+{"time":"2025-12-20T07:24:25.118372104Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"dwqvyi2n"}}
+{"time":"2025-12-20T07:24:25.118376708Z","level":"INFO","msg":"handler: started","stream_id":{"value":"dwqvyi2n"}}
+{"time":"2025-12-20T07:24:25.956798676Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-12-20T07:30:31.119846834Z","level":"INFO","msg":"stream: closing","id":"dwqvyi2n"}
+{"time":"2025-12-20T07:30:31.119894754Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-12-20T07:30:31.120691968Z","level":"INFO","msg":"Stopped system monitor"}
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/logs/debug.log b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..058ae37ce48ddb1c099f1bbdcfaa5f1888228c8b
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/logs/debug.log
@@ -0,0 +1,27 @@
+2025-12-20 07:24:25,004 INFO    MainThread:48555 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2025-12-20 07:24:25,004 INFO    MainThread:48555 [wandb_setup.py:_flush():79] Configure stats pid to 48555
+2025-12-20 07:24:25,004 INFO    MainThread:48555 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_setup.py:_flush():79] Loading settings from /root/workspace/LLM-BC/wandb/settings
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/root/workspace/LLM-BC/train.py', 'program': '/root/workspace/LLM-BC/./train.py'}
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_setup.py:_flush():79] Applying login settings: {}
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_init.py:_log_setup():533] Logging user logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/logs/debug.log
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_init.py:_log_setup():534] Logging internal logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/logs/debug-internal.log
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_init.py:init():619] calling init triggers
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llm_diffusion_unet_lowdim', '_target_': 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace', 'obs_dim': 18, 'action_dim': 2, 'task_name': 'parking-v0', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'keypoint_visible_rate': 1.0, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy', 'model': {'_target_': 'llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D', 'input_dim': 2, 'local_cond_dim': None, 'global_cond_dim': 18, 'diffusion_step_embed_dim': 256, 'down_dims': [256, 512, 1024], 'kernel_size': 5, 'n_groups': 8, 'cond_predict_scale': True}, 'noise_scheduler': {'_target_': 'diffusers.schedulers.scheduling_ddpm.DDPMScheduler', 'num_train_timesteps': 100, 'beta_start': 0.0001, 'beta_end': 0.02, 'beta_schedule': 'squaredcos_cap_v2', 'variance_type': 'fixed_small', 'clip_sample': True, 'prediction_type': 'epsilon'}, 'horizon': 1, 'obs_dim': 18, 'action_dim': 2, 'n_action_steps': 1, 'n_obs_steps': 1, 'num_inference_steps': 100, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'oa_step_convention': True, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'parking-v0', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.24.13_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 18, 'action_dim': 2, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_dp_weight': 1.0, 'loss_llm_weight': 0.001, 'normalize_llm_loss': True, 'reweight_llm_loss': True}, 'ema': {'_target_': 'llmbc.model.diffusion.ema_model.EMAModel', 'update_after_step': 0, 'inv_gamma': 1.0, 'power': 0.75, 'min_value': 0.0, 'max_value': 0.9999}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': False, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.0001, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 43, 'debug': False, 'resume': True, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 500, 'num_epochs': 1001, 'gradient_accumulate_every': 16, 'use_ema': True, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'parking-v0-training', 'resume': True, 'mode': 'online', 'name': '2025.12.20-07.24.13_train_llm_diffusion_unet_lowdim_parking-v0', 'tags': ['train_llm_diffusion_unet_lowdim', 'parking-v0', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0', 'wandb_name_base': '2025.12.20-07.24.13_train_llm_diffusion_unet_lowdim_parking-v0'}, 'task': {'name': 'parking-v0', 'obs_dim': 18, 'action_dim': 2, 'env_runner': {'_target_': 'llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner', 'env_name': 'llf-highway-parking-v0', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 80, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.99}, 'dataset': {'_target_': 'llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset', 'data_path': 'datasets/parking-v0.pt', 'data_path2': 'datasets/parking-v0.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.02, 'dummy_normalizer': False}, 'instructor': {'_target_': 'llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.24.13_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_init.py:init():669] starting backend
+2025-12-20 07:24:25,005 INFO    MainThread:48555 [wandb_init.py:init():673] sending inform_init request
+2025-12-20 07:24:25,006 INFO    MainThread:48555 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-12-20 07:24:25,006 INFO    MainThread:48555 [wandb_init.py:init():686] backend started and connected
+2025-12-20 07:24:25,012 INFO    MainThread:48555 [wandb_init.py:init():781] updated telemetry
+2025-12-20 07:24:25,041 INFO    MainThread:48555 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2025-12-20 07:24:25,954 INFO    MainThread:48555 [wandb_init.py:init():867] starting run threads in backend
+2025-12-20 07:24:26,296 INFO    MainThread:48555 [wandb_run.py:_console_start():2451] atexit reg
+2025-12-20 07:24:26,296 INFO    MainThread:48555 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2025-12-20 07:24:26,296 INFO    MainThread:48555 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2025-12-20 07:24:26,296 INFO    MainThread:48555 [wandb_run.py:_redirect():2389] Redirects installed.
+2025-12-20 07:24:26,298 INFO    MainThread:48555 [wandb_init.py:init():911] run started, returning control to user process
+2025-12-20 07:24:26,298 INFO    MainThread:48555 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/root/workspace/LLM-BC/data/outputs/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0'}
+2025-12-20 07:30:31,119 WARNING MsgRouterThr:48555 [router.py:message_loop():75] message_loop has been closed
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/run-dwqvyi2n.wandb b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/run-dwqvyi2n.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..35bd6ab41076e412523b45e0dd478588d203596e
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_072425-dwqvyi2n/run-dwqvyi2n.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d69e9a9e210ef37f0219d41e081ff0f5946c2ef136fadcd102f175bdd22896bd
+size 1441792
diff --git a/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json
new file mode 100644
index 0000000000000000000000000000000000000000..650f1431041a2480aa7365c716f60843c7e6d969
--- /dev/null
+++ b/2025.12.20/07.24.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json
@@ -0,0 +1 @@
+{"run_id": "dwqvyi2n"}
\ No newline at end of file
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..2c97735e48b3452dd095cbdd83b3211c8eb35d5f
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
@@ -0,0 +1,193 @@
+name: train_llm_diffusion_unet_lowdim
+_target_: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+keypoint_visible_rate: 1.0
+obs_as_local_cond: false
+obs_as_global_cond: true
+pred_action_steps_only: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+  model:
+    _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+    input_dim: '${eval: ${task.action_dim} if ${obs_as_local_cond} or ${obs_as_global_cond}
+      else ${task.obs_dim} + ${task.action_dim}}'
+    local_cond_dim: '${eval: ${task.obs_dim} if ${obs_as_local_cond} else None}'
+    global_cond_dim: '${eval: ${task.obs_dim}*${n_obs_steps} if ${obs_as_global_cond}
+      else None}'
+    diffusion_step_embed_dim: 256
+    down_dims:
+    - 256
+    - 512
+    - 1024
+    kernel_size: 5
+    n_groups: 8
+    cond_predict_scale: true
+  noise_scheduler:
+    _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+    num_train_timesteps: 100
+    beta_start: 0.0001
+    beta_end: 0.02
+    beta_schedule: squaredcos_cap_v2
+    variance_type: fixed_small
+    clip_sample: true
+    prediction_type: epsilon
+  horizon: ${horizon}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  n_obs_steps: ${n_obs_steps}
+  num_inference_steps: 100
+  obs_as_local_cond: ${obs_as_local_cond}
+  obs_as_global_cond: ${obs_as_global_cond}
+  pred_action_steps_only: ${pred_action_steps_only}
+  oa_step_convention: true
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${obs_dim}
+      action_dim: ${action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  loss_dp_weight: 1.0
+  loss_llm_weight: 0.0001
+  normalize_llm_loss: true
+  reweight_llm_loss: true
+ema:
+  _target_: llmbc.model.diffusion.ema_model.EMAModel
+  update_after_step: 0
+  inv_gamma: 1.0
+  power: 0.75
+  min_value: 0.0
+  max_value: 0.9999
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: false
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.0001
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 43
+  debug: false
+  resume: true
+  lr_scheduler: cosine
+  lr_warmup_steps: 500
+  num_epochs: 1001
+  gradient_accumulate_every: 16
+  use_ema: true
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: parking-v0
+  obs_dim: 18
+  action_dim: 2
+  env_runner:
+    _target_: llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner
+    env_name: llf-highway-parking-v0
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 80
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    - fp
+    visual: false
+    discount: 0.99
+  dataset:
+    _target_: llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset
+    data_path: datasets/parking-v0.pt
+    data_path2: datasets/parking-v0.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    obs_eef_target: true
+    use_manual_normalizer: false
+    val_ratio: 0.02
+    dummy_normalizer: false
+  instructor:
+    _target_: llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..41102ff10e52657d81b59048b9f2c3fb0d8e0506
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
@@ -0,0 +1,156 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - policy.loss_llm_weight=1.0e-4
+    - training.seed=43
+  job:
+    name: train
+    chdir: null
+    override_dirname: policy.loss_llm_weight=1.0e-4,training.seed=43
+    id: ???
+    num: ???
+    config_name: llmdp_parking-v0.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /root/workspace/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /root/workspace/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..43fdf12740ae69078bbde887d7f93c459ddac672
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
@@ -0,0 +1,2 @@
+- policy.loss_llm_weight=1.0e-4
+- training.seed=43
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0315-test_success_rate=0.960.ckpt b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0315-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..60980c0710733ed10800e4d190fe25ba32acfcc3
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0315-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6eba4f751573af1db55b4611f20049d2d877e8cd04c949e492c6071e4a822977
+size 1042506802
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0350-test_success_rate=0.960.ckpt b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0350-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..a6e93af01b7ae786b7d3c33793b8dbcd246673c6
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0350-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3d28bff458174778246ad7c3ab319f2408a52ac08b9bbcf7b0fdad933015ce93
+size 1042506802
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0450-test_success_rate=0.960.ckpt b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0450-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..c3c7cdb3c7b4e35455af87ecff99a6b1c7025477
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0450-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:153f083fcdff25e133623946503dfc22d83f3aacf297999de28a2cd520b48bdf
+size 1042506802
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0460-test_success_rate=0.980.ckpt b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0460-test_success_rate=0.980.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..fed45d514ed059c3912a6b94d23882c969683e62
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0460-test_success_rate=0.980.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2ed9ac76a10b14e1e1466c740713a6d6d5a492cf648c3caf30bc65ea0b25cdca
+size 1042506802
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0475-test_success_rate=1.000.ckpt b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0475-test_success_rate=1.000.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..0a03194e6818b06526df7728d778b4bcda8a768a
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0475-test_success_rate=1.000.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:80e2a7682cb8024c7544b2b0225d79801acf2c6bb1bef017ee7bc59d5fa33e76
+size 1042506802
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..3dea3bd4c407282735c8fc533e8bb2479466a8b2
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fca7b2180263ae41420fc0b645b645a194cc1d92feefb02757320bae387a9736
+size 1042506802
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt
new file mode 100644
index 0000000000000000000000000000000000000000..d5f27003d4c110130413494ec24ccc761830e87a
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b1d5830fdf060e77b8beb144813bac03ec6c50d3a4a4dfdf5bd7774c816f03f7
+size 114019958
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/train.log b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..8015cf7104cb839449860bf2677e0ee1b0bdfc22
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/train.log
@@ -0,0 +1,9 @@
+[2025-12-20 07:31:08,678][numexpr.utils][INFO] - Note: detected 128 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+[2025-12-20 07:31:08,678][numexpr.utils][INFO] - Note: NumExpr detected 128 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
+[2025-12-20 07:31:08,678][numexpr.utils][INFO] - NumExpr defaulting to 16 threads.
+[2025-12-20 07:31:10,565][datasets][INFO] - PyTorch version 2.2.2 available.
+[2025-12-20 07:31:10,566][datasets][INFO] - TensorFlow version 2.15.1 available.
+[2025-12-20 07:31:10,567][datasets][INFO] - JAX version 0.4.30 available.
+[2025-12-20 07:31:12,136][llmbc.model.diffusion.conditional_unet1d][INFO] - number of parameters: 6.514023e+07
+[2025-12-20 07:31:17,700][absl][INFO] - MUJOCO_GL=osmesa, attempting to import specified OpenGL backend.
+[2025-12-20 07:31:17,704][absl][INFO] - MuJoCo library version is: 2.3.7
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..ebd5451ffbe72e2075024a35cfe93154dea51dc9
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log
@@ -0,0 +1,31 @@
+{"time":"2025-12-20T07:31:18.499466861Z","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2025-12-20T07:31:18.499476992Z","level":"INFO","msg":"created symlink","path":"/root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/logs/debug-core.log"}
+{"time":"2025-12-20T07:31:18.606304977Z","level":"INFO","msg":"created new stream","id":"czbe67ue"}
+{"time":"2025-12-20T07:31:18.606322049Z","level":"INFO","msg":"stream: started","id":"czbe67ue"}
+{"time":"2025-12-20T07:31:18.606338253Z","level":"INFO","msg":"sender: started","stream_id":"czbe67ue"}
+{"time":"2025-12-20T07:31:18.606350701Z","level":"INFO","msg":"handler: started","stream_id":{"value":"czbe67ue"}}
+{"time":"2025-12-20T07:31:18.606336657Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"czbe67ue"}}
+{"time":"2025-12-20T07:31:19.264282203Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-12-22T01:59:36.477389653Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T02:00:08.805266215Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T02:01:29.763414525Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/czbe67ue/file_stream\": EOF"}
+{"time":"2025-12-22T05:20:21.583360306Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded"}
+{"time":"2025-12-22T05:20:53.621859199Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded"}
+{"time":"2025-12-22T06:16:26.937521487Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/czbe67ue/file_stream\": EOF"}
+{"time":"2025-12-22T07:25:23.413628248Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/czbe67ue/file_stream\": unexpected EOF"}
+{"time":"2025-12-22T07:28:06.754976377Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:30:21.758134969Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:32:36.761953155Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:33:08.870277176Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:33:40.411684851Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/czbe67ue/file_stream\": read tcp 192.168.42.185:54778->35.186.228.49:443: read: connection reset by peer"}
+{"time":"2025-12-22T07:34:51.770725884Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded"}
+{"time":"2025-12-22T07:35:24.172214702Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:39:04.733337786Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/czbe67ue/file_stream\": EOF"}
+{"time":"2025-12-22T20:43:16.06416416Z","level":"INFO","msg":"stream: closing","id":"czbe67ue"}
+{"time":"2025-12-22T20:43:16.064203934Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-12-22T20:43:16.064717446Z","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2025-12-22T20:43:17.453674671Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-12-22T20:43:17.865429384Z","level":"INFO","msg":"handler: closed","stream_id":{"value":"czbe67ue"}}
+{"time":"2025-12-22T20:43:17.865460253Z","level":"INFO","msg":"sender: closed","stream_id":"czbe67ue"}
+{"time":"2025-12-22T20:43:17.865456717Z","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"czbe67ue"}}
+{"time":"2025-12-22T20:43:17.865528052Z","level":"INFO","msg":"stream: closed","id":"czbe67ue"}
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..14181ebafedcbcd9b316421ea8931cef7c797cb3
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log
@@ -0,0 +1,27 @@
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_setup.py:_flush():79] Configure stats pid to 51412
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_setup.py:_flush():79] Loading settings from /root/workspace/LLM-BC/wandb/settings
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/root/workspace/LLM-BC/train.py', 'program': '/root/workspace/LLM-BC/./train.py'}
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_setup.py:_flush():79] Applying login settings: {}
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_init.py:_log_setup():533] Logging user logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/logs/debug.log
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_init.py:_log_setup():534] Logging internal logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/logs/debug-internal.log
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_init.py:init():619] calling init triggers
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llm_diffusion_unet_lowdim', '_target_': 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace', 'obs_dim': 18, 'action_dim': 2, 'task_name': 'parking-v0', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'keypoint_visible_rate': 1.0, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy', 'model': {'_target_': 'llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D', 'input_dim': 2, 'local_cond_dim': None, 'global_cond_dim': 18, 'diffusion_step_embed_dim': 256, 'down_dims': [256, 512, 1024], 'kernel_size': 5, 'n_groups': 8, 'cond_predict_scale': True}, 'noise_scheduler': {'_target_': 'diffusers.schedulers.scheduling_ddpm.DDPMScheduler', 'num_train_timesteps': 100, 'beta_start': 0.0001, 'beta_end': 0.02, 'beta_schedule': 'squaredcos_cap_v2', 'variance_type': 'fixed_small', 'clip_sample': True, 'prediction_type': 'epsilon'}, 'horizon': 1, 'obs_dim': 18, 'action_dim': 2, 'n_action_steps': 1, 'n_obs_steps': 1, 'num_inference_steps': 100, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'oa_step_convention': True, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'parking-v0', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.31.07_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 18, 'action_dim': 2, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_dp_weight': 1.0, 'loss_llm_weight': 0.0001, 'normalize_llm_loss': True, 'reweight_llm_loss': True}, 'ema': {'_target_': 'llmbc.model.diffusion.ema_model.EMAModel', 'update_after_step': 0, 'inv_gamma': 1.0, 'power': 0.75, 'min_value': 0.0, 'max_value': 0.9999}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': False, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.0001, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 43, 'debug': False, 'resume': True, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 500, 'num_epochs': 1001, 'gradient_accumulate_every': 16, 'use_ema': True, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'parking-v0-training', 'resume': True, 'mode': 'online', 'name': '2025.12.20-07.31.07_train_llm_diffusion_unet_lowdim_parking-v0', 'tags': ['train_llm_diffusion_unet_lowdim', 'parking-v0', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0', 'wandb_name_base': '2025.12.20-07.31.07_train_llm_diffusion_unet_lowdim_parking-v0'}, 'task': {'name': 'parking-v0', 'obs_dim': 18, 'action_dim': 2, 'env_runner': {'_target_': 'llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner', 'env_name': 'llf-highway-parking-v0', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 80, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.99}, 'dataset': {'_target_': 'llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset', 'data_path': 'datasets/parking-v0.pt', 'data_path2': 'datasets/parking-v0.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.02, 'dummy_normalizer': False}, 'instructor': {'_target_': 'llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.31.07_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_init.py:init():669] starting backend
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_init.py:init():673] sending inform_init request
+2025-12-20 07:31:18,497 INFO    MainThread:51412 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-12-20 07:31:18,497 INFO    MainThread:51412 [wandb_init.py:init():686] backend started and connected
+2025-12-20 07:31:18,504 INFO    MainThread:51412 [wandb_init.py:init():781] updated telemetry
+2025-12-20 07:31:18,540 INFO    MainThread:51412 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2025-12-20 07:31:19,261 INFO    MainThread:51412 [wandb_init.py:init():867] starting run threads in backend
+2025-12-20 07:31:19,603 INFO    MainThread:51412 [wandb_run.py:_console_start():2451] atexit reg
+2025-12-20 07:31:19,603 INFO    MainThread:51412 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2025-12-20 07:31:19,603 INFO    MainThread:51412 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2025-12-20 07:31:19,603 INFO    MainThread:51412 [wandb_run.py:_redirect():2389] Redirects installed.
+2025-12-20 07:31:19,604 INFO    MainThread:51412 [wandb_init.py:init():911] run started, returning control to user process
+2025-12-20 07:31:19,605 INFO    MainThread:51412 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0'}
+2025-12-22 20:43:16,064 WARNING MsgRouterThr:51412 [router.py:message_loop():75] message_loop has been closed
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/files/config.yaml b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..a854a2fd1725a0fb28e71ad7aaa48f5908693958
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/files/config.yaml
@@ -0,0 +1,304 @@
+_target_:
+    value: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+_wandb:
+    value:
+        cli_version: 0.18.6
+        m: []
+        python_version: 3.9.25
+        t:
+            "1":
+                - 1
+                - 2
+                - 3
+                - 5
+                - 11
+                - 12
+                - 41
+                - 49
+                - 50
+                - 51
+                - 53
+                - 55
+                - 71
+                - 83
+                - 95
+                - 98
+                - 100
+                - 105
+            "2":
+                - 1
+                - 2
+                - 3
+                - 5
+                - 11
+                - 12
+                - 41
+                - 49
+                - 50
+                - 51
+                - 53
+                - 55
+                - 71
+                - 83
+                - 95
+                - 98
+                - 100
+                - 105
+            "3":
+                - 13
+                - 15
+                - 16
+                - 23
+                - 55
+                - 61
+            "4": 3.9.25
+            "5": 0.18.6
+            "6": 4.47.1
+            "8":
+                - 5
+            "12": 0.18.6
+            "13": linux-x86_64
+action_dim:
+    value: 2
+checkpoint:
+    value:
+        save_last_ckpt: true
+        save_last_snapshot: false
+        topk:
+            format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+            k: 5
+            mode: max
+            monitor_key: test_success_rate
+dataloader:
+    value:
+        batch_size: 16
+        num_workers: 0
+        persistent_workers: false
+        pin_memory: false
+        shuffle: true
+ema:
+    value:
+        _target_: llmbc.model.diffusion.ema_model.EMAModel
+        inv_gamma: 1
+        max_value: 0.9999
+        min_value: 0
+        power: 0.75
+        update_after_step: 0
+exp_name:
+    value: default
+horizon:
+    value: 1
+keypoint_visible_rate:
+    value: 1
+llm:
+    value:
+        causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+        checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+        config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+        finetune_mode: orig
+        hydra:
+            job:
+                override_dirname: HuggingFaceTB/SmolLM2-135M-Instruct
+            run:
+                dir: data/outputs/2025.12.20/07.31.07_HuggingFaceTB/SmolLM2-135M-Instruct
+        llm_mode: ete-finetuned
+        lora_config:
+            bias: none
+            lora_alpha: 64
+            lora_dropout: 0.05
+            r: 32
+            task_type: CAUSAL_LM
+        max_length: 100
+        model_name: SmolLM2-135M-Instruct
+        name: HuggingFaceTB/SmolLM2-135M-Instruct
+        prompter:
+            _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+            use_joint_mlp_projector: true
+        use_joint_mlp_projector: true
+        use_quantization: false
+llm_do_sample:
+    value: false
+llm_orig_expert_feedback:
+    value: true
+logging:
+    value:
+        group: null
+        id: null
+        mode: online
+        name: 2025.12.20-07.31.07_train_llm_diffusion_unet_lowdim_parking-v0
+        project: parking-v0-training
+        resume: true
+        tags:
+            - train_llm_diffusion_unet_lowdim
+            - parking-v0
+            - default
+model_name:
+    value: HuggingFaceTB/SmolLM2-135M-Instruct
+multi_run:
+    value:
+        run_dir: data/outputs/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0
+        wandb_name_base: 2025.12.20-07.31.07_train_llm_diffusion_unet_lowdim_parking-v0
+n_action_steps:
+    value: 1
+n_latency_steps:
+    value: 0
+n_obs_steps:
+    value: 1
+name:
+    value: train_llm_diffusion_unet_lowdim
+obs_as_global_cond:
+    value: true
+obs_as_local_cond:
+    value: false
+obs_dim:
+    value: 18
+optimizer:
+    value:
+        _target_: torch.optim.AdamW
+        betas:
+            - 0.95
+            - 0.999
+        eps: 1e-08
+        lr: 0.0001
+        weight_decay: 1e-06
+output_dir:
+    value: /root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0
+past_action_visible:
+    value: false
+policy:
+    value:
+        _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+        action_dim: 2
+        horizon: 1
+        llm_discriminator:
+            _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+            llm_translator:
+                _target_: llmbc.translator.llm_translator.LLMTranslator
+                action_dim: 2
+                cfg:
+                    causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+                    checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+                    config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+                    finetune_mode: orig
+                    hydra:
+                        job:
+                            override_dirname: HuggingFaceTB/SmolLM2-135M-Instruct
+                        run:
+                            dir: data/outputs/2025.12.20/07.31.07_HuggingFaceTB/SmolLM2-135M-Instruct
+                    llm_mode: ete-finetuned
+                    lora_config:
+                        bias: none
+                        lora_alpha: 64
+                        lora_dropout: 0.05
+                        r: 32
+                        task_type: CAUSAL_LM
+                    max_length: 100
+                    model_name: SmolLM2-135M-Instruct
+                    name: HuggingFaceTB/SmolLM2-135M-Instruct
+                    prompter:
+                        _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+                        use_joint_mlp_projector: true
+                    use_joint_mlp_projector: true
+                    use_quantization: false
+                horizon: 1
+                n_action_steps: 1
+                n_obs_steps: 1
+                obs_dim: 18
+            task_id: parking-v0
+        loss_dp_weight: 1
+        loss_llm_weight: 0.0001
+        model:
+            _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+            cond_predict_scale: true
+            diffusion_step_embed_dim: 256
+            down_dims:
+                - 256
+                - 512
+                - 1024
+            global_cond_dim: 18
+            input_dim: 2
+            kernel_size: 5
+            local_cond_dim: null
+            n_groups: 8
+        n_action_steps: 1
+        n_obs_steps: 1
+        noise_scheduler:
+            _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+            beta_end: 0.02
+            beta_schedule: squaredcos_cap_v2
+            beta_start: 0.0001
+            clip_sample: true
+            num_train_timesteps: 100
+            prediction_type: epsilon
+            variance_type: fixed_small
+        normalize_llm_loss: true
+        num_inference_steps: 100
+        oa_step_convention: true
+        obs_as_global_cond: true
+        obs_as_local_cond: false
+        obs_dim: 18
+        pred_action_steps_only: false
+        reweight_llm_loss: true
+pred_action_steps_only:
+    value: false
+task:
+    value:
+        action_dim: 2
+        dataset:
+            _target_: llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset
+            data_path: datasets/parking-v0.pt
+            data_path2: datasets/parking-v0.pt
+            dummy_normalizer: false
+            horizon: 1
+            obs_eef_target: true
+            pad_after: 0
+            pad_before: 0
+            use_manual_normalizer: false
+            val_ratio: 0.02
+        env_runner:
+            _target_: llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner
+            discount: 0.99
+            env_name: llf-highway-parking-v0
+            feedback_type:
+                - hp
+                - hn
+                - fp
+            instruction_type: b
+            max_steps: 80
+            n_action_steps: 1
+            n_envs: 10
+            n_obs_steps: 1
+            n_test: 50
+            n_train: 10
+            visual: false
+        instructor:
+            _target_: llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor
+        name: parking-v0
+        obs_dim: 18
+task_name:
+    value: parking-v0
+training:
+    value:
+        checkpoint_every: 5
+        debug: false
+        device: cuda:0
+        gradient_accumulate_every: 16
+        lr_scheduler: cosine
+        lr_warmup_steps: 500
+        max_train_steps: null
+        max_val_steps: null
+        num_epochs: 1001
+        resume: true
+        rollout_every: 5
+        sample_every: 5
+        seed: 43
+        tqdm_interval_sec: 1
+        use_ema: true
+        val_every: 1
+val_dataloader:
+    value:
+        batch_size: 16
+        num_workers: 0
+        persistent_workers: false
+        pin_memory: false
+        shuffle: false
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/files/output.log b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..448d06d2d2ba2d71b200279007a034f123ad0bde
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/files/output.log
@@ -0,0 +1,8 @@
+/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/stable_baselines3/common/save_util.py:166: UserWarning: Could not deserialize object lr_schedule. Consider using `custom_objects` argument to replace this object.
+Exception: Can't get attribute 'FloatSchedule' on <module 'stable_baselines3.common.utils' from '/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/stable_baselines3/common/utils.py'>
+  warnings.warn(
+Wrapping the env with a `Monitor` wrapper
+Wrapping the env in a DummyVecEnv.
+Eval HighwayLowdimRunner 1/6:   0%|                                                          | 0/80 [00:00<?, ?it/s]/root/workspace/LLM-BC/llmbc/common/llfbench_util.py:39: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:275.)
+  obs = torch.tensor(obs, dtype=torch.float32).unsqueeze(dim=0).to(device)
+                                                                                                                    
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/files/wandb-metadata.json b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..3a0ce0ec50cd321088d5ec31656b3582cde08e30
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/files/wandb-metadata.json
@@ -0,0 +1,57 @@
+{
+  "os": "Linux-4.18.0-513.24.1.el8_9.x86_64-x86_64-with-glibc2.31",
+  "python": "3.9.25",
+  "startedAt": "2025-12-20T07:31:18.497782Z",
+  "args": [
+    "--config-path",
+    "./config/main_table",
+    "--config-name",
+    "llmdp_parking-v0.yaml",
+    "policy.loss_llm_weight=1.0e-4",
+    "training.seed=43"
+  ],
+  "program": "/root/workspace/LLM-BC/./train.py",
+  "codePath": "train.py",
+  "git": {
+    "remote": "https://github.com/CHYang25/LLM-BC.git",
+    "commit": "19d4c838d567a3f93b4721dcb5cefc20b4873e61"
+  },
+  "email": "chris920325@gmail.com",
+  "root": "/root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0",
+  "host": "llmbc-cuda-545d8cd8bc-9ltjf",
+  "username": "root",
+  "executable": "/root/miniconda3/envs/llm-bc/bin/python3",
+  "codePathLocal": "train.py",
+  "cpu_count": 64,
+  "cpu_count_logical": 128,
+  "gpu": "NVIDIA H100 80GB HBM3",
+  "gpu_count": 2,
+  "disk": {
+    "/": {
+      "total": "23041585184768",
+      "used": "576838209536"
+    }
+  },
+  "memory": {
+    "total": "2163619737600"
+  },
+  "cpu": {
+    "count": 64,
+    "countLogical": 128
+  },
+  "gpu_nvidia": [
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    },
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    }
+  ],
+  "cudaVersion": "12.8"
+}
\ No newline at end of file
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/files/wandb-summary.json b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..7d5c6d27226b8c779efca0370efae1345c5da671
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/files/wandb-summary.json
@@ -0,0 +1 @@
+{"test/success_rate":0.94,"train/cumulative_reward":-7.135726789024817,"train_loss":0.007464625844878557,"train/success_rate":0.9,"_wandb":{"runtime":220317},"epoch":1000,"test/cumulative_reward":-7.041289033456054,"_step":655654,"test/mean_score":-0.10992037004160543,"train/mean_score":-0.10535842509706109,"global_step":655654,"_runtime":220317.566406773,"train_action_mse_error":0.00011249375529587269,"train_loss_llm":0,"lr":1.505919167144043e-13,"val_loss":0.09951873868703842,"train_loss_dp":0.0005210948875173926,"_timestamp":1.766436193445756e+09}
\ No newline at end of file
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/logs/debug-core.log b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..ba9d46db4cb043c9b54bdd5c75c8d654265fbcb2
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/logs/debug-core.log
@@ -0,0 +1,14 @@
+{"time":"2025-12-20T07:31:17.905012362Z","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmpumyl0idh/port-51412.txt","pid":51412,"debug":false,"disable-analytics":false}
+{"time":"2025-12-20T07:31:17.905039812Z","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2025-12-20T07:31:17.906044253Z","level":"INFO","msg":"Will exit if parent process dies.","ppid":51412}
+{"time":"2025-12-20T07:31:17.906044229Z","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":36539,"Zone":""}}
+{"time":"2025-12-20T07:31:18.099670239Z","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:33946"}
+{"time":"2025-12-20T07:31:18.49935716Z","level":"INFO","msg":"handleInformInit: received","streamId":"czbe67ue","id":"127.0.0.1:33946"}
+{"time":"2025-12-20T07:31:18.606324966Z","level":"INFO","msg":"handleInformInit: stream started","streamId":"czbe67ue","id":"127.0.0.1:33946"}
+{"time":"2025-12-22T20:43:16.06410038Z","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:33946"}
+{"time":"2025-12-22T20:43:16.064166521Z","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:33946"}
+{"time":"2025-12-22T20:43:16.064175171Z","level":"INFO","msg":"server is shutting down"}
+{"time":"2025-12-22T20:43:16.0642278Z","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:33946"}
+{"time":"2025-12-22T20:43:17.865560234Z","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:33946"}
+{"time":"2025-12-22T20:43:17.865570891Z","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:33946"}
+{"time":"2025-12-22T20:43:17.865575141Z","level":"INFO","msg":"server is closed"}
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/logs/debug-internal.log b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..ebd5451ffbe72e2075024a35cfe93154dea51dc9
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/logs/debug-internal.log
@@ -0,0 +1,31 @@
+{"time":"2025-12-20T07:31:18.499466861Z","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2025-12-20T07:31:18.499476992Z","level":"INFO","msg":"created symlink","path":"/root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/logs/debug-core.log"}
+{"time":"2025-12-20T07:31:18.606304977Z","level":"INFO","msg":"created new stream","id":"czbe67ue"}
+{"time":"2025-12-20T07:31:18.606322049Z","level":"INFO","msg":"stream: started","id":"czbe67ue"}
+{"time":"2025-12-20T07:31:18.606338253Z","level":"INFO","msg":"sender: started","stream_id":"czbe67ue"}
+{"time":"2025-12-20T07:31:18.606350701Z","level":"INFO","msg":"handler: started","stream_id":{"value":"czbe67ue"}}
+{"time":"2025-12-20T07:31:18.606336657Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"czbe67ue"}}
+{"time":"2025-12-20T07:31:19.264282203Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-12-22T01:59:36.477389653Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T02:00:08.805266215Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T02:01:29.763414525Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/czbe67ue/file_stream\": EOF"}
+{"time":"2025-12-22T05:20:21.583360306Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded"}
+{"time":"2025-12-22T05:20:53.621859199Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded"}
+{"time":"2025-12-22T06:16:26.937521487Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/czbe67ue/file_stream\": EOF"}
+{"time":"2025-12-22T07:25:23.413628248Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/czbe67ue/file_stream\": unexpected EOF"}
+{"time":"2025-12-22T07:28:06.754976377Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:30:21.758134969Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:32:36.761953155Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:33:08.870277176Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:33:40.411684851Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/czbe67ue/file_stream\": read tcp 192.168.42.185:54778->35.186.228.49:443: read: connection reset by peer"}
+{"time":"2025-12-22T07:34:51.770725884Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded"}
+{"time":"2025-12-22T07:35:24.172214702Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:39:04.733337786Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/czbe67ue/file_stream\": EOF"}
+{"time":"2025-12-22T20:43:16.06416416Z","level":"INFO","msg":"stream: closing","id":"czbe67ue"}
+{"time":"2025-12-22T20:43:16.064203934Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-12-22T20:43:16.064717446Z","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2025-12-22T20:43:17.453674671Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-12-22T20:43:17.865429384Z","level":"INFO","msg":"handler: closed","stream_id":{"value":"czbe67ue"}}
+{"time":"2025-12-22T20:43:17.865460253Z","level":"INFO","msg":"sender: closed","stream_id":"czbe67ue"}
+{"time":"2025-12-22T20:43:17.865456717Z","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"czbe67ue"}}
+{"time":"2025-12-22T20:43:17.865528052Z","level":"INFO","msg":"stream: closed","id":"czbe67ue"}
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/logs/debug.log b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..14181ebafedcbcd9b316421ea8931cef7c797cb3
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/logs/debug.log
@@ -0,0 +1,27 @@
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_setup.py:_flush():79] Configure stats pid to 51412
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_setup.py:_flush():79] Loading settings from /root/workspace/LLM-BC/wandb/settings
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/root/workspace/LLM-BC/train.py', 'program': '/root/workspace/LLM-BC/./train.py'}
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_setup.py:_flush():79] Applying login settings: {}
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_init.py:_log_setup():533] Logging user logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/logs/debug.log
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_init.py:_log_setup():534] Logging internal logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/logs/debug-internal.log
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_init.py:init():619] calling init triggers
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llm_diffusion_unet_lowdim', '_target_': 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace', 'obs_dim': 18, 'action_dim': 2, 'task_name': 'parking-v0', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'keypoint_visible_rate': 1.0, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy', 'model': {'_target_': 'llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D', 'input_dim': 2, 'local_cond_dim': None, 'global_cond_dim': 18, 'diffusion_step_embed_dim': 256, 'down_dims': [256, 512, 1024], 'kernel_size': 5, 'n_groups': 8, 'cond_predict_scale': True}, 'noise_scheduler': {'_target_': 'diffusers.schedulers.scheduling_ddpm.DDPMScheduler', 'num_train_timesteps': 100, 'beta_start': 0.0001, 'beta_end': 0.02, 'beta_schedule': 'squaredcos_cap_v2', 'variance_type': 'fixed_small', 'clip_sample': True, 'prediction_type': 'epsilon'}, 'horizon': 1, 'obs_dim': 18, 'action_dim': 2, 'n_action_steps': 1, 'n_obs_steps': 1, 'num_inference_steps': 100, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'oa_step_convention': True, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'parking-v0', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.31.07_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 18, 'action_dim': 2, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_dp_weight': 1.0, 'loss_llm_weight': 0.0001, 'normalize_llm_loss': True, 'reweight_llm_loss': True}, 'ema': {'_target_': 'llmbc.model.diffusion.ema_model.EMAModel', 'update_after_step': 0, 'inv_gamma': 1.0, 'power': 0.75, 'min_value': 0.0, 'max_value': 0.9999}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': False, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.0001, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 43, 'debug': False, 'resume': True, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 500, 'num_epochs': 1001, 'gradient_accumulate_every': 16, 'use_ema': True, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'parking-v0-training', 'resume': True, 'mode': 'online', 'name': '2025.12.20-07.31.07_train_llm_diffusion_unet_lowdim_parking-v0', 'tags': ['train_llm_diffusion_unet_lowdim', 'parking-v0', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0', 'wandb_name_base': '2025.12.20-07.31.07_train_llm_diffusion_unet_lowdim_parking-v0'}, 'task': {'name': 'parking-v0', 'obs_dim': 18, 'action_dim': 2, 'env_runner': {'_target_': 'llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner', 'env_name': 'llf-highway-parking-v0', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 80, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.99}, 'dataset': {'_target_': 'llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset', 'data_path': 'datasets/parking-v0.pt', 'data_path2': 'datasets/parking-v0.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.02, 'dummy_normalizer': False}, 'instructor': {'_target_': 'llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.31.07_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_init.py:init():669] starting backend
+2025-12-20 07:31:18,496 INFO    MainThread:51412 [wandb_init.py:init():673] sending inform_init request
+2025-12-20 07:31:18,497 INFO    MainThread:51412 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-12-20 07:31:18,497 INFO    MainThread:51412 [wandb_init.py:init():686] backend started and connected
+2025-12-20 07:31:18,504 INFO    MainThread:51412 [wandb_init.py:init():781] updated telemetry
+2025-12-20 07:31:18,540 INFO    MainThread:51412 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2025-12-20 07:31:19,261 INFO    MainThread:51412 [wandb_init.py:init():867] starting run threads in backend
+2025-12-20 07:31:19,603 INFO    MainThread:51412 [wandb_run.py:_console_start():2451] atexit reg
+2025-12-20 07:31:19,603 INFO    MainThread:51412 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2025-12-20 07:31:19,603 INFO    MainThread:51412 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2025-12-20 07:31:19,603 INFO    MainThread:51412 [wandb_run.py:_redirect():2389] Redirects installed.
+2025-12-20 07:31:19,604 INFO    MainThread:51412 [wandb_init.py:init():911] run started, returning control to user process
+2025-12-20 07:31:19,605 INFO    MainThread:51412 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0'}
+2025-12-22 20:43:16,064 WARNING MsgRouterThr:51412 [router.py:message_loop():75] message_loop has been closed
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/run-czbe67ue.wandb b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/run-czbe67ue.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..f9323a02ecb51bd52cf35a748136550e82f82036
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073118-czbe67ue/run-czbe67ue.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a3576ca8e8f642ec0ec2c6957d03b2553964033b4c04103d9d31eab2f9b68a6b
+size 599048446
diff --git a/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json
new file mode 100644
index 0000000000000000000000000000000000000000..3e1a479d0d95928ccaa3426da365fca1467795a4
--- /dev/null
+++ b/2025.12.20/07.31.07_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json
@@ -0,0 +1 @@
+{"run_id": "czbe67ue"}
\ No newline at end of file
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..99439703092d2a071cbdc3c2d6fac256ef8e29d6
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
@@ -0,0 +1,193 @@
+name: train_llm_diffusion_unet_lowdim
+_target_: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+keypoint_visible_rate: 1.0
+obs_as_local_cond: false
+obs_as_global_cond: true
+pred_action_steps_only: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+  model:
+    _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+    input_dim: '${eval: ${task.action_dim} if ${obs_as_local_cond} or ${obs_as_global_cond}
+      else ${task.obs_dim} + ${task.action_dim}}'
+    local_cond_dim: '${eval: ${task.obs_dim} if ${obs_as_local_cond} else None}'
+    global_cond_dim: '${eval: ${task.obs_dim}*${n_obs_steps} if ${obs_as_global_cond}
+      else None}'
+    diffusion_step_embed_dim: 256
+    down_dims:
+    - 256
+    - 512
+    - 1024
+    kernel_size: 5
+    n_groups: 8
+    cond_predict_scale: true
+  noise_scheduler:
+    _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+    num_train_timesteps: 100
+    beta_start: 0.0001
+    beta_end: 0.02
+    beta_schedule: squaredcos_cap_v2
+    variance_type: fixed_small
+    clip_sample: true
+    prediction_type: epsilon
+  horizon: ${horizon}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  n_obs_steps: ${n_obs_steps}
+  num_inference_steps: 100
+  obs_as_local_cond: ${obs_as_local_cond}
+  obs_as_global_cond: ${obs_as_global_cond}
+  pred_action_steps_only: ${pred_action_steps_only}
+  oa_step_convention: true
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${obs_dim}
+      action_dim: ${action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  loss_dp_weight: 1.0
+  loss_llm_weight: 0.0001
+  normalize_llm_loss: true
+  reweight_llm_loss: true
+ema:
+  _target_: llmbc.model.diffusion.ema_model.EMAModel
+  update_after_step: 0
+  inv_gamma: 1.0
+  power: 0.75
+  min_value: 0.0
+  max_value: 0.9999
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: false
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.0001
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 44
+  debug: false
+  resume: true
+  lr_scheduler: cosine
+  lr_warmup_steps: 500
+  num_epochs: 1001
+  gradient_accumulate_every: 16
+  use_ema: true
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: parking-v0
+  obs_dim: 18
+  action_dim: 2
+  env_runner:
+    _target_: llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner
+    env_name: llf-highway-parking-v0
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 80
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    - fp
+    visual: false
+    discount: 0.99
+  dataset:
+    _target_: llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset
+    data_path: datasets/parking-v0.pt
+    data_path2: datasets/parking-v0.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    obs_eef_target: true
+    use_manual_normalizer: false
+    val_ratio: 0.02
+    dummy_normalizer: false
+  instructor:
+    _target_: llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..d15708ab374ed9b67fc6ddd2b62122161d724eb0
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
@@ -0,0 +1,156 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - policy.loss_llm_weight=1.0e-4
+    - training.seed=44
+  job:
+    name: train
+    chdir: null
+    override_dirname: policy.loss_llm_weight=1.0e-4,training.seed=44
+    id: ???
+    num: ???
+    config_name: llmdp_parking-v0.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /root/workspace/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /root/workspace/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..aa36688f8bf60ec2902c5105e69ecaaedd625411
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
@@ -0,0 +1,2 @@
+- policy.loss_llm_weight=1.0e-4
+- training.seed=44
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0360-test_success_rate=0.960.ckpt b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0360-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..c70eab911a978f073d64e5332af98cc9baa64b33
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0360-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d6f40959d1b74721f00a5adbfac46418c0f00d1f670e4d000c28b00088d65628
+size 1042506802
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0395-test_success_rate=0.960.ckpt b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0395-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..16f9eef25434cda1dc2bcc44e07ecada24b9f366
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0395-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bc0df81a57347cd06c8ec4c8dc977f5dd0634c513f3ed4e635fa3bb16d9ef650
+size 1042506802
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0545-test_success_rate=0.960.ckpt b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0545-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..6510f8b943d317cd9f7311005343d7be21adcadf
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0545-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:96915c95a3d14f38eb9b5bc174afdec303e169bb9b61f049ffefae295e156e60
+size 1042506802
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0580-test_success_rate=0.960.ckpt b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0580-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..e7b08294560a85ec2928d2184526b6363d27475e
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0580-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:07df87473a5f75296e3a5f3bca610f658017ad75646ce987fbba39dc03b43e52
+size 1042506802
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0910-test_success_rate=0.980.ckpt b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0910-test_success_rate=0.980.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..21cf3873433b9224e5e60dbfd72e8cb758e8010c
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0910-test_success_rate=0.980.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:41e2a40c237d34d4ab071e0164fdb8490cf064d2c2522883b583f6c81dc5c35f
+size 1042506802
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..f3a9be62345084cc0d0131bc5270bc1e1810ae8f
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:91717bc31cb9dfe6b8e9400220101aed2eb08c8cf7eb91a2ca57c323149a7469
+size 1042506802
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt
new file mode 100644
index 0000000000000000000000000000000000000000..62b8f6bf83136daa704cf5adb831a6901563edfd
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3c802f93c6b212c49263664c8e1fe888b6d11010aaa750c45ababcfbaedb2842
+size 114033139
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/train.log b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..9ff94fa9766e6bd7cbca22c125b9a549f41f919a
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/train.log
@@ -0,0 +1,9 @@
+[2025-12-20 07:31:28,378][numexpr.utils][INFO] - Note: detected 128 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+[2025-12-20 07:31:28,378][numexpr.utils][INFO] - Note: NumExpr detected 128 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
+[2025-12-20 07:31:28,378][numexpr.utils][INFO] - NumExpr defaulting to 16 threads.
+[2025-12-20 07:31:30,289][datasets][INFO] - PyTorch version 2.2.2 available.
+[2025-12-20 07:31:30,289][datasets][INFO] - TensorFlow version 2.15.1 available.
+[2025-12-20 07:31:30,290][datasets][INFO] - JAX version 0.4.30 available.
+[2025-12-20 07:31:31,704][llmbc.model.diffusion.conditional_unet1d][INFO] - number of parameters: 6.514023e+07
+[2025-12-20 07:31:37,842][absl][INFO] - MUJOCO_GL=osmesa, attempting to import specified OpenGL backend.
+[2025-12-20 07:31:37,847][absl][INFO] - MuJoCo library version is: 2.3.7
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..6aa1b2b9b7a7728661c5197d0f7e5fa94b2e4538
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log
@@ -0,0 +1,32 @@
+{"time":"2025-12-20T07:31:38.641768357Z","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2025-12-20T07:31:38.641777158Z","level":"INFO","msg":"created symlink","path":"/root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/logs/debug-core.log"}
+{"time":"2025-12-20T07:31:38.750724198Z","level":"INFO","msg":"created new stream","id":"pgfbe1bv"}
+{"time":"2025-12-20T07:31:38.750752031Z","level":"INFO","msg":"stream: started","id":"pgfbe1bv"}
+{"time":"2025-12-20T07:31:38.750774525Z","level":"INFO","msg":"sender: started","stream_id":"pgfbe1bv"}
+{"time":"2025-12-20T07:31:38.750763768Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"pgfbe1bv"}}
+{"time":"2025-12-20T07:31:38.750774022Z","level":"INFO","msg":"handler: started","stream_id":{"value":"pgfbe1bv"}}
+{"time":"2025-12-20T07:31:39.377880416Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-12-22T01:59:56.090093148Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T02:00:28.382016043Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T02:01:02.500615538Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T02:01:42.354301841Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T02:02:30.769741008Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T02:02:50.16775355Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/pgfbe1bv/file_stream\": dial tcp 35.186.228.49:443: connect: connection timed out"}
+{"time":"2025-12-22T02:03:33.728398696Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T06:16:20.976637972Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/pgfbe1bv/file_stream\": unexpected EOF"}
+{"time":"2025-12-22T07:26:08.78027812Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/pgfbe1bv/file_stream\": unexpected EOF"}
+{"time":"2025-12-22T07:26:50.372250389Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/pgfbe1bv/file_stream\": unexpected EOF"}
+{"time":"2025-12-22T07:29:18.312007712Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/pgfbe1bv/file_stream\": unexpected EOF"}
+{"time":"2025-12-22T07:29:41.230346932Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded"}
+{"time":"2025-12-22T07:32:41.236256435Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:33:40.411625949Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/pgfbe1bv/file_stream\": read tcp 192.168.42.185:54802->35.186.228.49:443: read: connection reset by peer"}
+{"time":"2025-12-22T07:35:26.241650543Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:35:58.312386075Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T20:43:43.162077215Z","level":"INFO","msg":"stream: closing","id":"pgfbe1bv"}
+{"time":"2025-12-22T20:43:43.16210287Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-12-22T20:43:43.162607761Z","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2025-12-22T20:43:44.592269656Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-12-22T20:43:44.882027745Z","level":"INFO","msg":"handler: closed","stream_id":{"value":"pgfbe1bv"}}
+{"time":"2025-12-22T20:43:44.882051293Z","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"pgfbe1bv"}}
+{"time":"2025-12-22T20:43:44.882063908Z","level":"INFO","msg":"sender: closed","stream_id":"pgfbe1bv"}
+{"time":"2025-12-22T20:43:44.882097823Z","level":"INFO","msg":"stream: closed","id":"pgfbe1bv"}
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..77f11815739b01fe271856fca19c9d69e27fc6e4
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log
@@ -0,0 +1,27 @@
+2025-12-20 07:31:38,638 INFO    MainThread:51670 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2025-12-20 07:31:38,638 INFO    MainThread:51670 [wandb_setup.py:_flush():79] Configure stats pid to 51670
+2025-12-20 07:31:38,638 INFO    MainThread:51670 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2025-12-20 07:31:38,638 INFO    MainThread:51670 [wandb_setup.py:_flush():79] Loading settings from /root/workspace/LLM-BC/wandb/settings
+2025-12-20 07:31:38,638 INFO    MainThread:51670 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2025-12-20 07:31:38,638 INFO    MainThread:51670 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2025-12-20 07:31:38,638 INFO    MainThread:51670 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/root/workspace/LLM-BC/train.py', 'program': '/root/workspace/LLM-BC/./train.py'}
+2025-12-20 07:31:38,638 INFO    MainThread:51670 [wandb_setup.py:_flush():79] Applying login settings: {}
+2025-12-20 07:31:38,639 INFO    MainThread:51670 [wandb_init.py:_log_setup():533] Logging user logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/logs/debug.log
+2025-12-20 07:31:38,639 INFO    MainThread:51670 [wandb_init.py:_log_setup():534] Logging internal logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/logs/debug-internal.log
+2025-12-20 07:31:38,639 INFO    MainThread:51670 [wandb_init.py:init():619] calling init triggers
+2025-12-20 07:31:38,639 INFO    MainThread:51670 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llm_diffusion_unet_lowdim', '_target_': 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace', 'obs_dim': 18, 'action_dim': 2, 'task_name': 'parking-v0', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'keypoint_visible_rate': 1.0, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy', 'model': {'_target_': 'llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D', 'input_dim': 2, 'local_cond_dim': None, 'global_cond_dim': 18, 'diffusion_step_embed_dim': 256, 'down_dims': [256, 512, 1024], 'kernel_size': 5, 'n_groups': 8, 'cond_predict_scale': True}, 'noise_scheduler': {'_target_': 'diffusers.schedulers.scheduling_ddpm.DDPMScheduler', 'num_train_timesteps': 100, 'beta_start': 0.0001, 'beta_end': 0.02, 'beta_schedule': 'squaredcos_cap_v2', 'variance_type': 'fixed_small', 'clip_sample': True, 'prediction_type': 'epsilon'}, 'horizon': 1, 'obs_dim': 18, 'action_dim': 2, 'n_action_steps': 1, 'n_obs_steps': 1, 'num_inference_steps': 100, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'oa_step_convention': True, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'parking-v0', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.31.26_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 18, 'action_dim': 2, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_dp_weight': 1.0, 'loss_llm_weight': 0.0001, 'normalize_llm_loss': True, 'reweight_llm_loss': True}, 'ema': {'_target_': 'llmbc.model.diffusion.ema_model.EMAModel', 'update_after_step': 0, 'inv_gamma': 1.0, 'power': 0.75, 'min_value': 0.0, 'max_value': 0.9999}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': False, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.0001, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 44, 'debug': False, 'resume': True, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 500, 'num_epochs': 1001, 'gradient_accumulate_every': 16, 'use_ema': True, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'parking-v0-training', 'resume': True, 'mode': 'online', 'name': '2025.12.20-07.31.26_train_llm_diffusion_unet_lowdim_parking-v0', 'tags': ['train_llm_diffusion_unet_lowdim', 'parking-v0', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0', 'wandb_name_base': '2025.12.20-07.31.26_train_llm_diffusion_unet_lowdim_parking-v0'}, 'task': {'name': 'parking-v0', 'obs_dim': 18, 'action_dim': 2, 'env_runner': {'_target_': 'llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner', 'env_name': 'llf-highway-parking-v0', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 80, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.99}, 'dataset': {'_target_': 'llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset', 'data_path': 'datasets/parking-v0.pt', 'data_path2': 'datasets/parking-v0.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.02, 'dummy_normalizer': False}, 'instructor': {'_target_': 'llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.31.26_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2025-12-20 07:31:38,639 INFO    MainThread:51670 [wandb_init.py:init():669] starting backend
+2025-12-20 07:31:38,639 INFO    MainThread:51670 [wandb_init.py:init():673] sending inform_init request
+2025-12-20 07:31:38,640 INFO    MainThread:51670 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-12-20 07:31:38,640 INFO    MainThread:51670 [wandb_init.py:init():686] backend started and connected
+2025-12-20 07:31:38,647 INFO    MainThread:51670 [wandb_init.py:init():781] updated telemetry
+2025-12-20 07:31:38,678 INFO    MainThread:51670 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2025-12-20 07:31:39,374 INFO    MainThread:51670 [wandb_init.py:init():867] starting run threads in backend
+2025-12-20 07:31:39,716 INFO    MainThread:51670 [wandb_run.py:_console_start():2451] atexit reg
+2025-12-20 07:31:39,716 INFO    MainThread:51670 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2025-12-20 07:31:39,716 INFO    MainThread:51670 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2025-12-20 07:31:39,716 INFO    MainThread:51670 [wandb_run.py:_redirect():2389] Redirects installed.
+2025-12-20 07:31:39,717 INFO    MainThread:51670 [wandb_init.py:init():911] run started, returning control to user process
+2025-12-20 07:31:39,717 INFO    MainThread:51670 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0'}
+2025-12-22 20:43:43,162 WARNING MsgRouterThr:51670 [router.py:message_loop():75] message_loop has been closed
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/files/config.yaml b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..0527eb49601be4025c4b5bda62fb364752f6a7a1
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/files/config.yaml
@@ -0,0 +1,304 @@
+_target_:
+    value: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+_wandb:
+    value:
+        cli_version: 0.18.6
+        m: []
+        python_version: 3.9.25
+        t:
+            "1":
+                - 1
+                - 2
+                - 3
+                - 5
+                - 11
+                - 12
+                - 41
+                - 49
+                - 50
+                - 51
+                - 53
+                - 55
+                - 71
+                - 83
+                - 95
+                - 98
+                - 100
+                - 105
+            "2":
+                - 1
+                - 2
+                - 3
+                - 5
+                - 11
+                - 12
+                - 41
+                - 49
+                - 50
+                - 51
+                - 53
+                - 55
+                - 71
+                - 83
+                - 95
+                - 98
+                - 100
+                - 105
+            "3":
+                - 13
+                - 15
+                - 16
+                - 23
+                - 55
+                - 61
+            "4": 3.9.25
+            "5": 0.18.6
+            "6": 4.47.1
+            "8":
+                - 5
+            "12": 0.18.6
+            "13": linux-x86_64
+action_dim:
+    value: 2
+checkpoint:
+    value:
+        save_last_ckpt: true
+        save_last_snapshot: false
+        topk:
+            format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+            k: 5
+            mode: max
+            monitor_key: test_success_rate
+dataloader:
+    value:
+        batch_size: 16
+        num_workers: 0
+        persistent_workers: false
+        pin_memory: false
+        shuffle: true
+ema:
+    value:
+        _target_: llmbc.model.diffusion.ema_model.EMAModel
+        inv_gamma: 1
+        max_value: 0.9999
+        min_value: 0
+        power: 0.75
+        update_after_step: 0
+exp_name:
+    value: default
+horizon:
+    value: 1
+keypoint_visible_rate:
+    value: 1
+llm:
+    value:
+        causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+        checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+        config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+        finetune_mode: orig
+        hydra:
+            job:
+                override_dirname: HuggingFaceTB/SmolLM2-135M-Instruct
+            run:
+                dir: data/outputs/2025.12.20/07.31.26_HuggingFaceTB/SmolLM2-135M-Instruct
+        llm_mode: ete-finetuned
+        lora_config:
+            bias: none
+            lora_alpha: 64
+            lora_dropout: 0.05
+            r: 32
+            task_type: CAUSAL_LM
+        max_length: 100
+        model_name: SmolLM2-135M-Instruct
+        name: HuggingFaceTB/SmolLM2-135M-Instruct
+        prompter:
+            _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+            use_joint_mlp_projector: true
+        use_joint_mlp_projector: true
+        use_quantization: false
+llm_do_sample:
+    value: false
+llm_orig_expert_feedback:
+    value: true
+logging:
+    value:
+        group: null
+        id: null
+        mode: online
+        name: 2025.12.20-07.31.26_train_llm_diffusion_unet_lowdim_parking-v0
+        project: parking-v0-training
+        resume: true
+        tags:
+            - train_llm_diffusion_unet_lowdim
+            - parking-v0
+            - default
+model_name:
+    value: HuggingFaceTB/SmolLM2-135M-Instruct
+multi_run:
+    value:
+        run_dir: data/outputs/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0
+        wandb_name_base: 2025.12.20-07.31.26_train_llm_diffusion_unet_lowdim_parking-v0
+n_action_steps:
+    value: 1
+n_latency_steps:
+    value: 0
+n_obs_steps:
+    value: 1
+name:
+    value: train_llm_diffusion_unet_lowdim
+obs_as_global_cond:
+    value: true
+obs_as_local_cond:
+    value: false
+obs_dim:
+    value: 18
+optimizer:
+    value:
+        _target_: torch.optim.AdamW
+        betas:
+            - 0.95
+            - 0.999
+        eps: 1e-08
+        lr: 0.0001
+        weight_decay: 1e-06
+output_dir:
+    value: /root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0
+past_action_visible:
+    value: false
+policy:
+    value:
+        _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+        action_dim: 2
+        horizon: 1
+        llm_discriminator:
+            _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+            llm_translator:
+                _target_: llmbc.translator.llm_translator.LLMTranslator
+                action_dim: 2
+                cfg:
+                    causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+                    checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+                    config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+                    finetune_mode: orig
+                    hydra:
+                        job:
+                            override_dirname: HuggingFaceTB/SmolLM2-135M-Instruct
+                        run:
+                            dir: data/outputs/2025.12.20/07.31.26_HuggingFaceTB/SmolLM2-135M-Instruct
+                    llm_mode: ete-finetuned
+                    lora_config:
+                        bias: none
+                        lora_alpha: 64
+                        lora_dropout: 0.05
+                        r: 32
+                        task_type: CAUSAL_LM
+                    max_length: 100
+                    model_name: SmolLM2-135M-Instruct
+                    name: HuggingFaceTB/SmolLM2-135M-Instruct
+                    prompter:
+                        _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+                        use_joint_mlp_projector: true
+                    use_joint_mlp_projector: true
+                    use_quantization: false
+                horizon: 1
+                n_action_steps: 1
+                n_obs_steps: 1
+                obs_dim: 18
+            task_id: parking-v0
+        loss_dp_weight: 1
+        loss_llm_weight: 0.0001
+        model:
+            _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+            cond_predict_scale: true
+            diffusion_step_embed_dim: 256
+            down_dims:
+                - 256
+                - 512
+                - 1024
+            global_cond_dim: 18
+            input_dim: 2
+            kernel_size: 5
+            local_cond_dim: null
+            n_groups: 8
+        n_action_steps: 1
+        n_obs_steps: 1
+        noise_scheduler:
+            _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+            beta_end: 0.02
+            beta_schedule: squaredcos_cap_v2
+            beta_start: 0.0001
+            clip_sample: true
+            num_train_timesteps: 100
+            prediction_type: epsilon
+            variance_type: fixed_small
+        normalize_llm_loss: true
+        num_inference_steps: 100
+        oa_step_convention: true
+        obs_as_global_cond: true
+        obs_as_local_cond: false
+        obs_dim: 18
+        pred_action_steps_only: false
+        reweight_llm_loss: true
+pred_action_steps_only:
+    value: false
+task:
+    value:
+        action_dim: 2
+        dataset:
+            _target_: llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset
+            data_path: datasets/parking-v0.pt
+            data_path2: datasets/parking-v0.pt
+            dummy_normalizer: false
+            horizon: 1
+            obs_eef_target: true
+            pad_after: 0
+            pad_before: 0
+            use_manual_normalizer: false
+            val_ratio: 0.02
+        env_runner:
+            _target_: llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner
+            discount: 0.99
+            env_name: llf-highway-parking-v0
+            feedback_type:
+                - hp
+                - hn
+                - fp
+            instruction_type: b
+            max_steps: 80
+            n_action_steps: 1
+            n_envs: 10
+            n_obs_steps: 1
+            n_test: 50
+            n_train: 10
+            visual: false
+        instructor:
+            _target_: llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor
+        name: parking-v0
+        obs_dim: 18
+task_name:
+    value: parking-v0
+training:
+    value:
+        checkpoint_every: 5
+        debug: false
+        device: cuda:0
+        gradient_accumulate_every: 16
+        lr_scheduler: cosine
+        lr_warmup_steps: 500
+        max_train_steps: null
+        max_val_steps: null
+        num_epochs: 1001
+        resume: true
+        rollout_every: 5
+        sample_every: 5
+        seed: 44
+        tqdm_interval_sec: 1
+        use_ema: true
+        val_every: 1
+val_dataloader:
+    value:
+        batch_size: 16
+        num_workers: 0
+        persistent_workers: false
+        pin_memory: false
+        shuffle: false
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/files/output.log b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..448d06d2d2ba2d71b200279007a034f123ad0bde
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/files/output.log
@@ -0,0 +1,8 @@
+/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/stable_baselines3/common/save_util.py:166: UserWarning: Could not deserialize object lr_schedule. Consider using `custom_objects` argument to replace this object.
+Exception: Can't get attribute 'FloatSchedule' on <module 'stable_baselines3.common.utils' from '/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/stable_baselines3/common/utils.py'>
+  warnings.warn(
+Wrapping the env with a `Monitor` wrapper
+Wrapping the env in a DummyVecEnv.
+Eval HighwayLowdimRunner 1/6:   0%|                                                          | 0/80 [00:00<?, ?it/s]/root/workspace/LLM-BC/llmbc/common/llfbench_util.py:39: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:275.)
+  obs = torch.tensor(obs, dtype=torch.float32).unsqueeze(dim=0).to(device)
+                                                                                                                    
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/files/wandb-metadata.json b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..ff5b5897a2e4ddca0e265bc3f825d162ff9872ff
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/files/wandb-metadata.json
@@ -0,0 +1,57 @@
+{
+  "os": "Linux-4.18.0-513.24.1.el8_9.x86_64-x86_64-with-glibc2.31",
+  "python": "3.9.25",
+  "startedAt": "2025-12-20T07:31:38.640376Z",
+  "args": [
+    "--config-path",
+    "./config/main_table",
+    "--config-name",
+    "llmdp_parking-v0.yaml",
+    "policy.loss_llm_weight=1.0e-4",
+    "training.seed=44"
+  ],
+  "program": "/root/workspace/LLM-BC/./train.py",
+  "codePath": "train.py",
+  "git": {
+    "remote": "https://github.com/CHYang25/LLM-BC.git",
+    "commit": "19d4c838d567a3f93b4721dcb5cefc20b4873e61"
+  },
+  "email": "chris920325@gmail.com",
+  "root": "/root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0",
+  "host": "llmbc-cuda-545d8cd8bc-9ltjf",
+  "username": "root",
+  "executable": "/root/miniconda3/envs/llm-bc/bin/python3",
+  "codePathLocal": "train.py",
+  "cpu_count": 64,
+  "cpu_count_logical": 128,
+  "gpu": "NVIDIA H100 80GB HBM3",
+  "gpu_count": 2,
+  "disk": {
+    "/": {
+      "total": "23041585184768",
+      "used": "576838479872"
+    }
+  },
+  "memory": {
+    "total": "2163619737600"
+  },
+  "cpu": {
+    "count": 64,
+    "countLogical": 128
+  },
+  "gpu_nvidia": [
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    },
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    }
+  ],
+  "cudaVersion": "12.8"
+}
\ No newline at end of file
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/files/wandb-summary.json b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..4d7e1771c0eb8c2107bca313720b621741c336e2
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":220324},"train/success_rate":1,"epoch":1000,"global_step":655654,"val_loss":0.012799784541130066,"test/cumulative_reward":-6.961514517140319,"_runtime":220324.521717159,"test/mean_score":-0.11109328005565137,"test/success_rate":0.96,"train/cumulative_reward":-6.708625897258895,"train_loss":0.00738610356549807,"train/mean_score":-0.10512478281847368,"train_action_mse_error":0.00022285981685854495,"_timestamp":1.766436220584714e+09,"_step":655654,"train_loss_dp":0.005273065529763699,"train_loss_llm":0.002361297607421875,"lr":1.505919167144043e-13}
\ No newline at end of file
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/logs/debug-core.log b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..7fcf52d04a24289391c4239c142a1bfba3d348ea
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/logs/debug-core.log
@@ -0,0 +1,14 @@
+{"time":"2025-12-20T07:31:38.046832325Z","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmptno49gb8/port-51670.txt","pid":51670,"debug":false,"disable-analytics":false}
+{"time":"2025-12-20T07:31:38.04685438Z","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2025-12-20T07:31:38.047999554Z","level":"INFO","msg":"Will exit if parent process dies.","ppid":51670}
+{"time":"2025-12-20T07:31:38.047997426Z","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":38971,"Zone":""}}
+{"time":"2025-12-20T07:31:38.241400504Z","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:45366"}
+{"time":"2025-12-20T07:31:38.64163252Z","level":"INFO","msg":"handleInformInit: received","streamId":"pgfbe1bv","id":"127.0.0.1:45366"}
+{"time":"2025-12-20T07:31:38.750754967Z","level":"INFO","msg":"handleInformInit: stream started","streamId":"pgfbe1bv","id":"127.0.0.1:45366"}
+{"time":"2025-12-22T20:43:43.162005873Z","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:45366"}
+{"time":"2025-12-22T20:43:43.162077844Z","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:45366"}
+{"time":"2025-12-22T20:43:43.162139712Z","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:45366"}
+{"time":"2025-12-22T20:43:43.162087914Z","level":"INFO","msg":"server is shutting down"}
+{"time":"2025-12-22T20:43:44.882130222Z","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:45366"}
+{"time":"2025-12-22T20:43:44.882142609Z","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:45366"}
+{"time":"2025-12-22T20:43:44.882149063Z","level":"INFO","msg":"server is closed"}
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/logs/debug-internal.log b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..6aa1b2b9b7a7728661c5197d0f7e5fa94b2e4538
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/logs/debug-internal.log
@@ -0,0 +1,32 @@
+{"time":"2025-12-20T07:31:38.641768357Z","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2025-12-20T07:31:38.641777158Z","level":"INFO","msg":"created symlink","path":"/root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/logs/debug-core.log"}
+{"time":"2025-12-20T07:31:38.750724198Z","level":"INFO","msg":"created new stream","id":"pgfbe1bv"}
+{"time":"2025-12-20T07:31:38.750752031Z","level":"INFO","msg":"stream: started","id":"pgfbe1bv"}
+{"time":"2025-12-20T07:31:38.750774525Z","level":"INFO","msg":"sender: started","stream_id":"pgfbe1bv"}
+{"time":"2025-12-20T07:31:38.750763768Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"pgfbe1bv"}}
+{"time":"2025-12-20T07:31:38.750774022Z","level":"INFO","msg":"handler: started","stream_id":{"value":"pgfbe1bv"}}
+{"time":"2025-12-20T07:31:39.377880416Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-12-22T01:59:56.090093148Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T02:00:28.382016043Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T02:01:02.500615538Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T02:01:42.354301841Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T02:02:30.769741008Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T02:02:50.16775355Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/pgfbe1bv/file_stream\": dial tcp 35.186.228.49:443: connect: connection timed out"}
+{"time":"2025-12-22T02:03:33.728398696Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T06:16:20.976637972Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/pgfbe1bv/file_stream\": unexpected EOF"}
+{"time":"2025-12-22T07:26:08.78027812Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/pgfbe1bv/file_stream\": unexpected EOF"}
+{"time":"2025-12-22T07:26:50.372250389Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/pgfbe1bv/file_stream\": unexpected EOF"}
+{"time":"2025-12-22T07:29:18.312007712Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/pgfbe1bv/file_stream\": unexpected EOF"}
+{"time":"2025-12-22T07:29:41.230346932Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded"}
+{"time":"2025-12-22T07:32:41.236256435Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:33:40.411625949Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/pgfbe1bv/file_stream\": read tcp 192.168.42.185:54802->35.186.228.49:443: read: connection reset by peer"}
+{"time":"2025-12-22T07:35:26.241650543Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:35:58.312386075Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T20:43:43.162077215Z","level":"INFO","msg":"stream: closing","id":"pgfbe1bv"}
+{"time":"2025-12-22T20:43:43.16210287Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-12-22T20:43:43.162607761Z","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2025-12-22T20:43:44.592269656Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-12-22T20:43:44.882027745Z","level":"INFO","msg":"handler: closed","stream_id":{"value":"pgfbe1bv"}}
+{"time":"2025-12-22T20:43:44.882051293Z","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"pgfbe1bv"}}
+{"time":"2025-12-22T20:43:44.882063908Z","level":"INFO","msg":"sender: closed","stream_id":"pgfbe1bv"}
+{"time":"2025-12-22T20:43:44.882097823Z","level":"INFO","msg":"stream: closed","id":"pgfbe1bv"}
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/logs/debug.log b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..77f11815739b01fe271856fca19c9d69e27fc6e4
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/logs/debug.log
@@ -0,0 +1,27 @@
+2025-12-20 07:31:38,638 INFO    MainThread:51670 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2025-12-20 07:31:38,638 INFO    MainThread:51670 [wandb_setup.py:_flush():79] Configure stats pid to 51670
+2025-12-20 07:31:38,638 INFO    MainThread:51670 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2025-12-20 07:31:38,638 INFO    MainThread:51670 [wandb_setup.py:_flush():79] Loading settings from /root/workspace/LLM-BC/wandb/settings
+2025-12-20 07:31:38,638 INFO    MainThread:51670 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2025-12-20 07:31:38,638 INFO    MainThread:51670 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2025-12-20 07:31:38,638 INFO    MainThread:51670 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/root/workspace/LLM-BC/train.py', 'program': '/root/workspace/LLM-BC/./train.py'}
+2025-12-20 07:31:38,638 INFO    MainThread:51670 [wandb_setup.py:_flush():79] Applying login settings: {}
+2025-12-20 07:31:38,639 INFO    MainThread:51670 [wandb_init.py:_log_setup():533] Logging user logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/logs/debug.log
+2025-12-20 07:31:38,639 INFO    MainThread:51670 [wandb_init.py:_log_setup():534] Logging internal logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/logs/debug-internal.log
+2025-12-20 07:31:38,639 INFO    MainThread:51670 [wandb_init.py:init():619] calling init triggers
+2025-12-20 07:31:38,639 INFO    MainThread:51670 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llm_diffusion_unet_lowdim', '_target_': 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace', 'obs_dim': 18, 'action_dim': 2, 'task_name': 'parking-v0', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'keypoint_visible_rate': 1.0, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy', 'model': {'_target_': 'llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D', 'input_dim': 2, 'local_cond_dim': None, 'global_cond_dim': 18, 'diffusion_step_embed_dim': 256, 'down_dims': [256, 512, 1024], 'kernel_size': 5, 'n_groups': 8, 'cond_predict_scale': True}, 'noise_scheduler': {'_target_': 'diffusers.schedulers.scheduling_ddpm.DDPMScheduler', 'num_train_timesteps': 100, 'beta_start': 0.0001, 'beta_end': 0.02, 'beta_schedule': 'squaredcos_cap_v2', 'variance_type': 'fixed_small', 'clip_sample': True, 'prediction_type': 'epsilon'}, 'horizon': 1, 'obs_dim': 18, 'action_dim': 2, 'n_action_steps': 1, 'n_obs_steps': 1, 'num_inference_steps': 100, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'oa_step_convention': True, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'parking-v0', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.31.26_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 18, 'action_dim': 2, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_dp_weight': 1.0, 'loss_llm_weight': 0.0001, 'normalize_llm_loss': True, 'reweight_llm_loss': True}, 'ema': {'_target_': 'llmbc.model.diffusion.ema_model.EMAModel', 'update_after_step': 0, 'inv_gamma': 1.0, 'power': 0.75, 'min_value': 0.0, 'max_value': 0.9999}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': False, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.0001, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 44, 'debug': False, 'resume': True, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 500, 'num_epochs': 1001, 'gradient_accumulate_every': 16, 'use_ema': True, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'parking-v0-training', 'resume': True, 'mode': 'online', 'name': '2025.12.20-07.31.26_train_llm_diffusion_unet_lowdim_parking-v0', 'tags': ['train_llm_diffusion_unet_lowdim', 'parking-v0', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0', 'wandb_name_base': '2025.12.20-07.31.26_train_llm_diffusion_unet_lowdim_parking-v0'}, 'task': {'name': 'parking-v0', 'obs_dim': 18, 'action_dim': 2, 'env_runner': {'_target_': 'llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner', 'env_name': 'llf-highway-parking-v0', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 80, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.99}, 'dataset': {'_target_': 'llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset', 'data_path': 'datasets/parking-v0.pt', 'data_path2': 'datasets/parking-v0.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.02, 'dummy_normalizer': False}, 'instructor': {'_target_': 'llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.31.26_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2025-12-20 07:31:38,639 INFO    MainThread:51670 [wandb_init.py:init():669] starting backend
+2025-12-20 07:31:38,639 INFO    MainThread:51670 [wandb_init.py:init():673] sending inform_init request
+2025-12-20 07:31:38,640 INFO    MainThread:51670 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-12-20 07:31:38,640 INFO    MainThread:51670 [wandb_init.py:init():686] backend started and connected
+2025-12-20 07:31:38,647 INFO    MainThread:51670 [wandb_init.py:init():781] updated telemetry
+2025-12-20 07:31:38,678 INFO    MainThread:51670 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2025-12-20 07:31:39,374 INFO    MainThread:51670 [wandb_init.py:init():867] starting run threads in backend
+2025-12-20 07:31:39,716 INFO    MainThread:51670 [wandb_run.py:_console_start():2451] atexit reg
+2025-12-20 07:31:39,716 INFO    MainThread:51670 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2025-12-20 07:31:39,716 INFO    MainThread:51670 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2025-12-20 07:31:39,716 INFO    MainThread:51670 [wandb_run.py:_redirect():2389] Redirects installed.
+2025-12-20 07:31:39,717 INFO    MainThread:51670 [wandb_init.py:init():911] run started, returning control to user process
+2025-12-20 07:31:39,717 INFO    MainThread:51670 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/root/workspace/LLM-BC/data/outputs/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0'}
+2025-12-22 20:43:43,162 WARNING MsgRouterThr:51670 [router.py:message_loop():75] message_loop has been closed
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/run-pgfbe1bv.wandb b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/run-pgfbe1bv.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..6371413c68abb9861c2e1c98dfbac54009e75ed4
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073138-pgfbe1bv/run-pgfbe1bv.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4dbe552a71a2f9d8a3f1c548fa5ec09e56edb58abefd1e9fed5e8383b34d91e5
+size 598996237
diff --git a/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json
new file mode 100644
index 0000000000000000000000000000000000000000..b24f6450a4e820514be2f07b5d6c7cb58f54b0d1
--- /dev/null
+++ b/2025.12.20/07.31.26_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json
@@ -0,0 +1 @@
+{"run_id": "pgfbe1bv"}
\ No newline at end of file
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..0819575f30436a4236b8b2812a9236e5f973017b
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
@@ -0,0 +1,193 @@
+name: train_llm_diffusion_unet_lowdim
+_target_: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+keypoint_visible_rate: 1.0
+obs_as_local_cond: false
+obs_as_global_cond: true
+pred_action_steps_only: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+  model:
+    _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+    input_dim: '${eval: ${task.action_dim} if ${obs_as_local_cond} or ${obs_as_global_cond}
+      else ${task.obs_dim} + ${task.action_dim}}'
+    local_cond_dim: '${eval: ${task.obs_dim} if ${obs_as_local_cond} else None}'
+    global_cond_dim: '${eval: ${task.obs_dim}*${n_obs_steps} if ${obs_as_global_cond}
+      else None}'
+    diffusion_step_embed_dim: 256
+    down_dims:
+    - 256
+    - 512
+    - 1024
+    kernel_size: 5
+    n_groups: 8
+    cond_predict_scale: true
+  noise_scheduler:
+    _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+    num_train_timesteps: 100
+    beta_start: 0.0001
+    beta_end: 0.02
+    beta_schedule: squaredcos_cap_v2
+    variance_type: fixed_small
+    clip_sample: true
+    prediction_type: epsilon
+  horizon: ${horizon}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  n_obs_steps: ${n_obs_steps}
+  num_inference_steps: 100
+  obs_as_local_cond: ${obs_as_local_cond}
+  obs_as_global_cond: ${obs_as_global_cond}
+  pred_action_steps_only: ${pred_action_steps_only}
+  oa_step_convention: true
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${obs_dim}
+      action_dim: ${action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  loss_dp_weight: 1.0
+  loss_llm_weight: 0.0001
+  normalize_llm_loss: true
+  reweight_llm_loss: true
+ema:
+  _target_: llmbc.model.diffusion.ema_model.EMAModel
+  update_after_step: 0
+  inv_gamma: 1.0
+  power: 0.75
+  min_value: 0.0
+  max_value: 0.9999
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: false
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.0001
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 45
+  debug: false
+  resume: true
+  lr_scheduler: cosine
+  lr_warmup_steps: 500
+  num_epochs: 1001
+  gradient_accumulate_every: 16
+  use_ema: true
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: parking-v0
+  obs_dim: 18
+  action_dim: 2
+  env_runner:
+    _target_: llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner
+    env_name: llf-highway-parking-v0
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 80
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    - fp
+    visual: false
+    discount: 0.99
+  dataset:
+    _target_: llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset
+    data_path: datasets/parking-v0.pt
+    data_path2: datasets/parking-v0.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    obs_eef_target: true
+    use_manual_normalizer: false
+    val_ratio: 0.02
+    dummy_normalizer: false
+  instructor:
+    _target_: llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..c1d4a6793be12a9d5c8df339f3249fc1916c404e
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
@@ -0,0 +1,156 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - policy.loss_llm_weight=1.0e-4
+    - training.seed=45
+  job:
+    name: train
+    chdir: null
+    override_dirname: policy.loss_llm_weight=1.0e-4,training.seed=45
+    id: ???
+    num: ???
+    config_name: llmdp_parking-v0.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /root/workspace/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /root/workspace/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..24dfb526d907bcd6391a69e94888fc61fa531221
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
@@ -0,0 +1,2 @@
+- policy.loss_llm_weight=1.0e-4
+- training.seed=45
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0215-test_success_rate=0.960.ckpt b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0215-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..dbc2547d8724fd2f2d8d9c27c32c00bf2859735a
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0215-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1f3e9b52082ff93afce880be2f56b2f97321442b50a78b2acb1d8ea7bfac2abf
+size 1042506738
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0285-test_success_rate=0.980.ckpt b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0285-test_success_rate=0.980.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..bbd7b6f8d0a6dbfe1b0732df0442b9d45bb5eee9
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0285-test_success_rate=0.980.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3eb11a57a41da83658795b1441d7fa73736e4df38c8ce8184b9e522f928af82b
+size 1042506802
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0490-test_success_rate=0.960.ckpt b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0490-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..11584679be6495c09458f405d64eaa9bbdcd5f64
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0490-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0fe7a628fb22379624b5bf799c537fbbfca61101293a135667fe4436ba38f844
+size 1042506802
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0510-test_success_rate=0.960.ckpt b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0510-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..08683cca2f654303f37b26f646c617b97973d5ed
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0510-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f5863c14b782033f856a24e06ef3aa43c2e0a39f772f0cb8ecc3da72ddd8a593
+size 1042506802
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0520-test_success_rate=0.960.ckpt b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0520-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..84e9a1a836ff55acebcc55ec9b547a45dc8f626d
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0520-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:45ac65f1ed22f66637e36d210687b84099e2a9e6e0260e2f9c54dd029e4f75d4
+size 1042506802
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..00d504886ba37ba2d0f06885849dfaf1d6e6e289
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e00bfb4f8ec9e8f01e06d557eeba59bc9af1fb4c5133bedebe71aef6e569c755
+size 1042506802
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt
new file mode 100644
index 0000000000000000000000000000000000000000..895737718cffd0cdcd3528c8f3d023ea239d1045
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0a8a945989526e0d8cbcd40ec429bcfe3b4c54c908025c55e0bbeec9754749af
+size 114035063
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/train.log b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..0b8c2cc3378107bb4ec4b1c30bb9662f2f013aed
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/train.log
@@ -0,0 +1,9 @@
+[2025-12-20 07:32:03,474][numexpr.utils][INFO] - Note: detected 128 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+[2025-12-20 07:32:03,474][numexpr.utils][INFO] - Note: NumExpr detected 128 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
+[2025-12-20 07:32:03,474][numexpr.utils][INFO] - NumExpr defaulting to 16 threads.
+[2025-12-20 07:32:05,364][datasets][INFO] - PyTorch version 2.2.2 available.
+[2025-12-20 07:32:05,365][datasets][INFO] - TensorFlow version 2.15.1 available.
+[2025-12-20 07:32:05,366][datasets][INFO] - JAX version 0.4.30 available.
+[2025-12-20 07:32:06,959][llmbc.model.diffusion.conditional_unet1d][INFO] - number of parameters: 6.514023e+07
+[2025-12-20 07:32:12,420][absl][INFO] - MUJOCO_GL=osmesa, attempting to import specified OpenGL backend.
+[2025-12-20 07:32:12,424][absl][INFO] - MuJoCo library version is: 2.3.7
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..521c74881e45e93bc2f66166a25b26854da5d276
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log
@@ -0,0 +1,30 @@
+{"time":"2025-12-20T07:32:13.469962181Z","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2025-12-20T07:32:13.469973764Z","level":"INFO","msg":"created symlink","path":"/root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/logs/debug-core.log"}
+{"time":"2025-12-20T07:32:13.576624138Z","level":"INFO","msg":"created new stream","id":"wn6bouke"}
+{"time":"2025-12-20T07:32:13.576652101Z","level":"INFO","msg":"stream: started","id":"wn6bouke"}
+{"time":"2025-12-20T07:32:13.57666489Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"wn6bouke"}}
+{"time":"2025-12-20T07:32:13.577047498Z","level":"INFO","msg":"sender: started","stream_id":"wn6bouke"}
+{"time":"2025-12-20T07:32:13.576670716Z","level":"INFO","msg":"handler: started","stream_id":{"value":"wn6bouke"}}
+{"time":"2025-12-20T07:32:14.126735456Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-12-22T01:58:44.975054831Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/wn6bouke/file_stream\": read tcp 192.168.42.185:53868->35.186.228.49:443: read: connection reset by peer"}
+{"time":"2025-12-22T04:06:24.894057512Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/wn6bouke/file_stream\": unexpected EOF"}
+{"time":"2025-12-22T05:09:45.813323112Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T05:10:17.993983324Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T05:20:30.827213142Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T05:21:03.212962305Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded"}
+{"time":"2025-12-22T05:22:15.838701461Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T06:17:15.860106882Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:29:15.891123078Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:29:48.133440671Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:31:45.899331769Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded"}
+{"time":"2025-12-22T07:32:17.949511582Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:33:30.906059964Z","level":"ERROR","msg":"sender: sendStopStatus: failed to get run stopped status: context deadline exceeded (Client.Timeout or context cancellation while reading body)"}
+{"time":"2025-12-22T07:39:06.258455613Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/wn6bouke/file_stream\": EOF"}
+{"time":"2025-12-22T19:50:19.680794748Z","level":"INFO","msg":"stream: closing","id":"wn6bouke"}
+{"time":"2025-12-22T19:50:19.680817224Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-12-22T19:50:19.681254837Z","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2025-12-22T19:50:22.633326349Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-12-22T19:50:22.901685379Z","level":"INFO","msg":"handler: closed","stream_id":{"value":"wn6bouke"}}
+{"time":"2025-12-22T19:50:22.90171551Z","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"wn6bouke"}}
+{"time":"2025-12-22T19:50:22.901721329Z","level":"INFO","msg":"sender: closed","stream_id":"wn6bouke"}
+{"time":"2025-12-22T19:50:22.901796983Z","level":"INFO","msg":"stream: closed","id":"wn6bouke"}
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..2b16a844d5757130379bf8d9f586dc7be3448429
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log
@@ -0,0 +1,27 @@
+2025-12-20 07:32:13,466 INFO    MainThread:52273 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2025-12-20 07:32:13,466 INFO    MainThread:52273 [wandb_setup.py:_flush():79] Configure stats pid to 52273
+2025-12-20 07:32:13,466 INFO    MainThread:52273 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2025-12-20 07:32:13,466 INFO    MainThread:52273 [wandb_setup.py:_flush():79] Loading settings from /root/workspace/LLM-BC/wandb/settings
+2025-12-20 07:32:13,466 INFO    MainThread:52273 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2025-12-20 07:32:13,466 INFO    MainThread:52273 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2025-12-20 07:32:13,466 INFO    MainThread:52273 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/root/workspace/LLM-BC/train.py', 'program': '/root/workspace/LLM-BC/./train.py'}
+2025-12-20 07:32:13,466 INFO    MainThread:52273 [wandb_setup.py:_flush():79] Applying login settings: {}
+2025-12-20 07:32:13,466 INFO    MainThread:52273 [wandb_init.py:_log_setup():533] Logging user logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/logs/debug.log
+2025-12-20 07:32:13,467 INFO    MainThread:52273 [wandb_init.py:_log_setup():534] Logging internal logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/logs/debug-internal.log
+2025-12-20 07:32:13,467 INFO    MainThread:52273 [wandb_init.py:init():619] calling init triggers
+2025-12-20 07:32:13,467 INFO    MainThread:52273 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llm_diffusion_unet_lowdim', '_target_': 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace', 'obs_dim': 18, 'action_dim': 2, 'task_name': 'parking-v0', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'keypoint_visible_rate': 1.0, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy', 'model': {'_target_': 'llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D', 'input_dim': 2, 'local_cond_dim': None, 'global_cond_dim': 18, 'diffusion_step_embed_dim': 256, 'down_dims': [256, 512, 1024], 'kernel_size': 5, 'n_groups': 8, 'cond_predict_scale': True}, 'noise_scheduler': {'_target_': 'diffusers.schedulers.scheduling_ddpm.DDPMScheduler', 'num_train_timesteps': 100, 'beta_start': 0.0001, 'beta_end': 0.02, 'beta_schedule': 'squaredcos_cap_v2', 'variance_type': 'fixed_small', 'clip_sample': True, 'prediction_type': 'epsilon'}, 'horizon': 1, 'obs_dim': 18, 'action_dim': 2, 'n_action_steps': 1, 'n_obs_steps': 1, 'num_inference_steps': 100, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'oa_step_convention': True, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'parking-v0', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.32.01_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 18, 'action_dim': 2, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_dp_weight': 1.0, 'loss_llm_weight': 0.0001, 'normalize_llm_loss': True, 'reweight_llm_loss': True}, 'ema': {'_target_': 'llmbc.model.diffusion.ema_model.EMAModel', 'update_after_step': 0, 'inv_gamma': 1.0, 'power': 0.75, 'min_value': 0.0, 'max_value': 0.9999}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': False, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.0001, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 45, 'debug': False, 'resume': True, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 500, 'num_epochs': 1001, 'gradient_accumulate_every': 16, 'use_ema': True, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'parking-v0-training', 'resume': True, 'mode': 'online', 'name': '2025.12.20-07.32.01_train_llm_diffusion_unet_lowdim_parking-v0', 'tags': ['train_llm_diffusion_unet_lowdim', 'parking-v0', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0', 'wandb_name_base': '2025.12.20-07.32.01_train_llm_diffusion_unet_lowdim_parking-v0'}, 'task': {'name': 'parking-v0', 'obs_dim': 18, 'action_dim': 2, 'env_runner': {'_target_': 'llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner', 'env_name': 'llf-highway-parking-v0', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 80, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.99}, 'dataset': {'_target_': 'llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset', 'data_path': 'datasets/parking-v0.pt', 'data_path2': 'datasets/parking-v0.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.02, 'dummy_normalizer': False}, 'instructor': {'_target_': 'llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.32.01_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2025-12-20 07:32:13,467 INFO    MainThread:52273 [wandb_init.py:init():669] starting backend
+2025-12-20 07:32:13,467 INFO    MainThread:52273 [wandb_init.py:init():673] sending inform_init request
+2025-12-20 07:32:13,468 INFO    MainThread:52273 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-12-20 07:32:13,468 INFO    MainThread:52273 [wandb_init.py:init():686] backend started and connected
+2025-12-20 07:32:13,475 INFO    MainThread:52273 [wandb_init.py:init():781] updated telemetry
+2025-12-20 07:32:13,508 INFO    MainThread:52273 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2025-12-20 07:32:14,124 INFO    MainThread:52273 [wandb_init.py:init():867] starting run threads in backend
+2025-12-20 07:32:14,547 INFO    MainThread:52273 [wandb_run.py:_console_start():2451] atexit reg
+2025-12-20 07:32:14,548 INFO    MainThread:52273 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2025-12-20 07:32:14,548 INFO    MainThread:52273 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2025-12-20 07:32:14,548 INFO    MainThread:52273 [wandb_run.py:_redirect():2389] Redirects installed.
+2025-12-20 07:32:14,549 INFO    MainThread:52273 [wandb_init.py:init():911] run started, returning control to user process
+2025-12-20 07:32:14,549 INFO    MainThread:52273 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0'}
+2025-12-22 19:50:19,680 WARNING MsgRouterThr:52273 [router.py:message_loop():75] message_loop has been closed
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/files/config.yaml b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..3946add9274b89c8fc5d02334e3352d96ede8026
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/files/config.yaml
@@ -0,0 +1,304 @@
+_target_:
+    value: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+_wandb:
+    value:
+        cli_version: 0.18.6
+        m: []
+        python_version: 3.9.25
+        t:
+            "1":
+                - 1
+                - 2
+                - 3
+                - 5
+                - 11
+                - 12
+                - 41
+                - 49
+                - 50
+                - 51
+                - 53
+                - 55
+                - 71
+                - 83
+                - 95
+                - 98
+                - 100
+                - 105
+            "2":
+                - 1
+                - 2
+                - 3
+                - 5
+                - 11
+                - 12
+                - 41
+                - 49
+                - 50
+                - 51
+                - 53
+                - 55
+                - 71
+                - 83
+                - 95
+                - 98
+                - 100
+                - 105
+            "3":
+                - 13
+                - 15
+                - 16
+                - 23
+                - 55
+                - 61
+            "4": 3.9.25
+            "5": 0.18.6
+            "6": 4.47.1
+            "8":
+                - 5
+            "12": 0.18.6
+            "13": linux-x86_64
+action_dim:
+    value: 2
+checkpoint:
+    value:
+        save_last_ckpt: true
+        save_last_snapshot: false
+        topk:
+            format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+            k: 5
+            mode: max
+            monitor_key: test_success_rate
+dataloader:
+    value:
+        batch_size: 16
+        num_workers: 0
+        persistent_workers: false
+        pin_memory: false
+        shuffle: true
+ema:
+    value:
+        _target_: llmbc.model.diffusion.ema_model.EMAModel
+        inv_gamma: 1
+        max_value: 0.9999
+        min_value: 0
+        power: 0.75
+        update_after_step: 0
+exp_name:
+    value: default
+horizon:
+    value: 1
+keypoint_visible_rate:
+    value: 1
+llm:
+    value:
+        causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+        checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+        config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+        finetune_mode: orig
+        hydra:
+            job:
+                override_dirname: HuggingFaceTB/SmolLM2-135M-Instruct
+            run:
+                dir: data/outputs/2025.12.20/07.32.01_HuggingFaceTB/SmolLM2-135M-Instruct
+        llm_mode: ete-finetuned
+        lora_config:
+            bias: none
+            lora_alpha: 64
+            lora_dropout: 0.05
+            r: 32
+            task_type: CAUSAL_LM
+        max_length: 100
+        model_name: SmolLM2-135M-Instruct
+        name: HuggingFaceTB/SmolLM2-135M-Instruct
+        prompter:
+            _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+            use_joint_mlp_projector: true
+        use_joint_mlp_projector: true
+        use_quantization: false
+llm_do_sample:
+    value: false
+llm_orig_expert_feedback:
+    value: true
+logging:
+    value:
+        group: null
+        id: null
+        mode: online
+        name: 2025.12.20-07.32.01_train_llm_diffusion_unet_lowdim_parking-v0
+        project: parking-v0-training
+        resume: true
+        tags:
+            - train_llm_diffusion_unet_lowdim
+            - parking-v0
+            - default
+model_name:
+    value: HuggingFaceTB/SmolLM2-135M-Instruct
+multi_run:
+    value:
+        run_dir: data/outputs/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0
+        wandb_name_base: 2025.12.20-07.32.01_train_llm_diffusion_unet_lowdim_parking-v0
+n_action_steps:
+    value: 1
+n_latency_steps:
+    value: 0
+n_obs_steps:
+    value: 1
+name:
+    value: train_llm_diffusion_unet_lowdim
+obs_as_global_cond:
+    value: true
+obs_as_local_cond:
+    value: false
+obs_dim:
+    value: 18
+optimizer:
+    value:
+        _target_: torch.optim.AdamW
+        betas:
+            - 0.95
+            - 0.999
+        eps: 1e-08
+        lr: 0.0001
+        weight_decay: 1e-06
+output_dir:
+    value: /root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0
+past_action_visible:
+    value: false
+policy:
+    value:
+        _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+        action_dim: 2
+        horizon: 1
+        llm_discriminator:
+            _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+            llm_translator:
+                _target_: llmbc.translator.llm_translator.LLMTranslator
+                action_dim: 2
+                cfg:
+                    causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+                    checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+                    config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+                    finetune_mode: orig
+                    hydra:
+                        job:
+                            override_dirname: HuggingFaceTB/SmolLM2-135M-Instruct
+                        run:
+                            dir: data/outputs/2025.12.20/07.32.01_HuggingFaceTB/SmolLM2-135M-Instruct
+                    llm_mode: ete-finetuned
+                    lora_config:
+                        bias: none
+                        lora_alpha: 64
+                        lora_dropout: 0.05
+                        r: 32
+                        task_type: CAUSAL_LM
+                    max_length: 100
+                    model_name: SmolLM2-135M-Instruct
+                    name: HuggingFaceTB/SmolLM2-135M-Instruct
+                    prompter:
+                        _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+                        use_joint_mlp_projector: true
+                    use_joint_mlp_projector: true
+                    use_quantization: false
+                horizon: 1
+                n_action_steps: 1
+                n_obs_steps: 1
+                obs_dim: 18
+            task_id: parking-v0
+        loss_dp_weight: 1
+        loss_llm_weight: 0.0001
+        model:
+            _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+            cond_predict_scale: true
+            diffusion_step_embed_dim: 256
+            down_dims:
+                - 256
+                - 512
+                - 1024
+            global_cond_dim: 18
+            input_dim: 2
+            kernel_size: 5
+            local_cond_dim: null
+            n_groups: 8
+        n_action_steps: 1
+        n_obs_steps: 1
+        noise_scheduler:
+            _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+            beta_end: 0.02
+            beta_schedule: squaredcos_cap_v2
+            beta_start: 0.0001
+            clip_sample: true
+            num_train_timesteps: 100
+            prediction_type: epsilon
+            variance_type: fixed_small
+        normalize_llm_loss: true
+        num_inference_steps: 100
+        oa_step_convention: true
+        obs_as_global_cond: true
+        obs_as_local_cond: false
+        obs_dim: 18
+        pred_action_steps_only: false
+        reweight_llm_loss: true
+pred_action_steps_only:
+    value: false
+task:
+    value:
+        action_dim: 2
+        dataset:
+            _target_: llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset
+            data_path: datasets/parking-v0.pt
+            data_path2: datasets/parking-v0.pt
+            dummy_normalizer: false
+            horizon: 1
+            obs_eef_target: true
+            pad_after: 0
+            pad_before: 0
+            use_manual_normalizer: false
+            val_ratio: 0.02
+        env_runner:
+            _target_: llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner
+            discount: 0.99
+            env_name: llf-highway-parking-v0
+            feedback_type:
+                - hp
+                - hn
+                - fp
+            instruction_type: b
+            max_steps: 80
+            n_action_steps: 1
+            n_envs: 10
+            n_obs_steps: 1
+            n_test: 50
+            n_train: 10
+            visual: false
+        instructor:
+            _target_: llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor
+        name: parking-v0
+        obs_dim: 18
+task_name:
+    value: parking-v0
+training:
+    value:
+        checkpoint_every: 5
+        debug: false
+        device: cuda:0
+        gradient_accumulate_every: 16
+        lr_scheduler: cosine
+        lr_warmup_steps: 500
+        max_train_steps: null
+        max_val_steps: null
+        num_epochs: 1001
+        resume: true
+        rollout_every: 5
+        sample_every: 5
+        seed: 45
+        tqdm_interval_sec: 1
+        use_ema: true
+        val_every: 1
+val_dataloader:
+    value:
+        batch_size: 16
+        num_workers: 0
+        persistent_workers: false
+        pin_memory: false
+        shuffle: false
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/files/output.log b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..448d06d2d2ba2d71b200279007a034f123ad0bde
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/files/output.log
@@ -0,0 +1,8 @@
+/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/stable_baselines3/common/save_util.py:166: UserWarning: Could not deserialize object lr_schedule. Consider using `custom_objects` argument to replace this object.
+Exception: Can't get attribute 'FloatSchedule' on <module 'stable_baselines3.common.utils' from '/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/stable_baselines3/common/utils.py'>
+  warnings.warn(
+Wrapping the env with a `Monitor` wrapper
+Wrapping the env in a DummyVecEnv.
+Eval HighwayLowdimRunner 1/6:   0%|                                                          | 0/80 [00:00<?, ?it/s]/root/workspace/LLM-BC/llmbc/common/llfbench_util.py:39: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:275.)
+  obs = torch.tensor(obs, dtype=torch.float32).unsqueeze(dim=0).to(device)
+                                                                                                                    
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/files/wandb-metadata.json b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..3ee5476396cfd4b7226ff8ae41c926fd4b1979a7
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/files/wandb-metadata.json
@@ -0,0 +1,57 @@
+{
+  "os": "Linux-4.18.0-513.24.1.el8_9.x86_64-x86_64-with-glibc2.31",
+  "python": "3.9.25",
+  "startedAt": "2025-12-20T07:32:13.468448Z",
+  "args": [
+    "--config-path",
+    "./config/main_table",
+    "--config-name",
+    "llmdp_parking-v0.yaml",
+    "policy.loss_llm_weight=1.0e-4",
+    "training.seed=45"
+  ],
+  "program": "/root/workspace/LLM-BC/./train.py",
+  "codePath": "train.py",
+  "git": {
+    "remote": "https://github.com/CHYang25/LLM-BC.git",
+    "commit": "19d4c838d567a3f93b4721dcb5cefc20b4873e61"
+  },
+  "email": "chris920325@gmail.com",
+  "root": "/root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0",
+  "host": "llmbc-cuda-545d8cd8bc-9ltjf",
+  "username": "root",
+  "executable": "/root/miniconda3/envs/llm-bc/bin/python3",
+  "codePathLocal": "train.py",
+  "cpu_count": 64,
+  "cpu_count_logical": 128,
+  "gpu": "NVIDIA H100 80GB HBM3",
+  "gpu_count": 2,
+  "disk": {
+    "/": {
+      "total": "23041585184768",
+      "used": "576838926336"
+    }
+  },
+  "memory": {
+    "total": "2163619737600"
+  },
+  "cpu": {
+    "count": 64,
+    "countLogical": 128
+  },
+  "gpu_nvidia": [
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    },
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    }
+  ],
+  "cudaVersion": "12.8"
+}
\ No newline at end of file
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/files/wandb-summary.json b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..40e076b98ba17ea0ee167b0cbb2fe6eecd2793b3
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/files/wandb-summary.json
@@ -0,0 +1 @@
+{"test/success_rate":0.94,"train/mean_score":-0.10710354265042454,"train/success_rate":1,"test/mean_score":-0.10921026848414198,"train_loss_llm":0.0182952880859375,"global_step":655654,"test/cumulative_reward":-7.038561787498191,"epoch":1000,"lr":1.505919167144043e-13,"_step":655654,"train_action_mse_error":0.00014680103049613535,"train_loss":0.006950353344174578,"train_loss_dp":0.0025612986646592617,"_wandb":{"runtime":217086},"val_loss":0.006899998057633638,"_runtime":217086.212361967,"train/cumulative_reward":-6.719999077914804,"_timestamp":1.7664330168425586e+09}
\ No newline at end of file
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/logs/debug-core.log b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..b6e6df4f053f44817a85f9e0d66edb66e85b6615
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/logs/debug-core.log
@@ -0,0 +1,14 @@
+{"time":"2025-12-20T07:32:12.660296949Z","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmpeoa22qa3/port-52273.txt","pid":52273,"debug":false,"disable-analytics":false}
+{"time":"2025-12-20T07:32:12.660320845Z","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2025-12-20T07:32:12.662072381Z","level":"INFO","msg":"Will exit if parent process dies.","ppid":52273}
+{"time":"2025-12-20T07:32:12.662058303Z","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":39473,"Zone":""}}
+{"time":"2025-12-20T07:32:12.855172558Z","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:41186"}
+{"time":"2025-12-20T07:32:13.469819967Z","level":"INFO","msg":"handleInformInit: received","streamId":"wn6bouke","id":"127.0.0.1:41186"}
+{"time":"2025-12-20T07:32:13.576655685Z","level":"INFO","msg":"handleInformInit: stream started","streamId":"wn6bouke","id":"127.0.0.1:41186"}
+{"time":"2025-12-22T19:50:19.680745825Z","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:41186"}
+{"time":"2025-12-22T19:50:19.680800941Z","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:41186"}
+{"time":"2025-12-22T19:50:19.680813132Z","level":"INFO","msg":"server is shutting down"}
+{"time":"2025-12-22T19:50:19.680856461Z","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:41186"}
+{"time":"2025-12-22T19:50:22.901831093Z","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:41186"}
+{"time":"2025-12-22T19:50:22.90184376Z","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:41186"}
+{"time":"2025-12-22T19:50:22.901848235Z","level":"INFO","msg":"server is closed"}
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/logs/debug-internal.log b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..521c74881e45e93bc2f66166a25b26854da5d276
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/logs/debug-internal.log
@@ -0,0 +1,30 @@
+{"time":"2025-12-20T07:32:13.469962181Z","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2025-12-20T07:32:13.469973764Z","level":"INFO","msg":"created symlink","path":"/root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/logs/debug-core.log"}
+{"time":"2025-12-20T07:32:13.576624138Z","level":"INFO","msg":"created new stream","id":"wn6bouke"}
+{"time":"2025-12-20T07:32:13.576652101Z","level":"INFO","msg":"stream: started","id":"wn6bouke"}
+{"time":"2025-12-20T07:32:13.57666489Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"wn6bouke"}}
+{"time":"2025-12-20T07:32:13.577047498Z","level":"INFO","msg":"sender: started","stream_id":"wn6bouke"}
+{"time":"2025-12-20T07:32:13.576670716Z","level":"INFO","msg":"handler: started","stream_id":{"value":"wn6bouke"}}
+{"time":"2025-12-20T07:32:14.126735456Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-12-22T01:58:44.975054831Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/wn6bouke/file_stream\": read tcp 192.168.42.185:53868->35.186.228.49:443: read: connection reset by peer"}
+{"time":"2025-12-22T04:06:24.894057512Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/wn6bouke/file_stream\": unexpected EOF"}
+{"time":"2025-12-22T05:09:45.813323112Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T05:10:17.993983324Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T05:20:30.827213142Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T05:21:03.212962305Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded"}
+{"time":"2025-12-22T05:22:15.838701461Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T06:17:15.860106882Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:29:15.891123078Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:29:48.133440671Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:31:45.899331769Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded"}
+{"time":"2025-12-22T07:32:17.949511582Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:33:30.906059964Z","level":"ERROR","msg":"sender: sendStopStatus: failed to get run stopped status: context deadline exceeded (Client.Timeout or context cancellation while reading body)"}
+{"time":"2025-12-22T07:39:06.258455613Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/wn6bouke/file_stream\": EOF"}
+{"time":"2025-12-22T19:50:19.680794748Z","level":"INFO","msg":"stream: closing","id":"wn6bouke"}
+{"time":"2025-12-22T19:50:19.680817224Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-12-22T19:50:19.681254837Z","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2025-12-22T19:50:22.633326349Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-12-22T19:50:22.901685379Z","level":"INFO","msg":"handler: closed","stream_id":{"value":"wn6bouke"}}
+{"time":"2025-12-22T19:50:22.90171551Z","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"wn6bouke"}}
+{"time":"2025-12-22T19:50:22.901721329Z","level":"INFO","msg":"sender: closed","stream_id":"wn6bouke"}
+{"time":"2025-12-22T19:50:22.901796983Z","level":"INFO","msg":"stream: closed","id":"wn6bouke"}
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/logs/debug.log b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..2b16a844d5757130379bf8d9f586dc7be3448429
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/logs/debug.log
@@ -0,0 +1,27 @@
+2025-12-20 07:32:13,466 INFO    MainThread:52273 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2025-12-20 07:32:13,466 INFO    MainThread:52273 [wandb_setup.py:_flush():79] Configure stats pid to 52273
+2025-12-20 07:32:13,466 INFO    MainThread:52273 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2025-12-20 07:32:13,466 INFO    MainThread:52273 [wandb_setup.py:_flush():79] Loading settings from /root/workspace/LLM-BC/wandb/settings
+2025-12-20 07:32:13,466 INFO    MainThread:52273 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2025-12-20 07:32:13,466 INFO    MainThread:52273 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2025-12-20 07:32:13,466 INFO    MainThread:52273 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/root/workspace/LLM-BC/train.py', 'program': '/root/workspace/LLM-BC/./train.py'}
+2025-12-20 07:32:13,466 INFO    MainThread:52273 [wandb_setup.py:_flush():79] Applying login settings: {}
+2025-12-20 07:32:13,466 INFO    MainThread:52273 [wandb_init.py:_log_setup():533] Logging user logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/logs/debug.log
+2025-12-20 07:32:13,467 INFO    MainThread:52273 [wandb_init.py:_log_setup():534] Logging internal logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/logs/debug-internal.log
+2025-12-20 07:32:13,467 INFO    MainThread:52273 [wandb_init.py:init():619] calling init triggers
+2025-12-20 07:32:13,467 INFO    MainThread:52273 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llm_diffusion_unet_lowdim', '_target_': 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace', 'obs_dim': 18, 'action_dim': 2, 'task_name': 'parking-v0', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'keypoint_visible_rate': 1.0, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy', 'model': {'_target_': 'llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D', 'input_dim': 2, 'local_cond_dim': None, 'global_cond_dim': 18, 'diffusion_step_embed_dim': 256, 'down_dims': [256, 512, 1024], 'kernel_size': 5, 'n_groups': 8, 'cond_predict_scale': True}, 'noise_scheduler': {'_target_': 'diffusers.schedulers.scheduling_ddpm.DDPMScheduler', 'num_train_timesteps': 100, 'beta_start': 0.0001, 'beta_end': 0.02, 'beta_schedule': 'squaredcos_cap_v2', 'variance_type': 'fixed_small', 'clip_sample': True, 'prediction_type': 'epsilon'}, 'horizon': 1, 'obs_dim': 18, 'action_dim': 2, 'n_action_steps': 1, 'n_obs_steps': 1, 'num_inference_steps': 100, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'oa_step_convention': True, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'parking-v0', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.32.01_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 18, 'action_dim': 2, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_dp_weight': 1.0, 'loss_llm_weight': 0.0001, 'normalize_llm_loss': True, 'reweight_llm_loss': True}, 'ema': {'_target_': 'llmbc.model.diffusion.ema_model.EMAModel', 'update_after_step': 0, 'inv_gamma': 1.0, 'power': 0.75, 'min_value': 0.0, 'max_value': 0.9999}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': False, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.0001, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 45, 'debug': False, 'resume': True, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 500, 'num_epochs': 1001, 'gradient_accumulate_every': 16, 'use_ema': True, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'parking-v0-training', 'resume': True, 'mode': 'online', 'name': '2025.12.20-07.32.01_train_llm_diffusion_unet_lowdim_parking-v0', 'tags': ['train_llm_diffusion_unet_lowdim', 'parking-v0', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0', 'wandb_name_base': '2025.12.20-07.32.01_train_llm_diffusion_unet_lowdim_parking-v0'}, 'task': {'name': 'parking-v0', 'obs_dim': 18, 'action_dim': 2, 'env_runner': {'_target_': 'llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner', 'env_name': 'llf-highway-parking-v0', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 80, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.99}, 'dataset': {'_target_': 'llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset', 'data_path': 'datasets/parking-v0.pt', 'data_path2': 'datasets/parking-v0.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.02, 'dummy_normalizer': False}, 'instructor': {'_target_': 'llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.32.01_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2025-12-20 07:32:13,467 INFO    MainThread:52273 [wandb_init.py:init():669] starting backend
+2025-12-20 07:32:13,467 INFO    MainThread:52273 [wandb_init.py:init():673] sending inform_init request
+2025-12-20 07:32:13,468 INFO    MainThread:52273 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-12-20 07:32:13,468 INFO    MainThread:52273 [wandb_init.py:init():686] backend started and connected
+2025-12-20 07:32:13,475 INFO    MainThread:52273 [wandb_init.py:init():781] updated telemetry
+2025-12-20 07:32:13,508 INFO    MainThread:52273 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2025-12-20 07:32:14,124 INFO    MainThread:52273 [wandb_init.py:init():867] starting run threads in backend
+2025-12-20 07:32:14,547 INFO    MainThread:52273 [wandb_run.py:_console_start():2451] atexit reg
+2025-12-20 07:32:14,548 INFO    MainThread:52273 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2025-12-20 07:32:14,548 INFO    MainThread:52273 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2025-12-20 07:32:14,548 INFO    MainThread:52273 [wandb_run.py:_redirect():2389] Redirects installed.
+2025-12-20 07:32:14,549 INFO    MainThread:52273 [wandb_init.py:init():911] run started, returning control to user process
+2025-12-20 07:32:14,549 INFO    MainThread:52273 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0'}
+2025-12-22 19:50:19,680 WARNING MsgRouterThr:52273 [router.py:message_loop():75] message_loop has been closed
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/run-wn6bouke.wandb b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/run-wn6bouke.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..45f342c9036ab67b70ccfe9a407940c57f63dbc9
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073213-wn6bouke/run-wn6bouke.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:353c2085373217d4e2739022788d397d9b936bcc1d09c16e359c49fed39189db
+size 595355231
diff --git a/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json
new file mode 100644
index 0000000000000000000000000000000000000000..1451ab936ca6b5fa400d234746854c142f6193c0
--- /dev/null
+++ b/2025.12.20/07.32.01_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json
@@ -0,0 +1 @@
+{"run_id": "wn6bouke"}
\ No newline at end of file
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..6a4b48e45b98117a5e4d186b28897e3a4d782441
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
@@ -0,0 +1,193 @@
+name: train_llm_diffusion_unet_lowdim
+_target_: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+keypoint_visible_rate: 1.0
+obs_as_local_cond: false
+obs_as_global_cond: true
+pred_action_steps_only: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+  model:
+    _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+    input_dim: '${eval: ${task.action_dim} if ${obs_as_local_cond} or ${obs_as_global_cond}
+      else ${task.obs_dim} + ${task.action_dim}}'
+    local_cond_dim: '${eval: ${task.obs_dim} if ${obs_as_local_cond} else None}'
+    global_cond_dim: '${eval: ${task.obs_dim}*${n_obs_steps} if ${obs_as_global_cond}
+      else None}'
+    diffusion_step_embed_dim: 256
+    down_dims:
+    - 256
+    - 512
+    - 1024
+    kernel_size: 5
+    n_groups: 8
+    cond_predict_scale: true
+  noise_scheduler:
+    _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+    num_train_timesteps: 100
+    beta_start: 0.0001
+    beta_end: 0.02
+    beta_schedule: squaredcos_cap_v2
+    variance_type: fixed_small
+    clip_sample: true
+    prediction_type: epsilon
+  horizon: ${horizon}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  n_obs_steps: ${n_obs_steps}
+  num_inference_steps: 100
+  obs_as_local_cond: ${obs_as_local_cond}
+  obs_as_global_cond: ${obs_as_global_cond}
+  pred_action_steps_only: ${pred_action_steps_only}
+  oa_step_convention: true
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${obs_dim}
+      action_dim: ${action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  loss_dp_weight: 1.0
+  loss_llm_weight: 0.0001
+  normalize_llm_loss: true
+  reweight_llm_loss: true
+ema:
+  _target_: llmbc.model.diffusion.ema_model.EMAModel
+  update_after_step: 0
+  inv_gamma: 1.0
+  power: 0.75
+  min_value: 0.0
+  max_value: 0.9999
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: false
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.0001
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 46
+  debug: false
+  resume: true
+  lr_scheduler: cosine
+  lr_warmup_steps: 500
+  num_epochs: 1001
+  gradient_accumulate_every: 16
+  use_ema: true
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: parking-v0
+  obs_dim: 18
+  action_dim: 2
+  env_runner:
+    _target_: llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner
+    env_name: llf-highway-parking-v0
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 80
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    - fp
+    visual: false
+    discount: 0.99
+  dataset:
+    _target_: llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset
+    data_path: datasets/parking-v0.pt
+    data_path2: datasets/parking-v0.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    obs_eef_target: true
+    use_manual_normalizer: false
+    val_ratio: 0.02
+    dummy_normalizer: false
+  instructor:
+    _target_: llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..691e83b951e4bce5e76708e86f17820e9e542614
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
@@ -0,0 +1,156 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - policy.loss_llm_weight=1.0e-4
+    - training.seed=46
+  job:
+    name: train
+    chdir: null
+    override_dirname: policy.loss_llm_weight=1.0e-4,training.seed=46
+    id: ???
+    num: ???
+    config_name: llmdp_parking-v0.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /root/workspace/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /root/workspace/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..c7f4b0550e2603719e444bc2e7cea78de7c47932
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
@@ -0,0 +1,2 @@
+- policy.loss_llm_weight=1.0e-4
+- training.seed=46
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0370-test_success_rate=0.960.ckpt b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0370-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..60c17848a743c42be43baec8f01cbd107ef4dcd0
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0370-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:66dad4f8203823fcaea873282540390e99259ee8c02e6df2ddf76882d2b8a546
+size 1042506802
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0390-test_success_rate=0.960.ckpt b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0390-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..77b27a730ff6cfff55ed5962211bc83dcbe088dc
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0390-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ebcb53044c894e642811ad56cbb484c8a6bb9e1feefd8377947a081aa2138295
+size 1042506802
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0450-test_success_rate=0.960.ckpt b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0450-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..9e98851b8115db34ab3616e644640bef745267e3
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0450-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c6c7c3daf66f0a0c23e36e4e91384b90e7bd8d91243fe90121c3451179a0ef70
+size 1042506802
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0605-test_success_rate=0.960.ckpt b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0605-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..8d46c228457d7a65d95403e057625ad0be938a84
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0605-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dde537134b382135f7cc143deabedc731023e9e62ca6e75a9e6974ac2de7dc86
+size 1042506802
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0630-test_success_rate=0.960.ckpt b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0630-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..e50444254cecb97e0355a010ae2347a32555440b
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0630-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b89df32871dc44c477c7986ca64d1b41e3f4957e94b6a2b5090f6e9b870e667e
+size 1042506802
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..b466aec229a8757bab57e2fdafb545e59453aadd
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4750c4cd2348bd416690b0ebb3eedeaf7df2fe281c98d641d55a97f1e1e228f7
+size 1042506802
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt
new file mode 100644
index 0000000000000000000000000000000000000000..3ccd867f6ae426d3d2262850e9abc03424782bb2
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:73b630ff5b386dd781196df1198ee6e0ee41e5b41f4e236d404bfe9c78e29705
+size 114026330
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/train.log b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..e0d2248473d68357b12c5421e270d3d1c43571b7
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/train.log
@@ -0,0 +1,9 @@
+[2025-12-20 07:32:14,684][numexpr.utils][INFO] - Note: detected 128 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+[2025-12-20 07:32:14,685][numexpr.utils][INFO] - Note: NumExpr detected 128 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
+[2025-12-20 07:32:14,685][numexpr.utils][INFO] - NumExpr defaulting to 16 threads.
+[2025-12-20 07:32:16,625][datasets][INFO] - PyTorch version 2.2.2 available.
+[2025-12-20 07:32:16,626][datasets][INFO] - TensorFlow version 2.15.1 available.
+[2025-12-20 07:32:16,626][datasets][INFO] - JAX version 0.4.30 available.
+[2025-12-20 07:32:18,067][llmbc.model.diffusion.conditional_unet1d][INFO] - number of parameters: 6.514023e+07
+[2025-12-20 07:32:24,268][absl][INFO] - MUJOCO_GL=osmesa, attempting to import specified OpenGL backend.
+[2025-12-20 07:32:24,273][absl][INFO] - MuJoCo library version is: 2.3.7
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..62ed5922c697dfd4175606de4516ba3fc5090c04
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log
@@ -0,0 +1,30 @@
+{"time":"2025-12-20T07:32:25.075067424Z","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2025-12-20T07:32:25.07507696Z","level":"INFO","msg":"created symlink","path":"/root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/logs/debug-core.log"}
+{"time":"2025-12-20T07:32:25.182173237Z","level":"INFO","msg":"created new stream","id":"wvteizn9"}
+{"time":"2025-12-20T07:32:25.182197513Z","level":"INFO","msg":"stream: started","id":"wvteizn9"}
+{"time":"2025-12-20T07:32:25.182226384Z","level":"INFO","msg":"sender: started","stream_id":"wvteizn9"}
+{"time":"2025-12-20T07:32:25.182212134Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"wvteizn9"}}
+{"time":"2025-12-20T07:32:25.182216787Z","level":"INFO","msg":"handler: started","stream_id":{"value":"wvteizn9"}}
+{"time":"2025-12-20T07:32:25.911270796Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-12-22T01:58:48.967998479Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/wvteizn9/file_stream\": unexpected EOF"}
+{"time":"2025-12-22T01:59:12.935559975Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T01:59:44.999323543Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T02:00:19.041525379Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T05:09:26.217202546Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/wvteizn9/file_stream\": unexpected EOF"}
+{"time":"2025-12-22T05:21:58.018721189Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:24:43.064477233Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:25:15.153316426Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:28:13.070975245Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded"}
+{"time":"2025-12-22T07:29:58.073703867Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:32:43.07915798Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:34:58.083684472Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:35:30.371594926Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:36:04.562211303Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T19:59:30.628582081Z","level":"INFO","msg":"stream: closing","id":"wvteizn9"}
+{"time":"2025-12-22T19:59:30.628613673Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-12-22T19:59:30.629027731Z","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2025-12-22T19:59:31.771781754Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-12-22T19:59:32.04609548Z","level":"INFO","msg":"handler: closed","stream_id":{"value":"wvteizn9"}}
+{"time":"2025-12-22T19:59:32.046130644Z","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"wvteizn9"}}
+{"time":"2025-12-22T19:59:32.046152036Z","level":"INFO","msg":"sender: closed","stream_id":"wvteizn9"}
+{"time":"2025-12-22T19:59:32.046193636Z","level":"INFO","msg":"stream: closed","id":"wvteizn9"}
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..4c3973b2052a636ed60f043a63d62f0be1328d6c
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log
@@ -0,0 +1,27 @@
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_setup.py:_flush():79] Configure stats pid to 52792
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_setup.py:_flush():79] Loading settings from /root/workspace/LLM-BC/wandb/settings
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/root/workspace/LLM-BC/train.py', 'program': '/root/workspace/LLM-BC/./train.py'}
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_setup.py:_flush():79] Applying login settings: {}
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_init.py:_log_setup():533] Logging user logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/logs/debug.log
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_init.py:_log_setup():534] Logging internal logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/logs/debug-internal.log
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_init.py:init():619] calling init triggers
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llm_diffusion_unet_lowdim', '_target_': 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace', 'obs_dim': 18, 'action_dim': 2, 'task_name': 'parking-v0', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'keypoint_visible_rate': 1.0, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy', 'model': {'_target_': 'llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D', 'input_dim': 2, 'local_cond_dim': None, 'global_cond_dim': 18, 'diffusion_step_embed_dim': 256, 'down_dims': [256, 512, 1024], 'kernel_size': 5, 'n_groups': 8, 'cond_predict_scale': True}, 'noise_scheduler': {'_target_': 'diffusers.schedulers.scheduling_ddpm.DDPMScheduler', 'num_train_timesteps': 100, 'beta_start': 0.0001, 'beta_end': 0.02, 'beta_schedule': 'squaredcos_cap_v2', 'variance_type': 'fixed_small', 'clip_sample': True, 'prediction_type': 'epsilon'}, 'horizon': 1, 'obs_dim': 18, 'action_dim': 2, 'n_action_steps': 1, 'n_obs_steps': 1, 'num_inference_steps': 100, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'oa_step_convention': True, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'parking-v0', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.32.13_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 18, 'action_dim': 2, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_dp_weight': 1.0, 'loss_llm_weight': 0.0001, 'normalize_llm_loss': True, 'reweight_llm_loss': True}, 'ema': {'_target_': 'llmbc.model.diffusion.ema_model.EMAModel', 'update_after_step': 0, 'inv_gamma': 1.0, 'power': 0.75, 'min_value': 0.0, 'max_value': 0.9999}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': False, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.0001, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 46, 'debug': False, 'resume': True, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 500, 'num_epochs': 1001, 'gradient_accumulate_every': 16, 'use_ema': True, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'parking-v0-training', 'resume': True, 'mode': 'online', 'name': '2025.12.20-07.32.13_train_llm_diffusion_unet_lowdim_parking-v0', 'tags': ['train_llm_diffusion_unet_lowdim', 'parking-v0', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0', 'wandb_name_base': '2025.12.20-07.32.13_train_llm_diffusion_unet_lowdim_parking-v0'}, 'task': {'name': 'parking-v0', 'obs_dim': 18, 'action_dim': 2, 'env_runner': {'_target_': 'llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner', 'env_name': 'llf-highway-parking-v0', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 80, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.99}, 'dataset': {'_target_': 'llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset', 'data_path': 'datasets/parking-v0.pt', 'data_path2': 'datasets/parking-v0.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.02, 'dummy_normalizer': False}, 'instructor': {'_target_': 'llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.32.13_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_init.py:init():669] starting backend
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_init.py:init():673] sending inform_init request
+2025-12-20 07:32:25,073 INFO    MainThread:52792 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-12-20 07:32:25,073 INFO    MainThread:52792 [wandb_init.py:init():686] backend started and connected
+2025-12-20 07:32:25,080 INFO    MainThread:52792 [wandb_init.py:init():781] updated telemetry
+2025-12-20 07:32:25,111 INFO    MainThread:52792 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2025-12-20 07:32:25,908 INFO    MainThread:52792 [wandb_init.py:init():867] starting run threads in backend
+2025-12-20 07:32:26,254 INFO    MainThread:52792 [wandb_run.py:_console_start():2451] atexit reg
+2025-12-20 07:32:26,254 INFO    MainThread:52792 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2025-12-20 07:32:26,254 INFO    MainThread:52792 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2025-12-20 07:32:26,255 INFO    MainThread:52792 [wandb_run.py:_redirect():2389] Redirects installed.
+2025-12-20 07:32:26,256 INFO    MainThread:52792 [wandb_init.py:init():911] run started, returning control to user process
+2025-12-20 07:32:26,256 INFO    MainThread:52792 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0'}
+2025-12-22 19:59:30,628 WARNING MsgRouterThr:52792 [router.py:message_loop():75] message_loop has been closed
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/files/config.yaml b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..17e5304cf7f1105da3e5b767a7fc53a663f5f12a
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/files/config.yaml
@@ -0,0 +1,304 @@
+_target_:
+    value: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+_wandb:
+    value:
+        cli_version: 0.18.6
+        m: []
+        python_version: 3.9.25
+        t:
+            "1":
+                - 1
+                - 2
+                - 3
+                - 5
+                - 11
+                - 12
+                - 41
+                - 49
+                - 50
+                - 51
+                - 53
+                - 55
+                - 71
+                - 83
+                - 95
+                - 98
+                - 100
+                - 105
+            "2":
+                - 1
+                - 2
+                - 3
+                - 5
+                - 11
+                - 12
+                - 41
+                - 49
+                - 50
+                - 51
+                - 53
+                - 55
+                - 71
+                - 83
+                - 95
+                - 98
+                - 100
+                - 105
+            "3":
+                - 13
+                - 15
+                - 16
+                - 23
+                - 55
+                - 61
+            "4": 3.9.25
+            "5": 0.18.6
+            "6": 4.47.1
+            "8":
+                - 5
+            "12": 0.18.6
+            "13": linux-x86_64
+action_dim:
+    value: 2
+checkpoint:
+    value:
+        save_last_ckpt: true
+        save_last_snapshot: false
+        topk:
+            format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+            k: 5
+            mode: max
+            monitor_key: test_success_rate
+dataloader:
+    value:
+        batch_size: 16
+        num_workers: 0
+        persistent_workers: false
+        pin_memory: false
+        shuffle: true
+ema:
+    value:
+        _target_: llmbc.model.diffusion.ema_model.EMAModel
+        inv_gamma: 1
+        max_value: 0.9999
+        min_value: 0
+        power: 0.75
+        update_after_step: 0
+exp_name:
+    value: default
+horizon:
+    value: 1
+keypoint_visible_rate:
+    value: 1
+llm:
+    value:
+        causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+        checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+        config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+        finetune_mode: orig
+        hydra:
+            job:
+                override_dirname: HuggingFaceTB/SmolLM2-135M-Instruct
+            run:
+                dir: data/outputs/2025.12.20/07.32.13_HuggingFaceTB/SmolLM2-135M-Instruct
+        llm_mode: ete-finetuned
+        lora_config:
+            bias: none
+            lora_alpha: 64
+            lora_dropout: 0.05
+            r: 32
+            task_type: CAUSAL_LM
+        max_length: 100
+        model_name: SmolLM2-135M-Instruct
+        name: HuggingFaceTB/SmolLM2-135M-Instruct
+        prompter:
+            _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+            use_joint_mlp_projector: true
+        use_joint_mlp_projector: true
+        use_quantization: false
+llm_do_sample:
+    value: false
+llm_orig_expert_feedback:
+    value: true
+logging:
+    value:
+        group: null
+        id: null
+        mode: online
+        name: 2025.12.20-07.32.13_train_llm_diffusion_unet_lowdim_parking-v0
+        project: parking-v0-training
+        resume: true
+        tags:
+            - train_llm_diffusion_unet_lowdim
+            - parking-v0
+            - default
+model_name:
+    value: HuggingFaceTB/SmolLM2-135M-Instruct
+multi_run:
+    value:
+        run_dir: data/outputs/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0
+        wandb_name_base: 2025.12.20-07.32.13_train_llm_diffusion_unet_lowdim_parking-v0
+n_action_steps:
+    value: 1
+n_latency_steps:
+    value: 0
+n_obs_steps:
+    value: 1
+name:
+    value: train_llm_diffusion_unet_lowdim
+obs_as_global_cond:
+    value: true
+obs_as_local_cond:
+    value: false
+obs_dim:
+    value: 18
+optimizer:
+    value:
+        _target_: torch.optim.AdamW
+        betas:
+            - 0.95
+            - 0.999
+        eps: 1e-08
+        lr: 0.0001
+        weight_decay: 1e-06
+output_dir:
+    value: /root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0
+past_action_visible:
+    value: false
+policy:
+    value:
+        _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+        action_dim: 2
+        horizon: 1
+        llm_discriminator:
+            _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+            llm_translator:
+                _target_: llmbc.translator.llm_translator.LLMTranslator
+                action_dim: 2
+                cfg:
+                    causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+                    checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+                    config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+                    finetune_mode: orig
+                    hydra:
+                        job:
+                            override_dirname: HuggingFaceTB/SmolLM2-135M-Instruct
+                        run:
+                            dir: data/outputs/2025.12.20/07.32.13_HuggingFaceTB/SmolLM2-135M-Instruct
+                    llm_mode: ete-finetuned
+                    lora_config:
+                        bias: none
+                        lora_alpha: 64
+                        lora_dropout: 0.05
+                        r: 32
+                        task_type: CAUSAL_LM
+                    max_length: 100
+                    model_name: SmolLM2-135M-Instruct
+                    name: HuggingFaceTB/SmolLM2-135M-Instruct
+                    prompter:
+                        _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+                        use_joint_mlp_projector: true
+                    use_joint_mlp_projector: true
+                    use_quantization: false
+                horizon: 1
+                n_action_steps: 1
+                n_obs_steps: 1
+                obs_dim: 18
+            task_id: parking-v0
+        loss_dp_weight: 1
+        loss_llm_weight: 0.0001
+        model:
+            _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+            cond_predict_scale: true
+            diffusion_step_embed_dim: 256
+            down_dims:
+                - 256
+                - 512
+                - 1024
+            global_cond_dim: 18
+            input_dim: 2
+            kernel_size: 5
+            local_cond_dim: null
+            n_groups: 8
+        n_action_steps: 1
+        n_obs_steps: 1
+        noise_scheduler:
+            _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+            beta_end: 0.02
+            beta_schedule: squaredcos_cap_v2
+            beta_start: 0.0001
+            clip_sample: true
+            num_train_timesteps: 100
+            prediction_type: epsilon
+            variance_type: fixed_small
+        normalize_llm_loss: true
+        num_inference_steps: 100
+        oa_step_convention: true
+        obs_as_global_cond: true
+        obs_as_local_cond: false
+        obs_dim: 18
+        pred_action_steps_only: false
+        reweight_llm_loss: true
+pred_action_steps_only:
+    value: false
+task:
+    value:
+        action_dim: 2
+        dataset:
+            _target_: llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset
+            data_path: datasets/parking-v0.pt
+            data_path2: datasets/parking-v0.pt
+            dummy_normalizer: false
+            horizon: 1
+            obs_eef_target: true
+            pad_after: 0
+            pad_before: 0
+            use_manual_normalizer: false
+            val_ratio: 0.02
+        env_runner:
+            _target_: llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner
+            discount: 0.99
+            env_name: llf-highway-parking-v0
+            feedback_type:
+                - hp
+                - hn
+                - fp
+            instruction_type: b
+            max_steps: 80
+            n_action_steps: 1
+            n_envs: 10
+            n_obs_steps: 1
+            n_test: 50
+            n_train: 10
+            visual: false
+        instructor:
+            _target_: llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor
+        name: parking-v0
+        obs_dim: 18
+task_name:
+    value: parking-v0
+training:
+    value:
+        checkpoint_every: 5
+        debug: false
+        device: cuda:0
+        gradient_accumulate_every: 16
+        lr_scheduler: cosine
+        lr_warmup_steps: 500
+        max_train_steps: null
+        max_val_steps: null
+        num_epochs: 1001
+        resume: true
+        rollout_every: 5
+        sample_every: 5
+        seed: 46
+        tqdm_interval_sec: 1
+        use_ema: true
+        val_every: 1
+val_dataloader:
+    value:
+        batch_size: 16
+        num_workers: 0
+        persistent_workers: false
+        pin_memory: false
+        shuffle: false
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/files/output.log b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..448d06d2d2ba2d71b200279007a034f123ad0bde
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/files/output.log
@@ -0,0 +1,8 @@
+/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/stable_baselines3/common/save_util.py:166: UserWarning: Could not deserialize object lr_schedule. Consider using `custom_objects` argument to replace this object.
+Exception: Can't get attribute 'FloatSchedule' on <module 'stable_baselines3.common.utils' from '/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/stable_baselines3/common/utils.py'>
+  warnings.warn(
+Wrapping the env with a `Monitor` wrapper
+Wrapping the env in a DummyVecEnv.
+Eval HighwayLowdimRunner 1/6:   0%|                                                          | 0/80 [00:00<?, ?it/s]/root/workspace/LLM-BC/llmbc/common/llfbench_util.py:39: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:275.)
+  obs = torch.tensor(obs, dtype=torch.float32).unsqueeze(dim=0).to(device)
+                                                                                                                    
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/files/wandb-metadata.json b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..e332c308ca4754afa340b9da83b04c074cd380a3
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/files/wandb-metadata.json
@@ -0,0 +1,57 @@
+{
+  "os": "Linux-4.18.0-513.24.1.el8_9.x86_64-x86_64-with-glibc2.31",
+  "python": "3.9.25",
+  "startedAt": "2025-12-20T07:32:25.073796Z",
+  "args": [
+    "--config-path",
+    "./config/main_table",
+    "--config-name",
+    "llmdp_parking-v0.yaml",
+    "policy.loss_llm_weight=1.0e-4",
+    "training.seed=46"
+  ],
+  "program": "/root/workspace/LLM-BC/./train.py",
+  "codePath": "train.py",
+  "git": {
+    "remote": "https://github.com/CHYang25/LLM-BC.git",
+    "commit": "19d4c838d567a3f93b4721dcb5cefc20b4873e61"
+  },
+  "email": "chris920325@gmail.com",
+  "root": "/root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0",
+  "host": "llmbc-cuda-545d8cd8bc-9ltjf",
+  "username": "root",
+  "executable": "/root/miniconda3/envs/llm-bc/bin/python3",
+  "codePathLocal": "train.py",
+  "cpu_count": 64,
+  "cpu_count_logical": 128,
+  "gpu": "NVIDIA H100 80GB HBM3",
+  "gpu_count": 2,
+  "disk": {
+    "/": {
+      "total": "23041585184768",
+      "used": "576838987776"
+    }
+  },
+  "memory": {
+    "total": "2163619737600"
+  },
+  "cpu": {
+    "count": 64,
+    "countLogical": 128
+  },
+  "gpu_nvidia": [
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    },
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    }
+  ],
+  "cudaVersion": "12.8"
+}
\ No newline at end of file
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/files/wandb-summary.json b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..8b9b01b694ee6656c9215b02f47215cebadf35c8
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/files/wandb-summary.json
@@ -0,0 +1 @@
+{"train/mean_score":-0.10332255464944054,"_step":655654,"test/cumulative_reward":-6.953296135633162,"train_loss_llm":0,"train_action_mse_error":0.000415393675211817,"global_step":655654,"train_loss_dp":0.0005490658222697675,"test/success_rate":0.96,"lr":1.505919167144043e-13,"test/mean_score":-0.10990973531539831,"epoch":1000,"train/cumulative_reward":-6.66442813076433,"train/success_rate":1,"_runtime":217625.554803857,"train_loss":0.007690653681498686,"_wandb":{"runtime":217625},"val_loss":0.03978623077273369,"_timestamp":1.7664335681590815e+09}
\ No newline at end of file
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/logs/debug-core.log b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..214670e16c9e9ad707933c4028a58aa238213f19
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/logs/debug-core.log
@@ -0,0 +1,14 @@
+{"time":"2025-12-20T07:32:24.481722664Z","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmpq6eu9l4q/port-52792.txt","pid":52792,"debug":false,"disable-analytics":false}
+{"time":"2025-12-20T07:32:24.481750028Z","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2025-12-20T07:32:24.482629998Z","level":"INFO","msg":"Will exit if parent process dies.","ppid":52792}
+{"time":"2025-12-20T07:32:24.482625628Z","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":38505,"Zone":""}}
+{"time":"2025-12-20T07:32:24.676369916Z","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:34088"}
+{"time":"2025-12-20T07:32:25.074952894Z","level":"INFO","msg":"handleInformInit: received","streamId":"wvteizn9","id":"127.0.0.1:34088"}
+{"time":"2025-12-20T07:32:25.182201285Z","level":"INFO","msg":"handleInformInit: stream started","streamId":"wvteizn9","id":"127.0.0.1:34088"}
+{"time":"2025-12-22T19:59:30.628519517Z","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:34088"}
+{"time":"2025-12-22T19:59:30.628591759Z","level":"INFO","msg":"server is shutting down"}
+{"time":"2025-12-22T19:59:30.628582675Z","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:34088"}
+{"time":"2025-12-22T19:59:30.628663711Z","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:34088"}
+{"time":"2025-12-22T19:59:32.046234023Z","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:34088"}
+{"time":"2025-12-22T19:59:32.046252299Z","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:34088"}
+{"time":"2025-12-22T19:59:32.046261971Z","level":"INFO","msg":"server is closed"}
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/logs/debug-internal.log b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..62ed5922c697dfd4175606de4516ba3fc5090c04
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/logs/debug-internal.log
@@ -0,0 +1,30 @@
+{"time":"2025-12-20T07:32:25.075067424Z","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2025-12-20T07:32:25.07507696Z","level":"INFO","msg":"created symlink","path":"/root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/logs/debug-core.log"}
+{"time":"2025-12-20T07:32:25.182173237Z","level":"INFO","msg":"created new stream","id":"wvteizn9"}
+{"time":"2025-12-20T07:32:25.182197513Z","level":"INFO","msg":"stream: started","id":"wvteizn9"}
+{"time":"2025-12-20T07:32:25.182226384Z","level":"INFO","msg":"sender: started","stream_id":"wvteizn9"}
+{"time":"2025-12-20T07:32:25.182212134Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"wvteizn9"}}
+{"time":"2025-12-20T07:32:25.182216787Z","level":"INFO","msg":"handler: started","stream_id":{"value":"wvteizn9"}}
+{"time":"2025-12-20T07:32:25.911270796Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-12-22T01:58:48.967998479Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/wvteizn9/file_stream\": unexpected EOF"}
+{"time":"2025-12-22T01:59:12.935559975Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T01:59:44.999323543Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T02:00:19.041525379Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T05:09:26.217202546Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/wvteizn9/file_stream\": unexpected EOF"}
+{"time":"2025-12-22T05:21:58.018721189Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:24:43.064477233Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:25:15.153316426Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:28:13.070975245Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded"}
+{"time":"2025-12-22T07:29:58.073703867Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": net/http: request canceled (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:32:43.07915798Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:34:58.083684472Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:35:30.371594926Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T07:36:04.562211303Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": context deadline exceeded (Client.Timeout exceeded while awaiting headers)"}
+{"time":"2025-12-22T19:59:30.628582081Z","level":"INFO","msg":"stream: closing","id":"wvteizn9"}
+{"time":"2025-12-22T19:59:30.628613673Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-12-22T19:59:30.629027731Z","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2025-12-22T19:59:31.771781754Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-12-22T19:59:32.04609548Z","level":"INFO","msg":"handler: closed","stream_id":{"value":"wvteizn9"}}
+{"time":"2025-12-22T19:59:32.046130644Z","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"wvteizn9"}}
+{"time":"2025-12-22T19:59:32.046152036Z","level":"INFO","msg":"sender: closed","stream_id":"wvteizn9"}
+{"time":"2025-12-22T19:59:32.046193636Z","level":"INFO","msg":"stream: closed","id":"wvteizn9"}
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/logs/debug.log b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..4c3973b2052a636ed60f043a63d62f0be1328d6c
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/logs/debug.log
@@ -0,0 +1,27 @@
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_setup.py:_flush():79] Configure stats pid to 52792
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_setup.py:_flush():79] Loading settings from /root/workspace/LLM-BC/wandb/settings
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/root/workspace/LLM-BC/train.py', 'program': '/root/workspace/LLM-BC/./train.py'}
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_setup.py:_flush():79] Applying login settings: {}
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_init.py:_log_setup():533] Logging user logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/logs/debug.log
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_init.py:_log_setup():534] Logging internal logs to /root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/logs/debug-internal.log
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_init.py:init():619] calling init triggers
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llm_diffusion_unet_lowdim', '_target_': 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace', 'obs_dim': 18, 'action_dim': 2, 'task_name': 'parking-v0', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'keypoint_visible_rate': 1.0, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy', 'model': {'_target_': 'llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D', 'input_dim': 2, 'local_cond_dim': None, 'global_cond_dim': 18, 'diffusion_step_embed_dim': 256, 'down_dims': [256, 512, 1024], 'kernel_size': 5, 'n_groups': 8, 'cond_predict_scale': True}, 'noise_scheduler': {'_target_': 'diffusers.schedulers.scheduling_ddpm.DDPMScheduler', 'num_train_timesteps': 100, 'beta_start': 0.0001, 'beta_end': 0.02, 'beta_schedule': 'squaredcos_cap_v2', 'variance_type': 'fixed_small', 'clip_sample': True, 'prediction_type': 'epsilon'}, 'horizon': 1, 'obs_dim': 18, 'action_dim': 2, 'n_action_steps': 1, 'n_obs_steps': 1, 'num_inference_steps': 100, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'oa_step_convention': True, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'parking-v0', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.32.13_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 18, 'action_dim': 2, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_dp_weight': 1.0, 'loss_llm_weight': 0.0001, 'normalize_llm_loss': True, 'reweight_llm_loss': True}, 'ema': {'_target_': 'llmbc.model.diffusion.ema_model.EMAModel', 'update_after_step': 0, 'inv_gamma': 1.0, 'power': 0.75, 'min_value': 0.0, 'max_value': 0.9999}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': False, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.0001, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 46, 'debug': False, 'resume': True, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 500, 'num_epochs': 1001, 'gradient_accumulate_every': 16, 'use_ema': True, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'parking-v0-training', 'resume': True, 'mode': 'online', 'name': '2025.12.20-07.32.13_train_llm_diffusion_unet_lowdim_parking-v0', 'tags': ['train_llm_diffusion_unet_lowdim', 'parking-v0', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0', 'wandb_name_base': '2025.12.20-07.32.13_train_llm_diffusion_unet_lowdim_parking-v0'}, 'task': {'name': 'parking-v0', 'obs_dim': 18, 'action_dim': 2, 'env_runner': {'_target_': 'llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner', 'env_name': 'llf-highway-parking-v0', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 80, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.99}, 'dataset': {'_target_': 'llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset', 'data_path': 'datasets/parking-v0.pt', 'data_path2': 'datasets/parking-v0.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.02, 'dummy_normalizer': False}, 'instructor': {'_target_': 'llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.20/07.32.13_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_init.py:init():669] starting backend
+2025-12-20 07:32:25,072 INFO    MainThread:52792 [wandb_init.py:init():673] sending inform_init request
+2025-12-20 07:32:25,073 INFO    MainThread:52792 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-12-20 07:32:25,073 INFO    MainThread:52792 [wandb_init.py:init():686] backend started and connected
+2025-12-20 07:32:25,080 INFO    MainThread:52792 [wandb_init.py:init():781] updated telemetry
+2025-12-20 07:32:25,111 INFO    MainThread:52792 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2025-12-20 07:32:25,908 INFO    MainThread:52792 [wandb_init.py:init():867] starting run threads in backend
+2025-12-20 07:32:26,254 INFO    MainThread:52792 [wandb_run.py:_console_start():2451] atexit reg
+2025-12-20 07:32:26,254 INFO    MainThread:52792 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2025-12-20 07:32:26,254 INFO    MainThread:52792 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2025-12-20 07:32:26,255 INFO    MainThread:52792 [wandb_run.py:_redirect():2389] Redirects installed.
+2025-12-20 07:32:26,256 INFO    MainThread:52792 [wandb_init.py:init():911] run started, returning control to user process
+2025-12-20 07:32:26,256 INFO    MainThread:52792 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/root/workspace/LLM-BC/data/outputs/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0'}
+2025-12-22 19:59:30,628 WARNING MsgRouterThr:52792 [router.py:message_loop():75] message_loop has been closed
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/run-wvteizn9.wandb b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/run-wvteizn9.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..0b4f79e963f12fc25161fe049b85584bc93301ae
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251220_073225-wvteizn9/run-wvteizn9.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d10bbf5e6f688d137280a065d8be46ddedb747efd374a8a293d1a0c49f86e075
+size 596514800
diff --git a/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json
new file mode 100644
index 0000000000000000000000000000000000000000..6e0fd95456078aac8fa5ed4b1eace1260a05f92c
--- /dev/null
+++ b/2025.12.20/07.32.13_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json
@@ -0,0 +1 @@
+{"run_id": "wvteizn9"}
\ No newline at end of file