diff --git a/.gitattributes b/.gitattributes
index 101b32bbd64da8bc0ab8b7d0612fafb9406865bb..83af75193cbfa10b19b0f868c4fc776248b70756 100644
--- a/.gitattributes
+++ b/.gitattributes
@@ -43,3 +43,9 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 2025.12.16/16.18.02_train_llmbc_lowdim_box-close-v2/wandb/run-20251216_161817-agd5zxwx/run-agd5zxwx.wandb filter=lfs diff=lfs merge=lfs -text
 2025.12.16/16.18.07_train_llmbc_lowdim_box-close-v2/logs.json.txt filter=lfs diff=lfs merge=lfs -text
 2025.12.16/16.18.07_train_llmbc_lowdim_box-close-v2/wandb/run-20251216_161825-iyphymsd/run-iyphymsd.wandb filter=lfs diff=lfs merge=lfs -text
+2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/run-juft93rb.wandb filter=lfs diff=lfs merge=lfs -text
+2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/run-z04notzj.wandb filter=lfs diff=lfs merge=lfs -text
+2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt filter=lfs diff=lfs merge=lfs -text
+2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/run-5vils759.wandb filter=lfs diff=lfs merge=lfs -text
+2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt filter=lfs diff=lfs merge=lfs -text
+2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/run-etljn2u5.wandb filter=lfs diff=lfs merge=lfs -text
diff --git a/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/.hydra/config.yaml b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..e89ad52784667c4860708839fcf2efce58134ba9
--- /dev/null
+++ b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/.hydra/config.yaml
@@ -0,0 +1,191 @@
+name: train_llm_diffusion_unet_lowdim
+_target_: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+keypoint_visible_rate: 1.0
+obs_as_local_cond: false
+obs_as_global_cond: true
+pred_action_steps_only: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+  model:
+    _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+    input_dim: '${eval: ${task.action_dim} if ${obs_as_local_cond} or ${obs_as_global_cond}
+      else ${task.obs_dim} + ${task.action_dim}}'
+    local_cond_dim: '${eval: ${task.obs_dim} if ${obs_as_local_cond} else None}'
+    global_cond_dim: '${eval: ${task.obs_dim}*${n_obs_steps} if ${obs_as_global_cond}
+      else None}'
+    diffusion_step_embed_dim: 256
+    down_dims:
+    - 256
+    - 512
+    - 1024
+    kernel_size: 5
+    n_groups: 8
+    cond_predict_scale: true
+  noise_scheduler:
+    _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+    num_train_timesteps: 100
+    beta_start: 0.0001
+    beta_end: 0.02
+    beta_schedule: squaredcos_cap_v2
+    variance_type: fixed_small
+    clip_sample: true
+    prediction_type: epsilon
+  horizon: ${horizon}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  n_obs_steps: ${n_obs_steps}
+  num_inference_steps: 100
+  obs_as_local_cond: ${obs_as_local_cond}
+  obs_as_global_cond: ${obs_as_global_cond}
+  pred_action_steps_only: ${pred_action_steps_only}
+  oa_step_convention: true
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${obs_dim}
+      action_dim: ${action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  loss_dp_weight: 1.0
+  loss_llm_weight: 0.01
+  normalize_llm_loss: true
+  reweight_llm_loss: true
+ema:
+  _target_: llmbc.model.diffusion.ema_model.EMAModel
+  update_after_step: 0
+  inv_gamma: 1.0
+  power: 0.75
+  min_value: 0.0
+  max_value: 0.9999
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: false
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.0001
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 45
+  debug: false
+  resume: true
+  lr_scheduler: cosine
+  lr_warmup_steps: 500
+  num_epochs: 1001
+  gradient_accumulate_every: 16
+  use_ema: true
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: PegInsertionSide-v1
+  obs_dim: 43
+  action_dim: 8
+  env_runner:
+    _target_: llmbc.env_runner.maniskill_lowdim_runner.ManiskillLowdimRunner
+    env_name: llf-maniskill-PegInsertionSide-v1
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    visual: false
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 100
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    discount: 0.99
+  dataset:
+    _target_: llmbc.dataset.maniskill_lowdim_dataset.ManiskillLowdimDataset
+    data_path: datasets/PegInsertionSide-v1.pt
+    data_path2: datasets/PegInsertionSide-v1.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    use_manual_normalizer: false
+    val_ratio: 0.02
+    dummy_normalizer: false
+  instructor:
+    _target_: llmbc.translator.instructor.maniskill_instructor.PegInsertionSide_v1_instructor.PegInsertionSideV1Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.10.20/18.44.04_train_llm_lowdim_PegInsertionSide-v1/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-PegInsertionSide-v1/checkpoint-19070
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/.hydra/hydra.yaml b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..87691ac3737cb8df6be141ebe44c1143715c61fd
--- /dev/null
+++ b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/.hydra/hydra.yaml
@@ -0,0 +1,155 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - training.seed=45
+  job:
+    name: train
+    chdir: null
+    override_dirname: training.seed=45
+    id: ???
+    num: ???
+    config_name: llmdp_PegInsertionSide-v1.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /root/workspace/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /root/workspace/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /root/workspace/LLM-BC/data/outputs/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/.hydra/overrides.yaml b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..b73ec44dbc4528b3b0e0ea4cadc83907b7b3ab6b
--- /dev/null
+++ b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/.hydra/overrides.yaml
@@ -0,0 +1 @@
+- training.seed=45
diff --git a/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/logs.json.txt b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/logs.json.txt
new file mode 100644
index 0000000000000000000000000000000000000000..06f12289d99aeef33f06108045f044aa560ce39f
--- /dev/null
+++ b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/logs.json.txt
@@ -0,0 +1,1138 @@
+{"train_loss": 1.0985379219055176, "train_loss_dp": 1.0896602869033813, "train_loss_llm": 0.8877601623535156, "global_step": 0, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.4654779434204102, "train_loss_dp": 1.4637470245361328, "train_loss_llm": 0.17309069633483887, "global_step": 1, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.133161187171936, "train_loss_dp": 1.1322734355926514, "train_loss_llm": 0.08877944946289062, "global_step": 2, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.0909662246704102, "train_loss_dp": 1.0903499126434326, "train_loss_llm": 0.0616304874420166, "global_step": 3, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.4280989170074463, "train_loss_dp": 1.4223883152008057, "train_loss_llm": 0.5710639953613281, "global_step": 4, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.1773539781570435, "train_loss_dp": 1.1765000820159912, "train_loss_llm": 0.0853872299194336, "global_step": 5, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.0927841663360596, "train_loss_dp": 1.0911431312561035, "train_loss_llm": 0.16409969329833984, "global_step": 6, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 0.8581615686416626, "train_loss_dp": 0.8558472394943237, "train_loss_llm": 0.2314317226409912, "global_step": 7, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.1347392797470093, "train_loss_dp": 1.1343716382980347, "train_loss_llm": 0.036765217781066895, "global_step": 8, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.2518117427825928, "train_loss_dp": 1.2518117427825928, "train_loss_llm": 0.0, "global_step": 9, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.0824744701385498, "train_loss_dp": 1.0823763608932495, "train_loss_llm": 0.009809494018554688, "global_step": 10, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 0.8811387419700623, "train_loss_dp": 0.8807802796363831, "train_loss_llm": 0.03584575653076172, "global_step": 11, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.2840423583984375, "train_loss_dp": 1.282766342163086, "train_loss_llm": 0.12760436534881592, "global_step": 12, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.1946215629577637, "train_loss_dp": 1.1938594579696655, "train_loss_llm": 0.07620978355407715, "global_step": 13, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.281442403793335, "train_loss_dp": 1.281442403793335, "train_loss_llm": 0.0, "global_step": 14, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.1847721338272095, "train_loss_dp": 1.184169054031372, "train_loss_llm": 0.060302734375, "global_step": 15, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.0635162591934204, "train_loss_dp": 1.0625704526901245, "train_loss_llm": 0.09458351135253906, "global_step": 16, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.0353374481201172, "train_loss_dp": 1.0346801280975342, "train_loss_llm": 0.06573176383972168, "global_step": 17, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 0.9948256611824036, "train_loss_dp": 0.9948256611824036, "train_loss_llm": 0.0, "global_step": 18, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.1166762113571167, "train_loss_dp": 1.1154705286026, "train_loss_llm": 0.12056446075439453, "global_step": 19, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.3240282535552979, "train_loss_dp": 1.3221733570098877, "train_loss_llm": 0.18549013137817383, "global_step": 20, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 0.9400582313537598, "train_loss_dp": 0.9262157678604126, "train_loss_llm": 1.3842487335205078, "global_step": 21, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 0.9867411851882935, "train_loss_dp": 0.9865102767944336, "train_loss_llm": 0.02309119701385498, "global_step": 22, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.39530611038208, "train_loss_dp": 1.3939414024353027, "train_loss_llm": 0.1364651918411255, "global_step": 23, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.0753458738327026, "train_loss_dp": 1.0740227699279785, "train_loss_llm": 0.13231313228607178, "global_step": 24, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.1263948678970337, "train_loss_dp": 1.126039981842041, "train_loss_llm": 0.03548431396484375, "global_step": 25, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.1868271827697754, "train_loss_dp": 1.1859873533248901, "train_loss_llm": 0.08398628234863281, "global_step": 26, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.1206680536270142, "train_loss_dp": 1.1203434467315674, "train_loss_llm": 0.03246617317199707, "global_step": 27, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.1069027185440063, "train_loss_dp": 1.1053954362869263, "train_loss_llm": 0.1507267951965332, "global_step": 28, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.3911324739456177, "train_loss_dp": 1.3890867233276367, "train_loss_llm": 0.2045755386352539, "global_step": 29, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 0.8274229168891907, "train_loss_dp": 0.826878011226654, "train_loss_llm": 0.054492950439453125, "global_step": 30, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.0441054105758667, "train_loss_dp": 1.0404871702194214, "train_loss_llm": 0.36182069778442383, "global_step": 31, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 0.9616901874542236, "train_loss_dp": 0.9607210159301758, "train_loss_llm": 0.09691762924194336, "global_step": 32, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.309016466140747, "train_loss_dp": 1.307707667350769, "train_loss_llm": 0.13087749481201172, "global_step": 33, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.1339068412780762, "train_loss_dp": 1.1333035230636597, "train_loss_llm": 0.06033426523208618, "global_step": 34, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.1099766492843628, "train_loss_dp": 1.1077136993408203, "train_loss_llm": 0.22629547119140625, "global_step": 35, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.0296013355255127, "train_loss_dp": 1.0296013355255127, "train_loss_llm": 0.0, "global_step": 36, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.151642918586731, "train_loss_dp": 1.127565860748291, "train_loss_llm": 2.4077072143554688, "global_step": 37, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.22986900806427, "train_loss_dp": 1.2291148900985718, "train_loss_llm": 0.0754098892211914, "global_step": 38, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.2255054712295532, "train_loss_dp": 1.2234468460083008, "train_loss_llm": 0.20586395263671875, "global_step": 39, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.0416100025177002, "train_loss_dp": 1.0404694080352783, "train_loss_llm": 0.11405348777770996, "global_step": 40, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.1747819185256958, "train_loss_dp": 1.1747819185256958, "train_loss_llm": 0.0, "global_step": 41, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.0766620635986328, "train_loss_dp": 1.0762922763824463, "train_loss_llm": 0.036982953548431396, "global_step": 42, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 0.8969760537147522, "train_loss_dp": 0.8959630727767944, "train_loss_llm": 0.10130071640014648, "global_step": 43, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.2189387083053589, "train_loss_dp": 1.2141727209091187, "train_loss_llm": 0.4765949249267578, "global_step": 44, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.1263790130615234, "train_loss_dp": 1.1260690689086914, "train_loss_llm": 0.030989646911621094, "global_step": 45, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.3651713132858276, "train_loss_dp": 1.355979084968567, "train_loss_llm": 0.9192237854003906, "global_step": 46, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.1069095134735107, "train_loss_dp": 1.1028724908828735, "train_loss_llm": 0.4037017822265625, "global_step": 47, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.2738949060440063, "train_loss_dp": 1.2724146842956543, "train_loss_llm": 0.1480269432067871, "global_step": 48, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.0901566743850708, "train_loss_dp": 1.0885846614837646, "train_loss_llm": 0.15720129013061523, "global_step": 49, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 0.9751575589179993, "train_loss_dp": 0.9746450185775757, "train_loss_llm": 0.0512540340423584, "global_step": 50, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.1461105346679688, "train_loss_dp": 1.140854835510254, "train_loss_llm": 0.52557373046875, "global_step": 51, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 0.8400129675865173, "train_loss_dp": 0.8397176861763, "train_loss_llm": 0.0295296311378479, "global_step": 52, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 0.921692967414856, "train_loss_dp": 0.9209404587745667, "train_loss_llm": 0.07524871826171875, "global_step": 53, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 0.9475520849227905, "train_loss_dp": 0.9472599625587463, "train_loss_llm": 0.029214859008789062, "global_step": 54, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.210663080215454, "train_loss_dp": 1.2055608034133911, "train_loss_llm": 0.5102300643920898, "global_step": 55, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 0.9574957489967346, "train_loss_dp": 0.9553875923156738, "train_loss_llm": 0.2108139991760254, "global_step": 56, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.0723544359207153, "train_loss_dp": 1.070704698562622, "train_loss_llm": 0.16497230529785156, "global_step": 57, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.1934173107147217, "train_loss_dp": 1.1921626329421997, "train_loss_llm": 0.12546825408935547, "global_step": 58, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.0382543802261353, "train_loss_dp": 1.0382543802261353, "train_loss_llm": 0.0, "global_step": 59, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.1378287076950073, "train_loss_dp": 1.1367723941802979, "train_loss_llm": 0.1056288480758667, "global_step": 60, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.0218539237976074, "train_loss_dp": 1.0208320617675781, "train_loss_llm": 0.10219192504882812, "global_step": 61, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.318031907081604, "train_loss_dp": 1.3176138401031494, "train_loss_llm": 0.041809797286987305, "global_step": 62, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.099493145942688, "train_loss_dp": 1.0969666242599487, "train_loss_llm": 0.25264930725097656, "global_step": 63, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.206074595451355, "train_loss_dp": 1.2048407793045044, "train_loss_llm": 0.12337791919708252, "global_step": 64, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.2417412996292114, "train_loss_dp": 1.240429401397705, "train_loss_llm": 0.13119280338287354, "global_step": 65, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 0.9709529876708984, "train_loss_dp": 0.9696536064147949, "train_loss_llm": 0.1299383044242859, "global_step": 66, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.5077736377716064, "train_loss_dp": 1.5066184997558594, "train_loss_llm": 0.11551809310913086, "global_step": 67, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 0.7894492149353027, "train_loss_dp": 0.7887254953384399, "train_loss_llm": 0.0723733901977539, "global_step": 68, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.2095670700073242, "train_loss_dp": 1.2072856426239014, "train_loss_llm": 0.22814369201660156, "global_step": 69, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 0.9050904512405396, "train_loss_dp": 0.9049289226531982, "train_loss_llm": 0.016152381896972656, "global_step": 70, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 0.9545427560806274, "train_loss_dp": 0.9545427560806274, "train_loss_llm": 0.0, "global_step": 71, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.0552440881729126, "train_loss_dp": 1.0538296699523926, "train_loss_llm": 0.1414475440979004, "global_step": 72, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.174756646156311, "train_loss_dp": 1.1732584238052368, "train_loss_llm": 0.14981937408447266, "global_step": 73, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.139035940170288, "train_loss_dp": 1.1382170915603638, "train_loss_llm": 0.08189010620117188, "global_step": 74, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.019212245941162, "train_loss_dp": 1.019212245941162, "train_loss_llm": 0.0, "global_step": 75, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.173648476600647, "train_loss_dp": 1.1710799932479858, "train_loss_llm": 0.2568483352661133, "global_step": 76, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.3263051509857178, "train_loss_dp": 1.3254890441894531, "train_loss_llm": 0.08161282539367676, "global_step": 77, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.1310148239135742, "train_loss_dp": 1.1298251152038574, "train_loss_llm": 0.11897331476211548, "global_step": 78, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 0.9808435440063477, "train_loss_dp": 0.979712963104248, "train_loss_llm": 0.11305618286132812, "global_step": 79, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.0221863985061646, "train_loss_dp": 1.021532654762268, "train_loss_llm": 0.06537723541259766, "global_step": 80, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.1536602973937988, "train_loss_dp": 1.1531569957733154, "train_loss_llm": 0.05032533407211304, "global_step": 81, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.163857340812683, "train_loss_dp": 1.1616544723510742, "train_loss_llm": 0.22028732299804688, "global_step": 82, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 0.9241082668304443, "train_loss_dp": 0.923625111579895, "train_loss_llm": 0.04831695556640625, "global_step": 83, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.235735297203064, "train_loss_dp": 1.2341160774230957, "train_loss_llm": 0.16192716360092163, "global_step": 84, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.2260080575942993, "train_loss_dp": 1.22536301612854, "train_loss_llm": 0.0644989013671875, "global_step": 85, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.023013949394226, "train_loss_dp": 1.0221295356750488, "train_loss_llm": 0.08843737840652466, "global_step": 86, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.2451318502426147, "train_loss_dp": 1.2428715229034424, "train_loss_llm": 0.22603607177734375, "global_step": 87, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.0405561923980713, "train_loss_dp": 1.038835883140564, "train_loss_llm": 0.17203474044799805, "global_step": 88, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.0630418062210083, "train_loss_dp": 1.0623550415039062, "train_loss_llm": 0.0686807632446289, "global_step": 89, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 0.951117217540741, "train_loss_dp": 0.951117217540741, "train_loss_llm": 0.0, "global_step": 90, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 0.8172963857650757, "train_loss_dp": 0.816460132598877, "train_loss_llm": 0.08362412452697754, "global_step": 91, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.1555509567260742, "train_loss_dp": 1.153566837310791, "train_loss_llm": 0.1984100341796875, "global_step": 92, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 0.9815109968185425, "train_loss_dp": 0.9803979396820068, "train_loss_llm": 0.11130297183990479, "global_step": 93, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 0.9068938493728638, "train_loss_dp": 0.9068694114685059, "train_loss_llm": 0.0024423599243164062, "global_step": 94, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.2823796272277832, "train_loss_dp": 1.2810713052749634, "train_loss_llm": 0.1308274269104004, "global_step": 95, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.0433014631271362, "train_loss_dp": 1.0433014631271362, "train_loss_llm": 0.0, "global_step": 96, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.496997356414795, "train_loss_dp": 1.4946824312210083, "train_loss_llm": 0.2314891815185547, "global_step": 97, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 0.853029191493988, "train_loss_dp": 0.8529438972473145, "train_loss_llm": 0.008528828620910645, "global_step": 98, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.0195893049240112, "train_loss_dp": 1.0165902376174927, "train_loss_llm": 0.2999114990234375, "global_step": 99, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 0.9449806213378906, "train_loss_dp": 0.9444286823272705, "train_loss_llm": 0.05519676208496094, "global_step": 100, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 0.817291259765625, "train_loss_dp": 0.817291259765625, "train_loss_llm": 0.0, "global_step": 101, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.2515830993652344, "train_loss_dp": 1.2507710456848145, "train_loss_llm": 0.08119964599609375, "global_step": 102, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.271264672279358, "train_loss_dp": 1.271264672279358, "train_loss_llm": 0.0, "global_step": 103, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 0.9768757820129395, "train_loss_dp": 0.9768757820129395, "train_loss_llm": 0.0, "global_step": 104, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.1387970447540283, "train_loss_dp": 1.13567054271698, "train_loss_llm": 0.3126513957977295, "global_step": 105, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 0.901324450969696, "train_loss_dp": 0.8998660445213318, "train_loss_llm": 0.1458415985107422, "global_step": 106, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 0.953514814376831, "train_loss_dp": 0.9527406096458435, "train_loss_llm": 0.07741904258728027, "global_step": 107, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.1521265506744385, "train_loss_dp": 1.1508550643920898, "train_loss_llm": 0.12714767456054688, "global_step": 108, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.1147581338882446, "train_loss_dp": 1.1137168407440186, "train_loss_llm": 0.10413330793380737, "global_step": 109, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.1394498348236084, "train_loss_dp": 1.1394498348236084, "train_loss_llm": 0.0, "global_step": 110, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.2154014110565186, "train_loss_dp": 1.2126619815826416, "train_loss_llm": 0.2739415168762207, "global_step": 111, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.3102742433547974, "train_loss_dp": 1.3097970485687256, "train_loss_llm": 0.04771995544433594, "global_step": 112, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.2499942779541016, "train_loss_dp": 1.2499942779541016, "train_loss_llm": 0.0, "global_step": 113, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.0638259649276733, "train_loss_dp": 1.0610874891281128, "train_loss_llm": 0.2738533020019531, "global_step": 114, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.0443137884140015, "train_loss_dp": 1.0440089702606201, "train_loss_llm": 0.030477523803710938, "global_step": 115, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.267205834388733, "train_loss_dp": 1.267205834388733, "train_loss_llm": 0.0, "global_step": 116, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.0793520212173462, "train_loss_dp": 1.079140067100525, "train_loss_llm": 0.021201133728027344, "global_step": 117, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.2511869668960571, "train_loss_dp": 1.2487239837646484, "train_loss_llm": 0.24630117416381836, "global_step": 118, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.0686309337615967, "train_loss_dp": 1.0676183700561523, "train_loss_llm": 0.10125958919525146, "global_step": 119, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.1504017114639282, "train_loss_dp": 1.1490850448608398, "train_loss_llm": 0.13167166709899902, "global_step": 120, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.0320974588394165, "train_loss_dp": 1.02866792678833, "train_loss_llm": 0.34295654296875, "global_step": 121, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.0083247423171997, "train_loss_dp": 1.0057706832885742, "train_loss_llm": 0.2554035186767578, "global_step": 122, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 0.9507772326469421, "train_loss_dp": 0.9498205780982971, "train_loss_llm": 0.09566521644592285, "global_step": 123, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.0631695985794067, "train_loss_dp": 1.0615901947021484, "train_loss_llm": 0.15793466567993164, "global_step": 124, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 0.8016974925994873, "train_loss_dp": 0.8009517192840576, "train_loss_llm": 0.07457482814788818, "global_step": 125, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.100352168083191, "train_loss_dp": 1.0928847789764404, "train_loss_llm": 0.746741771697998, "global_step": 126, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.2297359704971313, "train_loss_dp": 1.2287901639938354, "train_loss_llm": 0.09458416700363159, "global_step": 127, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 0.9578881859779358, "train_loss_dp": 0.9564337134361267, "train_loss_llm": 0.14544916152954102, "global_step": 128, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.8352214694023132, "train_loss_dp": 0.8326880931854248, "train_loss_llm": 0.2533378601074219, "global_step": 129, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.920512318611145, "train_loss_dp": 0.919231653213501, "train_loss_llm": 0.12806552648544312, "global_step": 130, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.3006402254104614, "train_loss_dp": 1.298743724822998, "train_loss_llm": 0.18965435028076172, "global_step": 131, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.1335198879241943, "train_loss_dp": 1.1335198879241943, "train_loss_llm": 0.0, "global_step": 132, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.9667917490005493, "train_loss_dp": 0.9658048152923584, "train_loss_llm": 0.09869104623794556, "global_step": 133, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.8909174203872681, "train_loss_dp": 0.8897304534912109, "train_loss_llm": 0.11869573593139648, "global_step": 134, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.8939653635025024, "train_loss_dp": 0.8939653635025024, "train_loss_llm": 0.0, "global_step": 135, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.295551061630249, "train_loss_dp": 1.295551061630249, "train_loss_llm": 0.0, "global_step": 136, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.8229800462722778, "train_loss_dp": 0.8229465484619141, "train_loss_llm": 0.0033473968505859375, "global_step": 137, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.9803616404533386, "train_loss_dp": 0.9795821905136108, "train_loss_llm": 0.07794702053070068, "global_step": 138, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.0398536920547485, "train_loss_dp": 1.0388526916503906, "train_loss_llm": 0.10010367631912231, "global_step": 139, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.9381138682365417, "train_loss_dp": 0.9375518560409546, "train_loss_llm": 0.05620384216308594, "global_step": 140, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.9889559149742126, "train_loss_dp": 0.9874842762947083, "train_loss_llm": 0.14716672897338867, "global_step": 141, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.9821372628211975, "train_loss_dp": 0.9807112216949463, "train_loss_llm": 0.14260578155517578, "global_step": 142, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.2809792757034302, "train_loss_dp": 1.280425786972046, "train_loss_llm": 0.05535125732421875, "global_step": 143, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.3607512712478638, "train_loss_dp": 1.3593634366989136, "train_loss_llm": 0.13878443837165833, "global_step": 144, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 0.9276675581932068, "train_loss_dp": 0.9266378283500671, "train_loss_llm": 0.10297465324401855, "global_step": 145, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.0487499237060547, "train_loss_dp": 1.0467228889465332, "train_loss_llm": 0.20270919799804688, "global_step": 146, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.0810956954956055, "train_loss_dp": 1.076791524887085, "train_loss_llm": 0.430419921875, "global_step": 147, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.0065577030181885, "train_loss_dp": 1.0044916868209839, "train_loss_llm": 0.20659637451171875, "global_step": 148, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 0.88931804895401, "train_loss_dp": 0.8881032466888428, "train_loss_llm": 0.12148118019104004, "global_step": 149, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.2190368175506592, "train_loss_dp": 1.2177075147628784, "train_loss_llm": 0.13292503356933594, "global_step": 150, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.3573933839797974, "train_loss_dp": 1.3562830686569214, "train_loss_llm": 0.11103630065917969, "global_step": 151, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.1147842407226562, "train_loss_dp": 1.1140508651733398, "train_loss_llm": 0.07333564758300781, "global_step": 152, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 0.9979522228240967, "train_loss_dp": 0.9977402687072754, "train_loss_llm": 0.0211944580078125, "global_step": 153, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 0.905772864818573, "train_loss_dp": 0.8986454010009766, "train_loss_llm": 0.7127456665039062, "global_step": 154, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.1622666120529175, "train_loss_dp": 1.1597445011138916, "train_loss_llm": 0.25220561027526855, "global_step": 155, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.074314832687378, "train_loss_dp": 1.0702118873596191, "train_loss_llm": 0.4102897644042969, "global_step": 156, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.2259317636489868, "train_loss_dp": 1.2194061279296875, "train_loss_llm": 0.6525635719299316, "global_step": 157, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 0.9797224402427673, "train_loss_dp": 0.9784834384918213, "train_loss_llm": 0.12390005588531494, "global_step": 158, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.1654391288757324, "train_loss_dp": 1.1622977256774902, "train_loss_llm": 0.3141345977783203, "global_step": 159, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.1791352033615112, "train_loss_dp": 1.1759892702102661, "train_loss_llm": 0.3145942687988281, "global_step": 160, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.0477420091629028, "train_loss_dp": 1.0476561784744263, "train_loss_llm": 0.008582353591918945, "global_step": 161, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.0215427875518799, "train_loss_dp": 1.0181903839111328, "train_loss_llm": 0.33524131774902344, "global_step": 162, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.011238694190979, "train_loss_dp": 1.0082350969314575, "train_loss_llm": 0.30036282539367676, "global_step": 163, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.3258174657821655, "train_loss_dp": 1.323150873184204, "train_loss_llm": 0.26666200160980225, "global_step": 164, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.1343441009521484, "train_loss_dp": 1.1338651180267334, "train_loss_llm": 0.04790210723876953, "global_step": 165, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.100966453552246, "train_loss_dp": 1.0980825424194336, "train_loss_llm": 0.2883882522583008, "global_step": 166, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.0213152170181274, "train_loss_dp": 1.0208983421325684, "train_loss_llm": 0.04168808460235596, "global_step": 167, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.0171343088150024, "train_loss_dp": 1.0159721374511719, "train_loss_llm": 0.11621451377868652, "global_step": 168, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.9411302208900452, "train_loss_dp": 0.940015971660614, "train_loss_llm": 0.11142206192016602, "global_step": 169, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.2981058359146118, "train_loss_dp": 1.2980730533599854, "train_loss_llm": 0.003277420997619629, "global_step": 170, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.9289166331291199, "train_loss_dp": 0.9289166331291199, "train_loss_llm": 0.0, "global_step": 171, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.0996677875518799, "train_loss_dp": 1.0985217094421387, "train_loss_llm": 0.11460745334625244, "global_step": 172, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.3382258415222168, "train_loss_dp": 1.3382258415222168, "train_loss_llm": 0.0, "global_step": 173, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.0514930486679077, "train_loss_dp": 1.0497180223464966, "train_loss_llm": 0.17749953269958496, "global_step": 174, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.285252571105957, "train_loss_dp": 1.2835679054260254, "train_loss_llm": 0.16846466064453125, "global_step": 175, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.8983526229858398, "train_loss_dp": 0.893616259098053, "train_loss_llm": 0.47363758087158203, "global_step": 176, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 0.9426859021186829, "train_loss_dp": 0.9421604871749878, "train_loss_llm": 0.05253887176513672, "global_step": 177, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 0.8927493691444397, "train_loss_dp": 0.8915520906448364, "train_loss_llm": 0.11972618103027344, "global_step": 178, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.020646572113037, "train_loss_dp": 1.017107605934143, "train_loss_llm": 0.3538932800292969, "global_step": 179, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 0.9448804259300232, "train_loss_dp": 0.9412440061569214, "train_loss_llm": 0.3636436462402344, "global_step": 180, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 0.9629008173942566, "train_loss_dp": 0.9619452357292175, "train_loss_llm": 0.09555888175964355, "global_step": 181, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.0316530466079712, "train_loss_dp": 1.029853343963623, "train_loss_llm": 0.17997050285339355, "global_step": 182, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.189255714416504, "train_loss_dp": 1.1880229711532593, "train_loss_llm": 0.12327289581298828, "global_step": 183, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.0250928401947021, "train_loss_dp": 1.0228338241577148, "train_loss_llm": 0.22590065002441406, "global_step": 184, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.0467040538787842, "train_loss_dp": 1.045109748840332, "train_loss_llm": 0.1594277024269104, "global_step": 185, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.0740689039230347, "train_loss_dp": 1.0711874961853027, "train_loss_llm": 0.2881460189819336, "global_step": 186, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 0.9721022844314575, "train_loss_dp": 0.9693772792816162, "train_loss_llm": 0.27250075340270996, "global_step": 187, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.021355152130127, "train_loss_dp": 1.0193893909454346, "train_loss_llm": 0.19657516479492188, "global_step": 188, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.1182093620300293, "train_loss_dp": 1.1155775785446167, "train_loss_llm": 0.26317548751831055, "global_step": 189, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.1020336151123047, "train_loss_dp": 1.1012083292007446, "train_loss_llm": 0.0825275182723999, "global_step": 190, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.0910813808441162, "train_loss_dp": 1.0902798175811768, "train_loss_llm": 0.08015626668930054, "global_step": 191, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.1422295570373535, "train_loss_dp": 1.14054536819458, "train_loss_llm": 0.16841793060302734, "global_step": 192, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.0923423767089844, "train_loss_dp": 1.0897095203399658, "train_loss_llm": 0.26328396797180176, "global_step": 193, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.1193256378173828, "train_loss_dp": 1.117889404296875, "train_loss_llm": 0.14362335205078125, "global_step": 194, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.2603882551193237, "train_loss_dp": 1.2582292556762695, "train_loss_llm": 0.21590423583984375, "global_step": 195, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.202675700187683, "train_loss_dp": 1.2022488117218018, "train_loss_llm": 0.04268777370452881, "global_step": 196, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.03938627243042, "train_loss_dp": 1.0386381149291992, "train_loss_llm": 0.07481241226196289, "global_step": 197, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.2564809322357178, "train_loss_dp": 1.2555757761001587, "train_loss_llm": 0.09051346778869629, "global_step": 198, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.086548924446106, "train_loss_dp": 1.0840368270874023, "train_loss_llm": 0.2512087821960449, "global_step": 199, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 0.9690881371498108, "train_loss_dp": 0.9655873775482178, "train_loss_llm": 0.3500785827636719, "global_step": 200, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 0.7503325939178467, "train_loss_dp": 0.7462350726127625, "train_loss_llm": 0.4097539186477661, "global_step": 201, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 0.8249081969261169, "train_loss_dp": 0.8248434066772461, "train_loss_llm": 0.006476402282714844, "global_step": 202, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.0139907598495483, "train_loss_dp": 1.012925148010254, "train_loss_llm": 0.10656404495239258, "global_step": 203, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.1159722805023193, "train_loss_dp": 1.1153287887573242, "train_loss_llm": 0.06435394287109375, "global_step": 204, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 0.823753833770752, "train_loss_dp": 0.8235900402069092, "train_loss_llm": 0.016378402709960938, "global_step": 205, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.1185317039489746, "train_loss_dp": 1.1185317039489746, "train_loss_llm": 0.0, "global_step": 206, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.0636826753616333, "train_loss_dp": 1.0633392333984375, "train_loss_llm": 0.034343719482421875, "global_step": 207, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.3015813827514648, "train_loss_dp": 1.2997066974639893, "train_loss_llm": 0.18747425079345703, "global_step": 208, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.0018012523651123, "train_loss_dp": 1.0005205869674683, "train_loss_llm": 0.1280665397644043, "global_step": 209, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.0084831714630127, "train_loss_dp": 1.008338451385498, "train_loss_llm": 0.014467239379882812, "global_step": 210, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.061474323272705, "train_loss_dp": 1.061474323272705, "train_loss_llm": 0.0, "global_step": 211, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 0.9959146976470947, "train_loss_dp": 0.9959146976470947, "train_loss_llm": 0.0, "global_step": 212, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.0387122631072998, "train_loss_dp": 1.0359703302383423, "train_loss_llm": 0.2741966247558594, "global_step": 213, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 0.9492493867874146, "train_loss_dp": 0.948866605758667, "train_loss_llm": 0.03827667236328125, "global_step": 214, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.0770483016967773, "train_loss_dp": 1.0764544010162354, "train_loss_llm": 0.059395551681518555, "global_step": 215, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.1675742864608765, "train_loss_dp": 1.1675742864608765, "train_loss_llm": 0.0, "global_step": 216, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.1616318225860596, "train_loss_dp": 1.1602599620819092, "train_loss_llm": 0.13718700408935547, "global_step": 217, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 0.9412606358528137, "train_loss_dp": 0.9381521940231323, "train_loss_llm": 0.31084346771240234, "global_step": 218, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.0434215068817139, "train_loss_dp": 1.0434215068817139, "train_loss_llm": 0.0, "global_step": 219, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 0.968743085861206, "train_loss_dp": 0.96516352891922, "train_loss_llm": 0.3579585552215576, "global_step": 220, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.0894612073898315, "train_loss_dp": 1.0892136096954346, "train_loss_llm": 0.02475738525390625, "global_step": 221, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.1135691404342651, "train_loss_dp": 1.1132012605667114, "train_loss_llm": 0.03679180145263672, "global_step": 222, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.0714279413223267, "train_loss_dp": 1.0712004899978638, "train_loss_llm": 0.02274644374847412, "global_step": 223, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.0237226486206055, "train_loss_dp": 1.0227148532867432, "train_loss_llm": 0.10077357292175293, "global_step": 224, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.1319091320037842, "train_loss_dp": 1.1300692558288574, "train_loss_llm": 0.1839907169342041, "global_step": 225, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.2008633613586426, "train_loss_dp": 1.1992733478546143, "train_loss_llm": 0.15900421142578125, "global_step": 226, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.1856579780578613, "train_loss_dp": 1.1832823753356934, "train_loss_llm": 0.23755741119384766, "global_step": 227, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.9135555624961853, "train_loss_dp": 0.9135555624961853, "train_loss_llm": 0.0, "global_step": 228, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.0288387537002563, "train_loss_dp": 1.0252234935760498, "train_loss_llm": 0.36152541637420654, "global_step": 229, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.0118454694747925, "train_loss_dp": 1.0110456943511963, "train_loss_llm": 0.07997715473175049, "global_step": 230, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.9799275398254395, "train_loss_dp": 0.9799137711524963, "train_loss_llm": 0.001377105712890625, "global_step": 231, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.8657967448234558, "train_loss_dp": 0.8657967448234558, "train_loss_llm": 0.0, "global_step": 232, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.9584072232246399, "train_loss_dp": 0.9573218822479248, "train_loss_llm": 0.10853433609008789, "global_step": 233, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.330731749534607, "train_loss_dp": 1.3297386169433594, "train_loss_llm": 0.09931179881095886, "global_step": 234, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.973558783531189, "train_loss_dp": 0.9730679392814636, "train_loss_llm": 0.04908466339111328, "global_step": 235, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.1110994815826416, "train_loss_dp": 1.108712911605835, "train_loss_llm": 0.2386627197265625, "global_step": 236, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.0729317665100098, "train_loss_dp": 1.0721412897109985, "train_loss_llm": 0.07904720306396484, "global_step": 237, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.0360380411148071, "train_loss_dp": 1.0349571704864502, "train_loss_llm": 0.10808658599853516, "global_step": 238, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.0657156705856323, "train_loss_dp": 1.0612396001815796, "train_loss_llm": 0.44760894775390625, "global_step": 239, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.0144926309585571, "train_loss_dp": 1.0139274597167969, "train_loss_llm": 0.05651199817657471, "global_step": 240, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.9656715393066406, "train_loss_dp": 0.9656715393066406, "train_loss_llm": 0.0, "global_step": 241, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.1112679243087769, "train_loss_dp": 1.099428415298462, "train_loss_llm": 1.1839466094970703, "global_step": 242, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.9250443577766418, "train_loss_dp": 0.9238113760948181, "train_loss_llm": 0.12329769134521484, "global_step": 243, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.7860385775566101, "train_loss_dp": 0.7860385775566101, "train_loss_llm": 0.0, "global_step": 244, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.1679168939590454, "train_loss_dp": 1.1642495393753052, "train_loss_llm": 0.36673927307128906, "global_step": 245, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.818378210067749, "train_loss_dp": 0.8176213502883911, "train_loss_llm": 0.07568359375, "global_step": 246, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.0996277332305908, "train_loss_dp": 1.0984251499176025, "train_loss_llm": 0.12026071548461914, "global_step": 247, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.0033464431762695, "train_loss_dp": 1.0033464431762695, "train_loss_llm": 0.0, "global_step": 248, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.00319242477417, "train_loss_dp": 1.00319242477417, "train_loss_llm": 0.0, "global_step": 249, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.1160560846328735, "train_loss_dp": 1.0975416898727417, "train_loss_llm": 1.8514404296875, "global_step": 250, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.0907502174377441, "train_loss_dp": 1.0907502174377441, "train_loss_llm": 0.0, "global_step": 251, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.911975622177124, "train_loss_dp": 0.9097882509231567, "train_loss_llm": 0.2187347412109375, "global_step": 252, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.014794111251831, "train_loss_dp": 1.0134813785552979, "train_loss_llm": 0.13127756118774414, "global_step": 253, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.9747482538223267, "train_loss_dp": 0.9737148284912109, "train_loss_llm": 0.10334491729736328, "global_step": 254, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.834147036075592, "train_loss_dp": 0.8326423764228821, "train_loss_llm": 0.1504673957824707, "global_step": 255, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.8700495362281799, "train_loss_dp": 0.869843602180481, "train_loss_llm": 0.020595550537109375, "global_step": 256, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 0.9338679313659668, "train_loss_dp": 0.9329096674919128, "train_loss_llm": 0.09582376480102539, "global_step": 257, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.2635085582733154, "train_loss_dp": 1.2604007720947266, "train_loss_llm": 0.31077635288238525, "global_step": 258, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.0043728351593018, "train_loss_dp": 1.003296971321106, "train_loss_llm": 0.10758781433105469, "global_step": 259, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.062516212463379, "train_loss_dp": 1.0622942447662354, "train_loss_llm": 0.022194862365722656, "global_step": 260, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.063578724861145, "train_loss_dp": 1.063578724861145, "train_loss_llm": 0.0, "global_step": 261, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.1846855878829956, "train_loss_dp": 1.1845340728759766, "train_loss_llm": 0.015151739120483398, "global_step": 262, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.3503634929656982, "train_loss_dp": 1.350050449371338, "train_loss_llm": 0.031299591064453125, "global_step": 263, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.0318868160247803, "train_loss_dp": 1.0315115451812744, "train_loss_llm": 0.037525177001953125, "global_step": 264, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.056966781616211, "train_loss_dp": 1.05683171749115, "train_loss_llm": 0.0135040283203125, "global_step": 265, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.0781524181365967, "train_loss_dp": 1.0775535106658936, "train_loss_llm": 0.0598907470703125, "global_step": 266, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.0575780868530273, "train_loss_dp": 1.0571719408035278, "train_loss_llm": 0.04061317443847656, "global_step": 267, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.0998435020446777, "train_loss_dp": 1.0988620519638062, "train_loss_llm": 0.0981440544128418, "global_step": 268, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.008732795715332, "train_loss_dp": 1.0081933736801147, "train_loss_llm": 0.05394458770751953, "global_step": 269, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.060179352760315, "train_loss_dp": 1.0590500831604004, "train_loss_llm": 0.11292767524719238, "global_step": 270, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.0641427040100098, "train_loss_dp": 1.0617436170578003, "train_loss_llm": 0.23991400003433228, "global_step": 271, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.1466820240020752, "train_loss_dp": 1.146003007888794, "train_loss_llm": 0.06790411472320557, "global_step": 272, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.8110930919647217, "train_loss_dp": 0.8102176189422607, "train_loss_llm": 0.08754539489746094, "global_step": 273, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.1742846965789795, "train_loss_dp": 1.1525508165359497, "train_loss_llm": 2.1733856201171875, "global_step": 274, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.1993211507797241, "train_loss_dp": 1.1984772682189941, "train_loss_llm": 0.08438491821289062, "global_step": 275, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.1493852138519287, "train_loss_dp": 1.1489990949630737, "train_loss_llm": 0.038613587617874146, "global_step": 276, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.9115012288093567, "train_loss_dp": 0.909866452217102, "train_loss_llm": 0.16347885131835938, "global_step": 277, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.8515989184379578, "train_loss_dp": 0.845763087272644, "train_loss_llm": 0.5835838317871094, "global_step": 278, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.2479652166366577, "train_loss_dp": 1.2477591037750244, "train_loss_llm": 0.02060699462890625, "global_step": 279, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.8903640508651733, "train_loss_dp": 0.8871485590934753, "train_loss_llm": 0.3215484619140625, "global_step": 280, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.9789992570877075, "train_loss_dp": 0.9789992570877075, "train_loss_llm": 0.0, "global_step": 281, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.1907975673675537, "train_loss_dp": 1.1907975673675537, "train_loss_llm": 0.0, "global_step": 282, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.0920958518981934, "train_loss_dp": 1.0909956693649292, "train_loss_llm": 0.1100231409072876, "global_step": 283, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.007758378982544, "train_loss_dp": 1.0060384273529053, "train_loss_llm": 0.17200088500976562, "global_step": 284, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.9797183275222778, "train_loss_dp": 0.9792707562446594, "train_loss_llm": 0.04475688934326172, "global_step": 285, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.082397699356079, "train_loss_dp": 1.082397699356079, "train_loss_llm": 0.0, "global_step": 286, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.8823617100715637, "train_loss_dp": 0.8805334568023682, "train_loss_llm": 0.18282800912857056, "global_step": 287, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.1149427890777588, "train_loss_dp": 1.1134921312332153, "train_loss_llm": 0.14506864547729492, "global_step": 288, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.9204145669937134, "train_loss_dp": 0.9204145669937134, "train_loss_llm": 0.0, "global_step": 289, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.9878195524215698, "train_loss_dp": 0.9871564507484436, "train_loss_llm": 0.06630969047546387, "global_step": 290, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.8835558295249939, "train_loss_dp": 0.8825267553329468, "train_loss_llm": 0.10290992259979248, "global_step": 291, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.192647933959961, "train_loss_dp": 1.1924328804016113, "train_loss_llm": 0.021504640579223633, "global_step": 292, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.8783295154571533, "train_loss_dp": 0.8748477697372437, "train_loss_llm": 0.3481731414794922, "global_step": 293, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.8495156764984131, "train_loss_dp": 0.8476406931877136, "train_loss_llm": 0.18749618530273438, "global_step": 294, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.0673328638076782, "train_loss_dp": 1.065536618232727, "train_loss_llm": 0.17962658405303955, "global_step": 295, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.95119309425354, "train_loss_dp": 0.95119309425354, "train_loss_llm": 0.0, "global_step": 296, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.9464090466499329, "train_loss_dp": 0.9457629919052124, "train_loss_llm": 0.06460762023925781, "global_step": 297, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.1611747741699219, "train_loss_dp": 1.1606967449188232, "train_loss_llm": 0.04780447483062744, "global_step": 298, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.7902573943138123, "train_loss_dp": 0.788188099861145, "train_loss_llm": 0.20693111419677734, "global_step": 299, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.00307297706604, "train_loss_dp": 1.0011062622070312, "train_loss_llm": 0.1966698169708252, "global_step": 300, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.923538088798523, "train_loss_dp": 0.9197323322296143, "train_loss_llm": 0.38057613372802734, "global_step": 301, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.9656816124916077, "train_loss_dp": 0.9650623202323914, "train_loss_llm": 0.06193047761917114, "global_step": 302, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.0425243377685547, "train_loss_dp": 1.0416288375854492, "train_loss_llm": 0.0895528793334961, "global_step": 303, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.1500680446624756, "train_loss_dp": 1.1187613010406494, "train_loss_llm": 3.1306800842285156, "global_step": 304, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.9301443099975586, "train_loss_dp": 0.9301443099975586, "train_loss_llm": 0.0, "global_step": 305, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.8901880383491516, "train_loss_dp": 0.890099287033081, "train_loss_llm": 0.008872628211975098, "global_step": 306, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.115424394607544, "train_loss_dp": 1.114272117614746, "train_loss_llm": 0.11522817611694336, "global_step": 307, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.1306349039077759, "train_loss_dp": 1.1294777393341064, "train_loss_llm": 0.11571085453033447, "global_step": 308, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.1324176788330078, "train_loss_dp": 1.1324176788330078, "train_loss_llm": 0.0, "global_step": 309, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.0072805881500244, "train_loss_dp": 1.0071978569030762, "train_loss_llm": 0.008272171020507812, "global_step": 310, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.1359760761260986, "train_loss_dp": 1.1340999603271484, "train_loss_llm": 0.18761634826660156, "global_step": 311, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.9371427893638611, "train_loss_dp": 0.9365646839141846, "train_loss_llm": 0.05781209468841553, "global_step": 312, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.0732024908065796, "train_loss_dp": 1.0720183849334717, "train_loss_llm": 0.11841201782226562, "global_step": 313, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.9159412980079651, "train_loss_dp": 0.9156588912010193, "train_loss_llm": 0.028243541717529297, "global_step": 314, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.1249107122421265, "train_loss_dp": 1.1245731115341187, "train_loss_llm": 0.033759891986846924, "global_step": 315, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.990398645401001, "train_loss_dp": 0.9888296127319336, "train_loss_llm": 0.1569058895111084, "global_step": 316, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.9754819273948669, "train_loss_dp": 0.9726116061210632, "train_loss_llm": 0.287034273147583, "global_step": 317, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.9289440512657166, "train_loss_dp": 0.9278324842453003, "train_loss_llm": 0.11115646362304688, "global_step": 318, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.9828155636787415, "train_loss_dp": 0.9810398817062378, "train_loss_llm": 0.17756688594818115, "global_step": 319, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.2233123779296875, "train_loss_dp": 1.2226369380950928, "train_loss_llm": 0.06754112243652344, "global_step": 320, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.2119944095611572, "train_loss_dp": 1.2089744806289673, "train_loss_llm": 0.3019905090332031, "global_step": 321, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.9872155785560608, "train_loss_dp": 0.9864346981048584, "train_loss_llm": 0.07809066772460938, "global_step": 322, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.1786683797836304, "train_loss_dp": 1.1774790287017822, "train_loss_llm": 0.11893808841705322, "global_step": 323, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.9820315837860107, "train_loss_dp": 0.9809502363204956, "train_loss_llm": 0.10813236236572266, "global_step": 324, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.0258018970489502, "train_loss_dp": 1.025264024734497, "train_loss_llm": 0.053783416748046875, "global_step": 325, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.1767091751098633, "train_loss_dp": 1.1752798557281494, "train_loss_llm": 0.14293670654296875, "global_step": 326, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.9391914010047913, "train_loss_dp": 0.9382795095443726, "train_loss_llm": 0.09119129180908203, "global_step": 327, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.006178617477417, "train_loss_dp": 1.004586100578308, "train_loss_llm": 0.15924644470214844, "global_step": 328, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.0819178819656372, "train_loss_dp": 1.0814404487609863, "train_loss_llm": 0.04774397611618042, "global_step": 329, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.9758641719818115, "train_loss_dp": 0.9720814824104309, "train_loss_llm": 0.378267765045166, "global_step": 330, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.9351880550384521, "train_loss_dp": 0.9328053593635559, "train_loss_llm": 0.2382678985595703, "global_step": 331, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.8330900073051453, "train_loss_dp": 0.831843376159668, "train_loss_llm": 0.12466371059417725, "global_step": 332, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.1683253049850464, "train_loss_dp": 1.168039083480835, "train_loss_llm": 0.028620123863220215, "global_step": 333, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.1027826070785522, "train_loss_dp": 1.097738265991211, "train_loss_llm": 0.5044288635253906, "global_step": 334, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.1592204570770264, "train_loss_dp": 1.1534879207611084, "train_loss_llm": 0.5732488632202148, "global_step": 335, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.880831778049469, "train_loss_dp": 0.880584716796875, "train_loss_llm": 0.024703502655029297, "global_step": 336, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.8121419548988342, "train_loss_dp": 0.8120834827423096, "train_loss_llm": 0.005845069885253906, "global_step": 337, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.7731624841690063, "train_loss_dp": 0.7725321054458618, "train_loss_llm": 0.06303787231445312, "global_step": 338, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.1096012592315674, "train_loss_dp": 1.10711669921875, "train_loss_llm": 0.2484607696533203, "global_step": 339, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.1350926160812378, "train_loss_dp": 1.1350926160812378, "train_loss_llm": 0.0, "global_step": 340, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.0903172492980957, "train_loss_dp": 1.0903172492980957, "train_loss_llm": 0.0, "global_step": 341, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.1557302474975586, "train_loss_dp": 1.153198003768921, "train_loss_llm": 0.2532203197479248, "global_step": 342, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.2714718580245972, "train_loss_dp": 1.27074134349823, "train_loss_llm": 0.07305014133453369, "global_step": 343, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.0944665670394897, "train_loss_dp": 1.0937294960021973, "train_loss_llm": 0.07371211051940918, "global_step": 344, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.2325201034545898, "train_loss_dp": 1.2312554121017456, "train_loss_llm": 0.12647175788879395, "global_step": 345, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.1406185626983643, "train_loss_dp": 1.138039231300354, "train_loss_llm": 0.2579324245452881, "global_step": 346, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.109776496887207, "train_loss_dp": 1.1015965938568115, "train_loss_llm": 0.8179874420166016, "global_step": 347, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.0563421249389648, "train_loss_dp": 1.0545780658721924, "train_loss_llm": 0.17641067504882812, "global_step": 348, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.9486793279647827, "train_loss_dp": 0.9486793279647827, "train_loss_llm": 0.0, "global_step": 349, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.054872989654541, "train_loss_dp": 1.0519871711730957, "train_loss_llm": 0.28857898712158203, "global_step": 350, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.9795478582382202, "train_loss_dp": 0.9784479737281799, "train_loss_llm": 0.10998725891113281, "global_step": 351, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.8294813632965088, "train_loss_dp": 0.8274957537651062, "train_loss_llm": 0.19855976104736328, "global_step": 352, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.8567782640457153, "train_loss_dp": 0.8567782640457153, "train_loss_llm": 0.0, "global_step": 353, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.9436932802200317, "train_loss_dp": 0.942172646522522, "train_loss_llm": 0.15206336975097656, "global_step": 354, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.0833600759506226, "train_loss_dp": 1.0833600759506226, "train_loss_llm": 0.0, "global_step": 355, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.0985103845596313, "train_loss_dp": 1.0959727764129639, "train_loss_llm": 0.25376129150390625, "global_step": 356, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.1262540817260742, "train_loss_dp": 1.1215589046478271, "train_loss_llm": 0.46951913833618164, "global_step": 357, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.0266188383102417, "train_loss_dp": 1.0260603427886963, "train_loss_llm": 0.05584436655044556, "global_step": 358, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.1092934608459473, "train_loss_dp": 1.1090774536132812, "train_loss_llm": 0.021606087684631348, "global_step": 359, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.0842912197113037, "train_loss_dp": 1.0842912197113037, "train_loss_llm": 0.0, "global_step": 360, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.8510023355484009, "train_loss_dp": 0.8495140075683594, "train_loss_llm": 0.14883339405059814, "global_step": 361, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.056665062904358, "train_loss_dp": 1.0555181503295898, "train_loss_llm": 0.11469268798828125, "global_step": 362, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.0766994953155518, "train_loss_dp": 1.0756609439849854, "train_loss_llm": 0.10386097431182861, "global_step": 363, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.9061306715011597, "train_loss_dp": 0.9061306715011597, "train_loss_llm": 0.0, "global_step": 364, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.9430398941040039, "train_loss_dp": 0.9430398941040039, "train_loss_llm": 0.0, "global_step": 365, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.8392360806465149, "train_loss_dp": 0.8272621631622314, "train_loss_llm": 1.1973910331726074, "global_step": 366, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.7557710409164429, "train_loss_dp": 0.7555585503578186, "train_loss_llm": 0.02124786376953125, "global_step": 367, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.0717298984527588, "train_loss_dp": 1.0698826313018799, "train_loss_llm": 0.1847231388092041, "global_step": 368, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.110544204711914, "train_loss_dp": 1.110544204711914, "train_loss_llm": 0.0, "global_step": 369, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.0829310417175293, "train_loss_dp": 1.082120418548584, "train_loss_llm": 0.08105713129043579, "global_step": 370, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.9105613827705383, "train_loss_dp": 0.8888230323791504, "train_loss_llm": 2.1738357543945312, "global_step": 371, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.2538294792175293, "train_loss_dp": 1.2525596618652344, "train_loss_llm": 0.12697911262512207, "global_step": 372, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.1695836782455444, "train_loss_dp": 1.166382074356079, "train_loss_llm": 0.3201618194580078, "global_step": 373, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.0784835815429688, "train_loss_dp": 1.0780515670776367, "train_loss_llm": 0.0431976318359375, "global_step": 374, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.9592497944831848, "train_loss_dp": 0.9582576751708984, "train_loss_llm": 0.09921455383300781, "global_step": 375, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.0377719402313232, "train_loss_dp": 1.0353357791900635, "train_loss_llm": 0.2436199188232422, "global_step": 376, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.8873499631881714, "train_loss_dp": 0.8873499631881714, "train_loss_llm": 0.0, "global_step": 377, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.1095417737960815, "train_loss_dp": 1.1093627214431763, "train_loss_llm": 0.017904281616210938, "global_step": 378, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.9832438826560974, "train_loss_dp": 0.9801173806190491, "train_loss_llm": 0.3126516342163086, "global_step": 379, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.9822584986686707, "train_loss_dp": 0.9776109457015991, "train_loss_llm": 0.4647541046142578, "global_step": 380, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.096422791481018, "train_loss_dp": 1.0953707695007324, "train_loss_llm": 0.10520362854003906, "global_step": 381, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.0962505340576172, "train_loss_dp": 1.0961153507232666, "train_loss_llm": 0.013519287109375, "global_step": 382, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.78837651014328, "train_loss_dp": 0.7879898548126221, "train_loss_llm": 0.03866410255432129, "global_step": 383, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.9785315990447998, "train_loss_dp": 0.9781901240348816, "train_loss_llm": 0.034148216247558594, "global_step": 384, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.8456152677536011, "train_loss_dp": 0.8449000120162964, "train_loss_llm": 0.07152628898620605, "global_step": 385, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.8623852729797363, "train_loss_dp": 0.8605115413665771, "train_loss_llm": 0.18737220764160156, "global_step": 386, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.1198298931121826, "train_loss_dp": 1.118092656135559, "train_loss_llm": 0.1737217903137207, "global_step": 387, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.9700512886047363, "train_loss_dp": 0.9700512886047363, "train_loss_llm": 0.0, "global_step": 388, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.7790515422821045, "train_loss_dp": 0.7786318063735962, "train_loss_llm": 0.04197406768798828, "global_step": 389, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.1851545572280884, "train_loss_dp": 1.1793427467346191, "train_loss_llm": 0.581179141998291, "global_step": 390, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.0388303995132446, "train_loss_dp": 1.0372868776321411, "train_loss_llm": 0.15434837341308594, "global_step": 391, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.8413156270980835, "train_loss_dp": 0.8367459177970886, "train_loss_llm": 0.4569721221923828, "global_step": 392, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.7759181261062622, "train_loss_dp": 0.7751830816268921, "train_loss_llm": 0.07350552082061768, "global_step": 393, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.0927473306655884, "train_loss_dp": 1.091725468635559, "train_loss_llm": 0.10219097137451172, "global_step": 394, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.1703377962112427, "train_loss_dp": 1.1629948616027832, "train_loss_llm": 0.7342967987060547, "global_step": 395, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.9485564231872559, "train_loss_dp": 0.9476391673088074, "train_loss_llm": 0.09172457456588745, "global_step": 396, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.8088858723640442, "train_loss_dp": 0.8076727390289307, "train_loss_llm": 0.12131118774414062, "global_step": 397, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.0612373352050781, "train_loss_dp": 1.0601989030838013, "train_loss_llm": 0.10383963584899902, "global_step": 398, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.0518866777420044, "train_loss_dp": 1.0507869720458984, "train_loss_llm": 0.10996818542480469, "global_step": 399, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.9845359325408936, "train_loss_dp": 0.984339714050293, "train_loss_llm": 0.019624710083007812, "global_step": 400, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.784853458404541, "train_loss_dp": 0.784853458404541, "train_loss_llm": 0.0, "global_step": 401, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.0596537590026855, "train_loss_dp": 1.0559711456298828, "train_loss_llm": 0.36826324462890625, "global_step": 402, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.135483980178833, "train_loss_dp": 1.1347956657409668, "train_loss_llm": 0.0688328742980957, "global_step": 403, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.080536961555481, "train_loss_dp": 1.0693589448928833, "train_loss_llm": 1.1178064346313477, "global_step": 404, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.9815331697463989, "train_loss_dp": 0.9805355072021484, "train_loss_llm": 0.09976577758789062, "global_step": 405, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.1703853607177734, "train_loss_dp": 1.1692907810211182, "train_loss_llm": 0.10945653915405273, "global_step": 406, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.1014968156814575, "train_loss_dp": 1.101336121559143, "train_loss_llm": 0.016065120697021484, "global_step": 407, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.9157113432884216, "train_loss_dp": 0.9130467772483826, "train_loss_llm": 0.26645755767822266, "global_step": 408, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.9202359914779663, "train_loss_dp": 0.9197056889533997, "train_loss_llm": 0.053032875061035156, "global_step": 409, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.9985189437866211, "train_loss_dp": 0.998293399810791, "train_loss_llm": 0.02255350351333618, "global_step": 410, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.9169596433639526, "train_loss_dp": 0.9169596433639526, "train_loss_llm": 0.0, "global_step": 411, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.0161259174346924, "train_loss_dp": 1.0146781206130981, "train_loss_llm": 0.1447739601135254, "global_step": 412, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.0571779012680054, "train_loss_dp": 1.0571779012680054, "train_loss_llm": 0.0, "global_step": 413, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.1815611124038696, "train_loss_dp": 1.1802022457122803, "train_loss_llm": 0.13588333129882812, "global_step": 414, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.8246810436248779, "train_loss_dp": 0.8227255344390869, "train_loss_llm": 0.19555282592773438, "global_step": 415, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.0319364070892334, "train_loss_dp": 1.0312646627426147, "train_loss_llm": 0.06717020273208618, "global_step": 416, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.206960678100586, "train_loss_dp": 1.206960678100586, "train_loss_llm": 0.0, "global_step": 417, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.8477358222007751, "train_loss_dp": 0.8467184901237488, "train_loss_llm": 0.10173475742340088, "global_step": 418, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.0437564849853516, "train_loss_dp": 1.0437564849853516, "train_loss_llm": 0.0, "global_step": 419, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.2295857667922974, "train_loss_dp": 1.2281248569488525, "train_loss_llm": 0.1460866928100586, "global_step": 420, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.1611721515655518, "train_loss_dp": 1.1580301523208618, "train_loss_llm": 0.3141975402832031, "global_step": 421, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.080711841583252, "train_loss_dp": 1.0767512321472168, "train_loss_llm": 0.39606285095214844, "global_step": 422, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.009426236152649, "train_loss_dp": 1.0088789463043213, "train_loss_llm": 0.05473470687866211, "global_step": 423, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.8667895793914795, "train_loss_dp": 0.8658581972122192, "train_loss_llm": 0.0931386947631836, "global_step": 424, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.0934672355651855, "train_loss_dp": 1.0925345420837402, "train_loss_llm": 0.09326744079589844, "global_step": 425, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.1216397285461426, "train_loss_dp": 1.1206512451171875, "train_loss_llm": 0.09885120391845703, "global_step": 426, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.1666375398635864, "train_loss_dp": 1.16530442237854, "train_loss_llm": 0.1333174705505371, "global_step": 427, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.0569895505905151, "train_loss_dp": 1.0563730001449585, "train_loss_llm": 0.061654090881347656, "global_step": 428, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.1837058067321777, "train_loss_dp": 1.1832081079483032, "train_loss_llm": 0.049768924713134766, "global_step": 429, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.9671885967254639, "train_loss_dp": 0.9664962887763977, "train_loss_llm": 0.06923151016235352, "global_step": 430, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.8704856038093567, "train_loss_dp": 0.870324432849884, "train_loss_llm": 0.016117572784423828, "global_step": 431, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.9784309267997742, "train_loss_dp": 0.9736034870147705, "train_loss_llm": 0.4827461242675781, "global_step": 432, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.83882075548172, "train_loss_dp": 0.8383572101593018, "train_loss_llm": 0.04635310173034668, "global_step": 433, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.9648303389549255, "train_loss_dp": 0.964216947555542, "train_loss_llm": 0.0613400936126709, "global_step": 434, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.875355064868927, "train_loss_dp": 0.8743491172790527, "train_loss_llm": 0.10059189796447754, "global_step": 435, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.100164532661438, "train_loss_dp": 1.0983608961105347, "train_loss_llm": 0.1803584098815918, "global_step": 436, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.0806607007980347, "train_loss_dp": 1.077650547027588, "train_loss_llm": 0.30102086067199707, "global_step": 437, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.916853129863739, "train_loss_dp": 0.9115872383117676, "train_loss_llm": 0.5265884399414062, "global_step": 438, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.3401786088943481, "train_loss_dp": 1.3397610187530518, "train_loss_llm": 0.04175519943237305, "global_step": 439, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.2864413261413574, "train_loss_dp": 1.2861077785491943, "train_loss_llm": 0.03335690498352051, "global_step": 440, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.0188807249069214, "train_loss_dp": 1.0166460275650024, "train_loss_llm": 0.2234649658203125, "global_step": 441, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.163832664489746, "train_loss_dp": 1.1550452709197998, "train_loss_llm": 0.8787384033203125, "global_step": 442, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.913854718208313, "train_loss_dp": 0.9127973318099976, "train_loss_llm": 0.10574054718017578, "global_step": 443, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.0392026901245117, "train_loss_dp": 1.0392026901245117, "train_loss_llm": 0.0, "global_step": 444, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.9893823862075806, "train_loss_dp": 0.9885473251342773, "train_loss_llm": 0.08350515365600586, "global_step": 445, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.1365810632705688, "train_loss_dp": 1.1332265138626099, "train_loss_llm": 0.3354529142379761, "global_step": 446, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.9421098828315735, "train_loss_dp": 0.9374368190765381, "train_loss_llm": 0.46730756759643555, "global_step": 447, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.738438606262207, "train_loss_dp": 0.738246738910675, "train_loss_llm": 0.01918768882751465, "global_step": 448, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.0624254941940308, "train_loss_dp": 1.0563833713531494, "train_loss_llm": 0.6042098999023438, "global_step": 449, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.9403776526451111, "train_loss_dp": 0.9334863424301147, "train_loss_llm": 0.6891336441040039, "global_step": 450, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.9765953421592712, "train_loss_dp": 0.9759032726287842, "train_loss_llm": 0.06920742988586426, "global_step": 451, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.1730722188949585, "train_loss_dp": 1.1722445487976074, "train_loss_llm": 0.08276385068893433, "global_step": 452, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.9266539812088013, "train_loss_dp": 0.9266539812088013, "train_loss_llm": 0.0, "global_step": 453, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.188267707824707, "train_loss_dp": 1.187315821647644, "train_loss_llm": 0.09518671035766602, "global_step": 454, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.7754650712013245, "train_loss_dp": 0.7750241160392761, "train_loss_llm": 0.044094085693359375, "global_step": 455, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.0124986171722412, "train_loss_dp": 1.010026216506958, "train_loss_llm": 0.24724578857421875, "global_step": 456, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.9487259984016418, "train_loss_dp": 0.9485253095626831, "train_loss_llm": 0.020070552825927734, "global_step": 457, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.960543155670166, "train_loss_dp": 0.9578573703765869, "train_loss_llm": 0.26857948303222656, "global_step": 458, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.3672213554382324, "train_loss_dp": 1.3652079105377197, "train_loss_llm": 0.20134437084197998, "global_step": 459, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.1254040002822876, "train_loss_dp": 1.1246966123580933, "train_loss_llm": 0.07073688507080078, "global_step": 460, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.0289465188980103, "train_loss_dp": 1.0270333290100098, "train_loss_llm": 0.1913137435913086, "global_step": 461, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.090545654296875, "train_loss_dp": 1.0902864933013916, "train_loss_llm": 0.025920867919921875, "global_step": 462, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.0194623470306396, "train_loss_dp": 1.0183844566345215, "train_loss_llm": 0.10778558254241943, "global_step": 463, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.0221071243286133, "train_loss_dp": 1.021634578704834, "train_loss_llm": 0.047257423400878906, "global_step": 464, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.071104884147644, "train_loss_dp": 1.0689048767089844, "train_loss_llm": 0.2200009822845459, "global_step": 465, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.9145489931106567, "train_loss_dp": 0.9133721590042114, "train_loss_llm": 0.11768150329589844, "global_step": 466, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.7134745121002197, "train_loss_dp": 0.7114166617393494, "train_loss_llm": 0.20578575134277344, "global_step": 467, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.023730754852295, "train_loss_dp": 1.022545337677002, "train_loss_llm": 0.11854696273803711, "global_step": 468, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.0011706352233887, "train_loss_dp": 0.9975188970565796, "train_loss_llm": 0.3651762008666992, "global_step": 469, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.1397300958633423, "train_loss_dp": 1.1385974884033203, "train_loss_llm": 0.11326122283935547, "global_step": 470, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.248829960823059, "train_loss_dp": 1.247878074645996, "train_loss_llm": 0.09518605470657349, "global_step": 471, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.2588183879852295, "train_loss_dp": 1.2588183879852295, "train_loss_llm": 0.0, "global_step": 472, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.0455994606018066, "train_loss_dp": 1.0443562269210815, "train_loss_llm": 0.12432479858398438, "global_step": 473, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.8828728795051575, "train_loss_dp": 0.8819042444229126, "train_loss_llm": 0.09686112403869629, "global_step": 474, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.017336368560791, "train_loss_dp": 1.017336368560791, "train_loss_llm": 0.0, "global_step": 475, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.7969573140144348, "train_loss_dp": 0.7962663173675537, "train_loss_llm": 0.06909680366516113, "global_step": 476, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.1381086111068726, "train_loss_dp": 1.1375066041946411, "train_loss_llm": 0.0602031946182251, "global_step": 477, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.9937347173690796, "train_loss_dp": 0.9937347173690796, "train_loss_llm": 0.0, "global_step": 478, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.955672025680542, "train_loss_dp": 0.955672025680542, "train_loss_llm": 0.0, "global_step": 479, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.9912135601043701, "train_loss_dp": 0.9898601770401001, "train_loss_llm": 0.13533782958984375, "global_step": 480, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.1585686206817627, "train_loss_dp": 1.1573892831802368, "train_loss_llm": 0.1179361343383789, "global_step": 481, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.762789249420166, "train_loss_dp": 0.762789249420166, "train_loss_llm": 0.0, "global_step": 482, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.0390708446502686, "train_loss_dp": 1.0390708446502686, "train_loss_llm": 0.0, "global_step": 483, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.0663478374481201, "train_loss_dp": 1.0650708675384521, "train_loss_llm": 0.12769317626953125, "global_step": 484, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.1646325588226318, "train_loss_dp": 1.1646325588226318, "train_loss_llm": 0.0, "global_step": 485, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.0488817691802979, "train_loss_dp": 1.0482475757598877, "train_loss_llm": 0.06341934204101562, "global_step": 486, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.9118472337722778, "train_loss_dp": 0.9114847779273987, "train_loss_llm": 0.03624725341796875, "global_step": 487, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.8695029020309448, "train_loss_dp": 0.8682317733764648, "train_loss_llm": 0.12711238861083984, "global_step": 488, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.8733306527137756, "train_loss_dp": 0.8726421594619751, "train_loss_llm": 0.06885051727294922, "global_step": 489, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.9431992769241333, "train_loss_dp": 0.9414428472518921, "train_loss_llm": 0.17564022541046143, "global_step": 490, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.9013227224349976, "train_loss_dp": 0.8996708393096924, "train_loss_llm": 0.16518568992614746, "global_step": 491, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.0817821025848389, "train_loss_dp": 1.0796107053756714, "train_loss_llm": 0.21713685989379883, "global_step": 492, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.9470925331115723, "train_loss_dp": 0.9438973069190979, "train_loss_llm": 0.3195219039916992, "global_step": 493, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.9564146399497986, "train_loss_dp": 0.9564146399497986, "train_loss_llm": 0.0, "global_step": 494, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.9688961505889893, "train_loss_dp": 0.9677631258964539, "train_loss_llm": 0.11330008506774902, "global_step": 495, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.012353777885437, "train_loss_dp": 1.0098063945770264, "train_loss_llm": 0.25473880767822266, "global_step": 496, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.9525372982025146, "train_loss_dp": 0.9525372982025146, "train_loss_llm": 0.0, "global_step": 497, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.003544569015503, "train_loss_dp": 1.0014331340789795, "train_loss_llm": 0.21114444732666016, "global_step": 498, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.024035096168518, "train_loss_dp": 1.0228229761123657, "train_loss_llm": 0.12121391296386719, "global_step": 499, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.0588585138320923, "train_loss_dp": 1.0582656860351562, "train_loss_llm": 0.05928313732147217, "global_step": 500, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.2203686237335205, "train_loss_dp": 1.2196823358535767, "train_loss_llm": 0.0686269998550415, "global_step": 501, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.017932415008545, "train_loss_dp": 1.017932415008545, "train_loss_llm": 0.0, "global_step": 502, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.8525041937828064, "train_loss_dp": 0.8502217531204224, "train_loss_llm": 0.22824382781982422, "global_step": 503, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.9342694282531738, "train_loss_dp": 0.9332703351974487, "train_loss_llm": 0.09990715980529785, "global_step": 504, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.0153580904006958, "train_loss_dp": 1.0094587802886963, "train_loss_llm": 0.5899333953857422, "global_step": 505, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.0045031309127808, "train_loss_dp": 1.0030933618545532, "train_loss_llm": 0.14097970724105835, "global_step": 506, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.7729676365852356, "train_loss_dp": 0.7726707458496094, "train_loss_llm": 0.029691576957702637, "global_step": 507, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.0053391456604004, "train_loss_dp": 1.0040719509124756, "train_loss_llm": 0.1267232894897461, "global_step": 508, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.0472195148468018, "train_loss_dp": 1.046367883682251, "train_loss_llm": 0.0851593017578125, "global_step": 509, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.9650517106056213, "train_loss_dp": 0.9643113613128662, "train_loss_llm": 0.07403302192687988, "global_step": 510, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.8132805228233337, "train_loss_dp": 0.8125349879264832, "train_loss_llm": 0.07455253601074219, "global_step": 511, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.1832997798919678, "train_loss_dp": 1.1827133893966675, "train_loss_llm": 0.058634042739868164, "global_step": 512, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.8598728179931641, "train_loss_dp": 0.8591783046722412, "train_loss_llm": 0.0694504976272583, "global_step": 513, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.006943702697754, "train_loss_dp": 1.0039291381835938, "train_loss_llm": 0.3014535903930664, "global_step": 514, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.823384702205658, "train_loss_dp": 0.8215184211730957, "train_loss_llm": 0.18663084506988525, "global_step": 515, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.903263509273529, "train_loss_dp": 0.9012210965156555, "train_loss_llm": 0.20424222946166992, "global_step": 516, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.0653996467590332, "train_loss_dp": 1.0650213956832886, "train_loss_llm": 0.03782463073730469, "global_step": 517, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.0025416612625122, "train_loss_dp": 1.0015580654144287, "train_loss_llm": 0.09836360812187195, "global_step": 518, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.020019292831421, "train_loss_dp": 1.0185964107513428, "train_loss_llm": 0.1422898769378662, "global_step": 519, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.0076823234558105, "train_loss_dp": 1.0070819854736328, "train_loss_llm": 0.06003272533416748, "global_step": 520, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.0812628269195557, "train_loss_dp": 1.0808289051055908, "train_loss_llm": 0.04338836669921875, "global_step": 521, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.8932957649230957, "train_loss_dp": 0.8897190093994141, "train_loss_llm": 0.35767316818237305, "global_step": 522, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.0000362396240234, "train_loss_dp": 1.0000362396240234, "train_loss_llm": 0.0, "global_step": 523, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.8529988527297974, "train_loss_dp": 0.8524932861328125, "train_loss_llm": 0.05055427551269531, "global_step": 524, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.150768518447876, "train_loss_dp": 1.148026943206787, "train_loss_llm": 0.27416276931762695, "global_step": 525, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.0431082248687744, "train_loss_dp": 1.039966106414795, "train_loss_llm": 0.3142070770263672, "global_step": 526, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.1860772371292114, "train_loss_dp": 1.185420036315918, "train_loss_llm": 0.06572532653808594, "global_step": 527, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.9593275189399719, "train_loss_dp": 0.9455032348632812, "train_loss_llm": 1.3824310302734375, "global_step": 528, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.0752739906311035, "train_loss_dp": 1.072054147720337, "train_loss_llm": 0.3219797611236572, "global_step": 529, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.0291978120803833, "train_loss_dp": 1.0278230905532837, "train_loss_llm": 0.1374748945236206, "global_step": 530, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.881170928478241, "train_loss_dp": 0.880066990852356, "train_loss_llm": 0.11039161682128906, "global_step": 531, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.8650215268135071, "train_loss_dp": 0.8644300699234009, "train_loss_llm": 0.059146881103515625, "global_step": 532, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.071427583694458, "train_loss_dp": 1.0709842443466187, "train_loss_llm": 0.04432868957519531, "global_step": 533, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.1537543535232544, "train_loss_dp": 1.1534698009490967, "train_loss_llm": 0.02845144271850586, "global_step": 534, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.0392286777496338, "train_loss_dp": 1.0386745929718018, "train_loss_llm": 0.05541384220123291, "global_step": 535, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.9544138312339783, "train_loss_dp": 0.9538615942001343, "train_loss_llm": 0.0552215576171875, "global_step": 536, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.9964438676834106, "train_loss_dp": 0.9960759878158569, "train_loss_llm": 0.03678959608078003, "global_step": 537, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.134430170059204, "train_loss_dp": 1.1332793235778809, "train_loss_llm": 0.11508071422576904, "global_step": 538, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.159104824066162, "train_loss_dp": 1.1576166152954102, "train_loss_llm": 0.14881569147109985, "global_step": 539, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.8612120747566223, "train_loss_dp": 0.8600786924362183, "train_loss_llm": 0.11333894729614258, "global_step": 540, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.2502846717834473, "train_loss_dp": 1.2502846717834473, "train_loss_llm": 0.0, "global_step": 541, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.1634563207626343, "train_loss_dp": 1.163055658340454, "train_loss_llm": 0.04006475210189819, "global_step": 542, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.0443867444992065, "train_loss_dp": 1.0437370538711548, "train_loss_llm": 0.06497406959533691, "global_step": 543, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.145471215248108, "train_loss_dp": 1.1393979787826538, "train_loss_llm": 0.6073188781738281, "global_step": 544, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.8528234362602234, "train_loss_dp": 0.8527063131332397, "train_loss_llm": 0.011712789535522461, "global_step": 545, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.1315933465957642, "train_loss_dp": 1.130838394165039, "train_loss_llm": 0.07549905776977539, "global_step": 546, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.7907022833824158, "train_loss_dp": 0.7893705368041992, "train_loss_llm": 0.13317537307739258, "global_step": 547, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.2465155124664307, "train_loss_dp": 1.245996356010437, "train_loss_llm": 0.051911354064941406, "global_step": 548, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.9042124152183533, "train_loss_dp": 0.9023202657699585, "train_loss_llm": 0.18921399116516113, "global_step": 549, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.0508062839508057, "train_loss_dp": 1.0501766204833984, "train_loss_llm": 0.06296110153198242, "global_step": 550, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.0820281505584717, "train_loss_dp": 1.0808651447296143, "train_loss_llm": 0.1163015365600586, "global_step": 551, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.1785427331924438, "train_loss_dp": 1.1778664588928223, "train_loss_llm": 0.06763267517089844, "global_step": 552, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.0819412469863892, "train_loss_dp": 1.0772666931152344, "train_loss_llm": 0.46746063232421875, "global_step": 553, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.2623767852783203, "train_loss_dp": 1.260873556137085, "train_loss_llm": 0.15032386779785156, "global_step": 554, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.7924779653549194, "train_loss_dp": 0.7919777035713196, "train_loss_llm": 0.050023674964904785, "global_step": 555, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.3274105787277222, "train_loss_dp": 1.325411319732666, "train_loss_llm": 0.19992637634277344, "global_step": 556, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.34031081199646, "train_loss_dp": 1.3393864631652832, "train_loss_llm": 0.09243321418762207, "global_step": 557, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.125049352645874, "train_loss_dp": 1.1242668628692627, "train_loss_llm": 0.0782480239868164, "global_step": 558, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.3118516206741333, "train_loss_dp": 1.3079417943954468, "train_loss_llm": 0.3909871578216553, "global_step": 559, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.9020445346832275, "train_loss_dp": 0.9011063575744629, "train_loss_llm": 0.09381896257400513, "global_step": 560, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.124942421913147, "train_loss_dp": 1.1234601736068726, "train_loss_llm": 0.1482255458831787, "global_step": 561, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.1087729930877686, "train_loss_dp": 1.1084563732147217, "train_loss_llm": 0.031658172607421875, "global_step": 562, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.9861937165260315, "train_loss_dp": 0.9849022626876831, "train_loss_llm": 0.12914657592773438, "global_step": 563, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.118314504623413, "train_loss_dp": 1.116606593132019, "train_loss_llm": 0.1707901954650879, "global_step": 564, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.0273890495300293, "train_loss_dp": 1.0273784399032593, "train_loss_llm": 0.001055002212524414, "global_step": 565, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.130687952041626, "train_loss_dp": 1.1272974014282227, "train_loss_llm": 0.33905982971191406, "global_step": 566, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.9528608918190002, "train_loss_dp": 0.9519716501235962, "train_loss_llm": 0.08892560005187988, "global_step": 567, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.0596779584884644, "train_loss_dp": 1.0589796304702759, "train_loss_llm": 0.06982779502868652, "global_step": 568, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.896091103553772, "train_loss_dp": 0.896091103553772, "train_loss_llm": 0.0, "global_step": 569, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.9539173245429993, "train_loss_dp": 0.9524627923965454, "train_loss_llm": 0.14545154571533203, "global_step": 570, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.9770400524139404, "train_loss_dp": 0.9766007661819458, "train_loss_llm": 0.04392862319946289, "global_step": 571, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.9447656869888306, "train_loss_dp": 0.9447656869888306, "train_loss_llm": 0.0, "global_step": 572, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.7231857776641846, "train_loss_dp": 0.7215292453765869, "train_loss_llm": 0.16565322875976562, "global_step": 573, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.9616773128509521, "train_loss_dp": 0.9611901044845581, "train_loss_llm": 0.048718810081481934, "global_step": 574, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.0694420337677002, "train_loss_dp": 1.0688941478729248, "train_loss_llm": 0.0547943115234375, "global_step": 575, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.9929431080818176, "train_loss_dp": 0.9902238249778748, "train_loss_llm": 0.2719297409057617, "global_step": 576, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.9688823819160461, "train_loss_dp": 0.968044638633728, "train_loss_llm": 0.08377587795257568, "global_step": 577, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.0092201232910156, "train_loss_dp": 1.0084428787231445, "train_loss_llm": 0.077728271484375, "global_step": 578, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.0380737781524658, "train_loss_dp": 1.0373049974441528, "train_loss_llm": 0.076873779296875, "global_step": 579, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.024863839149475, "train_loss_dp": 1.0227903127670288, "train_loss_llm": 0.20735549926757812, "global_step": 580, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.0032315254211426, "train_loss_dp": 1.003002643585205, "train_loss_llm": 0.02288818359375, "global_step": 581, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.9495461583137512, "train_loss_dp": 0.9487712979316711, "train_loss_llm": 0.0774846076965332, "global_step": 582, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.9705257415771484, "train_loss_dp": 0.9694956541061401, "train_loss_llm": 0.10300934314727783, "global_step": 583, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.9366199970245361, "train_loss_dp": 0.933310329914093, "train_loss_llm": 0.33096885681152344, "global_step": 584, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.8753792643547058, "train_loss_dp": 0.8750548958778381, "train_loss_llm": 0.03243410587310791, "global_step": 585, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.0538570880889893, "train_loss_dp": 1.0522183179855347, "train_loss_llm": 0.16387939453125, "global_step": 586, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.0847147703170776, "train_loss_dp": 1.0808923244476318, "train_loss_llm": 0.3822493553161621, "global_step": 587, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.0757986307144165, "train_loss_dp": 1.0746561288833618, "train_loss_llm": 0.11425089836120605, "global_step": 588, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.9830454587936401, "train_loss_dp": 0.982484757900238, "train_loss_llm": 0.05607286095619202, "global_step": 589, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.0238947868347168, "train_loss_dp": 1.0233005285263062, "train_loss_llm": 0.059421539306640625, "global_step": 590, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.0096948146820068, "train_loss_dp": 1.0092856884002686, "train_loss_llm": 0.04090970754623413, "global_step": 591, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.1381638050079346, "train_loss_dp": 1.1372272968292236, "train_loss_llm": 0.09365111589431763, "global_step": 592, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 1.0627809762954712, "train_loss_dp": 1.0587706565856934, "train_loss_llm": 0.401031494140625, "global_step": 593, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.9255208969116211, "train_loss_dp": 0.9246029853820801, "train_loss_llm": 0.09179353713989258, "global_step": 594, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 1.0420182943344116, "train_loss_dp": 1.0416436195373535, "train_loss_llm": 0.037467002868652344, "global_step": 595, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.8441264629364014, "train_loss_dp": 0.8418773412704468, "train_loss_llm": 0.22491002082824707, "global_step": 596, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 1.2746505737304688, "train_loss_dp": 1.2726125717163086, "train_loss_llm": 0.20380020141601562, "global_step": 597, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.8291060328483582, "train_loss_dp": 0.8286325335502625, "train_loss_llm": 0.04735112190246582, "global_step": 598, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.9297846555709839, "train_loss_dp": 0.9292418360710144, "train_loss_llm": 0.05428314208984375, "global_step": 599, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.8914402723312378, "train_loss_dp": 0.8826465606689453, "train_loss_llm": 0.8793721199035645, "global_step": 600, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 1.174681305885315, "train_loss_dp": 1.1739997863769531, "train_loss_llm": 0.06815004348754883, "global_step": 601, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.7822535634040833, "train_loss_dp": 0.7744927406311035, "train_loss_llm": 0.7760810852050781, "global_step": 602, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 1.2255171537399292, "train_loss_dp": 1.2249658107757568, "train_loss_llm": 0.055130958557128906, "global_step": 603, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 1.0394715070724487, "train_loss_dp": 1.0388433933258057, "train_loss_llm": 0.06281110644340515, "global_step": 604, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.9013242721557617, "train_loss_dp": 0.8883923888206482, "train_loss_llm": 1.2931900024414062, "global_step": 605, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.8726404309272766, "train_loss_dp": 0.8726404309272766, "train_loss_llm": 0.0, "global_step": 606, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.9165646433830261, "train_loss_dp": 0.9126916527748108, "train_loss_llm": 0.3872976303100586, "global_step": 607, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.9905015826225281, "train_loss_dp": 0.9898574948310852, "train_loss_llm": 0.06441116333007812, "global_step": 608, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.9548116326332092, "train_loss_dp": 0.9544544219970703, "train_loss_llm": 0.035723209381103516, "global_step": 609, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 1.141790509223938, "train_loss_dp": 1.1394776105880737, "train_loss_llm": 0.2312908172607422, "global_step": 610, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.8749316930770874, "train_loss_dp": 0.8746989965438843, "train_loss_llm": 0.023268699645996094, "global_step": 611, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.8915379643440247, "train_loss_dp": 0.8864953517913818, "train_loss_llm": 0.5042610168457031, "global_step": 612, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.9884437322616577, "train_loss_dp": 0.9878680109977722, "train_loss_llm": 0.05756974220275879, "global_step": 613, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.9542627334594727, "train_loss_dp": 0.9533662796020508, "train_loss_llm": 0.0896453857421875, "global_step": 614, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.9007160067558289, "train_loss_dp": 0.8946330547332764, "train_loss_llm": 0.6082944869995117, "global_step": 615, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.8760180473327637, "train_loss_dp": 0.8752820491790771, "train_loss_llm": 0.07359790802001953, "global_step": 616, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.9975541830062866, "train_loss_dp": 0.9900296926498413, "train_loss_llm": 0.7524490356445312, "global_step": 617, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 1.0805963277816772, "train_loss_dp": 1.0676629543304443, "train_loss_llm": 1.2933387756347656, "global_step": 618, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.9989489912986755, "train_loss_dp": 0.9984278678894043, "train_loss_llm": 0.052112579345703125, "global_step": 619, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.8587110042572021, "train_loss_dp": 0.8579089641571045, "train_loss_llm": 0.08020639419555664, "global_step": 620, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 1.0382763147354126, "train_loss_dp": 1.0369024276733398, "train_loss_llm": 0.13738727569580078, "global_step": 621, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 1.0323562622070312, "train_loss_dp": 1.0315911769866943, "train_loss_llm": 0.07651263475418091, "global_step": 622, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.8215064406394958, "train_loss_dp": 0.8205152153968811, "train_loss_llm": 0.09912252426147461, "global_step": 623, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 1.1049336194992065, "train_loss_dp": 1.1015064716339111, "train_loss_llm": 0.3427143096923828, "global_step": 624, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 1.1611778736114502, "train_loss_dp": 1.1599125862121582, "train_loss_llm": 0.12652921676635742, "global_step": 625, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 1.0358316898345947, "train_loss_dp": 1.034104824066162, "train_loss_llm": 0.17268872261047363, "global_step": 626, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.7790228724479675, "train_loss_dp": 0.7787870168685913, "train_loss_llm": 0.023582935333251953, "global_step": 627, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.9675261974334717, "train_loss_dp": 0.9662327170372009, "train_loss_llm": 0.129347562789917, "global_step": 628, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.9594305157661438, "train_loss_dp": 0.9586115479469299, "train_loss_llm": 0.08189773559570312, "global_step": 629, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 1.2090868949890137, "train_loss_dp": 1.2090868949890137, "train_loss_llm": 0.0, "global_step": 630, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 1.0158984661102295, "train_loss_dp": 1.0158984661102295, "train_loss_llm": 0.0, "global_step": 631, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.9780631065368652, "train_loss_dp": 0.9763480424880981, "train_loss_llm": 0.17150354385375977, "global_step": 632, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 1.0889577865600586, "train_loss_dp": 1.087525486946106, "train_loss_llm": 0.1432344913482666, "global_step": 633, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 1.230455994606018, "train_loss_dp": 1.2300951480865479, "train_loss_llm": 0.03608441352844238, "global_step": 634, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 1.0413373708724976, "train_loss_dp": 1.0407830476760864, "train_loss_llm": 0.05543482303619385, "global_step": 635, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.8715157508850098, "train_loss_dp": 0.870222270488739, "train_loss_llm": 0.1293501853942871, "global_step": 636, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.8674699664115906, "train_loss_dp": 0.8667717576026917, "train_loss_llm": 0.06981849670410156, "global_step": 637, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.9864556193351746, "train_loss_dp": 0.9860923290252686, "train_loss_llm": 0.036330729722976685, "global_step": 638, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 1.0200260877609253, "train_loss_dp": 1.019333839416504, "train_loss_llm": 0.0692300796508789, "global_step": 639, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 1.0435315370559692, "train_loss_dp": 1.0435315370559692, "train_loss_llm": 0.0, "global_step": 640, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 1.0189741849899292, "train_loss_dp": 1.0156488418579102, "train_loss_llm": 0.33253002166748047, "global_step": 641, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.9745912551879883, "train_loss_dp": 0.9741377830505371, "train_loss_llm": 0.04534626007080078, "global_step": 642, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 1.003577470779419, "train_loss_dp": 1.003577470779419, "train_loss_llm": 0.0, "global_step": 643, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 1.1437721252441406, "train_loss_dp": 1.1404938697814941, "train_loss_llm": 0.32781982421875, "global_step": 644, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.9976866841316223, "train_loss_dp": 0.997235894203186, "train_loss_llm": 0.04508182406425476, "global_step": 645, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.9523011445999146, "train_loss_dp": 0.9492793083190918, "train_loss_llm": 0.3021812438964844, "global_step": 646, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.8715777397155762, "train_loss_dp": 0.8715777397155762, "train_loss_llm": 0.0, "global_step": 647, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 1.0794858932495117, "train_loss_dp": 1.0781993865966797, "train_loss_llm": 0.1286454200744629, "global_step": 648, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 1.111511468887329, "train_loss_dp": 1.1114790439605713, "train_loss_llm": 0.0032379627227783203, "global_step": 649, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.9577670097351074, "train_loss_dp": 0.9510574340820312, "train_loss_llm": 0.6709556579589844, "global_step": 650, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.9592233896255493, "train_loss_dp": 0.9567064046859741, "train_loss_llm": 0.25169801712036133, "global_step": 651, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.8673554062843323, "train_loss_dp": 0.8666117787361145, "train_loss_llm": 0.07436144351959229, "global_step": 652, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.9519639015197754, "train_loss_dp": 0.9518417119979858, "train_loss_llm": 0.012218236923217773, "global_step": 653, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.9589054584503174, "train_loss_dp": 0.9549157023429871, "train_loss_llm": 0.3989734649658203, "global_step": 654, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.7557879090309143, "train_loss_dp": 0.7514382600784302, "train_loss_llm": 0.4349632263183594, "global_step": 655, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 1.0979264974594116, "train_loss_dp": 1.0969771146774292, "train_loss_llm": 0.09493255615234375, "global_step": 656, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 0.8696115612983704, "train_loss_dp": 0.868338942527771, "train_loss_llm": 0.12726211547851562, "global_step": 657, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 1.0169472694396973, "train_loss_dp": 1.0144133567810059, "train_loss_llm": 0.25339317321777344, "global_step": 658, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 0.9983162879943848, "train_loss_dp": 0.9936469793319702, "train_loss_llm": 0.4669303894042969, "global_step": 659, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 0.9784070253372192, "train_loss_dp": 0.9782335758209229, "train_loss_llm": 0.017347335815429688, "global_step": 660, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 0.8007161617279053, "train_loss_dp": 0.8007161617279053, "train_loss_llm": 0.0, "global_step": 661, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 0.972935140132904, "train_loss_dp": 0.9726116061210632, "train_loss_llm": 0.032353878021240234, "global_step": 662, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 0.8153748512268066, "train_loss_dp": 0.8142542839050293, "train_loss_llm": 0.11205494403839111, "global_step": 663, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 0.9882155060768127, "train_loss_dp": 0.9882155060768127, "train_loss_llm": 0.0, "global_step": 664, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 1.0107033252716064, "train_loss_dp": 1.0107033252716064, "train_loss_llm": 0.0, "global_step": 665, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 0.8312375545501709, "train_loss_dp": 0.830549955368042, "train_loss_llm": 0.06876182556152344, "global_step": 666, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 1.0711702108383179, "train_loss_dp": 1.0703779458999634, "train_loss_llm": 0.07922649383544922, "global_step": 667, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 0.7871775031089783, "train_loss_dp": 0.7774465084075928, "train_loss_llm": 0.973099946975708, "global_step": 668, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 0.9982102513313293, "train_loss_dp": 0.9909419417381287, "train_loss_llm": 0.7268314361572266, "global_step": 669, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 1.0806612968444824, "train_loss_dp": 1.0804989337921143, "train_loss_llm": 0.016242027282714844, "global_step": 670, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 1.0464427471160889, "train_loss_dp": 1.0464427471160889, "train_loss_llm": 0.0, "global_step": 671, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 1.0722053050994873, "train_loss_dp": 1.071889042854309, "train_loss_llm": 0.0316314697265625, "global_step": 672, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.9952106475830078, "train_loss_dp": 0.9937132596969604, "train_loss_llm": 0.1497364044189453, "global_step": 673, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.8838196992874146, "train_loss_dp": 0.8830734491348267, "train_loss_llm": 0.07462739944458008, "global_step": 674, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.8712208867073059, "train_loss_dp": 0.8711385130882263, "train_loss_llm": 0.008238792419433594, "global_step": 675, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.9824117422103882, "train_loss_dp": 0.9814579486846924, "train_loss_llm": 0.09538030624389648, "global_step": 676, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.8343832492828369, "train_loss_dp": 0.8335270881652832, "train_loss_llm": 0.08561849594116211, "global_step": 677, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 1.002212405204773, "train_loss_dp": 0.999272346496582, "train_loss_llm": 0.2940034866333008, "global_step": 678, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 1.0461033582687378, "train_loss_dp": 1.0446759462356567, "train_loss_llm": 0.1427450180053711, "global_step": 679, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.9329501390457153, "train_loss_dp": 0.9319815635681152, "train_loss_llm": 0.09685850143432617, "global_step": 680, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.840495765209198, "train_loss_dp": 0.8402371406555176, "train_loss_llm": 0.02586531639099121, "global_step": 681, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.6594252586364746, "train_loss_dp": 0.6594252586364746, "train_loss_llm": 0.0, "global_step": 682, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.9195622205734253, "train_loss_dp": 0.9177690744400024, "train_loss_llm": 0.17931455373764038, "global_step": 683, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.8814572691917419, "train_loss_dp": 0.8801510334014893, "train_loss_llm": 0.13062477111816406, "global_step": 684, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 1.3255797624588013, "train_loss_dp": 1.324671983718872, "train_loss_llm": 0.09077978134155273, "global_step": 685, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 1.120510220527649, "train_loss_dp": 1.1185389757156372, "train_loss_llm": 0.1971282958984375, "global_step": 686, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.9906501770019531, "train_loss_dp": 0.9906501770019531, "train_loss_llm": 0.0, "global_step": 687, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.9527344703674316, "train_loss_dp": 0.9513480067253113, "train_loss_llm": 0.13864874839782715, "global_step": 688, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 1.0155938863754272, "train_loss_dp": 1.0150666236877441, "train_loss_llm": 0.05272042751312256, "global_step": 689, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 1.101560115814209, "train_loss_dp": 1.1009855270385742, "train_loss_llm": 0.05745828151702881, "global_step": 690, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 1.0706146955490112, "train_loss_dp": 1.0690548419952393, "train_loss_llm": 0.1559906005859375, "global_step": 691, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 1.0523419380187988, "train_loss_dp": 1.0505039691925049, "train_loss_llm": 0.18380069732666016, "global_step": 692, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 1.1815080642700195, "train_loss_dp": 1.1786720752716064, "train_loss_llm": 0.2835959792137146, "global_step": 693, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 0.8728670477867126, "train_loss_dp": 0.8718810677528381, "train_loss_llm": 0.09859871864318848, "global_step": 694, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 0.9016692638397217, "train_loss_dp": 0.8992257118225098, "train_loss_llm": 0.2443561553955078, "global_step": 695, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 0.9349797368049622, "train_loss_dp": 0.9338307976722717, "train_loss_llm": 0.11489582061767578, "global_step": 696, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 0.9576225876808167, "train_loss_dp": 0.9574490189552307, "train_loss_llm": 0.01735854148864746, "global_step": 697, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 1.0137134790420532, "train_loss_dp": 1.0133775472640991, "train_loss_llm": 0.03359222412109375, "global_step": 698, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 1.0809693336486816, "train_loss_dp": 1.0802538394927979, "train_loss_llm": 0.07155275344848633, "global_step": 699, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 0.877034068107605, "train_loss_dp": 0.8752745389938354, "train_loss_llm": 0.1759549379348755, "global_step": 700, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 1.0127830505371094, "train_loss_dp": 1.0120646953582764, "train_loss_llm": 0.07184028625488281, "global_step": 701, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 0.974587619304657, "train_loss_dp": 0.9730023741722107, "train_loss_llm": 0.1585226058959961, "global_step": 702, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 0.8806575536727905, "train_loss_dp": 0.8799649477005005, "train_loss_llm": 0.06925815343856812, "global_step": 703, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 0.9742741584777832, "train_loss_dp": 0.9736207723617554, "train_loss_llm": 0.06534099578857422, "global_step": 704, "epoch": 0, "lr": 9e-06}
+{"train_loss": 1.1681571006774902, "train_loss_dp": 1.1681571006774902, "train_loss_llm": 0.0, "global_step": 705, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.9529549479484558, "train_loss_dp": 0.9527640342712402, "train_loss_llm": 0.019091248512268066, "global_step": 706, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.7019652128219604, "train_loss_dp": 0.6975850462913513, "train_loss_llm": 0.4380159378051758, "global_step": 707, "epoch": 0, "lr": 9e-06}
+{"train_loss": 1.0763728618621826, "train_loss_dp": 1.074999213218689, "train_loss_llm": 0.1373591423034668, "global_step": 708, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.964665949344635, "train_loss_dp": 0.964665949344635, "train_loss_llm": 0.0, "global_step": 709, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.8531758785247803, "train_loss_dp": 0.8494287729263306, "train_loss_llm": 0.3747100830078125, "global_step": 710, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.9845111966133118, "train_loss_dp": 0.9831843376159668, "train_loss_llm": 0.13268375396728516, "global_step": 711, "epoch": 0, "lr": 9e-06}
+{"train_loss": 1.0858619213104248, "train_loss_dp": 1.083412528038025, "train_loss_llm": 0.2449359893798828, "global_step": 712, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.7101109027862549, "train_loss_dp": 0.7077468037605286, "train_loss_llm": 0.23641204833984375, "global_step": 713, "epoch": 0, "lr": 9e-06}
+{"train_loss": 1.0312461853027344, "train_loss_dp": 1.0304468870162964, "train_loss_llm": 0.07993316650390625, "global_step": 714, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.816582202911377, "train_loss_dp": 0.8128032684326172, "train_loss_llm": 0.37789154052734375, "global_step": 715, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.8710096478462219, "train_loss_dp": 0.8701440095901489, "train_loss_llm": 0.08656120300292969, "global_step": 716, "epoch": 0, "lr": 9e-06}
+{"train_loss": 1.148749828338623, "train_loss_dp": 1.1474671363830566, "train_loss_llm": 0.12827491760253906, "global_step": 717, "epoch": 0, "lr": 9e-06}
+{"train_loss": 1.0127837657928467, "train_loss_dp": 1.0127837657928467, "train_loss_llm": 0.0, "global_step": 718, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.955522894859314, "train_loss_dp": 0.955522894859314, "train_loss_llm": 0.0, "global_step": 719, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.983916163444519, "train_loss_dp": 0.9826196432113647, "train_loss_llm": 0.1296520233154297, "global_step": 720, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 0.90447998046875, "train_loss_dp": 0.9042129516601562, "train_loss_llm": 0.026702880859375, "global_step": 721, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 1.334082007408142, "train_loss_dp": 1.334082007408142, "train_loss_llm": 0.0, "global_step": 722, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 1.0045092105865479, "train_loss_dp": 1.0044221878051758, "train_loss_llm": 0.008701324462890625, "global_step": 723, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 0.9173261523246765, "train_loss_dp": 0.9156060814857483, "train_loss_llm": 0.17200875282287598, "global_step": 724, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 1.0071144104003906, "train_loss_dp": 1.0071144104003906, "train_loss_llm": 0.0, "global_step": 725, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 0.9314123392105103, "train_loss_dp": 0.9308438301086426, "train_loss_llm": 0.05685138702392578, "global_step": 726, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 1.1074728965759277, "train_loss_dp": 1.1050529479980469, "train_loss_llm": 0.24199938774108887, "global_step": 727, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 1.1780861616134644, "train_loss_dp": 1.1770551204681396, "train_loss_llm": 0.10309886932373047, "global_step": 728, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 0.9156776666641235, "train_loss_dp": 0.9132774472236633, "train_loss_llm": 0.2400214672088623, "global_step": 729, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 1.027802586555481, "train_loss_dp": 1.026719570159912, "train_loss_llm": 0.10830545425415039, "global_step": 730, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 1.0773698091506958, "train_loss_dp": 1.0622702836990356, "train_loss_llm": 1.5099563598632812, "global_step": 731, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 1.1727869510650635, "train_loss_dp": 1.1720532178878784, "train_loss_llm": 0.07337760925292969, "global_step": 732, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 1.0027987957000732, "train_loss_dp": 1.0027987957000732, "train_loss_llm": 0.0, "global_step": 733, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 1.022399663925171, "train_loss_dp": 1.0217759609222412, "train_loss_llm": 0.06237459182739258, "global_step": 734, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 0.8801689147949219, "train_loss_dp": 0.8800840377807617, "train_loss_llm": 0.008486747741699219, "global_step": 735, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 0.9367645978927612, "train_loss_dp": 0.935254693031311, "train_loss_llm": 0.15099334716796875, "global_step": 736, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 0.8969719409942627, "train_loss_dp": 0.8957443237304688, "train_loss_llm": 0.12275886535644531, "global_step": 737, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 0.8319622278213501, "train_loss_dp": 0.83097904920578, "train_loss_llm": 0.09831809997558594, "global_step": 738, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 0.7476689219474792, "train_loss_dp": 0.7476689219474792, "train_loss_llm": 0.0, "global_step": 739, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 0.9444989562034607, "train_loss_dp": 0.9420620799064636, "train_loss_llm": 0.24368834495544434, "global_step": 740, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 1.0108089447021484, "train_loss_dp": 1.008528709411621, "train_loss_llm": 0.22801971435546875, "global_step": 741, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 1.04949951171875, "train_loss_dp": 1.0483098030090332, "train_loss_llm": 0.1189766526222229, "global_step": 742, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 0.980953574180603, "train_loss_dp": 0.9806443452835083, "train_loss_llm": 0.030920982360839844, "global_step": 743, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 1.169274091720581, "train_loss_dp": 1.1683800220489502, "train_loss_llm": 0.08940166234970093, "global_step": 744, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 0.827974796295166, "train_loss_dp": 0.8242825269699097, "train_loss_llm": 0.36922407150268555, "global_step": 745, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 0.9039197564125061, "train_loss_dp": 0.9031977653503418, "train_loss_llm": 0.07219898700714111, "global_step": 746, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 0.9067659974098206, "train_loss_dp": 0.905314564704895, "train_loss_llm": 0.14514422416687012, "global_step": 747, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 0.9683718681335449, "train_loss_dp": 0.9683718681335449, "train_loss_llm": 0.0, "global_step": 748, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 0.9555579423904419, "train_loss_dp": 0.9548709392547607, "train_loss_llm": 0.06870031356811523, "global_step": 749, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 0.9128279089927673, "train_loss_dp": 0.9120756983757019, "train_loss_llm": 0.07522201538085938, "global_step": 750, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 0.9586467742919922, "train_loss_dp": 0.9573550820350647, "train_loss_llm": 0.1291666030883789, "global_step": 751, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 1.2872830629348755, "train_loss_dp": 1.2848542928695679, "train_loss_llm": 0.24288177490234375, "global_step": 752, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.7714343667030334, "train_loss_dp": 0.7713199853897095, "train_loss_llm": 0.011435866355895996, "global_step": 753, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 1.2165364027023315, "train_loss_dp": 1.21535062789917, "train_loss_llm": 0.1185833215713501, "global_step": 754, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.9964629411697388, "train_loss_dp": 0.9963146448135376, "train_loss_llm": 0.014830410480499268, "global_step": 755, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.9977706074714661, "train_loss_dp": 0.9964902400970459, "train_loss_llm": 0.12803536653518677, "global_step": 756, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.8589684367179871, "train_loss_dp": 0.8548187613487244, "train_loss_llm": 0.41497039794921875, "global_step": 757, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.9407491683959961, "train_loss_dp": 0.940178394317627, "train_loss_llm": 0.057079315185546875, "global_step": 758, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.8474981188774109, "train_loss_dp": 0.8469159603118896, "train_loss_llm": 0.058214664459228516, "global_step": 759, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 1.0006276369094849, "train_loss_dp": 0.9989263415336609, "train_loss_llm": 0.17013168334960938, "global_step": 760, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 1.0865705013275146, "train_loss_dp": 1.080318570137024, "train_loss_llm": 0.625187873840332, "global_step": 761, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.9380337595939636, "train_loss_dp": 0.9347968101501465, "train_loss_llm": 0.32369494438171387, "global_step": 762, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 1.0598310232162476, "train_loss_dp": 1.0598310232162476, "train_loss_llm": 0.0, "global_step": 763, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.9675723910331726, "train_loss_dp": 0.9659796953201294, "train_loss_llm": 0.15926694869995117, "global_step": 764, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.9108035564422607, "train_loss_dp": 0.9101672172546387, "train_loss_llm": 0.06363487243652344, "global_step": 765, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.7885191440582275, "train_loss_dp": 0.7872072458267212, "train_loss_llm": 0.13118839263916016, "global_step": 766, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.7910516858100891, "train_loss_dp": 0.7903577089309692, "train_loss_llm": 0.06939697265625, "global_step": 767, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 1.0512226819992065, "train_loss_dp": 1.0510785579681396, "train_loss_llm": 0.014406681060791016, "global_step": 768, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 1.0136908292770386, "train_loss_dp": 1.0136175155639648, "train_loss_llm": 0.0073320865631103516, "global_step": 769, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 1.0340111255645752, "train_loss_dp": 1.0332270860671997, "train_loss_llm": 0.07840919494628906, "global_step": 770, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 1.1116538047790527, "train_loss_dp": 1.1096343994140625, "train_loss_llm": 0.20194244384765625, "global_step": 771, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 1.0758233070373535, "train_loss_dp": 1.0713154077529907, "train_loss_llm": 0.4507894515991211, "global_step": 772, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.9567947387695312, "train_loss_dp": 0.955844521522522, "train_loss_llm": 0.09502029418945312, "global_step": 773, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 1.0213313102722168, "train_loss_dp": 1.0209262371063232, "train_loss_llm": 0.04050290584564209, "global_step": 774, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.9552559852600098, "train_loss_dp": 0.9536364078521729, "train_loss_llm": 0.16195893287658691, "global_step": 775, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.7897422909736633, "train_loss_dp": 0.7890897989273071, "train_loss_llm": 0.06524777412414551, "global_step": 776, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.8446686267852783, "train_loss_dp": 0.8439838886260986, "train_loss_llm": 0.06847381591796875, "global_step": 777, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 1.1314518451690674, "train_loss_dp": 1.1298174858093262, "train_loss_llm": 0.1634368896484375, "global_step": 778, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.9111329913139343, "train_loss_dp": 0.9090411067008972, "train_loss_llm": 0.20918703079223633, "global_step": 779, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 1.0641357898712158, "train_loss_dp": 1.0617499351501465, "train_loss_llm": 0.23859119415283203, "global_step": 780, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.9614706039428711, "train_loss_dp": 0.9540227651596069, "train_loss_llm": 0.744786262512207, "global_step": 781, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.926960825920105, "train_loss_dp": 0.9262169599533081, "train_loss_llm": 0.07438516616821289, "global_step": 782, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 1.048738956451416, "train_loss_dp": 1.048738956451416, "train_loss_llm": 0.0, "global_step": 783, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.8251386880874634, "train_loss_dp": 0.8251386880874634, "train_loss_llm": 0.0, "global_step": 784, "epoch": 0, "lr": 1e-05}
+{"train_loss": 1.259302020072937, "train_loss_dp": 1.257563591003418, "train_loss_llm": 0.17384862899780273, "global_step": 785, "epoch": 0, "lr": 1e-05}
+{"train_loss": 0.992967426776886, "train_loss_dp": 0.9924060106277466, "train_loss_llm": 0.05614066123962402, "global_step": 786, "epoch": 0, "lr": 1e-05}
+{"train_loss": 0.8926352858543396, "train_loss_dp": 0.8922418355941772, "train_loss_llm": 0.039343833923339844, "global_step": 787, "epoch": 0, "lr": 1e-05}
+{"train_loss": 1.008683204650879, "train_loss_dp": 1.0078290700912476, "train_loss_llm": 0.08541214466094971, "global_step": 788, "epoch": 0, "lr": 1e-05}
+{"train_loss": 0.9095844030380249, "train_loss_dp": 0.9095354080200195, "train_loss_llm": 0.004897356033325195, "global_step": 789, "epoch": 0, "lr": 1e-05}
+{"train_loss": 1.1111019849777222, "train_loss_dp": 1.1097859144210815, "train_loss_llm": 0.1316080093383789, "global_step": 790, "epoch": 0, "lr": 1e-05}
+{"train_loss": 0.9511739015579224, "train_loss_dp": 0.9482263922691345, "train_loss_llm": 0.29474925994873047, "global_step": 791, "epoch": 0, "lr": 1e-05}
+{"train_loss": 0.739051103591919, "train_loss_dp": 0.7384142875671387, "train_loss_llm": 0.06368160247802734, "global_step": 792, "epoch": 0, "lr": 1e-05}
+{"train_loss": 1.023337483406067, "train_loss_dp": 1.0228791236877441, "train_loss_llm": 0.04583597183227539, "global_step": 793, "epoch": 0, "lr": 1e-05}
+{"train_loss": 1.0744519233703613, "train_loss_dp": 1.0744519233703613, "train_loss_llm": 0.0, "global_step": 794, "epoch": 0, "lr": 1e-05}
+{"train_loss": 1.0365397930145264, "train_loss_dp": 1.0344629287719727, "train_loss_llm": 0.2076812982559204, "global_step": 795, "epoch": 0, "lr": 1e-05}
+{"train_loss": 0.8857151865959167, "train_loss_dp": 0.8812578320503235, "train_loss_llm": 0.44573497772216797, "global_step": 796, "epoch": 0, "lr": 1e-05}
+{"train_loss": 1.0872206687927246, "train_loss_dp": 1.0869436264038086, "train_loss_llm": 0.027698278427124023, "global_step": 797, "epoch": 0, "lr": 1e-05}
+{"train_loss": 1.0240836143493652, "train_loss_dp": 1.0240836143493652, "train_loss_llm": 0.0, "global_step": 798, "epoch": 0, "lr": 1e-05}
+{"train_loss": 0.9158190488815308, "train_loss_dp": 0.915581464767456, "train_loss_llm": 0.023760855197906494, "global_step": 799, "epoch": 0, "lr": 1e-05}
+{"train_loss": 1.077518105506897, "train_loss_dp": 1.0765328407287598, "train_loss_llm": 0.09852147102355957, "global_step": 800, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 1.1293690204620361, "train_loss_dp": 1.1252721548080444, "train_loss_llm": 0.40969157218933105, "global_step": 801, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 1.0506553649902344, "train_loss_dp": 1.0504587888717651, "train_loss_llm": 0.019655227661132812, "global_step": 802, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 1.0247790813446045, "train_loss_dp": 1.0232892036437988, "train_loss_llm": 0.14898455142974854, "global_step": 803, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 1.2175179719924927, "train_loss_dp": 1.217043161392212, "train_loss_llm": 0.047480106353759766, "global_step": 804, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.9517286419868469, "train_loss_dp": 0.9492466449737549, "train_loss_llm": 0.2482008934020996, "global_step": 805, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.7419543862342834, "train_loss_dp": 0.7414805293083191, "train_loss_llm": 0.04738807678222656, "global_step": 806, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.7882542610168457, "train_loss_dp": 0.7873624563217163, "train_loss_llm": 0.08917808532714844, "global_step": 807, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 1.0802799463272095, "train_loss_dp": 1.0790480375289917, "train_loss_llm": 0.12318897247314453, "global_step": 808, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.9940028190612793, "train_loss_dp": 0.9931234121322632, "train_loss_llm": 0.08793771266937256, "global_step": 809, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.8574022650718689, "train_loss_dp": 0.8566917181015015, "train_loss_llm": 0.07105636596679688, "global_step": 810, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 1.0458457469940186, "train_loss_dp": 1.041673183441162, "train_loss_llm": 0.4172554016113281, "global_step": 811, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.9123660922050476, "train_loss_dp": 0.9100545048713684, "train_loss_llm": 0.23116016387939453, "global_step": 812, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.6789156198501587, "train_loss_dp": 0.6771232485771179, "train_loss_llm": 0.17923831939697266, "global_step": 813, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.8952807784080505, "train_loss_dp": 0.8933263421058655, "train_loss_llm": 0.19544410705566406, "global_step": 814, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 1.07277250289917, "train_loss_dp": 1.071661353111267, "train_loss_llm": 0.11111259460449219, "global_step": 815, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.9745206236839294, "train_loss_dp": 0.9731015563011169, "train_loss_llm": 0.14190888404846191, "global_step": 816, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 1.0158607959747314, "train_loss_dp": 1.015653371810913, "train_loss_llm": 0.020745277404785156, "global_step": 817, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.8705745339393616, "train_loss_dp": 0.869276762008667, "train_loss_llm": 0.1297769546508789, "global_step": 818, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.7283279299736023, "train_loss_dp": 0.7242369651794434, "train_loss_llm": 0.40909576416015625, "global_step": 819, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 1.1029748916625977, "train_loss_dp": 1.1026493310928345, "train_loss_llm": 0.032550811767578125, "global_step": 820, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.9931108951568604, "train_loss_dp": 0.9883441925048828, "train_loss_llm": 0.4766731262207031, "global_step": 821, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.8892592191696167, "train_loss_dp": 0.888556957244873, "train_loss_llm": 0.07022404670715332, "global_step": 822, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 1.056671142578125, "train_loss_dp": 1.0529409646987915, "train_loss_llm": 0.37302184104919434, "global_step": 823, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.8989434242248535, "train_loss_dp": 0.898169994354248, "train_loss_llm": 0.07734251022338867, "global_step": 824, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 1.0804845094680786, "train_loss_dp": 1.0778294801712036, "train_loss_llm": 0.2655010223388672, "global_step": 825, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.9840695858001709, "train_loss_dp": 0.9840695858001709, "train_loss_llm": 0.0, "global_step": 826, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.9222040176391602, "train_loss_dp": 0.9206717610359192, "train_loss_llm": 0.15322446823120117, "global_step": 827, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.956621527671814, "train_loss_dp": 0.956621527671814, "train_loss_llm": 0.0, "global_step": 828, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.9371381402015686, "train_loss_dp": 0.9362421631813049, "train_loss_llm": 0.08959758281707764, "global_step": 829, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.8978108167648315, "train_loss_dp": 0.8978108167648315, "train_loss_llm": 0.0, "global_step": 830, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.8849994540214539, "train_loss_dp": 0.8847915530204773, "train_loss_llm": 0.020792484283447266, "global_step": 831, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.9447798728942871, "train_loss_dp": 0.9421151876449585, "train_loss_llm": 0.2664661407470703, "global_step": 832, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 1.023684024810791, "train_loss_dp": 1.0223606824874878, "train_loss_llm": 0.13232898712158203, "global_step": 833, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.935225784778595, "train_loss_dp": 0.9350371360778809, "train_loss_llm": 0.01886773109436035, "global_step": 834, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.9672491550445557, "train_loss_dp": 0.9664894342422485, "train_loss_llm": 0.07597184181213379, "global_step": 835, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.9672293663024902, "train_loss_dp": 0.9672293663024902, "train_loss_llm": 0.0, "global_step": 836, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 1.0208998918533325, "train_loss_dp": 1.0206801891326904, "train_loss_llm": 0.02197432518005371, "global_step": 837, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.9705723524093628, "train_loss_dp": 0.9695995450019836, "train_loss_llm": 0.0972815752029419, "global_step": 838, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 1.0315337181091309, "train_loss_dp": 1.029707431793213, "train_loss_llm": 0.18263357877731323, "global_step": 839, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.902397096157074, "train_loss_dp": 0.9017898440361023, "train_loss_llm": 0.06072735786437988, "global_step": 840, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.8317579030990601, "train_loss_dp": 0.8314892649650574, "train_loss_llm": 0.026863157749176025, "global_step": 841, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 1.0452229976654053, "train_loss_dp": 1.0452229976654053, "train_loss_llm": 0.0, "global_step": 842, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.9706690311431885, "train_loss_dp": 0.9682855606079102, "train_loss_llm": 0.2383441925048828, "global_step": 843, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 1.1708118915557861, "train_loss_dp": 1.170074224472046, "train_loss_llm": 0.07376080751419067, "global_step": 844, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.805054783821106, "train_loss_dp": 0.7928131818771362, "train_loss_llm": 1.2241592407226562, "global_step": 845, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 1.140393614768982, "train_loss_dp": 1.1400119066238403, "train_loss_llm": 0.038166046142578125, "global_step": 846, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.9959776997566223, "train_loss_dp": 0.9936011433601379, "train_loss_llm": 0.2376556396484375, "global_step": 847, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 1.156895399093628, "train_loss_dp": 1.1560280323028564, "train_loss_llm": 0.08673691749572754, "global_step": 848, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.9377515912055969, "train_loss_dp": 0.9335498213768005, "train_loss_llm": 0.4201798439025879, "global_step": 849, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.9924699664115906, "train_loss_dp": 0.9914106726646423, "train_loss_llm": 0.10593223571777344, "global_step": 850, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 1.029397964477539, "train_loss_dp": 1.029151439666748, "train_loss_llm": 0.024652957916259766, "global_step": 851, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 1.094383716583252, "train_loss_dp": 1.094383716583252, "train_loss_llm": 0.0, "global_step": 852, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 1.0477818250656128, "train_loss_dp": 1.0472872257232666, "train_loss_llm": 0.04945707321166992, "global_step": 853, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.8656613230705261, "train_loss_dp": 0.8654622435569763, "train_loss_llm": 0.01990795135498047, "global_step": 854, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.7576889991760254, "train_loss_dp": 0.7570778727531433, "train_loss_llm": 0.061110734939575195, "global_step": 855, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 1.0411043167114258, "train_loss_dp": 1.040663480758667, "train_loss_llm": 0.04408836364746094, "global_step": 856, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.9690349102020264, "train_loss_dp": 0.9657151699066162, "train_loss_llm": 0.3319711685180664, "global_step": 857, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.8681743144989014, "train_loss_dp": 0.8665370941162109, "train_loss_llm": 0.1637192964553833, "global_step": 858, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.8626179099082947, "train_loss_dp": 0.8616407513618469, "train_loss_llm": 0.09771335124969482, "global_step": 859, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.9946160316467285, "train_loss_dp": 0.9943771362304688, "train_loss_llm": 0.02388906478881836, "global_step": 860, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.9336805939674377, "train_loss_dp": 0.9318390488624573, "train_loss_llm": 0.18415451049804688, "global_step": 861, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 1.0474923849105835, "train_loss_dp": 1.0470921993255615, "train_loss_llm": 0.040021032094955444, "global_step": 862, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.7167580127716064, "train_loss_dp": 0.7163271903991699, "train_loss_llm": 0.043079376220703125, "global_step": 863, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.9660825729370117, "train_loss_dp": 0.9633816480636597, "train_loss_llm": 0.27009153366088867, "global_step": 864, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.7457151412963867, "train_loss_dp": 0.7438627481460571, "train_loss_llm": 0.18524169921875, "global_step": 865, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.9205620884895325, "train_loss_dp": 0.9187467098236084, "train_loss_llm": 0.18153762817382812, "global_step": 866, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.8863125443458557, "train_loss_dp": 0.8861866593360901, "train_loss_llm": 0.0125885009765625, "global_step": 867, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.9435268640518188, "train_loss_dp": 0.941968560218811, "train_loss_llm": 0.15583324432373047, "global_step": 868, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 1.0020698308944702, "train_loss_dp": 1.0014150142669678, "train_loss_llm": 0.06548404693603516, "global_step": 869, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.7322002649307251, "train_loss_dp": 0.7307491302490234, "train_loss_llm": 0.14511346817016602, "global_step": 870, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.8925496339797974, "train_loss_dp": 0.8899310827255249, "train_loss_llm": 0.2618532180786133, "global_step": 871, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.9339090585708618, "train_loss_dp": 0.9328731894493103, "train_loss_llm": 0.10358428955078125, "global_step": 872, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.8051707744598389, "train_loss_dp": 0.8016541004180908, "train_loss_llm": 0.3516702651977539, "global_step": 873, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.8717041611671448, "train_loss_dp": 0.8645506501197815, "train_loss_llm": 0.7153511047363281, "global_step": 874, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.7897964119911194, "train_loss_dp": 0.789243221282959, "train_loss_llm": 0.055318981409072876, "global_step": 875, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.8867982625961304, "train_loss_dp": 0.8815507888793945, "train_loss_llm": 0.5247467756271362, "global_step": 876, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 1.2266132831573486, "train_loss_dp": 1.225754976272583, "train_loss_llm": 0.08583545684814453, "global_step": 877, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 1.0901480913162231, "train_loss_dp": 1.0866094827651978, "train_loss_llm": 0.35385918617248535, "global_step": 878, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.9002484679222107, "train_loss_dp": 0.8993539214134216, "train_loss_llm": 0.08945345878601074, "global_step": 879, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.9426285624504089, "train_loss_dp": 0.9415386915206909, "train_loss_llm": 0.10898923873901367, "global_step": 880, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 1.0284301042556763, "train_loss_dp": 1.0284301042556763, "train_loss_llm": 0.0, "global_step": 881, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.8465217351913452, "train_loss_dp": 0.8443676233291626, "train_loss_llm": 0.2154102325439453, "global_step": 882, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.8424291014671326, "train_loss_dp": 0.8410081267356873, "train_loss_llm": 0.14209628105163574, "global_step": 883, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.9193117022514343, "train_loss_dp": 0.9188568592071533, "train_loss_llm": 0.04548501968383789, "global_step": 884, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.9532791972160339, "train_loss_dp": 0.9516626596450806, "train_loss_llm": 0.16165560483932495, "global_step": 885, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.9995271563529968, "train_loss_dp": 0.9994049072265625, "train_loss_llm": 0.012227058410644531, "global_step": 886, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.8410481810569763, "train_loss_dp": 0.8405471444129944, "train_loss_llm": 0.050106048583984375, "global_step": 887, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.9472160339355469, "train_loss_dp": 0.9461251497268677, "train_loss_llm": 0.10908925533294678, "global_step": 888, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 1.0202356576919556, "train_loss_dp": 1.0163333415985107, "train_loss_llm": 0.3902287483215332, "global_step": 889, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.9819141626358032, "train_loss_dp": 0.980471670627594, "train_loss_llm": 0.144250750541687, "global_step": 890, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.7560952305793762, "train_loss_dp": 0.7557048797607422, "train_loss_llm": 0.03903484344482422, "global_step": 891, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.9103001952171326, "train_loss_dp": 0.9088983535766602, "train_loss_llm": 0.1401844024658203, "global_step": 892, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 1.0243241786956787, "train_loss_dp": 1.0241460800170898, "train_loss_llm": 0.01781177520751953, "global_step": 893, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 1.1076157093048096, "train_loss_dp": 1.106736183166504, "train_loss_llm": 0.08795762062072754, "global_step": 894, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 1.0464521646499634, "train_loss_dp": 1.0389432907104492, "train_loss_llm": 0.7508888244628906, "global_step": 895, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.9368653893470764, "train_loss_dp": 0.9286735653877258, "train_loss_llm": 0.8191795349121094, "global_step": 896, "epoch": 0, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.8552839756011963, "train_loss_dp": 0.8539434671401978, "train_loss_llm": 0.13405179977416992, "global_step": 897, "epoch": 0, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.959685742855072, "train_loss_dp": 0.959685742855072, "train_loss_llm": 0.0, "global_step": 898, "epoch": 0, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.8656265139579773, "train_loss_dp": 0.8652724027633667, "train_loss_llm": 0.03540992736816406, "global_step": 899, "epoch": 0, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.6729638576507568, "train_loss_dp": 0.6729638576507568, "train_loss_llm": 0.0, "global_step": 900, "epoch": 0, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.8978986740112305, "train_loss_dp": 0.8942809104919434, "train_loss_llm": 0.3617737293243408, "global_step": 901, "epoch": 0, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.7512260675430298, "train_loss_dp": 0.7512260675430298, "train_loss_llm": 0.0, "global_step": 902, "epoch": 0, "lr": 1.1400000000000001e-05}
+{"train_loss": 1.001011848449707, "train_loss_dp": 1.0003082752227783, "train_loss_llm": 0.07035326957702637, "global_step": 903, "epoch": 0, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.964199423789978, "train_loss_dp": 0.9606815576553345, "train_loss_llm": 0.3517880439758301, "global_step": 904, "epoch": 0, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.7650579810142517, "train_loss_dp": 0.7646739482879639, "train_loss_llm": 0.03840065002441406, "global_step": 905, "epoch": 0, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.7989218831062317, "train_loss_dp": 0.7881113886833191, "train_loss_llm": 1.0810508728027344, "global_step": 906, "epoch": 0, "lr": 1.1400000000000001e-05}
+{"train_loss": 0.9167330265045166, "train_loss_dp": 0.9157524108886719, "train_loss_llm": 0.09806346893310547, "global_step": 907, "epoch": 0, "lr": 1.1400000000000001e-05}
+{"train_loss": 1.0072381496429443, "train_loss_dp": 1.0050064325332642, "train_loss_llm": 0.22316789627075195, "global_step": 908, "epoch": 0, "lr": 1.1400000000000001e-05}
+{"train_loss": 1.2556655406951904, "train_loss_dp": 1.2542482614517212, "train_loss_llm": 0.14172542095184326, "global_step": 909, "epoch": 0, "lr": 1.1400000000000001e-05}
+{"train_loss": 1.0232880115509033, "train_loss_dp": 1.0230520963668823, "train_loss_llm": 0.023595690727233887, "global_step": 910, "epoch": 0, "lr": 1.1400000000000001e-05}
+{"train_loss": 1.0681471824645996, "train_loss_dp": 1.0658851861953735, "train_loss_llm": 0.22620010375976562, "global_step": 911, "epoch": 0, "lr": 1.1400000000000001e-05}
+{"train_loss": 1.022613286972046, "train_loss_dp": 1.021435022354126, "train_loss_llm": 0.1178290843963623, "global_step": 912, "epoch": 0, "lr": 1.16e-05}
+{"train_loss": 1.120140790939331, "train_loss_dp": 1.120140790939331, "train_loss_llm": 0.0, "global_step": 913, "epoch": 0, "lr": 1.16e-05}
+{"train_loss": 0.7700610756874084, "train_loss_dp": 0.7700610756874084, "train_loss_llm": 0.0, "global_step": 914, "epoch": 0, "lr": 1.16e-05}
+{"train_loss": 0.891202986240387, "train_loss_dp": 0.8889867067337036, "train_loss_llm": 0.22163009643554688, "global_step": 915, "epoch": 0, "lr": 1.16e-05}
+{"train_loss": 0.9423157572746277, "train_loss_dp": 0.9407622218132019, "train_loss_llm": 0.15535080432891846, "global_step": 916, "epoch": 0, "lr": 1.16e-05}
+{"train_loss": 0.7803816199302673, "train_loss_dp": 0.7787589430809021, "train_loss_llm": 0.16227054595947266, "global_step": 917, "epoch": 0, "lr": 1.16e-05}
+{"train_loss": 1.017142415046692, "train_loss_dp": 1.0151492357254028, "train_loss_llm": 0.19932174682617188, "global_step": 918, "epoch": 0, "lr": 1.16e-05}
+{"train_loss": 1.0764837265014648, "train_loss_dp": 1.0764837265014648, "train_loss_llm": 0.0, "global_step": 919, "epoch": 0, "lr": 1.16e-05}
+{"train_loss": 0.9487733244895935, "train_loss_dp": 0.9465330839157104, "train_loss_llm": 0.22402453422546387, "global_step": 920, "epoch": 0, "lr": 1.16e-05}
+{"train_loss": 1.0241552591323853, "train_loss_dp": 1.0228195190429688, "train_loss_llm": 0.13356828689575195, "global_step": 921, "epoch": 0, "lr": 1.16e-05}
+{"train_loss": 0.9870346188545227, "train_loss_dp": 0.9863190054893494, "train_loss_llm": 0.07155990600585938, "global_step": 922, "epoch": 0, "lr": 1.16e-05}
+{"train_loss": 0.9092446565628052, "train_loss_dp": 0.9082605242729187, "train_loss_llm": 0.09841156005859375, "global_step": 923, "epoch": 0, "lr": 1.16e-05}
+{"train_loss": 0.8576072454452515, "train_loss_dp": 0.8544324636459351, "train_loss_llm": 0.3174762725830078, "global_step": 924, "epoch": 0, "lr": 1.16e-05}
+{"train_loss": 0.7556614279747009, "train_loss_dp": 0.7545825242996216, "train_loss_llm": 0.10789316892623901, "global_step": 925, "epoch": 0, "lr": 1.16e-05}
+{"train_loss": 0.9024893045425415, "train_loss_dp": 0.9017357230186462, "train_loss_llm": 0.07536077499389648, "global_step": 926, "epoch": 0, "lr": 1.16e-05}
+{"train_loss": 0.9731816053390503, "train_loss_dp": 0.9728959798812866, "train_loss_llm": 0.028562545776367188, "global_step": 927, "epoch": 0, "lr": 1.16e-05}
+{"train_loss": 0.9839975833892822, "train_loss_dp": 0.9792622327804565, "train_loss_llm": 0.47353363037109375, "global_step": 928, "epoch": 0, "lr": 1.18e-05}
+{"train_loss": 0.9075612425804138, "train_loss_dp": 0.9067614674568176, "train_loss_llm": 0.07997512817382812, "global_step": 929, "epoch": 0, "lr": 1.18e-05}
+{"train_loss": 1.0446553230285645, "train_loss_dp": 1.0434287786483765, "train_loss_llm": 0.12265622615814209, "global_step": 930, "epoch": 0, "lr": 1.18e-05}
+{"train_loss": 0.8145619034767151, "train_loss_dp": 0.8145414590835571, "train_loss_llm": 0.0020437240600585938, "global_step": 931, "epoch": 0, "lr": 1.18e-05}
+{"train_loss": 1.19353449344635, "train_loss_dp": 1.1929116249084473, "train_loss_llm": 0.062286376953125, "global_step": 932, "epoch": 0, "lr": 1.18e-05}
+{"train_loss": 0.7301605939865112, "train_loss_dp": 0.7298956513404846, "train_loss_llm": 0.026494979858398438, "global_step": 933, "epoch": 0, "lr": 1.18e-05}
+{"train_loss": 0.8434146046638489, "train_loss_dp": 0.8419032096862793, "train_loss_llm": 0.1511392593383789, "global_step": 934, "epoch": 0, "lr": 1.18e-05}
+{"train_loss": 0.9014769792556763, "train_loss_dp": 0.9003241062164307, "train_loss_llm": 0.11528682708740234, "global_step": 935, "epoch": 0, "lr": 1.18e-05}
+{"train_loss": 0.7745158672332764, "train_loss_dp": 0.7739009857177734, "train_loss_llm": 0.061486244201660156, "global_step": 936, "epoch": 0, "lr": 1.18e-05}
+{"train_loss": 0.8395859599113464, "train_loss_dp": 0.8395034074783325, "train_loss_llm": 0.0082550048828125, "global_step": 937, "epoch": 0, "lr": 1.18e-05}
+{"train_loss": 1.052605390548706, "train_loss_dp": 1.0522650480270386, "train_loss_llm": 0.034038543701171875, "global_step": 938, "epoch": 0, "lr": 1.18e-05}
+{"train_loss": 1.0986405611038208, "train_loss_dp": 1.096590518951416, "train_loss_llm": 0.2050008773803711, "global_step": 939, "epoch": 0, "lr": 1.18e-05}
+{"train_loss": 0.8267568349838257, "train_loss_dp": 0.8258805274963379, "train_loss_llm": 0.08763116598129272, "global_step": 940, "epoch": 0, "lr": 1.18e-05}
+{"train_loss": 0.922144889831543, "train_loss_dp": 0.9211643934249878, "train_loss_llm": 0.09804844856262207, "global_step": 941, "epoch": 0, "lr": 1.18e-05}
+{"train_loss": 0.923166811466217, "train_loss_dp": 0.923166811466217, "train_loss_llm": 0.0, "global_step": 942, "epoch": 0, "lr": 1.18e-05}
+{"train_loss": 0.9571996331214905, "train_loss_dp": 0.9568678736686707, "train_loss_llm": 0.03317737579345703, "global_step": 943, "epoch": 0, "lr": 1.18e-05}
+{"train_loss": 0.8824518918991089, "train_loss_dp": 0.8779422044754028, "train_loss_llm": 0.45096874237060547, "global_step": 944, "epoch": 0, "lr": 1.2e-05}
+{"train_loss": 1.0731713771820068, "train_loss_dp": 1.0731713771820068, "train_loss_llm": 0.0, "global_step": 945, "epoch": 0, "lr": 1.2e-05}
+{"train_loss": 0.8933123350143433, "train_loss_dp": 0.8933123350143433, "train_loss_llm": 0.0, "global_step": 946, "epoch": 0, "lr": 1.2e-05}
+{"train_loss": 0.9883478879928589, "train_loss_dp": 0.9880350828170776, "train_loss_llm": 0.03128063678741455, "global_step": 947, "epoch": 0, "lr": 1.2e-05}
+{"train_loss": 1.1105101108551025, "train_loss_dp": 1.1105101108551025, "train_loss_llm": 0.0, "global_step": 948, "epoch": 0, "lr": 1.2e-05}
+{"train_loss": 0.7915512919425964, "train_loss_dp": 0.79015052318573, "train_loss_llm": 0.14007568359375, "global_step": 949, "epoch": 0, "lr": 1.2e-05}
+{"train_loss": 0.9753744602203369, "train_loss_dp": 0.9628570079803467, "train_loss_llm": 1.2517452239990234, "global_step": 950, "epoch": 0, "lr": 1.2e-05}
+{"train_loss": 0.8365680575370789, "train_loss_dp": 0.8350636959075928, "train_loss_llm": 0.1504383087158203, "global_step": 951, "epoch": 0, "lr": 1.2e-05}
+{"train_loss": 1.0953197479248047, "train_loss_dp": 1.0950987339019775, "train_loss_llm": 0.02210712432861328, "global_step": 952, "epoch": 0, "lr": 1.2e-05}
+{"train_loss": 1.0427347421646118, "train_loss_dp": 1.042189598083496, "train_loss_llm": 0.05451560020446777, "global_step": 953, "epoch": 0, "lr": 1.2e-05}
+{"train_loss": 0.8618870377540588, "train_loss_dp": 0.8571624159812927, "train_loss_llm": 0.4724617004394531, "global_step": 954, "epoch": 0, "lr": 1.2e-05}
+{"train_loss": 0.910359799861908, "train_loss_dp": 0.9096278548240662, "train_loss_llm": 0.07319331169128418, "global_step": 955, "epoch": 0, "lr": 1.2e-05}
+{"train_loss": 0.8132694959640503, "train_loss_dp": 0.8128124475479126, "train_loss_llm": 0.045703887939453125, "global_step": 956, "epoch": 0, "lr": 1.2e-05}
+{"train_loss": 0.9124712944030762, "train_loss_dp": 0.911858320236206, "train_loss_llm": 0.06129789352416992, "global_step": 957, "epoch": 0, "lr": 1.2e-05}
+{"train_loss": 0.9954870939254761, "train_loss_dp": 0.9945970773696899, "train_loss_llm": 0.08900314569473267, "global_step": 958, "epoch": 0, "lr": 1.2e-05}
+{"train_loss": 0.85845547914505, "train_loss_dp": 0.8573266267776489, "train_loss_llm": 0.11288738250732422, "global_step": 959, "epoch": 0, "lr": 1.2e-05}
+{"train_loss": 0.9406086206436157, "train_loss_dp": 0.9406086206436157, "train_loss_llm": 0.0, "global_step": 960, "epoch": 0, "lr": 1.22e-05}
+{"train_loss": 0.8583296537399292, "train_loss_dp": 0.8583296537399292, "train_loss_llm": 0.0, "global_step": 961, "epoch": 0, "lr": 1.22e-05}
+{"train_loss": 1.1255085468292236, "train_loss_dp": 1.125029444694519, "train_loss_llm": 0.04790782928466797, "global_step": 962, "epoch": 0, "lr": 1.22e-05}
+{"train_loss": 1.0180531740188599, "train_loss_dp": 1.0146965980529785, "train_loss_llm": 0.33565521240234375, "global_step": 963, "epoch": 0, "lr": 1.22e-05}
+{"train_loss": 0.9056329727172852, "train_loss_dp": 0.9050439596176147, "train_loss_llm": 0.058902740478515625, "global_step": 964, "epoch": 0, "lr": 1.22e-05}
+{"train_loss": 0.8591377139091492, "train_loss_dp": 0.8573007583618164, "train_loss_llm": 0.18369507789611816, "global_step": 965, "epoch": 0, "lr": 1.22e-05}
+{"train_loss": 0.8628143668174744, "train_loss_dp": 0.8622910976409912, "train_loss_llm": 0.052326202392578125, "global_step": 966, "epoch": 0, "lr": 1.22e-05}
+{"train_loss": 1.0734443664550781, "train_loss_dp": 1.0689958333969116, "train_loss_llm": 0.44484782218933105, "global_step": 967, "epoch": 0, "lr": 1.22e-05}
+{"train_loss": 1.0153883695602417, "train_loss_dp": 1.0153883695602417, "train_loss_llm": 0.0, "global_step": 968, "epoch": 0, "lr": 1.22e-05}
+{"train_loss": 1.0671322345733643, "train_loss_dp": 1.0659350156784058, "train_loss_llm": 0.11971664428710938, "global_step": 969, "epoch": 0, "lr": 1.22e-05}
+{"train_loss": 0.7735809683799744, "train_loss_dp": 0.7723658084869385, "train_loss_llm": 0.12151718139648438, "global_step": 970, "epoch": 0, "lr": 1.22e-05}
+{"train_loss": 0.885504961013794, "train_loss_dp": 0.8853609561920166, "train_loss_llm": 0.014400482177734375, "global_step": 971, "epoch": 0, "lr": 1.22e-05}
+{"train_loss": 0.8427368998527527, "train_loss_dp": 0.8425707817077637, "train_loss_llm": 0.016609907150268555, "global_step": 972, "epoch": 0, "lr": 1.22e-05}
+{"train_loss": 0.9721724987030029, "train_loss_dp": 0.9713463187217712, "train_loss_llm": 0.08262038230895996, "global_step": 973, "epoch": 0, "lr": 1.22e-05}
+{"train_loss": 0.8627626895904541, "train_loss_dp": 0.8627626895904541, "train_loss_llm": 0.0, "global_step": 974, "epoch": 0, "lr": 1.22e-05}
+{"train_loss": 1.0087807178497314, "train_loss_dp": 1.0079909563064575, "train_loss_llm": 0.078971266746521, "global_step": 975, "epoch": 0, "lr": 1.22e-05}
+{"train_loss": 0.7761944532394409, "train_loss_dp": 0.7753283977508545, "train_loss_llm": 0.08660602569580078, "global_step": 976, "epoch": 0, "lr": 1.24e-05}
+{"train_loss": 0.8914881348609924, "train_loss_dp": 0.8887566924095154, "train_loss_llm": 0.2731466293334961, "global_step": 977, "epoch": 0, "lr": 1.24e-05}
+{"train_loss": 0.825527548789978, "train_loss_dp": 0.8236047625541687, "train_loss_llm": 0.1922767162322998, "global_step": 978, "epoch": 0, "lr": 1.24e-05}
+{"train_loss": 0.9459496140480042, "train_loss_dp": 0.9266403317451477, "train_loss_llm": 1.930929183959961, "global_step": 979, "epoch": 0, "lr": 1.24e-05}
+{"train_loss": 0.9839837551116943, "train_loss_dp": 0.9826533794403076, "train_loss_llm": 0.13303756713867188, "global_step": 980, "epoch": 0, "lr": 1.24e-05}
+{"train_loss": 1.0606801509857178, "train_loss_dp": 1.059333324432373, "train_loss_llm": 0.13467788696289062, "global_step": 981, "epoch": 0, "lr": 1.24e-05}
+{"train_loss": 0.7263134717941284, "train_loss_dp": 0.7204220294952393, "train_loss_llm": 0.5891437530517578, "global_step": 982, "epoch": 0, "lr": 1.24e-05}
+{"train_loss": 0.875320553779602, "train_loss_dp": 0.8743094801902771, "train_loss_llm": 0.101104736328125, "global_step": 983, "epoch": 0, "lr": 1.24e-05}
+{"train_loss": 0.8079968094825745, "train_loss_dp": 0.8068640828132629, "train_loss_llm": 0.11327004432678223, "global_step": 984, "epoch": 0, "lr": 1.24e-05}
+{"train_loss": 1.0264582633972168, "train_loss_dp": 1.0256531238555908, "train_loss_llm": 0.08050942420959473, "global_step": 985, "epoch": 0, "lr": 1.24e-05}
+{"train_loss": 0.9948275685310364, "train_loss_dp": 0.9926164150238037, "train_loss_llm": 0.2211148738861084, "global_step": 986, "epoch": 0, "lr": 1.24e-05}
+{"train_loss": 0.9174166917800903, "train_loss_dp": 0.9146780967712402, "train_loss_llm": 0.27386200428009033, "global_step": 987, "epoch": 0, "lr": 1.24e-05}
+{"train_loss": 0.6758202314376831, "train_loss_dp": 0.6749297976493835, "train_loss_llm": 0.08904492855072021, "global_step": 988, "epoch": 0, "lr": 1.24e-05}
+{"train_loss": 1.0428423881530762, "train_loss_dp": 1.0408477783203125, "train_loss_llm": 0.19945526123046875, "global_step": 989, "epoch": 0, "lr": 1.24e-05}
+{"train_loss": 0.9748677015304565, "train_loss_dp": 0.9742928147315979, "train_loss_llm": 0.05748629570007324, "global_step": 990, "epoch": 0, "lr": 1.24e-05}
+{"train_loss": 1.161684274673462, "train_loss_dp": 1.1616500616073608, "train_loss_llm": 0.0034177303314208984, "global_step": 991, "epoch": 0, "lr": 1.24e-05}
+{"train_loss": 1.0322344303131104, "train_loss_dp": 1.0302824974060059, "train_loss_llm": 0.1951885223388672, "global_step": 992, "epoch": 0, "lr": 1.2600000000000001e-05}
+{"train_loss": 1.0918347835540771, "train_loss_dp": 1.0901418924331665, "train_loss_llm": 0.16928529739379883, "global_step": 993, "epoch": 0, "lr": 1.2600000000000001e-05}
+{"train_loss": 1.3268619775772095, "train_loss_dp": 1.3256161212921143, "train_loss_llm": 0.12458515167236328, "global_step": 994, "epoch": 0, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.9492966532707214, "train_loss_dp": 0.9480955004692078, "train_loss_llm": 0.12011241912841797, "global_step": 995, "epoch": 0, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.9162051677703857, "train_loss_dp": 0.9126690626144409, "train_loss_llm": 0.35361289978027344, "global_step": 996, "epoch": 0, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.8223421573638916, "train_loss_dp": 0.8211056590080261, "train_loss_llm": 0.12364888191223145, "global_step": 997, "epoch": 0, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.85403972864151, "train_loss_dp": 0.8535929918289185, "train_loss_llm": 0.044675230979919434, "global_step": 998, "epoch": 0, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.9282425045967102, "train_loss_dp": 0.9249321222305298, "train_loss_llm": 0.3310363292694092, "global_step": 999, "epoch": 0, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.8291261196136475, "train_loss_dp": 0.8257091641426086, "train_loss_llm": 0.34169769287109375, "global_step": 1000, "epoch": 0, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.9530254006385803, "train_loss_dp": 0.9521519541740417, "train_loss_llm": 0.08734309673309326, "global_step": 1001, "epoch": 0, "lr": 1.2600000000000001e-05}
+{"train_loss": 1.0231692790985107, "train_loss_dp": 1.0220431089401245, "train_loss_llm": 0.11261224746704102, "global_step": 1002, "epoch": 0, "lr": 1.2600000000000001e-05}
+{"train_loss": 1.0276732444763184, "train_loss_dp": 1.0265394449234009, "train_loss_llm": 0.11337471008300781, "global_step": 1003, "epoch": 0, "lr": 1.2600000000000001e-05}
+{"train_loss": 1.015135407447815, "train_loss_dp": 1.0143592357635498, "train_loss_llm": 0.07761573791503906, "global_step": 1004, "epoch": 0, "lr": 1.2600000000000001e-05}
+{"train_loss": 1.1640769243240356, "train_loss_dp": 1.159584641456604, "train_loss_llm": 0.44922828674316406, "global_step": 1005, "epoch": 0, "lr": 1.2600000000000001e-05}
+{"train_loss": 1.010300636291504, "train_loss_dp": 1.0060455799102783, "train_loss_llm": 0.4255104064941406, "global_step": 1006, "epoch": 0, "lr": 1.2600000000000001e-05}
+{"train_loss": 1.1204125881195068, "train_loss_dp": 1.1174489259719849, "train_loss_llm": 0.29636847972869873, "global_step": 1007, "epoch": 0, "lr": 1.2600000000000001e-05}
+{"train_loss": 0.8739441633224487, "train_loss_dp": 0.8732975721359253, "train_loss_llm": 0.06465792655944824, "global_step": 1008, "epoch": 0, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.8270309567451477, "train_loss_dp": 0.8266403675079346, "train_loss_llm": 0.039058685302734375, "global_step": 1009, "epoch": 0, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.9433029294013977, "train_loss_dp": 0.9421162009239197, "train_loss_llm": 0.11867165565490723, "global_step": 1010, "epoch": 0, "lr": 1.2800000000000001e-05}
+{"train_loss": 1.071170687675476, "train_loss_dp": 1.0695582628250122, "train_loss_llm": 0.16124343872070312, "global_step": 1011, "epoch": 0, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.8600831031799316, "train_loss_dp": 0.8596996068954468, "train_loss_llm": 0.03835183382034302, "global_step": 1012, "epoch": 0, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.9574058651924133, "train_loss_dp": 0.9559257626533508, "train_loss_llm": 0.1480100154876709, "global_step": 1013, "epoch": 0, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.9571135640144348, "train_loss_dp": 0.9549046754837036, "train_loss_llm": 0.22088623046875, "global_step": 1014, "epoch": 0, "lr": 1.2800000000000001e-05}
+{"train_loss": 1.0840247869491577, "train_loss_dp": 1.078350305557251, "train_loss_llm": 0.5674476623535156, "global_step": 1015, "epoch": 0, "lr": 1.2800000000000001e-05}
+{"train_loss": 1.1182602643966675, "train_loss_dp": 1.117430567741394, "train_loss_llm": 0.08296394348144531, "global_step": 1016, "epoch": 0, "lr": 1.2800000000000001e-05}
+{"train_loss": 1.1449741125106812, "train_loss_dp": 1.142408847808838, "train_loss_llm": 0.25652217864990234, "global_step": 1017, "epoch": 0, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.7178685069084167, "train_loss_dp": 0.7175894379615784, "train_loss_llm": 0.027909040451049805, "global_step": 1018, "epoch": 0, "lr": 1.2800000000000001e-05}
+{"train_loss": 1.045943021774292, "train_loss_dp": 1.039328694343567, "train_loss_llm": 0.6614358425140381, "global_step": 1019, "epoch": 0, "lr": 1.2800000000000001e-05}
+{"train_loss": 1.0559046268463135, "train_loss_dp": 1.0559046268463135, "train_loss_llm": 0.0, "global_step": 1020, "epoch": 0, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.8854366540908813, "train_loss_dp": 0.8847541809082031, "train_loss_llm": 0.06824493408203125, "global_step": 1021, "epoch": 0, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.95174640417099, "train_loss_dp": 0.9482209086418152, "train_loss_llm": 0.3525514602661133, "global_step": 1022, "epoch": 0, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.8261881470680237, "train_loss_dp": 0.8250486850738525, "train_loss_llm": 0.11394715309143066, "global_step": 1023, "epoch": 0, "lr": 1.2800000000000001e-05}
+{"train_loss": 0.8973685503005981, "train_loss_dp": 0.8973685503005981, "train_loss_llm": 0.0, "global_step": 1024, "epoch": 0, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.8355317115783691, "train_loss_dp": 0.8319683074951172, "train_loss_llm": 0.3563385009765625, "global_step": 1025, "epoch": 0, "lr": 1.3000000000000001e-05}
+{"train_loss": 1.1011335849761963, "train_loss_dp": 1.1003594398498535, "train_loss_llm": 0.07741165161132812, "global_step": 1026, "epoch": 0, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.8345709443092346, "train_loss_dp": 0.8333094120025635, "train_loss_llm": 0.12615537643432617, "global_step": 1027, "epoch": 0, "lr": 1.3000000000000001e-05}
+{"train_loss": 1.0443847179412842, "train_loss_dp": 1.0443847179412842, "train_loss_llm": 0.0, "global_step": 1028, "epoch": 0, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.7091511487960815, "train_loss_dp": 0.7074195146560669, "train_loss_llm": 0.17316341400146484, "global_step": 1029, "epoch": 0, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.8967097401618958, "train_loss_dp": 0.8950179815292358, "train_loss_llm": 0.16917777061462402, "global_step": 1030, "epoch": 0, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.9802736043930054, "train_loss_dp": 0.9782116413116455, "train_loss_llm": 0.20619773864746094, "global_step": 1031, "epoch": 0, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.9607490301132202, "train_loss_dp": 0.9607490301132202, "train_loss_llm": 0.0, "global_step": 1032, "epoch": 0, "lr": 1.3000000000000001e-05}
+{"train_loss": 1.0768110752105713, "train_loss_dp": 1.0721279382705688, "train_loss_llm": 0.4683105945587158, "global_step": 1033, "epoch": 0, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.9379738569259644, "train_loss_dp": 0.9350290894508362, "train_loss_llm": 0.2944755554199219, "global_step": 1034, "epoch": 0, "lr": 1.3000000000000001e-05}
+{"train_loss": 1.0851470232009888, "train_loss_dp": 1.0839617252349854, "train_loss_llm": 0.11853206157684326, "global_step": 1035, "epoch": 0, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.7514550685882568, "train_loss_dp": 0.7510413527488708, "train_loss_llm": 0.041371941566467285, "global_step": 1036, "epoch": 0, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.7857903838157654, "train_loss_dp": 0.7857208847999573, "train_loss_llm": 0.0069484710693359375, "global_step": 1037, "epoch": 0, "lr": 1.3000000000000001e-05}
+{"train_loss": 1.1552326679229736, "train_loss_dp": 1.1528602838516235, "train_loss_llm": 0.23724371194839478, "global_step": 1038, "epoch": 0, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.8661508560180664, "train_loss_dp": 0.8629099130630493, "train_loss_llm": 0.3240940570831299, "global_step": 1039, "epoch": 0, "lr": 1.3000000000000001e-05}
+{"train_loss": 0.9729287028312683, "train_loss_dp": 0.9717471599578857, "train_loss_llm": 0.11815547943115234, "global_step": 1040, "epoch": 0, "lr": 1.32e-05}
+{"train_loss": 1.0022332668304443, "train_loss_dp": 1.0022332668304443, "train_loss_llm": 0.0, "global_step": 1041, "epoch": 0, "lr": 1.32e-05}
+{"train_loss": 0.9957897067070007, "train_loss_dp": 0.9955866932868958, "train_loss_llm": 0.02030181884765625, "global_step": 1042, "epoch": 0, "lr": 1.32e-05}
+{"train_loss": 0.924008309841156, "train_loss_dp": 0.9233829975128174, "train_loss_llm": 0.062530517578125, "global_step": 1043, "epoch": 0, "lr": 1.32e-05}
+{"train_loss": 0.897385835647583, "train_loss_dp": 0.8961454629898071, "train_loss_llm": 0.12403440475463867, "global_step": 1044, "epoch": 0, "lr": 1.32e-05}
+{"train_loss": 0.9548937082290649, "train_loss_dp": 0.9510139226913452, "train_loss_llm": 0.38797664642333984, "global_step": 1045, "epoch": 0, "lr": 1.32e-05}
+{"train_loss": 0.8010478019714355, "train_loss_dp": 0.7999597191810608, "train_loss_llm": 0.10880661010742188, "global_step": 1046, "epoch": 0, "lr": 1.32e-05}
+{"train_loss": 1.084812879562378, "train_loss_dp": 1.084812879562378, "train_loss_llm": 0.0, "global_step": 1047, "epoch": 0, "lr": 1.32e-05}
+{"train_loss": 0.8493477702140808, "train_loss_dp": 0.8484100103378296, "train_loss_llm": 0.09377455711364746, "global_step": 1048, "epoch": 0, "lr": 1.32e-05}
+{"train_loss": 1.0892019271850586, "train_loss_dp": 1.085142970085144, "train_loss_llm": 0.4058976173400879, "global_step": 1049, "epoch": 0, "lr": 1.32e-05}
+{"train_loss": 0.8364472985267639, "train_loss_dp": 0.8356655836105347, "train_loss_llm": 0.07817113399505615, "global_step": 1050, "epoch": 0, "lr": 1.32e-05}
+{"train_loss": 0.900888204574585, "train_loss_dp": 0.900888204574585, "train_loss_llm": 0.0, "global_step": 1051, "epoch": 0, "lr": 1.32e-05}
+{"train_loss": 0.8288449645042419, "train_loss_dp": 0.8279721736907959, "train_loss_llm": 0.08727788925170898, "global_step": 1052, "epoch": 0, "lr": 1.32e-05}
+{"train_loss": 0.8140400052070618, "train_loss_dp": 0.8140400052070618, "train_loss_llm": 0.0, "global_step": 1053, "epoch": 0, "lr": 1.32e-05}
+{"train_loss": 0.9563060998916626, "train_loss_dp": 0.955949068069458, "train_loss_llm": 0.03570556640625, "global_step": 1054, "epoch": 0, "lr": 1.32e-05}
+{"train_loss": 0.7996642589569092, "train_loss_dp": 0.7990405559539795, "train_loss_llm": 0.062372803688049316, "global_step": 1055, "epoch": 0, "lr": 1.32e-05}
+{"train_loss": 1.0613685846328735, "train_loss_dp": 1.0608038902282715, "train_loss_llm": 0.05646824836730957, "global_step": 1056, "epoch": 0, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.8172605633735657, "train_loss_dp": 0.8164252638816833, "train_loss_llm": 0.08352899551391602, "global_step": 1057, "epoch": 0, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.9846522808074951, "train_loss_dp": 0.9840420484542847, "train_loss_llm": 0.061023712158203125, "global_step": 1058, "epoch": 0, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.9580461382865906, "train_loss_dp": 0.9580461382865906, "train_loss_llm": 0.0, "global_step": 1059, "epoch": 0, "lr": 1.3400000000000002e-05}
+{"train_loss": 1.0371590852737427, "train_loss_dp": 1.0361337661743164, "train_loss_llm": 0.10252618789672852, "global_step": 1060, "epoch": 0, "lr": 1.3400000000000002e-05}
+{"train_loss": 1.0360733270645142, "train_loss_dp": 1.0360733270645142, "train_loss_llm": 0.0, "global_step": 1061, "epoch": 0, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.7157434821128845, "train_loss_dp": 0.7150765061378479, "train_loss_llm": 0.06669759750366211, "global_step": 1062, "epoch": 0, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.8709225058555603, "train_loss_dp": 0.8697072863578796, "train_loss_llm": 0.12152481079101562, "global_step": 1063, "epoch": 0, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.7541871666908264, "train_loss_dp": 0.7536073923110962, "train_loss_llm": 0.057976722717285156, "global_step": 1064, "epoch": 0, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.7889362573623657, "train_loss_dp": 0.7889362573623657, "train_loss_llm": 0.0, "global_step": 1065, "epoch": 0, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.9248180985450745, "train_loss_dp": 0.9219966530799866, "train_loss_llm": 0.28214550018310547, "global_step": 1066, "epoch": 0, "lr": 1.3400000000000002e-05}
+{"train_loss": 1.038942575454712, "train_loss_dp": 1.038873314857483, "train_loss_llm": 0.006926298141479492, "global_step": 1067, "epoch": 0, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.9080277681350708, "train_loss_dp": 0.9078342914581299, "train_loss_llm": 0.019347429275512695, "global_step": 1068, "epoch": 0, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.8581364154815674, "train_loss_dp": 0.8581364154815674, "train_loss_llm": 0.0, "global_step": 1069, "epoch": 0, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.9004277586936951, "train_loss_dp": 0.8993774056434631, "train_loss_llm": 0.10503625869750977, "global_step": 1070, "epoch": 0, "lr": 1.3400000000000002e-05}
+{"train_loss": 1.0713528394699097, "train_loss_dp": 1.0709569454193115, "train_loss_llm": 0.03958559036254883, "global_step": 1071, "epoch": 0, "lr": 1.3400000000000002e-05}
+{"train_loss": 0.9031459093093872, "train_loss_dp": 0.9022301435470581, "train_loss_llm": 0.09157729148864746, "global_step": 1072, "epoch": 0, "lr": 1.3600000000000002e-05}
+{"train_loss": 1.0954033136367798, "train_loss_dp": 1.0954033136367798, "train_loss_llm": 0.0, "global_step": 1073, "epoch": 0, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.939430832862854, "train_loss_dp": 0.939430832862854, "train_loss_llm": 0.0, "global_step": 1074, "epoch": 0, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.727522611618042, "train_loss_dp": 0.7274540066719055, "train_loss_llm": 0.006860613822937012, "global_step": 1075, "epoch": 0, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.9036484956741333, "train_loss_dp": 0.899095892906189, "train_loss_llm": 0.45526123046875, "global_step": 1076, "epoch": 0, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.9953715801239014, "train_loss_dp": 0.9941378831863403, "train_loss_llm": 0.12337040901184082, "global_step": 1077, "epoch": 0, "lr": 1.3600000000000002e-05}
+{"train_loss": 1.014286994934082, "train_loss_dp": 1.014286994934082, "train_loss_llm": 0.0, "global_step": 1078, "epoch": 0, "lr": 1.3600000000000002e-05}
+{"train_loss": 1.0028374195098877, "train_loss_dp": 1.0025560855865479, "train_loss_llm": 0.02813541889190674, "global_step": 1079, "epoch": 0, "lr": 1.3600000000000002e-05}
+{"train_loss": 1.197465419769287, "train_loss_dp": 1.197465419769287, "train_loss_llm": 0.0, "global_step": 1080, "epoch": 0, "lr": 1.3600000000000002e-05}
+{"train_loss": 1.1689025163650513, "train_loss_dp": 1.1669564247131348, "train_loss_llm": 0.19460797309875488, "global_step": 1081, "epoch": 0, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.9199886322021484, "train_loss_dp": 0.9196082949638367, "train_loss_llm": 0.03803277015686035, "global_step": 1082, "epoch": 0, "lr": 1.3600000000000002e-05}
+{"train_loss": 1.0375878810882568, "train_loss_dp": 1.0304436683654785, "train_loss_llm": 0.71441650390625, "global_step": 1083, "epoch": 0, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.9459133148193359, "train_loss_dp": 0.9456891417503357, "train_loss_llm": 0.022416114807128906, "global_step": 1084, "epoch": 0, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.935099720954895, "train_loss_dp": 0.935099720954895, "train_loss_llm": 0.0, "global_step": 1085, "epoch": 0, "lr": 1.3600000000000002e-05}
+{"train_loss": 1.0949369668960571, "train_loss_dp": 1.093363881111145, "train_loss_llm": 0.15731287002563477, "global_step": 1086, "epoch": 0, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.7825548648834229, "train_loss_dp": 0.781715989112854, "train_loss_llm": 0.08388638496398926, "global_step": 1087, "epoch": 0, "lr": 1.3600000000000002e-05}
+{"train_loss": 0.7837254405021667, "train_loss_dp": 0.7833721041679382, "train_loss_llm": 0.03533291816711426, "global_step": 1088, "epoch": 0, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.879946768283844, "train_loss_dp": 0.8771827816963196, "train_loss_llm": 0.2763996124267578, "global_step": 1089, "epoch": 0, "lr": 1.3800000000000002e-05}
+{"train_loss": 1.1518644094467163, "train_loss_dp": 1.1505112648010254, "train_loss_llm": 0.13531947135925293, "global_step": 1090, "epoch": 0, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.8241235613822937, "train_loss_dp": 0.8236551284790039, "train_loss_llm": 0.0468449592590332, "global_step": 1091, "epoch": 0, "lr": 1.3800000000000002e-05}
+{"train_loss": 1.0073268413543701, "train_loss_dp": 1.0062190294265747, "train_loss_llm": 0.11078119277954102, "global_step": 1092, "epoch": 0, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.7915725111961365, "train_loss_dp": 0.7903180122375488, "train_loss_llm": 0.12545204162597656, "global_step": 1093, "epoch": 0, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.8084807991981506, "train_loss_dp": 0.8062231540679932, "train_loss_llm": 0.22576475143432617, "global_step": 1094, "epoch": 0, "lr": 1.3800000000000002e-05}
+{"train_loss": 1.2523722648620605, "train_loss_dp": 1.2523722648620605, "train_loss_llm": 0.0, "global_step": 1095, "epoch": 0, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.9651121497154236, "train_loss_dp": 0.9621105194091797, "train_loss_llm": 0.30016207695007324, "global_step": 1096, "epoch": 0, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.8872689008712769, "train_loss_dp": 0.8835994005203247, "train_loss_llm": 0.3669471740722656, "global_step": 1097, "epoch": 0, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.8804205656051636, "train_loss_dp": 0.8787906169891357, "train_loss_llm": 0.1629934310913086, "global_step": 1098, "epoch": 0, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.8982828855514526, "train_loss_dp": 0.8930559158325195, "train_loss_llm": 0.5226963758468628, "global_step": 1099, "epoch": 0, "lr": 1.3800000000000002e-05}
+{"train_loss": 1.0234489440917969, "train_loss_dp": 1.022915005683899, "train_loss_llm": 0.05339387059211731, "global_step": 1100, "epoch": 0, "lr": 1.3800000000000002e-05}
+{"train_loss": 1.0211410522460938, "train_loss_dp": 1.0210344791412354, "train_loss_llm": 0.010653018951416016, "global_step": 1101, "epoch": 0, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.9095399975776672, "train_loss_dp": 0.9067360162734985, "train_loss_llm": 0.28039979934692383, "global_step": 1102, "epoch": 0, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.7672997713088989, "train_loss_dp": 0.7654998302459717, "train_loss_llm": 0.17999267578125, "global_step": 1103, "epoch": 0, "lr": 1.3800000000000002e-05}
+{"train_loss": 0.845919132232666, "train_loss_dp": 0.845262885093689, "train_loss_llm": 0.06562328338623047, "global_step": 1104, "epoch": 0, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.7579833269119263, "train_loss_dp": 0.7574745416641235, "train_loss_llm": 0.05087709426879883, "global_step": 1105, "epoch": 0, "lr": 1.4000000000000001e-05}
+{"train_loss": 1.1272825002670288, "train_loss_dp": 1.1258392333984375, "train_loss_llm": 0.14432716369628906, "global_step": 1106, "epoch": 0, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.7957541942596436, "train_loss_dp": 0.7947330474853516, "train_loss_llm": 0.10211646556854248, "global_step": 1107, "epoch": 0, "lr": 1.4000000000000001e-05}
+{"train_loss": 1.1693170070648193, "train_loss_dp": 1.1672966480255127, "train_loss_llm": 0.20203018188476562, "global_step": 1108, "epoch": 0, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.8612072467803955, "train_loss_dp": 0.8573048114776611, "train_loss_llm": 0.3902425765991211, "global_step": 1109, "epoch": 0, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.8296144604682922, "train_loss_dp": 0.8285804986953735, "train_loss_llm": 0.1033935546875, "global_step": 1110, "epoch": 0, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.8023442625999451, "train_loss_dp": 0.8005372285842896, "train_loss_llm": 0.18070554733276367, "global_step": 1111, "epoch": 0, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.8050166964530945, "train_loss_dp": 0.8050166964530945, "train_loss_llm": 0.0, "global_step": 1112, "epoch": 0, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.9710121154785156, "train_loss_dp": 0.9698578119277954, "train_loss_llm": 0.11542892456054688, "global_step": 1113, "epoch": 0, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.9437618851661682, "train_loss_dp": 0.9437618851661682, "train_loss_llm": 0.0, "global_step": 1114, "epoch": 0, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.834576427936554, "train_loss_dp": 0.8329519033432007, "train_loss_llm": 0.1624544858932495, "global_step": 1115, "epoch": 0, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.9953742027282715, "train_loss_dp": 0.9917957782745361, "train_loss_llm": 0.35784149169921875, "global_step": 1116, "epoch": 0, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.9854962229728699, "train_loss_dp": 0.9848884344100952, "train_loss_llm": 0.06077885627746582, "global_step": 1117, "epoch": 0, "lr": 1.4000000000000001e-05}
+{"train_loss": 1.0633704662322998, "train_loss_dp": 1.062700867652893, "train_loss_llm": 0.06695938110351562, "global_step": 1118, "epoch": 0, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.9493067860603333, "train_loss_dp": 0.9451293349266052, "train_loss_llm": 0.4177422523498535, "global_step": 1119, "epoch": 0, "lr": 1.4000000000000001e-05}
+{"train_loss": 0.9883701801300049, "train_loss_dp": 0.9883701801300049, "train_loss_llm": 0.0, "global_step": 1120, "epoch": 0, "lr": 1.42e-05}
+{"train_loss": 0.971845269203186, "train_loss_dp": 0.9707205295562744, "train_loss_llm": 0.1124734878540039, "global_step": 1121, "epoch": 0, "lr": 1.42e-05}
+{"train_loss": 0.8636546730995178, "train_loss_dp": 0.8617555499076843, "train_loss_llm": 0.189910888671875, "global_step": 1122, "epoch": 0, "lr": 1.42e-05}
+{"train_loss": 0.9559256434440613, "train_loss_dp": 0.9554194211959839, "train_loss_llm": 0.05062103271484375, "global_step": 1123, "epoch": 0, "lr": 1.42e-05}
+{"train_loss": 0.7727879881858826, "train_loss_dp": 0.7714163064956665, "train_loss_llm": 0.13716888427734375, "global_step": 1124, "epoch": 0, "lr": 1.42e-05}
+{"train_loss": 1.0486594438552856, "train_loss_dp": 1.0449068546295166, "train_loss_llm": 0.3752593994140625, "global_step": 1125, "epoch": 0, "lr": 1.42e-05}
+{"train_loss": 1.1651173830032349, "train_loss_dp": 1.1634279489517212, "train_loss_llm": 0.1689434051513672, "global_step": 1126, "epoch": 0, "lr": 1.42e-05}
+{"train_loss": 0.872218132019043, "train_loss_dp": 0.8687609434127808, "train_loss_llm": 0.3457174301147461, "global_step": 1127, "epoch": 0, "lr": 1.42e-05}
+{"train_loss": 0.7867583632469177, "train_loss_dp": 0.7862773537635803, "train_loss_llm": 0.04810208082199097, "global_step": 1128, "epoch": 0, "lr": 1.42e-05}
+{"train_loss": 0.7023712992668152, "train_loss_dp": 0.7023712992668152, "train_loss_llm": 0.0, "global_step": 1129, "epoch": 0, "lr": 1.42e-05}
+{"train_loss": 0.9698764681816101, "train_loss_dp": 0.9679415225982666, "train_loss_llm": 0.1934967041015625, "global_step": 1130, "epoch": 0, "lr": 1.42e-05}
+{"train_loss": 1.3369263410568237, "train_loss_dp": 1.3337430953979492, "train_loss_llm": 0.3183269500732422, "global_step": 1131, "epoch": 0, "lr": 1.42e-05}
+{"train_loss": 0.9263586401939392, "train_loss_dp": 0.9251303672790527, "train_loss_llm": 0.12283015251159668, "global_step": 1132, "epoch": 0, "lr": 1.42e-05}
+{"train_loss": 0.8978726267814636, "train_loss_dp": 0.8957900404930115, "train_loss_llm": 0.20826101303100586, "global_step": 1133, "epoch": 0, "lr": 1.42e-05}
+{"train_loss": 0.7392532229423523, "train_loss_dp": 0.7360252141952515, "train_loss_llm": 0.3228034973144531, "global_step": 1134, "epoch": 0, "lr": 1.42e-05}
+{"train_loss": 0.9204148054122925, "train_loss_dp": 0.9190996885299683, "train_loss_llm": 0.13151073455810547, "global_step": 1135, "epoch": 0, "lr": 1.42e-05}
+{"train_loss": 0.7485136985778809, "train_loss_dp": 0.748410701751709, "train_loss_llm": 0.010298728942871094, "global_step": 1136, "epoch": 0, "lr": 1.44e-05}
+{"train_loss": 1.0150772333145142, "train_loss_dp": 1.009864091873169, "train_loss_llm": 0.5213193893432617, "global_step": 1137, "epoch": 0, "lr": 1.44e-05}
diff --git a/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/train.log b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..6ea0faa91da06d604e0593476f44bdd9b2e27428
--- /dev/null
+++ b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/train.log
@@ -0,0 +1,9 @@
+[2025-12-17 02:11:08,360][numexpr.utils][INFO] - Note: detected 128 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+[2025-12-17 02:11:08,360][numexpr.utils][INFO] - Note: NumExpr detected 128 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
+[2025-12-17 02:11:08,360][numexpr.utils][INFO] - NumExpr defaulting to 16 threads.
+[2025-12-17 02:11:10,305][datasets][INFO] - PyTorch version 2.2.2 available.
+[2025-12-17 02:11:10,306][datasets][INFO] - TensorFlow version 2.15.1 available.
+[2025-12-17 02:11:10,307][datasets][INFO] - JAX version 0.4.30 available.
+[2025-12-17 02:11:11,782][llmbc.model.diffusion.conditional_unet1d][INFO] - number of parameters: 6.550938e+07
+[2025-12-17 02:11:17,816][absl][INFO] - MUJOCO_GL=osmesa, attempting to import specified OpenGL backend.
+[2025-12-17 02:11:17,821][absl][INFO] - MuJoCo library version is: 2.3.7
diff --git a/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/debug-internal.log b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..e28dcc2557548334061bee84eaa4606e9336bfda
--- /dev/null
+++ b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2025-12-17T02:11:18.620405938Z","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2025-12-17T02:11:18.62041675Z","level":"INFO","msg":"created symlink","path":"/root/workspace/LLM-BC/data/outputs/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/logs/debug-core.log"}
+{"time":"2025-12-17T02:11:18.730784724Z","level":"INFO","msg":"created new stream","id":"juft93rb"}
+{"time":"2025-12-17T02:11:18.730817952Z","level":"INFO","msg":"stream: started","id":"juft93rb"}
+{"time":"2025-12-17T02:11:18.73084374Z","level":"INFO","msg":"sender: started","stream_id":"juft93rb"}
+{"time":"2025-12-17T02:11:18.730829993Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"juft93rb"}}
+{"time":"2025-12-17T02:11:18.730837302Z","level":"INFO","msg":"handler: started","stream_id":{"value":"juft93rb"}}
+{"time":"2025-12-17T02:11:19.406011902Z","level":"INFO","msg":"Starting system monitor"}
diff --git a/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/debug.log b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..796b0d179c8c23b615b5e18ba33de694fe5f69e4
--- /dev/null
+++ b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/debug.log
@@ -0,0 +1,26 @@
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_setup.py:_flush():79] Configure stats pid to 23932
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_setup.py:_flush():79] Loading settings from /root/workspace/LLM-BC/wandb/settings
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/root/workspace/LLM-BC/train.py', 'program': '/root/workspace/LLM-BC/./train.py'}
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_setup.py:_flush():79] Applying login settings: {}
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_init.py:_log_setup():533] Logging user logs to /root/workspace/LLM-BC/data/outputs/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/logs/debug.log
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_init.py:_log_setup():534] Logging internal logs to /root/workspace/LLM-BC/data/outputs/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/logs/debug-internal.log
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_init.py:init():619] calling init triggers
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llm_diffusion_unet_lowdim', '_target_': 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace', 'obs_dim': 43, 'action_dim': 8, 'task_name': 'PegInsertionSide-v1', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'keypoint_visible_rate': 1.0, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy', 'model': {'_target_': 'llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D', 'input_dim': 8, 'local_cond_dim': None, 'global_cond_dim': 43, 'diffusion_step_embed_dim': 256, 'down_dims': [256, 512, 1024], 'kernel_size': 5, 'n_groups': 8, 'cond_predict_scale': True}, 'noise_scheduler': {'_target_': 'diffusers.schedulers.scheduling_ddpm.DDPMScheduler', 'num_train_timesteps': 100, 'beta_start': 0.0001, 'beta_end': 0.02, 'beta_schedule': 'squaredcos_cap_v2', 'variance_type': 'fixed_small', 'clip_sample': True, 'prediction_type': 'epsilon'}, 'horizon': 1, 'obs_dim': 43, 'action_dim': 8, 'n_action_steps': 1, 'n_obs_steps': 1, 'num_inference_steps': 100, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'oa_step_convention': True, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'PegInsertionSide-v1', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.10.20/18.44.04_train_llm_lowdim_PegInsertionSide-v1/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-PegInsertionSide-v1/checkpoint-19070', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.17/02.11.06_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 43, 'action_dim': 8, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_dp_weight': 1.0, 'loss_llm_weight': 0.01, 'normalize_llm_loss': True, 'reweight_llm_loss': True}, 'ema': {'_target_': 'llmbc.model.diffusion.ema_model.EMAModel', 'update_after_step': 0, 'inv_gamma': 1.0, 'power': 0.75, 'min_value': 0.0, 'max_value': 0.9999}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': False, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.0001, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 45, 'debug': False, 'resume': True, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 500, 'num_epochs': 1001, 'gradient_accumulate_every': 16, 'use_ema': True, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'PegInsertionSide-v1-training', 'resume': True, 'mode': 'online', 'name': '2025.12.17-02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1', 'tags': ['train_llm_diffusion_unet_lowdim', 'PegInsertionSide-v1', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1', 'wandb_name_base': '2025.12.17-02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1'}, 'task': {'name': 'PegInsertionSide-v1', 'obs_dim': 43, 'action_dim': 8, 'env_runner': {'_target_': 'llmbc.env_runner.maniskill_lowdim_runner.ManiskillLowdimRunner', 'env_name': 'llf-maniskill-PegInsertionSide-v1', 'instruction_type': 'b', 'feedback_type': ['hp', 'hn'], 'visual': False, 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 100, 'n_obs_steps': 1, 'n_action_steps': 1, 'discount': 0.99}, 'dataset': {'_target_': 'llmbc.dataset.maniskill_lowdim_dataset.ManiskillLowdimDataset', 'data_path': 'datasets/PegInsertionSide-v1.pt', 'data_path2': 'datasets/PegInsertionSide-v1.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'use_manual_normalizer': False, 'val_ratio': 0.02, 'dummy_normalizer': False}, 'instructor': {'_target_': 'llmbc.translator.instructor.maniskill_instructor.PegInsertionSide_v1_instructor.PegInsertionSideV1Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.10.20/18.44.04_train_llm_lowdim_PegInsertionSide-v1/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-PegInsertionSide-v1/checkpoint-19070', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.17/02.11.06_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_init.py:init():669] starting backend
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_init.py:init():673] sending inform_init request
+2025-12-17 02:11:18,619 INFO    MainThread:23932 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-12-17 02:11:18,619 INFO    MainThread:23932 [wandb_init.py:init():686] backend started and connected
+2025-12-17 02:11:18,626 INFO    MainThread:23932 [wandb_init.py:init():781] updated telemetry
+2025-12-17 02:11:18,657 INFO    MainThread:23932 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2025-12-17 02:11:19,403 INFO    MainThread:23932 [wandb_init.py:init():867] starting run threads in backend
+2025-12-17 02:11:19,745 INFO    MainThread:23932 [wandb_run.py:_console_start():2451] atexit reg
+2025-12-17 02:11:19,745 INFO    MainThread:23932 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2025-12-17 02:11:19,745 INFO    MainThread:23932 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2025-12-17 02:11:19,746 INFO    MainThread:23932 [wandb_run.py:_redirect():2389] Redirects installed.
+2025-12-17 02:11:19,747 INFO    MainThread:23932 [wandb_init.py:init():911] run started, returning control to user process
+2025-12-17 02:11:19,747 INFO    MainThread:23932 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/root/workspace/LLM-BC/data/outputs/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1'}
diff --git a/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/files/output.log b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..12683bd7ddfa2c33bb84dc3b334c6a90e9be8e05
--- /dev/null
+++ b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/files/output.log
@@ -0,0 +1 @@
+                                                                                                                    
diff --git a/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/files/requirements.txt b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..3a3c7fc9f31219a28bef91e6be4a18707983fd85
--- /dev/null
+++ b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/files/requirements.txt
@@ -0,0 +1,861 @@
+aiohappyeyeballs==2.6.1
+antlr4-python3-runtime==4.9.3
+asciitree==0.3.3
+async-timeout==5.0.1
+attrs==25.4.0
+certifi==2025.10.5
+charset-normalizer==3.4.4
+colorama==0.4.6
+dill==0.3.8
+docstring-parser==0.16
+eval_type_backport==0.2.2
+fasteners==0.20
+filelock==3.17.0
+frozenlist==1.8.0
+fsspec==2024.3.1
+gmpy2==2.2.1
+hf-xet==1.1.8
+idna==3.11
+llvmlite==0.39.1
+MarkupSafe==3.0.2
+mdurl==0.1.2
+mkl-service==2.4.0
+mpmath==1.3.0
+msgpack==1.1.1
+networkx==3.2.1
+packaging==25.0
+propcache==0.3.1
+psutil==7.0.0
+pycparser==2.23
+Pygments==2.19.1
+PyOpenGL==3.1.10
+PySocks==1.7.1
+tzdata==2025.2
+xxhash==3.5.0
+pytz==2025.2
+PyYAML==6.0.2
+regex==2025.9.1
+safetensors==0.5.3
+setuptools==80.9.0
+shtab==1.7.2
+six==1.17.0
+tqdm==4.67.1
+tensorflow==2.15.1
+gym==0.23.1
+uvloop==0.22.1
+wheel==0.45.1
+zipp==3.21.0
+requests-oauthlib==2.0.0
+Markdown==3.9
+google-auth-oauthlib==1.2.3
+tensorboard==2.15.2
+Jinja2==3.1.6
+markdown-it-py==2.2.0
+multiprocess==0.70.15
+numpy==1.23.5
+pip==23.3.2
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+brotlicffi==1.0.9.2
+hydra-core==1.2.0
+multidict==6.7.0
+pillow==11.3.0
+pycares==4.10.0
+rich==14.2.0
+sympy==1.14.0
+typeguard==4.4.4
+aiodns==3.5.0
+urllib3==2.5.0
+yarl==1.18.0
+aiohttp==3.12.15
+pyarrow==21.0.0
+astunparse==1.6.3
+pyarrow-hotfix==0.7
+tokenizers==0.21.0
+av==10.0.0
+einops==0.4.1
+Bottleneck==1.4.2
+mkl_fft==1.3.11
+mkl_random==1.2.8
+numba==0.56.4
+numcodecs==0.12.1
+numexpr==2.10.1
+pandas==2.3.3
+zarr==2.12.0
+datasets==2.19.0
+transformers==4.47.1
+accelerate==1.0.1
+peft==0.14.0
+trl==0.11.4
+torch==2.2.2
+tabulate==0.9.0
+sentencepiece==0.2.0
+pyperclip==1.11.0
+PyOpenGL-accelerate==3.1.10
+pydub==0.25.1
+py-cpuinfo==9.0.0
+pure_eval==0.2.3
+ptyprocess==0.7.0
+nvidia-ml-py==13.590.44
+hjson==3.1.0
+gym-notices==0.1.0
+glfw==2.0.0
+Farama-Notifications==0.0.4
+websockets==15.0.1
+wcwidth==0.2.14
+uc-micro-py==1.0.3
+typing-inspection==0.4.2
+triton==2.2.0
+trimesh==4.10.1
+transforms3d==0.4.2
+traitlets==5.14.3
+threadpoolctl==3.6.0
+tenacity==9.1.2
+sniffio==1.3.1
+smmap==5.0.2
+setproctitle==1.3.7
+sentry-sdk==2.47.0
+semantic-version==2.10.0
+scipy==1.13.1
+rpds-py==0.27.1
+python-multipart==0.0.20
+pyparsing==3.2.5
+pynvml==13.0.1
+pydantic_core==2.41.5
+pycryptodomex==3.23.0
+pyasn1==0.6.1
+google-pasta==0.2.0
+platformdirs==4.4.0
+pexpect==4.9.0
+parso==0.8.5
+orjson==3.11.5
+opencv-python==4.11.0.86
+stack-data==0.6.3
+omegaconf==2.2.1
+nvidia-nvtx-cu12==12.1.105
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-nccl-cu12==2.19.3
+nvidia-curand-cu12==10.3.2.106
+nvidia-cufft-cu12==11.0.2.54
+nvidia-cuda-runtime-cu12==12.1.105
+nvidia-cuda-nvrtc-cu12==12.1.105
+nvidia-cuda-cupti-cu12==12.1.105
+nvidia-cublas-cu12==12.1.3.1
+ninja==1.13.0
+narwhals==2.13.0
+lxml==6.0.2
+kiwisolver==1.4.7
+joblib==1.5.3
+jiter==0.12.0
+imageio-ffmpeg==0.6.0
+ImageIO==2.37.2
+h5py==3.14.0
+h11==0.16.0
+fonttools==4.60.2
+ffmpy==1.0.0
+fast_kinematics==0.2.2
+executing==2.2.1
+exceptiongroup==1.3.1
+docker-pycreds==0.4.0
+distro==1.9.0
+decorator==5.2.1
+dacite==1.9.2
+cycler==0.12.1
+contourpy==1.3.0
+cloudpickle==3.1.2
+click==8.1.8
+cachetools==6.2.4
+asttokens==3.0.1
+annotated-types==0.7.0
+annotated-doc==0.0.4
+aiofiles==25.1.0
+absl-py==2.3.1
+uvicorn==0.38.0
+tiktoken==0.8.0
+scikit-learn==1.6.1
+sapien==3.0.0b1
+rsa==4.9.1
+referencing==0.36.2
+pydantic==2.12.5
+pyasn1_modules==0.4.2
+prompt_toolkit==3.0.52
+nvidia-cusparse-cu12==12.1.0.106
+nvidia-cudnn-cu12==8.9.2.26
+nltk==3.9.2
+mujoco==2.3.7
+mdit-py-plugins==0.3.3
+matplotlib-inline==0.2.1
+matplotlib==3.7.5
+linkify-it-py==2.0.3
+jedi==0.19.2
+huggingface-hub==0.26.2
+httpcore==1.0.9
+gymnasium==0.29.1
+grpcio==1.76.0
+gitdb==4.0.12
+blobfile==3.0.0
+anyio==4.12.0
+tyro==0.9.1
+toppra==0.6.3
+starlette==0.49.3
+seaborn==0.13.2
+rouge_score==0.1.2
+pynndescent==0.5.13
+nvidia-cusolver-cu12==11.4.5.107
+jsonschema-specifications==2025.9.1
+ipython==8.18.1
+httpx==0.28.1
+google-auth==2.41.1
+GitPython==3.1.45
+diffusers==0.31.0
+wandb==0.18.6
+umap-learn==0.5.9.post2
+openai==2.8.1
+mplib==0.1.1
+jsonschema==4.25.1
+gradio_client==0.2.9
+google-genai==1.47.0
+fastapi==0.124.4
+torchvision==0.17.2
+torchaudio==2.2.2
+sentence-transformers==3.2.1
+pytorch-seed==0.2.0
+deepspeed==0.16.1
+bitsandbytes==0.45.0
+altair==6.0.0
+timm==1.0.22
+gradio==3.36.1
+evaluate==0.4.3
+arm_pytorch_utilities==0.4.3
+tensorflow-io-gcs-filesystem==0.37.1
+tensorflow-estimator==2.15.0
+tensorboard-data-server==0.7.2
+tf-agents==0.19.0
+protobuf==4.25.8
+parse==1.19.1
+dm-tree==0.1.8
+termcolor==3.1.0
+oauthlib==3.3.1
+requests==2.32.0
+opt_einsum==3.4.0
+labmaze==1.0.6
+importlib-resources==5.13.0
+wrapt==1.14.2
+importlib-metadata==5.2.0
+FLAML==2.3.6
+dm-env==1.6
+diskcache==5.6.3
+Cython==0.29.37
+mujoco-py==2.1.2.14
+jaxlib==0.4.30
+dm-control==1.0.14
+cmudict==1.0.13
+syllables==1.0.9
+metaworld==2.0.0
+jax==0.4.30
+highway-env==1.9.1
+gym_bandits==0.0.2
+d4rl==1.1
+pyautogen==0.1.0
+pybullet==3.2.6
+Werkzeug==3.1.4
+flatbuffers==25.9.23
+pytorch-kinematics==0.7.5
+pygame==2.6.1
+gin-config==0.5.0
+mani_skill==3.0.0b20
+tifffile==2024.8.30
+Shapely==1.8.4
+PyWavelets==1.6.0
+cffi==1.17.1
+scikit-image==0.19.3
+pymunk==6.2.1
+ml-dtypes==0.3.2
+tensorflow-probability==0.23.0
+stable-baselines3==2.2.1
+keras==2.15.0
+gast==0.7.0
+libclang==18.1.1
+typing_extensions==4.15.0
+llfbench==0.1.0
+llmbc==0.0.0
+aiohappyeyeballs==2.6.1
+antlr4-python3-runtime==4.9.3
+asciitree==0.3.3
+async-timeout==5.0.1
+attrs==25.4.0
+certifi==2025.10.5
+charset-normalizer==3.4.4
+colorama==0.4.6
+dill==0.3.8
+docstring-parser==0.16
+eval_type_backport==0.2.2
+fasteners==0.20
+filelock==3.17.0
+frozenlist==1.8.0
+fsspec==2024.3.1
+gmpy2==2.2.1
+hf-xet==1.1.8
+idna==3.11
+llvmlite==0.39.1
+MarkupSafe==3.0.2
+mdurl==0.1.2
+mkl-service==2.4.0
+mpmath==1.3.0
+msgpack==1.1.1
+networkx==3.2.1
+packaging==25.0
+propcache==0.3.1
+psutil==7.0.0
+pycparser==2.23
+Pygments==2.19.1
+PyOpenGL==3.1.10
+PySocks==1.7.1
+tzdata==2025.2
+xxhash==3.5.0
+pytz==2025.2
+PyYAML==6.0.2
+regex==2025.9.1
+safetensors==0.5.3
+setuptools==80.9.0
+shtab==1.7.2
+six==1.17.0
+tqdm==4.67.1
+tensorflow==2.15.1
+gym==0.23.1
+uvloop==0.22.1
+wheel==0.45.1
+zipp==3.21.0
+requests-oauthlib==2.0.0
+Markdown==3.9
+google-auth-oauthlib==1.2.3
+tensorboard==2.15.2
+Jinja2==3.1.6
+markdown-it-py==2.2.0
+multiprocess==0.70.15
+numpy==1.23.5
+pip==23.3.2
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+brotlicffi==1.0.9.2
+hydra-core==1.2.0
+multidict==6.7.0
+pillow==11.3.0
+pycares==4.10.0
+rich==14.2.0
+sympy==1.14.0
+typeguard==4.4.4
+aiodns==3.5.0
+urllib3==2.5.0
+yarl==1.18.0
+aiohttp==3.12.15
+pyarrow==21.0.0
+astunparse==1.6.3
+pyarrow-hotfix==0.7
+tokenizers==0.21.0
+av==10.0.0
+einops==0.4.1
+Bottleneck==1.4.2
+mkl_fft==1.3.11
+mkl_random==1.2.8
+numba==0.56.4
+numcodecs==0.12.1
+numexpr==2.10.1
+pandas==2.3.3
+zarr==2.12.0
+datasets==2.19.0
+transformers==4.47.1
+accelerate==1.0.1
+peft==0.14.0
+trl==0.11.4
+torch==2.2.2
+tabulate==0.9.0
+sentencepiece==0.2.0
+pyperclip==1.11.0
+PyOpenGL-accelerate==3.1.10
+pydub==0.25.1
+py-cpuinfo==9.0.0
+pure_eval==0.2.3
+ptyprocess==0.7.0
+nvidia-ml-py==13.590.44
+hjson==3.1.0
+gym-notices==0.1.0
+glfw==2.0.0
+Farama-Notifications==0.0.4
+websockets==15.0.1
+wcwidth==0.2.14
+uc-micro-py==1.0.3
+typing-inspection==0.4.2
+triton==2.2.0
+trimesh==4.10.1
+transforms3d==0.4.2
+traitlets==5.14.3
+threadpoolctl==3.6.0
+tenacity==9.1.2
+sniffio==1.3.1
+smmap==5.0.2
+setproctitle==1.3.7
+sentry-sdk==2.47.0
+semantic-version==2.10.0
+scipy==1.13.1
+rpds-py==0.27.1
+python-multipart==0.0.20
+pyparsing==3.2.5
+pynvml==13.0.1
+pydantic_core==2.41.5
+pycryptodomex==3.23.0
+pyasn1==0.6.1
+google-pasta==0.2.0
+platformdirs==4.4.0
+pexpect==4.9.0
+parso==0.8.5
+orjson==3.11.5
+opencv-python==4.11.0.86
+stack-data==0.6.3
+omegaconf==2.2.1
+nvidia-nvtx-cu12==12.1.105
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-nccl-cu12==2.19.3
+nvidia-curand-cu12==10.3.2.106
+nvidia-cufft-cu12==11.0.2.54
+nvidia-cuda-runtime-cu12==12.1.105
+nvidia-cuda-nvrtc-cu12==12.1.105
+nvidia-cuda-cupti-cu12==12.1.105
+nvidia-cublas-cu12==12.1.3.1
+ninja==1.13.0
+narwhals==2.13.0
+lxml==6.0.2
+kiwisolver==1.4.7
+joblib==1.5.3
+jiter==0.12.0
+imageio-ffmpeg==0.6.0
+ImageIO==2.37.2
+h5py==3.14.0
+h11==0.16.0
+fonttools==4.60.2
+ffmpy==1.0.0
+fast_kinematics==0.2.2
+executing==2.2.1
+exceptiongroup==1.3.1
+docker-pycreds==0.4.0
+distro==1.9.0
+decorator==5.2.1
+dacite==1.9.2
+cycler==0.12.1
+contourpy==1.3.0
+cloudpickle==3.1.2
+click==8.1.8
+cachetools==6.2.4
+asttokens==3.0.1
+annotated-types==0.7.0
+annotated-doc==0.0.4
+aiofiles==25.1.0
+absl-py==2.3.1
+uvicorn==0.38.0
+tiktoken==0.8.0
+scikit-learn==1.6.1
+sapien==3.0.0b1
+rsa==4.9.1
+referencing==0.36.2
+pydantic==2.12.5
+pyasn1_modules==0.4.2
+prompt_toolkit==3.0.52
+nvidia-cusparse-cu12==12.1.0.106
+nvidia-cudnn-cu12==8.9.2.26
+nltk==3.9.2
+mujoco==2.3.7
+mdit-py-plugins==0.3.3
+matplotlib-inline==0.2.1
+matplotlib==3.7.5
+linkify-it-py==2.0.3
+jedi==0.19.2
+huggingface-hub==0.26.2
+httpcore==1.0.9
+gymnasium==0.29.1
+grpcio==1.76.0
+gitdb==4.0.12
+blobfile==3.0.0
+anyio==4.12.0
+tyro==0.9.1
+toppra==0.6.3
+starlette==0.49.3
+seaborn==0.13.2
+rouge_score==0.1.2
+pynndescent==0.5.13
+nvidia-cusolver-cu12==11.4.5.107
+jsonschema-specifications==2025.9.1
+ipython==8.18.1
+httpx==0.28.1
+google-auth==2.41.1
+GitPython==3.1.45
+diffusers==0.31.0
+wandb==0.18.6
+umap-learn==0.5.9.post2
+openai==2.8.1
+mplib==0.1.1
+jsonschema==4.25.1
+gradio_client==0.2.9
+google-genai==1.47.0
+fastapi==0.124.4
+torchvision==0.17.2
+torchaudio==2.2.2
+sentence-transformers==3.2.1
+pytorch-seed==0.2.0
+deepspeed==0.16.1
+bitsandbytes==0.45.0
+altair==6.0.0
+timm==1.0.22
+gradio==3.36.1
+evaluate==0.4.3
+arm_pytorch_utilities==0.4.3
+tensorflow-io-gcs-filesystem==0.37.1
+tensorflow-estimator==2.15.0
+tensorboard-data-server==0.7.2
+tf-agents==0.19.0
+protobuf==4.25.8
+parse==1.19.1
+dm-tree==0.1.8
+termcolor==3.1.0
+oauthlib==3.3.1
+requests==2.32.0
+opt_einsum==3.4.0
+labmaze==1.0.6
+importlib-resources==5.13.0
+wrapt==1.14.2
+importlib-metadata==5.2.0
+FLAML==2.3.6
+dm-env==1.6
+diskcache==5.6.3
+Cython==0.29.37
+mujoco-py==2.1.2.14
+jaxlib==0.4.30
+dm-control==1.0.14
+cmudict==1.0.13
+syllables==1.0.9
+metaworld==2.0.0
+jax==0.4.30
+highway-env==1.9.1
+gym_bandits==0.0.2
+d4rl==1.1
+pyautogen==0.1.0
+pybullet==3.2.6
+Werkzeug==3.1.4
+flatbuffers==25.9.23
+pytorch-kinematics==0.7.5
+pygame==2.6.1
+gin-config==0.5.0
+mani_skill==3.0.0b20
+tifffile==2024.8.30
+Shapely==1.8.4
+PyWavelets==1.6.0
+cffi==1.17.1
+scikit-image==0.19.3
+pymunk==6.2.1
+ml-dtypes==0.3.2
+tensorflow-probability==0.23.0
+stable-baselines3==2.2.1
+keras==2.15.0
+gast==0.7.0
+libclang==18.1.1
+typing_extensions==4.15.0
+llfbench==0.1.0
+llmbc==0.0.0
+llmbc==0.0.0
+llmbc==0.0.0
+aiohappyeyeballs==2.6.1
+antlr4-python3-runtime==4.9.3
+asciitree==0.3.3
+async-timeout==5.0.1
+attrs==25.4.0
+certifi==2025.10.5
+charset-normalizer==3.4.4
+colorama==0.4.6
+dill==0.3.8
+docstring-parser==0.16
+eval_type_backport==0.2.2
+fasteners==0.20
+filelock==3.17.0
+frozenlist==1.8.0
+fsspec==2024.3.1
+gmpy2==2.2.1
+hf-xet==1.1.8
+idna==3.11
+llvmlite==0.39.1
+MarkupSafe==3.0.2
+mdurl==0.1.2
+mkl-service==2.4.0
+mpmath==1.3.0
+msgpack==1.1.1
+networkx==3.2.1
+packaging==25.0
+propcache==0.3.1
+psutil==7.0.0
+pycparser==2.23
+Pygments==2.19.1
+PyOpenGL==3.1.10
+PySocks==1.7.1
+tzdata==2025.2
+xxhash==3.5.0
+pytz==2025.2
+PyYAML==6.0.2
+regex==2025.9.1
+safetensors==0.5.3
+setuptools==80.9.0
+shtab==1.7.2
+six==1.17.0
+tqdm==4.67.1
+tensorflow==2.15.1
+gym==0.23.1
+uvloop==0.22.1
+wheel==0.45.1
+zipp==3.21.0
+requests-oauthlib==2.0.0
+Markdown==3.9
+google-auth-oauthlib==1.2.3
+tensorboard==2.15.2
+Jinja2==3.1.6
+markdown-it-py==2.2.0
+multiprocess==0.70.15
+numpy==1.23.5
+pip==23.3.2
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+brotlicffi==1.0.9.2
+hydra-core==1.2.0
+multidict==6.7.0
+pillow==11.3.0
+pycares==4.10.0
+rich==14.2.0
+sympy==1.14.0
+typeguard==4.4.4
+aiodns==3.5.0
+urllib3==2.5.0
+yarl==1.18.0
+aiohttp==3.12.15
+pyarrow==21.0.0
+astunparse==1.6.3
+pyarrow-hotfix==0.7
+tokenizers==0.21.0
+av==10.0.0
+einops==0.4.1
+Bottleneck==1.4.2
+mkl_fft==1.3.11
+mkl_random==1.2.8
+numba==0.56.4
+numcodecs==0.12.1
+numexpr==2.10.1
+pandas==2.3.3
+zarr==2.12.0
+datasets==2.19.0
+transformers==4.47.1
+accelerate==1.0.1
+peft==0.14.0
+trl==0.11.4
+torch==2.2.2
+tabulate==0.9.0
+sentencepiece==0.2.0
+pyperclip==1.11.0
+PyOpenGL-accelerate==3.1.10
+pydub==0.25.1
+py-cpuinfo==9.0.0
+pure_eval==0.2.3
+ptyprocess==0.7.0
+nvidia-ml-py==13.590.44
+hjson==3.1.0
+gym-notices==0.1.0
+glfw==2.0.0
+Farama-Notifications==0.0.4
+websockets==15.0.1
+wcwidth==0.2.14
+uc-micro-py==1.0.3
+typing-inspection==0.4.2
+triton==2.2.0
+trimesh==4.10.1
+transforms3d==0.4.2
+traitlets==5.14.3
+threadpoolctl==3.6.0
+tenacity==9.1.2
+sniffio==1.3.1
+smmap==5.0.2
+setproctitle==1.3.7
+sentry-sdk==2.47.0
+semantic-version==2.10.0
+scipy==1.13.1
+rpds-py==0.27.1
+python-multipart==0.0.20
+pyparsing==3.2.5
+pynvml==13.0.1
+pydantic_core==2.41.5
+pycryptodomex==3.23.0
+pyasn1==0.6.1
+google-pasta==0.2.0
+platformdirs==4.4.0
+pexpect==4.9.0
+parso==0.8.5
+orjson==3.11.5
+opencv-python==4.11.0.86
+stack-data==0.6.3
+omegaconf==2.2.1
+nvidia-nvtx-cu12==12.1.105
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-nccl-cu12==2.19.3
+nvidia-curand-cu12==10.3.2.106
+nvidia-cufft-cu12==11.0.2.54
+nvidia-cuda-runtime-cu12==12.1.105
+nvidia-cuda-nvrtc-cu12==12.1.105
+nvidia-cuda-cupti-cu12==12.1.105
+nvidia-cublas-cu12==12.1.3.1
+ninja==1.13.0
+narwhals==2.13.0
+lxml==6.0.2
+kiwisolver==1.4.7
+joblib==1.5.3
+jiter==0.12.0
+imageio-ffmpeg==0.6.0
+ImageIO==2.37.2
+h5py==3.14.0
+h11==0.16.0
+fonttools==4.60.2
+ffmpy==1.0.0
+fast_kinematics==0.2.2
+executing==2.2.1
+exceptiongroup==1.3.1
+docker-pycreds==0.4.0
+distro==1.9.0
+decorator==5.2.1
+dacite==1.9.2
+cycler==0.12.1
+contourpy==1.3.0
+cloudpickle==3.1.2
+click==8.1.8
+cachetools==6.2.4
+asttokens==3.0.1
+annotated-types==0.7.0
+annotated-doc==0.0.4
+aiofiles==25.1.0
+absl-py==2.3.1
+uvicorn==0.38.0
+tiktoken==0.8.0
+scikit-learn==1.6.1
+sapien==3.0.0b1
+rsa==4.9.1
+referencing==0.36.2
+pydantic==2.12.5
+pyasn1_modules==0.4.2
+prompt_toolkit==3.0.52
+nvidia-cusparse-cu12==12.1.0.106
+nvidia-cudnn-cu12==8.9.2.26
+nltk==3.9.2
+mujoco==2.3.7
+mdit-py-plugins==0.3.3
+matplotlib-inline==0.2.1
+matplotlib==3.7.5
+linkify-it-py==2.0.3
+jedi==0.19.2
+huggingface-hub==0.26.2
+httpcore==1.0.9
+gymnasium==0.29.1
+grpcio==1.76.0
+gitdb==4.0.12
+blobfile==3.0.0
+anyio==4.12.0
+tyro==0.9.1
+toppra==0.6.3
+starlette==0.49.3
+seaborn==0.13.2
+rouge_score==0.1.2
+pynndescent==0.5.13
+nvidia-cusolver-cu12==11.4.5.107
+jsonschema-specifications==2025.9.1
+ipython==8.18.1
+httpx==0.28.1
+google-auth==2.41.1
+GitPython==3.1.45
+diffusers==0.31.0
+wandb==0.18.6
+umap-learn==0.5.9.post2
+openai==2.8.1
+mplib==0.1.1
+jsonschema==4.25.1
+gradio_client==0.2.9
+google-genai==1.47.0
+fastapi==0.124.4
+torchvision==0.17.2
+torchaudio==2.2.2
+sentence-transformers==3.2.1
+pytorch-seed==0.2.0
+deepspeed==0.16.1
+bitsandbytes==0.45.0
+altair==6.0.0
+timm==1.0.22
+gradio==3.36.1
+evaluate==0.4.3
+arm_pytorch_utilities==0.4.3
+tensorflow-io-gcs-filesystem==0.37.1
+tensorflow-estimator==2.15.0
+tensorboard-data-server==0.7.2
+tf-agents==0.19.0
+protobuf==4.25.8
+parse==1.19.1
+dm-tree==0.1.8
+termcolor==3.1.0
+oauthlib==3.3.1
+requests==2.32.0
+opt_einsum==3.4.0
+labmaze==1.0.6
+importlib-resources==5.13.0
+wrapt==1.14.2
+importlib-metadata==5.2.0
+FLAML==2.3.6
+dm-env==1.6
+diskcache==5.6.3
+Cython==0.29.37
+mujoco-py==2.1.2.14
+jaxlib==0.4.30
+dm-control==1.0.14
+cmudict==1.0.13
+syllables==1.0.9
+metaworld==2.0.0
+jax==0.4.30
+highway-env==1.9.1
+gym_bandits==0.0.2
+d4rl==1.1
+pyautogen==0.1.0
+pybullet==3.2.6
+Werkzeug==3.1.4
+flatbuffers==25.9.23
+pytorch-kinematics==0.7.5
+pygame==2.6.1
+gin-config==0.5.0
+mani_skill==3.0.0b20
+tifffile==2024.8.30
+Shapely==1.8.4
+PyWavelets==1.6.0
+cffi==1.17.1
+scikit-image==0.19.3
+pymunk==6.2.1
+ml-dtypes==0.3.2
+tensorflow-probability==0.23.0
+stable-baselines3==2.2.1
+keras==2.15.0
+gast==0.7.0
+libclang==18.1.1
+typing_extensions==4.15.0
+llfbench==0.1.0
+llmbc==0.0.0
+autocommand==2.2.2
+backports.tarfile==1.2.0
+importlib_metadata==8.0.0
+inflect==7.3.1
+jaraco.collections==5.1.0
+jaraco.context==5.3.0
+jaraco.functools==4.0.1
+jaraco.text==3.12.1
+more-itertools==10.3.0
+packaging==24.2
+platformdirs==4.2.2
+tomli==2.0.1
+typeguard==4.3.0
+typing_extensions==4.12.2
+wheel==0.45.1
+zipp==3.19.2
diff --git a/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/files/wandb-metadata.json b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..9a3eff14b072caa91d6a2e2d49143dd30e4b8657
--- /dev/null
+++ b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/files/wandb-metadata.json
@@ -0,0 +1,55 @@
+{
+  "os": "Linux-4.18.0-513.24.1.el8_9.x86_64-x86_64-with-glibc2.31",
+  "python": "3.9.25",
+  "startedAt": "2025-12-17T02:11:18.619741Z",
+  "args": [
+    "--config-path=./config/main_table",
+    "--config-name",
+    "llmdp_PegInsertionSide-v1.yaml",
+    "training.seed=45"
+  ],
+  "program": "/root/workspace/LLM-BC/./train.py",
+  "codePath": "train.py",
+  "git": {
+    "remote": "https://github.com/CHYang25/LLM-BC.git",
+    "commit": "6f691a82b1eb85d65cc243f066e7db18b995dd32"
+  },
+  "email": "chris920325@gmail.com",
+  "root": "/root/workspace/LLM-BC/data/outputs/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1",
+  "host": "llmbc-cuda-545d8cd8bc-9ltjf",
+  "username": "root",
+  "executable": "/root/miniconda3/envs/llm-bc/bin/python3",
+  "codePathLocal": "train.py",
+  "cpu_count": 64,
+  "cpu_count_logical": 128,
+  "gpu": "NVIDIA H100 80GB HBM3",
+  "gpu_count": 2,
+  "disk": {
+    "/": {
+      "total": "23041585184768",
+      "used": "532379566080"
+    }
+  },
+  "memory": {
+    "total": "2163619737600"
+  },
+  "cpu": {
+    "count": 64,
+    "countLogical": 128
+  },
+  "gpu_nvidia": [
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    },
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    }
+  ],
+  "cudaVersion": "12.8"
+}
\ No newline at end of file
diff --git a/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/logs/debug-core.log b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..03fd5fa41c83bed6b8c677833c24582a6f136f6c
--- /dev/null
+++ b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/logs/debug-core.log
@@ -0,0 +1,8 @@
+{"time":"2025-12-17T02:11:18.027928857Z","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmpi9n7re48/port-23932.txt","pid":23932,"debug":false,"disable-analytics":false}
+{"time":"2025-12-17T02:11:18.02795505Z","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2025-12-17T02:11:18.029207958Z","level":"INFO","msg":"Will exit if parent process dies.","ppid":23932}
+{"time":"2025-12-17T02:11:18.029208796Z","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":42875,"Zone":""}}
+{"time":"2025-12-17T02:11:18.222456783Z","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:47056"}
+{"time":"2025-12-17T02:11:18.62025719Z","level":"INFO","msg":"handleInformInit: received","streamId":"juft93rb","id":"127.0.0.1:47056"}
+{"time":"2025-12-17T02:11:18.730821425Z","level":"INFO","msg":"handleInformInit: stream started","streamId":"juft93rb","id":"127.0.0.1:47056"}
+{"time":"2025-12-17T02:19:22.861451722Z","level":"INFO","msg":"Parent process exited, terminating service process."}
diff --git a/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/logs/debug-internal.log b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..e28dcc2557548334061bee84eaa4606e9336bfda
--- /dev/null
+++ b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2025-12-17T02:11:18.620405938Z","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2025-12-17T02:11:18.62041675Z","level":"INFO","msg":"created symlink","path":"/root/workspace/LLM-BC/data/outputs/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/logs/debug-core.log"}
+{"time":"2025-12-17T02:11:18.730784724Z","level":"INFO","msg":"created new stream","id":"juft93rb"}
+{"time":"2025-12-17T02:11:18.730817952Z","level":"INFO","msg":"stream: started","id":"juft93rb"}
+{"time":"2025-12-17T02:11:18.73084374Z","level":"INFO","msg":"sender: started","stream_id":"juft93rb"}
+{"time":"2025-12-17T02:11:18.730829993Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"juft93rb"}}
+{"time":"2025-12-17T02:11:18.730837302Z","level":"INFO","msg":"handler: started","stream_id":{"value":"juft93rb"}}
+{"time":"2025-12-17T02:11:19.406011902Z","level":"INFO","msg":"Starting system monitor"}
diff --git a/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/logs/debug.log b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..796b0d179c8c23b615b5e18ba33de694fe5f69e4
--- /dev/null
+++ b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/logs/debug.log
@@ -0,0 +1,26 @@
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_setup.py:_flush():79] Configure stats pid to 23932
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_setup.py:_flush():79] Loading settings from /root/workspace/LLM-BC/wandb/settings
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/root/workspace/LLM-BC/train.py', 'program': '/root/workspace/LLM-BC/./train.py'}
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_setup.py:_flush():79] Applying login settings: {}
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_init.py:_log_setup():533] Logging user logs to /root/workspace/LLM-BC/data/outputs/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/logs/debug.log
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_init.py:_log_setup():534] Logging internal logs to /root/workspace/LLM-BC/data/outputs/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/logs/debug-internal.log
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_init.py:init():619] calling init triggers
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llm_diffusion_unet_lowdim', '_target_': 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace', 'obs_dim': 43, 'action_dim': 8, 'task_name': 'PegInsertionSide-v1', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'keypoint_visible_rate': 1.0, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy', 'model': {'_target_': 'llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D', 'input_dim': 8, 'local_cond_dim': None, 'global_cond_dim': 43, 'diffusion_step_embed_dim': 256, 'down_dims': [256, 512, 1024], 'kernel_size': 5, 'n_groups': 8, 'cond_predict_scale': True}, 'noise_scheduler': {'_target_': 'diffusers.schedulers.scheduling_ddpm.DDPMScheduler', 'num_train_timesteps': 100, 'beta_start': 0.0001, 'beta_end': 0.02, 'beta_schedule': 'squaredcos_cap_v2', 'variance_type': 'fixed_small', 'clip_sample': True, 'prediction_type': 'epsilon'}, 'horizon': 1, 'obs_dim': 43, 'action_dim': 8, 'n_action_steps': 1, 'n_obs_steps': 1, 'num_inference_steps': 100, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'oa_step_convention': True, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'PegInsertionSide-v1', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.10.20/18.44.04_train_llm_lowdim_PegInsertionSide-v1/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-PegInsertionSide-v1/checkpoint-19070', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.17/02.11.06_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 43, 'action_dim': 8, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_dp_weight': 1.0, 'loss_llm_weight': 0.01, 'normalize_llm_loss': True, 'reweight_llm_loss': True}, 'ema': {'_target_': 'llmbc.model.diffusion.ema_model.EMAModel', 'update_after_step': 0, 'inv_gamma': 1.0, 'power': 0.75, 'min_value': 0.0, 'max_value': 0.9999}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': False, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.0001, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 45, 'debug': False, 'resume': True, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 500, 'num_epochs': 1001, 'gradient_accumulate_every': 16, 'use_ema': True, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'PegInsertionSide-v1-training', 'resume': True, 'mode': 'online', 'name': '2025.12.17-02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1', 'tags': ['train_llm_diffusion_unet_lowdim', 'PegInsertionSide-v1', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1', 'wandb_name_base': '2025.12.17-02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1'}, 'task': {'name': 'PegInsertionSide-v1', 'obs_dim': 43, 'action_dim': 8, 'env_runner': {'_target_': 'llmbc.env_runner.maniskill_lowdim_runner.ManiskillLowdimRunner', 'env_name': 'llf-maniskill-PegInsertionSide-v1', 'instruction_type': 'b', 'feedback_type': ['hp', 'hn'], 'visual': False, 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 100, 'n_obs_steps': 1, 'n_action_steps': 1, 'discount': 0.99}, 'dataset': {'_target_': 'llmbc.dataset.maniskill_lowdim_dataset.ManiskillLowdimDataset', 'data_path': 'datasets/PegInsertionSide-v1.pt', 'data_path2': 'datasets/PegInsertionSide-v1.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'use_manual_normalizer': False, 'val_ratio': 0.02, 'dummy_normalizer': False}, 'instructor': {'_target_': 'llmbc.translator.instructor.maniskill_instructor.PegInsertionSide_v1_instructor.PegInsertionSideV1Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.10.20/18.44.04_train_llm_lowdim_PegInsertionSide-v1/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-PegInsertionSide-v1/checkpoint-19070', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.17/02.11.06_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_init.py:init():669] starting backend
+2025-12-17 02:11:18,618 INFO    MainThread:23932 [wandb_init.py:init():673] sending inform_init request
+2025-12-17 02:11:18,619 INFO    MainThread:23932 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-12-17 02:11:18,619 INFO    MainThread:23932 [wandb_init.py:init():686] backend started and connected
+2025-12-17 02:11:18,626 INFO    MainThread:23932 [wandb_init.py:init():781] updated telemetry
+2025-12-17 02:11:18,657 INFO    MainThread:23932 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2025-12-17 02:11:19,403 INFO    MainThread:23932 [wandb_init.py:init():867] starting run threads in backend
+2025-12-17 02:11:19,745 INFO    MainThread:23932 [wandb_run.py:_console_start():2451] atexit reg
+2025-12-17 02:11:19,745 INFO    MainThread:23932 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2025-12-17 02:11:19,745 INFO    MainThread:23932 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2025-12-17 02:11:19,746 INFO    MainThread:23932 [wandb_run.py:_redirect():2389] Redirects installed.
+2025-12-17 02:11:19,747 INFO    MainThread:23932 [wandb_init.py:init():911] run started, returning control to user process
+2025-12-17 02:11:19,747 INFO    MainThread:23932 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/root/workspace/LLM-BC/data/outputs/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1'}
diff --git a/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/run-juft93rb.wandb b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/run-juft93rb.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..937f825d761cb23b65404e69ba807f2e03a87938
--- /dev/null
+++ b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021118-juft93rb/run-juft93rb.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b288f040e608f0488669ea542db0bd4de3f3bca267a0eb487787dd2c18cac162
+size 1048576
diff --git a/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/wandb-resume.json b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/wandb-resume.json
new file mode 100644
index 0000000000000000000000000000000000000000..1bc7f4bb7d5e796830fef3f609acab7a36394422
--- /dev/null
+++ b/2025.12.17/02.11.06_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/wandb-resume.json
@@ -0,0 +1 @@
+{"run_id": "juft93rb"}
\ No newline at end of file
diff --git a/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/.hydra/config.yaml b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..48f86a5f64a106d87719c705d456aabdc419713a
--- /dev/null
+++ b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/.hydra/config.yaml
@@ -0,0 +1,191 @@
+name: train_llm_diffusion_unet_lowdim
+_target_: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+keypoint_visible_rate: 1.0
+obs_as_local_cond: false
+obs_as_global_cond: true
+pred_action_steps_only: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+  model:
+    _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+    input_dim: '${eval: ${task.action_dim} if ${obs_as_local_cond} or ${obs_as_global_cond}
+      else ${task.obs_dim} + ${task.action_dim}}'
+    local_cond_dim: '${eval: ${task.obs_dim} if ${obs_as_local_cond} else None}'
+    global_cond_dim: '${eval: ${task.obs_dim}*${n_obs_steps} if ${obs_as_global_cond}
+      else None}'
+    diffusion_step_embed_dim: 256
+    down_dims:
+    - 256
+    - 512
+    - 1024
+    kernel_size: 5
+    n_groups: 8
+    cond_predict_scale: true
+  noise_scheduler:
+    _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+    num_train_timesteps: 100
+    beta_start: 0.0001
+    beta_end: 0.02
+    beta_schedule: squaredcos_cap_v2
+    variance_type: fixed_small
+    clip_sample: true
+    prediction_type: epsilon
+  horizon: ${horizon}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  n_obs_steps: ${n_obs_steps}
+  num_inference_steps: 100
+  obs_as_local_cond: ${obs_as_local_cond}
+  obs_as_global_cond: ${obs_as_global_cond}
+  pred_action_steps_only: ${pred_action_steps_only}
+  oa_step_convention: true
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${obs_dim}
+      action_dim: ${action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  loss_dp_weight: 1.0
+  loss_llm_weight: 0.01
+  normalize_llm_loss: true
+  reweight_llm_loss: true
+ema:
+  _target_: llmbc.model.diffusion.ema_model.EMAModel
+  update_after_step: 0
+  inv_gamma: 1.0
+  power: 0.75
+  min_value: 0.0
+  max_value: 0.9999
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: false
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.0001
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 46
+  debug: false
+  resume: true
+  lr_scheduler: cosine
+  lr_warmup_steps: 500
+  num_epochs: 1001
+  gradient_accumulate_every: 16
+  use_ema: true
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: PegInsertionSide-v1
+  obs_dim: 43
+  action_dim: 8
+  env_runner:
+    _target_: llmbc.env_runner.maniskill_lowdim_runner.ManiskillLowdimRunner
+    env_name: llf-maniskill-PegInsertionSide-v1
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    visual: false
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 100
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    discount: 0.99
+  dataset:
+    _target_: llmbc.dataset.maniskill_lowdim_dataset.ManiskillLowdimDataset
+    data_path: datasets/PegInsertionSide-v1.pt
+    data_path2: datasets/PegInsertionSide-v1.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    use_manual_normalizer: false
+    val_ratio: 0.02
+    dummy_normalizer: false
+  instructor:
+    _target_: llmbc.translator.instructor.maniskill_instructor.PegInsertionSide_v1_instructor.PegInsertionSideV1Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.10.20/18.44.04_train_llm_lowdim_PegInsertionSide-v1/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-PegInsertionSide-v1/checkpoint-19070
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/.hydra/hydra.yaml b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..6d6569ce3269b47d930f87b8f0222449e31a79e8
--- /dev/null
+++ b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/.hydra/hydra.yaml
@@ -0,0 +1,155 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - training.seed=46
+  job:
+    name: train
+    chdir: null
+    override_dirname: training.seed=46
+    id: ???
+    num: ???
+    config_name: llmdp_PegInsertionSide-v1.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /root/workspace/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /root/workspace/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /root/workspace/LLM-BC/data/outputs/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/.hydra/overrides.yaml b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..44eb68d7d67dae69f9cf62f6fb6d81ddb166819c
--- /dev/null
+++ b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/.hydra/overrides.yaml
@@ -0,0 +1 @@
+- training.seed=46
diff --git a/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/logs.json.txt b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/logs.json.txt
new file mode 100644
index 0000000000000000000000000000000000000000..c9bf1be2ab9d0e7a21384cbe15a7bcd015b5b375
--- /dev/null
+++ b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/logs.json.txt
@@ -0,0 +1,886 @@
+{"train_loss": 1.2308299541473389, "train_loss_dp": 1.2295780181884766, "train_loss_llm": 0.12519311904907227, "global_step": 0, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.2637157440185547, "train_loss_dp": 1.2637157440185547, "train_loss_llm": 0.0, "global_step": 1, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.1871252059936523, "train_loss_dp": 1.1858763694763184, "train_loss_llm": 0.12488961219787598, "global_step": 2, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.0545480251312256, "train_loss_dp": 1.053624153137207, "train_loss_llm": 0.0923914909362793, "global_step": 3, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 0.989058256149292, "train_loss_dp": 0.988857626914978, "train_loss_llm": 0.020063400268554688, "global_step": 4, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.2611392736434937, "train_loss_dp": 1.2599735260009766, "train_loss_llm": 0.11657929420471191, "global_step": 5, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.1933995485305786, "train_loss_dp": 1.189424991607666, "train_loss_llm": 0.39745521545410156, "global_step": 6, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.1568044424057007, "train_loss_dp": 1.155055046081543, "train_loss_llm": 0.17493867874145508, "global_step": 7, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.0904059410095215, "train_loss_dp": 1.0884402990341187, "train_loss_llm": 0.19656705856323242, "global_step": 8, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 0.9940388798713684, "train_loss_dp": 0.9905166625976562, "train_loss_llm": 0.3522191047668457, "global_step": 9, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.179016351699829, "train_loss_dp": 1.1777167320251465, "train_loss_llm": 0.12996312975883484, "global_step": 10, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.349064826965332, "train_loss_dp": 1.3459279537200928, "train_loss_llm": 0.313690185546875, "global_step": 11, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.112607717514038, "train_loss_dp": 1.1036980152130127, "train_loss_llm": 0.8909668922424316, "global_step": 12, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.1071757078170776, "train_loss_dp": 1.1038893461227417, "train_loss_llm": 0.3286323547363281, "global_step": 13, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.1785019636154175, "train_loss_dp": 1.1785019636154175, "train_loss_llm": 0.0, "global_step": 14, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.0947396755218506, "train_loss_dp": 1.090813159942627, "train_loss_llm": 0.39264965057373047, "global_step": 15, "epoch": 0, "lr": 2.0000000000000002e-07}
+{"train_loss": 1.0217037200927734, "train_loss_dp": 1.0217037200927734, "train_loss_llm": 0.0, "global_step": 16, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 0.9849638342857361, "train_loss_dp": 0.982485294342041, "train_loss_llm": 0.24785315990447998, "global_step": 17, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.2472586631774902, "train_loss_dp": 1.2472586631774902, "train_loss_llm": 0.0, "global_step": 18, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.2882901430130005, "train_loss_dp": 1.2864398956298828, "train_loss_llm": 0.185028076171875, "global_step": 19, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.217585563659668, "train_loss_dp": 1.2146607637405396, "train_loss_llm": 0.29247570037841797, "global_step": 20, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.3441579341888428, "train_loss_dp": 1.3417751789093018, "train_loss_llm": 0.23828125, "global_step": 21, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.0719256401062012, "train_loss_dp": 1.0719256401062012, "train_loss_llm": 0.0, "global_step": 22, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.0798301696777344, "train_loss_dp": 1.0792806148529053, "train_loss_llm": 0.054957956075668335, "global_step": 23, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.3075658082962036, "train_loss_dp": 1.3059495687484741, "train_loss_llm": 0.16162335872650146, "global_step": 24, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.1405882835388184, "train_loss_dp": 1.1397273540496826, "train_loss_llm": 0.08609604835510254, "global_step": 25, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.1978752613067627, "train_loss_dp": 1.19517183303833, "train_loss_llm": 0.27034497261047363, "global_step": 26, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.3259539604187012, "train_loss_dp": 1.3258450031280518, "train_loss_llm": 0.010898947715759277, "global_step": 27, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 0.8247601389884949, "train_loss_dp": 0.8247601389884949, "train_loss_llm": 0.0, "global_step": 28, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.0386180877685547, "train_loss_dp": 1.038407325744629, "train_loss_llm": 0.021079063415527344, "global_step": 29, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.3991395235061646, "train_loss_dp": 1.3988837003707886, "train_loss_llm": 0.025579452514648438, "global_step": 30, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.1782022714614868, "train_loss_dp": 1.1782022714614868, "train_loss_llm": 0.0, "global_step": 31, "epoch": 0, "lr": 4.0000000000000003e-07}
+{"train_loss": 1.2000774145126343, "train_loss_dp": 1.1995006799697876, "train_loss_llm": 0.05767536163330078, "global_step": 32, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.3175575733184814, "train_loss_dp": 1.3158791065216064, "train_loss_llm": 0.16785001754760742, "global_step": 33, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.2900722026824951, "train_loss_dp": 1.2900722026824951, "train_loss_llm": 0.0, "global_step": 34, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.0685596466064453, "train_loss_dp": 1.0636975765228271, "train_loss_llm": 0.48621249198913574, "global_step": 35, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.2579154968261719, "train_loss_dp": 1.257251262664795, "train_loss_llm": 0.06642723083496094, "global_step": 36, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.3555641174316406, "train_loss_dp": 1.3539836406707764, "train_loss_llm": 0.15804266929626465, "global_step": 37, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.209641933441162, "train_loss_dp": 1.2081027030944824, "train_loss_llm": 0.15392541885375977, "global_step": 38, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.2477335929870605, "train_loss_dp": 1.2467689514160156, "train_loss_llm": 0.09645891189575195, "global_step": 39, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 0.9142736792564392, "train_loss_dp": 0.9137608408927917, "train_loss_llm": 0.05128359794616699, "global_step": 40, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.2923541069030762, "train_loss_dp": 1.2906222343444824, "train_loss_llm": 0.17319321632385254, "global_step": 41, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.1795300245285034, "train_loss_dp": 1.1784197092056274, "train_loss_llm": 0.11103534698486328, "global_step": 42, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.1988550424575806, "train_loss_dp": 1.1974422931671143, "train_loss_llm": 0.1412794589996338, "global_step": 43, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.0657557249069214, "train_loss_dp": 1.0590871572494507, "train_loss_llm": 0.6668624877929688, "global_step": 44, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 0.8706098198890686, "train_loss_dp": 0.8676890134811401, "train_loss_llm": 0.29207897186279297, "global_step": 45, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.2754853963851929, "train_loss_dp": 1.2744821310043335, "train_loss_llm": 0.10032296180725098, "global_step": 46, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.2101565599441528, "train_loss_dp": 1.2014212608337402, "train_loss_llm": 0.8735313415527344, "global_step": 47, "epoch": 0, "lr": 6.000000000000001e-07}
+{"train_loss": 1.312567949295044, "train_loss_dp": 1.3079283237457275, "train_loss_llm": 0.46395981311798096, "global_step": 48, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.0796788930892944, "train_loss_dp": 1.0781159400939941, "train_loss_llm": 0.15629303455352783, "global_step": 49, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 0.9871869087219238, "train_loss_dp": 0.9869775772094727, "train_loss_llm": 0.020933151245117188, "global_step": 50, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.4288002252578735, "train_loss_dp": 1.4250357151031494, "train_loss_llm": 0.3764476776123047, "global_step": 51, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.3752611875534058, "train_loss_dp": 1.3732514381408691, "train_loss_llm": 0.20097112655639648, "global_step": 52, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.0250424146652222, "train_loss_dp": 1.0188767910003662, "train_loss_llm": 0.6165649890899658, "global_step": 53, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.3330934047698975, "train_loss_dp": 1.3329960107803345, "train_loss_llm": 0.009735584259033203, "global_step": 54, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.1852627992630005, "train_loss_dp": 1.1837334632873535, "train_loss_llm": 0.1529327630996704, "global_step": 55, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.1613829135894775, "train_loss_dp": 1.1607913970947266, "train_loss_llm": 0.05914878845214844, "global_step": 56, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.2874380350112915, "train_loss_dp": 1.2835088968276978, "train_loss_llm": 0.3929187059402466, "global_step": 57, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.2059671878814697, "train_loss_dp": 1.2059671878814697, "train_loss_llm": 0.0, "global_step": 58, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.1196691989898682, "train_loss_dp": 1.1191293001174927, "train_loss_llm": 0.053992390632629395, "global_step": 59, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.2335724830627441, "train_loss_dp": 1.2293119430541992, "train_loss_llm": 0.4260520935058594, "global_step": 60, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 0.8931306004524231, "train_loss_dp": 0.8919453620910645, "train_loss_llm": 0.11852264404296875, "global_step": 61, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 0.9123592972755432, "train_loss_dp": 0.9114422798156738, "train_loss_llm": 0.09170341491699219, "global_step": 62, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.2822951078414917, "train_loss_dp": 1.2772512435913086, "train_loss_llm": 0.5043830871582031, "global_step": 63, "epoch": 0, "lr": 8.000000000000001e-07}
+{"train_loss": 1.216315507888794, "train_loss_dp": 1.210281252861023, "train_loss_llm": 0.6034278869628906, "global_step": 64, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.1977412700653076, "train_loss_dp": 1.1967447996139526, "train_loss_llm": 0.09964513778686523, "global_step": 65, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.2323379516601562, "train_loss_dp": 1.2323379516601562, "train_loss_llm": 0.0, "global_step": 66, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.1391146183013916, "train_loss_dp": 1.1391146183013916, "train_loss_llm": 0.0, "global_step": 67, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.209027886390686, "train_loss_dp": 1.207423448562622, "train_loss_llm": 0.160444974899292, "global_step": 68, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.256866455078125, "train_loss_dp": 1.2564780712127686, "train_loss_llm": 0.03883659839630127, "global_step": 69, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 0.9753091931343079, "train_loss_dp": 0.9740937948226929, "train_loss_llm": 0.12153875827789307, "global_step": 70, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.259430170059204, "train_loss_dp": 1.2528959512710571, "train_loss_llm": 0.6534194946289062, "global_step": 71, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.2016569375991821, "train_loss_dp": 1.2009243965148926, "train_loss_llm": 0.0732576847076416, "global_step": 72, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.2533724308013916, "train_loss_dp": 1.2522342205047607, "train_loss_llm": 0.1138155460357666, "global_step": 73, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 0.9707592725753784, "train_loss_dp": 0.9681116342544556, "train_loss_llm": 0.2647666931152344, "global_step": 74, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.2292897701263428, "train_loss_dp": 1.228341817855835, "train_loss_llm": 0.09479236602783203, "global_step": 75, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.1965690851211548, "train_loss_dp": 1.1933555603027344, "train_loss_llm": 0.3213536739349365, "global_step": 76, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.2021759748458862, "train_loss_dp": 1.1932010650634766, "train_loss_llm": 0.897491455078125, "global_step": 77, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.1556230783462524, "train_loss_dp": 1.1541199684143066, "train_loss_llm": 0.15030747652053833, "global_step": 78, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.0357846021652222, "train_loss_dp": 1.035016655921936, "train_loss_llm": 0.0767974853515625, "global_step": 79, "epoch": 0, "lr": 1.0000000000000002e-06}
+{"train_loss": 1.2602287530899048, "train_loss_dp": 1.2593821287155151, "train_loss_llm": 0.08465957641601562, "global_step": 80, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.387441635131836, "train_loss_dp": 1.387441635131836, "train_loss_llm": 0.0, "global_step": 81, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.1664767265319824, "train_loss_dp": 1.1664338111877441, "train_loss_llm": 0.004293203353881836, "global_step": 82, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 0.9976615309715271, "train_loss_dp": 0.9950954914093018, "train_loss_llm": 0.25660133361816406, "global_step": 83, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.337199330329895, "train_loss_dp": 1.3353549242019653, "train_loss_llm": 0.18443870544433594, "global_step": 84, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.0241343975067139, "train_loss_dp": 1.0215532779693604, "train_loss_llm": 0.25811767578125, "global_step": 85, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 0.9352939128875732, "train_loss_dp": 0.9341150522232056, "train_loss_llm": 0.11788558959960938, "global_step": 86, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 0.8027238249778748, "train_loss_dp": 0.8008438348770142, "train_loss_llm": 0.18799877166748047, "global_step": 87, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.048330545425415, "train_loss_dp": 1.0472590923309326, "train_loss_llm": 0.10714954137802124, "global_step": 88, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.0093156099319458, "train_loss_dp": 1.007683277130127, "train_loss_llm": 0.1632375717163086, "global_step": 89, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.0948724746704102, "train_loss_dp": 1.0935471057891846, "train_loss_llm": 0.13253402709960938, "global_step": 90, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.1873174905776978, "train_loss_dp": 1.186538577079773, "train_loss_llm": 0.07788741588592529, "global_step": 91, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.0092179775238037, "train_loss_dp": 1.0074188709259033, "train_loss_llm": 0.1799166202545166, "global_step": 92, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.0317047834396362, "train_loss_dp": 1.0309607982635498, "train_loss_llm": 0.07439422607421875, "global_step": 93, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.1962531805038452, "train_loss_dp": 1.1939520835876465, "train_loss_llm": 0.23010730743408203, "global_step": 94, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.173293948173523, "train_loss_dp": 1.1714869737625122, "train_loss_llm": 0.1806936264038086, "global_step": 95, "epoch": 0, "lr": 1.2000000000000002e-06}
+{"train_loss": 1.0043498277664185, "train_loss_dp": 1.0038247108459473, "train_loss_llm": 0.05251610279083252, "global_step": 96, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.173115849494934, "train_loss_dp": 1.1714807748794556, "train_loss_llm": 0.16350769996643066, "global_step": 97, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.080277919769287, "train_loss_dp": 1.0758435726165771, "train_loss_llm": 0.4434330463409424, "global_step": 98, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.2412419319152832, "train_loss_dp": 1.2396187782287598, "train_loss_llm": 0.16231226921081543, "global_step": 99, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 0.9781751036643982, "train_loss_dp": 0.9771963357925415, "train_loss_llm": 0.09787642955780029, "global_step": 100, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.284226655960083, "train_loss_dp": 1.2832751274108887, "train_loss_llm": 0.09515774250030518, "global_step": 101, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.1156386137008667, "train_loss_dp": 1.1146495342254639, "train_loss_llm": 0.09890222549438477, "global_step": 102, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.3656725883483887, "train_loss_dp": 1.3647397756576538, "train_loss_llm": 0.09327548742294312, "global_step": 103, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.057655692100525, "train_loss_dp": 1.0552709102630615, "train_loss_llm": 0.2384740114212036, "global_step": 104, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.3436541557312012, "train_loss_dp": 1.3397104740142822, "train_loss_llm": 0.3943650722503662, "global_step": 105, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.1954045295715332, "train_loss_dp": 1.1935656070709229, "train_loss_llm": 0.1838970184326172, "global_step": 106, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.1427130699157715, "train_loss_dp": 1.1380164623260498, "train_loss_llm": 0.46965694427490234, "global_step": 107, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.1762553453445435, "train_loss_dp": 1.1760034561157227, "train_loss_llm": 0.0251922607421875, "global_step": 108, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.0190823078155518, "train_loss_dp": 1.0186710357666016, "train_loss_llm": 0.041126251220703125, "global_step": 109, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.465275764465332, "train_loss_dp": 1.4638210535049438, "train_loss_llm": 0.14547300338745117, "global_step": 110, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.0016534328460693, "train_loss_dp": 1.00059974193573, "train_loss_llm": 0.10536956787109375, "global_step": 111, "epoch": 0, "lr": 1.4000000000000001e-06}
+{"train_loss": 1.3445894718170166, "train_loss_dp": 1.3445894718170166, "train_loss_llm": 0.0, "global_step": 112, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.1868500709533691, "train_loss_dp": 1.178386926651001, "train_loss_llm": 0.8463191986083984, "global_step": 113, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.3413877487182617, "train_loss_dp": 1.339573621749878, "train_loss_llm": 0.18141603469848633, "global_step": 114, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.2530826330184937, "train_loss_dp": 1.2503081560134888, "train_loss_llm": 0.277449369430542, "global_step": 115, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.0757033824920654, "train_loss_dp": 1.0721489191055298, "train_loss_llm": 0.35544586181640625, "global_step": 116, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.0018298625946045, "train_loss_dp": 1.001417636871338, "train_loss_llm": 0.04121851921081543, "global_step": 117, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.2352322340011597, "train_loss_dp": 1.2345001697540283, "train_loss_llm": 0.07320213317871094, "global_step": 118, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.0601540803909302, "train_loss_dp": 1.0585694313049316, "train_loss_llm": 0.1584608554840088, "global_step": 119, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.24636709690094, "train_loss_dp": 1.2449679374694824, "train_loss_llm": 0.1399189829826355, "global_step": 120, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.0670169591903687, "train_loss_dp": 1.064427375793457, "train_loss_llm": 0.25896358489990234, "global_step": 121, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 0.9912216067314148, "train_loss_dp": 0.9901520013809204, "train_loss_llm": 0.10695970058441162, "global_step": 122, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 0.936309814453125, "train_loss_dp": 0.9335150122642517, "train_loss_llm": 0.2794809341430664, "global_step": 123, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.260954737663269, "train_loss_dp": 1.2602792978286743, "train_loss_llm": 0.06754761934280396, "global_step": 124, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.277321219444275, "train_loss_dp": 1.275659203529358, "train_loss_llm": 0.1662033200263977, "global_step": 125, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.2766046524047852, "train_loss_dp": 1.2757564783096313, "train_loss_llm": 0.0848228931427002, "global_step": 126, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.1752445697784424, "train_loss_dp": 1.1712872982025146, "train_loss_llm": 0.39573073387145996, "global_step": 127, "epoch": 0, "lr": 1.6000000000000001e-06}
+{"train_loss": 1.0523147583007812, "train_loss_dp": 1.0523147583007812, "train_loss_llm": 0.0, "global_step": 128, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.3330912590026855, "train_loss_dp": 1.3313989639282227, "train_loss_llm": 0.16922807693481445, "global_step": 129, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.9930129051208496, "train_loss_dp": 0.9911162853240967, "train_loss_llm": 0.18966197967529297, "global_step": 130, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.1293306350708008, "train_loss_dp": 1.12737238407135, "train_loss_llm": 0.19582557678222656, "global_step": 131, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.164342999458313, "train_loss_dp": 1.155932068824768, "train_loss_llm": 0.8410882949829102, "global_step": 132, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.0529162883758545, "train_loss_dp": 1.0508787631988525, "train_loss_llm": 0.20375370979309082, "global_step": 133, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.1539642810821533, "train_loss_dp": 1.153658151626587, "train_loss_llm": 0.03061068058013916, "global_step": 134, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.1290744543075562, "train_loss_dp": 1.1272540092468262, "train_loss_llm": 0.18205022811889648, "global_step": 135, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.0320595502853394, "train_loss_dp": 1.0311384201049805, "train_loss_llm": 0.09211158752441406, "global_step": 136, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.1692194938659668, "train_loss_dp": 1.1692194938659668, "train_loss_llm": 0.0, "global_step": 137, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.1896599531173706, "train_loss_dp": 1.1870479583740234, "train_loss_llm": 0.2611970901489258, "global_step": 138, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.1939609050750732, "train_loss_dp": 1.1939609050750732, "train_loss_llm": 0.0, "global_step": 139, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.3282921314239502, "train_loss_dp": 1.3275301456451416, "train_loss_llm": 0.07620155811309814, "global_step": 140, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.0271024703979492, "train_loss_dp": 1.019439697265625, "train_loss_llm": 0.7662816047668457, "global_step": 141, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 0.9909006953239441, "train_loss_dp": 0.9906507730484009, "train_loss_llm": 0.024995088577270508, "global_step": 142, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.066567063331604, "train_loss_dp": 1.0622137784957886, "train_loss_llm": 0.4353313446044922, "global_step": 143, "epoch": 0, "lr": 1.8e-06}
+{"train_loss": 1.0933893918991089, "train_loss_dp": 1.0926074981689453, "train_loss_llm": 0.07819032669067383, "global_step": 144, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 0.9036654233932495, "train_loss_dp": 0.9036654233932495, "train_loss_llm": 0.0, "global_step": 145, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.1500953435897827, "train_loss_dp": 1.1489388942718506, "train_loss_llm": 0.11564493179321289, "global_step": 146, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.2898316383361816, "train_loss_dp": 1.2838608026504517, "train_loss_llm": 0.5970854759216309, "global_step": 147, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.1613095998764038, "train_loss_dp": 1.1590192317962646, "train_loss_llm": 0.22904187440872192, "global_step": 148, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.0935853719711304, "train_loss_dp": 1.0925768613815308, "train_loss_llm": 0.10085058212280273, "global_step": 149, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.011547327041626, "train_loss_dp": 1.0109021663665771, "train_loss_llm": 0.06451010704040527, "global_step": 150, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.0309104919433594, "train_loss_dp": 1.027446985244751, "train_loss_llm": 0.34635162353515625, "global_step": 151, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.0528066158294678, "train_loss_dp": 1.052145004272461, "train_loss_llm": 0.06616401672363281, "global_step": 152, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.0464787483215332, "train_loss_dp": 1.0460047721862793, "train_loss_llm": 0.04739809036254883, "global_step": 153, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.1475121974945068, "train_loss_dp": 1.145658016204834, "train_loss_llm": 0.18541592359542847, "global_step": 154, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 0.9824780225753784, "train_loss_dp": 0.9811305999755859, "train_loss_llm": 0.13474059104919434, "global_step": 155, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.1981837749481201, "train_loss_dp": 1.1960327625274658, "train_loss_llm": 0.21509814262390137, "global_step": 156, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.2282216548919678, "train_loss_dp": 1.2267978191375732, "train_loss_llm": 0.1423780918121338, "global_step": 157, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 0.9815073609352112, "train_loss_dp": 0.9811413288116455, "train_loss_llm": 0.036602020263671875, "global_step": 158, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.364004135131836, "train_loss_dp": 1.3629558086395264, "train_loss_llm": 0.10483860969543457, "global_step": 159, "epoch": 0, "lr": 2.0000000000000003e-06}
+{"train_loss": 1.1394706964492798, "train_loss_dp": 1.1394706964492798, "train_loss_llm": 0.0, "global_step": 160, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.080778956413269, "train_loss_dp": 1.0695827007293701, "train_loss_llm": 1.1196260452270508, "global_step": 161, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.2015314102172852, "train_loss_dp": 1.2010022401809692, "train_loss_llm": 0.05291461944580078, "global_step": 162, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.0538777112960815, "train_loss_dp": 1.0531234741210938, "train_loss_llm": 0.07541871070861816, "global_step": 163, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.9886887669563293, "train_loss_dp": 0.9869430661201477, "train_loss_llm": 0.17457008361816406, "global_step": 164, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.1434663534164429, "train_loss_dp": 1.141778588294983, "train_loss_llm": 0.16877365112304688, "global_step": 165, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.9882976412773132, "train_loss_dp": 0.9871425032615662, "train_loss_llm": 0.11551475524902344, "global_step": 166, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.0092862844467163, "train_loss_dp": 1.0076318979263306, "train_loss_llm": 0.16544342041015625, "global_step": 167, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.9637720584869385, "train_loss_dp": 0.9611138105392456, "train_loss_llm": 0.2658252716064453, "global_step": 168, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.076668620109558, "train_loss_dp": 1.0761760473251343, "train_loss_llm": 0.04925304651260376, "global_step": 169, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.8270877599716187, "train_loss_dp": 0.8269813060760498, "train_loss_llm": 0.010645151138305664, "global_step": 170, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.1136075258255005, "train_loss_dp": 1.1136075258255005, "train_loss_llm": 0.0, "global_step": 171, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.1131253242492676, "train_loss_dp": 1.1115214824676514, "train_loss_llm": 0.1603851318359375, "global_step": 172, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.9102256894111633, "train_loss_dp": 0.9095803499221802, "train_loss_llm": 0.06453490257263184, "global_step": 173, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 0.9192256331443787, "train_loss_dp": 0.913385272026062, "train_loss_llm": 0.5840377807617188, "global_step": 174, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.2192699909210205, "train_loss_dp": 1.218963861465454, "train_loss_llm": 0.03061199188232422, "global_step": 175, "epoch": 0, "lr": 2.2e-06}
+{"train_loss": 1.1700462102890015, "train_loss_dp": 1.1696012020111084, "train_loss_llm": 0.04449939727783203, "global_step": 176, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.3307461738586426, "train_loss_dp": 1.3279221057891846, "train_loss_llm": 0.282407283782959, "global_step": 177, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.043956995010376, "train_loss_dp": 1.043956995010376, "train_loss_llm": 0.0, "global_step": 178, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 0.9718547463417053, "train_loss_dp": 0.9700330495834351, "train_loss_llm": 0.18217062950134277, "global_step": 179, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.1048210859298706, "train_loss_dp": 1.1041831970214844, "train_loss_llm": 0.06379127502441406, "global_step": 180, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.140649676322937, "train_loss_dp": 1.138969898223877, "train_loss_llm": 0.16798067092895508, "global_step": 181, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.3497916460037231, "train_loss_dp": 1.3488969802856445, "train_loss_llm": 0.08947181701660156, "global_step": 182, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.2779428958892822, "train_loss_dp": 1.2766873836517334, "train_loss_llm": 0.12555503845214844, "global_step": 183, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 0.9489973783493042, "train_loss_dp": 0.9489973783493042, "train_loss_llm": 0.0, "global_step": 184, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.262427568435669, "train_loss_dp": 1.262427568435669, "train_loss_llm": 0.0, "global_step": 185, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 0.8516315817832947, "train_loss_dp": 0.8500452637672424, "train_loss_llm": 0.15863323211669922, "global_step": 186, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.1571146249771118, "train_loss_dp": 1.1558558940887451, "train_loss_llm": 0.12587738037109375, "global_step": 187, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.170574426651001, "train_loss_dp": 1.1691389083862305, "train_loss_llm": 0.1435565948486328, "global_step": 188, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.078981637954712, "train_loss_dp": 1.076885461807251, "train_loss_llm": 0.20961332321166992, "global_step": 189, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.1559364795684814, "train_loss_dp": 1.1534550189971924, "train_loss_llm": 0.2481468915939331, "global_step": 190, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 0.9774428009986877, "train_loss_dp": 0.9762206077575684, "train_loss_llm": 0.12222027778625488, "global_step": 191, "epoch": 0, "lr": 2.4000000000000003e-06}
+{"train_loss": 1.1498875617980957, "train_loss_dp": 1.1458039283752441, "train_loss_llm": 0.4083573818206787, "global_step": 192, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.1866031885147095, "train_loss_dp": 1.186072587966919, "train_loss_llm": 0.05305975675582886, "global_step": 193, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 0.9673423767089844, "train_loss_dp": 0.9670067429542542, "train_loss_llm": 0.03356260061264038, "global_step": 194, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.1835017204284668, "train_loss_dp": 1.182749629020691, "train_loss_llm": 0.0752100944519043, "global_step": 195, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.1391290426254272, "train_loss_dp": 1.138601303100586, "train_loss_llm": 0.052771806716918945, "global_step": 196, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.2096363306045532, "train_loss_dp": 1.2072715759277344, "train_loss_llm": 0.23647499084472656, "global_step": 197, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.3028690814971924, "train_loss_dp": 1.3027024269104004, "train_loss_llm": 0.016669273376464844, "global_step": 198, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.0145881175994873, "train_loss_dp": 1.0145881175994873, "train_loss_llm": 0.0, "global_step": 199, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.1396135091781616, "train_loss_dp": 1.1376134157180786, "train_loss_llm": 0.20001220703125, "global_step": 200, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 0.960966169834137, "train_loss_dp": 0.9607132077217102, "train_loss_llm": 0.025298118591308594, "global_step": 201, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 0.872793436050415, "train_loss_dp": 0.8727797269821167, "train_loss_llm": 0.0013718605041503906, "global_step": 202, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.011015772819519, "train_loss_dp": 1.0107345581054688, "train_loss_llm": 0.02812354266643524, "global_step": 203, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.0914808511734009, "train_loss_dp": 1.0896050930023193, "train_loss_llm": 0.18757057189941406, "global_step": 204, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 1.0435514450073242, "train_loss_dp": 1.0430128574371338, "train_loss_llm": 0.05385327339172363, "global_step": 205, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 0.9327206015586853, "train_loss_dp": 0.9326728582382202, "train_loss_llm": 0.0047740936279296875, "global_step": 206, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 0.9895453453063965, "train_loss_dp": 0.988434374332428, "train_loss_llm": 0.1110987663269043, "global_step": 207, "epoch": 0, "lr": 2.6e-06}
+{"train_loss": 0.9835839867591858, "train_loss_dp": 0.9830030202865601, "train_loss_llm": 0.05809783935546875, "global_step": 208, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.0866312980651855, "train_loss_dp": 1.085598349571228, "train_loss_llm": 0.10329866409301758, "global_step": 209, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 0.9221788048744202, "train_loss_dp": 0.9215300679206848, "train_loss_llm": 0.06487154960632324, "global_step": 210, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.130616307258606, "train_loss_dp": 1.1301376819610596, "train_loss_llm": 0.04785871505737305, "global_step": 211, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.0820931196212769, "train_loss_dp": 1.077965497970581, "train_loss_llm": 0.41275787353515625, "global_step": 212, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.113373041152954, "train_loss_dp": 1.111368179321289, "train_loss_llm": 0.20048999786376953, "global_step": 213, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.077767014503479, "train_loss_dp": 1.0763111114501953, "train_loss_llm": 0.14558625221252441, "global_step": 214, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 0.9168805480003357, "train_loss_dp": 0.9163427352905273, "train_loss_llm": 0.05378270149230957, "global_step": 215, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.000679612159729, "train_loss_dp": 0.9987796545028687, "train_loss_llm": 0.18999338150024414, "global_step": 216, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.202927827835083, "train_loss_dp": 1.2001044750213623, "train_loss_llm": 0.2823348045349121, "global_step": 217, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.0188623666763306, "train_loss_dp": 1.0128793716430664, "train_loss_llm": 0.5982987880706787, "global_step": 218, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.1071058511734009, "train_loss_dp": 1.1068331003189087, "train_loss_llm": 0.027278900146484375, "global_step": 219, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.0906723737716675, "train_loss_dp": 1.0869613885879517, "train_loss_llm": 0.3710966110229492, "global_step": 220, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.099372386932373, "train_loss_dp": 1.0981508493423462, "train_loss_llm": 0.12215137481689453, "global_step": 221, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 0.8365756869316101, "train_loss_dp": 0.8358545899391174, "train_loss_llm": 0.07211261987686157, "global_step": 222, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 1.1412264108657837, "train_loss_dp": 1.1393780708312988, "train_loss_llm": 0.18483495712280273, "global_step": 223, "epoch": 0, "lr": 2.8000000000000003e-06}
+{"train_loss": 0.9566940665245056, "train_loss_dp": 0.9541823267936707, "train_loss_llm": 0.2511744499206543, "global_step": 224, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.0006859302520752, "train_loss_dp": 1.0006859302520752, "train_loss_llm": 0.0, "global_step": 225, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.00453782081604, "train_loss_dp": 1.004225730895996, "train_loss_llm": 0.031209945678710938, "global_step": 226, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.1529101133346558, "train_loss_dp": 1.1529101133346558, "train_loss_llm": 0.0, "global_step": 227, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.2498425245285034, "train_loss_dp": 1.2494862079620361, "train_loss_llm": 0.0356292724609375, "global_step": 228, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.1071484088897705, "train_loss_dp": 1.1057231426239014, "train_loss_llm": 0.14252948760986328, "global_step": 229, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.1078553199768066, "train_loss_dp": 1.1061015129089355, "train_loss_llm": 0.175384521484375, "global_step": 230, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.1014004945755005, "train_loss_dp": 1.1006953716278076, "train_loss_llm": 0.07051563262939453, "global_step": 231, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.8859327435493469, "train_loss_dp": 0.8852515816688538, "train_loss_llm": 0.06811809539794922, "global_step": 232, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.8942357897758484, "train_loss_dp": 0.8942357897758484, "train_loss_llm": 0.0, "global_step": 233, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.2866766452789307, "train_loss_dp": 1.2854077816009521, "train_loss_llm": 0.12689208984375, "global_step": 234, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.4379804134368896, "train_loss_dp": 1.43392014503479, "train_loss_llm": 0.4060211181640625, "global_step": 235, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.112488031387329, "train_loss_dp": 1.1116836071014404, "train_loss_llm": 0.08044719696044922, "global_step": 236, "epoch": 0, "lr": 3e-06}
+{"train_loss": 1.2484050989151, "train_loss_dp": 1.2473862171173096, "train_loss_llm": 0.10188961029052734, "global_step": 237, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.8425406813621521, "train_loss_dp": 0.8396259546279907, "train_loss_llm": 0.2914743423461914, "global_step": 238, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.9044555425643921, "train_loss_dp": 0.9031504392623901, "train_loss_llm": 0.1305088996887207, "global_step": 239, "epoch": 0, "lr": 3e-06}
+{"train_loss": 0.9847705960273743, "train_loss_dp": 0.9836921691894531, "train_loss_llm": 0.1078416109085083, "global_step": 240, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.8987365365028381, "train_loss_dp": 0.898586630821228, "train_loss_llm": 0.014989852905273438, "global_step": 241, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.10416579246521, "train_loss_dp": 1.10416579246521, "train_loss_llm": 0.0, "global_step": 242, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.9195907711982727, "train_loss_dp": 0.9188498258590698, "train_loss_llm": 0.07409286499023438, "global_step": 243, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.9325056672096252, "train_loss_dp": 0.9325056672096252, "train_loss_llm": 0.0, "global_step": 244, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.249921202659607, "train_loss_dp": 1.2497223615646362, "train_loss_llm": 0.019884109497070312, "global_step": 245, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.2086079120635986, "train_loss_dp": 1.2086079120635986, "train_loss_llm": 0.0, "global_step": 246, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.8522441387176514, "train_loss_dp": 0.8509421348571777, "train_loss_llm": 0.1302032470703125, "global_step": 247, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.0452837944030762, "train_loss_dp": 1.0442547798156738, "train_loss_llm": 0.1029057502746582, "global_step": 248, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.1294441223144531, "train_loss_dp": 1.1294441223144531, "train_loss_llm": 0.0, "global_step": 249, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.0708720684051514, "train_loss_dp": 1.070544719696045, "train_loss_llm": 0.032729148864746094, "global_step": 250, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.0733340978622437, "train_loss_dp": 1.0729330778121948, "train_loss_llm": 0.04009801149368286, "global_step": 251, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.9551326632499695, "train_loss_dp": 0.9538769721984863, "train_loss_llm": 0.12557101249694824, "global_step": 252, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.0517449378967285, "train_loss_dp": 1.0485484600067139, "train_loss_llm": 0.3196449279785156, "global_step": 253, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 0.7839894890785217, "train_loss_dp": 0.7839894890785217, "train_loss_llm": 0.0, "global_step": 254, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.0375850200653076, "train_loss_dp": 1.0370488166809082, "train_loss_llm": 0.053621768951416016, "global_step": 255, "epoch": 0, "lr": 3.2000000000000003e-06}
+{"train_loss": 1.0452651977539062, "train_loss_dp": 1.0442289113998413, "train_loss_llm": 0.10363388061523438, "global_step": 256, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 0.9248197078704834, "train_loss_dp": 0.9243232011795044, "train_loss_llm": 0.049650222063064575, "global_step": 257, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 0.9042417407035828, "train_loss_dp": 0.9032822847366333, "train_loss_llm": 0.09594321250915527, "global_step": 258, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.0165311098098755, "train_loss_dp": 1.0164093971252441, "train_loss_llm": 0.012169122695922852, "global_step": 259, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 0.8620102405548096, "train_loss_dp": 0.8620102405548096, "train_loss_llm": 0.0, "global_step": 260, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 0.9695582985877991, "train_loss_dp": 0.9695582985877991, "train_loss_llm": 0.0, "global_step": 261, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.0277185440063477, "train_loss_dp": 1.0275846719741821, "train_loss_llm": 0.013388276100158691, "global_step": 262, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.0750900506973267, "train_loss_dp": 1.0747661590576172, "train_loss_llm": 0.03238821029663086, "global_step": 263, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.2642412185668945, "train_loss_dp": 1.2639176845550537, "train_loss_llm": 0.032357871532440186, "global_step": 264, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.1686632633209229, "train_loss_dp": 1.1644566059112549, "train_loss_llm": 0.42066240310668945, "global_step": 265, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.012830376625061, "train_loss_dp": 1.0122332572937012, "train_loss_llm": 0.059717416763305664, "global_step": 266, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 0.9165210723876953, "train_loss_dp": 0.9156067371368408, "train_loss_llm": 0.09143447875976562, "global_step": 267, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 0.9272048473358154, "train_loss_dp": 0.9272048473358154, "train_loss_llm": 0.0, "global_step": 268, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.0132873058319092, "train_loss_dp": 1.013068437576294, "train_loss_llm": 0.021891117095947266, "global_step": 269, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.0758672952651978, "train_loss_dp": 1.0758672952651978, "train_loss_llm": 0.0, "global_step": 270, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.008455514907837, "train_loss_dp": 1.006711721420288, "train_loss_llm": 0.17438507080078125, "global_step": 271, "epoch": 0, "lr": 3.4000000000000005e-06}
+{"train_loss": 1.111171841621399, "train_loss_dp": 1.1058266162872314, "train_loss_llm": 0.534517765045166, "global_step": 272, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.9234699606895447, "train_loss_dp": 0.9227191805839539, "train_loss_llm": 0.07507848739624023, "global_step": 273, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.9179990291595459, "train_loss_dp": 0.9174343347549438, "train_loss_llm": 0.056467533111572266, "global_step": 274, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.9806784987449646, "train_loss_dp": 0.9783574342727661, "train_loss_llm": 0.23210573196411133, "global_step": 275, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.9788436889648438, "train_loss_dp": 0.9781684875488281, "train_loss_llm": 0.0675201416015625, "global_step": 276, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.1352202892303467, "train_loss_dp": 1.1352202892303467, "train_loss_llm": 0.0, "global_step": 277, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.0756502151489258, "train_loss_dp": 1.0739452838897705, "train_loss_llm": 0.17049002647399902, "global_step": 278, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.1718732118606567, "train_loss_dp": 1.1704015731811523, "train_loss_llm": 0.1471691131591797, "global_step": 279, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.9042823910713196, "train_loss_dp": 0.9036648273468018, "train_loss_llm": 0.061758995056152344, "global_step": 280, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.9379608035087585, "train_loss_dp": 0.9365693926811218, "train_loss_llm": 0.139143705368042, "global_step": 281, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.9420122504234314, "train_loss_dp": 0.9414914846420288, "train_loss_llm": 0.05207419395446777, "global_step": 282, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.119142770767212, "train_loss_dp": 1.1184293031692505, "train_loss_llm": 0.07134580612182617, "global_step": 283, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 0.8925445079803467, "train_loss_dp": 0.8919329643249512, "train_loss_llm": 0.0611567497253418, "global_step": 284, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.1077812910079956, "train_loss_dp": 1.1077382564544678, "train_loss_llm": 0.0043010711669921875, "global_step": 285, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.037459135055542, "train_loss_dp": 1.0351550579071045, "train_loss_llm": 0.23040771484375, "global_step": 286, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.1113296747207642, "train_loss_dp": 1.1110422611236572, "train_loss_llm": 0.028744935989379883, "global_step": 287, "epoch": 0, "lr": 3.6e-06}
+{"train_loss": 1.2105917930603027, "train_loss_dp": 1.2056350708007812, "train_loss_llm": 0.49567604064941406, "global_step": 288, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.30890691280365, "train_loss_dp": 1.3060660362243652, "train_loss_llm": 0.28409290313720703, "global_step": 289, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.0234700441360474, "train_loss_dp": 1.019553780555725, "train_loss_llm": 0.39162349700927734, "global_step": 290, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.004503846168518, "train_loss_dp": 1.003983497619629, "train_loss_llm": 0.05203813314437866, "global_step": 291, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.0414934158325195, "train_loss_dp": 1.0414202213287354, "train_loss_llm": 0.00731348991394043, "global_step": 292, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.0872857570648193, "train_loss_dp": 1.086721420288086, "train_loss_llm": 0.05642864108085632, "global_step": 293, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.062954068183899, "train_loss_dp": 1.062954068183899, "train_loss_llm": 0.0, "global_step": 294, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.042630672454834, "train_loss_dp": 1.042630672454834, "train_loss_llm": 0.0, "global_step": 295, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.0253459215164185, "train_loss_dp": 1.02467679977417, "train_loss_llm": 0.06691789627075195, "global_step": 296, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.957755446434021, "train_loss_dp": 0.9567750692367554, "train_loss_llm": 0.09803485870361328, "global_step": 297, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.179867148399353, "train_loss_dp": 1.1781338453292847, "train_loss_llm": 0.1733245849609375, "global_step": 298, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.9694012403488159, "train_loss_dp": 0.9688652753829956, "train_loss_llm": 0.053597211837768555, "global_step": 299, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.2056806087493896, "train_loss_dp": 1.2043507099151611, "train_loss_llm": 0.13298416137695312, "global_step": 300, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 0.7977904677391052, "train_loss_dp": 0.7974082231521606, "train_loss_llm": 0.038223862648010254, "global_step": 301, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.111403465270996, "train_loss_dp": 1.1103897094726562, "train_loss_llm": 0.10137653350830078, "global_step": 302, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.1385236978530884, "train_loss_dp": 1.1378148794174194, "train_loss_llm": 0.07088720798492432, "global_step": 303, "epoch": 0, "lr": 3.8e-06}
+{"train_loss": 1.0108563899993896, "train_loss_dp": 1.0104695558547974, "train_loss_llm": 0.03868675231933594, "global_step": 304, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.2298424243927002, "train_loss_dp": 1.2186744213104248, "train_loss_llm": 1.1167984008789062, "global_step": 305, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.8434157371520996, "train_loss_dp": 0.8416224718093872, "train_loss_llm": 0.17932546138763428, "global_step": 306, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.2282105684280396, "train_loss_dp": 1.2278532981872559, "train_loss_llm": 0.03572583198547363, "global_step": 307, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.9588252902030945, "train_loss_dp": 0.9575920104980469, "train_loss_llm": 0.12332677841186523, "global_step": 308, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.7902126908302307, "train_loss_dp": 0.7889540791511536, "train_loss_llm": 0.125862717628479, "global_step": 309, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.11123526096344, "train_loss_dp": 1.1040160655975342, "train_loss_llm": 0.721916675567627, "global_step": 310, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.2587274312973022, "train_loss_dp": 1.2582595348358154, "train_loss_llm": 0.046793580055236816, "global_step": 311, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.0129122734069824, "train_loss_dp": 1.0108959674835205, "train_loss_llm": 0.2016284465789795, "global_step": 312, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.921698808670044, "train_loss_dp": 0.9212837815284729, "train_loss_llm": 0.04150390625, "global_step": 313, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.9752512574195862, "train_loss_dp": 0.972895622253418, "train_loss_llm": 0.2355639934539795, "global_step": 314, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.0785443782806396, "train_loss_dp": 1.0778506994247437, "train_loss_llm": 0.06937122344970703, "global_step": 315, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.9790886044502258, "train_loss_dp": 0.9785335063934326, "train_loss_llm": 0.05550956726074219, "global_step": 316, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.0875637531280518, "train_loss_dp": 1.0875637531280518, "train_loss_llm": 0.0, "global_step": 317, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 0.8551346063613892, "train_loss_dp": 0.8551346063613892, "train_loss_llm": 0.0, "global_step": 318, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.0339957475662231, "train_loss_dp": 1.033745527267456, "train_loss_llm": 0.025021076202392578, "global_step": 319, "epoch": 0, "lr": 4.000000000000001e-06}
+{"train_loss": 1.0213769674301147, "train_loss_dp": 1.020719051361084, "train_loss_llm": 0.06578636169433594, "global_step": 320, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.908735990524292, "train_loss_dp": 0.908735990524292, "train_loss_llm": 0.0, "global_step": 321, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.8405702710151672, "train_loss_dp": 0.8393009901046753, "train_loss_llm": 0.12692791223526, "global_step": 322, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.9843904376029968, "train_loss_dp": 0.9830784797668457, "train_loss_llm": 0.1311960220336914, "global_step": 323, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.0500460863113403, "train_loss_dp": 1.0487565994262695, "train_loss_llm": 0.12894439697265625, "global_step": 324, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.9073609113693237, "train_loss_dp": 0.9064234495162964, "train_loss_llm": 0.09374380111694336, "global_step": 325, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.9077711701393127, "train_loss_dp": 0.9077711701393127, "train_loss_llm": 0.0, "global_step": 326, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.9571573734283447, "train_loss_dp": 0.9557401537895203, "train_loss_llm": 0.14172101020812988, "global_step": 327, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.297605276107788, "train_loss_dp": 1.297605276107788, "train_loss_llm": 0.0, "global_step": 328, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.1567883491516113, "train_loss_dp": 1.1538479328155518, "train_loss_llm": 0.29404640197753906, "global_step": 329, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.8993372917175293, "train_loss_dp": 0.8993372917175293, "train_loss_llm": 0.0, "global_step": 330, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.898335874080658, "train_loss_dp": 0.8980965614318848, "train_loss_llm": 0.02393162250518799, "global_step": 331, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.2669682502746582, "train_loss_dp": 1.2659207582473755, "train_loss_llm": 0.10475355386734009, "global_step": 332, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.941207230091095, "train_loss_dp": 0.9395527839660645, "train_loss_llm": 0.1654442548751831, "global_step": 333, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 0.9384790658950806, "train_loss_dp": 0.9379891157150269, "train_loss_llm": 0.0489964485168457, "global_step": 334, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.0227069854736328, "train_loss_dp": 1.0220932960510254, "train_loss_llm": 0.06137371063232422, "global_step": 335, "epoch": 0, "lr": 4.2000000000000004e-06}
+{"train_loss": 1.0823941230773926, "train_loss_dp": 1.0805267095565796, "train_loss_llm": 0.18674731254577637, "global_step": 336, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.7889120578765869, "train_loss_dp": 0.7889120578765869, "train_loss_llm": 0.0, "global_step": 337, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.9942030906677246, "train_loss_dp": 0.9938533306121826, "train_loss_llm": 0.03497505187988281, "global_step": 338, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.1818445920944214, "train_loss_dp": 1.179680347442627, "train_loss_llm": 0.21642112731933594, "global_step": 339, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.8093495965003967, "train_loss_dp": 0.808974027633667, "train_loss_llm": 0.03755950927734375, "global_step": 340, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.9436590671539307, "train_loss_dp": 0.9433407783508301, "train_loss_llm": 0.031827449798583984, "global_step": 341, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.092454433441162, "train_loss_dp": 1.0921273231506348, "train_loss_llm": 0.03271329402923584, "global_step": 342, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.8349838852882385, "train_loss_dp": 0.8343591094017029, "train_loss_llm": 0.06247520446777344, "global_step": 343, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.0575379133224487, "train_loss_dp": 1.0539956092834473, "train_loss_llm": 0.35422539710998535, "global_step": 344, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.8445256352424622, "train_loss_dp": 0.842688798904419, "train_loss_llm": 0.18368244171142578, "global_step": 345, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.0241947174072266, "train_loss_dp": 1.0217230319976807, "train_loss_llm": 0.24716663360595703, "global_step": 346, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.9262210130691528, "train_loss_dp": 0.9227273464202881, "train_loss_llm": 0.3493661880493164, "global_step": 347, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.8051874041557312, "train_loss_dp": 0.8043532371520996, "train_loss_llm": 0.08341950178146362, "global_step": 348, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.9519042372703552, "train_loss_dp": 0.9513469934463501, "train_loss_llm": 0.05572700500488281, "global_step": 349, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.0807639360427856, "train_loss_dp": 1.0732260942459106, "train_loss_llm": 0.7537822723388672, "global_step": 350, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 1.1680468320846558, "train_loss_dp": 1.1636192798614502, "train_loss_llm": 0.4427509307861328, "global_step": 351, "epoch": 0, "lr": 4.4e-06}
+{"train_loss": 0.8601813912391663, "train_loss_dp": 0.8601813912391663, "train_loss_llm": 0.0, "global_step": 352, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.0139940977096558, "train_loss_dp": 1.0131714344024658, "train_loss_llm": 0.0822669267654419, "global_step": 353, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.0823599100112915, "train_loss_dp": 1.0725750923156738, "train_loss_llm": 0.9784812927246094, "global_step": 354, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.1300417184829712, "train_loss_dp": 1.1286388635635376, "train_loss_llm": 0.1402873992919922, "global_step": 355, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.2563273906707764, "train_loss_dp": 1.2542608976364136, "train_loss_llm": 0.2066434621810913, "global_step": 356, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.0701611042022705, "train_loss_dp": 1.069010615348816, "train_loss_llm": 0.11505109071731567, "global_step": 357, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.0698639154434204, "train_loss_dp": 1.067129373550415, "train_loss_llm": 0.2734549045562744, "global_step": 358, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.9356490969657898, "train_loss_dp": 0.9346409440040588, "train_loss_llm": 0.1008141040802002, "global_step": 359, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.9863864183425903, "train_loss_dp": 0.9863864183425903, "train_loss_llm": 0.0, "global_step": 360, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.0637128353118896, "train_loss_dp": 1.0634796619415283, "train_loss_llm": 0.023318469524383545, "global_step": 361, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.0524791479110718, "train_loss_dp": 1.050279974937439, "train_loss_llm": 0.21992111206054688, "global_step": 362, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.858018159866333, "train_loss_dp": 0.857769250869751, "train_loss_llm": 0.024892717599868774, "global_step": 363, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.138700246810913, "train_loss_dp": 1.1328654289245605, "train_loss_llm": 0.5834827423095703, "global_step": 364, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.2104579210281372, "train_loss_dp": 1.2079542875289917, "train_loss_llm": 0.2503623962402344, "global_step": 365, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 0.9412223696708679, "train_loss_dp": 0.9405749440193176, "train_loss_llm": 0.0647425651550293, "global_step": 366, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.2821381092071533, "train_loss_dp": 1.280043125152588, "train_loss_llm": 0.20949459075927734, "global_step": 367, "epoch": 0, "lr": 4.6e-06}
+{"train_loss": 1.0104029178619385, "train_loss_dp": 1.0104029178619385, "train_loss_llm": 0.0, "global_step": 368, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.9985689520835876, "train_loss_dp": 0.9985689520835876, "train_loss_llm": 0.0, "global_step": 369, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.0267934799194336, "train_loss_dp": 1.0267934799194336, "train_loss_llm": 0.0, "global_step": 370, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.9628977179527283, "train_loss_dp": 0.9628977179527283, "train_loss_llm": 0.0, "global_step": 371, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.9940561652183533, "train_loss_dp": 0.9940561652183533, "train_loss_llm": 0.0, "global_step": 372, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.210178256034851, "train_loss_dp": 1.2086621522903442, "train_loss_llm": 0.151611328125, "global_step": 373, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.7666648626327515, "train_loss_dp": 0.7638816833496094, "train_loss_llm": 0.27831506729125977, "global_step": 374, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.1035233736038208, "train_loss_dp": 1.1023600101470947, "train_loss_llm": 0.11633503437042236, "global_step": 375, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.8795539140701294, "train_loss_dp": 0.8784021735191345, "train_loss_llm": 0.11517524719238281, "global_step": 376, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.0794856548309326, "train_loss_dp": 1.0794856548309326, "train_loss_llm": 0.0, "global_step": 377, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.1547188758850098, "train_loss_dp": 1.1529299020767212, "train_loss_llm": 0.17889809608459473, "global_step": 378, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.9745957255363464, "train_loss_dp": 0.9736018776893616, "train_loss_llm": 0.09938430786132812, "global_step": 379, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.129128098487854, "train_loss_dp": 1.1288096904754639, "train_loss_llm": 0.031841278076171875, "global_step": 380, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.0594686269760132, "train_loss_dp": 1.0563163757324219, "train_loss_llm": 0.3152308464050293, "global_step": 381, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.9976117014884949, "train_loss_dp": 0.9971399307250977, "train_loss_llm": 0.047174930572509766, "global_step": 382, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 1.1517412662506104, "train_loss_dp": 1.149890661239624, "train_loss_llm": 0.18505573272705078, "global_step": 383, "epoch": 0, "lr": 4.800000000000001e-06}
+{"train_loss": 0.9215453863143921, "train_loss_dp": 0.9194756746292114, "train_loss_llm": 0.20697021484375, "global_step": 384, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.0280025005340576, "train_loss_dp": 1.0279138088226318, "train_loss_llm": 0.008873075246810913, "global_step": 385, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.0423544645309448, "train_loss_dp": 1.0400104522705078, "train_loss_llm": 0.23440223932266235, "global_step": 386, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.093194842338562, "train_loss_dp": 1.092555046081543, "train_loss_llm": 0.06397438049316406, "global_step": 387, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.0098316669464111, "train_loss_dp": 1.0092883110046387, "train_loss_llm": 0.054335594177246094, "global_step": 388, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.9822548627853394, "train_loss_dp": 0.9773566722869873, "train_loss_llm": 0.4898190498352051, "global_step": 389, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.1630059480667114, "train_loss_dp": 1.1625535488128662, "train_loss_llm": 0.04524040222167969, "global_step": 390, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.0809049606323242, "train_loss_dp": 1.0791120529174805, "train_loss_llm": 0.17928600311279297, "global_step": 391, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.1594396829605103, "train_loss_dp": 1.159335970878601, "train_loss_llm": 0.0103759765625, "global_step": 392, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.9977471232414246, "train_loss_dp": 0.9967859983444214, "train_loss_llm": 0.09611243009567261, "global_step": 393, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.0171078443527222, "train_loss_dp": 1.0161821842193604, "train_loss_llm": 0.09256243705749512, "global_step": 394, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.1874858140945435, "train_loss_dp": 1.1869583129882812, "train_loss_llm": 0.052749693393707275, "global_step": 395, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.9406840801239014, "train_loss_dp": 0.9406840801239014, "train_loss_llm": 0.0, "global_step": 396, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.8579615950584412, "train_loss_dp": 0.8579615950584412, "train_loss_llm": 0.0, "global_step": 397, "epoch": 0, "lr": 5e-06}
+{"train_loss": 1.0731229782104492, "train_loss_dp": 1.0671167373657227, "train_loss_llm": 0.6006259918212891, "global_step": 398, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.8974142670631409, "train_loss_dp": 0.8963133692741394, "train_loss_llm": 0.1100921630859375, "global_step": 399, "epoch": 0, "lr": 5e-06}
+{"train_loss": 0.8279587626457214, "train_loss_dp": 0.8274849057197571, "train_loss_llm": 0.04738461971282959, "global_step": 400, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.8388949632644653, "train_loss_dp": 0.8379749059677124, "train_loss_llm": 0.09200525283813477, "global_step": 401, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.0108376741409302, "train_loss_dp": 1.0088250637054443, "train_loss_llm": 0.20125913619995117, "global_step": 402, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.9220046401023865, "train_loss_dp": 0.9207658767700195, "train_loss_llm": 0.12387794256210327, "global_step": 403, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.1888569593429565, "train_loss_dp": 1.1886066198349, "train_loss_llm": 0.0250396728515625, "global_step": 404, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.8289377689361572, "train_loss_dp": 0.8288641571998596, "train_loss_llm": 0.007362842559814453, "global_step": 405, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.8956316709518433, "train_loss_dp": 0.8943568468093872, "train_loss_llm": 0.12748432159423828, "global_step": 406, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.9163090586662292, "train_loss_dp": 0.9144595861434937, "train_loss_llm": 0.18494558334350586, "global_step": 407, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.8881707191467285, "train_loss_dp": 0.8876675963401794, "train_loss_llm": 0.05031418800354004, "global_step": 408, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.9568173885345459, "train_loss_dp": 0.9568173885345459, "train_loss_llm": 0.0, "global_step": 409, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.3010085821151733, "train_loss_dp": 1.2992005348205566, "train_loss_llm": 0.1807997226715088, "global_step": 410, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.0389999151229858, "train_loss_dp": 1.0381391048431396, "train_loss_llm": 0.08608102798461914, "global_step": 411, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.9639848470687866, "train_loss_dp": 0.9636669754981995, "train_loss_llm": 0.03178739547729492, "global_step": 412, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 1.0327932834625244, "train_loss_dp": 1.0317761898040771, "train_loss_llm": 0.10171318054199219, "global_step": 413, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.85904860496521, "train_loss_dp": 0.858220100402832, "train_loss_llm": 0.08284950256347656, "global_step": 414, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.9338951706886292, "train_loss_dp": 0.9324974417686462, "train_loss_llm": 0.13977336883544922, "global_step": 415, "epoch": 0, "lr": 5.2e-06}
+{"train_loss": 0.9851264953613281, "train_loss_dp": 0.9851264953613281, "train_loss_llm": 0.0, "global_step": 416, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.922006368637085, "train_loss_dp": 0.9219028353691101, "train_loss_llm": 0.01035076379776001, "global_step": 417, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.8149724006652832, "train_loss_dp": 0.813370406627655, "train_loss_llm": 0.16019725799560547, "global_step": 418, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.9079853296279907, "train_loss_dp": 0.9079853296279907, "train_loss_llm": 0.0, "global_step": 419, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.0783318281173706, "train_loss_dp": 1.0768131017684937, "train_loss_llm": 0.15186834335327148, "global_step": 420, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.133329153060913, "train_loss_dp": 1.1327874660491943, "train_loss_llm": 0.054163217544555664, "global_step": 421, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.792762041091919, "train_loss_dp": 0.7924795150756836, "train_loss_llm": 0.02825021743774414, "global_step": 422, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.1443891525268555, "train_loss_dp": 1.143681526184082, "train_loss_llm": 0.07076501846313477, "global_step": 423, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.0652774572372437, "train_loss_dp": 1.0639386177062988, "train_loss_llm": 0.13388407230377197, "global_step": 424, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.8855762481689453, "train_loss_dp": 0.8855762481689453, "train_loss_llm": 0.0, "global_step": 425, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.0320957899093628, "train_loss_dp": 1.0308282375335693, "train_loss_llm": 0.12675094604492188, "global_step": 426, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.0611493587493896, "train_loss_dp": 1.0604157447814941, "train_loss_llm": 0.07335549592971802, "global_step": 427, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.1766254901885986, "train_loss_dp": 1.1740586757659912, "train_loss_llm": 0.2566795349121094, "global_step": 428, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 0.9891791343688965, "train_loss_dp": 0.9891791343688965, "train_loss_llm": 0.0, "global_step": 429, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.1106927394866943, "train_loss_dp": 1.1094330549240112, "train_loss_llm": 0.12596821784973145, "global_step": 430, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.0897048711776733, "train_loss_dp": 1.089503526687622, "train_loss_llm": 0.020132064819335938, "global_step": 431, "epoch": 0, "lr": 5.4e-06}
+{"train_loss": 1.2606438398361206, "train_loss_dp": 1.2602357864379883, "train_loss_llm": 0.04080462455749512, "global_step": 432, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.0194412469863892, "train_loss_dp": 1.0171611309051514, "train_loss_llm": 0.22800731658935547, "global_step": 433, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.9907299876213074, "train_loss_dp": 0.9890366196632385, "train_loss_llm": 0.16933822631835938, "global_step": 434, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.298967957496643, "train_loss_dp": 1.2919702529907227, "train_loss_llm": 0.6997756958007812, "global_step": 435, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.0601574182510376, "train_loss_dp": 1.0601574182510376, "train_loss_llm": 0.0, "global_step": 436, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.0583608150482178, "train_loss_dp": 1.0554628372192383, "train_loss_llm": 0.2897982597351074, "global_step": 437, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.0954567193984985, "train_loss_dp": 1.093923568725586, "train_loss_llm": 0.15331363677978516, "global_step": 438, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.9996305108070374, "train_loss_dp": 0.9989309310913086, "train_loss_llm": 0.06995633244514465, "global_step": 439, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.0252432823181152, "train_loss_dp": 1.0232985019683838, "train_loss_llm": 0.1944751739501953, "global_step": 440, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.0168300867080688, "train_loss_dp": 1.0136425495147705, "train_loss_llm": 0.31874799728393555, "global_step": 441, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.1531405448913574, "train_loss_dp": 1.1510976552963257, "train_loss_llm": 0.20428752899169922, "global_step": 442, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.9957558512687683, "train_loss_dp": 0.994477391242981, "train_loss_llm": 0.12784576416015625, "global_step": 443, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.9866361618041992, "train_loss_dp": 0.9854382276535034, "train_loss_llm": 0.11979103088378906, "global_step": 444, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.1037143468856812, "train_loss_dp": 1.0990389585494995, "train_loss_llm": 0.46753883361816406, "global_step": 445, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 1.2721195220947266, "train_loss_dp": 1.2697031497955322, "train_loss_llm": 0.2416388988494873, "global_step": 446, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.9822997450828552, "train_loss_dp": 0.9821879863739014, "train_loss_llm": 0.011174678802490234, "global_step": 447, "epoch": 0, "lr": 5.600000000000001e-06}
+{"train_loss": 0.7805737257003784, "train_loss_dp": 0.7796721458435059, "train_loss_llm": 0.09015774726867676, "global_step": 448, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.0283117294311523, "train_loss_dp": 1.0283117294311523, "train_loss_llm": 0.0, "global_step": 449, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.9465335607528687, "train_loss_dp": 0.945868968963623, "train_loss_llm": 0.06645965576171875, "global_step": 450, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.1369391679763794, "train_loss_dp": 1.1361545324325562, "train_loss_llm": 0.07846736907958984, "global_step": 451, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.8711810111999512, "train_loss_dp": 0.87037193775177, "train_loss_llm": 0.08090806007385254, "global_step": 452, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.7597135901451111, "train_loss_dp": 0.7589133977890015, "train_loss_llm": 0.08001995086669922, "global_step": 453, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.968870222568512, "train_loss_dp": 0.9636631011962891, "train_loss_llm": 0.5207147598266602, "global_step": 454, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.0933483839035034, "train_loss_dp": 1.0901613235473633, "train_loss_llm": 0.3187117576599121, "global_step": 455, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.294830083847046, "train_loss_dp": 1.291135549545288, "train_loss_llm": 0.36945199966430664, "global_step": 456, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.9810263514518738, "train_loss_dp": 0.9797290563583374, "train_loss_llm": 0.1297292709350586, "global_step": 457, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.947858452796936, "train_loss_dp": 0.9470845460891724, "train_loss_llm": 0.0773935317993164, "global_step": 458, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.0898160934448242, "train_loss_dp": 1.0857365131378174, "train_loss_llm": 0.407956600189209, "global_step": 459, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.0311698913574219, "train_loss_dp": 1.0311698913574219, "train_loss_llm": 0.0, "global_step": 460, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.9654308557510376, "train_loss_dp": 0.9645785689353943, "train_loss_llm": 0.08522796630859375, "global_step": 461, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.9059485197067261, "train_loss_dp": 0.9059397578239441, "train_loss_llm": 0.0008780956268310547, "global_step": 462, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 0.8556010127067566, "train_loss_dp": 0.8502355813980103, "train_loss_llm": 0.5365409851074219, "global_step": 463, "epoch": 0, "lr": 5.8e-06}
+{"train_loss": 1.105879306793213, "train_loss_dp": 1.1047306060791016, "train_loss_llm": 0.11486738920211792, "global_step": 464, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.097472071647644, "train_loss_dp": 1.0972998142242432, "train_loss_llm": 0.017220497131347656, "global_step": 465, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.9476720094680786, "train_loss_dp": 0.9461660385131836, "train_loss_llm": 0.15059661865234375, "global_step": 466, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.0480414628982544, "train_loss_dp": 1.0472512245178223, "train_loss_llm": 0.07902294397354126, "global_step": 467, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.0444107055664062, "train_loss_dp": 1.0441595315933228, "train_loss_llm": 0.025113582611083984, "global_step": 468, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.0439475774765015, "train_loss_dp": 1.0432809591293335, "train_loss_llm": 0.06666278839111328, "global_step": 469, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.11464524269104, "train_loss_dp": 1.1135618686676025, "train_loss_llm": 0.10834312438964844, "global_step": 470, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.9926021099090576, "train_loss_dp": 0.9924455881118774, "train_loss_llm": 0.015649795532226562, "global_step": 471, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.8542181253433228, "train_loss_dp": 0.8538084030151367, "train_loss_llm": 0.04097104072570801, "global_step": 472, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.7872142195701599, "train_loss_dp": 0.7858740091323853, "train_loss_llm": 0.13402128219604492, "global_step": 473, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.1831188201904297, "train_loss_dp": 1.1819372177124023, "train_loss_llm": 0.11815953254699707, "global_step": 474, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.012817144393921, "train_loss_dp": 1.011696696281433, "train_loss_llm": 0.11205053329467773, "global_step": 475, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.2641959190368652, "train_loss_dp": 1.2632083892822266, "train_loss_llm": 0.09875214099884033, "global_step": 476, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.946325957775116, "train_loss_dp": 0.9453853368759155, "train_loss_llm": 0.09406185150146484, "global_step": 477, "epoch": 0, "lr": 6e-06}
+{"train_loss": 0.9655393958091736, "train_loss_dp": 0.9644714593887329, "train_loss_llm": 0.10679340362548828, "global_step": 478, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.151539921760559, "train_loss_dp": 1.1493314504623413, "train_loss_llm": 0.2208418846130371, "global_step": 479, "epoch": 0, "lr": 6e-06}
+{"train_loss": 1.0033795833587646, "train_loss_dp": 0.9999995827674866, "train_loss_llm": 0.3379955291748047, "global_step": 480, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.2592110633850098, "train_loss_dp": 1.2592110633850098, "train_loss_llm": 0.0, "global_step": 481, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.8968040943145752, "train_loss_dp": 0.8958666324615479, "train_loss_llm": 0.09374618530273438, "global_step": 482, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.0430456399917603, "train_loss_dp": 1.0426980257034302, "train_loss_llm": 0.03476285934448242, "global_step": 483, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.9369251728057861, "train_loss_dp": 0.9360654354095459, "train_loss_llm": 0.08597373962402344, "global_step": 484, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.8902186751365662, "train_loss_dp": 0.8890540599822998, "train_loss_llm": 0.1164587140083313, "global_step": 485, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.3293356895446777, "train_loss_dp": 1.3283629417419434, "train_loss_llm": 0.09727334976196289, "global_step": 486, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.0761661529541016, "train_loss_dp": 1.0761661529541016, "train_loss_llm": 0.0, "global_step": 487, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.0904970169067383, "train_loss_dp": 1.0896960496902466, "train_loss_llm": 0.08009171485900879, "global_step": 488, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.8975945115089417, "train_loss_dp": 0.897249698638916, "train_loss_llm": 0.03448033332824707, "global_step": 489, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.1537407636642456, "train_loss_dp": 1.1537407636642456, "train_loss_llm": 0.0, "global_step": 490, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.104864478111267, "train_loss_dp": 1.1042847633361816, "train_loss_llm": 0.05796623229980469, "global_step": 491, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.9070357084274292, "train_loss_dp": 0.9068265557289124, "train_loss_llm": 0.020917892456054688, "global_step": 492, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 1.1903358697891235, "train_loss_dp": 1.1895973682403564, "train_loss_llm": 0.07384681701660156, "global_step": 493, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.9514033794403076, "train_loss_dp": 0.9514033794403076, "train_loss_llm": 0.0, "global_step": 494, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.85370934009552, "train_loss_dp": 0.8517485857009888, "train_loss_llm": 0.1960749626159668, "global_step": 495, "epoch": 0, "lr": 6.2e-06}
+{"train_loss": 0.8548636436462402, "train_loss_dp": 0.8546113967895508, "train_loss_llm": 0.025227069854736328, "global_step": 496, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.001935601234436, "train_loss_dp": 1.0000503063201904, "train_loss_llm": 0.18853271007537842, "global_step": 497, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.0948569774627686, "train_loss_dp": 1.0934816598892212, "train_loss_llm": 0.1375291347503662, "global_step": 498, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.9823995232582092, "train_loss_dp": 0.9816302061080933, "train_loss_llm": 0.07693099975585938, "global_step": 499, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.9015596508979797, "train_loss_dp": 0.9015596508979797, "train_loss_llm": 0.0, "global_step": 500, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.9936264753341675, "train_loss_dp": 0.9930299520492554, "train_loss_llm": 0.05965423583984375, "global_step": 501, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.0170972347259521, "train_loss_dp": 1.014995813369751, "train_loss_llm": 0.2101435661315918, "global_step": 502, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.152813196182251, "train_loss_dp": 1.152813196182251, "train_loss_llm": 0.0, "global_step": 503, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.9130893349647522, "train_loss_dp": 0.9124575853347778, "train_loss_llm": 0.06317776441574097, "global_step": 504, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.828625500202179, "train_loss_dp": 0.8280550241470337, "train_loss_llm": 0.05704975128173828, "global_step": 505, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.9420275092124939, "train_loss_dp": 0.9417060613632202, "train_loss_llm": 0.03214263916015625, "global_step": 506, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.0022351741790771, "train_loss_dp": 1.0001928806304932, "train_loss_llm": 0.20422601699829102, "global_step": 507, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 0.7895161509513855, "train_loss_dp": 0.787574052810669, "train_loss_llm": 0.19421005249023438, "global_step": 508, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.305311918258667, "train_loss_dp": 1.3043200969696045, "train_loss_llm": 0.09918594360351562, "global_step": 509, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.0613141059875488, "train_loss_dp": 1.0613141059875488, "train_loss_llm": 0.0, "global_step": 510, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.0465202331542969, "train_loss_dp": 1.0465202331542969, "train_loss_llm": 0.0, "global_step": 511, "epoch": 0, "lr": 6.4000000000000006e-06}
+{"train_loss": 1.1558624505996704, "train_loss_dp": 1.155005931854248, "train_loss_llm": 0.0856482982635498, "global_step": 512, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.1246085166931152, "train_loss_dp": 1.1246085166931152, "train_loss_llm": 0.0, "global_step": 513, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.4403765201568604, "train_loss_dp": 1.4402996301651, "train_loss_llm": 0.007691174745559692, "global_step": 514, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.9123257398605347, "train_loss_dp": 0.9123257398605347, "train_loss_llm": 0.0, "global_step": 515, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.0370042324066162, "train_loss_dp": 1.0330759286880493, "train_loss_llm": 0.3928346633911133, "global_step": 516, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.0621528625488281, "train_loss_dp": 1.0621528625488281, "train_loss_llm": 0.0, "global_step": 517, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.9446588158607483, "train_loss_dp": 0.9442878365516663, "train_loss_llm": 0.037099480628967285, "global_step": 518, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.0399057865142822, "train_loss_dp": 1.0392541885375977, "train_loss_llm": 0.0651627779006958, "global_step": 519, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.0028281211853027, "train_loss_dp": 1.002236247062683, "train_loss_llm": 0.05919075012207031, "global_step": 520, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.8214830160140991, "train_loss_dp": 0.8189845681190491, "train_loss_llm": 0.249847412109375, "global_step": 521, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.001466155052185, "train_loss_dp": 0.998825192451477, "train_loss_llm": 0.2640972137451172, "global_step": 522, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.0804427862167358, "train_loss_dp": 1.0758740901947021, "train_loss_llm": 0.4568657875061035, "global_step": 523, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.9872915148735046, "train_loss_dp": 0.986544132232666, "train_loss_llm": 0.0747385025024414, "global_step": 524, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.9509192109107971, "train_loss_dp": 0.9503304958343506, "train_loss_llm": 0.058872222900390625, "global_step": 525, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.150895118713379, "train_loss_dp": 1.1505988836288452, "train_loss_llm": 0.029622912406921387, "global_step": 526, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 0.9557881355285645, "train_loss_dp": 0.953894853591919, "train_loss_llm": 0.1893301010131836, "global_step": 527, "epoch": 0, "lr": 6.6e-06}
+{"train_loss": 1.048500895500183, "train_loss_dp": 1.0478572845458984, "train_loss_llm": 0.06435775756835938, "global_step": 528, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.9404503107070923, "train_loss_dp": 0.9400075674057007, "train_loss_llm": 0.044272422790527344, "global_step": 529, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.9580153226852417, "train_loss_dp": 0.9577423334121704, "train_loss_llm": 0.0272979736328125, "global_step": 530, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.090199589729309, "train_loss_dp": 1.090199589729309, "train_loss_llm": 0.0, "global_step": 531, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.8036215901374817, "train_loss_dp": 0.8036215901374817, "train_loss_llm": 0.0, "global_step": 532, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.1459730863571167, "train_loss_dp": 1.1456716060638428, "train_loss_llm": 0.03015083074569702, "global_step": 533, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.0748716592788696, "train_loss_dp": 1.0736660957336426, "train_loss_llm": 0.1205596923828125, "global_step": 534, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.9568662047386169, "train_loss_dp": 0.9538895487785339, "train_loss_llm": 0.29766273498535156, "global_step": 535, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.0705785751342773, "train_loss_dp": 1.0670757293701172, "train_loss_llm": 0.35028076171875, "global_step": 536, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.3542084693908691, "train_loss_dp": 1.3496352434158325, "train_loss_llm": 0.4573187828063965, "global_step": 537, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.9035590291023254, "train_loss_dp": 0.9017425775527954, "train_loss_llm": 0.18164649605751038, "global_step": 538, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.1273634433746338, "train_loss_dp": 1.1264550685882568, "train_loss_llm": 0.09083902835845947, "global_step": 539, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 0.923294186592102, "train_loss_dp": 0.9227406978607178, "train_loss_llm": 0.05535101890563965, "global_step": 540, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.0284653902053833, "train_loss_dp": 1.023521065711975, "train_loss_llm": 0.4944312572479248, "global_step": 541, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.0448052883148193, "train_loss_dp": 1.0406864881515503, "train_loss_llm": 0.4118766784667969, "global_step": 542, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.217057466506958, "train_loss_dp": 1.215759038925171, "train_loss_llm": 0.1298445463180542, "global_step": 543, "epoch": 0, "lr": 6.800000000000001e-06}
+{"train_loss": 1.0845245122909546, "train_loss_dp": 1.080873966217041, "train_loss_llm": 0.3650503158569336, "global_step": 544, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.8743059635162354, "train_loss_dp": 0.8711053133010864, "train_loss_llm": 0.32006263732910156, "global_step": 545, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.9920938611030579, "train_loss_dp": 0.991206705570221, "train_loss_llm": 0.08871519565582275, "global_step": 546, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.1644355058670044, "train_loss_dp": 1.1629823446273804, "train_loss_llm": 0.14531898498535156, "global_step": 547, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.0600781440734863, "train_loss_dp": 1.058914065361023, "train_loss_llm": 0.1164093017578125, "global_step": 548, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.0033456087112427, "train_loss_dp": 1.0031564235687256, "train_loss_llm": 0.018917560577392578, "global_step": 549, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.154154896736145, "train_loss_dp": 1.1466188430786133, "train_loss_llm": 0.7536089420318604, "global_step": 550, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.8570472002029419, "train_loss_dp": 0.8567469716072083, "train_loss_llm": 0.030023574829101562, "global_step": 551, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.9067334532737732, "train_loss_dp": 0.9048169851303101, "train_loss_llm": 0.19164705276489258, "global_step": 552, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.2103114128112793, "train_loss_dp": 1.2103114128112793, "train_loss_llm": 0.0, "global_step": 553, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.2504756450653076, "train_loss_dp": 1.2501115798950195, "train_loss_llm": 0.036411285400390625, "global_step": 554, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.9644351005554199, "train_loss_dp": 0.9644351005554199, "train_loss_llm": 0.0, "global_step": 555, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.0758984088897705, "train_loss_dp": 1.0735687017440796, "train_loss_llm": 0.23297524452209473, "global_step": 556, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.9579117894172668, "train_loss_dp": 0.9573190808296204, "train_loss_llm": 0.05927169322967529, "global_step": 557, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 0.8591855764389038, "train_loss_dp": 0.849086582660675, "train_loss_llm": 1.009902000427246, "global_step": 558, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.1379148960113525, "train_loss_dp": 1.1379148960113525, "train_loss_llm": 0.0, "global_step": 559, "epoch": 0, "lr": 7.000000000000001e-06}
+{"train_loss": 1.0010076761245728, "train_loss_dp": 0.9988159537315369, "train_loss_llm": 0.21917343139648438, "global_step": 560, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.3607276678085327, "train_loss_dp": 1.357803225517273, "train_loss_llm": 0.2924470901489258, "global_step": 561, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.9998550415039062, "train_loss_dp": 0.9996465444564819, "train_loss_llm": 0.02084827423095703, "global_step": 562, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.795800507068634, "train_loss_dp": 0.795800507068634, "train_loss_llm": 0.0, "global_step": 563, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.9031098484992981, "train_loss_dp": 0.9014253616333008, "train_loss_llm": 0.16844916343688965, "global_step": 564, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.079998254776001, "train_loss_dp": 1.0795124769210815, "train_loss_llm": 0.04857492446899414, "global_step": 565, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.1150521039962769, "train_loss_dp": 1.1135607957839966, "train_loss_llm": 0.14913439750671387, "global_step": 566, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.1786730289459229, "train_loss_dp": 1.1776527166366577, "train_loss_llm": 0.10202622413635254, "global_step": 567, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.8935935497283936, "train_loss_dp": 0.8935935497283936, "train_loss_llm": 0.0, "global_step": 568, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.320431113243103, "train_loss_dp": 1.320052981376648, "train_loss_llm": 0.037815093994140625, "global_step": 569, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.0802996158599854, "train_loss_dp": 1.0802996158599854, "train_loss_llm": 0.0, "global_step": 570, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.1917284727096558, "train_loss_dp": 1.1904172897338867, "train_loss_llm": 0.1311187744140625, "global_step": 571, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.9411210417747498, "train_loss_dp": 0.9392064213752747, "train_loss_llm": 0.19146060943603516, "global_step": 572, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.1202994585037231, "train_loss_dp": 1.1193217039108276, "train_loss_llm": 0.09778058528900146, "global_step": 573, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 0.8634345531463623, "train_loss_dp": 0.8634345531463623, "train_loss_llm": 0.0, "global_step": 574, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.0975029468536377, "train_loss_dp": 1.0972881317138672, "train_loss_llm": 0.021485328674316406, "global_step": 575, "epoch": 0, "lr": 7.2e-06}
+{"train_loss": 1.014265775680542, "train_loss_dp": 1.012790560722351, "train_loss_llm": 0.14751672744750977, "global_step": 576, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.194125771522522, "train_loss_dp": 1.1940010786056519, "train_loss_llm": 0.0124664306640625, "global_step": 577, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.9219204783439636, "train_loss_dp": 0.9218589067459106, "train_loss_llm": 0.0061550140380859375, "global_step": 578, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.1837259531021118, "train_loss_dp": 1.1821775436401367, "train_loss_llm": 0.15484189987182617, "global_step": 579, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.047826886177063, "train_loss_dp": 1.0466675758361816, "train_loss_llm": 0.11592698097229004, "global_step": 580, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.9169875383377075, "train_loss_dp": 0.9166935682296753, "train_loss_llm": 0.029397010803222656, "global_step": 581, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.0324536561965942, "train_loss_dp": 1.0319628715515137, "train_loss_llm": 0.04908037185668945, "global_step": 582, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.8015095591545105, "train_loss_dp": 0.8008933067321777, "train_loss_llm": 0.061628103256225586, "global_step": 583, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.8449036478996277, "train_loss_dp": 0.8423994779586792, "train_loss_llm": 0.25041770935058594, "global_step": 584, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.9067438840866089, "train_loss_dp": 0.9067438840866089, "train_loss_llm": 0.0, "global_step": 585, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.2897131443023682, "train_loss_dp": 1.2865544557571411, "train_loss_llm": 0.3158702850341797, "global_step": 586, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.0154633522033691, "train_loss_dp": 1.0154633522033691, "train_loss_llm": 0.0, "global_step": 587, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.8523361682891846, "train_loss_dp": 0.8521155714988708, "train_loss_llm": 0.022057771682739258, "global_step": 588, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.255050539970398, "train_loss_dp": 1.252812147140503, "train_loss_llm": 0.22384023666381836, "global_step": 589, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 1.1043422222137451, "train_loss_dp": 1.1043422222137451, "train_loss_llm": 0.0, "global_step": 590, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.9606875777244568, "train_loss_dp": 0.9601746797561646, "train_loss_llm": 0.051288604736328125, "global_step": 591, "epoch": 0, "lr": 7.4e-06}
+{"train_loss": 0.7860990762710571, "train_loss_dp": 0.7854709625244141, "train_loss_llm": 0.0628092885017395, "global_step": 592, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.7772730588912964, "train_loss_dp": 0.7763429880142212, "train_loss_llm": 0.09300661087036133, "global_step": 593, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.9660094380378723, "train_loss_dp": 0.9631996154785156, "train_loss_llm": 0.28098011016845703, "global_step": 594, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 1.172027349472046, "train_loss_dp": 1.172027349472046, "train_loss_llm": 0.0, "global_step": 595, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 1.0433965921401978, "train_loss_dp": 1.0424879789352417, "train_loss_llm": 0.0908581018447876, "global_step": 596, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 1.0876425504684448, "train_loss_dp": 1.0853285789489746, "train_loss_llm": 0.23140239715576172, "global_step": 597, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 1.0492712259292603, "train_loss_dp": 1.0463502407073975, "train_loss_llm": 0.29209792613983154, "global_step": 598, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 1.3077439069747925, "train_loss_dp": 1.3056981563568115, "train_loss_llm": 0.20457077026367188, "global_step": 599, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 1.1001358032226562, "train_loss_dp": 1.1001358032226562, "train_loss_llm": 0.0, "global_step": 600, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.8413584232330322, "train_loss_dp": 0.8358109593391418, "train_loss_llm": 0.5547466278076172, "global_step": 601, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 1.1598811149597168, "train_loss_dp": 1.1598811149597168, "train_loss_llm": 0.0, "global_step": 602, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 1.082939863204956, "train_loss_dp": 1.080988883972168, "train_loss_llm": 0.1950991153717041, "global_step": 603, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.9521635174751282, "train_loss_dp": 0.9521635174751282, "train_loss_llm": 0.0, "global_step": 604, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 1.0120493173599243, "train_loss_dp": 1.0116748809814453, "train_loss_llm": 0.03743940591812134, "global_step": 605, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 0.8317398428916931, "train_loss_dp": 0.8311119675636292, "train_loss_llm": 0.06278753280639648, "global_step": 606, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 1.1209455728530884, "train_loss_dp": 1.1189509630203247, "train_loss_llm": 0.199462890625, "global_step": 607, "epoch": 0, "lr": 7.6e-06}
+{"train_loss": 1.0065406560897827, "train_loss_dp": 1.0056581497192383, "train_loss_llm": 0.08825445175170898, "global_step": 608, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.9024376273155212, "train_loss_dp": 0.9011169672012329, "train_loss_llm": 0.13206642866134644, "global_step": 609, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 1.2713040113449097, "train_loss_dp": 1.2702845335006714, "train_loss_llm": 0.10195362567901611, "global_step": 610, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 1.045237421989441, "train_loss_dp": 1.0449122190475464, "train_loss_llm": 0.032520294189453125, "global_step": 611, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.9869362115859985, "train_loss_dp": 0.9778975248336792, "train_loss_llm": 0.9038658142089844, "global_step": 612, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.9779132008552551, "train_loss_dp": 0.9777107238769531, "train_loss_llm": 0.0202484130859375, "global_step": 613, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.8777096271514893, "train_loss_dp": 0.8773274421691895, "train_loss_llm": 0.03821563720703125, "global_step": 614, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 1.068512201309204, "train_loss_dp": 1.0667312145233154, "train_loss_llm": 0.17809391021728516, "global_step": 615, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 1.156733751296997, "train_loss_dp": 1.1538569927215576, "train_loss_llm": 0.28767871856689453, "global_step": 616, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.7451387643814087, "train_loss_dp": 0.7445482015609741, "train_loss_llm": 0.059055328369140625, "global_step": 617, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 1.1606221199035645, "train_loss_dp": 1.1590602397918701, "train_loss_llm": 0.15619206428527832, "global_step": 618, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 1.0397310256958008, "train_loss_dp": 1.0377986431121826, "train_loss_llm": 0.19324350357055664, "global_step": 619, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.9725923538208008, "train_loss_dp": 0.9725923538208008, "train_loss_llm": 0.0, "global_step": 620, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 1.0113805532455444, "train_loss_dp": 1.0089998245239258, "train_loss_llm": 0.23807382583618164, "global_step": 621, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 1.0212483406066895, "train_loss_dp": 1.0212483406066895, "train_loss_llm": 0.0, "global_step": 622, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 1.0747157335281372, "train_loss_dp": 1.0742266178131104, "train_loss_llm": 0.04891610145568848, "global_step": 623, "epoch": 0, "lr": 7.8e-06}
+{"train_loss": 0.896666407585144, "train_loss_dp": 0.896119236946106, "train_loss_llm": 0.05471515655517578, "global_step": 624, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.982490599155426, "train_loss_dp": 0.98119056224823, "train_loss_llm": 0.13000094890594482, "global_step": 625, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.801644504070282, "train_loss_dp": 0.8002924919128418, "train_loss_llm": 0.13520312309265137, "global_step": 626, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 1.099941372871399, "train_loss_dp": 1.0987365245819092, "train_loss_llm": 0.12048673629760742, "global_step": 627, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.832889974117279, "train_loss_dp": 0.8322442770004272, "train_loss_llm": 0.06456780433654785, "global_step": 628, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 1.1284971237182617, "train_loss_dp": 1.1284971237182617, "train_loss_llm": 0.0, "global_step": 629, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 1.0659114122390747, "train_loss_dp": 1.0650815963745117, "train_loss_llm": 0.08298110961914062, "global_step": 630, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.8803288340568542, "train_loss_dp": 0.8795766830444336, "train_loss_llm": 0.07521641254425049, "global_step": 631, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.9863966703414917, "train_loss_dp": 0.9863966703414917, "train_loss_llm": 0.0, "global_step": 632, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.8543166518211365, "train_loss_dp": 0.8537230491638184, "train_loss_llm": 0.05936098098754883, "global_step": 633, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 1.0135934352874756, "train_loss_dp": 1.0106849670410156, "train_loss_llm": 0.29084110260009766, "global_step": 634, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 1.0896028280258179, "train_loss_dp": 1.0882141590118408, "train_loss_llm": 0.13886380195617676, "global_step": 635, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.9899018406867981, "train_loss_dp": 0.987582802772522, "train_loss_llm": 0.23190295696258545, "global_step": 636, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 1.1194021701812744, "train_loss_dp": 1.1190381050109863, "train_loss_llm": 0.0364072322845459, "global_step": 637, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.692663311958313, "train_loss_dp": 0.6917513608932495, "train_loss_llm": 0.09119510650634766, "global_step": 638, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.9901667833328247, "train_loss_dp": 0.9896924495697021, "train_loss_llm": 0.04743087291717529, "global_step": 639, "epoch": 0, "lr": 8.000000000000001e-06}
+{"train_loss": 0.9975784420967102, "train_loss_dp": 0.9956428408622742, "train_loss_llm": 0.1935596466064453, "global_step": 640, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 1.0136268138885498, "train_loss_dp": 1.0130066871643066, "train_loss_llm": 0.062012314796447754, "global_step": 641, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 1.2162671089172363, "train_loss_dp": 1.2153054475784302, "train_loss_llm": 0.09616708755493164, "global_step": 642, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.7141002416610718, "train_loss_dp": 0.7134092450141907, "train_loss_llm": 0.06910133361816406, "global_step": 643, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 1.0098294019699097, "train_loss_dp": 1.0093660354614258, "train_loss_llm": 0.04633522033691406, "global_step": 644, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.8521380424499512, "train_loss_dp": 0.8499095439910889, "train_loss_llm": 0.22284889221191406, "global_step": 645, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.8874288201332092, "train_loss_dp": 0.8830254673957825, "train_loss_llm": 0.44033360481262207, "global_step": 646, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.7999067306518555, "train_loss_dp": 0.7974313497543335, "train_loss_llm": 0.24753952026367188, "global_step": 647, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.7395158410072327, "train_loss_dp": 0.7382455468177795, "train_loss_llm": 0.1270296573638916, "global_step": 648, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.9412859082221985, "train_loss_dp": 0.9412190914154053, "train_loss_llm": 0.006679534912109375, "global_step": 649, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 1.0503063201904297, "train_loss_dp": 1.0502510070800781, "train_loss_llm": 0.00553131103515625, "global_step": 650, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.8299981951713562, "train_loss_dp": 0.8267557621002197, "train_loss_llm": 0.32424163818359375, "global_step": 651, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.822091281414032, "train_loss_dp": 0.8219754099845886, "train_loss_llm": 0.011587798595428467, "global_step": 652, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.8969417214393616, "train_loss_dp": 0.8956699371337891, "train_loss_llm": 0.12717819213867188, "global_step": 653, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 1.1144664287567139, "train_loss_dp": 1.1132792234420776, "train_loss_llm": 0.11871480941772461, "global_step": 654, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 0.8658546209335327, "train_loss_dp": 0.8644806146621704, "train_loss_llm": 0.13739871978759766, "global_step": 655, "epoch": 0, "lr": 8.200000000000001e-06}
+{"train_loss": 1.1226024627685547, "train_loss_dp": 1.1186984777450562, "train_loss_llm": 0.3903999328613281, "global_step": 656, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 0.8993902802467346, "train_loss_dp": 0.8982341289520264, "train_loss_llm": 0.1156158447265625, "global_step": 657, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 0.9432252645492554, "train_loss_dp": 0.9429515600204468, "train_loss_llm": 0.027370452880859375, "global_step": 658, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 0.795924961566925, "train_loss_dp": 0.7954237461090088, "train_loss_llm": 0.05012321472167969, "global_step": 659, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 1.084287405014038, "train_loss_dp": 1.0774884223937988, "train_loss_llm": 0.6798934936523438, "global_step": 660, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 0.8572847843170166, "train_loss_dp": 0.856304407119751, "train_loss_llm": 0.09804010391235352, "global_step": 661, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 1.036807894706726, "train_loss_dp": 1.0357240438461304, "train_loss_llm": 0.1083822250366211, "global_step": 662, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 1.125869631767273, "train_loss_dp": 1.124481201171875, "train_loss_llm": 0.13884377479553223, "global_step": 663, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 0.8755372166633606, "train_loss_dp": 0.8755372166633606, "train_loss_llm": 0.0, "global_step": 664, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 0.9894601106643677, "train_loss_dp": 0.989418625831604, "train_loss_llm": 0.004150390625, "global_step": 665, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 1.0703359842300415, "train_loss_dp": 1.0688542127609253, "train_loss_llm": 0.1481790542602539, "global_step": 666, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 0.9618496894836426, "train_loss_dp": 0.9612653255462646, "train_loss_llm": 0.0584372878074646, "global_step": 667, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 0.969132661819458, "train_loss_dp": 0.96819007396698, "train_loss_llm": 0.09426116943359375, "global_step": 668, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 1.1030442714691162, "train_loss_dp": 1.1030442714691162, "train_loss_llm": 0.0, "global_step": 669, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 1.0601933002471924, "train_loss_dp": 1.05935800075531, "train_loss_llm": 0.08353137969970703, "global_step": 670, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 1.0065369606018066, "train_loss_dp": 1.006425380706787, "train_loss_llm": 0.011157035827636719, "global_step": 671, "epoch": 0, "lr": 8.400000000000001e-06}
+{"train_loss": 1.28668212890625, "train_loss_dp": 1.286461591720581, "train_loss_llm": 0.022050976753234863, "global_step": 672, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.9209328293800354, "train_loss_dp": 0.9200446009635925, "train_loss_llm": 0.08882331848144531, "global_step": 673, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 1.0264902114868164, "train_loss_dp": 1.0264902114868164, "train_loss_llm": 0.0, "global_step": 674, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.9763395190238953, "train_loss_dp": 0.9751856923103333, "train_loss_llm": 0.11538335680961609, "global_step": 675, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.8436320424079895, "train_loss_dp": 0.8421736359596252, "train_loss_llm": 0.14584136009216309, "global_step": 676, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 1.0791120529174805, "train_loss_dp": 1.079081416130066, "train_loss_llm": 0.0030663013458251953, "global_step": 677, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 1.1140722036361694, "train_loss_dp": 1.111459732055664, "train_loss_llm": 0.2612419128417969, "global_step": 678, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.9166891574859619, "train_loss_dp": 0.915807843208313, "train_loss_llm": 0.08813393115997314, "global_step": 679, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 1.0834420919418335, "train_loss_dp": 1.0826222896575928, "train_loss_llm": 0.08198502659797668, "global_step": 680, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 1.0534535646438599, "train_loss_dp": 1.0530931949615479, "train_loss_llm": 0.03603219985961914, "global_step": 681, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.976310133934021, "train_loss_dp": 0.976310133934021, "train_loss_llm": 0.0, "global_step": 682, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 1.0005892515182495, "train_loss_dp": 0.9999165534973145, "train_loss_llm": 0.06726741790771484, "global_step": 683, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 1.1810014247894287, "train_loss_dp": 1.1790032386779785, "train_loss_llm": 0.19982337951660156, "global_step": 684, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.9738237857818604, "train_loss_dp": 0.9725528955459595, "train_loss_llm": 0.12708711624145508, "global_step": 685, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 0.923803448677063, "train_loss_dp": 0.9235144853591919, "train_loss_llm": 0.028893589973449707, "global_step": 686, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 1.3392574787139893, "train_loss_dp": 1.3392574787139893, "train_loss_llm": 0.0, "global_step": 687, "epoch": 0, "lr": 8.599999999999999e-06}
+{"train_loss": 1.125694990158081, "train_loss_dp": 1.125694990158081, "train_loss_llm": 0.0, "global_step": 688, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 1.0425547361373901, "train_loss_dp": 1.0419366359710693, "train_loss_llm": 0.061808109283447266, "global_step": 689, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 0.9418479800224304, "train_loss_dp": 0.9402489066123962, "train_loss_llm": 0.15990912914276123, "global_step": 690, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 0.7191391587257385, "train_loss_dp": 0.7175773978233337, "train_loss_llm": 0.15617644786834717, "global_step": 691, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 1.0792245864868164, "train_loss_dp": 1.0756323337554932, "train_loss_llm": 0.35922908782958984, "global_step": 692, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 1.039655089378357, "train_loss_dp": 1.039036750793457, "train_loss_llm": 0.06183624267578125, "global_step": 693, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 0.7120667695999146, "train_loss_dp": 0.7115623950958252, "train_loss_llm": 0.05043935775756836, "global_step": 694, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 0.9339311718940735, "train_loss_dp": 0.9335889220237732, "train_loss_llm": 0.03422421216964722, "global_step": 695, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 0.9522877931594849, "train_loss_dp": 0.9510077238082886, "train_loss_llm": 0.12800931930541992, "global_step": 696, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 1.1882611513137817, "train_loss_dp": 1.1880757808685303, "train_loss_llm": 0.018537044525146484, "global_step": 697, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 1.1011713743209839, "train_loss_dp": 1.0991498231887817, "train_loss_llm": 0.20215535163879395, "global_step": 698, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 0.9990727305412292, "train_loss_dp": 0.9990727305412292, "train_loss_llm": 0.0, "global_step": 699, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 0.807520866394043, "train_loss_dp": 0.8065696954727173, "train_loss_llm": 0.09511566162109375, "global_step": 700, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 1.1182986497879028, "train_loss_dp": 1.103995680809021, "train_loss_llm": 1.430302619934082, "global_step": 701, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 1.187330961227417, "train_loss_dp": 1.1840717792510986, "train_loss_llm": 0.3259148597717285, "global_step": 702, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 1.085451602935791, "train_loss_dp": 1.0756365060806274, "train_loss_llm": 0.9815101623535156, "global_step": 703, "epoch": 0, "lr": 8.8e-06}
+{"train_loss": 0.7789636254310608, "train_loss_dp": 0.7775712609291077, "train_loss_llm": 0.1392350196838379, "global_step": 704, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.8654358386993408, "train_loss_dp": 0.8643876314163208, "train_loss_llm": 0.10481786727905273, "global_step": 705, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.9638532400131226, "train_loss_dp": 0.9638532400131226, "train_loss_llm": 0.0, "global_step": 706, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.97742760181427, "train_loss_dp": 0.9762518405914307, "train_loss_llm": 0.11757779121398926, "global_step": 707, "epoch": 0, "lr": 9e-06}
+{"train_loss": 1.1079846620559692, "train_loss_dp": 1.1063580513000488, "train_loss_llm": 0.16265904903411865, "global_step": 708, "epoch": 0, "lr": 9e-06}
+{"train_loss": 1.124813437461853, "train_loss_dp": 1.1247589588165283, "train_loss_llm": 0.005449116230010986, "global_step": 709, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.8837010860443115, "train_loss_dp": 0.8817552328109741, "train_loss_llm": 0.19458484649658203, "global_step": 710, "epoch": 0, "lr": 9e-06}
+{"train_loss": 1.1449388265609741, "train_loss_dp": 1.1447210311889648, "train_loss_llm": 0.021782875061035156, "global_step": 711, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.9078657031059265, "train_loss_dp": 0.9070391058921814, "train_loss_llm": 0.08266258239746094, "global_step": 712, "epoch": 0, "lr": 9e-06}
+{"train_loss": 1.2886806726455688, "train_loss_dp": 1.2880734205245972, "train_loss_llm": 0.06073105335235596, "global_step": 713, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.9600349068641663, "train_loss_dp": 0.9597456455230713, "train_loss_llm": 0.028927326202392578, "global_step": 714, "epoch": 0, "lr": 9e-06}
+{"train_loss": 1.1541566848754883, "train_loss_dp": 1.1494981050491333, "train_loss_llm": 0.46585750579833984, "global_step": 715, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.9631051421165466, "train_loss_dp": 0.9603559374809265, "train_loss_llm": 0.2749214172363281, "global_step": 716, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.9886922836303711, "train_loss_dp": 0.9886922836303711, "train_loss_llm": 0.0, "global_step": 717, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.9220592379570007, "train_loss_dp": 0.921129584312439, "train_loss_llm": 0.09296739101409912, "global_step": 718, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.9346582889556885, "train_loss_dp": 0.9323338270187378, "train_loss_llm": 0.23244667053222656, "global_step": 719, "epoch": 0, "lr": 9e-06}
+{"train_loss": 0.9313977956771851, "train_loss_dp": 0.9303138256072998, "train_loss_llm": 0.10839653015136719, "global_step": 720, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 0.9149860739707947, "train_loss_dp": 0.9131818413734436, "train_loss_llm": 0.18042612075805664, "global_step": 721, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 1.0548979043960571, "train_loss_dp": 1.0538356304168701, "train_loss_llm": 0.10622406005859375, "global_step": 722, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 0.8751672506332397, "train_loss_dp": 0.8751672506332397, "train_loss_llm": 0.0, "global_step": 723, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 1.0096222162246704, "train_loss_dp": 1.0081945657730103, "train_loss_llm": 0.1427597999572754, "global_step": 724, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 1.1107820272445679, "train_loss_dp": 1.1067404747009277, "train_loss_llm": 0.4041557312011719, "global_step": 725, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 0.9962999820709229, "train_loss_dp": 0.995954155921936, "train_loss_llm": 0.03458094596862793, "global_step": 726, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 0.9895261526107788, "train_loss_dp": 0.9886770248413086, "train_loss_llm": 0.08491158485412598, "global_step": 727, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 1.1912227869033813, "train_loss_dp": 1.1873602867126465, "train_loss_llm": 0.3862447738647461, "global_step": 728, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 0.9366231560707092, "train_loss_dp": 0.9366231560707092, "train_loss_llm": 0.0, "global_step": 729, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 1.1623258590698242, "train_loss_dp": 1.1621150970458984, "train_loss_llm": 0.021070480346679688, "global_step": 730, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 1.0026246309280396, "train_loss_dp": 0.9878373146057129, "train_loss_llm": 1.4787368774414062, "global_step": 731, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 1.2030689716339111, "train_loss_dp": 1.2008883953094482, "train_loss_llm": 0.21806156635284424, "global_step": 732, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 1.121324062347412, "train_loss_dp": 1.1203553676605225, "train_loss_llm": 0.09687137603759766, "global_step": 733, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 0.8992111682891846, "train_loss_dp": 0.8972645998001099, "train_loss_llm": 0.19465422630310059, "global_step": 734, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 0.8767070174217224, "train_loss_dp": 0.8754476308822632, "train_loss_llm": 0.12593793869018555, "global_step": 735, "epoch": 0, "lr": 9.2e-06}
+{"train_loss": 0.9428665041923523, "train_loss_dp": 0.9414860010147095, "train_loss_llm": 0.13804912567138672, "global_step": 736, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 1.1041618585586548, "train_loss_dp": 1.103112816810608, "train_loss_llm": 0.10490965843200684, "global_step": 737, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 0.9103262424468994, "train_loss_dp": 0.9073371887207031, "train_loss_llm": 0.2989082336425781, "global_step": 738, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 0.8857919573783875, "train_loss_dp": 0.8852736353874207, "train_loss_llm": 0.0518341064453125, "global_step": 739, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 1.0742028951644897, "train_loss_dp": 1.0734326839447021, "train_loss_llm": 0.07702469825744629, "global_step": 740, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 1.076619267463684, "train_loss_dp": 1.0758854150772095, "train_loss_llm": 0.07338595390319824, "global_step": 741, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 1.038784146308899, "train_loss_dp": 1.036631464958191, "train_loss_llm": 0.21526527404785156, "global_step": 742, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 1.036011815071106, "train_loss_dp": 1.0353727340698242, "train_loss_llm": 0.06390905380249023, "global_step": 743, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 0.8742907643318176, "train_loss_dp": 0.8705474138259888, "train_loss_llm": 0.37433624267578125, "global_step": 744, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 1.088211178779602, "train_loss_dp": 1.0876965522766113, "train_loss_llm": 0.051464080810546875, "global_step": 745, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 1.1088505983352661, "train_loss_dp": 1.1084177494049072, "train_loss_llm": 0.04328727722167969, "global_step": 746, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 1.105630874633789, "train_loss_dp": 1.105630874633789, "train_loss_llm": 0.0, "global_step": 747, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 1.097973346710205, "train_loss_dp": 1.0915535688400269, "train_loss_llm": 0.6419830322265625, "global_step": 748, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 0.983899712562561, "train_loss_dp": 0.9824258685112, "train_loss_llm": 0.14738702774047852, "global_step": 749, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 1.0381461381912231, "train_loss_dp": 1.035902738571167, "train_loss_llm": 0.22434234619140625, "global_step": 750, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 0.8177445530891418, "train_loss_dp": 0.8173452019691467, "train_loss_llm": 0.03993704915046692, "global_step": 751, "epoch": 0, "lr": 9.4e-06}
+{"train_loss": 0.9129267334938049, "train_loss_dp": 0.9109728932380676, "train_loss_llm": 0.19538116455078125, "global_step": 752, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.8680353760719299, "train_loss_dp": 0.8667558431625366, "train_loss_llm": 0.12795531749725342, "global_step": 753, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.8354830741882324, "train_loss_dp": 0.8338637351989746, "train_loss_llm": 0.16193294525146484, "global_step": 754, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.8910483717918396, "train_loss_dp": 0.890310525894165, "train_loss_llm": 0.07378524541854858, "global_step": 755, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.8071476221084595, "train_loss_dp": 0.8051939010620117, "train_loss_llm": 0.19536995887756348, "global_step": 756, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.83885258436203, "train_loss_dp": 0.8382127285003662, "train_loss_llm": 0.06398707628250122, "global_step": 757, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.9050302505493164, "train_loss_dp": 0.9042891263961792, "train_loss_llm": 0.0741119384765625, "global_step": 758, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.7445722818374634, "train_loss_dp": 0.7413748502731323, "train_loss_llm": 0.31974029541015625, "global_step": 759, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.7596871852874756, "train_loss_dp": 0.7588980197906494, "train_loss_llm": 0.0789194107055664, "global_step": 760, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.9577436447143555, "train_loss_dp": 0.9577436447143555, "train_loss_llm": 0.0, "global_step": 761, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 1.0543557405471802, "train_loss_dp": 1.0537683963775635, "train_loss_llm": 0.05873310565948486, "global_step": 762, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.8657047748565674, "train_loss_dp": 0.865241289138794, "train_loss_llm": 0.046347856521606445, "global_step": 763, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.9583941102027893, "train_loss_dp": 0.9573349952697754, "train_loss_llm": 0.1059112548828125, "global_step": 764, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.8484659790992737, "train_loss_dp": 0.8475766181945801, "train_loss_llm": 0.08893871307373047, "global_step": 765, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.9445717334747314, "train_loss_dp": 0.9439989328384399, "train_loss_llm": 0.057281494140625, "global_step": 766, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 0.7965412139892578, "train_loss_dp": 0.7962546348571777, "train_loss_llm": 0.028656005859375, "global_step": 767, "epoch": 0, "lr": 9.600000000000001e-06}
+{"train_loss": 1.0154204368591309, "train_loss_dp": 1.0140749216079712, "train_loss_llm": 0.1345539093017578, "global_step": 768, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.9606810808181763, "train_loss_dp": 0.9590073227882385, "train_loss_llm": 0.1673736572265625, "global_step": 769, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.9575592279434204, "train_loss_dp": 0.9575592279434204, "train_loss_llm": 0.0, "global_step": 770, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.9124851226806641, "train_loss_dp": 0.9110487103462219, "train_loss_llm": 0.14363962411880493, "global_step": 771, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.9155088663101196, "train_loss_dp": 0.911449670791626, "train_loss_llm": 0.4059181213378906, "global_step": 772, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.8294035792350769, "train_loss_dp": 0.8287472128868103, "train_loss_llm": 0.06563782691955566, "global_step": 773, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.8714364171028137, "train_loss_dp": 0.8699557781219482, "train_loss_llm": 0.14806556701660156, "global_step": 774, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 1.001928448677063, "train_loss_dp": 1.0019044876098633, "train_loss_llm": 0.0023958683013916016, "global_step": 775, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 1.0915087461471558, "train_loss_dp": 1.0905207395553589, "train_loss_llm": 0.09880542755126953, "global_step": 776, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 1.2581051588058472, "train_loss_dp": 1.2547242641448975, "train_loss_llm": 0.33808469772338867, "global_step": 777, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.8427091240882874, "train_loss_dp": 0.840345025062561, "train_loss_llm": 0.23640823364257812, "global_step": 778, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.9710825085639954, "train_loss_dp": 0.9704544544219971, "train_loss_llm": 0.0628042221069336, "global_step": 779, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.9183794856071472, "train_loss_dp": 0.9172917008399963, "train_loss_llm": 0.10877704620361328, "global_step": 780, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 1.034525752067566, "train_loss_dp": 1.0337681770324707, "train_loss_llm": 0.07575583457946777, "global_step": 781, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.9788971543312073, "train_loss_dp": 0.9786304831504822, "train_loss_llm": 0.026667118072509766, "global_step": 782, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.9230281114578247, "train_loss_dp": 0.9230281114578247, "train_loss_llm": 0.0, "global_step": 783, "epoch": 0, "lr": 9.800000000000001e-06}
+{"train_loss": 0.7704855799674988, "train_loss_dp": 0.7693674564361572, "train_loss_llm": 0.11181211471557617, "global_step": 784, "epoch": 0, "lr": 1e-05}
+{"train_loss": 1.0373122692108154, "train_loss_dp": 1.0367705821990967, "train_loss_llm": 0.05417299270629883, "global_step": 785, "epoch": 0, "lr": 1e-05}
+{"train_loss": 1.0203170776367188, "train_loss_dp": 1.0199568271636963, "train_loss_llm": 0.036025047302246094, "global_step": 786, "epoch": 0, "lr": 1e-05}
+{"train_loss": 0.8097372055053711, "train_loss_dp": 0.8086682558059692, "train_loss_llm": 0.10689449310302734, "global_step": 787, "epoch": 0, "lr": 1e-05}
+{"train_loss": 0.9005808234214783, "train_loss_dp": 0.896920919418335, "train_loss_llm": 0.36598777770996094, "global_step": 788, "epoch": 0, "lr": 1e-05}
+{"train_loss": 1.0256364345550537, "train_loss_dp": 1.025368571281433, "train_loss_llm": 0.02679133415222168, "global_step": 789, "epoch": 0, "lr": 1e-05}
+{"train_loss": 0.9585587978363037, "train_loss_dp": 0.9576152563095093, "train_loss_llm": 0.09435701370239258, "global_step": 790, "epoch": 0, "lr": 1e-05}
+{"train_loss": 1.0817079544067383, "train_loss_dp": 1.0817079544067383, "train_loss_llm": 0.0, "global_step": 791, "epoch": 0, "lr": 1e-05}
+{"train_loss": 1.029040813446045, "train_loss_dp": 1.029040813446045, "train_loss_llm": 0.0, "global_step": 792, "epoch": 0, "lr": 1e-05}
+{"train_loss": 1.0042662620544434, "train_loss_dp": 1.0041873455047607, "train_loss_llm": 0.007897377014160156, "global_step": 793, "epoch": 0, "lr": 1e-05}
+{"train_loss": 0.9672835469245911, "train_loss_dp": 0.966438889503479, "train_loss_llm": 0.08446598052978516, "global_step": 794, "epoch": 0, "lr": 1e-05}
+{"train_loss": 1.0460559129714966, "train_loss_dp": 1.0438129901885986, "train_loss_llm": 0.2242889404296875, "global_step": 795, "epoch": 0, "lr": 1e-05}
+{"train_loss": 0.8736008405685425, "train_loss_dp": 0.8733491897583008, "train_loss_llm": 0.02516651153564453, "global_step": 796, "epoch": 0, "lr": 1e-05}
+{"train_loss": 0.759955883026123, "train_loss_dp": 0.759955883026123, "train_loss_llm": 0.0, "global_step": 797, "epoch": 0, "lr": 1e-05}
+{"train_loss": 1.0226880311965942, "train_loss_dp": 1.02207612991333, "train_loss_llm": 0.06118762493133545, "global_step": 798, "epoch": 0, "lr": 1e-05}
+{"train_loss": 0.8972494006156921, "train_loss_dp": 0.8963442444801331, "train_loss_llm": 0.09051513671875, "global_step": 799, "epoch": 0, "lr": 1e-05}
+{"train_loss": 0.8544427156448364, "train_loss_dp": 0.8542086482048035, "train_loss_llm": 0.02340841293334961, "global_step": 800, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 1.0103542804718018, "train_loss_dp": 1.0095579624176025, "train_loss_llm": 0.07962870597839355, "global_step": 801, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 1.1912559270858765, "train_loss_dp": 1.1893713474273682, "train_loss_llm": 0.1884613037109375, "global_step": 802, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 1.0484192371368408, "train_loss_dp": 1.0461502075195312, "train_loss_llm": 0.22690367698669434, "global_step": 803, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 1.0210046768188477, "train_loss_dp": 1.019852876663208, "train_loss_llm": 0.11517953872680664, "global_step": 804, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.9627203345298767, "train_loss_dp": 0.9606941342353821, "train_loss_llm": 0.2026214599609375, "global_step": 805, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.8162954449653625, "train_loss_dp": 0.8157467842102051, "train_loss_llm": 0.05486631393432617, "global_step": 806, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 1.0251572132110596, "train_loss_dp": 1.0245447158813477, "train_loss_llm": 0.06125497817993164, "global_step": 807, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.7116650342941284, "train_loss_dp": 0.7110168933868408, "train_loss_llm": 0.06481170654296875, "global_step": 808, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 1.1238805055618286, "train_loss_dp": 1.1238805055618286, "train_loss_llm": 0.0, "global_step": 809, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.9044516682624817, "train_loss_dp": 0.9028515815734863, "train_loss_llm": 0.16000938415527344, "global_step": 810, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.9214426875114441, "train_loss_dp": 0.9168504476547241, "train_loss_llm": 0.4592236280441284, "global_step": 811, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.9242284297943115, "train_loss_dp": 0.9219667911529541, "train_loss_llm": 0.22616171836853027, "global_step": 812, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.8998547196388245, "train_loss_dp": 0.8928492665290833, "train_loss_llm": 0.7005481719970703, "global_step": 813, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.9231597781181335, "train_loss_dp": 0.9221324920654297, "train_loss_llm": 0.10272657871246338, "global_step": 814, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.829535961151123, "train_loss_dp": 0.8287928700447083, "train_loss_llm": 0.07430732250213623, "global_step": 815, "epoch": 0, "lr": 1.02e-05}
+{"train_loss": 0.6741397380828857, "train_loss_dp": 0.6725566387176514, "train_loss_llm": 0.1583118438720703, "global_step": 816, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.9312466382980347, "train_loss_dp": 0.9291759729385376, "train_loss_llm": 0.20706558227539062, "global_step": 817, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 1.200499415397644, "train_loss_dp": 1.1994848251342773, "train_loss_llm": 0.10145866870880127, "global_step": 818, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.8004485368728638, "train_loss_dp": 0.8003325462341309, "train_loss_llm": 0.011597633361816406, "global_step": 819, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.9274502396583557, "train_loss_dp": 0.9254969954490662, "train_loss_llm": 0.19532299041748047, "global_step": 820, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.918358564376831, "train_loss_dp": 0.9180285930633545, "train_loss_llm": 0.03299713134765625, "global_step": 821, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.757577657699585, "train_loss_dp": 0.757012128829956, "train_loss_llm": 0.05655241012573242, "global_step": 822, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 1.2041845321655273, "train_loss_dp": 1.2029906511306763, "train_loss_llm": 0.11938846111297607, "global_step": 823, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 1.0388846397399902, "train_loss_dp": 1.0365545749664307, "train_loss_llm": 0.23300838470458984, "global_step": 824, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.9830098748207092, "train_loss_dp": 0.9817734360694885, "train_loss_llm": 0.12364345788955688, "global_step": 825, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.9395910501480103, "train_loss_dp": 0.938310980796814, "train_loss_llm": 0.1280040740966797, "global_step": 826, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.7776804566383362, "train_loss_dp": 0.7770403623580933, "train_loss_llm": 0.06401187181472778, "global_step": 827, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.9328087568283081, "train_loss_dp": 0.9328087568283081, "train_loss_llm": 0.0, "global_step": 828, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 1.0765315294265747, "train_loss_dp": 1.075279712677002, "train_loss_llm": 0.12518596649169922, "global_step": 829, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.8268444538116455, "train_loss_dp": 0.8268444538116455, "train_loss_llm": 0.0, "global_step": 830, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.8204958438873291, "train_loss_dp": 0.8193274736404419, "train_loss_llm": 0.11683404445648193, "global_step": 831, "epoch": 0, "lr": 1.04e-05}
+{"train_loss": 0.9067949056625366, "train_loss_dp": 0.9051558971405029, "train_loss_llm": 0.16390228271484375, "global_step": 832, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.8795527219772339, "train_loss_dp": 0.8795527219772339, "train_loss_llm": 0.0, "global_step": 833, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 1.1279643774032593, "train_loss_dp": 1.1257469654083252, "train_loss_llm": 0.2217397689819336, "global_step": 834, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.8092846870422363, "train_loss_dp": 0.8084909319877625, "train_loss_llm": 0.07937604188919067, "global_step": 835, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.8721605539321899, "train_loss_dp": 0.87142413854599, "train_loss_llm": 0.0736435055732727, "global_step": 836, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.9790355563163757, "train_loss_dp": 0.9790355563163757, "train_loss_llm": 0.0, "global_step": 837, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.9388179183006287, "train_loss_dp": 0.9374147057533264, "train_loss_llm": 0.1403217315673828, "global_step": 838, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 1.028428316116333, "train_loss_dp": 1.02830171585083, "train_loss_llm": 0.01265716552734375, "global_step": 839, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.7536547183990479, "train_loss_dp": 0.7500718235969543, "train_loss_llm": 0.3582878112792969, "global_step": 840, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.6837105751037598, "train_loss_dp": 0.6816776990890503, "train_loss_llm": 0.20328712463378906, "global_step": 841, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.7987587451934814, "train_loss_dp": 0.7955242395401001, "train_loss_llm": 0.32345008850097656, "global_step": 842, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.9992687702178955, "train_loss_dp": 0.9988958239555359, "train_loss_llm": 0.03729534149169922, "global_step": 843, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.7743996381759644, "train_loss_dp": 0.7737991213798523, "train_loss_llm": 0.060051918029785156, "global_step": 844, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 1.0173004865646362, "train_loss_dp": 1.0077300071716309, "train_loss_llm": 0.9570493698120117, "global_step": 845, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.9096682071685791, "train_loss_dp": 0.909125804901123, "train_loss_llm": 0.0542377233505249, "global_step": 846, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.9103800058364868, "train_loss_dp": 0.9098165035247803, "train_loss_llm": 0.0563504695892334, "global_step": 847, "epoch": 0, "lr": 1.06e-05}
+{"train_loss": 0.8005637526512146, "train_loss_dp": 0.7997119426727295, "train_loss_llm": 0.08518075942993164, "global_step": 848, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.9674587845802307, "train_loss_dp": 0.9669366478919983, "train_loss_llm": 0.052215576171875, "global_step": 849, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 1.0038706064224243, "train_loss_dp": 1.003455638885498, "train_loss_llm": 0.04150211811065674, "global_step": 850, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 1.0987814664840698, "train_loss_dp": 1.09542715549469, "train_loss_llm": 0.3354368209838867, "global_step": 851, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.8886576890945435, "train_loss_dp": 0.8876247406005859, "train_loss_llm": 0.10329282283782959, "global_step": 852, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.9351382255554199, "train_loss_dp": 0.9348304867744446, "train_loss_llm": 0.03077411651611328, "global_step": 853, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 1.2188435792922974, "train_loss_dp": 1.2160873413085938, "train_loss_llm": 0.2756234407424927, "global_step": 854, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 1.0095587968826294, "train_loss_dp": 1.0090354681015015, "train_loss_llm": 0.05233079195022583, "global_step": 855, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.95961993932724, "train_loss_dp": 0.959206759929657, "train_loss_llm": 0.04131889343261719, "global_step": 856, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.9354510307312012, "train_loss_dp": 0.9346234202384949, "train_loss_llm": 0.08276200294494629, "global_step": 857, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.9207863211631775, "train_loss_dp": 0.9201921224594116, "train_loss_llm": 0.05942225456237793, "global_step": 858, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 1.0482428073883057, "train_loss_dp": 1.045088529586792, "train_loss_llm": 0.3154258728027344, "global_step": 859, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.9860705733299255, "train_loss_dp": 0.9839227795600891, "train_loss_llm": 0.21477890014648438, "global_step": 860, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 1.015446662902832, "train_loss_dp": 1.014961838722229, "train_loss_llm": 0.0484769344329834, "global_step": 861, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.9205877184867859, "train_loss_dp": 0.9189958572387695, "train_loss_llm": 0.15918731689453125, "global_step": 862, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 1.209040880203247, "train_loss_dp": 1.208459734916687, "train_loss_llm": 0.058116912841796875, "global_step": 863, "epoch": 0, "lr": 1.08e-05}
+{"train_loss": 0.898150622844696, "train_loss_dp": 0.8791564702987671, "train_loss_llm": 1.8994178771972656, "global_step": 864, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 1.086811900138855, "train_loss_dp": 1.0861417055130005, "train_loss_llm": 0.06701397895812988, "global_step": 865, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.9131864905357361, "train_loss_dp": 0.9127830266952515, "train_loss_llm": 0.04034733772277832, "global_step": 866, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 1.0236008167266846, "train_loss_dp": 1.0217691659927368, "train_loss_llm": 0.18316948413848877, "global_step": 867, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 1.088335394859314, "train_loss_dp": 1.0828590393066406, "train_loss_llm": 0.5476341247558594, "global_step": 868, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 1.0417826175689697, "train_loss_dp": 1.0405023097991943, "train_loss_llm": 0.1280345916748047, "global_step": 869, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.9055726528167725, "train_loss_dp": 0.9049088954925537, "train_loss_llm": 0.0663766860961914, "global_step": 870, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 1.0116891860961914, "train_loss_dp": 1.011239767074585, "train_loss_llm": 0.04494309425354004, "global_step": 871, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 1.036444902420044, "train_loss_dp": 1.036444902420044, "train_loss_llm": 0.0, "global_step": 872, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 1.1183512210845947, "train_loss_dp": 1.1169590950012207, "train_loss_llm": 0.13921642303466797, "global_step": 873, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 1.0633459091186523, "train_loss_dp": 1.0594888925552368, "train_loss_llm": 0.38570570945739746, "global_step": 874, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.8093616962432861, "train_loss_dp": 0.8085346221923828, "train_loss_llm": 0.08270716667175293, "global_step": 875, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.8851414322853088, "train_loss_dp": 0.8848455548286438, "train_loss_llm": 0.029584884643554688, "global_step": 876, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.7560522556304932, "train_loss_dp": 0.7559348344802856, "train_loss_llm": 0.011743545532226562, "global_step": 877, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.9495739340782166, "train_loss_dp": 0.9488844871520996, "train_loss_llm": 0.06894350051879883, "global_step": 878, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.8890128135681152, "train_loss_dp": 0.8881469964981079, "train_loss_llm": 0.08658409118652344, "global_step": 879, "epoch": 0, "lr": 1.1000000000000001e-05}
+{"train_loss": 0.8420617580413818, "train_loss_dp": 0.8410428762435913, "train_loss_llm": 0.10188543796539307, "global_step": 880, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.9405924081802368, "train_loss_dp": 0.9397403597831726, "train_loss_llm": 0.08520567417144775, "global_step": 881, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.9799695014953613, "train_loss_dp": 0.9782474040985107, "train_loss_llm": 0.1722087860107422, "global_step": 882, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.959443211555481, "train_loss_dp": 0.959443211555481, "train_loss_llm": 0.0, "global_step": 883, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 1.0820263624191284, "train_loss_dp": 1.081547498703003, "train_loss_llm": 0.047885894775390625, "global_step": 884, "epoch": 0, "lr": 1.1200000000000001e-05}
+{"train_loss": 0.847781777381897, "train_loss_dp": 0.847781777381897, "train_loss_llm": 0.0, "global_step": 885, "epoch": 0, "lr": 1.1200000000000001e-05}
diff --git a/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/train.log b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..67babd178b4b3b23457287ca269f409afd492d23
--- /dev/null
+++ b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/train.log
@@ -0,0 +1,9 @@
+[2025-12-17 02:14:49,557][numexpr.utils][INFO] - Note: detected 128 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+[2025-12-17 02:14:49,557][numexpr.utils][INFO] - Note: NumExpr detected 128 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
+[2025-12-17 02:14:49,557][numexpr.utils][INFO] - NumExpr defaulting to 16 threads.
+[2025-12-17 02:14:51,453][datasets][INFO] - PyTorch version 2.2.2 available.
+[2025-12-17 02:14:51,454][datasets][INFO] - TensorFlow version 2.15.1 available.
+[2025-12-17 02:14:51,455][datasets][INFO] - JAX version 0.4.30 available.
+[2025-12-17 02:14:52,897][llmbc.model.diffusion.conditional_unet1d][INFO] - number of parameters: 6.550938e+07
+[2025-12-17 02:14:58,911][absl][INFO] - MUJOCO_GL=osmesa, attempting to import specified OpenGL backend.
+[2025-12-17 02:14:58,917][absl][INFO] - MuJoCo library version is: 2.3.7
diff --git a/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/debug-internal.log b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..07a05bae57b0764f27e82516a8bd7957c7dca5c5
--- /dev/null
+++ b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/debug-internal.log
@@ -0,0 +1,11 @@
+{"time":"2025-12-17T02:14:59.714285482Z","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2025-12-17T02:14:59.714294531Z","level":"INFO","msg":"created symlink","path":"/root/workspace/LLM-BC/data/outputs/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/logs/debug-core.log"}
+{"time":"2025-12-17T02:14:59.823297237Z","level":"INFO","msg":"created new stream","id":"z04notzj"}
+{"time":"2025-12-17T02:14:59.823322108Z","level":"INFO","msg":"stream: started","id":"z04notzj"}
+{"time":"2025-12-17T02:14:59.823336576Z","level":"INFO","msg":"sender: started","stream_id":"z04notzj"}
+{"time":"2025-12-17T02:14:59.823331289Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"z04notzj"}}
+{"time":"2025-12-17T02:14:59.823348393Z","level":"INFO","msg":"handler: started","stream_id":{"value":"z04notzj"}}
+{"time":"2025-12-17T02:15:00.538860394Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-12-17T02:21:10.734663996Z","level":"INFO","msg":"stream: closing","id":"z04notzj"}
+{"time":"2025-12-17T02:21:10.734687557Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-12-17T02:21:10.73492204Z","level":"INFO","msg":"Stopped system monitor"}
diff --git a/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/debug.log b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..0bfe00964ee22dcbdb4e401e6bd14b2b5b05cdc7
--- /dev/null
+++ b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/debug.log
@@ -0,0 +1,27 @@
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_setup.py:_flush():79] Configure stats pid to 24545
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_setup.py:_flush():79] Loading settings from /root/workspace/LLM-BC/wandb/settings
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/root/workspace/LLM-BC/train.py', 'program': '/root/workspace/LLM-BC/./train.py'}
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_setup.py:_flush():79] Applying login settings: {}
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_init.py:_log_setup():533] Logging user logs to /root/workspace/LLM-BC/data/outputs/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/logs/debug.log
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_init.py:_log_setup():534] Logging internal logs to /root/workspace/LLM-BC/data/outputs/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/logs/debug-internal.log
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_init.py:init():619] calling init triggers
+2025-12-17 02:14:59,712 INFO    MainThread:24545 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llm_diffusion_unet_lowdim', '_target_': 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace', 'obs_dim': 43, 'action_dim': 8, 'task_name': 'PegInsertionSide-v1', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'keypoint_visible_rate': 1.0, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy', 'model': {'_target_': 'llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D', 'input_dim': 8, 'local_cond_dim': None, 'global_cond_dim': 43, 'diffusion_step_embed_dim': 256, 'down_dims': [256, 512, 1024], 'kernel_size': 5, 'n_groups': 8, 'cond_predict_scale': True}, 'noise_scheduler': {'_target_': 'diffusers.schedulers.scheduling_ddpm.DDPMScheduler', 'num_train_timesteps': 100, 'beta_start': 0.0001, 'beta_end': 0.02, 'beta_schedule': 'squaredcos_cap_v2', 'variance_type': 'fixed_small', 'clip_sample': True, 'prediction_type': 'epsilon'}, 'horizon': 1, 'obs_dim': 43, 'action_dim': 8, 'n_action_steps': 1, 'n_obs_steps': 1, 'num_inference_steps': 100, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'oa_step_convention': True, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'PegInsertionSide-v1', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.10.20/18.44.04_train_llm_lowdim_PegInsertionSide-v1/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-PegInsertionSide-v1/checkpoint-19070', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.17/02.14.48_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 43, 'action_dim': 8, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_dp_weight': 1.0, 'loss_llm_weight': 0.01, 'normalize_llm_loss': True, 'reweight_llm_loss': True}, 'ema': {'_target_': 'llmbc.model.diffusion.ema_model.EMAModel', 'update_after_step': 0, 'inv_gamma': 1.0, 'power': 0.75, 'min_value': 0.0, 'max_value': 0.9999}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': False, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.0001, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 46, 'debug': False, 'resume': True, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 500, 'num_epochs': 1001, 'gradient_accumulate_every': 16, 'use_ema': True, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'PegInsertionSide-v1-training', 'resume': True, 'mode': 'online', 'name': '2025.12.17-02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1', 'tags': ['train_llm_diffusion_unet_lowdim', 'PegInsertionSide-v1', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1', 'wandb_name_base': '2025.12.17-02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1'}, 'task': {'name': 'PegInsertionSide-v1', 'obs_dim': 43, 'action_dim': 8, 'env_runner': {'_target_': 'llmbc.env_runner.maniskill_lowdim_runner.ManiskillLowdimRunner', 'env_name': 'llf-maniskill-PegInsertionSide-v1', 'instruction_type': 'b', 'feedback_type': ['hp', 'hn'], 'visual': False, 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 100, 'n_obs_steps': 1, 'n_action_steps': 1, 'discount': 0.99}, 'dataset': {'_target_': 'llmbc.dataset.maniskill_lowdim_dataset.ManiskillLowdimDataset', 'data_path': 'datasets/PegInsertionSide-v1.pt', 'data_path2': 'datasets/PegInsertionSide-v1.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'use_manual_normalizer': False, 'val_ratio': 0.02, 'dummy_normalizer': False}, 'instructor': {'_target_': 'llmbc.translator.instructor.maniskill_instructor.PegInsertionSide_v1_instructor.PegInsertionSideV1Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.10.20/18.44.04_train_llm_lowdim_PegInsertionSide-v1/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-PegInsertionSide-v1/checkpoint-19070', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.17/02.14.48_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2025-12-17 02:14:59,712 INFO    MainThread:24545 [wandb_init.py:init():669] starting backend
+2025-12-17 02:14:59,712 INFO    MainThread:24545 [wandb_init.py:init():673] sending inform_init request
+2025-12-17 02:14:59,712 INFO    MainThread:24545 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-12-17 02:14:59,713 INFO    MainThread:24545 [wandb_init.py:init():686] backend started and connected
+2025-12-17 02:14:59,720 INFO    MainThread:24545 [wandb_init.py:init():781] updated telemetry
+2025-12-17 02:14:59,750 INFO    MainThread:24545 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2025-12-17 02:15:00,536 INFO    MainThread:24545 [wandb_init.py:init():867] starting run threads in backend
+2025-12-17 02:15:00,877 INFO    MainThread:24545 [wandb_run.py:_console_start():2451] atexit reg
+2025-12-17 02:15:00,877 INFO    MainThread:24545 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2025-12-17 02:15:00,877 INFO    MainThread:24545 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2025-12-17 02:15:00,877 INFO    MainThread:24545 [wandb_run.py:_redirect():2389] Redirects installed.
+2025-12-17 02:15:00,879 INFO    MainThread:24545 [wandb_init.py:init():911] run started, returning control to user process
+2025-12-17 02:15:00,879 INFO    MainThread:24545 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/root/workspace/LLM-BC/data/outputs/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1'}
+2025-12-17 02:21:10,734 WARNING MsgRouterThr:24545 [router.py:message_loop():75] message_loop has been closed
diff --git a/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/files/config.yaml b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..e44903c81ae0ae56ef4f400fd24bd8e1658bbfc3
--- /dev/null
+++ b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/files/config.yaml
@@ -0,0 +1,302 @@
+_target_:
+    value: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+_wandb:
+    value:
+        cli_version: 0.18.6
+        m: []
+        python_version: 3.9.25
+        t:
+            "1":
+                - 1
+                - 2
+                - 3
+                - 5
+                - 11
+                - 12
+                - 41
+                - 49
+                - 50
+                - 51
+                - 53
+                - 55
+                - 71
+                - 83
+                - 95
+                - 98
+                - 100
+                - 105
+            "2":
+                - 1
+                - 2
+                - 3
+                - 5
+                - 11
+                - 12
+                - 41
+                - 49
+                - 50
+                - 51
+                - 53
+                - 55
+                - 71
+                - 83
+                - 95
+                - 98
+                - 100
+                - 105
+            "3":
+                - 13
+                - 15
+                - 16
+                - 23
+                - 55
+                - 61
+            "4": 3.9.25
+            "5": 0.18.6
+            "6": 4.47.1
+            "8":
+                - 5
+            "12": 0.18.6
+            "13": linux-x86_64
+action_dim:
+    value: 8
+checkpoint:
+    value:
+        save_last_ckpt: true
+        save_last_snapshot: false
+        topk:
+            format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+            k: 5
+            mode: max
+            monitor_key: test_success_rate
+dataloader:
+    value:
+        batch_size: 16
+        num_workers: 0
+        persistent_workers: false
+        pin_memory: false
+        shuffle: true
+ema:
+    value:
+        _target_: llmbc.model.diffusion.ema_model.EMAModel
+        inv_gamma: 1
+        max_value: 0.9999
+        min_value: 0
+        power: 0.75
+        update_after_step: 0
+exp_name:
+    value: default
+horizon:
+    value: 1
+keypoint_visible_rate:
+    value: 1
+llm:
+    value:
+        causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+        checkpoint: data/outputs/2025.10.20/18.44.04_train_llm_lowdim_PegInsertionSide-v1/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-PegInsertionSide-v1/checkpoint-19070
+        config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+        finetune_mode: orig
+        hydra:
+            job:
+                override_dirname: HuggingFaceTB/SmolLM2-135M-Instruct
+            run:
+                dir: data/outputs/2025.12.17/02.14.48_HuggingFaceTB/SmolLM2-135M-Instruct
+        llm_mode: ete-finetuned
+        lora_config:
+            bias: none
+            lora_alpha: 64
+            lora_dropout: 0.05
+            r: 32
+            task_type: CAUSAL_LM
+        max_length: 100
+        model_name: SmolLM2-135M-Instruct
+        name: HuggingFaceTB/SmolLM2-135M-Instruct
+        prompter:
+            _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+            use_joint_mlp_projector: true
+        use_joint_mlp_projector: true
+        use_quantization: false
+llm_do_sample:
+    value: false
+llm_orig_expert_feedback:
+    value: true
+logging:
+    value:
+        group: null
+        id: null
+        mode: online
+        name: 2025.12.17-02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1
+        project: PegInsertionSide-v1-training
+        resume: true
+        tags:
+            - train_llm_diffusion_unet_lowdim
+            - PegInsertionSide-v1
+            - default
+model_name:
+    value: HuggingFaceTB/SmolLM2-135M-Instruct
+multi_run:
+    value:
+        run_dir: data/outputs/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1
+        wandb_name_base: 2025.12.17-02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1
+n_action_steps:
+    value: 1
+n_latency_steps:
+    value: 0
+n_obs_steps:
+    value: 1
+name:
+    value: train_llm_diffusion_unet_lowdim
+obs_as_global_cond:
+    value: true
+obs_as_local_cond:
+    value: false
+obs_dim:
+    value: 43
+optimizer:
+    value:
+        _target_: torch.optim.AdamW
+        betas:
+            - 0.95
+            - 0.999
+        eps: 1e-08
+        lr: 0.0001
+        weight_decay: 1e-06
+output_dir:
+    value: /root/workspace/LLM-BC/data/outputs/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1
+past_action_visible:
+    value: false
+policy:
+    value:
+        _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+        action_dim: 8
+        horizon: 1
+        llm_discriminator:
+            _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+            llm_translator:
+                _target_: llmbc.translator.llm_translator.LLMTranslator
+                action_dim: 8
+                cfg:
+                    causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+                    checkpoint: data/outputs/2025.10.20/18.44.04_train_llm_lowdim_PegInsertionSide-v1/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-PegInsertionSide-v1/checkpoint-19070
+                    config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+                    finetune_mode: orig
+                    hydra:
+                        job:
+                            override_dirname: HuggingFaceTB/SmolLM2-135M-Instruct
+                        run:
+                            dir: data/outputs/2025.12.17/02.14.48_HuggingFaceTB/SmolLM2-135M-Instruct
+                    llm_mode: ete-finetuned
+                    lora_config:
+                        bias: none
+                        lora_alpha: 64
+                        lora_dropout: 0.05
+                        r: 32
+                        task_type: CAUSAL_LM
+                    max_length: 100
+                    model_name: SmolLM2-135M-Instruct
+                    name: HuggingFaceTB/SmolLM2-135M-Instruct
+                    prompter:
+                        _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+                        use_joint_mlp_projector: true
+                    use_joint_mlp_projector: true
+                    use_quantization: false
+                horizon: 1
+                n_action_steps: 1
+                n_obs_steps: 1
+                obs_dim: 43
+            task_id: PegInsertionSide-v1
+        loss_dp_weight: 1
+        loss_llm_weight: 0.01
+        model:
+            _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+            cond_predict_scale: true
+            diffusion_step_embed_dim: 256
+            down_dims:
+                - 256
+                - 512
+                - 1024
+            global_cond_dim: 43
+            input_dim: 8
+            kernel_size: 5
+            local_cond_dim: null
+            n_groups: 8
+        n_action_steps: 1
+        n_obs_steps: 1
+        noise_scheduler:
+            _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+            beta_end: 0.02
+            beta_schedule: squaredcos_cap_v2
+            beta_start: 0.0001
+            clip_sample: true
+            num_train_timesteps: 100
+            prediction_type: epsilon
+            variance_type: fixed_small
+        normalize_llm_loss: true
+        num_inference_steps: 100
+        oa_step_convention: true
+        obs_as_global_cond: true
+        obs_as_local_cond: false
+        obs_dim: 43
+        pred_action_steps_only: false
+        reweight_llm_loss: true
+pred_action_steps_only:
+    value: false
+task:
+    value:
+        action_dim: 8
+        dataset:
+            _target_: llmbc.dataset.maniskill_lowdim_dataset.ManiskillLowdimDataset
+            data_path: datasets/PegInsertionSide-v1.pt
+            data_path2: datasets/PegInsertionSide-v1.pt
+            dummy_normalizer: false
+            horizon: 1
+            pad_after: 0
+            pad_before: 0
+            use_manual_normalizer: false
+            val_ratio: 0.02
+        env_runner:
+            _target_: llmbc.env_runner.maniskill_lowdim_runner.ManiskillLowdimRunner
+            discount: 0.99
+            env_name: llf-maniskill-PegInsertionSide-v1
+            feedback_type:
+                - hp
+                - hn
+            instruction_type: b
+            max_steps: 100
+            n_action_steps: 1
+            n_envs: 10
+            n_obs_steps: 1
+            n_test: 50
+            n_train: 10
+            visual: false
+        instructor:
+            _target_: llmbc.translator.instructor.maniskill_instructor.PegInsertionSide_v1_instructor.PegInsertionSideV1Instructor
+        name: PegInsertionSide-v1
+        obs_dim: 43
+task_name:
+    value: PegInsertionSide-v1
+training:
+    value:
+        checkpoint_every: 5
+        debug: false
+        device: cuda:0
+        gradient_accumulate_every: 16
+        lr_scheduler: cosine
+        lr_warmup_steps: 500
+        max_train_steps: null
+        max_val_steps: null
+        num_epochs: 1001
+        resume: true
+        rollout_every: 5
+        sample_every: 5
+        seed: 46
+        tqdm_interval_sec: 1
+        use_ema: true
+        val_every: 1
+val_dataloader:
+    value:
+        batch_size: 16
+        num_workers: 0
+        persistent_workers: false
+        pin_memory: false
+        shuffle: false
diff --git a/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/files/output.log b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..06a33475026002f05a6ba7778b22be47b336823b
--- /dev/null
+++ b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/files/output.log
@@ -0,0 +1,52 @@
+Traceback (most recent call last):                                                                                  
+  File "/root/workspace/LLM-BC/./train.py", line 35, in <module>
+    main()
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/main.py", line 90, in decorated_main
+    _run_hydra(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 389, in _run_hydra
+    _run_app(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 452, in _run_app
+    run_and_report(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 213, in run_and_report
+    return func()
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 453, in <lambda>
+    lambda: hydra.run(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/hydra.py", line 119, in run
+    ret = run_job(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/core/utils.py", line 186, in run_job
+    ret.return_value = task_function(task_cfg)
+  File "/root/workspace/LLM-BC/./train.py", line 32, in main
+    workspace.run()
+  File "/root/workspace/LLM-BC/llmbc/workspace/train_llm_diffusion_unet_lowdim_workspace.py", line 201, in run
+    loss.backward()
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/torch/_tensor.py", line 522, in backward
+    torch.autograd.backward(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/torch/autograd/__init__.py", line 266, in backward
+    Variable._execution_engine.run_backward(  # Calls into the C++ engine to run the backward pass
+KeyboardInterrupt
+Traceback (most recent call last):
+  File "/root/workspace/LLM-BC/./train.py", line 35, in <module>
+    main()
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/main.py", line 90, in decorated_main
+    _run_hydra(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 389, in _run_hydra
+    _run_app(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 452, in _run_app
+    run_and_report(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 213, in run_and_report
+    return func()
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 453, in <lambda>
+    lambda: hydra.run(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/hydra.py", line 119, in run
+    ret = run_job(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/hydra/core/utils.py", line 186, in run_job
+    ret.return_value = task_function(task_cfg)
+  File "/root/workspace/LLM-BC/./train.py", line 32, in main
+    workspace.run()
+  File "/root/workspace/LLM-BC/llmbc/workspace/train_llm_diffusion_unet_lowdim_workspace.py", line 201, in run
+    loss.backward()
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/torch/_tensor.py", line 522, in backward
+    torch.autograd.backward(
+  File "/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/torch/autograd/__init__.py", line 266, in backward
+    Variable._execution_engine.run_backward(  # Calls into the C++ engine to run the backward pass
+KeyboardInterrupt
diff --git a/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/files/requirements.txt b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..3a3c7fc9f31219a28bef91e6be4a18707983fd85
--- /dev/null
+++ b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/files/requirements.txt
@@ -0,0 +1,861 @@
+aiohappyeyeballs==2.6.1
+antlr4-python3-runtime==4.9.3
+asciitree==0.3.3
+async-timeout==5.0.1
+attrs==25.4.0
+certifi==2025.10.5
+charset-normalizer==3.4.4
+colorama==0.4.6
+dill==0.3.8
+docstring-parser==0.16
+eval_type_backport==0.2.2
+fasteners==0.20
+filelock==3.17.0
+frozenlist==1.8.0
+fsspec==2024.3.1
+gmpy2==2.2.1
+hf-xet==1.1.8
+idna==3.11
+llvmlite==0.39.1
+MarkupSafe==3.0.2
+mdurl==0.1.2
+mkl-service==2.4.0
+mpmath==1.3.0
+msgpack==1.1.1
+networkx==3.2.1
+packaging==25.0
+propcache==0.3.1
+psutil==7.0.0
+pycparser==2.23
+Pygments==2.19.1
+PyOpenGL==3.1.10
+PySocks==1.7.1
+tzdata==2025.2
+xxhash==3.5.0
+pytz==2025.2
+PyYAML==6.0.2
+regex==2025.9.1
+safetensors==0.5.3
+setuptools==80.9.0
+shtab==1.7.2
+six==1.17.0
+tqdm==4.67.1
+tensorflow==2.15.1
+gym==0.23.1
+uvloop==0.22.1
+wheel==0.45.1
+zipp==3.21.0
+requests-oauthlib==2.0.0
+Markdown==3.9
+google-auth-oauthlib==1.2.3
+tensorboard==2.15.2
+Jinja2==3.1.6
+markdown-it-py==2.2.0
+multiprocess==0.70.15
+numpy==1.23.5
+pip==23.3.2
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+brotlicffi==1.0.9.2
+hydra-core==1.2.0
+multidict==6.7.0
+pillow==11.3.0
+pycares==4.10.0
+rich==14.2.0
+sympy==1.14.0
+typeguard==4.4.4
+aiodns==3.5.0
+urllib3==2.5.0
+yarl==1.18.0
+aiohttp==3.12.15
+pyarrow==21.0.0
+astunparse==1.6.3
+pyarrow-hotfix==0.7
+tokenizers==0.21.0
+av==10.0.0
+einops==0.4.1
+Bottleneck==1.4.2
+mkl_fft==1.3.11
+mkl_random==1.2.8
+numba==0.56.4
+numcodecs==0.12.1
+numexpr==2.10.1
+pandas==2.3.3
+zarr==2.12.0
+datasets==2.19.0
+transformers==4.47.1
+accelerate==1.0.1
+peft==0.14.0
+trl==0.11.4
+torch==2.2.2
+tabulate==0.9.0
+sentencepiece==0.2.0
+pyperclip==1.11.0
+PyOpenGL-accelerate==3.1.10
+pydub==0.25.1
+py-cpuinfo==9.0.0
+pure_eval==0.2.3
+ptyprocess==0.7.0
+nvidia-ml-py==13.590.44
+hjson==3.1.0
+gym-notices==0.1.0
+glfw==2.0.0
+Farama-Notifications==0.0.4
+websockets==15.0.1
+wcwidth==0.2.14
+uc-micro-py==1.0.3
+typing-inspection==0.4.2
+triton==2.2.0
+trimesh==4.10.1
+transforms3d==0.4.2
+traitlets==5.14.3
+threadpoolctl==3.6.0
+tenacity==9.1.2
+sniffio==1.3.1
+smmap==5.0.2
+setproctitle==1.3.7
+sentry-sdk==2.47.0
+semantic-version==2.10.0
+scipy==1.13.1
+rpds-py==0.27.1
+python-multipart==0.0.20
+pyparsing==3.2.5
+pynvml==13.0.1
+pydantic_core==2.41.5
+pycryptodomex==3.23.0
+pyasn1==0.6.1
+google-pasta==0.2.0
+platformdirs==4.4.0
+pexpect==4.9.0
+parso==0.8.5
+orjson==3.11.5
+opencv-python==4.11.0.86
+stack-data==0.6.3
+omegaconf==2.2.1
+nvidia-nvtx-cu12==12.1.105
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-nccl-cu12==2.19.3
+nvidia-curand-cu12==10.3.2.106
+nvidia-cufft-cu12==11.0.2.54
+nvidia-cuda-runtime-cu12==12.1.105
+nvidia-cuda-nvrtc-cu12==12.1.105
+nvidia-cuda-cupti-cu12==12.1.105
+nvidia-cublas-cu12==12.1.3.1
+ninja==1.13.0
+narwhals==2.13.0
+lxml==6.0.2
+kiwisolver==1.4.7
+joblib==1.5.3
+jiter==0.12.0
+imageio-ffmpeg==0.6.0
+ImageIO==2.37.2
+h5py==3.14.0
+h11==0.16.0
+fonttools==4.60.2
+ffmpy==1.0.0
+fast_kinematics==0.2.2
+executing==2.2.1
+exceptiongroup==1.3.1
+docker-pycreds==0.4.0
+distro==1.9.0
+decorator==5.2.1
+dacite==1.9.2
+cycler==0.12.1
+contourpy==1.3.0
+cloudpickle==3.1.2
+click==8.1.8
+cachetools==6.2.4
+asttokens==3.0.1
+annotated-types==0.7.0
+annotated-doc==0.0.4
+aiofiles==25.1.0
+absl-py==2.3.1
+uvicorn==0.38.0
+tiktoken==0.8.0
+scikit-learn==1.6.1
+sapien==3.0.0b1
+rsa==4.9.1
+referencing==0.36.2
+pydantic==2.12.5
+pyasn1_modules==0.4.2
+prompt_toolkit==3.0.52
+nvidia-cusparse-cu12==12.1.0.106
+nvidia-cudnn-cu12==8.9.2.26
+nltk==3.9.2
+mujoco==2.3.7
+mdit-py-plugins==0.3.3
+matplotlib-inline==0.2.1
+matplotlib==3.7.5
+linkify-it-py==2.0.3
+jedi==0.19.2
+huggingface-hub==0.26.2
+httpcore==1.0.9
+gymnasium==0.29.1
+grpcio==1.76.0
+gitdb==4.0.12
+blobfile==3.0.0
+anyio==4.12.0
+tyro==0.9.1
+toppra==0.6.3
+starlette==0.49.3
+seaborn==0.13.2
+rouge_score==0.1.2
+pynndescent==0.5.13
+nvidia-cusolver-cu12==11.4.5.107
+jsonschema-specifications==2025.9.1
+ipython==8.18.1
+httpx==0.28.1
+google-auth==2.41.1
+GitPython==3.1.45
+diffusers==0.31.0
+wandb==0.18.6
+umap-learn==0.5.9.post2
+openai==2.8.1
+mplib==0.1.1
+jsonschema==4.25.1
+gradio_client==0.2.9
+google-genai==1.47.0
+fastapi==0.124.4
+torchvision==0.17.2
+torchaudio==2.2.2
+sentence-transformers==3.2.1
+pytorch-seed==0.2.0
+deepspeed==0.16.1
+bitsandbytes==0.45.0
+altair==6.0.0
+timm==1.0.22
+gradio==3.36.1
+evaluate==0.4.3
+arm_pytorch_utilities==0.4.3
+tensorflow-io-gcs-filesystem==0.37.1
+tensorflow-estimator==2.15.0
+tensorboard-data-server==0.7.2
+tf-agents==0.19.0
+protobuf==4.25.8
+parse==1.19.1
+dm-tree==0.1.8
+termcolor==3.1.0
+oauthlib==3.3.1
+requests==2.32.0
+opt_einsum==3.4.0
+labmaze==1.0.6
+importlib-resources==5.13.0
+wrapt==1.14.2
+importlib-metadata==5.2.0
+FLAML==2.3.6
+dm-env==1.6
+diskcache==5.6.3
+Cython==0.29.37
+mujoco-py==2.1.2.14
+jaxlib==0.4.30
+dm-control==1.0.14
+cmudict==1.0.13
+syllables==1.0.9
+metaworld==2.0.0
+jax==0.4.30
+highway-env==1.9.1
+gym_bandits==0.0.2
+d4rl==1.1
+pyautogen==0.1.0
+pybullet==3.2.6
+Werkzeug==3.1.4
+flatbuffers==25.9.23
+pytorch-kinematics==0.7.5
+pygame==2.6.1
+gin-config==0.5.0
+mani_skill==3.0.0b20
+tifffile==2024.8.30
+Shapely==1.8.4
+PyWavelets==1.6.0
+cffi==1.17.1
+scikit-image==0.19.3
+pymunk==6.2.1
+ml-dtypes==0.3.2
+tensorflow-probability==0.23.0
+stable-baselines3==2.2.1
+keras==2.15.0
+gast==0.7.0
+libclang==18.1.1
+typing_extensions==4.15.0
+llfbench==0.1.0
+llmbc==0.0.0
+aiohappyeyeballs==2.6.1
+antlr4-python3-runtime==4.9.3
+asciitree==0.3.3
+async-timeout==5.0.1
+attrs==25.4.0
+certifi==2025.10.5
+charset-normalizer==3.4.4
+colorama==0.4.6
+dill==0.3.8
+docstring-parser==0.16
+eval_type_backport==0.2.2
+fasteners==0.20
+filelock==3.17.0
+frozenlist==1.8.0
+fsspec==2024.3.1
+gmpy2==2.2.1
+hf-xet==1.1.8
+idna==3.11
+llvmlite==0.39.1
+MarkupSafe==3.0.2
+mdurl==0.1.2
+mkl-service==2.4.0
+mpmath==1.3.0
+msgpack==1.1.1
+networkx==3.2.1
+packaging==25.0
+propcache==0.3.1
+psutil==7.0.0
+pycparser==2.23
+Pygments==2.19.1
+PyOpenGL==3.1.10
+PySocks==1.7.1
+tzdata==2025.2
+xxhash==3.5.0
+pytz==2025.2
+PyYAML==6.0.2
+regex==2025.9.1
+safetensors==0.5.3
+setuptools==80.9.0
+shtab==1.7.2
+six==1.17.0
+tqdm==4.67.1
+tensorflow==2.15.1
+gym==0.23.1
+uvloop==0.22.1
+wheel==0.45.1
+zipp==3.21.0
+requests-oauthlib==2.0.0
+Markdown==3.9
+google-auth-oauthlib==1.2.3
+tensorboard==2.15.2
+Jinja2==3.1.6
+markdown-it-py==2.2.0
+multiprocess==0.70.15
+numpy==1.23.5
+pip==23.3.2
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+brotlicffi==1.0.9.2
+hydra-core==1.2.0
+multidict==6.7.0
+pillow==11.3.0
+pycares==4.10.0
+rich==14.2.0
+sympy==1.14.0
+typeguard==4.4.4
+aiodns==3.5.0
+urllib3==2.5.0
+yarl==1.18.0
+aiohttp==3.12.15
+pyarrow==21.0.0
+astunparse==1.6.3
+pyarrow-hotfix==0.7
+tokenizers==0.21.0
+av==10.0.0
+einops==0.4.1
+Bottleneck==1.4.2
+mkl_fft==1.3.11
+mkl_random==1.2.8
+numba==0.56.4
+numcodecs==0.12.1
+numexpr==2.10.1
+pandas==2.3.3
+zarr==2.12.0
+datasets==2.19.0
+transformers==4.47.1
+accelerate==1.0.1
+peft==0.14.0
+trl==0.11.4
+torch==2.2.2
+tabulate==0.9.0
+sentencepiece==0.2.0
+pyperclip==1.11.0
+PyOpenGL-accelerate==3.1.10
+pydub==0.25.1
+py-cpuinfo==9.0.0
+pure_eval==0.2.3
+ptyprocess==0.7.0
+nvidia-ml-py==13.590.44
+hjson==3.1.0
+gym-notices==0.1.0
+glfw==2.0.0
+Farama-Notifications==0.0.4
+websockets==15.0.1
+wcwidth==0.2.14
+uc-micro-py==1.0.3
+typing-inspection==0.4.2
+triton==2.2.0
+trimesh==4.10.1
+transforms3d==0.4.2
+traitlets==5.14.3
+threadpoolctl==3.6.0
+tenacity==9.1.2
+sniffio==1.3.1
+smmap==5.0.2
+setproctitle==1.3.7
+sentry-sdk==2.47.0
+semantic-version==2.10.0
+scipy==1.13.1
+rpds-py==0.27.1
+python-multipart==0.0.20
+pyparsing==3.2.5
+pynvml==13.0.1
+pydantic_core==2.41.5
+pycryptodomex==3.23.0
+pyasn1==0.6.1
+google-pasta==0.2.0
+platformdirs==4.4.0
+pexpect==4.9.0
+parso==0.8.5
+orjson==3.11.5
+opencv-python==4.11.0.86
+stack-data==0.6.3
+omegaconf==2.2.1
+nvidia-nvtx-cu12==12.1.105
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-nccl-cu12==2.19.3
+nvidia-curand-cu12==10.3.2.106
+nvidia-cufft-cu12==11.0.2.54
+nvidia-cuda-runtime-cu12==12.1.105
+nvidia-cuda-nvrtc-cu12==12.1.105
+nvidia-cuda-cupti-cu12==12.1.105
+nvidia-cublas-cu12==12.1.3.1
+ninja==1.13.0
+narwhals==2.13.0
+lxml==6.0.2
+kiwisolver==1.4.7
+joblib==1.5.3
+jiter==0.12.0
+imageio-ffmpeg==0.6.0
+ImageIO==2.37.2
+h5py==3.14.0
+h11==0.16.0
+fonttools==4.60.2
+ffmpy==1.0.0
+fast_kinematics==0.2.2
+executing==2.2.1
+exceptiongroup==1.3.1
+docker-pycreds==0.4.0
+distro==1.9.0
+decorator==5.2.1
+dacite==1.9.2
+cycler==0.12.1
+contourpy==1.3.0
+cloudpickle==3.1.2
+click==8.1.8
+cachetools==6.2.4
+asttokens==3.0.1
+annotated-types==0.7.0
+annotated-doc==0.0.4
+aiofiles==25.1.0
+absl-py==2.3.1
+uvicorn==0.38.0
+tiktoken==0.8.0
+scikit-learn==1.6.1
+sapien==3.0.0b1
+rsa==4.9.1
+referencing==0.36.2
+pydantic==2.12.5
+pyasn1_modules==0.4.2
+prompt_toolkit==3.0.52
+nvidia-cusparse-cu12==12.1.0.106
+nvidia-cudnn-cu12==8.9.2.26
+nltk==3.9.2
+mujoco==2.3.7
+mdit-py-plugins==0.3.3
+matplotlib-inline==0.2.1
+matplotlib==3.7.5
+linkify-it-py==2.0.3
+jedi==0.19.2
+huggingface-hub==0.26.2
+httpcore==1.0.9
+gymnasium==0.29.1
+grpcio==1.76.0
+gitdb==4.0.12
+blobfile==3.0.0
+anyio==4.12.0
+tyro==0.9.1
+toppra==0.6.3
+starlette==0.49.3
+seaborn==0.13.2
+rouge_score==0.1.2
+pynndescent==0.5.13
+nvidia-cusolver-cu12==11.4.5.107
+jsonschema-specifications==2025.9.1
+ipython==8.18.1
+httpx==0.28.1
+google-auth==2.41.1
+GitPython==3.1.45
+diffusers==0.31.0
+wandb==0.18.6
+umap-learn==0.5.9.post2
+openai==2.8.1
+mplib==0.1.1
+jsonschema==4.25.1
+gradio_client==0.2.9
+google-genai==1.47.0
+fastapi==0.124.4
+torchvision==0.17.2
+torchaudio==2.2.2
+sentence-transformers==3.2.1
+pytorch-seed==0.2.0
+deepspeed==0.16.1
+bitsandbytes==0.45.0
+altair==6.0.0
+timm==1.0.22
+gradio==3.36.1
+evaluate==0.4.3
+arm_pytorch_utilities==0.4.3
+tensorflow-io-gcs-filesystem==0.37.1
+tensorflow-estimator==2.15.0
+tensorboard-data-server==0.7.2
+tf-agents==0.19.0
+protobuf==4.25.8
+parse==1.19.1
+dm-tree==0.1.8
+termcolor==3.1.0
+oauthlib==3.3.1
+requests==2.32.0
+opt_einsum==3.4.0
+labmaze==1.0.6
+importlib-resources==5.13.0
+wrapt==1.14.2
+importlib-metadata==5.2.0
+FLAML==2.3.6
+dm-env==1.6
+diskcache==5.6.3
+Cython==0.29.37
+mujoco-py==2.1.2.14
+jaxlib==0.4.30
+dm-control==1.0.14
+cmudict==1.0.13
+syllables==1.0.9
+metaworld==2.0.0
+jax==0.4.30
+highway-env==1.9.1
+gym_bandits==0.0.2
+d4rl==1.1
+pyautogen==0.1.0
+pybullet==3.2.6
+Werkzeug==3.1.4
+flatbuffers==25.9.23
+pytorch-kinematics==0.7.5
+pygame==2.6.1
+gin-config==0.5.0
+mani_skill==3.0.0b20
+tifffile==2024.8.30
+Shapely==1.8.4
+PyWavelets==1.6.0
+cffi==1.17.1
+scikit-image==0.19.3
+pymunk==6.2.1
+ml-dtypes==0.3.2
+tensorflow-probability==0.23.0
+stable-baselines3==2.2.1
+keras==2.15.0
+gast==0.7.0
+libclang==18.1.1
+typing_extensions==4.15.0
+llfbench==0.1.0
+llmbc==0.0.0
+llmbc==0.0.0
+llmbc==0.0.0
+aiohappyeyeballs==2.6.1
+antlr4-python3-runtime==4.9.3
+asciitree==0.3.3
+async-timeout==5.0.1
+attrs==25.4.0
+certifi==2025.10.5
+charset-normalizer==3.4.4
+colorama==0.4.6
+dill==0.3.8
+docstring-parser==0.16
+eval_type_backport==0.2.2
+fasteners==0.20
+filelock==3.17.0
+frozenlist==1.8.0
+fsspec==2024.3.1
+gmpy2==2.2.1
+hf-xet==1.1.8
+idna==3.11
+llvmlite==0.39.1
+MarkupSafe==3.0.2
+mdurl==0.1.2
+mkl-service==2.4.0
+mpmath==1.3.0
+msgpack==1.1.1
+networkx==3.2.1
+packaging==25.0
+propcache==0.3.1
+psutil==7.0.0
+pycparser==2.23
+Pygments==2.19.1
+PyOpenGL==3.1.10
+PySocks==1.7.1
+tzdata==2025.2
+xxhash==3.5.0
+pytz==2025.2
+PyYAML==6.0.2
+regex==2025.9.1
+safetensors==0.5.3
+setuptools==80.9.0
+shtab==1.7.2
+six==1.17.0
+tqdm==4.67.1
+tensorflow==2.15.1
+gym==0.23.1
+uvloop==0.22.1
+wheel==0.45.1
+zipp==3.21.0
+requests-oauthlib==2.0.0
+Markdown==3.9
+google-auth-oauthlib==1.2.3
+tensorboard==2.15.2
+Jinja2==3.1.6
+markdown-it-py==2.2.0
+multiprocess==0.70.15
+numpy==1.23.5
+pip==23.3.2
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+brotlicffi==1.0.9.2
+hydra-core==1.2.0
+multidict==6.7.0
+pillow==11.3.0
+pycares==4.10.0
+rich==14.2.0
+sympy==1.14.0
+typeguard==4.4.4
+aiodns==3.5.0
+urllib3==2.5.0
+yarl==1.18.0
+aiohttp==3.12.15
+pyarrow==21.0.0
+astunparse==1.6.3
+pyarrow-hotfix==0.7
+tokenizers==0.21.0
+av==10.0.0
+einops==0.4.1
+Bottleneck==1.4.2
+mkl_fft==1.3.11
+mkl_random==1.2.8
+numba==0.56.4
+numcodecs==0.12.1
+numexpr==2.10.1
+pandas==2.3.3
+zarr==2.12.0
+datasets==2.19.0
+transformers==4.47.1
+accelerate==1.0.1
+peft==0.14.0
+trl==0.11.4
+torch==2.2.2
+tabulate==0.9.0
+sentencepiece==0.2.0
+pyperclip==1.11.0
+PyOpenGL-accelerate==3.1.10
+pydub==0.25.1
+py-cpuinfo==9.0.0
+pure_eval==0.2.3
+ptyprocess==0.7.0
+nvidia-ml-py==13.590.44
+hjson==3.1.0
+gym-notices==0.1.0
+glfw==2.0.0
+Farama-Notifications==0.0.4
+websockets==15.0.1
+wcwidth==0.2.14
+uc-micro-py==1.0.3
+typing-inspection==0.4.2
+triton==2.2.0
+trimesh==4.10.1
+transforms3d==0.4.2
+traitlets==5.14.3
+threadpoolctl==3.6.0
+tenacity==9.1.2
+sniffio==1.3.1
+smmap==5.0.2
+setproctitle==1.3.7
+sentry-sdk==2.47.0
+semantic-version==2.10.0
+scipy==1.13.1
+rpds-py==0.27.1
+python-multipart==0.0.20
+pyparsing==3.2.5
+pynvml==13.0.1
+pydantic_core==2.41.5
+pycryptodomex==3.23.0
+pyasn1==0.6.1
+google-pasta==0.2.0
+platformdirs==4.4.0
+pexpect==4.9.0
+parso==0.8.5
+orjson==3.11.5
+opencv-python==4.11.0.86
+stack-data==0.6.3
+omegaconf==2.2.1
+nvidia-nvtx-cu12==12.1.105
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-nccl-cu12==2.19.3
+nvidia-curand-cu12==10.3.2.106
+nvidia-cufft-cu12==11.0.2.54
+nvidia-cuda-runtime-cu12==12.1.105
+nvidia-cuda-nvrtc-cu12==12.1.105
+nvidia-cuda-cupti-cu12==12.1.105
+nvidia-cublas-cu12==12.1.3.1
+ninja==1.13.0
+narwhals==2.13.0
+lxml==6.0.2
+kiwisolver==1.4.7
+joblib==1.5.3
+jiter==0.12.0
+imageio-ffmpeg==0.6.0
+ImageIO==2.37.2
+h5py==3.14.0
+h11==0.16.0
+fonttools==4.60.2
+ffmpy==1.0.0
+fast_kinematics==0.2.2
+executing==2.2.1
+exceptiongroup==1.3.1
+docker-pycreds==0.4.0
+distro==1.9.0
+decorator==5.2.1
+dacite==1.9.2
+cycler==0.12.1
+contourpy==1.3.0
+cloudpickle==3.1.2
+click==8.1.8
+cachetools==6.2.4
+asttokens==3.0.1
+annotated-types==0.7.0
+annotated-doc==0.0.4
+aiofiles==25.1.0
+absl-py==2.3.1
+uvicorn==0.38.0
+tiktoken==0.8.0
+scikit-learn==1.6.1
+sapien==3.0.0b1
+rsa==4.9.1
+referencing==0.36.2
+pydantic==2.12.5
+pyasn1_modules==0.4.2
+prompt_toolkit==3.0.52
+nvidia-cusparse-cu12==12.1.0.106
+nvidia-cudnn-cu12==8.9.2.26
+nltk==3.9.2
+mujoco==2.3.7
+mdit-py-plugins==0.3.3
+matplotlib-inline==0.2.1
+matplotlib==3.7.5
+linkify-it-py==2.0.3
+jedi==0.19.2
+huggingface-hub==0.26.2
+httpcore==1.0.9
+gymnasium==0.29.1
+grpcio==1.76.0
+gitdb==4.0.12
+blobfile==3.0.0
+anyio==4.12.0
+tyro==0.9.1
+toppra==0.6.3
+starlette==0.49.3
+seaborn==0.13.2
+rouge_score==0.1.2
+pynndescent==0.5.13
+nvidia-cusolver-cu12==11.4.5.107
+jsonschema-specifications==2025.9.1
+ipython==8.18.1
+httpx==0.28.1
+google-auth==2.41.1
+GitPython==3.1.45
+diffusers==0.31.0
+wandb==0.18.6
+umap-learn==0.5.9.post2
+openai==2.8.1
+mplib==0.1.1
+jsonschema==4.25.1
+gradio_client==0.2.9
+google-genai==1.47.0
+fastapi==0.124.4
+torchvision==0.17.2
+torchaudio==2.2.2
+sentence-transformers==3.2.1
+pytorch-seed==0.2.0
+deepspeed==0.16.1
+bitsandbytes==0.45.0
+altair==6.0.0
+timm==1.0.22
+gradio==3.36.1
+evaluate==0.4.3
+arm_pytorch_utilities==0.4.3
+tensorflow-io-gcs-filesystem==0.37.1
+tensorflow-estimator==2.15.0
+tensorboard-data-server==0.7.2
+tf-agents==0.19.0
+protobuf==4.25.8
+parse==1.19.1
+dm-tree==0.1.8
+termcolor==3.1.0
+oauthlib==3.3.1
+requests==2.32.0
+opt_einsum==3.4.0
+labmaze==1.0.6
+importlib-resources==5.13.0
+wrapt==1.14.2
+importlib-metadata==5.2.0
+FLAML==2.3.6
+dm-env==1.6
+diskcache==5.6.3
+Cython==0.29.37
+mujoco-py==2.1.2.14
+jaxlib==0.4.30
+dm-control==1.0.14
+cmudict==1.0.13
+syllables==1.0.9
+metaworld==2.0.0
+jax==0.4.30
+highway-env==1.9.1
+gym_bandits==0.0.2
+d4rl==1.1
+pyautogen==0.1.0
+pybullet==3.2.6
+Werkzeug==3.1.4
+flatbuffers==25.9.23
+pytorch-kinematics==0.7.5
+pygame==2.6.1
+gin-config==0.5.0
+mani_skill==3.0.0b20
+tifffile==2024.8.30
+Shapely==1.8.4
+PyWavelets==1.6.0
+cffi==1.17.1
+scikit-image==0.19.3
+pymunk==6.2.1
+ml-dtypes==0.3.2
+tensorflow-probability==0.23.0
+stable-baselines3==2.2.1
+keras==2.15.0
+gast==0.7.0
+libclang==18.1.1
+typing_extensions==4.15.0
+llfbench==0.1.0
+llmbc==0.0.0
+autocommand==2.2.2
+backports.tarfile==1.2.0
+importlib_metadata==8.0.0
+inflect==7.3.1
+jaraco.collections==5.1.0
+jaraco.context==5.3.0
+jaraco.functools==4.0.1
+jaraco.text==3.12.1
+more-itertools==10.3.0
+packaging==24.2
+platformdirs==4.2.2
+tomli==2.0.1
+typeguard==4.3.0
+typing_extensions==4.12.2
+wheel==0.45.1
+zipp==3.19.2
diff --git a/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/files/wandb-metadata.json b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..00e70f3dff1dcdc96a23b2cb75e44bd43b6f3b06
--- /dev/null
+++ b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/files/wandb-metadata.json
@@ -0,0 +1,55 @@
+{
+  "os": "Linux-4.18.0-513.24.1.el8_9.x86_64-x86_64-with-glibc2.31",
+  "python": "3.9.25",
+  "startedAt": "2025-12-17T02:14:59.713173Z",
+  "args": [
+    "--config-path=./config/main_table",
+    "--config-name",
+    "llmdp_PegInsertionSide-v1.yaml",
+    "training.seed=46"
+  ],
+  "program": "/root/workspace/LLM-BC/./train.py",
+  "codePath": "train.py",
+  "git": {
+    "remote": "https://github.com/CHYang25/LLM-BC.git",
+    "commit": "6f691a82b1eb85d65cc243f066e7db18b995dd32"
+  },
+  "email": "chris920325@gmail.com",
+  "root": "/root/workspace/LLM-BC/data/outputs/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1",
+  "host": "llmbc-cuda-545d8cd8bc-9ltjf",
+  "username": "root",
+  "executable": "/root/miniconda3/envs/llm-bc/bin/python3",
+  "codePathLocal": "train.py",
+  "cpu_count": 64,
+  "cpu_count_logical": 128,
+  "gpu": "NVIDIA H100 80GB HBM3",
+  "gpu_count": 2,
+  "disk": {
+    "/": {
+      "total": "23041585184768",
+      "used": "532379197440"
+    }
+  },
+  "memory": {
+    "total": "2163619737600"
+  },
+  "cpu": {
+    "count": 64,
+    "countLogical": 128
+  },
+  "gpu_nvidia": [
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    },
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    }
+  ],
+  "cudaVersion": "12.8"
+}
\ No newline at end of file
diff --git a/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/files/wandb-summary.json b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..add46fdb8b281ba0742f65d69ddbb3e56c9c037d
--- /dev/null
+++ b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/files/wandb-summary.json
@@ -0,0 +1 @@
+{"_wandb":{"runtime":371},"train_loss":0.847781777381897,"train_loss_llm":0,"_step":885,"_runtime":371.021507607,"lr":1.1200000000000001e-05,"_timestamp":1.7659380703376908e+09,"global_step":885,"epoch":0,"train_loss_dp":0.847781777381897}
\ No newline at end of file
diff --git a/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/logs/debug-core.log b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..02d58db1974641fe087edecb56166c5fb13d91bd
--- /dev/null
+++ b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/logs/debug-core.log
@@ -0,0 +1,12 @@
+{"time":"2025-12-17T02:14:59.122908307Z","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmpi48_0b_0/port-24545.txt","pid":24545,"debug":false,"disable-analytics":false}
+{"time":"2025-12-17T02:14:59.122930546Z","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2025-12-17T02:14:59.123531361Z","level":"INFO","msg":"Will exit if parent process dies.","ppid":24545}
+{"time":"2025-12-17T02:14:59.123533187Z","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":35971,"Zone":""}}
+{"time":"2025-12-17T02:14:59.317792455Z","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:46108"}
+{"time":"2025-12-17T02:14:59.714173498Z","level":"INFO","msg":"handleInformInit: received","streamId":"z04notzj","id":"127.0.0.1:46108"}
+{"time":"2025-12-17T02:14:59.823325592Z","level":"INFO","msg":"handleInformInit: stream started","streamId":"z04notzj","id":"127.0.0.1:46108"}
+{"time":"2025-12-17T02:21:10.734600269Z","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:46108"}
+{"time":"2025-12-17T02:21:10.734657102Z","level":"INFO","msg":"server is shutting down"}
+{"time":"2025-12-17T02:21:10.734655395Z","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:46108"}
+{"time":"2025-12-17T02:21:10.734703363Z","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:46108"}
+{"time":"2025-12-17T02:21:13.045892321Z","level":"INFO","msg":"Parent process exited, terminating service process."}
diff --git a/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/logs/debug-internal.log b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..07a05bae57b0764f27e82516a8bd7957c7dca5c5
--- /dev/null
+++ b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/logs/debug-internal.log
@@ -0,0 +1,11 @@
+{"time":"2025-12-17T02:14:59.714285482Z","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2025-12-17T02:14:59.714294531Z","level":"INFO","msg":"created symlink","path":"/root/workspace/LLM-BC/data/outputs/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/logs/debug-core.log"}
+{"time":"2025-12-17T02:14:59.823297237Z","level":"INFO","msg":"created new stream","id":"z04notzj"}
+{"time":"2025-12-17T02:14:59.823322108Z","level":"INFO","msg":"stream: started","id":"z04notzj"}
+{"time":"2025-12-17T02:14:59.823336576Z","level":"INFO","msg":"sender: started","stream_id":"z04notzj"}
+{"time":"2025-12-17T02:14:59.823331289Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"z04notzj"}}
+{"time":"2025-12-17T02:14:59.823348393Z","level":"INFO","msg":"handler: started","stream_id":{"value":"z04notzj"}}
+{"time":"2025-12-17T02:15:00.538860394Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-12-17T02:21:10.734663996Z","level":"INFO","msg":"stream: closing","id":"z04notzj"}
+{"time":"2025-12-17T02:21:10.734687557Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-12-17T02:21:10.73492204Z","level":"INFO","msg":"Stopped system monitor"}
diff --git a/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/logs/debug.log b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..0bfe00964ee22dcbdb4e401e6bd14b2b5b05cdc7
--- /dev/null
+++ b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/logs/debug.log
@@ -0,0 +1,27 @@
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_setup.py:_flush():79] Configure stats pid to 24545
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_setup.py:_flush():79] Loading settings from /root/workspace/LLM-BC/wandb/settings
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/root/workspace/LLM-BC/train.py', 'program': '/root/workspace/LLM-BC/./train.py'}
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_setup.py:_flush():79] Applying login settings: {}
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_init.py:_log_setup():533] Logging user logs to /root/workspace/LLM-BC/data/outputs/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/logs/debug.log
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_init.py:_log_setup():534] Logging internal logs to /root/workspace/LLM-BC/data/outputs/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/logs/debug-internal.log
+2025-12-17 02:14:59,711 INFO    MainThread:24545 [wandb_init.py:init():619] calling init triggers
+2025-12-17 02:14:59,712 INFO    MainThread:24545 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llm_diffusion_unet_lowdim', '_target_': 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace', 'obs_dim': 43, 'action_dim': 8, 'task_name': 'PegInsertionSide-v1', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'keypoint_visible_rate': 1.0, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy', 'model': {'_target_': 'llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D', 'input_dim': 8, 'local_cond_dim': None, 'global_cond_dim': 43, 'diffusion_step_embed_dim': 256, 'down_dims': [256, 512, 1024], 'kernel_size': 5, 'n_groups': 8, 'cond_predict_scale': True}, 'noise_scheduler': {'_target_': 'diffusers.schedulers.scheduling_ddpm.DDPMScheduler', 'num_train_timesteps': 100, 'beta_start': 0.0001, 'beta_end': 0.02, 'beta_schedule': 'squaredcos_cap_v2', 'variance_type': 'fixed_small', 'clip_sample': True, 'prediction_type': 'epsilon'}, 'horizon': 1, 'obs_dim': 43, 'action_dim': 8, 'n_action_steps': 1, 'n_obs_steps': 1, 'num_inference_steps': 100, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'oa_step_convention': True, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'PegInsertionSide-v1', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.10.20/18.44.04_train_llm_lowdim_PegInsertionSide-v1/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-PegInsertionSide-v1/checkpoint-19070', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.17/02.14.48_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 43, 'action_dim': 8, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_dp_weight': 1.0, 'loss_llm_weight': 0.01, 'normalize_llm_loss': True, 'reweight_llm_loss': True}, 'ema': {'_target_': 'llmbc.model.diffusion.ema_model.EMAModel', 'update_after_step': 0, 'inv_gamma': 1.0, 'power': 0.75, 'min_value': 0.0, 'max_value': 0.9999}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': False, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.0001, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 46, 'debug': False, 'resume': True, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 500, 'num_epochs': 1001, 'gradient_accumulate_every': 16, 'use_ema': True, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'PegInsertionSide-v1-training', 'resume': True, 'mode': 'online', 'name': '2025.12.17-02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1', 'tags': ['train_llm_diffusion_unet_lowdim', 'PegInsertionSide-v1', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1', 'wandb_name_base': '2025.12.17-02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1'}, 'task': {'name': 'PegInsertionSide-v1', 'obs_dim': 43, 'action_dim': 8, 'env_runner': {'_target_': 'llmbc.env_runner.maniskill_lowdim_runner.ManiskillLowdimRunner', 'env_name': 'llf-maniskill-PegInsertionSide-v1', 'instruction_type': 'b', 'feedback_type': ['hp', 'hn'], 'visual': False, 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 100, 'n_obs_steps': 1, 'n_action_steps': 1, 'discount': 0.99}, 'dataset': {'_target_': 'llmbc.dataset.maniskill_lowdim_dataset.ManiskillLowdimDataset', 'data_path': 'datasets/PegInsertionSide-v1.pt', 'data_path2': 'datasets/PegInsertionSide-v1.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'use_manual_normalizer': False, 'val_ratio': 0.02, 'dummy_normalizer': False}, 'instructor': {'_target_': 'llmbc.translator.instructor.maniskill_instructor.PegInsertionSide_v1_instructor.PegInsertionSideV1Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.10.20/18.44.04_train_llm_lowdim_PegInsertionSide-v1/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-PegInsertionSide-v1/checkpoint-19070', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.17/02.14.48_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2025-12-17 02:14:59,712 INFO    MainThread:24545 [wandb_init.py:init():669] starting backend
+2025-12-17 02:14:59,712 INFO    MainThread:24545 [wandb_init.py:init():673] sending inform_init request
+2025-12-17 02:14:59,712 INFO    MainThread:24545 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-12-17 02:14:59,713 INFO    MainThread:24545 [wandb_init.py:init():686] backend started and connected
+2025-12-17 02:14:59,720 INFO    MainThread:24545 [wandb_init.py:init():781] updated telemetry
+2025-12-17 02:14:59,750 INFO    MainThread:24545 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2025-12-17 02:15:00,536 INFO    MainThread:24545 [wandb_init.py:init():867] starting run threads in backend
+2025-12-17 02:15:00,877 INFO    MainThread:24545 [wandb_run.py:_console_start():2451] atexit reg
+2025-12-17 02:15:00,877 INFO    MainThread:24545 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2025-12-17 02:15:00,877 INFO    MainThread:24545 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2025-12-17 02:15:00,877 INFO    MainThread:24545 [wandb_run.py:_redirect():2389] Redirects installed.
+2025-12-17 02:15:00,879 INFO    MainThread:24545 [wandb_init.py:init():911] run started, returning control to user process
+2025-12-17 02:15:00,879 INFO    MainThread:24545 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/root/workspace/LLM-BC/data/outputs/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1'}
+2025-12-17 02:21:10,734 WARNING MsgRouterThr:24545 [router.py:message_loop():75] message_loop has been closed
diff --git a/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/run-z04notzj.wandb b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/run-z04notzj.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..d96368bc97a324a5a1fda7b57999ccf7ca3a717e
--- /dev/null
+++ b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/run-20251217_021459-z04notzj/run-z04notzj.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d50ae7d1fbdd8e328ccc4e3d8e03036d5f541eb6ea6cb85ec0d706e016464d8a
+size 819200
diff --git a/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/wandb-resume.json b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/wandb-resume.json
new file mode 100644
index 0000000000000000000000000000000000000000..e075f0fd2f258ddceb0780070ceeb657c4d9d987
--- /dev/null
+++ b/2025.12.17/02.14.48_train_llm_diffusion_unet_lowdim_PegInsertionSide-v1/wandb/wandb-resume.json
@@ -0,0 +1 @@
+{"run_id": "z04notzj"}
\ No newline at end of file
diff --git a/2025.12.17/04.01.21_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml b/2025.12.17/04.01.21_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..4412e585f6d05a348b86fdb63d68474c1c6b565e
--- /dev/null
+++ b/2025.12.17/04.01.21_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
@@ -0,0 +1,193 @@
+name: train_llm_diffusion_unet_lowdim
+_target_: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+keypoint_visible_rate: 1.0
+obs_as_local_cond: false
+obs_as_global_cond: true
+pred_action_steps_only: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+  model:
+    _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+    input_dim: '${eval: ${task.action_dim} if ${obs_as_local_cond} or ${obs_as_global_cond}
+      else ${task.obs_dim} + ${task.action_dim}}'
+    local_cond_dim: '${eval: ${task.obs_dim} if ${obs_as_local_cond} else None}'
+    global_cond_dim: '${eval: ${task.obs_dim}*${n_obs_steps} if ${obs_as_global_cond}
+      else None}'
+    diffusion_step_embed_dim: 256
+    down_dims:
+    - 256
+    - 512
+    - 1024
+    kernel_size: 5
+    n_groups: 8
+    cond_predict_scale: true
+  noise_scheduler:
+    _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+    num_train_timesteps: 100
+    beta_start: 0.0001
+    beta_end: 0.02
+    beta_schedule: squaredcos_cap_v2
+    variance_type: fixed_small
+    clip_sample: true
+    prediction_type: epsilon
+  horizon: ${horizon}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  n_obs_steps: ${n_obs_steps}
+  num_inference_steps: 100
+  obs_as_local_cond: ${obs_as_local_cond}
+  obs_as_global_cond: ${obs_as_global_cond}
+  pred_action_steps_only: ${pred_action_steps_only}
+  oa_step_convention: true
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${obs_dim}
+      action_dim: ${action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  loss_dp_weight: 1.0
+  loss_llm_weight: 0.001
+  normalize_llm_loss: true
+  reweight_llm_loss: true
+ema:
+  _target_: llmbc.model.diffusion.ema_model.EMAModel
+  update_after_step: 0
+  inv_gamma: 1.0
+  power: 0.75
+  min_value: 0.0
+  max_value: 0.9999
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: false
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.0001
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 42
+  debug: false
+  resume: true
+  lr_scheduler: cosine
+  lr_warmup_steps: 500
+  num_epochs: 1001
+  gradient_accumulate_every: 16
+  use_ema: true
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: parking-v0
+  obs_dim: 18
+  action_dim: 2
+  env_runner:
+    _target_: llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner
+    env_name: llf-highway-parking-v0
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 80
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    - fp
+    visual: false
+    discount: 0.99
+  dataset:
+    _target_: llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset
+    data_path: datasets/parking-v0.pt
+    data_path2: datasets/parking-v0.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    obs_eef_target: true
+    use_manual_normalizer: false
+    val_ratio: 0.02
+    dummy_normalizer: false
+  instructor:
+    _target_: llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2025.12.17/04.01.21_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml b/2025.12.17/04.01.21_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..a17e72b51a3d57fd751ba635a8ca46fb24dc2f35
--- /dev/null
+++ b/2025.12.17/04.01.21_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
@@ -0,0 +1,155 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - policy.loss_llm_weight=1.0e-3
+  job:
+    name: train
+    chdir: null
+    override_dirname: policy.loss_llm_weight=1.0e-3
+    id: ???
+    num: ???
+    config_name: llmdp_parking-v0.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /root/workspace/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /root/workspace/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /root/workspace/LLM-BC/data/outputs/2025.12.17/04.01.21_train_llm_diffusion_unet_lowdim_parking-v0
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2025.12.17/04.01.21_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml b/2025.12.17/04.01.21_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..dd7296ef5c15eabe738b29ec20bc7985c262ec84
--- /dev/null
+++ b/2025.12.17/04.01.21_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
@@ -0,0 +1 @@
+- policy.loss_llm_weight=1.0e-3
diff --git a/2025.12.17/04.01.21_train_llm_diffusion_unet_lowdim_parking-v0/train.log b/2025.12.17/04.01.21_train_llm_diffusion_unet_lowdim_parking-v0/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..f5de60b8cd1d16dbbc90d5212591bde39254dcbf
--- /dev/null
+++ b/2025.12.17/04.01.21_train_llm_diffusion_unet_lowdim_parking-v0/train.log
@@ -0,0 +1,8 @@
+[2025-12-17 04:01:22,830][numexpr.utils][INFO] - Note: detected 128 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+[2025-12-17 04:01:22,830][numexpr.utils][INFO] - Note: NumExpr detected 128 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
+[2025-12-17 04:01:22,830][numexpr.utils][INFO] - NumExpr defaulting to 16 threads.
+[2025-12-17 04:01:24,739][datasets][INFO] - PyTorch version 2.2.2 available.
+[2025-12-17 04:01:24,740][datasets][INFO] - TensorFlow version 2.15.1 available.
+[2025-12-17 04:01:24,740][datasets][INFO] - JAX version 0.4.30 available.
+[2025-12-17 04:01:24,867][hydra.utils][ERROR] - Error initializing class at llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace: Error loading 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace':
+ImportError("cannot import name 'Sentinel' from 'typing_extensions' (/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/typing_extensions.py)")
diff --git a/2025.12.17/04.03.03_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml b/2025.12.17/04.03.03_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..4412e585f6d05a348b86fdb63d68474c1c6b565e
--- /dev/null
+++ b/2025.12.17/04.03.03_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
@@ -0,0 +1,193 @@
+name: train_llm_diffusion_unet_lowdim
+_target_: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+keypoint_visible_rate: 1.0
+obs_as_local_cond: false
+obs_as_global_cond: true
+pred_action_steps_only: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+  model:
+    _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+    input_dim: '${eval: ${task.action_dim} if ${obs_as_local_cond} or ${obs_as_global_cond}
+      else ${task.obs_dim} + ${task.action_dim}}'
+    local_cond_dim: '${eval: ${task.obs_dim} if ${obs_as_local_cond} else None}'
+    global_cond_dim: '${eval: ${task.obs_dim}*${n_obs_steps} if ${obs_as_global_cond}
+      else None}'
+    diffusion_step_embed_dim: 256
+    down_dims:
+    - 256
+    - 512
+    - 1024
+    kernel_size: 5
+    n_groups: 8
+    cond_predict_scale: true
+  noise_scheduler:
+    _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+    num_train_timesteps: 100
+    beta_start: 0.0001
+    beta_end: 0.02
+    beta_schedule: squaredcos_cap_v2
+    variance_type: fixed_small
+    clip_sample: true
+    prediction_type: epsilon
+  horizon: ${horizon}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  n_obs_steps: ${n_obs_steps}
+  num_inference_steps: 100
+  obs_as_local_cond: ${obs_as_local_cond}
+  obs_as_global_cond: ${obs_as_global_cond}
+  pred_action_steps_only: ${pred_action_steps_only}
+  oa_step_convention: true
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${obs_dim}
+      action_dim: ${action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  loss_dp_weight: 1.0
+  loss_llm_weight: 0.001
+  normalize_llm_loss: true
+  reweight_llm_loss: true
+ema:
+  _target_: llmbc.model.diffusion.ema_model.EMAModel
+  update_after_step: 0
+  inv_gamma: 1.0
+  power: 0.75
+  min_value: 0.0
+  max_value: 0.9999
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: false
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.0001
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 42
+  debug: false
+  resume: true
+  lr_scheduler: cosine
+  lr_warmup_steps: 500
+  num_epochs: 1001
+  gradient_accumulate_every: 16
+  use_ema: true
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: parking-v0
+  obs_dim: 18
+  action_dim: 2
+  env_runner:
+    _target_: llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner
+    env_name: llf-highway-parking-v0
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 80
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    - fp
+    visual: false
+    discount: 0.99
+  dataset:
+    _target_: llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset
+    data_path: datasets/parking-v0.pt
+    data_path2: datasets/parking-v0.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    obs_eef_target: true
+    use_manual_normalizer: false
+    val_ratio: 0.02
+    dummy_normalizer: false
+  instructor:
+    _target_: llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2025.12.17/04.03.03_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml b/2025.12.17/04.03.03_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..fff573f5f2ce8df14d5ca8871de875d95497eb7f
--- /dev/null
+++ b/2025.12.17/04.03.03_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
@@ -0,0 +1,155 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - policy.loss_llm_weight=1.0e-3
+  job:
+    name: train
+    chdir: null
+    override_dirname: policy.loss_llm_weight=1.0e-3
+    id: ???
+    num: ???
+    config_name: llmdp_parking-v0.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /root/workspace/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /root/workspace/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /root/workspace/LLM-BC/data/outputs/2025.12.17/04.03.03_train_llm_diffusion_unet_lowdim_parking-v0
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2025.12.17/04.03.03_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml b/2025.12.17/04.03.03_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..dd7296ef5c15eabe738b29ec20bc7985c262ec84
--- /dev/null
+++ b/2025.12.17/04.03.03_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
@@ -0,0 +1 @@
+- policy.loss_llm_weight=1.0e-3
diff --git a/2025.12.17/04.03.03_train_llm_diffusion_unet_lowdim_parking-v0/train.log b/2025.12.17/04.03.03_train_llm_diffusion_unet_lowdim_parking-v0/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..f80bd8294d1216bb866e7e6a826f7d626ebdc94f
--- /dev/null
+++ b/2025.12.17/04.03.03_train_llm_diffusion_unet_lowdim_parking-v0/train.log
@@ -0,0 +1,7 @@
+[2025-12-17 04:03:05,481][numexpr.utils][INFO] - Note: detected 128 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+[2025-12-17 04:03:05,481][numexpr.utils][INFO] - Note: NumExpr detected 128 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
+[2025-12-17 04:03:05,481][numexpr.utils][INFO] - NumExpr defaulting to 16 threads.
+[2025-12-17 04:03:07,396][datasets][INFO] - PyTorch version 2.2.2 available.
+[2025-12-17 04:03:07,397][datasets][INFO] - TensorFlow version 2.15.1 available.
+[2025-12-17 04:03:07,398][datasets][INFO] - JAX version 0.4.30 available.
+[2025-12-17 04:03:08,817][llmbc.model.diffusion.conditional_unet1d][INFO] - number of parameters: 6.514023e+07
diff --git a/2025.12.17/04.16.11_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml b/2025.12.17/04.16.11_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..4412e585f6d05a348b86fdb63d68474c1c6b565e
--- /dev/null
+++ b/2025.12.17/04.16.11_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
@@ -0,0 +1,193 @@
+name: train_llm_diffusion_unet_lowdim
+_target_: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+keypoint_visible_rate: 1.0
+obs_as_local_cond: false
+obs_as_global_cond: true
+pred_action_steps_only: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+  model:
+    _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+    input_dim: '${eval: ${task.action_dim} if ${obs_as_local_cond} or ${obs_as_global_cond}
+      else ${task.obs_dim} + ${task.action_dim}}'
+    local_cond_dim: '${eval: ${task.obs_dim} if ${obs_as_local_cond} else None}'
+    global_cond_dim: '${eval: ${task.obs_dim}*${n_obs_steps} if ${obs_as_global_cond}
+      else None}'
+    diffusion_step_embed_dim: 256
+    down_dims:
+    - 256
+    - 512
+    - 1024
+    kernel_size: 5
+    n_groups: 8
+    cond_predict_scale: true
+  noise_scheduler:
+    _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+    num_train_timesteps: 100
+    beta_start: 0.0001
+    beta_end: 0.02
+    beta_schedule: squaredcos_cap_v2
+    variance_type: fixed_small
+    clip_sample: true
+    prediction_type: epsilon
+  horizon: ${horizon}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  n_obs_steps: ${n_obs_steps}
+  num_inference_steps: 100
+  obs_as_local_cond: ${obs_as_local_cond}
+  obs_as_global_cond: ${obs_as_global_cond}
+  pred_action_steps_only: ${pred_action_steps_only}
+  oa_step_convention: true
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${obs_dim}
+      action_dim: ${action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  loss_dp_weight: 1.0
+  loss_llm_weight: 0.001
+  normalize_llm_loss: true
+  reweight_llm_loss: true
+ema:
+  _target_: llmbc.model.diffusion.ema_model.EMAModel
+  update_after_step: 0
+  inv_gamma: 1.0
+  power: 0.75
+  min_value: 0.0
+  max_value: 0.9999
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: false
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.0001
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 42
+  debug: false
+  resume: true
+  lr_scheduler: cosine
+  lr_warmup_steps: 500
+  num_epochs: 1001
+  gradient_accumulate_every: 16
+  use_ema: true
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: parking-v0
+  obs_dim: 18
+  action_dim: 2
+  env_runner:
+    _target_: llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner
+    env_name: llf-highway-parking-v0
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 80
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    - fp
+    visual: false
+    discount: 0.99
+  dataset:
+    _target_: llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset
+    data_path: datasets/parking-v0.pt
+    data_path2: datasets/parking-v0.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    obs_eef_target: true
+    use_manual_normalizer: false
+    val_ratio: 0.02
+    dummy_normalizer: false
+  instructor:
+    _target_: llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2025.12.17/04.16.11_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml b/2025.12.17/04.16.11_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..853d28172d020a10e2c3d93b9749a82219681f01
--- /dev/null
+++ b/2025.12.17/04.16.11_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
@@ -0,0 +1,155 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - policy.loss_llm_weight=1.0e-3
+  job:
+    name: train
+    chdir: null
+    override_dirname: policy.loss_llm_weight=1.0e-3
+    id: ???
+    num: ???
+    config_name: llmdp_parking-v0.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /root/workspace/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /root/workspace/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /root/workspace/LLM-BC/data/outputs/2025.12.17/04.16.11_train_llm_diffusion_unet_lowdim_parking-v0
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2025.12.17/04.16.11_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml b/2025.12.17/04.16.11_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..dd7296ef5c15eabe738b29ec20bc7985c262ec84
--- /dev/null
+++ b/2025.12.17/04.16.11_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
@@ -0,0 +1 @@
+- policy.loss_llm_weight=1.0e-3
diff --git a/2025.12.17/04.16.11_train_llm_diffusion_unet_lowdim_parking-v0/train.log b/2025.12.17/04.16.11_train_llm_diffusion_unet_lowdim_parking-v0/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..75c9a3bdc7aeaed591c1962378a027f1585da889
--- /dev/null
+++ b/2025.12.17/04.16.11_train_llm_diffusion_unet_lowdim_parking-v0/train.log
@@ -0,0 +1,7 @@
+[2025-12-17 04:16:12,493][numexpr.utils][INFO] - Note: detected 128 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+[2025-12-17 04:16:12,493][numexpr.utils][INFO] - Note: NumExpr detected 128 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
+[2025-12-17 04:16:12,493][numexpr.utils][INFO] - NumExpr defaulting to 16 threads.
+[2025-12-17 04:16:14,423][datasets][INFO] - PyTorch version 2.2.2 available.
+[2025-12-17 04:16:14,424][datasets][INFO] - TensorFlow version 2.15.1 available.
+[2025-12-17 04:16:14,425][datasets][INFO] - JAX version 0.4.30 available.
+[2025-12-17 04:16:15,852][llmbc.model.diffusion.conditional_unet1d][INFO] - number of parameters: 6.514023e+07
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..4412e585f6d05a348b86fdb63d68474c1c6b565e
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
@@ -0,0 +1,193 @@
+name: train_llm_diffusion_unet_lowdim
+_target_: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+keypoint_visible_rate: 1.0
+obs_as_local_cond: false
+obs_as_global_cond: true
+pred_action_steps_only: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+  model:
+    _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+    input_dim: '${eval: ${task.action_dim} if ${obs_as_local_cond} or ${obs_as_global_cond}
+      else ${task.obs_dim} + ${task.action_dim}}'
+    local_cond_dim: '${eval: ${task.obs_dim} if ${obs_as_local_cond} else None}'
+    global_cond_dim: '${eval: ${task.obs_dim}*${n_obs_steps} if ${obs_as_global_cond}
+      else None}'
+    diffusion_step_embed_dim: 256
+    down_dims:
+    - 256
+    - 512
+    - 1024
+    kernel_size: 5
+    n_groups: 8
+    cond_predict_scale: true
+  noise_scheduler:
+    _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+    num_train_timesteps: 100
+    beta_start: 0.0001
+    beta_end: 0.02
+    beta_schedule: squaredcos_cap_v2
+    variance_type: fixed_small
+    clip_sample: true
+    prediction_type: epsilon
+  horizon: ${horizon}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  n_obs_steps: ${n_obs_steps}
+  num_inference_steps: 100
+  obs_as_local_cond: ${obs_as_local_cond}
+  obs_as_global_cond: ${obs_as_global_cond}
+  pred_action_steps_only: ${pred_action_steps_only}
+  oa_step_convention: true
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${obs_dim}
+      action_dim: ${action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  loss_dp_weight: 1.0
+  loss_llm_weight: 0.001
+  normalize_llm_loss: true
+  reweight_llm_loss: true
+ema:
+  _target_: llmbc.model.diffusion.ema_model.EMAModel
+  update_after_step: 0
+  inv_gamma: 1.0
+  power: 0.75
+  min_value: 0.0
+  max_value: 0.9999
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: false
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.0001
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 42
+  debug: false
+  resume: true
+  lr_scheduler: cosine
+  lr_warmup_steps: 500
+  num_epochs: 1001
+  gradient_accumulate_every: 16
+  use_ema: true
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: parking-v0
+  obs_dim: 18
+  action_dim: 2
+  env_runner:
+    _target_: llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner
+    env_name: llf-highway-parking-v0
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 80
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    - fp
+    visual: false
+    discount: 0.99
+  dataset:
+    _target_: llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset
+    data_path: datasets/parking-v0.pt
+    data_path2: datasets/parking-v0.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    obs_eef_target: true
+    use_manual_normalizer: false
+    val_ratio: 0.02
+    dummy_normalizer: false
+  instructor:
+    _target_: llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..a05a62a9fa5ea2e63e7b7310ada35eb01ed70cb2
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
@@ -0,0 +1,155 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - policy.loss_llm_weight=1.0e-3
+  job:
+    name: train
+    chdir: null
+    override_dirname: policy.loss_llm_weight=1.0e-3
+    id: ???
+    num: ???
+    config_name: llmdp_parking-v0.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /root/workspace/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /root/workspace/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /root/workspace/LLM-BC/data/outputs/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..dd7296ef5c15eabe738b29ec20bc7985c262ec84
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
@@ -0,0 +1 @@
+- policy.loss_llm_weight=1.0e-3
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0240-test_success_rate=0.960.ckpt b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0240-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..bd7243d5a788e0be789931568061c6b4080151e6
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0240-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3796ac0e06aa2ff3ab48a9b1c5603d32060354b3f97aa848effac529ec84612f
+size 1042506738
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0335-test_success_rate=0.940.ckpt b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0335-test_success_rate=0.940.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..de4b6ab631e832e0d50b658c952efdd3382233a1
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0335-test_success_rate=0.940.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1ea234931279169c34ad5d572a37f80ac85c64efb2762f4484c42888a8394bc2
+size 1042506802
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0340-test_success_rate=0.940.ckpt b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0340-test_success_rate=0.940.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..6df74c8014d7c0248b7bede9de6ca13a58bd9cc7
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0340-test_success_rate=0.940.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d5df4363cc08063788c29f3755dea79dc7a3058455837bbe8d6fe7c503216990
+size 1042506802
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0580-test_success_rate=0.940.ckpt b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0580-test_success_rate=0.940.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..77a7831f8357a50153d94a2eb6d2d33f62c40970
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0580-test_success_rate=0.940.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5791c63937282ede22db866a5460a553bc64c133dab2241f3ce4f178cbd7cc3f
+size 1042506802
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0585-test_success_rate=0.940.ckpt b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0585-test_success_rate=0.940.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..cc4ffb971625a89a8b9d5d635df0d5e8d4191b86
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0585-test_success_rate=0.940.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8ce8e1007ae51a2926fb33a59810ba8fec86bf1b6f3f69c3ec94bf0fc3148f88
+size 1042506802
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..4b7e768870478a834c9a569cdf3e9c730a55940f
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4e40f566cedac53afaeb51a1d730d8b331e4663df765ed9c664adcc5ec16ae14
+size 1042506802
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt
new file mode 100644
index 0000000000000000000000000000000000000000..53936f9799273689228408db051a899faeb635b0
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5b09bbb15a122e0c9529b4cd39702264c59695bfec17f682544038df2fa7e829
+size 114219792
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/train.log b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..121b42cb8b7094a267604393546bae6e0c408ee0
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/train.log
@@ -0,0 +1,9 @@
+[2025-12-17 04:26:40,571][numexpr.utils][INFO] - Note: detected 128 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+[2025-12-17 04:26:40,571][numexpr.utils][INFO] - Note: NumExpr detected 128 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
+[2025-12-17 04:26:40,571][numexpr.utils][INFO] - NumExpr defaulting to 16 threads.
+[2025-12-17 04:26:42,485][datasets][INFO] - PyTorch version 2.2.2 available.
+[2025-12-17 04:26:42,486][datasets][INFO] - TensorFlow version 2.15.1 available.
+[2025-12-17 04:26:42,487][datasets][INFO] - JAX version 0.4.30 available.
+[2025-12-17 04:26:43,923][llmbc.model.diffusion.conditional_unet1d][INFO] - number of parameters: 6.514023e+07
+[2025-12-17 04:26:49,760][absl][INFO] - MUJOCO_GL=osmesa, attempting to import specified OpenGL backend.
+[2025-12-17 04:26:49,764][absl][INFO] - MuJoCo library version is: 2.3.7
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..87a55c946df16ed4863b6e89b2c207e6ccc6c01c
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log
@@ -0,0 +1,18 @@
+{"time":"2025-12-17T04:26:50.589932565Z","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2025-12-17T04:26:50.589943383Z","level":"INFO","msg":"created symlink","path":"/root/workspace/LLM-BC/data/outputs/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/logs/debug-core.log"}
+{"time":"2025-12-17T04:26:50.696686472Z","level":"INFO","msg":"created new stream","id":"5vils759"}
+{"time":"2025-12-17T04:26:50.696705696Z","level":"INFO","msg":"stream: started","id":"5vils759"}
+{"time":"2025-12-17T04:26:50.696727668Z","level":"INFO","msg":"sender: started","stream_id":"5vils759"}
+{"time":"2025-12-17T04:26:50.696715688Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"5vils759"}}
+{"time":"2025-12-17T04:26:50.696726141Z","level":"INFO","msg":"handler: started","stream_id":{"value":"5vils759"}}
+{"time":"2025-12-17T04:26:51.42871616Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-12-18T07:24:07.781022092Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": read tcp 192.168.42.185:39616->35.186.228.49:443: read: connection reset by peer"}
+{"time":"2025-12-18T17:59:52.121719493Z","level":"INFO","msg":"api: retrying HTTP error","status":503,"url":"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/5vils759/file_stream"}
+{"time":"2025-12-19T11:54:59.997056349Z","level":"INFO","msg":"stream: closing","id":"5vils759"}
+{"time":"2025-12-19T11:54:59.997084555Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-12-19T11:54:59.997570319Z","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2025-12-19T11:55:01.797329488Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-12-19T11:55:02.079075484Z","level":"INFO","msg":"handler: closed","stream_id":{"value":"5vils759"}}
+{"time":"2025-12-19T11:55:02.079104191Z","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"5vils759"}}
+{"time":"2025-12-19T11:55:02.079159987Z","level":"INFO","msg":"sender: closed","stream_id":"5vils759"}
+{"time":"2025-12-19T11:55:02.079176847Z","level":"INFO","msg":"stream: closed","id":"5vils759"}
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..380bf70de237fad0b2f5c586789259c88cf1cdd9
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log
@@ -0,0 +1,27 @@
+2025-12-17 04:26:50,586 INFO    MainThread:30053 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_setup.py:_flush():79] Configure stats pid to 30053
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_setup.py:_flush():79] Loading settings from /root/workspace/LLM-BC/wandb/settings
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/root/workspace/LLM-BC/train.py', 'program': '/root/workspace/LLM-BC/./train.py'}
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_setup.py:_flush():79] Applying login settings: {}
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_init.py:_log_setup():533] Logging user logs to /root/workspace/LLM-BC/data/outputs/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/logs/debug.log
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_init.py:_log_setup():534] Logging internal logs to /root/workspace/LLM-BC/data/outputs/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/logs/debug-internal.log
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_init.py:init():619] calling init triggers
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llm_diffusion_unet_lowdim', '_target_': 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace', 'obs_dim': 18, 'action_dim': 2, 'task_name': 'parking-v0', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'keypoint_visible_rate': 1.0, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy', 'model': {'_target_': 'llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D', 'input_dim': 2, 'local_cond_dim': None, 'global_cond_dim': 18, 'diffusion_step_embed_dim': 256, 'down_dims': [256, 512, 1024], 'kernel_size': 5, 'n_groups': 8, 'cond_predict_scale': True}, 'noise_scheduler': {'_target_': 'diffusers.schedulers.scheduling_ddpm.DDPMScheduler', 'num_train_timesteps': 100, 'beta_start': 0.0001, 'beta_end': 0.02, 'beta_schedule': 'squaredcos_cap_v2', 'variance_type': 'fixed_small', 'clip_sample': True, 'prediction_type': 'epsilon'}, 'horizon': 1, 'obs_dim': 18, 'action_dim': 2, 'n_action_steps': 1, 'n_obs_steps': 1, 'num_inference_steps': 100, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'oa_step_convention': True, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'parking-v0', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.17/04.26.39_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 18, 'action_dim': 2, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_dp_weight': 1.0, 'loss_llm_weight': 0.001, 'normalize_llm_loss': True, 'reweight_llm_loss': True}, 'ema': {'_target_': 'llmbc.model.diffusion.ema_model.EMAModel', 'update_after_step': 0, 'inv_gamma': 1.0, 'power': 0.75, 'min_value': 0.0, 'max_value': 0.9999}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': False, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.0001, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 42, 'debug': False, 'resume': True, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 500, 'num_epochs': 1001, 'gradient_accumulate_every': 16, 'use_ema': True, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'parking-v0-training', 'resume': True, 'mode': 'online', 'name': '2025.12.17-04.26.39_train_llm_diffusion_unet_lowdim_parking-v0', 'tags': ['train_llm_diffusion_unet_lowdim', 'parking-v0', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0', 'wandb_name_base': '2025.12.17-04.26.39_train_llm_diffusion_unet_lowdim_parking-v0'}, 'task': {'name': 'parking-v0', 'obs_dim': 18, 'action_dim': 2, 'env_runner': {'_target_': 'llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner', 'env_name': 'llf-highway-parking-v0', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 80, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.99}, 'dataset': {'_target_': 'llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset', 'data_path': 'datasets/parking-v0.pt', 'data_path2': 'datasets/parking-v0.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.02, 'dummy_normalizer': False}, 'instructor': {'_target_': 'llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.17/04.26.39_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_init.py:init():669] starting backend
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_init.py:init():673] sending inform_init request
+2025-12-17 04:26:50,588 INFO    MainThread:30053 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-12-17 04:26:50,588 INFO    MainThread:30053 [wandb_init.py:init():686] backend started and connected
+2025-12-17 04:26:50,594 INFO    MainThread:30053 [wandb_init.py:init():781] updated telemetry
+2025-12-17 04:26:50,625 INFO    MainThread:30053 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2025-12-17 04:26:51,426 INFO    MainThread:30053 [wandb_init.py:init():867] starting run threads in backend
+2025-12-17 04:26:51,766 INFO    MainThread:30053 [wandb_run.py:_console_start():2451] atexit reg
+2025-12-17 04:26:51,766 INFO    MainThread:30053 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2025-12-17 04:26:51,766 INFO    MainThread:30053 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2025-12-17 04:26:51,766 INFO    MainThread:30053 [wandb_run.py:_redirect():2389] Redirects installed.
+2025-12-17 04:26:51,768 INFO    MainThread:30053 [wandb_init.py:init():911] run started, returning control to user process
+2025-12-17 04:26:51,768 INFO    MainThread:30053 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/root/workspace/LLM-BC/data/outputs/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0'}
+2025-12-19 11:54:59,997 WARNING MsgRouterThr:30053 [router.py:message_loop():75] message_loop has been closed
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/files/config.yaml b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..ba2b4562530aeb05396f9d44d7ed3e760abce22b
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/files/config.yaml
@@ -0,0 +1,304 @@
+_target_:
+    value: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+_wandb:
+    value:
+        cli_version: 0.18.6
+        m: []
+        python_version: 3.9.25
+        t:
+            "1":
+                - 1
+                - 2
+                - 3
+                - 5
+                - 11
+                - 12
+                - 41
+                - 49
+                - 50
+                - 51
+                - 53
+                - 55
+                - 71
+                - 83
+                - 95
+                - 98
+                - 100
+                - 105
+            "2":
+                - 1
+                - 2
+                - 3
+                - 5
+                - 11
+                - 12
+                - 41
+                - 49
+                - 50
+                - 51
+                - 53
+                - 55
+                - 71
+                - 83
+                - 95
+                - 98
+                - 100
+                - 105
+            "3":
+                - 13
+                - 15
+                - 16
+                - 23
+                - 55
+                - 61
+            "4": 3.9.25
+            "5": 0.18.6
+            "6": 4.47.1
+            "8":
+                - 5
+            "12": 0.18.6
+            "13": linux-x86_64
+action_dim:
+    value: 2
+checkpoint:
+    value:
+        save_last_ckpt: true
+        save_last_snapshot: false
+        topk:
+            format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+            k: 5
+            mode: max
+            monitor_key: test_success_rate
+dataloader:
+    value:
+        batch_size: 16
+        num_workers: 0
+        persistent_workers: false
+        pin_memory: false
+        shuffle: true
+ema:
+    value:
+        _target_: llmbc.model.diffusion.ema_model.EMAModel
+        inv_gamma: 1
+        max_value: 0.9999
+        min_value: 0
+        power: 0.75
+        update_after_step: 0
+exp_name:
+    value: default
+horizon:
+    value: 1
+keypoint_visible_rate:
+    value: 1
+llm:
+    value:
+        causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+        checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+        config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+        finetune_mode: orig
+        hydra:
+            job:
+                override_dirname: HuggingFaceTB/SmolLM2-135M-Instruct
+            run:
+                dir: data/outputs/2025.12.17/04.26.39_HuggingFaceTB/SmolLM2-135M-Instruct
+        llm_mode: ete-finetuned
+        lora_config:
+            bias: none
+            lora_alpha: 64
+            lora_dropout: 0.05
+            r: 32
+            task_type: CAUSAL_LM
+        max_length: 100
+        model_name: SmolLM2-135M-Instruct
+        name: HuggingFaceTB/SmolLM2-135M-Instruct
+        prompter:
+            _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+            use_joint_mlp_projector: true
+        use_joint_mlp_projector: true
+        use_quantization: false
+llm_do_sample:
+    value: false
+llm_orig_expert_feedback:
+    value: true
+logging:
+    value:
+        group: null
+        id: null
+        mode: online
+        name: 2025.12.17-04.26.39_train_llm_diffusion_unet_lowdim_parking-v0
+        project: parking-v0-training
+        resume: true
+        tags:
+            - train_llm_diffusion_unet_lowdim
+            - parking-v0
+            - default
+model_name:
+    value: HuggingFaceTB/SmolLM2-135M-Instruct
+multi_run:
+    value:
+        run_dir: data/outputs/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0
+        wandb_name_base: 2025.12.17-04.26.39_train_llm_diffusion_unet_lowdim_parking-v0
+n_action_steps:
+    value: 1
+n_latency_steps:
+    value: 0
+n_obs_steps:
+    value: 1
+name:
+    value: train_llm_diffusion_unet_lowdim
+obs_as_global_cond:
+    value: true
+obs_as_local_cond:
+    value: false
+obs_dim:
+    value: 18
+optimizer:
+    value:
+        _target_: torch.optim.AdamW
+        betas:
+            - 0.95
+            - 0.999
+        eps: 1e-08
+        lr: 0.0001
+        weight_decay: 1e-06
+output_dir:
+    value: /root/workspace/LLM-BC/data/outputs/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0
+past_action_visible:
+    value: false
+policy:
+    value:
+        _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+        action_dim: 2
+        horizon: 1
+        llm_discriminator:
+            _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+            llm_translator:
+                _target_: llmbc.translator.llm_translator.LLMTranslator
+                action_dim: 2
+                cfg:
+                    causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+                    checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+                    config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+                    finetune_mode: orig
+                    hydra:
+                        job:
+                            override_dirname: HuggingFaceTB/SmolLM2-135M-Instruct
+                        run:
+                            dir: data/outputs/2025.12.17/04.26.39_HuggingFaceTB/SmolLM2-135M-Instruct
+                    llm_mode: ete-finetuned
+                    lora_config:
+                        bias: none
+                        lora_alpha: 64
+                        lora_dropout: 0.05
+                        r: 32
+                        task_type: CAUSAL_LM
+                    max_length: 100
+                    model_name: SmolLM2-135M-Instruct
+                    name: HuggingFaceTB/SmolLM2-135M-Instruct
+                    prompter:
+                        _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+                        use_joint_mlp_projector: true
+                    use_joint_mlp_projector: true
+                    use_quantization: false
+                horizon: 1
+                n_action_steps: 1
+                n_obs_steps: 1
+                obs_dim: 18
+            task_id: parking-v0
+        loss_dp_weight: 1
+        loss_llm_weight: 0.001
+        model:
+            _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+            cond_predict_scale: true
+            diffusion_step_embed_dim: 256
+            down_dims:
+                - 256
+                - 512
+                - 1024
+            global_cond_dim: 18
+            input_dim: 2
+            kernel_size: 5
+            local_cond_dim: null
+            n_groups: 8
+        n_action_steps: 1
+        n_obs_steps: 1
+        noise_scheduler:
+            _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+            beta_end: 0.02
+            beta_schedule: squaredcos_cap_v2
+            beta_start: 0.0001
+            clip_sample: true
+            num_train_timesteps: 100
+            prediction_type: epsilon
+            variance_type: fixed_small
+        normalize_llm_loss: true
+        num_inference_steps: 100
+        oa_step_convention: true
+        obs_as_global_cond: true
+        obs_as_local_cond: false
+        obs_dim: 18
+        pred_action_steps_only: false
+        reweight_llm_loss: true
+pred_action_steps_only:
+    value: false
+task:
+    value:
+        action_dim: 2
+        dataset:
+            _target_: llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset
+            data_path: datasets/parking-v0.pt
+            data_path2: datasets/parking-v0.pt
+            dummy_normalizer: false
+            horizon: 1
+            obs_eef_target: true
+            pad_after: 0
+            pad_before: 0
+            use_manual_normalizer: false
+            val_ratio: 0.02
+        env_runner:
+            _target_: llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner
+            discount: 0.99
+            env_name: llf-highway-parking-v0
+            feedback_type:
+                - hp
+                - hn
+                - fp
+            instruction_type: b
+            max_steps: 80
+            n_action_steps: 1
+            n_envs: 10
+            n_obs_steps: 1
+            n_test: 50
+            n_train: 10
+            visual: false
+        instructor:
+            _target_: llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor
+        name: parking-v0
+        obs_dim: 18
+task_name:
+    value: parking-v0
+training:
+    value:
+        checkpoint_every: 5
+        debug: false
+        device: cuda:0
+        gradient_accumulate_every: 16
+        lr_scheduler: cosine
+        lr_warmup_steps: 500
+        max_train_steps: null
+        max_val_steps: null
+        num_epochs: 1001
+        resume: true
+        rollout_every: 5
+        sample_every: 5
+        seed: 42
+        tqdm_interval_sec: 1
+        use_ema: true
+        val_every: 1
+val_dataloader:
+    value:
+        batch_size: 16
+        num_workers: 0
+        persistent_workers: false
+        pin_memory: false
+        shuffle: false
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/files/output.log b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..32b7ebab69bd5cf1af21a9769edeb8fb5f048afd
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/files/output.log
@@ -0,0 +1,8 @@
+/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/stable_baselines3/common/save_util.py:166: UserWarning: Could not deserialize object lr_schedule. Consider using `custom_objects` argument to replace this object.
+Exception: Can't get attribute 'FloatSchedule' on <module 'stable_baselines3.common.utils' from '/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/stable_baselines3/common/utils.py'>
+  warnings.warn(
+Wrapping the env with a `Monitor` wrapper
+Wrapping the env in a DummyVecEnv.
+Eval HighwayLowdimRunner 1/6:   0%|                                                                                                 | 0/80 [00:00<?, ?it/s]/root/workspace/LLM-BC/llmbc/common/llfbench_util.py:39: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:275.)
+  obs = torch.tensor(obs, dtype=torch.float32).unsqueeze(dim=0).to(device)
+                                                                                                                                                           
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/files/wandb-metadata.json b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..bba6f546ef3845f7ae866a3008364dd2cfb204ab
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/files/wandb-metadata.json
@@ -0,0 +1,56 @@
+{
+  "os": "Linux-4.18.0-513.24.1.el8_9.x86_64-x86_64-with-glibc2.31",
+  "python": "3.9.25",
+  "startedAt": "2025-12-17T04:26:50.588477Z",
+  "args": [
+    "--config-path",
+    "./config/main_table",
+    "--config-name",
+    "llmdp_parking-v0.yaml",
+    "policy.loss_llm_weight=1.0e-3"
+  ],
+  "program": "/root/workspace/LLM-BC/./train.py",
+  "codePath": "train.py",
+  "git": {
+    "remote": "https://github.com/CHYang25/LLM-BC.git",
+    "commit": "a536c4f19a46f5803a7ea52af7c65b7c60c1ab9a"
+  },
+  "email": "chris920325@gmail.com",
+  "root": "/root/workspace/LLM-BC/data/outputs/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0",
+  "host": "llmbc-cuda-545d8cd8bc-9ltjf",
+  "username": "root",
+  "executable": "/root/miniconda3/envs/llm-bc/bin/python3",
+  "codePathLocal": "train.py",
+  "cpu_count": 64,
+  "cpu_count_logical": 128,
+  "gpu": "NVIDIA H100 80GB HBM3",
+  "gpu_count": 2,
+  "disk": {
+    "/": {
+      "total": "23041585184768",
+      "used": "532572073984"
+    }
+  },
+  "memory": {
+    "total": "2163619737600"
+  },
+  "cpu": {
+    "count": 64,
+    "countLogical": 128
+  },
+  "gpu_nvidia": [
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    },
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    }
+  ],
+  "cudaVersion": "12.8"
+}
\ No newline at end of file
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/files/wandb-summary.json b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..6d92ed5e09905fce4a896793f9f51ec9fd63e5d2
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/files/wandb-summary.json
@@ -0,0 +1 @@
+{"epoch":1000,"val_loss":0.12387578934431076,"train_loss_dp":0.0012286544078961015,"train_loss_llm":0,"test/mean_score":-0.11102658538916364,"_timestamp":1.7661452974003305e+09,"lr":0,"test/cumulative_reward":-7.060632548691176,"_runtime":199689.408596519,"train/success_rate":1,"_step":656655,"_wandb":{"runtime":199689},"global_step":656655,"test/success_rate":0.94,"train_action_mse_error":0.0005955829983577132,"train_loss":0.00841290473223436,"train/cumulative_reward":-6.707650422077444,"train/mean_score":-0.10433977739138774}
\ No newline at end of file
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/logs/debug-core.log b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..3e1256c3c50badbea00d1ec16862df681acef8cd
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/logs/debug-core.log
@@ -0,0 +1,14 @@
+{"time":"2025-12-17T04:26:49.964769309Z","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmpgwka7aau/port-30053.txt","pid":30053,"debug":false,"disable-analytics":false}
+{"time":"2025-12-17T04:26:49.964797504Z","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2025-12-17T04:26:49.965246243Z","level":"INFO","msg":"Will exit if parent process dies.","ppid":30053}
+{"time":"2025-12-17T04:26:49.96523898Z","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":46657,"Zone":""}}
+{"time":"2025-12-17T04:26:50.158097355Z","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:33506"}
+{"time":"2025-12-17T04:26:50.589794232Z","level":"INFO","msg":"handleInformInit: received","streamId":"5vils759","id":"127.0.0.1:33506"}
+{"time":"2025-12-17T04:26:50.696708894Z","level":"INFO","msg":"handleInformInit: stream started","streamId":"5vils759","id":"127.0.0.1:33506"}
+{"time":"2025-12-19T11:54:59.996990842Z","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:33506"}
+{"time":"2025-12-19T11:54:59.99706593Z","level":"INFO","msg":"server is shutting down"}
+{"time":"2025-12-19T11:54:59.99705886Z","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:33506"}
+{"time":"2025-12-19T11:54:59.997137118Z","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:33506"}
+{"time":"2025-12-19T11:55:02.079211905Z","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:33506"}
+{"time":"2025-12-19T11:55:02.079226844Z","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:33506"}
+{"time":"2025-12-19T11:55:02.079232319Z","level":"INFO","msg":"server is closed"}
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/logs/debug-internal.log b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..87a55c946df16ed4863b6e89b2c207e6ccc6c01c
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/logs/debug-internal.log
@@ -0,0 +1,18 @@
+{"time":"2025-12-17T04:26:50.589932565Z","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2025-12-17T04:26:50.589943383Z","level":"INFO","msg":"created symlink","path":"/root/workspace/LLM-BC/data/outputs/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/logs/debug-core.log"}
+{"time":"2025-12-17T04:26:50.696686472Z","level":"INFO","msg":"created new stream","id":"5vils759"}
+{"time":"2025-12-17T04:26:50.696705696Z","level":"INFO","msg":"stream: started","id":"5vils759"}
+{"time":"2025-12-17T04:26:50.696727668Z","level":"INFO","msg":"sender: started","stream_id":"5vils759"}
+{"time":"2025-12-17T04:26:50.696715688Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"5vils759"}}
+{"time":"2025-12-17T04:26:50.696726141Z","level":"INFO","msg":"handler: started","stream_id":{"value":"5vils759"}}
+{"time":"2025-12-17T04:26:51.42871616Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-12-18T07:24:07.781022092Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": read tcp 192.168.42.185:39616->35.186.228.49:443: read: connection reset by peer"}
+{"time":"2025-12-18T17:59:52.121719493Z","level":"INFO","msg":"api: retrying HTTP error","status":503,"url":"https://api.wandb.ai/files/chyang25-national-taiwan-university/parking-v0-training/5vils759/file_stream"}
+{"time":"2025-12-19T11:54:59.997056349Z","level":"INFO","msg":"stream: closing","id":"5vils759"}
+{"time":"2025-12-19T11:54:59.997084555Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-12-19T11:54:59.997570319Z","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2025-12-19T11:55:01.797329488Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-12-19T11:55:02.079075484Z","level":"INFO","msg":"handler: closed","stream_id":{"value":"5vils759"}}
+{"time":"2025-12-19T11:55:02.079104191Z","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"5vils759"}}
+{"time":"2025-12-19T11:55:02.079159987Z","level":"INFO","msg":"sender: closed","stream_id":"5vils759"}
+{"time":"2025-12-19T11:55:02.079176847Z","level":"INFO","msg":"stream: closed","id":"5vils759"}
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/logs/debug.log b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..380bf70de237fad0b2f5c586789259c88cf1cdd9
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/logs/debug.log
@@ -0,0 +1,27 @@
+2025-12-17 04:26:50,586 INFO    MainThread:30053 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_setup.py:_flush():79] Configure stats pid to 30053
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_setup.py:_flush():79] Loading settings from /root/workspace/LLM-BC/wandb/settings
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/root/workspace/LLM-BC/train.py', 'program': '/root/workspace/LLM-BC/./train.py'}
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_setup.py:_flush():79] Applying login settings: {}
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_init.py:_log_setup():533] Logging user logs to /root/workspace/LLM-BC/data/outputs/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/logs/debug.log
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_init.py:_log_setup():534] Logging internal logs to /root/workspace/LLM-BC/data/outputs/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/logs/debug-internal.log
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_init.py:init():619] calling init triggers
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llm_diffusion_unet_lowdim', '_target_': 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace', 'obs_dim': 18, 'action_dim': 2, 'task_name': 'parking-v0', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'keypoint_visible_rate': 1.0, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy', 'model': {'_target_': 'llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D', 'input_dim': 2, 'local_cond_dim': None, 'global_cond_dim': 18, 'diffusion_step_embed_dim': 256, 'down_dims': [256, 512, 1024], 'kernel_size': 5, 'n_groups': 8, 'cond_predict_scale': True}, 'noise_scheduler': {'_target_': 'diffusers.schedulers.scheduling_ddpm.DDPMScheduler', 'num_train_timesteps': 100, 'beta_start': 0.0001, 'beta_end': 0.02, 'beta_schedule': 'squaredcos_cap_v2', 'variance_type': 'fixed_small', 'clip_sample': True, 'prediction_type': 'epsilon'}, 'horizon': 1, 'obs_dim': 18, 'action_dim': 2, 'n_action_steps': 1, 'n_obs_steps': 1, 'num_inference_steps': 100, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'oa_step_convention': True, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'parking-v0', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.17/04.26.39_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 18, 'action_dim': 2, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_dp_weight': 1.0, 'loss_llm_weight': 0.001, 'normalize_llm_loss': True, 'reweight_llm_loss': True}, 'ema': {'_target_': 'llmbc.model.diffusion.ema_model.EMAModel', 'update_after_step': 0, 'inv_gamma': 1.0, 'power': 0.75, 'min_value': 0.0, 'max_value': 0.9999}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': False, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.0001, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 42, 'debug': False, 'resume': True, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 500, 'num_epochs': 1001, 'gradient_accumulate_every': 16, 'use_ema': True, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'parking-v0-training', 'resume': True, 'mode': 'online', 'name': '2025.12.17-04.26.39_train_llm_diffusion_unet_lowdim_parking-v0', 'tags': ['train_llm_diffusion_unet_lowdim', 'parking-v0', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0', 'wandb_name_base': '2025.12.17-04.26.39_train_llm_diffusion_unet_lowdim_parking-v0'}, 'task': {'name': 'parking-v0', 'obs_dim': 18, 'action_dim': 2, 'env_runner': {'_target_': 'llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner', 'env_name': 'llf-highway-parking-v0', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 80, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.99}, 'dataset': {'_target_': 'llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset', 'data_path': 'datasets/parking-v0.pt', 'data_path2': 'datasets/parking-v0.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.02, 'dummy_normalizer': False}, 'instructor': {'_target_': 'llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.17/04.26.39_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_init.py:init():669] starting backend
+2025-12-17 04:26:50,587 INFO    MainThread:30053 [wandb_init.py:init():673] sending inform_init request
+2025-12-17 04:26:50,588 INFO    MainThread:30053 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-12-17 04:26:50,588 INFO    MainThread:30053 [wandb_init.py:init():686] backend started and connected
+2025-12-17 04:26:50,594 INFO    MainThread:30053 [wandb_init.py:init():781] updated telemetry
+2025-12-17 04:26:50,625 INFO    MainThread:30053 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2025-12-17 04:26:51,426 INFO    MainThread:30053 [wandb_init.py:init():867] starting run threads in backend
+2025-12-17 04:26:51,766 INFO    MainThread:30053 [wandb_run.py:_console_start():2451] atexit reg
+2025-12-17 04:26:51,766 INFO    MainThread:30053 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2025-12-17 04:26:51,766 INFO    MainThread:30053 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2025-12-17 04:26:51,766 INFO    MainThread:30053 [wandb_run.py:_redirect():2389] Redirects installed.
+2025-12-17 04:26:51,768 INFO    MainThread:30053 [wandb_init.py:init():911] run started, returning control to user process
+2025-12-17 04:26:51,768 INFO    MainThread:30053 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/root/workspace/LLM-BC/data/outputs/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0'}
+2025-12-19 11:54:59,997 WARNING MsgRouterThr:30053 [router.py:message_loop():75] message_loop has been closed
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/run-5vils759.wandb b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/run-5vils759.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..5ff22132710578b2b5fbc39db3c8d4880de958ec
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042650-5vils759/run-5vils759.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c0a6ca3a0c17a6d560831c46f478fccaede71658fa7740a5ddc968d87c0fc18c
+size 595831287
diff --git a/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json
new file mode 100644
index 0000000000000000000000000000000000000000..8b62425950a846e84de4f2362132d915b9766a39
--- /dev/null
+++ b/2025.12.17/04.26.39_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json
@@ -0,0 +1 @@
+{"run_id": "5vils759"}
\ No newline at end of file
diff --git a/2025.12.17/04.29.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml b/2025.12.17/04.29.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..2f7f8c7b7f033cc47b962005c6a0905603cab117
--- /dev/null
+++ b/2025.12.17/04.29.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
@@ -0,0 +1,193 @@
+name: train_llm_diffusion_unet_lowdim
+_target_: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+keypoint_visible_rate: 1.0
+obs_as_local_cond: false
+obs_as_global_cond: true
+pred_action_steps_only: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+  model:
+    _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+    input_dim: '${eval: ${task.action_dim} if ${obs_as_local_cond} or ${obs_as_global_cond}
+      else ${task.obs_dim} + ${task.action_dim}}'
+    local_cond_dim: '${eval: ${task.obs_dim} if ${obs_as_local_cond} else None}'
+    global_cond_dim: '${eval: ${task.obs_dim}*${n_obs_steps} if ${obs_as_global_cond}
+      else None}'
+    diffusion_step_embed_dim: 256
+    down_dims:
+    - 256
+    - 512
+    - 1024
+    kernel_size: 5
+    n_groups: 8
+    cond_predict_scale: true
+  noise_scheduler:
+    _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+    num_train_timesteps: 100
+    beta_start: 0.0001
+    beta_end: 0.02
+    beta_schedule: squaredcos_cap_v2
+    variance_type: fixed_small
+    clip_sample: true
+    prediction_type: epsilon
+  horizon: ${horizon}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  n_obs_steps: ${n_obs_steps}
+  num_inference_steps: 100
+  obs_as_local_cond: ${obs_as_local_cond}
+  obs_as_global_cond: ${obs_as_global_cond}
+  pred_action_steps_only: ${pred_action_steps_only}
+  oa_step_convention: true
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${obs_dim}
+      action_dim: ${action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  loss_dp_weight: 1.0
+  loss_llm_weight: 0.0001
+  normalize_llm_loss: true
+  reweight_llm_loss: true
+ema:
+  _target_: llmbc.model.diffusion.ema_model.EMAModel
+  update_after_step: 0
+  inv_gamma: 1.0
+  power: 0.75
+  min_value: 0.0
+  max_value: 0.9999
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: false
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.0001
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 42
+  debug: false
+  resume: true
+  lr_scheduler: cosine
+  lr_warmup_steps: 500
+  num_epochs: 1001
+  gradient_accumulate_every: 16
+  use_ema: true
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: parking-v0
+  obs_dim: 18
+  action_dim: 2
+  env_runner:
+    _target_: llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner
+    env_name: llf-highway-parking-v0
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 80
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    - fp
+    visual: false
+    discount: 0.99
+  dataset:
+    _target_: llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset
+    data_path: datasets/parking-v0.pt
+    data_path2: datasets/parking-v0.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    obs_eef_target: true
+    use_manual_normalizer: false
+    val_ratio: 0.02
+    dummy_normalizer: false
+  instructor:
+    _target_: llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2025.12.17/04.29.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml b/2025.12.17/04.29.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..197e57f6bc49e17b04550893e4e4c42be5e894a4
--- /dev/null
+++ b/2025.12.17/04.29.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
@@ -0,0 +1,155 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - policy.loss_llm_weight=1.0e-4
+  job:
+    name: train
+    chdir: null
+    override_dirname: policy.loss_llm_weight=1.0e-4
+    id: ???
+    num: ???
+    config_name: llmdp_parking-v0.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /root/workspace/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /root/workspace/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /root/workspace/LLM-BC/data/outputs/2025.12.17/04.29.13_train_llm_diffusion_unet_lowdim_parking-v0
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2025.12.17/04.29.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml b/2025.12.17/04.29.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..3825b3a0676318495d5079933c99185c21c1ceb8
--- /dev/null
+++ b/2025.12.17/04.29.13_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
@@ -0,0 +1 @@
+- policy.loss_llm_weight=1.0e-4
diff --git a/2025.12.17/04.29.13_train_llm_diffusion_unet_lowdim_parking-v0/train.log b/2025.12.17/04.29.13_train_llm_diffusion_unet_lowdim_parking-v0/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..e69de29bb2d1d6434b8b29ae775ad8c2e48c5391
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..2f7f8c7b7f033cc47b962005c6a0905603cab117
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/config.yaml
@@ -0,0 +1,193 @@
+name: train_llm_diffusion_unet_lowdim
+_target_: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+keypoint_visible_rate: 1.0
+obs_as_local_cond: false
+obs_as_global_cond: true
+pred_action_steps_only: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+  model:
+    _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+    input_dim: '${eval: ${task.action_dim} if ${obs_as_local_cond} or ${obs_as_global_cond}
+      else ${task.obs_dim} + ${task.action_dim}}'
+    local_cond_dim: '${eval: ${task.obs_dim} if ${obs_as_local_cond} else None}'
+    global_cond_dim: '${eval: ${task.obs_dim}*${n_obs_steps} if ${obs_as_global_cond}
+      else None}'
+    diffusion_step_embed_dim: 256
+    down_dims:
+    - 256
+    - 512
+    - 1024
+    kernel_size: 5
+    n_groups: 8
+    cond_predict_scale: true
+  noise_scheduler:
+    _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+    num_train_timesteps: 100
+    beta_start: 0.0001
+    beta_end: 0.02
+    beta_schedule: squaredcos_cap_v2
+    variance_type: fixed_small
+    clip_sample: true
+    prediction_type: epsilon
+  horizon: ${horizon}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  n_obs_steps: ${n_obs_steps}
+  num_inference_steps: 100
+  obs_as_local_cond: ${obs_as_local_cond}
+  obs_as_global_cond: ${obs_as_global_cond}
+  pred_action_steps_only: ${pred_action_steps_only}
+  oa_step_convention: true
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${obs_dim}
+      action_dim: ${action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${eval:'${n_action_steps}+${n_latency_steps}'}
+  loss_dp_weight: 1.0
+  loss_llm_weight: 0.0001
+  normalize_llm_loss: true
+  reweight_llm_loss: true
+ema:
+  _target_: llmbc.model.diffusion.ema_model.EMAModel
+  update_after_step: 0
+  inv_gamma: 1.0
+  power: 0.75
+  min_value: 0.0
+  max_value: 0.9999
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: false
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.0001
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 42
+  debug: false
+  resume: true
+  lr_scheduler: cosine
+  lr_warmup_steps: 500
+  num_epochs: 1001
+  gradient_accumulate_every: 16
+  use_ema: true
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: parking-v0
+  obs_dim: 18
+  action_dim: 2
+  env_runner:
+    _target_: llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner
+    env_name: llf-highway-parking-v0
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 80
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    - fp
+    visual: false
+    discount: 0.99
+  dataset:
+    _target_: llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset
+    data_path: datasets/parking-v0.pt
+    data_path2: datasets/parking-v0.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    obs_eef_target: true
+    use_manual_normalizer: false
+    val_ratio: 0.02
+    dummy_normalizer: false
+  instructor:
+    _target_: llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..ce8f19ab627dd84dbb689bcf75fa964713edd63e
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/hydra.yaml
@@ -0,0 +1,155 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - policy.loss_llm_weight=1.0e-4
+  job:
+    name: train
+    chdir: null
+    override_dirname: policy.loss_llm_weight=1.0e-4
+    id: ???
+    num: ???
+    config_name: llmdp_parking-v0.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /root/workspace/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /root/workspace/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /root/workspace/LLM-BC/data/outputs/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..3825b3a0676318495d5079933c99185c21c1ceb8
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/.hydra/overrides.yaml
@@ -0,0 +1 @@
+- policy.loss_llm_weight=1.0e-4
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0435-test_success_rate=0.940.ckpt b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0435-test_success_rate=0.940.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..1a276c1f004505bd82c7c69be076ff8548a0ff3f
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0435-test_success_rate=0.940.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9a00f89f9ca2c6f59de96b15c03bc451ff42582233f805203db1ed683b2f8118
+size 1042506802
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0440-test_success_rate=0.940.ckpt b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0440-test_success_rate=0.940.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..47e1af29e1add47ae8ca691b17e9e88d7742c490
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0440-test_success_rate=0.940.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ca9f5adc9ac6c477a8cf6ce0bbfbb70fea76fd13a6f83269a40b273e0394786c
+size 1042506802
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0450-test_success_rate=0.940.ckpt b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0450-test_success_rate=0.940.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..664fdfc0d4fc8177ea6c841817aeeafdb6a0d4b1
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0450-test_success_rate=0.940.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:498542ddd505a84c856f83eee4c7a6d450c12da65ae17a4f2b4a2057dd0c9f9e
+size 1042506802
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0470-test_success_rate=0.960.ckpt b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0470-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..6147b72eccd44f50ebd3d8844f6eff8037f2fddb
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0470-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:14734cb41e395a666740d7f872eb8e2633d5c8a826fcfa89fc8d70f0792c6c88
+size 1042506802
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0690-test_success_rate=0.960.ckpt b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0690-test_success_rate=0.960.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..d4e61babfd29e007731c0ae153a3270d7524c974
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/epoch=0690-test_success_rate=0.960.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ca9d12fa37ceedff1b521f1dc84cd8ab0e2387d9ffa208874889eae84a750278
+size 1042506802
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..6b3810dc06412b3c7a4ff6be9d763881592d3515
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/checkpoints/latest.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:57e1e6dab3ea5e8e6267b3ffcf735bd952c15a68441bf56f78ca625422b6c00f
+size 1042506802
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt
new file mode 100644
index 0000000000000000000000000000000000000000..c023b2d9d5da89b5782f167ce85c6459016d3c49
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/logs.json.txt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c2198916c6b0fc666d4d97a99deae4e86b059de920ead220eee13ec77f6d0b4d
+size 114202308
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/train.log b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..304487d0f03ba120ee0d773ffcc2c3d72790d05e
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/train.log
@@ -0,0 +1,9 @@
+[2025-12-17 04:29:19,774][numexpr.utils][INFO] - Note: detected 128 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+[2025-12-17 04:29:19,774][numexpr.utils][INFO] - Note: NumExpr detected 128 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
+[2025-12-17 04:29:19,774][numexpr.utils][INFO] - NumExpr defaulting to 16 threads.
+[2025-12-17 04:29:21,732][datasets][INFO] - PyTorch version 2.2.2 available.
+[2025-12-17 04:29:21,733][datasets][INFO] - TensorFlow version 2.15.1 available.
+[2025-12-17 04:29:21,734][datasets][INFO] - JAX version 0.4.30 available.
+[2025-12-17 04:29:23,303][llmbc.model.diffusion.conditional_unet1d][INFO] - number of parameters: 6.514023e+07
+[2025-12-17 04:29:29,475][absl][INFO] - MUJOCO_GL=osmesa, attempting to import specified OpenGL backend.
+[2025-12-17 04:29:29,480][absl][INFO] - MuJoCo library version is: 2.3.7
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..aeb7b69ef4d8662d8f4ec275448d81ba3db776f7
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug-internal.log
@@ -0,0 +1,18 @@
+{"time":"2025-12-17T04:29:30.25072092Z","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2025-12-17T04:29:30.25073146Z","level":"INFO","msg":"created symlink","path":"/root/workspace/LLM-BC/data/outputs/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/logs/debug-core.log"}
+{"time":"2025-12-17T04:29:30.358518581Z","level":"INFO","msg":"created new stream","id":"etljn2u5"}
+{"time":"2025-12-17T04:29:30.358547656Z","level":"INFO","msg":"stream: started","id":"etljn2u5"}
+{"time":"2025-12-17T04:29:30.358568107Z","level":"INFO","msg":"sender: started","stream_id":"etljn2u5"}
+{"time":"2025-12-17T04:29:30.358562735Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"etljn2u5"}}
+{"time":"2025-12-17T04:29:30.358575837Z","level":"INFO","msg":"handler: started","stream_id":{"value":"etljn2u5"}}
+{"time":"2025-12-17T04:29:31.046807239Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-12-17T11:39:01.833820824Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": read tcp 192.168.42.185:35736->35.186.228.49:443: read: connection reset by peer"}
+{"time":"2025-12-17T13:27:47.172418243Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": read tcp 192.168.42.185:51832->35.186.228.49:443: read: connection reset by peer"}
+{"time":"2025-12-19T10:20:01.244125547Z","level":"INFO","msg":"stream: closing","id":"etljn2u5"}
+{"time":"2025-12-19T10:20:01.244157307Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-12-19T10:20:01.244490096Z","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2025-12-19T10:20:05.065836667Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-12-19T10:20:05.321470981Z","level":"INFO","msg":"handler: closed","stream_id":{"value":"etljn2u5"}}
+{"time":"2025-12-19T10:20:05.321527144Z","level":"INFO","msg":"sender: closed","stream_id":"etljn2u5"}
+{"time":"2025-12-19T10:20:05.321523444Z","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"etljn2u5"}}
+{"time":"2025-12-19T10:20:05.321610902Z","level":"INFO","msg":"stream: closed","id":"etljn2u5"}
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..cc346cee2290000172b9b11a173a61776a1a4e9e
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/debug.log
@@ -0,0 +1,27 @@
+2025-12-17 04:29:30,247 INFO    MainThread:30344 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2025-12-17 04:29:30,247 INFO    MainThread:30344 [wandb_setup.py:_flush():79] Configure stats pid to 30344
+2025-12-17 04:29:30,247 INFO    MainThread:30344 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2025-12-17 04:29:30,247 INFO    MainThread:30344 [wandb_setup.py:_flush():79] Loading settings from /root/workspace/LLM-BC/wandb/settings
+2025-12-17 04:29:30,247 INFO    MainThread:30344 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2025-12-17 04:29:30,247 INFO    MainThread:30344 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2025-12-17 04:29:30,247 INFO    MainThread:30344 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/root/workspace/LLM-BC/train.py', 'program': '/root/workspace/LLM-BC/./train.py'}
+2025-12-17 04:29:30,247 INFO    MainThread:30344 [wandb_setup.py:_flush():79] Applying login settings: {}
+2025-12-17 04:29:30,248 INFO    MainThread:30344 [wandb_init.py:_log_setup():533] Logging user logs to /root/workspace/LLM-BC/data/outputs/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/logs/debug.log
+2025-12-17 04:29:30,248 INFO    MainThread:30344 [wandb_init.py:_log_setup():534] Logging internal logs to /root/workspace/LLM-BC/data/outputs/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/logs/debug-internal.log
+2025-12-17 04:29:30,248 INFO    MainThread:30344 [wandb_init.py:init():619] calling init triggers
+2025-12-17 04:29:30,248 INFO    MainThread:30344 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llm_diffusion_unet_lowdim', '_target_': 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace', 'obs_dim': 18, 'action_dim': 2, 'task_name': 'parking-v0', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'keypoint_visible_rate': 1.0, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy', 'model': {'_target_': 'llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D', 'input_dim': 2, 'local_cond_dim': None, 'global_cond_dim': 18, 'diffusion_step_embed_dim': 256, 'down_dims': [256, 512, 1024], 'kernel_size': 5, 'n_groups': 8, 'cond_predict_scale': True}, 'noise_scheduler': {'_target_': 'diffusers.schedulers.scheduling_ddpm.DDPMScheduler', 'num_train_timesteps': 100, 'beta_start': 0.0001, 'beta_end': 0.02, 'beta_schedule': 'squaredcos_cap_v2', 'variance_type': 'fixed_small', 'clip_sample': True, 'prediction_type': 'epsilon'}, 'horizon': 1, 'obs_dim': 18, 'action_dim': 2, 'n_action_steps': 1, 'n_obs_steps': 1, 'num_inference_steps': 100, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'oa_step_convention': True, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'parking-v0', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.17/04.29.18_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 18, 'action_dim': 2, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_dp_weight': 1.0, 'loss_llm_weight': 0.0001, 'normalize_llm_loss': True, 'reweight_llm_loss': True}, 'ema': {'_target_': 'llmbc.model.diffusion.ema_model.EMAModel', 'update_after_step': 0, 'inv_gamma': 1.0, 'power': 0.75, 'min_value': 0.0, 'max_value': 0.9999}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': False, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.0001, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 42, 'debug': False, 'resume': True, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 500, 'num_epochs': 1001, 'gradient_accumulate_every': 16, 'use_ema': True, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'parking-v0-training', 'resume': True, 'mode': 'online', 'name': '2025.12.17-04.29.18_train_llm_diffusion_unet_lowdim_parking-v0', 'tags': ['train_llm_diffusion_unet_lowdim', 'parking-v0', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0', 'wandb_name_base': '2025.12.17-04.29.18_train_llm_diffusion_unet_lowdim_parking-v0'}, 'task': {'name': 'parking-v0', 'obs_dim': 18, 'action_dim': 2, 'env_runner': {'_target_': 'llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner', 'env_name': 'llf-highway-parking-v0', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 80, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.99}, 'dataset': {'_target_': 'llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset', 'data_path': 'datasets/parking-v0.pt', 'data_path2': 'datasets/parking-v0.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.02, 'dummy_normalizer': False}, 'instructor': {'_target_': 'llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.17/04.29.18_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2025-12-17 04:29:30,248 INFO    MainThread:30344 [wandb_init.py:init():669] starting backend
+2025-12-17 04:29:30,248 INFO    MainThread:30344 [wandb_init.py:init():673] sending inform_init request
+2025-12-17 04:29:30,248 INFO    MainThread:30344 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-12-17 04:29:30,249 INFO    MainThread:30344 [wandb_init.py:init():686] backend started and connected
+2025-12-17 04:29:30,256 INFO    MainThread:30344 [wandb_init.py:init():781] updated telemetry
+2025-12-17 04:29:30,286 INFO    MainThread:30344 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2025-12-17 04:29:31,044 INFO    MainThread:30344 [wandb_init.py:init():867] starting run threads in backend
+2025-12-17 04:29:31,389 INFO    MainThread:30344 [wandb_run.py:_console_start():2451] atexit reg
+2025-12-17 04:29:31,389 INFO    MainThread:30344 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2025-12-17 04:29:31,389 INFO    MainThread:30344 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2025-12-17 04:29:31,389 INFO    MainThread:30344 [wandb_run.py:_redirect():2389] Redirects installed.
+2025-12-17 04:29:31,391 INFO    MainThread:30344 [wandb_init.py:init():911] run started, returning control to user process
+2025-12-17 04:29:31,391 INFO    MainThread:30344 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/root/workspace/LLM-BC/data/outputs/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0'}
+2025-12-19 10:20:01,244 WARNING MsgRouterThr:30344 [router.py:message_loop():75] message_loop has been closed
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/files/config.yaml b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..6c796e9b6d8d52658f0d53795a99eb0ecbd5e132
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/files/config.yaml
@@ -0,0 +1,304 @@
+_target_:
+    value: llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace
+_wandb:
+    value:
+        cli_version: 0.18.6
+        m: []
+        python_version: 3.9.25
+        t:
+            "1":
+                - 1
+                - 2
+                - 3
+                - 5
+                - 11
+                - 12
+                - 41
+                - 49
+                - 50
+                - 51
+                - 53
+                - 55
+                - 71
+                - 83
+                - 95
+                - 98
+                - 100
+                - 105
+            "2":
+                - 1
+                - 2
+                - 3
+                - 5
+                - 11
+                - 12
+                - 41
+                - 49
+                - 50
+                - 51
+                - 53
+                - 55
+                - 71
+                - 83
+                - 95
+                - 98
+                - 100
+                - 105
+            "3":
+                - 13
+                - 15
+                - 16
+                - 23
+                - 55
+                - 61
+            "4": 3.9.25
+            "5": 0.18.6
+            "6": 4.47.1
+            "8":
+                - 5
+            "12": 0.18.6
+            "13": linux-x86_64
+action_dim:
+    value: 2
+checkpoint:
+    value:
+        save_last_ckpt: true
+        save_last_snapshot: false
+        topk:
+            format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+            k: 5
+            mode: max
+            monitor_key: test_success_rate
+dataloader:
+    value:
+        batch_size: 16
+        num_workers: 0
+        persistent_workers: false
+        pin_memory: false
+        shuffle: true
+ema:
+    value:
+        _target_: llmbc.model.diffusion.ema_model.EMAModel
+        inv_gamma: 1
+        max_value: 0.9999
+        min_value: 0
+        power: 0.75
+        update_after_step: 0
+exp_name:
+    value: default
+horizon:
+    value: 1
+keypoint_visible_rate:
+    value: 1
+llm:
+    value:
+        causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+        checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+        config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+        finetune_mode: orig
+        hydra:
+            job:
+                override_dirname: HuggingFaceTB/SmolLM2-135M-Instruct
+            run:
+                dir: data/outputs/2025.12.17/04.29.18_HuggingFaceTB/SmolLM2-135M-Instruct
+        llm_mode: ete-finetuned
+        lora_config:
+            bias: none
+            lora_alpha: 64
+            lora_dropout: 0.05
+            r: 32
+            task_type: CAUSAL_LM
+        max_length: 100
+        model_name: SmolLM2-135M-Instruct
+        name: HuggingFaceTB/SmolLM2-135M-Instruct
+        prompter:
+            _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+            use_joint_mlp_projector: true
+        use_joint_mlp_projector: true
+        use_quantization: false
+llm_do_sample:
+    value: false
+llm_orig_expert_feedback:
+    value: true
+logging:
+    value:
+        group: null
+        id: null
+        mode: online
+        name: 2025.12.17-04.29.18_train_llm_diffusion_unet_lowdim_parking-v0
+        project: parking-v0-training
+        resume: true
+        tags:
+            - train_llm_diffusion_unet_lowdim
+            - parking-v0
+            - default
+model_name:
+    value: HuggingFaceTB/SmolLM2-135M-Instruct
+multi_run:
+    value:
+        run_dir: data/outputs/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0
+        wandb_name_base: 2025.12.17-04.29.18_train_llm_diffusion_unet_lowdim_parking-v0
+n_action_steps:
+    value: 1
+n_latency_steps:
+    value: 0
+n_obs_steps:
+    value: 1
+name:
+    value: train_llm_diffusion_unet_lowdim
+obs_as_global_cond:
+    value: true
+obs_as_local_cond:
+    value: false
+obs_dim:
+    value: 18
+optimizer:
+    value:
+        _target_: torch.optim.AdamW
+        betas:
+            - 0.95
+            - 0.999
+        eps: 1e-08
+        lr: 0.0001
+        weight_decay: 1e-06
+output_dir:
+    value: /root/workspace/LLM-BC/data/outputs/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0
+past_action_visible:
+    value: false
+policy:
+    value:
+        _target_: llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy
+        action_dim: 2
+        horizon: 1
+        llm_discriminator:
+            _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+            llm_translator:
+                _target_: llmbc.translator.llm_translator.LLMTranslator
+                action_dim: 2
+                cfg:
+                    causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+                    checkpoint: data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700
+                    config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+                    finetune_mode: orig
+                    hydra:
+                        job:
+                            override_dirname: HuggingFaceTB/SmolLM2-135M-Instruct
+                        run:
+                            dir: data/outputs/2025.12.17/04.29.18_HuggingFaceTB/SmolLM2-135M-Instruct
+                    llm_mode: ete-finetuned
+                    lora_config:
+                        bias: none
+                        lora_alpha: 64
+                        lora_dropout: 0.05
+                        r: 32
+                        task_type: CAUSAL_LM
+                    max_length: 100
+                    model_name: SmolLM2-135M-Instruct
+                    name: HuggingFaceTB/SmolLM2-135M-Instruct
+                    prompter:
+                        _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+                        use_joint_mlp_projector: true
+                    use_joint_mlp_projector: true
+                    use_quantization: false
+                horizon: 1
+                n_action_steps: 1
+                n_obs_steps: 1
+                obs_dim: 18
+            task_id: parking-v0
+        loss_dp_weight: 1
+        loss_llm_weight: 0.0001
+        model:
+            _target_: llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D
+            cond_predict_scale: true
+            diffusion_step_embed_dim: 256
+            down_dims:
+                - 256
+                - 512
+                - 1024
+            global_cond_dim: 18
+            input_dim: 2
+            kernel_size: 5
+            local_cond_dim: null
+            n_groups: 8
+        n_action_steps: 1
+        n_obs_steps: 1
+        noise_scheduler:
+            _target_: diffusers.schedulers.scheduling_ddpm.DDPMScheduler
+            beta_end: 0.02
+            beta_schedule: squaredcos_cap_v2
+            beta_start: 0.0001
+            clip_sample: true
+            num_train_timesteps: 100
+            prediction_type: epsilon
+            variance_type: fixed_small
+        normalize_llm_loss: true
+        num_inference_steps: 100
+        oa_step_convention: true
+        obs_as_global_cond: true
+        obs_as_local_cond: false
+        obs_dim: 18
+        pred_action_steps_only: false
+        reweight_llm_loss: true
+pred_action_steps_only:
+    value: false
+task:
+    value:
+        action_dim: 2
+        dataset:
+            _target_: llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset
+            data_path: datasets/parking-v0.pt
+            data_path2: datasets/parking-v0.pt
+            dummy_normalizer: false
+            horizon: 1
+            obs_eef_target: true
+            pad_after: 0
+            pad_before: 0
+            use_manual_normalizer: false
+            val_ratio: 0.02
+        env_runner:
+            _target_: llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner
+            discount: 0.99
+            env_name: llf-highway-parking-v0
+            feedback_type:
+                - hp
+                - hn
+                - fp
+            instruction_type: b
+            max_steps: 80
+            n_action_steps: 1
+            n_envs: 10
+            n_obs_steps: 1
+            n_test: 50
+            n_train: 10
+            visual: false
+        instructor:
+            _target_: llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor
+        name: parking-v0
+        obs_dim: 18
+task_name:
+    value: parking-v0
+training:
+    value:
+        checkpoint_every: 5
+        debug: false
+        device: cuda:0
+        gradient_accumulate_every: 16
+        lr_scheduler: cosine
+        lr_warmup_steps: 500
+        max_train_steps: null
+        max_val_steps: null
+        num_epochs: 1001
+        resume: true
+        rollout_every: 5
+        sample_every: 5
+        seed: 42
+        tqdm_interval_sec: 1
+        use_ema: true
+        val_every: 1
+val_dataloader:
+    value:
+        batch_size: 16
+        num_workers: 0
+        persistent_workers: false
+        pin_memory: false
+        shuffle: false
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/files/output.log b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..32b7ebab69bd5cf1af21a9769edeb8fb5f048afd
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/files/output.log
@@ -0,0 +1,8 @@
+/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/stable_baselines3/common/save_util.py:166: UserWarning: Could not deserialize object lr_schedule. Consider using `custom_objects` argument to replace this object.
+Exception: Can't get attribute 'FloatSchedule' on <module 'stable_baselines3.common.utils' from '/root/miniconda3/envs/llm-bc/lib/python3.9/site-packages/stable_baselines3/common/utils.py'>
+  warnings.warn(
+Wrapping the env with a `Monitor` wrapper
+Wrapping the env in a DummyVecEnv.
+Eval HighwayLowdimRunner 1/6:   0%|                                                                                                 | 0/80 [00:00<?, ?it/s]/root/workspace/LLM-BC/llmbc/common/llfbench_util.py:39: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:275.)
+  obs = torch.tensor(obs, dtype=torch.float32).unsqueeze(dim=0).to(device)
+                                                                                                                                                           
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/files/wandb-metadata.json b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..aee26b53f73c79c54aab0e20b8a1730e9580d8c4
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/files/wandb-metadata.json
@@ -0,0 +1,56 @@
+{
+  "os": "Linux-4.18.0-513.24.1.el8_9.x86_64-x86_64-with-glibc2.31",
+  "python": "3.9.25",
+  "startedAt": "2025-12-17T04:29:30.249455Z",
+  "args": [
+    "--config-path",
+    "./config/main_table",
+    "--config-name",
+    "llmdp_parking-v0.yaml",
+    "policy.loss_llm_weight=1.0e-4"
+  ],
+  "program": "/root/workspace/LLM-BC/./train.py",
+  "codePath": "train.py",
+  "git": {
+    "remote": "https://github.com/CHYang25/LLM-BC.git",
+    "commit": "a536c4f19a46f5803a7ea52af7c65b7c60c1ab9a"
+  },
+  "email": "chris920325@gmail.com",
+  "root": "/root/workspace/LLM-BC/data/outputs/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0",
+  "host": "llmbc-cuda-545d8cd8bc-9ltjf",
+  "username": "root",
+  "executable": "/root/miniconda3/envs/llm-bc/bin/python3",
+  "codePathLocal": "train.py",
+  "cpu_count": 64,
+  "cpu_count_logical": 128,
+  "gpu": "NVIDIA H100 80GB HBM3",
+  "gpu_count": 2,
+  "disk": {
+    "/": {
+      "total": "23041585184768",
+      "used": "532572536832"
+    }
+  },
+  "memory": {
+    "total": "2163619737600"
+  },
+  "cpu": {
+    "count": 64,
+    "countLogical": 128
+  },
+  "gpu_nvidia": [
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    },
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    }
+  ],
+  "cudaVersion": "12.8"
+}
\ No newline at end of file
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/files/wandb-summary.json b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..31e80f1853e89ad178838352fe9939fba27cf684
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/files/wandb-summary.json
@@ -0,0 +1 @@
+{"lr":0,"train/cumulative_reward":-6.704663551305006,"train_loss_dp":0.0005313385045155883,"train/mean_score":-0.10675849895602603,"global_step":656655,"epoch":1000,"val_loss":0.10713407397270203,"_timestamp":1.7661395985731146e+09,"train_loss_llm":0,"train_action_mse_error":0.0007558079087175429,"train_loss":0.007898939363590993,"_runtime":193830.994693131,"_wandb":{"runtime":193830},"test/mean_score":-0.11315305200046968,"train/success_rate":1,"_step":656655,"test/success_rate":0.92,"test/cumulative_reward":-7.157206022427679}
\ No newline at end of file
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/logs/debug-core.log b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..6c236dd533d75414ddf7b995e872f562614f3873
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/logs/debug-core.log
@@ -0,0 +1,14 @@
+{"time":"2025-12-17T04:29:29.674769436Z","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmp7k1t38l_/port-30344.txt","pid":30344,"debug":false,"disable-analytics":false}
+{"time":"2025-12-17T04:29:29.67479398Z","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2025-12-17T04:29:29.675580647Z","level":"INFO","msg":"Will exit if parent process dies.","ppid":30344}
+{"time":"2025-12-17T04:29:29.675582717Z","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":38709,"Zone":""}}
+{"time":"2025-12-17T04:29:29.869400035Z","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:50860"}
+{"time":"2025-12-17T04:29:30.250591364Z","level":"INFO","msg":"handleInformInit: received","streamId":"etljn2u5","id":"127.0.0.1:50860"}
+{"time":"2025-12-17T04:29:30.358550718Z","level":"INFO","msg":"handleInformInit: stream started","streamId":"etljn2u5","id":"127.0.0.1:50860"}
+{"time":"2025-12-19T10:20:01.244052243Z","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:50860"}
+{"time":"2025-12-19T10:20:01.244126267Z","level":"INFO","msg":"server is shutting down"}
+{"time":"2025-12-19T10:20:01.244122232Z","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:50860"}
+{"time":"2025-12-19T10:20:01.244192105Z","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:50860"}
+{"time":"2025-12-19T10:20:05.321654212Z","level":"INFO","msg":"handleInformTeardown: server shutdown complete","id":"127.0.0.1:50860"}
+{"time":"2025-12-19T10:20:05.321669111Z","level":"INFO","msg":"connection: ManageConnectionData: connection closed","id":"127.0.0.1:50860"}
+{"time":"2025-12-19T10:20:05.321677219Z","level":"INFO","msg":"server is closed"}
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/logs/debug-internal.log b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..aeb7b69ef4d8662d8f4ec275448d81ba3db776f7
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/logs/debug-internal.log
@@ -0,0 +1,18 @@
+{"time":"2025-12-17T04:29:30.25072092Z","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2025-12-17T04:29:30.25073146Z","level":"INFO","msg":"created symlink","path":"/root/workspace/LLM-BC/data/outputs/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/logs/debug-core.log"}
+{"time":"2025-12-17T04:29:30.358518581Z","level":"INFO","msg":"created new stream","id":"etljn2u5"}
+{"time":"2025-12-17T04:29:30.358547656Z","level":"INFO","msg":"stream: started","id":"etljn2u5"}
+{"time":"2025-12-17T04:29:30.358568107Z","level":"INFO","msg":"sender: started","stream_id":"etljn2u5"}
+{"time":"2025-12-17T04:29:30.358562735Z","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"etljn2u5"}}
+{"time":"2025-12-17T04:29:30.358575837Z","level":"INFO","msg":"handler: started","stream_id":{"value":"etljn2u5"}}
+{"time":"2025-12-17T04:29:31.046807239Z","level":"INFO","msg":"Starting system monitor"}
+{"time":"2025-12-17T11:39:01.833820824Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": read tcp 192.168.42.185:35736->35.186.228.49:443: read: connection reset by peer"}
+{"time":"2025-12-17T13:27:47.172418243Z","level":"INFO","msg":"api: retrying error","error":"Post \"https://api.wandb.ai/graphql\": read tcp 192.168.42.185:51832->35.186.228.49:443: read: connection reset by peer"}
+{"time":"2025-12-19T10:20:01.244125547Z","level":"INFO","msg":"stream: closing","id":"etljn2u5"}
+{"time":"2025-12-19T10:20:01.244157307Z","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2025-12-19T10:20:01.244490096Z","level":"INFO","msg":"Stopped system monitor"}
+{"time":"2025-12-19T10:20:05.065836667Z","level":"INFO","msg":"fileTransfer: Close: file transfer manager closed"}
+{"time":"2025-12-19T10:20:05.321470981Z","level":"INFO","msg":"handler: closed","stream_id":{"value":"etljn2u5"}}
+{"time":"2025-12-19T10:20:05.321527144Z","level":"INFO","msg":"sender: closed","stream_id":"etljn2u5"}
+{"time":"2025-12-19T10:20:05.321523444Z","level":"INFO","msg":"writer: Close: closed","stream_id":{"value":"etljn2u5"}}
+{"time":"2025-12-19T10:20:05.321610902Z","level":"INFO","msg":"stream: closed","id":"etljn2u5"}
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/logs/debug.log b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..cc346cee2290000172b9b11a173a61776a1a4e9e
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/logs/debug.log
@@ -0,0 +1,27 @@
+2025-12-17 04:29:30,247 INFO    MainThread:30344 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2025-12-17 04:29:30,247 INFO    MainThread:30344 [wandb_setup.py:_flush():79] Configure stats pid to 30344
+2025-12-17 04:29:30,247 INFO    MainThread:30344 [wandb_setup.py:_flush():79] Loading settings from /root/.config/wandb/settings
+2025-12-17 04:29:30,247 INFO    MainThread:30344 [wandb_setup.py:_flush():79] Loading settings from /root/workspace/LLM-BC/wandb/settings
+2025-12-17 04:29:30,247 INFO    MainThread:30344 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2025-12-17 04:29:30,247 INFO    MainThread:30344 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2025-12-17 04:29:30,247 INFO    MainThread:30344 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/root/workspace/LLM-BC/train.py', 'program': '/root/workspace/LLM-BC/./train.py'}
+2025-12-17 04:29:30,247 INFO    MainThread:30344 [wandb_setup.py:_flush():79] Applying login settings: {}
+2025-12-17 04:29:30,248 INFO    MainThread:30344 [wandb_init.py:_log_setup():533] Logging user logs to /root/workspace/LLM-BC/data/outputs/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/logs/debug.log
+2025-12-17 04:29:30,248 INFO    MainThread:30344 [wandb_init.py:_log_setup():534] Logging internal logs to /root/workspace/LLM-BC/data/outputs/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/logs/debug-internal.log
+2025-12-17 04:29:30,248 INFO    MainThread:30344 [wandb_init.py:init():619] calling init triggers
+2025-12-17 04:29:30,248 INFO    MainThread:30344 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llm_diffusion_unet_lowdim', '_target_': 'llmbc.workspace.train_llm_diffusion_unet_lowdim_workspace.TrainLLMDiffusionUnetLowdimWorkspace', 'obs_dim': 18, 'action_dim': 2, 'task_name': 'parking-v0', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'keypoint_visible_rate': 1.0, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llm_diffusion_unet_lowdim_policy.LLMDiffusionUnetLowdimPolicy', 'model': {'_target_': 'llmbc.model.diffusion.conditional_unet1d.ConditionalUnet1D', 'input_dim': 2, 'local_cond_dim': None, 'global_cond_dim': 18, 'diffusion_step_embed_dim': 256, 'down_dims': [256, 512, 1024], 'kernel_size': 5, 'n_groups': 8, 'cond_predict_scale': True}, 'noise_scheduler': {'_target_': 'diffusers.schedulers.scheduling_ddpm.DDPMScheduler', 'num_train_timesteps': 100, 'beta_start': 0.0001, 'beta_end': 0.02, 'beta_schedule': 'squaredcos_cap_v2', 'variance_type': 'fixed_small', 'clip_sample': True, 'prediction_type': 'epsilon'}, 'horizon': 1, 'obs_dim': 18, 'action_dim': 2, 'n_action_steps': 1, 'n_obs_steps': 1, 'num_inference_steps': 100, 'obs_as_local_cond': False, 'obs_as_global_cond': True, 'pred_action_steps_only': False, 'oa_step_convention': True, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'parking-v0', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.17/04.29.18_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 18, 'action_dim': 2, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_dp_weight': 1.0, 'loss_llm_weight': 0.0001, 'normalize_llm_loss': True, 'reweight_llm_loss': True}, 'ema': {'_target_': 'llmbc.model.diffusion.ema_model.EMAModel', 'update_after_step': 0, 'inv_gamma': 1.0, 'power': 0.75, 'min_value': 0.0, 'max_value': 0.9999}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': False, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.0001, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 42, 'debug': False, 'resume': True, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 500, 'num_epochs': 1001, 'gradient_accumulate_every': 16, 'use_ema': True, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'parking-v0-training', 'resume': True, 'mode': 'online', 'name': '2025.12.17-04.29.18_train_llm_diffusion_unet_lowdim_parking-v0', 'tags': ['train_llm_diffusion_unet_lowdim', 'parking-v0', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0', 'wandb_name_base': '2025.12.17-04.29.18_train_llm_diffusion_unet_lowdim_parking-v0'}, 'task': {'name': 'parking-v0', 'obs_dim': 18, 'action_dim': 2, 'env_runner': {'_target_': 'llmbc.env_runner.highway_lowdim_runner.HighwayLowdimRunner', 'env_name': 'llf-highway-parking-v0', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 80, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.99}, 'dataset': {'_target_': 'llmbc.dataset.highway_lowdim_dataset.HighwayLowdimDataset', 'data_path': 'datasets/parking-v0.pt', 'data_path2': 'datasets/parking-v0.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.02, 'dummy_normalizer': False}, 'instructor': {'_target_': 'llmbc.translator.instructor.highway_instructor.parking_v0_instructor.ParkingV0Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.11.03/22.51.21_train_llm_lowdim_parking-v0/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-parking-v0/checkpoint-5700', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2025.12.17/04.29.18_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2025-12-17 04:29:30,248 INFO    MainThread:30344 [wandb_init.py:init():669] starting backend
+2025-12-17 04:29:30,248 INFO    MainThread:30344 [wandb_init.py:init():673] sending inform_init request
+2025-12-17 04:29:30,248 INFO    MainThread:30344 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-12-17 04:29:30,249 INFO    MainThread:30344 [wandb_init.py:init():686] backend started and connected
+2025-12-17 04:29:30,256 INFO    MainThread:30344 [wandb_init.py:init():781] updated telemetry
+2025-12-17 04:29:30,286 INFO    MainThread:30344 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2025-12-17 04:29:31,044 INFO    MainThread:30344 [wandb_init.py:init():867] starting run threads in backend
+2025-12-17 04:29:31,389 INFO    MainThread:30344 [wandb_run.py:_console_start():2451] atexit reg
+2025-12-17 04:29:31,389 INFO    MainThread:30344 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2025-12-17 04:29:31,389 INFO    MainThread:30344 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2025-12-17 04:29:31,389 INFO    MainThread:30344 [wandb_run.py:_redirect():2389] Redirects installed.
+2025-12-17 04:29:31,391 INFO    MainThread:30344 [wandb_init.py:init():911] run started, returning control to user process
+2025-12-17 04:29:31,391 INFO    MainThread:30344 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/root/workspace/LLM-BC/data/outputs/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0'}
+2025-12-19 10:20:01,244 WARNING MsgRouterThr:30344 [router.py:message_loop():75] message_loop has been closed
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/run-etljn2u5.wandb b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/run-etljn2u5.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..589010f98dc3b3fc27fd3628b749e055e771daab
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/run-20251217_042930-etljn2u5/run-etljn2u5.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ae11c214c2d1c62704760035739093c31cbf3a7fa4572b9f424a48167e24e86e
+size 590292472
diff --git a/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json
new file mode 100644
index 0000000000000000000000000000000000000000..b494e90a27fa24937ec8a52ad2e4a8356b6d7c12
--- /dev/null
+++ b/2025.12.17/04.29.18_train_llm_diffusion_unet_lowdim_parking-v0/wandb/wandb-resume.json
@@ -0,0 +1 @@
+{"run_id": "etljn2u5"}
\ No newline at end of file