diff --git a/.gitattributes b/.gitattributes
index a6344aac8c09253b3b630fb776ae94478aa0275b..a18d7dd1b03c2721a56df640e3b304f6f4134819 100644
--- a/.gitattributes
+++ b/.gitattributes
@@ -33,3 +33,7 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/run-9puzigbg.wandb filter=lfs diff=lfs merge=lfs -text
+2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/run-yhjy9tz9.wandb filter=lfs diff=lfs merge=lfs -text
+2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/run-qrt50pak.wandb filter=lfs diff=lfs merge=lfs -text
+2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/run-8pqnk39p.wandb filter=lfs diff=lfs merge=lfs -text
diff --git a/2026.01.21/12.08.38_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml b/2026.01.21/12.08.38_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..e2c0703a726938135bfd72381f09a35f4c693378
--- /dev/null
+++ b/2026.01.21/12.08.38_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml
@@ -0,0 +1,163 @@
+name: train_llmbc_lowdim
+_target_: llmbc.workspace.train_llmbc_lowdim_workspace.TrainLLMBCLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llmbc_lowdim_policy.LLMBCLowdimPolicy
+  model:
+    _target_: llmbc.model.policy.policy_mlp.PolicyMLP
+    input_size: ${eval:'${n_obs_steps}*${obs_dim}'}
+    hidden_size:
+    - 256
+    - 256
+    output_size: ${eval:'${n_action_steps}*${action_dim}'}
+    activation: relu
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${task.obs_dim}
+      action_dim: ${task.action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${n_action_steps}
+  loss_bc_weight: 1.0
+  loss_llm_weight: 0.01
+  horizon: ${horizon}
+  n_obs_steps: ${n_obs_steps}
+  n_action_steps: ${n_action_steps}
+  normalize_llm_loss: true
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.01
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 42
+  debug: false
+  resume: false
+  lr_scheduler: cosine
+  lr_warmup_steps: 10
+  num_epochs: 1001
+  gradient_accumulate_every: 8
+  grad_norm_clip: 0.5
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  sample_max_batch: 128
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: box-close-v2
+  obs_dim: 9
+  action_dim: 4
+  env_runner:
+    _target_: llmbc.env_runner.metaworld_lowdim_runner.MetaworldLowdimRunner
+    env_name: llf-metaworld-box-close-v2
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 30
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    - fp
+    visual: false
+    discount: 0.9
+  dataset:
+    _target_: llmbc.dataset.metaworld_lowdim_dataset.MetaworldLowdimDataset
+    data_path: datasets/box-close-v2.pt
+    data_path2: datasets/box-close-v2.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    obs_eef_target: true
+    use_manual_normalizer: false
+    val_ratio: 0.1
+    dummy_normalizer: true
+  instructor:
+    _target_: llmbc.translator.instructor.metaworld_instructor.box_close_v2_instructor.BoxCloseV2Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2026.01.21/12.08.38_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml b/2026.01.21/12.08.38_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..7d02650fca9ca9f98f667f01a5bdc74c01862af2
--- /dev/null
+++ b/2026.01.21/12.08.38_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml
@@ -0,0 +1,154 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task: []
+  job:
+    name: train
+    chdir: null
+    override_dirname: ''
+    id: ???
+    num: ???
+    config_name: llmbc_box-close-v2.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /work/u1131674/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /work/u1131674/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /work/u1131674/LLM-BC/data/outputs/2026.01.21/12.08.38_train_llmbc_lowdim_box-close-v2
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2026.01.21/12.08.38_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml b/2026.01.21/12.08.38_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..fe51488c7066f6687ef680d6bfaa4f7768ef205c
--- /dev/null
+++ b/2026.01.21/12.08.38_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml
@@ -0,0 +1 @@
+[]
diff --git a/2026.01.21/12.08.38_train_llmbc_lowdim_box-close-v2/train.log b/2026.01.21/12.08.38_train_llmbc_lowdim_box-close-v2/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..b646e1ad6014f5209fe2c576db33501ed3484263
--- /dev/null
+++ b/2026.01.21/12.08.38_train_llmbc_lowdim_box-close-v2/train.log
@@ -0,0 +1,2 @@
+[2026-01-21 12:08:39,454][hydra.utils][ERROR] - Error initializing class at llmbc.workspace.train_llmbc_lowdim_workspace.TrainLLMBCLowdimWorkspace: Error loading 'llmbc.workspace.train_llmbc_lowdim_workspace.TrainLLMBCLowdimWorkspace':
+ImportError("cannot import name 'Sentinel' from 'typing_extensions' (/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/typing_extensions.py)")
diff --git a/2026.01.21/12.10.34_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml b/2026.01.21/12.10.34_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..e2c0703a726938135bfd72381f09a35f4c693378
--- /dev/null
+++ b/2026.01.21/12.10.34_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml
@@ -0,0 +1,163 @@
+name: train_llmbc_lowdim
+_target_: llmbc.workspace.train_llmbc_lowdim_workspace.TrainLLMBCLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llmbc_lowdim_policy.LLMBCLowdimPolicy
+  model:
+    _target_: llmbc.model.policy.policy_mlp.PolicyMLP
+    input_size: ${eval:'${n_obs_steps}*${obs_dim}'}
+    hidden_size:
+    - 256
+    - 256
+    output_size: ${eval:'${n_action_steps}*${action_dim}'}
+    activation: relu
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${task.obs_dim}
+      action_dim: ${task.action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${n_action_steps}
+  loss_bc_weight: 1.0
+  loss_llm_weight: 0.01
+  horizon: ${horizon}
+  n_obs_steps: ${n_obs_steps}
+  n_action_steps: ${n_action_steps}
+  normalize_llm_loss: true
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.01
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 42
+  debug: false
+  resume: false
+  lr_scheduler: cosine
+  lr_warmup_steps: 10
+  num_epochs: 1001
+  gradient_accumulate_every: 8
+  grad_norm_clip: 0.5
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  sample_max_batch: 128
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: box-close-v2
+  obs_dim: 9
+  action_dim: 4
+  env_runner:
+    _target_: llmbc.env_runner.metaworld_lowdim_runner.MetaworldLowdimRunner
+    env_name: llf-metaworld-box-close-v2
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 30
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    - fp
+    visual: false
+    discount: 0.9
+  dataset:
+    _target_: llmbc.dataset.metaworld_lowdim_dataset.MetaworldLowdimDataset
+    data_path: datasets/box-close-v2.pt
+    data_path2: datasets/box-close-v2.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    obs_eef_target: true
+    use_manual_normalizer: false
+    val_ratio: 0.1
+    dummy_normalizer: true
+  instructor:
+    _target_: llmbc.translator.instructor.metaworld_instructor.box_close_v2_instructor.BoxCloseV2Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2026.01.21/12.10.34_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml b/2026.01.21/12.10.34_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..91bc606fb6730b765a14ff99bb8ab85928681018
--- /dev/null
+++ b/2026.01.21/12.10.34_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml
@@ -0,0 +1,154 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task: []
+  job:
+    name: train
+    chdir: null
+    override_dirname: ''
+    id: ???
+    num: ???
+    config_name: llmbc_box-close-v2.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /work/u1131674/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /work/u1131674/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /work/u1131674/LLM-BC/data/outputs/2026.01.21/12.10.34_train_llmbc_lowdim_box-close-v2
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2026.01.21/12.10.34_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml b/2026.01.21/12.10.34_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..fe51488c7066f6687ef680d6bfaa4f7768ef205c
--- /dev/null
+++ b/2026.01.21/12.10.34_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml
@@ -0,0 +1 @@
+[]
diff --git a/2026.01.21/12.10.34_train_llmbc_lowdim_box-close-v2/train.log b/2026.01.21/12.10.34_train_llmbc_lowdim_box-close-v2/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..cbd23c5f0a38965d4c06cfef28abe3889b9a8abe
--- /dev/null
+++ b/2026.01.21/12.10.34_train_llmbc_lowdim_box-close-v2/train.log
@@ -0,0 +1,9 @@
+[2026-01-21 12:10:36,293][numexpr.utils][INFO] - Note: detected 224 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+[2026-01-21 12:10:36,293][numexpr.utils][INFO] - Note: NumExpr detected 224 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
+[2026-01-21 12:10:36,293][numexpr.utils][INFO] - NumExpr defaulting to 16 threads.
+[2026-01-21 12:10:42,233][datasets][INFO] - PyTorch version 2.2.2 available.
+[2026-01-21 12:10:42,234][datasets][INFO] - TensorFlow version 2.15.1 available.
+[2026-01-21 12:10:42,235][datasets][INFO] - JAX version 0.4.30 available.
+[2026-01-21 12:11:05,787][matplotlib.font_manager][INFO] - Failed to extract font properties from /usr/share/fonts/google-noto-emoji/NotoColorEmoji.ttf: In FT2Font: Can not load face (unknown file format; error code 0x2)
+[2026-01-21 12:11:05,799][matplotlib.font_manager][INFO] - generated new fontManager
+[2026-01-21 12:11:07,857][OpenGL.platform.ctypesloader][INFO] - Failed to load library ( 'libOSMesa.so.0' ): libOSMesa.so.0: cannot open shared object file: No such file or directory
diff --git a/2026.01.21/12.13.09_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml b/2026.01.21/12.13.09_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..e2c0703a726938135bfd72381f09a35f4c693378
--- /dev/null
+++ b/2026.01.21/12.13.09_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml
@@ -0,0 +1,163 @@
+name: train_llmbc_lowdim
+_target_: llmbc.workspace.train_llmbc_lowdim_workspace.TrainLLMBCLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llmbc_lowdim_policy.LLMBCLowdimPolicy
+  model:
+    _target_: llmbc.model.policy.policy_mlp.PolicyMLP
+    input_size: ${eval:'${n_obs_steps}*${obs_dim}'}
+    hidden_size:
+    - 256
+    - 256
+    output_size: ${eval:'${n_action_steps}*${action_dim}'}
+    activation: relu
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${task.obs_dim}
+      action_dim: ${task.action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${n_action_steps}
+  loss_bc_weight: 1.0
+  loss_llm_weight: 0.01
+  horizon: ${horizon}
+  n_obs_steps: ${n_obs_steps}
+  n_action_steps: ${n_action_steps}
+  normalize_llm_loss: true
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.01
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 42
+  debug: false
+  resume: false
+  lr_scheduler: cosine
+  lr_warmup_steps: 10
+  num_epochs: 1001
+  gradient_accumulate_every: 8
+  grad_norm_clip: 0.5
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  sample_max_batch: 128
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: box-close-v2
+  obs_dim: 9
+  action_dim: 4
+  env_runner:
+    _target_: llmbc.env_runner.metaworld_lowdim_runner.MetaworldLowdimRunner
+    env_name: llf-metaworld-box-close-v2
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 30
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    - fp
+    visual: false
+    discount: 0.9
+  dataset:
+    _target_: llmbc.dataset.metaworld_lowdim_dataset.MetaworldLowdimDataset
+    data_path: datasets/box-close-v2.pt
+    data_path2: datasets/box-close-v2.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    obs_eef_target: true
+    use_manual_normalizer: false
+    val_ratio: 0.1
+    dummy_normalizer: true
+  instructor:
+    _target_: llmbc.translator.instructor.metaworld_instructor.box_close_v2_instructor.BoxCloseV2Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2026.01.21/12.13.09_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml b/2026.01.21/12.13.09_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..ac271dbca9ec313d412e8242332c5ec097ef22e5
--- /dev/null
+++ b/2026.01.21/12.13.09_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml
@@ -0,0 +1,154 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task: []
+  job:
+    name: train
+    chdir: null
+    override_dirname: ''
+    id: ???
+    num: ???
+    config_name: llmbc_box-close-v2.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /work/u1131674/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /work/u1131674/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /work/u1131674/LLM-BC/data/outputs/2026.01.21/12.13.09_train_llmbc_lowdim_box-close-v2
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2026.01.21/12.13.09_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml b/2026.01.21/12.13.09_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..fe51488c7066f6687ef680d6bfaa4f7768ef205c
--- /dev/null
+++ b/2026.01.21/12.13.09_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml
@@ -0,0 +1 @@
+[]
diff --git a/2026.01.21/12.13.09_train_llmbc_lowdim_box-close-v2/train.log b/2026.01.21/12.13.09_train_llmbc_lowdim_box-close-v2/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..95a4626981ad6d3294759f0bcc7e2dd315d17e53
--- /dev/null
+++ b/2026.01.21/12.13.09_train_llmbc_lowdim_box-close-v2/train.log
@@ -0,0 +1,12 @@
+[2026-01-21 12:13:11,502][numexpr.utils][INFO] - Note: detected 224 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+[2026-01-21 12:13:11,502][numexpr.utils][INFO] - Note: NumExpr detected 224 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
+[2026-01-21 12:13:11,502][numexpr.utils][INFO] - NumExpr defaulting to 16 threads.
+[2026-01-21 12:13:16,444][datasets][INFO] - PyTorch version 2.2.2 available.
+[2026-01-21 12:13:16,445][datasets][INFO] - TensorFlow version 2.15.1 available.
+[2026-01-21 12:13:16,446][datasets][INFO] - JAX version 0.4.30 available.
+[2026-01-21 12:13:41,170][root][INFO] - running build_ext
+[2026-01-21 12:13:41,174][root][INFO] - building 'mujoco_py.cymj' extension
+[2026-01-21 12:13:41,174][root][INFO] - creating /home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/generated/_pyxbld_2.1.2.14_39_linuxgpuextensionbuilder/temp.linux-x86_64-cpython-39/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py
+[2026-01-21 12:13:41,196][root][INFO] - creating /home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/generated/_pyxbld_2.1.2.14_39_linuxgpuextensionbuilder/temp.linux-x86_64-cpython-39/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/gl
+[2026-01-21 12:13:41,197][root][INFO] - gcc -pthread -B /home/u1131674/.conda/envs/llm-bc/compiler_compat -Wno-unused-result -Wsign-compare -DNDEBUG -O2 -Wall -fPIC -O2 -isystem /home/u1131674/.conda/envs/llm-bc/include -I/home/u1131674/.conda/envs/llm-bc/include -fPIC -O2 -isystem /home/u1131674/.conda/envs/llm-bc/include -fPIC -I/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py -I/home/u1131674/.mujoco/mujoco210/include -I/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/numpy/core/include -I/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/vendor/egl -I/home/u1131674/.conda/envs/llm-bc/include/python3.9 -c /home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/cymj.c -o /home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/generated/_pyxbld_2.1.2.14_39_linuxgpuextensionbuilder/temp.linux-x86_64-cpython-39/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/cymj.o -fopenmp -w
+[2026-01-21 12:14:08,619][root][INFO] - gcc -pthread -B /home/u1131674/.conda/envs/llm-bc/compiler_compat -Wno-unused-result -Wsign-compare -DNDEBUG -O2 -Wall -fPIC -O2 -isystem /home/u1131674/.conda/envs/llm-bc/include -I/home/u1131674/.conda/envs/llm-bc/include -fPIC -O2 -isystem /home/u1131674/.conda/envs/llm-bc/include -fPIC -I/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py -I/home/u1131674/.mujoco/mujoco210/include -I/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/numpy/core/include -I/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/vendor/egl -I/home/u1131674/.conda/envs/llm-bc/include/python3.9 -c /home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/gl/eglshim.c -o /home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/generated/_pyxbld_2.1.2.14_39_linuxgpuextensionbuilder/temp.linux-x86_64-cpython-39/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/gl/eglshim.o -fopenmp -w
diff --git a/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..e2c0703a726938135bfd72381f09a35f4c693378
--- /dev/null
+++ b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml
@@ -0,0 +1,163 @@
+name: train_llmbc_lowdim
+_target_: llmbc.workspace.train_llmbc_lowdim_workspace.TrainLLMBCLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llmbc_lowdim_policy.LLMBCLowdimPolicy
+  model:
+    _target_: llmbc.model.policy.policy_mlp.PolicyMLP
+    input_size: ${eval:'${n_obs_steps}*${obs_dim}'}
+    hidden_size:
+    - 256
+    - 256
+    output_size: ${eval:'${n_action_steps}*${action_dim}'}
+    activation: relu
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${task.obs_dim}
+      action_dim: ${task.action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${n_action_steps}
+  loss_bc_weight: 1.0
+  loss_llm_weight: 0.01
+  horizon: ${horizon}
+  n_obs_steps: ${n_obs_steps}
+  n_action_steps: ${n_action_steps}
+  normalize_llm_loss: true
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.01
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 42
+  debug: false
+  resume: false
+  lr_scheduler: cosine
+  lr_warmup_steps: 10
+  num_epochs: 1001
+  gradient_accumulate_every: 8
+  grad_norm_clip: 0.5
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  sample_max_batch: 128
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: box-close-v2
+  obs_dim: 9
+  action_dim: 4
+  env_runner:
+    _target_: llmbc.env_runner.metaworld_lowdim_runner.MetaworldLowdimRunner
+    env_name: llf-metaworld-box-close-v2
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 30
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    - fp
+    visual: false
+    discount: 0.9
+  dataset:
+    _target_: llmbc.dataset.metaworld_lowdim_dataset.MetaworldLowdimDataset
+    data_path: datasets/box-close-v2.pt
+    data_path2: datasets/box-close-v2.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    obs_eef_target: true
+    use_manual_normalizer: false
+    val_ratio: 0.1
+    dummy_normalizer: true
+  instructor:
+    _target_: llmbc.translator.instructor.metaworld_instructor.box_close_v2_instructor.BoxCloseV2Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..23f2f8c95d2d266554eae756877cc9f93bbef386
--- /dev/null
+++ b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml
@@ -0,0 +1,154 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task: []
+  job:
+    name: train
+    chdir: null
+    override_dirname: ''
+    id: ???
+    num: ???
+    config_name: llmbc_box-close-v2.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /work/u1131674/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /work/u1131674/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /work/u1131674/LLM-BC/data/outputs/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..fe51488c7066f6687ef680d6bfaa4f7768ef205c
--- /dev/null
+++ b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml
@@ -0,0 +1 @@
+[]
diff --git a/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/logs.json.txt b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/logs.json.txt
new file mode 100644
index 0000000000000000000000000000000000000000..037560c6b38137ae778adc9969a23130f16517cd
--- /dev/null
+++ b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/logs.json.txt
@@ -0,0 +1,237 @@
+{"train_loss": 0.2577439248561859, "train_loss_bc": 0.25195014476776123, "train_loss_llm": 0.5793781280517578, "grad_norm": 0.12829534709453583, "global_step": 0, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.278277724981308, "train_loss_bc": 0.27264082431793213, "train_loss_llm": 0.5636913180351257, "grad_norm": 0.13488440215587616, "global_step": 1, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.29180172085762024, "train_loss_bc": 0.28621771931648254, "train_loss_llm": 0.5584006309509277, "grad_norm": 0.27443262934684753, "global_step": 2, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.2927302420139313, "train_loss_bc": 0.2865779399871826, "train_loss_llm": 0.6152303218841553, "grad_norm": 0.4118553102016449, "global_step": 3, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.28513821959495544, "train_loss_bc": 0.2797144651412964, "train_loss_llm": 0.5423756241798401, "grad_norm": 0.5492109656333923, "global_step": 4, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.31990620493888855, "train_loss_bc": 0.31439733505249023, "train_loss_llm": 0.5508874654769897, "grad_norm": 0.6955047845840454, "global_step": 5, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.27779361605644226, "train_loss_bc": 0.27196407318115234, "train_loss_llm": 0.5829552412033081, "grad_norm": 0.8313235640525818, "global_step": 6, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.23134832084178925, "train_loss_bc": 0.22543349862098694, "train_loss_llm": 0.5914825201034546, "grad_norm": 0.9541349411010742, "global_step": 7, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.2081925868988037, "train_loss_bc": 0.2028963267803192, "train_loss_llm": 0.5296263694763184, "grad_norm": 1.0696462392807007, "global_step": 8, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.2047700732946396, "train_loss_bc": 0.19888944923877716, "train_loss_llm": 0.5880619287490845, "grad_norm": 0.11593382805585861, "global_step": 9, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.2171408236026764, "train_loss_bc": 0.2111976146697998, "train_loss_llm": 0.5943207740783691, "grad_norm": 0.23421066999435425, "global_step": 10, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.211279034614563, "train_loss_bc": 0.2063535749912262, "train_loss_llm": 0.4925457537174225, "grad_norm": 0.3522197902202606, "global_step": 11, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.2630419433116913, "train_loss_bc": 0.2565857172012329, "train_loss_llm": 0.6456230282783508, "grad_norm": 0.48301446437835693, "global_step": 12, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.2441762089729309, "train_loss_bc": 0.23813079297542572, "train_loss_llm": 0.604541540145874, "grad_norm": 0.609789252281189, "global_step": 13, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.2768160402774811, "train_loss_bc": 0.27063897252082825, "train_loss_llm": 0.6177071332931519, "grad_norm": 0.7476180195808411, "global_step": 14, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.2484627217054367, "train_loss_bc": 0.24271151423454285, "train_loss_llm": 0.5751214623451233, "grad_norm": 0.8759933710098267, "global_step": 15, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.20768630504608154, "train_loss_bc": 0.20276379585266113, "train_loss_llm": 0.49225085973739624, "grad_norm": 0.9921573996543884, "global_step": 16, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.16910794377326965, "train_loss_bc": 0.16317197680473328, "train_loss_llm": 0.5935962796211243, "grad_norm": 0.11413145065307617, "global_step": 17, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.1472136378288269, "train_loss_bc": 0.14170503616333008, "train_loss_llm": 0.5508600473403931, "grad_norm": 0.2181655466556549, "global_step": 18, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.09437470138072968, "train_loss_bc": 0.08951498568058014, "train_loss_llm": 0.4859713315963745, "grad_norm": 0.2965621054172516, "global_step": 19, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.14634960889816284, "train_loss_bc": 0.14015674591064453, "train_loss_llm": 0.6192870140075684, "grad_norm": 0.399164617061615, "global_step": 20, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.13075421750545502, "train_loss_bc": 0.12502902746200562, "train_loss_llm": 0.5725185871124268, "grad_norm": 0.49499645829200745, "global_step": 21, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.1632406860589981, "train_loss_bc": 0.15791185200214386, "train_loss_llm": 0.5328830480575562, "grad_norm": 0.6078411936759949, "global_step": 22, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.16032128036022186, "train_loss_bc": 0.1541915237903595, "train_loss_llm": 0.6129759550094604, "grad_norm": 0.7181513905525208, "global_step": 23, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.10194464772939682, "train_loss_bc": 0.09674602746963501, "train_loss_llm": 0.5198622345924377, "grad_norm": 0.8007318377494812, "global_step": 24, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.04645621404051781, "train_loss_bc": 0.04119991511106491, "train_loss_llm": 0.5256298780441284, "grad_norm": 0.04878818616271019, "global_step": 25, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.05316489189863205, "train_loss_bc": 0.04852021113038063, "train_loss_llm": 0.46446824073791504, "grad_norm": 0.10567886382341385, "global_step": 26, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.034993816167116165, "train_loss_bc": 0.03099265694618225, "train_loss_llm": 0.40011608600616455, "grad_norm": 0.12614615261554718, "global_step": 27, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.05056390166282654, "train_loss_bc": 0.04542642831802368, "train_loss_llm": 0.5137471556663513, "grad_norm": 0.17804424464702606, "global_step": 28, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.040129225701093674, "train_loss_bc": 0.03615850210189819, "train_loss_llm": 0.3970724642276764, "grad_norm": 0.21957509219646454, "global_step": 29, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.06979431211948395, "train_loss_bc": 0.06506022810935974, "train_loss_llm": 0.47340837121009827, "grad_norm": 0.30375877022743225, "global_step": 30, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.05452805757522583, "train_loss_bc": 0.050960805267095566, "train_loss_llm": 0.3567253649234772, "grad_norm": 0.3601897656917572, "global_step": 31, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.05965254083275795, "train_loss_bc": 0.055447064340114594, "train_loss_llm": 0.4205475151538849, "grad_norm": 0.4274352192878723, "global_step": 32, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.06257618218660355, "train_loss_bc": 0.05625780671834946, "train_loss_llm": 0.6318378448486328, "grad_norm": 0.09260464459657669, "global_step": 33, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.05445178598165512, "train_loss_bc": 0.04902859777212143, "train_loss_llm": 0.5423187017440796, "grad_norm": 0.16763924062252045, "global_step": 34, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.06851150095462799, "train_loss_bc": 0.06271672248840332, "train_loss_llm": 0.5794777870178223, "grad_norm": 0.2678099274635315, "global_step": 35, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.0630837082862854, "train_loss_bc": 0.0575467087328434, "train_loss_llm": 0.553699791431427, "grad_norm": 0.3552546501159668, "global_step": 36, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.040140487253665924, "train_loss_bc": 0.03421059995889664, "train_loss_llm": 0.5929888486862183, "grad_norm": 0.41354402899742126, "global_step": 37, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.06981470435857773, "train_loss_bc": 0.063104547560215, "train_loss_llm": 0.6710153818130493, "grad_norm": 0.5134375095367432, "global_step": 38, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.051894403994083405, "train_loss_bc": 0.045866355299949646, "train_loss_llm": 0.6028048992156982, "grad_norm": 0.5825293660163879, "global_step": 39, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.04342593997716904, "train_loss_bc": 0.03640042245388031, "train_loss_llm": 0.7025519013404846, "grad_norm": 0.6445399522781372, "global_step": 40, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.1558080017566681, "train_loss_bc": 0.15039610862731934, "train_loss_llm": 0.5411889553070068, "grad_norm": 0.20307017862796783, "global_step": 41, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.12238138169050217, "train_loss_bc": 0.11733964830636978, "train_loss_llm": 0.5041730403900146, "grad_norm": 0.3785540461540222, "global_step": 42, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.11476962268352509, "train_loss_bc": 0.1102944016456604, "train_loss_llm": 0.44752180576324463, "grad_norm": 0.5496576428413391, "global_step": 43, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.1318601667881012, "train_loss_bc": 0.12625660002231598, "train_loss_llm": 0.5603567957878113, "grad_norm": 0.7342697381973267, "global_step": 44, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.15008734166622162, "train_loss_bc": 0.14480489492416382, "train_loss_llm": 0.5282450914382935, "grad_norm": 0.9383558630943298, "global_step": 45, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.11853287369012833, "train_loss_bc": 0.11271888017654419, "train_loss_llm": 0.5813996195793152, "grad_norm": 1.1123522520065308, "global_step": 46, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.14414051175117493, "train_loss_bc": 0.13898390531539917, "train_loss_llm": 0.5156602263450623, "grad_norm": 1.3082720041275024, "global_step": 47, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.1536247432231903, "train_loss_bc": 0.14848382771015167, "train_loss_llm": 0.5140920877456665, "grad_norm": 1.5149050951004028, "global_step": 48, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.25954943895339966, "train_loss_bc": 0.25265026092529297, "train_loss_llm": 0.6899186372756958, "grad_norm": 0.3054397702217102, "global_step": 49, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.1506877839565277, "train_loss_bc": 0.1453518569469452, "train_loss_llm": 0.5335921049118042, "grad_norm": 0.5257424116134644, "global_step": 50, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.17754197120666504, "train_loss_bc": 0.17331534624099731, "train_loss_llm": 0.4226621985435486, "grad_norm": 0.769081711769104, "global_step": 51, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.27337175607681274, "train_loss_bc": 0.26682397723197937, "train_loss_llm": 0.6547775268554688, "grad_norm": 1.0860713720321655, "global_step": 52, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.21706189215183258, "train_loss_bc": 0.21164150536060333, "train_loss_llm": 0.5420382022857666, "grad_norm": 1.3574727773666382, "global_step": 53, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.16595229506492615, "train_loss_bc": 0.16188554465770721, "train_loss_llm": 0.4066758155822754, "grad_norm": 1.5899840593338013, "global_step": 54, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.23229315876960754, "train_loss_bc": 0.22762833535671234, "train_loss_llm": 0.4664822220802307, "grad_norm": 1.8754494190216064, "global_step": 55, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.21556805074214935, "train_loss_bc": 0.2103624939918518, "train_loss_llm": 0.5205552577972412, "grad_norm": 2.147486448287964, "global_step": 56, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.22826582193374634, "train_loss_bc": 0.22174005210399628, "train_loss_llm": 0.6525774002075195, "grad_norm": 0.286575049161911, "global_step": 57, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.20953819155693054, "train_loss_bc": 0.203176349401474, "train_loss_llm": 0.6361845135688782, "grad_norm": 0.5594003200531006, "global_step": 58, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.191473588347435, "train_loss_bc": 0.18566101789474487, "train_loss_llm": 0.581256628036499, "grad_norm": 0.8172082304954529, "global_step": 59, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.17888422310352325, "train_loss_bc": 0.17266017198562622, "train_loss_llm": 0.6224054098129272, "grad_norm": 1.0602154731750488, "global_step": 60, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.21835987269878387, "train_loss_bc": 0.21199063956737518, "train_loss_llm": 0.6369228959083557, "grad_norm": 1.3346713781356812, "global_step": 61, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.17873793840408325, "train_loss_bc": 0.17244993150234222, "train_loss_llm": 0.6288003921508789, "grad_norm": 1.583105206489563, "global_step": 62, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.14904041588306427, "train_loss_bc": 0.14287304878234863, "train_loss_llm": 0.616736888885498, "grad_norm": 1.8050798177719116, "global_step": 63, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.22122563421726227, "train_loss_bc": 0.215244859457016, "train_loss_llm": 0.5980769395828247, "grad_norm": 2.082054615020752, "global_step": 64, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.11144096404314041, "train_loss_bc": 0.10432037711143494, "train_loss_llm": 0.712058424949646, "grad_norm": 0.1753779500722885, "global_step": 65, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.11379032582044601, "train_loss_bc": 0.107419952750206, "train_loss_llm": 0.6370369791984558, "grad_norm": 0.3535049855709076, "global_step": 66, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.10985075682401657, "train_loss_bc": 0.1022319421172142, "train_loss_llm": 0.7618812322616577, "grad_norm": 0.5256584286689758, "global_step": 67, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.18938198685646057, "train_loss_bc": 0.18246878683567047, "train_loss_llm": 0.691320538520813, "grad_norm": 0.7720930576324463, "global_step": 68, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.10004343092441559, "train_loss_bc": 0.09400247782468796, "train_loss_llm": 0.6040955781936646, "grad_norm": 0.939155638217926, "global_step": 69, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.11703117191791534, "train_loss_bc": 0.11094395071268082, "train_loss_llm": 0.6087222099304199, "grad_norm": 1.1172370910644531, "global_step": 70, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.13404561579227448, "train_loss_bc": 0.12686075270175934, "train_loss_llm": 0.7184867262840271, "grad_norm": 1.312468409538269, "global_step": 71, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.13330930471420288, "train_loss_bc": 0.12657678127288818, "train_loss_llm": 0.6732516288757324, "grad_norm": 1.5088775157928467, "global_step": 72, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.05257038772106171, "train_loss_bc": 0.04637575149536133, "train_loss_llm": 0.6194634437561035, "grad_norm": 0.09083625674247742, "global_step": 73, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.06475914269685745, "train_loss_bc": 0.057880476117134094, "train_loss_llm": 0.6878665089607239, "grad_norm": 0.1966981440782547, "global_step": 74, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.04975426197052002, "train_loss_bc": 0.043193425983190536, "train_loss_llm": 0.6560835242271423, "grad_norm": 0.28462910652160645, "global_step": 75, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.04952416196465492, "train_loss_bc": 0.04294995218515396, "train_loss_llm": 0.6574209332466125, "grad_norm": 0.368166983127594, "global_step": 76, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.07074079662561417, "train_loss_bc": 0.06346137821674347, "train_loss_llm": 0.7279415130615234, "grad_norm": 0.484068363904953, "global_step": 77, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.04157562926411629, "train_loss_bc": 0.034751974046230316, "train_loss_llm": 0.6823655962944031, "grad_norm": 0.5569941997528076, "global_step": 78, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.06484629958868027, "train_loss_bc": 0.05785399675369263, "train_loss_llm": 0.6992301940917969, "grad_norm": 0.6628190279006958, "global_step": 79, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.038789354264736176, "train_loss_bc": 0.03276902064681053, "train_loss_llm": 0.6020334959030151, "grad_norm": 0.7350778579711914, "global_step": 80, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.03389202430844307, "train_loss_bc": 0.02817351743578911, "train_loss_llm": 0.571850597858429, "grad_norm": 0.04861941188573837, "global_step": 81, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.03024495765566826, "train_loss_bc": 0.02487185411155224, "train_loss_llm": 0.5373104214668274, "grad_norm": 0.08896133303642273, "global_step": 82, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.029436565935611725, "train_loss_bc": 0.024766096845269203, "train_loss_llm": 0.46704691648483276, "grad_norm": 0.13158170878887177, "global_step": 83, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.03704115003347397, "train_loss_bc": 0.03144294396042824, "train_loss_llm": 0.5598207712173462, "grad_norm": 0.18903131783008575, "global_step": 84, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.031894855201244354, "train_loss_bc": 0.026735499501228333, "train_loss_llm": 0.5159357786178589, "grad_norm": 0.22145399451255798, "global_step": 85, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.03053618222475052, "train_loss_bc": 0.025796514004468918, "train_loss_llm": 0.47396671772003174, "grad_norm": 0.2594376802444458, "global_step": 86, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.025953643023967743, "train_loss_bc": 0.021002870053052902, "train_loss_llm": 0.49507731199264526, "grad_norm": 0.28883251547813416, "global_step": 87, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.03711831569671631, "train_loss_bc": 0.03182109445333481, "train_loss_llm": 0.5297219753265381, "grad_norm": 0.33612799644470215, "global_step": 88, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.07443847507238388, "train_loss_bc": 0.06750228255987167, "train_loss_llm": 0.6936193704605103, "grad_norm": 0.1032935231924057, "global_step": 89, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.06578436493873596, "train_loss_bc": 0.059477001428604126, "train_loss_llm": 0.6307359933853149, "grad_norm": 0.19785623252391815, "global_step": 90, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.05691196769475937, "train_loss_bc": 0.05067047104239464, "train_loss_llm": 0.6241495013237, "grad_norm": 0.28224730491638184, "global_step": 91, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.07031725347042084, "train_loss_bc": 0.06331950426101685, "train_loss_llm": 0.699774980545044, "grad_norm": 0.38025128841400146, "global_step": 92, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.06619272381067276, "train_loss_bc": 0.059530019760131836, "train_loss_llm": 0.6662706136703491, "grad_norm": 0.47631222009658813, "global_step": 93, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.050842322409152985, "train_loss_bc": 0.04463043063879013, "train_loss_llm": 0.6211893558502197, "grad_norm": 0.5518149137496948, "global_step": 94, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.05087399110198021, "train_loss_bc": 0.044860679656267166, "train_loss_llm": 0.6013312339782715, "grad_norm": 0.6292504668235779, "global_step": 95, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.06841012090444565, "train_loss_bc": 0.061625488102436066, "train_loss_llm": 0.6784631013870239, "grad_norm": 0.726737916469574, "global_step": 96, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.08856374025344849, "train_loss_bc": 0.08115855604410172, "train_loss_llm": 0.7405182123184204, "grad_norm": 0.11317727714776993, "global_step": 97, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.08638611435890198, "train_loss_bc": 0.07939188182353973, "train_loss_llm": 0.6994235515594482, "grad_norm": 0.22164146602153778, "global_step": 98, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.08941305428743362, "train_loss_bc": 0.0817980170249939, "train_loss_llm": 0.7615037560462952, "grad_norm": 0.32890111207962036, "global_step": 99, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.07866586744785309, "train_loss_bc": 0.07075173407793045, "train_loss_llm": 0.7914135456085205, "grad_norm": 0.4279417097568512, "global_step": 100, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.09740469604730606, "train_loss_bc": 0.0890614315867424, "train_loss_llm": 0.8343262672424316, "grad_norm": 0.5465472340583801, "global_step": 101, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.07890348881483078, "train_loss_bc": 0.07148407399654388, "train_loss_llm": 0.7419418096542358, "grad_norm": 0.6493978500366211, "global_step": 102, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.06637918949127197, "train_loss_bc": 0.05943997576832771, "train_loss_llm": 0.6939213275909424, "grad_norm": 0.736656665802002, "global_step": 103, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.052137844264507294, "train_loss_bc": 0.04496845602989197, "train_loss_llm": 0.716938853263855, "grad_norm": 0.8118408918380737, "global_step": 104, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.06986512988805771, "train_loss_bc": 0.06309865415096283, "train_loss_llm": 0.6766473650932312, "grad_norm": 0.08536022901535034, "global_step": 105, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.0901651680469513, "train_loss_bc": 0.08455254882574081, "train_loss_llm": 0.5612622499465942, "grad_norm": 0.19402463734149933, "global_step": 106, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.08825574815273285, "train_loss_bc": 0.08174335211515427, "train_loss_llm": 0.6512394547462463, "grad_norm": 0.29752182960510254, "global_step": 107, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.07733944058418274, "train_loss_bc": 0.07105374336242676, "train_loss_llm": 0.628569483757019, "grad_norm": 0.39171040058135986, "global_step": 108, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.06732399016618729, "train_loss_bc": 0.06240474805235863, "train_loss_llm": 0.49192410707473755, "grad_norm": 0.4783252775669098, "global_step": 109, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.06321073323488235, "train_loss_bc": 0.05660167708992958, "train_loss_llm": 0.6609058380126953, "grad_norm": 0.558458149433136, "global_step": 110, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.06905204057693481, "train_loss_bc": 0.06339387595653534, "train_loss_llm": 0.5658166408538818, "grad_norm": 0.6481609344482422, "global_step": 111, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.07884093374013901, "train_loss_bc": 0.07224734127521515, "train_loss_llm": 0.6593592166900635, "grad_norm": 0.7421054840087891, "global_step": 112, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.07946255803108215, "train_loss_bc": 0.07475702464580536, "train_loss_llm": 0.4705533981323242, "grad_norm": 0.10471871495246887, "global_step": 113, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.07216629385948181, "train_loss_bc": 0.06603223085403442, "train_loss_llm": 0.6134059429168701, "grad_norm": 0.19753926992416382, "global_step": 114, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.06510302424430847, "train_loss_bc": 0.057828500866889954, "train_loss_llm": 0.7274521589279175, "grad_norm": 0.28359219431877136, "global_step": 115, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.06222425401210785, "train_loss_bc": 0.055748678743839264, "train_loss_llm": 0.6475574970245361, "grad_norm": 0.36533209681510925, "global_step": 116, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.0845273807644844, "train_loss_bc": 0.07734745740890503, "train_loss_llm": 0.7179924249649048, "grad_norm": 0.4720841646194458, "global_step": 117, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.06714431196451187, "train_loss_bc": 0.06066868081688881, "train_loss_llm": 0.6475629210472107, "grad_norm": 0.5596445798873901, "global_step": 118, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.07048200070858002, "train_loss_bc": 0.06500747799873352, "train_loss_llm": 0.5474520921707153, "grad_norm": 0.6513513326644897, "global_step": 119, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.04110037535429001, "train_loss_bc": 0.03525649011135101, "train_loss_llm": 0.5843884944915771, "grad_norm": 0.7102450132369995, "global_step": 120, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.04190563037991524, "train_loss_bc": 0.03765689581632614, "train_loss_llm": 0.4248734712600708, "grad_norm": 0.06533454358577728, "global_step": 121, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.04612841457128525, "train_loss_bc": 0.04169066250324249, "train_loss_llm": 0.4437751770019531, "grad_norm": 0.13389350473880768, "global_step": 122, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.06232012063264847, "train_loss_bc": 0.057958535850048065, "train_loss_llm": 0.436158686876297, "grad_norm": 0.22540993988513947, "global_step": 123, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.05091412365436554, "train_loss_bc": 0.04628019779920578, "train_loss_llm": 0.4633924067020416, "grad_norm": 0.29657596349716187, "global_step": 124, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.04201853275299072, "train_loss_bc": 0.03731508180499077, "train_loss_llm": 0.47034499049186707, "grad_norm": 0.3558724820613861, "global_step": 125, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.06030768156051636, "train_loss_bc": 0.0569755993783474, "train_loss_llm": 0.3332084119319916, "grad_norm": 0.4466772675514221, "global_step": 126, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.049573902040719986, "train_loss_bc": 0.044726163148880005, "train_loss_llm": 0.48477375507354736, "grad_norm": 0.518007755279541, "global_step": 127, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.05068175494670868, "train_loss_bc": 0.04603324085474014, "train_loss_llm": 0.46485158801078796, "grad_norm": 0.584708034992218, "global_step": 128, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.03280109167098999, "train_loss_bc": 0.026645543053746223, "train_loss_llm": 0.6155548095703125, "grad_norm": 0.04615609720349312, "global_step": 129, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.02815183810889721, "train_loss_bc": 0.022307250648736954, "train_loss_llm": 0.5844587087631226, "grad_norm": 0.08306025713682175, "global_step": 130, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.04145112261176109, "train_loss_bc": 0.03547768294811249, "train_loss_llm": 0.597343921661377, "grad_norm": 0.1467656046152115, "global_step": 131, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.03268067538738251, "train_loss_bc": 0.026548977941274643, "train_loss_llm": 0.6131698489189148, "grad_norm": 0.1975640058517456, "global_step": 132, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.02972070872783661, "train_loss_bc": 0.024114008992910385, "train_loss_llm": 0.5606698989868164, "grad_norm": 0.2313450276851654, "global_step": 133, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.034362196922302246, "train_loss_bc": 0.028685620054602623, "train_loss_llm": 0.5676577091217041, "grad_norm": 0.2870166003704071, "global_step": 134, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.026356279850006104, "train_loss_bc": 0.021087775006890297, "train_loss_llm": 0.5268504023551941, "grad_norm": 0.32789376378059387, "global_step": 135, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.02352694608271122, "train_loss_bc": 0.017692333087325096, "train_loss_llm": 0.5834612846374512, "grad_norm": 0.3600025475025177, "global_step": 136, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.021489372476935387, "train_loss_bc": 0.015556419268250465, "train_loss_llm": 0.5932953953742981, "grad_norm": 0.029839487746357918, "global_step": 137, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.022915281355381012, "train_loss_bc": 0.016903359442949295, "train_loss_llm": 0.6011921167373657, "grad_norm": 0.0649353489279747, "global_step": 138, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.028618421405553818, "train_loss_bc": 0.021326089277863503, "train_loss_llm": 0.7292331457138062, "grad_norm": 0.09133722633123398, "global_step": 139, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.022449012845754623, "train_loss_bc": 0.016372717916965485, "train_loss_llm": 0.6076295375823975, "grad_norm": 0.11012815684080124, "global_step": 140, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.029746074229478836, "train_loss_bc": 0.023105649277567863, "train_loss_llm": 0.6640425324440002, "grad_norm": 0.13848648965358734, "global_step": 141, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.024118199944496155, "train_loss_bc": 0.018623564392328262, "train_loss_llm": 0.5494635105133057, "grad_norm": 0.1677691638469696, "global_step": 142, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.02615225501358509, "train_loss_bc": 0.020367056131362915, "train_loss_llm": 0.5785199403762817, "grad_norm": 0.2057863473892212, "global_step": 143, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.02474672719836235, "train_loss_bc": 0.01899828016757965, "train_loss_llm": 0.5748447179794312, "grad_norm": 0.2312604933977127, "global_step": 144, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.027259020134806633, "train_loss_bc": 0.022779621183872223, "train_loss_llm": 0.44793984293937683, "grad_norm": 0.03558708727359772, "global_step": 145, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.026615606620907784, "train_loss_bc": 0.022006575018167496, "train_loss_llm": 0.4609031677246094, "grad_norm": 0.07820506393909454, "global_step": 146, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.025012901052832603, "train_loss_bc": 0.020857524126768112, "train_loss_llm": 0.4155377149581909, "grad_norm": 0.11317337304353714, "global_step": 147, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.04018259048461914, "train_loss_bc": 0.034745171666145325, "train_loss_llm": 0.5437417030334473, "grad_norm": 0.1679946333169937, "global_step": 148, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.02269160747528076, "train_loss_bc": 0.018508322536945343, "train_loss_llm": 0.4183286130428314, "grad_norm": 0.1906110793352127, "global_step": 149, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.02399151585996151, "train_loss_bc": 0.01900067925453186, "train_loss_llm": 0.49908363819122314, "grad_norm": 0.2185346633195877, "global_step": 150, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.025642897933721542, "train_loss_bc": 0.01971365511417389, "train_loss_llm": 0.5929243564605713, "grad_norm": 0.256346195936203, "global_step": 151, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.0291135311126709, "train_loss_bc": 0.025170352309942245, "train_loss_llm": 0.3943178951740265, "grad_norm": 0.29621225595474243, "global_step": 152, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.031623922288417816, "train_loss_bc": 0.026910781860351562, "train_loss_llm": 0.4713141918182373, "grad_norm": 0.050291482359170914, "global_step": 153, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.04012516513466835, "train_loss_bc": 0.03538067638874054, "train_loss_llm": 0.47444888949394226, "grad_norm": 0.11879635602235794, "global_step": 154, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.02348470687866211, "train_loss_bc": 0.018497150391340256, "train_loss_llm": 0.49875572323799133, "grad_norm": 0.1580817550420761, "global_step": 155, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.02868938073515892, "train_loss_bc": 0.024003252387046814, "train_loss_llm": 0.4686127305030823, "grad_norm": 0.20671528577804565, "global_step": 156, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.03526413440704346, "train_loss_bc": 0.0299256332218647, "train_loss_llm": 0.5338499546051025, "grad_norm": 0.26737433671951294, "global_step": 157, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.04240602254867554, "train_loss_bc": 0.03778018057346344, "train_loss_llm": 0.46258440613746643, "grad_norm": 0.3377738893032074, "global_step": 158, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.04258374869823456, "train_loss_bc": 0.037083160132169724, "train_loss_llm": 0.5500588417053223, "grad_norm": 0.4062163233757019, "global_step": 159, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.03730035200715065, "train_loss_bc": 0.0325319766998291, "train_loss_llm": 0.4768376052379608, "grad_norm": 0.46591275930404663, "global_step": 160, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.03809020668268204, "train_loss_bc": 0.03346116095781326, "train_loss_llm": 0.46290475130081177, "grad_norm": 0.06493347138166428, "global_step": 161, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.027684010565280914, "train_loss_bc": 0.023107346147298813, "train_loss_llm": 0.4576663374900818, "grad_norm": 0.11537288874387741, "global_step": 162, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.03135323151946068, "train_loss_bc": 0.027640309184789658, "train_loss_llm": 0.3712920844554901, "grad_norm": 0.17289584875106812, "global_step": 163, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.0167723186314106, "train_loss_bc": 0.012659368105232716, "train_loss_llm": 0.41129496693611145, "grad_norm": 0.20604096353054047, "global_step": 164, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.03136400133371353, "train_loss_bc": 0.02577000856399536, "train_loss_llm": 0.5593993663787842, "grad_norm": 0.26496362686157227, "global_step": 165, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.04508890211582184, "train_loss_bc": 0.039878830313682556, "train_loss_llm": 0.5210072994232178, "grad_norm": 0.3450776934623718, "global_step": 166, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.02305273897945881, "train_loss_bc": 0.018481142818927765, "train_loss_llm": 0.4571595788002014, "grad_norm": 0.3923070430755615, "global_step": 167, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.028364604339003563, "train_loss_bc": 0.023760396987199783, "train_loss_llm": 0.46042078733444214, "grad_norm": 0.44835156202316284, "global_step": 168, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.03444590047001839, "train_loss_bc": 0.029000703245401382, "train_loss_llm": 0.5445197224617004, "grad_norm": 0.058123886585235596, "global_step": 169, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.031413737684488297, "train_loss_bc": 0.026274994015693665, "train_loss_llm": 0.5138742327690125, "grad_norm": 0.11113490164279938, "global_step": 170, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.026483573019504547, "train_loss_bc": 0.021075624972581863, "train_loss_llm": 0.540794849395752, "grad_norm": 0.15856337547302246, "global_step": 171, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.026955293491482735, "train_loss_bc": 0.02244516834616661, "train_loss_llm": 0.4510125517845154, "grad_norm": 0.20139986276626587, "global_step": 172, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.03016134910285473, "train_loss_bc": 0.02493642270565033, "train_loss_llm": 0.5224926471710205, "grad_norm": 0.25067630410194397, "global_step": 173, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.029931407421827316, "train_loss_bc": 0.024894531816244125, "train_loss_llm": 0.5036876797676086, "grad_norm": 0.2985679507255554, "global_step": 174, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.040666207671165466, "train_loss_bc": 0.035972896963357925, "train_loss_llm": 0.46933093667030334, "grad_norm": 0.36520418524742126, "global_step": 175, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.02875429019331932, "train_loss_bc": 0.024598199874162674, "train_loss_llm": 0.4156089723110199, "grad_norm": 0.4146167039871216, "global_step": 176, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.03293757140636444, "train_loss_bc": 0.02679475024342537, "train_loss_llm": 0.6142822504043579, "grad_norm": 0.05058354139328003, "global_step": 177, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.025597713887691498, "train_loss_bc": 0.01985827460885048, "train_loss_llm": 0.5739438533782959, "grad_norm": 0.08788882941007614, "global_step": 178, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.02832857519388199, "train_loss_bc": 0.023654501885175705, "train_loss_llm": 0.4674074053764343, "grad_norm": 0.1335342526435852, "global_step": 179, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.023435339331626892, "train_loss_bc": 0.018604157492518425, "train_loss_llm": 0.48311811685562134, "grad_norm": 0.16893020272254944, "global_step": 180, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.01497327908873558, "train_loss_bc": 0.010697474703192711, "train_loss_llm": 0.4275803864002228, "grad_norm": 0.1971648633480072, "global_step": 181, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.03193127363920212, "train_loss_bc": 0.025609299540519714, "train_loss_llm": 0.6321975588798523, "grad_norm": 0.2400187849998474, "global_step": 182, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.020016666501760483, "train_loss_bc": 0.01540004089474678, "train_loss_llm": 0.461662620306015, "grad_norm": 0.27775779366493225, "global_step": 183, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.019674330949783325, "train_loss_bc": 0.014173893257975578, "train_loss_llm": 0.5500437021255493, "grad_norm": 0.3127053380012512, "global_step": 184, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.020366767421364784, "train_loss_bc": 0.015372475609183311, "train_loss_llm": 0.49942925572395325, "grad_norm": 0.027160177007317543, "global_step": 185, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.02773042395710945, "train_loss_bc": 0.022009629756212234, "train_loss_llm": 0.5720794796943665, "grad_norm": 0.06589915603399277, "global_step": 186, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.027988407760858536, "train_loss_bc": 0.02180863544344902, "train_loss_llm": 0.6179772615432739, "grad_norm": 0.1006016656756401, "global_step": 187, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.027591602876782417, "train_loss_bc": 0.022058088332414627, "train_loss_llm": 0.5533514022827148, "grad_norm": 0.13344469666481018, "global_step": 188, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.017557095736265182, "train_loss_bc": 0.012610466219484806, "train_loss_llm": 0.494662880897522, "grad_norm": 0.1636464148759842, "global_step": 189, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.028389083221554756, "train_loss_bc": 0.021804803982377052, "train_loss_llm": 0.6584279537200928, "grad_norm": 0.20365768671035767, "global_step": 190, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.020810682326555252, "train_loss_bc": 0.014902697876095772, "train_loss_llm": 0.5907983779907227, "grad_norm": 0.23229533433914185, "global_step": 191, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.021981600672006607, "train_loss_bc": 0.016103900969028473, "train_loss_llm": 0.5877700448036194, "grad_norm": 0.2603759467601776, "global_step": 192, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.022998729720711708, "train_loss_bc": 0.01771724969148636, "train_loss_llm": 0.5281479954719543, "grad_norm": 0.034455616027116776, "global_step": 193, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.019327782094478607, "train_loss_bc": 0.014658035710453987, "train_loss_llm": 0.4669746160507202, "grad_norm": 0.0668833777308464, "global_step": 194, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.024879198521375656, "train_loss_bc": 0.0185236893594265, "train_loss_llm": 0.6355509757995605, "grad_norm": 0.08858254551887512, "global_step": 195, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.019756946712732315, "train_loss_bc": 0.014940358698368073, "train_loss_llm": 0.4816588759422302, "grad_norm": 0.11397459357976913, "global_step": 196, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.024903442710638046, "train_loss_bc": 0.018497081473469734, "train_loss_llm": 0.6406360864639282, "grad_norm": 0.14657457172870636, "global_step": 197, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.019728384912014008, "train_loss_bc": 0.014158019796013832, "train_loss_llm": 0.5570365190505981, "grad_norm": 0.1720155030488968, "global_step": 198, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.016792047768831253, "train_loss_bc": 0.011875113472342491, "train_loss_llm": 0.49169355630874634, "grad_norm": 0.20192894339561462, "global_step": 199, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.023527009412646294, "train_loss_bc": 0.017446376383304596, "train_loss_llm": 0.6080633401870728, "grad_norm": 0.2486913502216339, "global_step": 200, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.02416856773197651, "train_loss_bc": 0.018999043852090836, "train_loss_llm": 0.5169523358345032, "grad_norm": 0.029791679233312607, "global_step": 201, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.022336507216095924, "train_loss_bc": 0.017620330676436424, "train_loss_llm": 0.4716176390647888, "grad_norm": 0.056961867958307266, "global_step": 202, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.021891754120588303, "train_loss_bc": 0.01769360713660717, "train_loss_llm": 0.4198147654533386, "grad_norm": 0.07886364310979843, "global_step": 203, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.02422039769589901, "train_loss_bc": 0.01944451406598091, "train_loss_llm": 0.47758832573890686, "grad_norm": 0.11191964149475098, "global_step": 204, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.02202729508280754, "train_loss_bc": 0.016946561634540558, "train_loss_llm": 0.5080732703208923, "grad_norm": 0.12720732390880585, "global_step": 205, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.02344614453613758, "train_loss_bc": 0.01831752434372902, "train_loss_llm": 0.512861967086792, "grad_norm": 0.15643325448036194, "global_step": 206, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.021590720862150192, "train_loss_bc": 0.01635618507862091, "train_loss_llm": 0.5234535932540894, "grad_norm": 0.17777878046035767, "global_step": 207, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.02145991660654545, "train_loss_bc": 0.01685245707631111, "train_loss_llm": 0.46074602007865906, "grad_norm": 0.20263022184371948, "global_step": 208, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.023527000099420547, "train_loss_bc": 0.019175242632627487, "train_loss_llm": 0.4351757764816284, "grad_norm": 0.02783939242362976, "global_step": 209, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.02509186789393425, "train_loss_bc": 0.020386580377817154, "train_loss_llm": 0.4705287218093872, "grad_norm": 0.06272286921739578, "global_step": 210, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.023855067789554596, "train_loss_bc": 0.018275782465934753, "train_loss_llm": 0.5579285025596619, "grad_norm": 0.07670474052429199, "global_step": 211, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.024523191154003143, "train_loss_bc": 0.020061926916241646, "train_loss_llm": 0.4461265206336975, "grad_norm": 0.09239604324102402, "global_step": 212, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.023320389911532402, "train_loss_bc": 0.019183896481990814, "train_loss_llm": 0.413649320602417, "grad_norm": 0.12721095979213715, "global_step": 213, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.02343529649078846, "train_loss_bc": 0.018135903403162956, "train_loss_llm": 0.5299392938613892, "grad_norm": 0.14981500804424286, "global_step": 214, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.024323690682649612, "train_loss_bc": 0.01939486525952816, "train_loss_llm": 0.49288249015808105, "grad_norm": 0.17683890461921692, "global_step": 215, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.022757865488529205, "train_loss_bc": 0.018279647454619408, "train_loss_llm": 0.44782188534736633, "grad_norm": 0.19883114099502563, "global_step": 216, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.023337459191679955, "train_loss_bc": 0.01846153847873211, "train_loss_llm": 0.48759210109710693, "grad_norm": 0.02261751890182495, "global_step": 217, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.031769875437021255, "train_loss_bc": 0.026411594823002815, "train_loss_llm": 0.5358280539512634, "grad_norm": 0.06921491771936417, "global_step": 218, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.023737115785479546, "train_loss_bc": 0.019920486956834793, "train_loss_llm": 0.38166290521621704, "grad_norm": 0.09409084916114807, "global_step": 219, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.025979334488511086, "train_loss_bc": 0.021304704248905182, "train_loss_llm": 0.46746301651000977, "grad_norm": 0.11882251501083374, "global_step": 220, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.025000201538205147, "train_loss_bc": 0.019991103559732437, "train_loss_llm": 0.5009097456932068, "grad_norm": 0.15056195855140686, "global_step": 221, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.02242461033165455, "train_loss_bc": 0.018378354609012604, "train_loss_llm": 0.4046255350112915, "grad_norm": 0.1780581921339035, "global_step": 222, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.027378899976611137, "train_loss_bc": 0.023318542167544365, "train_loss_llm": 0.406035840511322, "grad_norm": 0.2123226374387741, "global_step": 223, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.02599770948290825, "train_loss_bc": 0.0203506201505661, "train_loss_llm": 0.564708948135376, "grad_norm": 0.24404466152191162, "global_step": 224, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.02545972168445587, "train_loss_bc": 0.020537808537483215, "train_loss_llm": 0.49219125509262085, "grad_norm": 0.0350002683699131, "global_step": 225, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.025176143273711205, "train_loss_bc": 0.020890595391392708, "train_loss_llm": 0.42855486273765564, "grad_norm": 0.06209180876612663, "global_step": 226, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.023136619478464127, "train_loss_bc": 0.01860974170267582, "train_loss_llm": 0.4526877701282501, "grad_norm": 0.09024433046579361, "global_step": 227, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.025945395231246948, "train_loss_bc": 0.021624740213155746, "train_loss_llm": 0.43206557631492615, "grad_norm": 0.12185320258140564, "global_step": 228, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.028116080909967422, "train_loss_bc": 0.02361183986067772, "train_loss_llm": 0.45042404532432556, "grad_norm": 0.16623881459236145, "global_step": 229, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.028553711250424385, "train_loss_bc": 0.02347782626748085, "train_loss_llm": 0.5075885057449341, "grad_norm": 0.19257326424121857, "global_step": 230, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.027766291052103043, "train_loss_bc": 0.022831808775663376, "train_loss_llm": 0.49344828724861145, "grad_norm": 0.22710655629634857, "global_step": 231, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.029369812458753586, "train_loss_bc": 0.024203170090913773, "train_loss_llm": 0.5166641473770142, "grad_norm": 0.2672453820705414, "global_step": 232, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.019986841827630997, "train_loss_bc": 0.01582282781600952, "train_loss_llm": 0.41640135645866394, "grad_norm": 0.03304322436451912, "global_step": 233, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.027561256662011147, "train_loss_bc": 0.0231167059391737, "train_loss_llm": 0.4444551467895508, "grad_norm": 0.06243205443024635, "global_step": 234, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.02846396341919899, "train_loss_bc": 0.023669028654694557, "train_loss_llm": 0.47949355840682983, "grad_norm": 0.10598953068256378, "global_step": 235, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.024963906034827232, "train_loss_bc": 0.020005209371447563, "train_loss_llm": 0.49586963653564453, "grad_norm": 0.1454334259033203, "global_step": 236, "epoch": 0, "lr": 0.009999988862926341}
diff --git a/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/train.log b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..a2b6f38ae4151e117275b55aa774d3f547a22004
--- /dev/null
+++ b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/train.log
@@ -0,0 +1,14 @@
+[2026-01-21 12:18:20,592][numexpr.utils][INFO] - Note: detected 224 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+[2026-01-21 12:18:20,592][numexpr.utils][INFO] - Note: NumExpr detected 224 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
+[2026-01-21 12:18:20,592][numexpr.utils][INFO] - NumExpr defaulting to 16 threads.
+[2026-01-21 12:18:26,191][datasets][INFO] - PyTorch version 2.2.2 available.
+[2026-01-21 12:18:26,192][datasets][INFO] - TensorFlow version 2.15.1 available.
+[2026-01-21 12:18:26,193][datasets][INFO] - JAX version 0.4.30 available.
+[2026-01-21 12:18:49,867][root][INFO] - running build_ext
+[2026-01-21 12:18:49,870][root][INFO] - building 'mujoco_py.cymj' extension
+[2026-01-21 12:18:49,872][root][INFO] - gcc -pthread -B /home/u1131674/.conda/envs/llm-bc/compiler_compat -Wno-unused-result -Wsign-compare -DNDEBUG -O2 -Wall -fPIC -O2 -isystem /home/u1131674/.conda/envs/llm-bc/include -I/home/u1131674/.conda/envs/llm-bc/include -fPIC -O2 -isystem /home/u1131674/.conda/envs/llm-bc/include -fPIC -I/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py -I/home/u1131674/.mujoco/mujoco210/include -I/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/numpy/core/include -I/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/vendor/egl -I/home/u1131674/.conda/envs/llm-bc/include/python3.9 -c /home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/cymj.c -o /home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/generated/_pyxbld_2.1.2.14_39_linuxgpuextensionbuilder/temp.linux-x86_64-cpython-39/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/cymj.o -fopenmp -w
+[2026-01-21 12:19:17,011][root][INFO] - gcc -pthread -B /home/u1131674/.conda/envs/llm-bc/compiler_compat -Wno-unused-result -Wsign-compare -DNDEBUG -O2 -Wall -fPIC -O2 -isystem /home/u1131674/.conda/envs/llm-bc/include -I/home/u1131674/.conda/envs/llm-bc/include -fPIC -O2 -isystem /home/u1131674/.conda/envs/llm-bc/include -fPIC -I/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py -I/home/u1131674/.mujoco/mujoco210/include -I/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/numpy/core/include -I/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/vendor/egl -I/home/u1131674/.conda/envs/llm-bc/include/python3.9 -c /home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/gl/eglshim.c -o /home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/generated/_pyxbld_2.1.2.14_39_linuxgpuextensionbuilder/temp.linux-x86_64-cpython-39/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/gl/eglshim.o -fopenmp -w
+[2026-01-21 12:19:17,219][root][INFO] - creating /home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/generated/_pyxbld_2.1.2.14_39_linuxgpuextensionbuilder/lib.linux-x86_64-cpython-39/mujoco_py
+[2026-01-21 12:19:17,222][root][INFO] - gcc -pthread -B /home/u1131674/.conda/envs/llm-bc/compiler_compat -shared -Wl,-rpath,/home/u1131674/.conda/envs/llm-bc/lib -Wl,-rpath-link,/home/u1131674/.conda/envs/llm-bc/lib -L/home/u1131674/.conda/envs/llm-bc/lib -L/home/u1131674/.conda/envs/llm-bc/lib -Wl,-rpath,/home/u1131674/.conda/envs/llm-bc/lib -Wl,-rpath-link,/home/u1131674/.conda/envs/llm-bc/lib -L/home/u1131674/.conda/envs/llm-bc/lib /home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/generated/_pyxbld_2.1.2.14_39_linuxgpuextensionbuilder/temp.linux-x86_64-cpython-39/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/cymj.o /home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/generated/_pyxbld_2.1.2.14_39_linuxgpuextensionbuilder/temp.linux-x86_64-cpython-39/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/gl/eglshim.o -L/home/u1131674/.mujoco/mujoco210/bin -Wl,--enable-new-dtags,-rpath,/home/u1131674/.mujoco/mujoco210/bin -lmujoco210 -lglewegl -o /home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/mujoco_py/generated/_pyxbld_2.1.2.14_39_linuxgpuextensionbuilder/lib.linux-x86_64-cpython-39/mujoco_py/cymj.cpython-39-x86_64-linux-gnu.so -fopenmp
+[2026-01-21 12:19:18,581][absl][INFO] - MUJOCO_GL=osmesa, attempting to import specified OpenGL backend.
+[2026-01-21 12:19:18,590][absl][INFO] - MuJoCo library version is: 2.3.7
diff --git a/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/debug-internal.log b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..be3b030f9802cf4921193e9e4af1f91d32004dbb
--- /dev/null
+++ b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/debug-internal.log
@@ -0,0 +1,11 @@
+{"time":"2026-01-21T12:19:19.67691431+08:00","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2026-01-21T12:19:19.676924583+08:00","level":"INFO","msg":"created symlink","path":"/work/u1131674/LLM-BC/data/outputs/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/logs/debug-core.log"}
+{"time":"2026-01-21T12:19:19.791067511+08:00","level":"INFO","msg":"created new stream","id":"9puzigbg"}
+{"time":"2026-01-21T12:19:19.791113731+08:00","level":"INFO","msg":"stream: started","id":"9puzigbg"}
+{"time":"2026-01-21T12:19:19.791148479+08:00","level":"INFO","msg":"sender: started","stream_id":"9puzigbg"}
+{"time":"2026-01-21T12:19:19.791138771+08:00","level":"INFO","msg":"handler: started","stream_id":{"value":"9puzigbg"}}
+{"time":"2026-01-21T12:19:19.791131709+08:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"9puzigbg"}}
+{"time":"2026-01-21T12:19:20.473667126+08:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2026-01-21T12:20:31.202511022+08:00","level":"INFO","msg":"stream: closing","id":"9puzigbg"}
+{"time":"2026-01-21T12:20:31.202606065+08:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2026-01-21T12:20:31.262777289+08:00","level":"INFO","msg":"Stopped system monitor"}
diff --git a/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/debug.log b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..7a1b1b564682a68bebe83c612ed398ce349a0390
--- /dev/null
+++ b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/debug.log
@@ -0,0 +1,27 @@
+2026-01-21 12:19:19,672 INFO    MainThread:2070718 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2026-01-21 12:19:19,672 INFO    MainThread:2070718 [wandb_setup.py:_flush():79] Configure stats pid to 2070718
+2026-01-21 12:19:19,672 INFO    MainThread:2070718 [wandb_setup.py:_flush():79] Loading settings from /home/u1131674/.config/wandb/settings
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_setup.py:_flush():79] Loading settings from /work/u1131674/LLM-BC/wandb/settings
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/work/u1131674/LLM-BC/train.py', 'program': '/work/u1131674/LLM-BC/./train.py'}
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_setup.py:_flush():79] Applying login settings: {}
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_init.py:_log_setup():533] Logging user logs to /work/u1131674/LLM-BC/data/outputs/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/logs/debug.log
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_init.py:_log_setup():534] Logging internal logs to /work/u1131674/LLM-BC/data/outputs/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/logs/debug-internal.log
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_init.py:init():619] calling init triggers
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llmbc_lowdim', '_target_': 'llmbc.workspace.train_llmbc_lowdim_workspace.TrainLLMBCLowdimWorkspace', 'obs_dim': 9, 'action_dim': 4, 'task_name': 'box-close-v2', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llmbc_lowdim_policy.LLMBCLowdimPolicy', 'model': {'_target_': 'llmbc.model.policy.policy_mlp.PolicyMLP', 'input_size': 9, 'hidden_size': [256, 256], 'output_size': 4, 'activation': 'relu', 'n_obs_steps': 1, 'n_action_steps': 1}, 'obs_dim': 9, 'action_dim': 4, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'box-close-v2', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2026.01.21/12.18.18_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 9, 'action_dim': 4, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_bc_weight': 1.0, 'loss_llm_weight': 0.01, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'normalize_llm_loss': True}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.01, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 42, 'debug': False, 'resume': False, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 10, 'num_epochs': 1001, 'gradient_accumulate_every': 8, 'grad_norm_clip': 0.5, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'sample_max_batch': 128, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'box-close-v2-training', 'resume': True, 'mode': 'online', 'name': '2026.01.21-12.18.18_train_llmbc_lowdim_box-close-v2', 'tags': ['train_llmbc_lowdim', 'box-close-v2', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2', 'wandb_name_base': '2026.01.21-12.18.18_train_llmbc_lowdim_box-close-v2'}, 'task': {'name': 'box-close-v2', 'obs_dim': 9, 'action_dim': 4, 'env_runner': {'_target_': 'llmbc.env_runner.metaworld_lowdim_runner.MetaworldLowdimRunner', 'env_name': 'llf-metaworld-box-close-v2', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 30, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.9}, 'dataset': {'_target_': 'llmbc.dataset.metaworld_lowdim_dataset.MetaworldLowdimDataset', 'data_path': 'datasets/box-close-v2.pt', 'data_path2': 'datasets/box-close-v2.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.1, 'dummy_normalizer': True}, 'instructor': {'_target_': 'llmbc.translator.instructor.metaworld_instructor.box_close_v2_instructor.BoxCloseV2Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2026.01.21/12.18.18_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_init.py:init():669] starting backend
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_init.py:init():673] sending inform_init request
+2026-01-21 12:19:19,674 INFO    MainThread:2070718 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2026-01-21 12:19:19,675 INFO    MainThread:2070718 [wandb_init.py:init():686] backend started and connected
+2026-01-21 12:19:19,684 INFO    MainThread:2070718 [wandb_init.py:init():781] updated telemetry
+2026-01-21 12:19:19,759 INFO    MainThread:2070718 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2026-01-21 12:19:20,469 INFO    MainThread:2070718 [wandb_init.py:init():867] starting run threads in backend
+2026-01-21 12:19:20,990 INFO    MainThread:2070718 [wandb_run.py:_console_start():2451] atexit reg
+2026-01-21 12:19:20,991 INFO    MainThread:2070718 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2026-01-21 12:19:20,991 INFO    MainThread:2070718 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2026-01-21 12:19:20,991 INFO    MainThread:2070718 [wandb_run.py:_redirect():2389] Redirects installed.
+2026-01-21 12:19:20,994 INFO    MainThread:2070718 [wandb_init.py:init():911] run started, returning control to user process
+2026-01-21 12:19:20,994 INFO    MainThread:2070718 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/work/u1131674/LLM-BC/data/outputs/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2'}
+2026-01-21 12:20:31,202 WARNING MsgRouterThr:2070718 [router.py:message_loop():75] message_loop has been closed
diff --git a/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/files/config.yaml b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/files/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..2ac4eaea062d227890bdd1a9cc74e88c43c59ebf
--- /dev/null
+++ b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/files/config.yaml
@@ -0,0 +1,271 @@
+_target_:
+    value: llmbc.workspace.train_llmbc_lowdim_workspace.TrainLLMBCLowdimWorkspace
+_wandb:
+    value:
+        cli_version: 0.18.6
+        m: []
+        python_version: 3.9.25
+        t:
+            "1":
+                - 1
+                - 2
+                - 3
+                - 5
+                - 11
+                - 12
+                - 41
+                - 49
+                - 50
+                - 51
+                - 53
+                - 55
+                - 71
+                - 83
+                - 95
+                - 98
+                - 100
+                - 105
+            "2":
+                - 1
+                - 2
+                - 3
+                - 5
+                - 11
+                - 12
+                - 41
+                - 49
+                - 50
+                - 51
+                - 53
+                - 55
+                - 71
+                - 83
+                - 95
+                - 98
+                - 100
+                - 105
+            "3":
+                - 13
+                - 15
+                - 16
+                - 23
+                - 55
+                - 61
+            "4": 3.9.25
+            "5": 0.18.6
+            "6": 4.47.1
+            "8":
+                - 5
+            "12": 0.18.6
+            "13": linux-x86_64
+action_dim:
+    value: 4
+checkpoint:
+    value:
+        save_last_ckpt: true
+        save_last_snapshot: false
+        topk:
+            format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+            k: 5
+            mode: max
+            monitor_key: test_success_rate
+dataloader:
+    value:
+        batch_size: 16
+        num_workers: 0
+        persistent_workers: false
+        pin_memory: false
+        shuffle: true
+exp_name:
+    value: default
+horizon:
+    value: 1
+llm:
+    value:
+        causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+        checkpoint: data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890
+        config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+        finetune_mode: orig
+        hydra:
+            job:
+                override_dirname: HuggingFaceTB/SmolLM2-135M-Instruct
+            run:
+                dir: data/outputs/2026.01.21/12.18.18_HuggingFaceTB/SmolLM2-135M-Instruct
+        llm_mode: ete-finetuned
+        lora_config:
+            bias: none
+            lora_alpha: 64
+            lora_dropout: 0.05
+            r: 32
+            task_type: CAUSAL_LM
+        max_length: 100
+        model_name: SmolLM2-135M-Instruct
+        name: HuggingFaceTB/SmolLM2-135M-Instruct
+        prompter:
+            _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+            use_joint_mlp_projector: true
+        use_joint_mlp_projector: true
+        use_quantization: false
+llm_do_sample:
+    value: false
+llm_orig_expert_feedback:
+    value: true
+logging:
+    value:
+        group: null
+        id: null
+        mode: online
+        name: 2026.01.21-12.18.18_train_llmbc_lowdim_box-close-v2
+        project: box-close-v2-training
+        resume: true
+        tags:
+            - train_llmbc_lowdim
+            - box-close-v2
+            - default
+model_name:
+    value: HuggingFaceTB/SmolLM2-135M-Instruct
+multi_run:
+    value:
+        run_dir: data/outputs/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2
+        wandb_name_base: 2026.01.21-12.18.18_train_llmbc_lowdim_box-close-v2
+n_action_steps:
+    value: 1
+n_latency_steps:
+    value: 0
+n_obs_steps:
+    value: 1
+name:
+    value: train_llmbc_lowdim
+obs_dim:
+    value: 9
+optimizer:
+    value:
+        _target_: torch.optim.AdamW
+        betas:
+            - 0.95
+            - 0.999
+        eps: 1e-08
+        lr: 0.01
+        weight_decay: 1e-06
+output_dir:
+    value: /work/u1131674/LLM-BC/data/outputs/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2
+past_action_visible:
+    value: false
+policy:
+    value:
+        _target_: llmbc.policy.llmbc_lowdim_policy.LLMBCLowdimPolicy
+        action_dim: 4
+        horizon: 1
+        llm_discriminator:
+            _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+            llm_translator:
+                _target_: llmbc.translator.llm_translator.LLMTranslator
+                action_dim: 4
+                cfg:
+                    causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+                    checkpoint: data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890
+                    config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+                    finetune_mode: orig
+                    hydra:
+                        job:
+                            override_dirname: HuggingFaceTB/SmolLM2-135M-Instruct
+                        run:
+                            dir: data/outputs/2026.01.21/12.18.18_HuggingFaceTB/SmolLM2-135M-Instruct
+                    llm_mode: ete-finetuned
+                    lora_config:
+                        bias: none
+                        lora_alpha: 64
+                        lora_dropout: 0.05
+                        r: 32
+                        task_type: CAUSAL_LM
+                    max_length: 100
+                    model_name: SmolLM2-135M-Instruct
+                    name: HuggingFaceTB/SmolLM2-135M-Instruct
+                    prompter:
+                        _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+                        use_joint_mlp_projector: true
+                    use_joint_mlp_projector: true
+                    use_quantization: false
+                horizon: 1
+                n_action_steps: 1
+                n_obs_steps: 1
+                obs_dim: 9
+            task_id: box-close-v2
+        loss_bc_weight: 1
+        loss_llm_weight: 0.01
+        model:
+            _target_: llmbc.model.policy.policy_mlp.PolicyMLP
+            activation: relu
+            hidden_size:
+                - 256
+                - 256
+            input_size: 9
+            n_action_steps: 1
+            n_obs_steps: 1
+            output_size: 4
+        n_action_steps: 1
+        n_obs_steps: 1
+        normalize_llm_loss: true
+        obs_dim: 9
+task:
+    value:
+        action_dim: 4
+        dataset:
+            _target_: llmbc.dataset.metaworld_lowdim_dataset.MetaworldLowdimDataset
+            data_path: datasets/box-close-v2.pt
+            data_path2: datasets/box-close-v2.pt
+            dummy_normalizer: true
+            horizon: 1
+            obs_eef_target: true
+            pad_after: 0
+            pad_before: 0
+            use_manual_normalizer: false
+            val_ratio: 0.1
+        env_runner:
+            _target_: llmbc.env_runner.metaworld_lowdim_runner.MetaworldLowdimRunner
+            discount: 0.9
+            env_name: llf-metaworld-box-close-v2
+            feedback_type:
+                - hp
+                - hn
+                - fp
+            instruction_type: b
+            max_steps: 30
+            n_action_steps: 1
+            n_envs: 10
+            n_obs_steps: 1
+            n_test: 50
+            n_train: 10
+            visual: false
+        instructor:
+            _target_: llmbc.translator.instructor.metaworld_instructor.box_close_v2_instructor.BoxCloseV2Instructor
+        name: box-close-v2
+        obs_dim: 9
+task_name:
+    value: box-close-v2
+training:
+    value:
+        checkpoint_every: 5
+        debug: false
+        device: cuda:0
+        grad_norm_clip: 0.5
+        gradient_accumulate_every: 8
+        lr_scheduler: cosine
+        lr_warmup_steps: 10
+        max_train_steps: null
+        max_val_steps: null
+        num_epochs: 1001
+        resume: false
+        rollout_every: 5
+        sample_every: 5
+        sample_max_batch: 128
+        seed: 42
+        tqdm_interval_sec: 1
+        val_every: 1
+val_dataloader:
+    value:
+        batch_size: 16
+        num_workers: 0
+        persistent_workers: false
+        pin_memory: false
+        shuffle: true
diff --git a/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/files/output.log b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..2bb12bb9f51aaf1292b97e7aa037a1aa65b3a456
--- /dev/null
+++ b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/files/output.log
@@ -0,0 +1,78 @@
+Eval MetaworldLowdimRunner 1/6:   0%|                                                                                         | 0/30 [00:00<?, ?it/s]/work/u1131674/LLM-BC/llmbc/common/llfbench_util.py:39: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:275.)
+  obs = torch.tensor(obs, dtype=torch.float32).unsqueeze(dim=0).to(device)
+Eval MetaworldLowdimRunner 4/6:  13%|██████████▊                                                                      | 4/30 [00:00<00:01, 15.43it/s]Traceback (most recent call last):
+  File "/work/u1131674/LLM-BC/./train.py", line 35, in <module>
+    main()
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/hydra/main.py", line 90, in decorated_main
+    _run_hydra(
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 389, in _run_hydra
+    _run_app(
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 452, in _run_app
+    run_and_report(
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 213, in run_and_report
+    return func()
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 453, in <lambda>
+    lambda: hydra.run(
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/hydra.py", line 119, in run
+    ret = run_job(
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/hydra/core/utils.py", line 186, in run_job
+    ret.return_value = task_function(task_cfg)
+  File "/work/u1131674/LLM-BC/./train.py", line 32, in main
+    workspace.run()
+  File "/work/u1131674/LLM-BC/llmbc/workspace/train_llmbc_lowdim_workspace.py", line 238, in run
+    runner_log = env_runner.run(policy)
+  File "/work/u1131674/LLM-BC/llmbc/env_runner/metaworld_lowdim_runner.py", line 153, in run
+    action_dict = policy.predict_action(obs_dict)
+  File "/work/u1131674/LLM-BC/llmbc/policy/llmbc_lowdim_policy.py", line 80, in predict_action
+    action_mean, action_log_std = self.model.a_mean_logstd(obs)
+  File "/work/u1131674/LLM-BC/llmbc/model/policy/policy_mlp.py", line 74, in a_mean_logstd
+    y = self.forward(obs)
+  File "/work/u1131674/LLM-BC/llmbc/model/policy/policy_mlp.py", line 68, in forward
+    y = super().forward(y)
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/torch/nn/modules/container.py", line 217, in forward
+    input = module(input)
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1511, in _wrapped_call_impl
+    return self._call_impl(*args, **kwargs)
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1520, in _call_impl
+    return forward_call(*args, **kwargs)
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/torch/nn/modules/linear.py", line 116, in forward
+    return F.linear(input, self.weight, self.bias)
+KeyboardInterrupt
+Traceback (most recent call last):
+  File "/work/u1131674/LLM-BC/./train.py", line 35, in <module>
+    main()
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/hydra/main.py", line 90, in decorated_main
+    _run_hydra(
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 389, in _run_hydra
+    _run_app(
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 452, in _run_app
+    run_and_report(
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 213, in run_and_report
+    return func()
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/utils.py", line 453, in <lambda>
+    lambda: hydra.run(
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/hydra/_internal/hydra.py", line 119, in run
+    ret = run_job(
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/hydra/core/utils.py", line 186, in run_job
+    ret.return_value = task_function(task_cfg)
+  File "/work/u1131674/LLM-BC/./train.py", line 32, in main
+    workspace.run()
+  File "/work/u1131674/LLM-BC/llmbc/workspace/train_llmbc_lowdim_workspace.py", line 238, in run
+    runner_log = env_runner.run(policy)
+  File "/work/u1131674/LLM-BC/llmbc/env_runner/metaworld_lowdim_runner.py", line 153, in run
+    action_dict = policy.predict_action(obs_dict)
+  File "/work/u1131674/LLM-BC/llmbc/policy/llmbc_lowdim_policy.py", line 80, in predict_action
+    action_mean, action_log_std = self.model.a_mean_logstd(obs)
+  File "/work/u1131674/LLM-BC/llmbc/model/policy/policy_mlp.py", line 74, in a_mean_logstd
+    y = self.forward(obs)
+  File "/work/u1131674/LLM-BC/llmbc/model/policy/policy_mlp.py", line 68, in forward
+    y = super().forward(y)
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/torch/nn/modules/container.py", line 217, in forward
+    input = module(input)
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1511, in _wrapped_call_impl
+    return self._call_impl(*args, **kwargs)
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/torch/nn/modules/module.py", line 1520, in _call_impl
+    return forward_call(*args, **kwargs)
+  File "/home/u1131674/.conda/envs/llm-bc/lib/python3.9/site-packages/torch/nn/modules/linear.py", line 116, in forward
+    return F.linear(input, self.weight, self.bias)
+KeyboardInterrupt
diff --git a/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/files/requirements.txt b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..f07fb3b63f6171592bfb40896c50e7c4e8ebe927
--- /dev/null
+++ b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/files/requirements.txt
@@ -0,0 +1,857 @@
+rpds-py==0.27.1
+typeguard==4.4.4
+flatbuffers==25.12.19
+toppra==0.6.3
+sympy==1.14.0
+tiktoken==0.8.0
+nvidia-cuda-cupti-cu12==12.1.105
+arm_pytorch_utilities==0.4.3
+pynndescent==0.6.0
+multidict==6.7.0
+fonttools==4.60.2
+numexpr==2.10.1
+cmudict==1.0.13
+PyOpenGL-accelerate==3.1.10
+gmpy2==2.2.1
+peft==0.14.0
+metaworld==2.0.0
+nvidia-cufft-cu12==11.0.2.54
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+pexpect==4.9.0
+protobuf==4.25.8
+typing_extensions==4.15.0
+mujoco==2.3.7
+tokenizers==0.21.0
+pytorch-kinematics==0.7.5
+sniffio==1.3.1
+aiofiles==25.1.0
+mplib==0.1.1
+wcwidth==0.2.14
+Pygments==2.19.1
+anyio==4.12.1
+tensorflow-estimator==2.15.0
+filelock==3.17.0
+numpy==1.23.5
+attrs==25.4.0
+Markdown==3.9
+fsspec==2024.3.1
+libclang==18.1.1
+umap-learn==0.5.9.post2
+dill==0.3.8
+narwhals==2.15.0
+tensorboard==2.15.2
+dacite==1.9.2
+termcolor==3.1.0
+llmbc==0.0.0
+python-multipart==0.0.20
+exceptiongroup==1.3.1
+sapien==3.0.0b1
+pygame==2.6.1
+nvidia-curand-cu12==10.3.2.106
+evaluate==0.4.3
+msgpack==1.1.1
+tensorflow-probability==0.23.0
+diffusers==0.31.0
+certifi==2025.10.5
+d4rl==1.1
+pydub==0.25.1
+annotated-doc==0.0.4
+gitdb==4.0.12
+gradio_client==0.2.9
+Shapely==1.8.4
+mani_skill==3.0.0b20
+tensorflow-io-gcs-filesystem==0.37.1
+fasteners==0.20
+hjson==3.1.0
+ninja==1.13.0
+stack-data==0.6.3
+pyarrow==21.0.0
+networkx==3.2.1
+nvidia-cusparse-cu12==12.1.0.106
+pyparsing==3.3.1
+timm==1.0.22
+typing-inspection==0.4.2
+openai==2.8.1
+pybullet==3.2.6
+hydra-core==1.2.0
+gradio==3.36.1
+tensorflow==2.15.1
+asttokens==3.0.1
+importlib-metadata==5.2.0
+astunparse==1.6.3
+tifffile==2024.8.30
+annotated-types==0.7.0
+Bottleneck==1.4.2
+accelerate==1.0.1
+pytz==2025.2
+urllib3==2.5.0
+frozenlist==1.8.0
+sentry-sdk==2.50.0
+jsonschema==4.25.1
+tyro==0.9.1
+Farama-Notifications==0.0.4
+ffmpy==1.0.0
+httpx==0.28.1
+pymunk==6.2.1
+shtab==1.7.2
+glfw==2.0.0
+hf-xet==1.1.8
+omegaconf==2.2.1
+blobfile==3.0.0
+decorator==5.2.1
+cffi==1.17.1
+matplotlib-inline==0.2.1
+eval_type_backport==0.2.2
+torchaudio==2.2.2
+colorama==0.4.6
+click==8.1.8
+Cython==0.29.37
+orjson==3.11.5
+gym_bandits==0.0.2
+traitlets==5.14.3
+docker-pycreds==0.4.0
+multiprocess==0.70.15
+zipp==3.21.0
+antlr4-python3-runtime==4.9.3
+uc-micro-py==1.0.3
+mpmath==1.3.0
+idna==3.11
+aiodns==3.5.0
+charset-normalizer==3.4.4
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-cuda-nvrtc-cu12==12.1.105
+seaborn==0.13.2
+pyarrow-hotfix==0.7
+pillow==11.3.0
+pyautogen==0.1.0
+requests==2.32.0
+MarkupSafe==3.0.2
+websockets==15.0.1
+nvidia-nccl-cu12==2.19.3
+pure_eval==0.2.3
+parso==0.8.5
+huggingface-hub==0.26.2
+syllables==1.0.9
+tf-agents==0.19.0
+six==1.17.0
+referencing==0.36.2
+ptyprocess==0.7.0
+platformdirs==4.4.0
+fastapi==0.128.0
+stable-baselines3==2.2.1
+av==10.0.0
+diskcache==5.6.3
+pynvml==13.0.1
+pytorch-seed==0.2.0
+zarr==2.12.0
+mdurl==0.1.2
+docstring-parser==0.16
+packaging==25.0
+numcodecs==0.12.1
+opt_einsum==3.4.0
+markdown-it-py==2.2.0
+nvidia-cuda-runtime-cu12==12.1.105
+PyWavelets==1.6.0
+datasets==2.19.0
+contourpy==1.3.0
+aiohappyeyeballs==2.6.1
+jaxlib==0.4.30
+ImageIO==2.37.2
+wandb==0.18.6
+jiter==0.12.0
+gymnasium==0.29.1
+pycryptodomex==3.23.0
+google-pasta==0.2.0
+ipython==8.18.1
+threadpoolctl==3.6.0
+py-cpuinfo==9.0.0
+bitsandbytes==0.45.0
+xxhash==3.5.0
+google-auth-oauthlib==1.2.4
+rsa==4.9.1
+rouge_score==0.1.2
+dm-control==1.0.14
+oauthlib==3.3.1
+pandas==2.3.3
+tenacity==9.1.2
+asciitree==0.3.3
+scipy==1.13.1
+jedi==0.19.2
+gast==0.7.0
+google-auth==2.47.0
+transforms3d==0.4.2
+kiwisolver==1.4.7
+matplotlib==3.7.5
+aiohttp==3.12.15
+pip==23.3.2
+imageio-ffmpeg==0.6.0
+deepspeed==0.16.1
+yarl==1.18.0
+nvidia-nvtx-cu12==12.1.105
+llfbench==0.1.0
+wheel==0.45.1
+PySocks==1.7.1
+ml-dtypes==0.3.2
+PyYAML==6.0.2
+fast_kinematics==0.2.2
+gin-config==0.5.0
+setproctitle==1.3.7
+safetensors==0.5.3
+torchvision==0.17.2
+semantic-version==2.10.0
+PyOpenGL==3.1.10
+nltk==3.9.2
+lxml==6.0.2
+pydantic==2.12.5
+tqdm==4.67.1
+keras==2.15.0
+parse==1.19.1
+linkify-it-py==2.0.3
+dm-tree==0.1.8
+requests-oauthlib==2.0.0
+scikit-learn==1.6.1
+altair==6.0.0
+Werkzeug==3.1.5
+sentencepiece==0.2.0
+uvicorn==0.39.0
+cycler==0.12.1
+transformers==4.47.1
+uvloop==0.22.1
+mkl_random==1.2.8
+GitPython==3.1.46
+regex==2025.9.1
+jax==0.4.30
+llvmlite==0.39.1
+pyasn1_modules==0.4.2
+nvidia-cudnn-cu12==8.9.2.26
+pydantic_core==2.41.5
+google-genai==1.47.0
+propcache==0.3.1
+pycares==4.10.0
+pyperclip==1.11.0
+pyasn1==0.6.2
+async-timeout==5.0.1
+psutil==7.0.0
+gym==0.23.1
+dm-env==1.6
+Jinja2==3.1.6
+sentence-transformers==3.2.1
+einops==0.4.1
+triton==2.2.0
+grpcio==1.76.0
+labmaze==1.0.6
+nvidia-ml-py==13.590.44
+brotlicffi==1.0.9.2
+smmap==5.0.2
+cloudpickle==3.1.2
+setuptools==80.9.0
+starlette==0.49.3
+prompt_toolkit==3.0.52
+wrapt==1.14.2
+h5py==3.14.0
+scikit-image==0.19.3
+joblib==1.5.3
+opencv-python==4.11.0.86
+rich==14.2.0
+trl==0.11.4
+gym-notices==0.1.0
+trimesh==4.11.1
+mdit-py-plugins==0.3.3
+distro==1.9.0
+executing==2.2.1
+mkl-service==2.4.0
+nvidia-cusolver-cu12==11.4.5.107
+FLAML==2.3.6
+mujoco-py==2.1.2.14
+h11==0.16.0
+highway-env==1.9.1
+httpcore==1.0.9
+tensorboard-data-server==0.7.2
+tzdata==2025.3
+absl-py==2.3.1
+jsonschema-specifications==2025.9.1
+numba==0.56.4
+tabulate==0.9.0
+importlib-resources==5.13.0
+pycparser==2.23
+mkl_fft==1.3.11
+torch==2.2.2
+nvidia-cublas-cu12==12.1.3.1
+rpds-py==0.27.1
+typeguard==4.4.4
+flatbuffers==25.12.19
+toppra==0.6.3
+sympy==1.14.0
+tiktoken==0.8.0
+nvidia-cuda-cupti-cu12==12.1.105
+arm_pytorch_utilities==0.4.3
+pynndescent==0.6.0
+multidict==6.7.0
+fonttools==4.60.2
+numexpr==2.10.1
+cmudict==1.0.13
+PyOpenGL-accelerate==3.1.10
+gmpy2==2.2.1
+peft==0.14.0
+metaworld==2.0.0
+nvidia-cufft-cu12==11.0.2.54
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+pexpect==4.9.0
+protobuf==4.25.8
+typing_extensions==4.15.0
+mujoco==2.3.7
+tokenizers==0.21.0
+pytorch-kinematics==0.7.5
+sniffio==1.3.1
+aiofiles==25.1.0
+mplib==0.1.1
+wcwidth==0.2.14
+Pygments==2.19.1
+anyio==4.12.1
+tensorflow-estimator==2.15.0
+filelock==3.17.0
+numpy==1.23.5
+attrs==25.4.0
+Markdown==3.9
+fsspec==2024.3.1
+libclang==18.1.1
+umap-learn==0.5.9.post2
+dill==0.3.8
+narwhals==2.15.0
+tensorboard==2.15.2
+dacite==1.9.2
+termcolor==3.1.0
+llmbc==0.0.0
+python-multipart==0.0.20
+exceptiongroup==1.3.1
+sapien==3.0.0b1
+pygame==2.6.1
+nvidia-curand-cu12==10.3.2.106
+evaluate==0.4.3
+msgpack==1.1.1
+tensorflow-probability==0.23.0
+diffusers==0.31.0
+certifi==2025.10.5
+d4rl==1.1
+pydub==0.25.1
+annotated-doc==0.0.4
+gitdb==4.0.12
+gradio_client==0.2.9
+Shapely==1.8.4
+mani_skill==3.0.0b20
+tensorflow-io-gcs-filesystem==0.37.1
+fasteners==0.20
+hjson==3.1.0
+ninja==1.13.0
+stack-data==0.6.3
+pyarrow==21.0.0
+networkx==3.2.1
+nvidia-cusparse-cu12==12.1.0.106
+pyparsing==3.3.1
+timm==1.0.22
+typing-inspection==0.4.2
+openai==2.8.1
+pybullet==3.2.6
+hydra-core==1.2.0
+gradio==3.36.1
+tensorflow==2.15.1
+asttokens==3.0.1
+importlib-metadata==5.2.0
+astunparse==1.6.3
+tifffile==2024.8.30
+annotated-types==0.7.0
+Bottleneck==1.4.2
+accelerate==1.0.1
+pytz==2025.2
+urllib3==2.5.0
+frozenlist==1.8.0
+sentry-sdk==2.50.0
+jsonschema==4.25.1
+tyro==0.9.1
+Farama-Notifications==0.0.4
+ffmpy==1.0.0
+httpx==0.28.1
+pymunk==6.2.1
+shtab==1.7.2
+glfw==2.0.0
+hf-xet==1.1.8
+omegaconf==2.2.1
+blobfile==3.0.0
+decorator==5.2.1
+cffi==1.17.1
+matplotlib-inline==0.2.1
+eval_type_backport==0.2.2
+torchaudio==2.2.2
+colorama==0.4.6
+click==8.1.8
+Cython==0.29.37
+orjson==3.11.5
+gym_bandits==0.0.2
+traitlets==5.14.3
+docker-pycreds==0.4.0
+multiprocess==0.70.15
+zipp==3.21.0
+antlr4-python3-runtime==4.9.3
+uc-micro-py==1.0.3
+mpmath==1.3.0
+idna==3.11
+aiodns==3.5.0
+charset-normalizer==3.4.4
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-cuda-nvrtc-cu12==12.1.105
+seaborn==0.13.2
+pyarrow-hotfix==0.7
+pillow==11.3.0
+pyautogen==0.1.0
+requests==2.32.0
+MarkupSafe==3.0.2
+websockets==15.0.1
+nvidia-nccl-cu12==2.19.3
+pure_eval==0.2.3
+parso==0.8.5
+huggingface-hub==0.26.2
+syllables==1.0.9
+tf-agents==0.19.0
+six==1.17.0
+referencing==0.36.2
+ptyprocess==0.7.0
+platformdirs==4.4.0
+fastapi==0.128.0
+stable-baselines3==2.2.1
+av==10.0.0
+diskcache==5.6.3
+pynvml==13.0.1
+pytorch-seed==0.2.0
+zarr==2.12.0
+mdurl==0.1.2
+docstring-parser==0.16
+packaging==25.0
+numcodecs==0.12.1
+opt_einsum==3.4.0
+markdown-it-py==2.2.0
+nvidia-cuda-runtime-cu12==12.1.105
+PyWavelets==1.6.0
+datasets==2.19.0
+contourpy==1.3.0
+aiohappyeyeballs==2.6.1
+jaxlib==0.4.30
+ImageIO==2.37.2
+wandb==0.18.6
+jiter==0.12.0
+gymnasium==0.29.1
+pycryptodomex==3.23.0
+google-pasta==0.2.0
+ipython==8.18.1
+threadpoolctl==3.6.0
+py-cpuinfo==9.0.0
+bitsandbytes==0.45.0
+xxhash==3.5.0
+google-auth-oauthlib==1.2.4
+rsa==4.9.1
+rouge_score==0.1.2
+dm-control==1.0.14
+oauthlib==3.3.1
+pandas==2.3.3
+tenacity==9.1.2
+asciitree==0.3.3
+scipy==1.13.1
+jedi==0.19.2
+gast==0.7.0
+google-auth==2.47.0
+transforms3d==0.4.2
+kiwisolver==1.4.7
+matplotlib==3.7.5
+aiohttp==3.12.15
+pip==23.3.2
+imageio-ffmpeg==0.6.0
+deepspeed==0.16.1
+yarl==1.18.0
+nvidia-nvtx-cu12==12.1.105
+llfbench==0.1.0
+wheel==0.45.1
+PySocks==1.7.1
+ml-dtypes==0.3.2
+PyYAML==6.0.2
+fast_kinematics==0.2.2
+gin-config==0.5.0
+setproctitle==1.3.7
+safetensors==0.5.3
+torchvision==0.17.2
+semantic-version==2.10.0
+PyOpenGL==3.1.10
+nltk==3.9.2
+lxml==6.0.2
+pydantic==2.12.5
+tqdm==4.67.1
+keras==2.15.0
+parse==1.19.1
+linkify-it-py==2.0.3
+dm-tree==0.1.8
+requests-oauthlib==2.0.0
+scikit-learn==1.6.1
+altair==6.0.0
+Werkzeug==3.1.5
+sentencepiece==0.2.0
+uvicorn==0.39.0
+cycler==0.12.1
+transformers==4.47.1
+uvloop==0.22.1
+mkl_random==1.2.8
+GitPython==3.1.46
+regex==2025.9.1
+jax==0.4.30
+llvmlite==0.39.1
+pyasn1_modules==0.4.2
+nvidia-cudnn-cu12==8.9.2.26
+pydantic_core==2.41.5
+google-genai==1.47.0
+propcache==0.3.1
+pycares==4.10.0
+pyperclip==1.11.0
+pyasn1==0.6.2
+async-timeout==5.0.1
+psutil==7.0.0
+gym==0.23.1
+dm-env==1.6
+Jinja2==3.1.6
+sentence-transformers==3.2.1
+einops==0.4.1
+triton==2.2.0
+grpcio==1.76.0
+labmaze==1.0.6
+nvidia-ml-py==13.590.44
+brotlicffi==1.0.9.2
+smmap==5.0.2
+cloudpickle==3.1.2
+setuptools==80.9.0
+starlette==0.49.3
+prompt_toolkit==3.0.52
+wrapt==1.14.2
+h5py==3.14.0
+scikit-image==0.19.3
+joblib==1.5.3
+opencv-python==4.11.0.86
+rich==14.2.0
+trl==0.11.4
+gym-notices==0.1.0
+trimesh==4.11.1
+mdit-py-plugins==0.3.3
+distro==1.9.0
+executing==2.2.1
+mkl-service==2.4.0
+nvidia-cusolver-cu12==11.4.5.107
+FLAML==2.3.6
+mujoco-py==2.1.2.14
+h11==0.16.0
+highway-env==1.9.1
+httpcore==1.0.9
+tensorboard-data-server==0.7.2
+tzdata==2025.3
+absl-py==2.3.1
+jsonschema-specifications==2025.9.1
+numba==0.56.4
+tabulate==0.9.0
+importlib-resources==5.13.0
+pycparser==2.23
+mkl_fft==1.3.11
+torch==2.2.2
+nvidia-cublas-cu12==12.1.3.1
+llmbc==0.0.0
+rpds-py==0.27.1
+typeguard==4.4.4
+flatbuffers==25.12.19
+toppra==0.6.3
+sympy==1.14.0
+tiktoken==0.8.0
+nvidia-cuda-cupti-cu12==12.1.105
+arm_pytorch_utilities==0.4.3
+pynndescent==0.6.0
+multidict==6.7.0
+fonttools==4.60.2
+numexpr==2.10.1
+cmudict==1.0.13
+PyOpenGL-accelerate==3.1.10
+gmpy2==2.2.1
+peft==0.14.0
+metaworld==2.0.0
+nvidia-cufft-cu12==11.0.2.54
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+pexpect==4.9.0
+protobuf==4.25.8
+typing_extensions==4.15.0
+mujoco==2.3.7
+tokenizers==0.21.0
+pytorch-kinematics==0.7.5
+sniffio==1.3.1
+aiofiles==25.1.0
+mplib==0.1.1
+wcwidth==0.2.14
+Pygments==2.19.1
+anyio==4.12.1
+tensorflow-estimator==2.15.0
+filelock==3.17.0
+numpy==1.23.5
+attrs==25.4.0
+Markdown==3.9
+fsspec==2024.3.1
+libclang==18.1.1
+umap-learn==0.5.9.post2
+dill==0.3.8
+narwhals==2.15.0
+tensorboard==2.15.2
+dacite==1.9.2
+termcolor==3.1.0
+llmbc==0.0.0
+python-multipart==0.0.20
+exceptiongroup==1.3.1
+sapien==3.0.0b1
+pygame==2.6.1
+nvidia-curand-cu12==10.3.2.106
+evaluate==0.4.3
+msgpack==1.1.1
+tensorflow-probability==0.23.0
+diffusers==0.31.0
+certifi==2025.10.5
+d4rl==1.1
+pydub==0.25.1
+annotated-doc==0.0.4
+gitdb==4.0.12
+gradio_client==0.2.9
+Shapely==1.8.4
+mani_skill==3.0.0b20
+tensorflow-io-gcs-filesystem==0.37.1
+fasteners==0.20
+hjson==3.1.0
+ninja==1.13.0
+stack-data==0.6.3
+pyarrow==21.0.0
+networkx==3.2.1
+nvidia-cusparse-cu12==12.1.0.106
+pyparsing==3.3.1
+timm==1.0.22
+typing-inspection==0.4.2
+openai==2.8.1
+pybullet==3.2.6
+hydra-core==1.2.0
+gradio==3.36.1
+tensorflow==2.15.1
+asttokens==3.0.1
+importlib-metadata==5.2.0
+astunparse==1.6.3
+tifffile==2024.8.30
+annotated-types==0.7.0
+Bottleneck==1.4.2
+accelerate==1.0.1
+pytz==2025.2
+urllib3==2.5.0
+frozenlist==1.8.0
+sentry-sdk==2.50.0
+jsonschema==4.25.1
+tyro==0.9.1
+Farama-Notifications==0.0.4
+ffmpy==1.0.0
+httpx==0.28.1
+pymunk==6.2.1
+shtab==1.7.2
+glfw==2.0.0
+hf-xet==1.1.8
+omegaconf==2.2.1
+blobfile==3.0.0
+decorator==5.2.1
+cffi==1.17.1
+matplotlib-inline==0.2.1
+eval_type_backport==0.2.2
+torchaudio==2.2.2
+colorama==0.4.6
+click==8.1.8
+Cython==0.29.37
+orjson==3.11.5
+gym_bandits==0.0.2
+traitlets==5.14.3
+docker-pycreds==0.4.0
+multiprocess==0.70.15
+zipp==3.21.0
+antlr4-python3-runtime==4.9.3
+uc-micro-py==1.0.3
+mpmath==1.3.0
+idna==3.11
+aiodns==3.5.0
+charset-normalizer==3.4.4
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-cuda-nvrtc-cu12==12.1.105
+seaborn==0.13.2
+pyarrow-hotfix==0.7
+pillow==11.3.0
+pyautogen==0.1.0
+requests==2.32.0
+MarkupSafe==3.0.2
+websockets==15.0.1
+nvidia-nccl-cu12==2.19.3
+pure_eval==0.2.3
+parso==0.8.5
+huggingface-hub==0.26.2
+syllables==1.0.9
+tf-agents==0.19.0
+six==1.17.0
+referencing==0.36.2
+ptyprocess==0.7.0
+platformdirs==4.4.0
+fastapi==0.128.0
+stable-baselines3==2.2.1
+av==10.0.0
+diskcache==5.6.3
+pynvml==13.0.1
+pytorch-seed==0.2.0
+zarr==2.12.0
+mdurl==0.1.2
+docstring-parser==0.16
+packaging==25.0
+numcodecs==0.12.1
+opt_einsum==3.4.0
+markdown-it-py==2.2.0
+nvidia-cuda-runtime-cu12==12.1.105
+PyWavelets==1.6.0
+datasets==2.19.0
+contourpy==1.3.0
+aiohappyeyeballs==2.6.1
+jaxlib==0.4.30
+ImageIO==2.37.2
+wandb==0.18.6
+jiter==0.12.0
+gymnasium==0.29.1
+pycryptodomex==3.23.0
+google-pasta==0.2.0
+ipython==8.18.1
+threadpoolctl==3.6.0
+py-cpuinfo==9.0.0
+bitsandbytes==0.45.0
+xxhash==3.5.0
+google-auth-oauthlib==1.2.4
+rsa==4.9.1
+rouge_score==0.1.2
+dm-control==1.0.14
+oauthlib==3.3.1
+pandas==2.3.3
+tenacity==9.1.2
+asciitree==0.3.3
+scipy==1.13.1
+jedi==0.19.2
+gast==0.7.0
+google-auth==2.47.0
+transforms3d==0.4.2
+kiwisolver==1.4.7
+matplotlib==3.7.5
+aiohttp==3.12.15
+pip==23.3.2
+imageio-ffmpeg==0.6.0
+deepspeed==0.16.1
+yarl==1.18.0
+nvidia-nvtx-cu12==12.1.105
+llfbench==0.1.0
+wheel==0.45.1
+PySocks==1.7.1
+ml-dtypes==0.3.2
+PyYAML==6.0.2
+fast_kinematics==0.2.2
+gin-config==0.5.0
+setproctitle==1.3.7
+safetensors==0.5.3
+torchvision==0.17.2
+semantic-version==2.10.0
+PyOpenGL==3.1.10
+nltk==3.9.2
+lxml==6.0.2
+pydantic==2.12.5
+tqdm==4.67.1
+keras==2.15.0
+parse==1.19.1
+linkify-it-py==2.0.3
+dm-tree==0.1.8
+requests-oauthlib==2.0.0
+scikit-learn==1.6.1
+altair==6.0.0
+Werkzeug==3.1.5
+sentencepiece==0.2.0
+uvicorn==0.39.0
+cycler==0.12.1
+transformers==4.47.1
+uvloop==0.22.1
+mkl_random==1.2.8
+GitPython==3.1.46
+regex==2025.9.1
+jax==0.4.30
+llvmlite==0.39.1
+pyasn1_modules==0.4.2
+nvidia-cudnn-cu12==8.9.2.26
+pydantic_core==2.41.5
+google-genai==1.47.0
+propcache==0.3.1
+pycares==4.10.0
+pyperclip==1.11.0
+pyasn1==0.6.2
+async-timeout==5.0.1
+psutil==7.0.0
+gym==0.23.1
+dm-env==1.6
+Jinja2==3.1.6
+sentence-transformers==3.2.1
+einops==0.4.1
+triton==2.2.0
+grpcio==1.76.0
+labmaze==1.0.6
+nvidia-ml-py==13.590.44
+brotlicffi==1.0.9.2
+smmap==5.0.2
+cloudpickle==3.1.2
+setuptools==80.9.0
+starlette==0.49.3
+prompt_toolkit==3.0.52
+wrapt==1.14.2
+h5py==3.14.0
+scikit-image==0.19.3
+joblib==1.5.3
+opencv-python==4.11.0.86
+rich==14.2.0
+trl==0.11.4
+gym-notices==0.1.0
+trimesh==4.11.1
+mdit-py-plugins==0.3.3
+distro==1.9.0
+executing==2.2.1
+mkl-service==2.4.0
+nvidia-cusolver-cu12==11.4.5.107
+FLAML==2.3.6
+mujoco-py==2.1.2.14
+h11==0.16.0
+highway-env==1.9.1
+httpcore==1.0.9
+tensorboard-data-server==0.7.2
+tzdata==2025.3
+absl-py==2.3.1
+jsonschema-specifications==2025.9.1
+numba==0.56.4
+tabulate==0.9.0
+importlib-resources==5.13.0
+pycparser==2.23
+mkl_fft==1.3.11
+torch==2.2.2
+nvidia-cublas-cu12==12.1.3.1
+zipp==3.19.2
+jaraco.text==3.12.1
+jaraco.context==5.3.0
+importlib_metadata==8.0.0
+typeguard==4.3.0
+inflect==7.3.1
+more-itertools==10.3.0
+wheel==0.45.1
+packaging==24.2
+backports.tarfile==1.2.0
+autocommand==2.2.2
+jaraco.collections==5.1.0
+tomli==2.0.1
+platformdirs==4.2.2
+jaraco.functools==4.0.1
+typing_extensions==4.12.2
diff --git a/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/files/wandb-metadata.json b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..886d1414ead8c17e48773848e5b6ad64f5ea2d8b
--- /dev/null
+++ b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/files/wandb-metadata.json
@@ -0,0 +1,55 @@
+{
+  "os": "Linux-4.18.0-513.24.1.el8_9.x86_64-x86_64-with-glibc2.28",
+  "python": "3.9.25",
+  "startedAt": "2026-01-21T04:19:19.675401Z",
+  "args": [
+    "--config-path",
+    "./config/main_table",
+    "--config-name",
+    "llmbc_box-close-v2.yaml"
+  ],
+  "program": "/work/u1131674/LLM-BC/./train.py",
+  "codePath": "train.py",
+  "git": {
+    "remote": "https://github.com/CHYang25/LLM-BC.git",
+    "commit": "1d2e1f5818e116390426ef596d075fc0cf1b0081"
+  },
+  "email": "chris920325@gmail.com",
+  "root": "/work/u1131674/LLM-BC/data/outputs/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2",
+  "host": "cbi-lgn01",
+  "username": "u1131674",
+  "executable": "/home/u1131674/.conda/envs/llm-bc/bin/python3",
+  "codePathLocal": "train.py",
+  "cpu_count": 112,
+  "cpu_count_logical": 224,
+  "gpu": "NVIDIA H100 PCIe",
+  "gpu_count": 2,
+  "disk": {
+    "/": {
+      "total": "473745891328",
+      "used": "389026504704"
+    }
+  },
+  "memory": {
+    "total": "540117905408"
+  },
+  "cpu": {
+    "count": 112,
+    "countLogical": 224
+  },
+  "gpu_nvidia": [
+    {
+      "name": "NVIDIA H100 PCIe",
+      "memoryTotal": "85520809984",
+      "cudaCores": 14592,
+      "architecture": "Hopper"
+    },
+    {
+      "name": "NVIDIA H100 PCIe",
+      "memoryTotal": "85520809984",
+      "cudaCores": 14592,
+      "architecture": "Hopper"
+    }
+  ],
+  "cudaVersion": "12.4"
+}
\ No newline at end of file
diff --git a/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/files/wandb-summary.json b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/files/wandb-summary.json
new file mode 100644
index 0000000000000000000000000000000000000000..dad480314ba72b5b27ea7476f63eb281bf5bd8d0
--- /dev/null
+++ b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/files/wandb-summary.json
@@ -0,0 +1 @@
+{"train_loss":0.024963906034827232,"_timestamp":1.7689691981223695e+09,"train_loss_bc":0.020005209371447563,"_wandb":{"runtime":71},"epoch":0,"_runtime":71.527189585,"train_loss_llm":0.49586963653564453,"_step":236,"grad_norm":0.1454334259033203,"global_step":236,"lr":0.009999988862926341}
\ No newline at end of file
diff --git a/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/logs/debug-core.log b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..b86bfd414a83fd772ce0b2ee5e2658b44f619b03
--- /dev/null
+++ b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/logs/debug-core.log
@@ -0,0 +1,12 @@
+{"time":"2026-01-21T12:19:19.051245689+08:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmpu06061ms/port-2070718.txt","pid":2070718,"debug":false,"disable-analytics":false}
+{"time":"2026-01-21T12:19:19.051287504+08:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2026-01-21T12:19:19.051845713+08:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":2070718}
+{"time":"2026-01-21T12:19:19.051828427+08:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":43057,"Zone":""}}
+{"time":"2026-01-21T12:19:19.231239451+08:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:33440"}
+{"time":"2026-01-21T12:19:19.675902286+08:00","level":"INFO","msg":"handleInformInit: received","streamId":"9puzigbg","id":"127.0.0.1:33440"}
+{"time":"2026-01-21T12:19:19.791119243+08:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"9puzigbg","id":"127.0.0.1:33440"}
+{"time":"2026-01-21T12:20:31.202365496+08:00","level":"INFO","msg":"handleInformTeardown: server teardown initiated","id":"127.0.0.1:33440"}
+{"time":"2026-01-21T12:20:31.20258465+08:00","level":"INFO","msg":"server is shutting down"}
+{"time":"2026-01-21T12:20:31.202524542+08:00","level":"INFO","msg":"connection: Close: initiating connection closure","id":"127.0.0.1:33440"}
+{"time":"2026-01-21T12:20:31.202695965+08:00","level":"INFO","msg":"connection: Close: connection successfully closed","id":"127.0.0.1:33440"}
+{"time":"2026-01-21T12:20:31.981247472+08:00","level":"INFO","msg":"Parent process exited, terminating service process."}
diff --git a/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/logs/debug-internal.log b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..be3b030f9802cf4921193e9e4af1f91d32004dbb
--- /dev/null
+++ b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/logs/debug-internal.log
@@ -0,0 +1,11 @@
+{"time":"2026-01-21T12:19:19.67691431+08:00","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2026-01-21T12:19:19.676924583+08:00","level":"INFO","msg":"created symlink","path":"/work/u1131674/LLM-BC/data/outputs/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/logs/debug-core.log"}
+{"time":"2026-01-21T12:19:19.791067511+08:00","level":"INFO","msg":"created new stream","id":"9puzigbg"}
+{"time":"2026-01-21T12:19:19.791113731+08:00","level":"INFO","msg":"stream: started","id":"9puzigbg"}
+{"time":"2026-01-21T12:19:19.791148479+08:00","level":"INFO","msg":"sender: started","stream_id":"9puzigbg"}
+{"time":"2026-01-21T12:19:19.791138771+08:00","level":"INFO","msg":"handler: started","stream_id":{"value":"9puzigbg"}}
+{"time":"2026-01-21T12:19:19.791131709+08:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"9puzigbg"}}
+{"time":"2026-01-21T12:19:20.473667126+08:00","level":"INFO","msg":"Starting system monitor"}
+{"time":"2026-01-21T12:20:31.202511022+08:00","level":"INFO","msg":"stream: closing","id":"9puzigbg"}
+{"time":"2026-01-21T12:20:31.202606065+08:00","level":"INFO","msg":"Stopping system monitor"}
+{"time":"2026-01-21T12:20:31.262777289+08:00","level":"INFO","msg":"Stopped system monitor"}
diff --git a/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/logs/debug.log b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..7a1b1b564682a68bebe83c612ed398ce349a0390
--- /dev/null
+++ b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/logs/debug.log
@@ -0,0 +1,27 @@
+2026-01-21 12:19:19,672 INFO    MainThread:2070718 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2026-01-21 12:19:19,672 INFO    MainThread:2070718 [wandb_setup.py:_flush():79] Configure stats pid to 2070718
+2026-01-21 12:19:19,672 INFO    MainThread:2070718 [wandb_setup.py:_flush():79] Loading settings from /home/u1131674/.config/wandb/settings
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_setup.py:_flush():79] Loading settings from /work/u1131674/LLM-BC/wandb/settings
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/work/u1131674/LLM-BC/train.py', 'program': '/work/u1131674/LLM-BC/./train.py'}
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_setup.py:_flush():79] Applying login settings: {}
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_init.py:_log_setup():533] Logging user logs to /work/u1131674/LLM-BC/data/outputs/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/logs/debug.log
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_init.py:_log_setup():534] Logging internal logs to /work/u1131674/LLM-BC/data/outputs/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/logs/debug-internal.log
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_init.py:init():619] calling init triggers
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llmbc_lowdim', '_target_': 'llmbc.workspace.train_llmbc_lowdim_workspace.TrainLLMBCLowdimWorkspace', 'obs_dim': 9, 'action_dim': 4, 'task_name': 'box-close-v2', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llmbc_lowdim_policy.LLMBCLowdimPolicy', 'model': {'_target_': 'llmbc.model.policy.policy_mlp.PolicyMLP', 'input_size': 9, 'hidden_size': [256, 256], 'output_size': 4, 'activation': 'relu', 'n_obs_steps': 1, 'n_action_steps': 1}, 'obs_dim': 9, 'action_dim': 4, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'box-close-v2', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2026.01.21/12.18.18_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 9, 'action_dim': 4, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_bc_weight': 1.0, 'loss_llm_weight': 0.01, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'normalize_llm_loss': True}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.01, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 42, 'debug': False, 'resume': False, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 10, 'num_epochs': 1001, 'gradient_accumulate_every': 8, 'grad_norm_clip': 0.5, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'sample_max_batch': 128, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'box-close-v2-training', 'resume': True, 'mode': 'online', 'name': '2026.01.21-12.18.18_train_llmbc_lowdim_box-close-v2', 'tags': ['train_llmbc_lowdim', 'box-close-v2', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2', 'wandb_name_base': '2026.01.21-12.18.18_train_llmbc_lowdim_box-close-v2'}, 'task': {'name': 'box-close-v2', 'obs_dim': 9, 'action_dim': 4, 'env_runner': {'_target_': 'llmbc.env_runner.metaworld_lowdim_runner.MetaworldLowdimRunner', 'env_name': 'llf-metaworld-box-close-v2', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 30, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.9}, 'dataset': {'_target_': 'llmbc.dataset.metaworld_lowdim_dataset.MetaworldLowdimDataset', 'data_path': 'datasets/box-close-v2.pt', 'data_path2': 'datasets/box-close-v2.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.1, 'dummy_normalizer': True}, 'instructor': {'_target_': 'llmbc.translator.instructor.metaworld_instructor.box_close_v2_instructor.BoxCloseV2Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2026.01.21/12.18.18_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_init.py:init():669] starting backend
+2026-01-21 12:19:19,673 INFO    MainThread:2070718 [wandb_init.py:init():673] sending inform_init request
+2026-01-21 12:19:19,674 INFO    MainThread:2070718 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2026-01-21 12:19:19,675 INFO    MainThread:2070718 [wandb_init.py:init():686] backend started and connected
+2026-01-21 12:19:19,684 INFO    MainThread:2070718 [wandb_init.py:init():781] updated telemetry
+2026-01-21 12:19:19,759 INFO    MainThread:2070718 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2026-01-21 12:19:20,469 INFO    MainThread:2070718 [wandb_init.py:init():867] starting run threads in backend
+2026-01-21 12:19:20,990 INFO    MainThread:2070718 [wandb_run.py:_console_start():2451] atexit reg
+2026-01-21 12:19:20,991 INFO    MainThread:2070718 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2026-01-21 12:19:20,991 INFO    MainThread:2070718 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2026-01-21 12:19:20,991 INFO    MainThread:2070718 [wandb_run.py:_redirect():2389] Redirects installed.
+2026-01-21 12:19:20,994 INFO    MainThread:2070718 [wandb_init.py:init():911] run started, returning control to user process
+2026-01-21 12:19:20,994 INFO    MainThread:2070718 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/work/u1131674/LLM-BC/data/outputs/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2'}
+2026-01-21 12:20:31,202 WARNING MsgRouterThr:2070718 [router.py:message_loop():75] message_loop has been closed
diff --git a/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/run-9puzigbg.wandb b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/run-9puzigbg.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..a60e850bca54866b9d26440ec455f39eaf27baa2
--- /dev/null
+++ b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_121919-9puzigbg/run-9puzigbg.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:97675973ce8e04390938123162984a49c1513ce052c76ac14c48280b33003e11
+size 229376
diff --git a/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/wandb-resume.json b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/wandb-resume.json
new file mode 100644
index 0000000000000000000000000000000000000000..de345f8b63e1a3dfba54b6b7f33017f2dfd3590e
--- /dev/null
+++ b/2026.01.21/12.18.18_train_llmbc_lowdim_box-close-v2/wandb/wandb-resume.json
@@ -0,0 +1 @@
+{"run_id": "9puzigbg"}
\ No newline at end of file
diff --git a/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..298b1e4782dd5ce3de258d99c159c0b0a2c76e92
--- /dev/null
+++ b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml
@@ -0,0 +1,163 @@
+name: train_llmbc_lowdim
+_target_: llmbc.workspace.train_llmbc_lowdim_workspace.TrainLLMBCLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llmbc_lowdim_policy.LLMBCLowdimPolicy
+  model:
+    _target_: llmbc.model.policy.policy_mlp.PolicyMLP
+    input_size: ${eval:'${n_obs_steps}*${obs_dim}'}
+    hidden_size:
+    - 256
+    - 256
+    output_size: ${eval:'${n_action_steps}*${action_dim}'}
+    activation: relu
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${task.obs_dim}
+      action_dim: ${task.action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${n_action_steps}
+  loss_bc_weight: 1.0
+  loss_llm_weight: 0.001
+  horizon: ${horizon}
+  n_obs_steps: ${n_obs_steps}
+  n_action_steps: ${n_action_steps}
+  normalize_llm_loss: true
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.01
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 42
+  debug: false
+  resume: false
+  lr_scheduler: cosine
+  lr_warmup_steps: 10
+  num_epochs: 1001
+  gradient_accumulate_every: 8
+  grad_norm_clip: 0.5
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  sample_max_batch: 128
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: box-close-v2
+  obs_dim: 9
+  action_dim: 4
+  env_runner:
+    _target_: llmbc.env_runner.metaworld_lowdim_runner.MetaworldLowdimRunner
+    env_name: llf-metaworld-box-close-v2
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 30
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    - fp
+    visual: false
+    discount: 0.9
+  dataset:
+    _target_: llmbc.dataset.metaworld_lowdim_dataset.MetaworldLowdimDataset
+    data_path: datasets/box-close-v2.pt
+    data_path2: datasets/box-close-v2.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    obs_eef_target: true
+    use_manual_normalizer: false
+    val_ratio: 0.1
+    dummy_normalizer: true
+  instructor:
+    _target_: llmbc.translator.instructor.metaworld_instructor.box_close_v2_instructor.BoxCloseV2Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..ce3f898591ead1e5332b6237f60dad9e308fa5aa
--- /dev/null
+++ b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml
@@ -0,0 +1,156 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - policy.loss_llm_weight=1.0e-3
+    - training.seed=42
+  job:
+    name: train
+    chdir: null
+    override_dirname: policy.loss_llm_weight=1.0e-3,training.seed=42
+    id: ???
+    num: ???
+    config_name: llmbc_box-close-v2.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /work/u1131674/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /work/u1131674/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /work/u1131674/LLM-BC/data/outputs/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..c3874e1763723794be9fad42d5bb97ae9a29fb0e
--- /dev/null
+++ b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml
@@ -0,0 +1,2 @@
+- policy.loss_llm_weight=1.0e-3
+- training.seed=42
diff --git a/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/checkpoints/epoch=0000-test_success_rate=0.000.ckpt b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/checkpoints/epoch=0000-test_success_rate=0.000.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..f344e62187ca431f69d028e518ac822bed122a9d
--- /dev/null
+++ b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/checkpoints/epoch=0000-test_success_rate=0.000.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:841ce226dfd93b12ebfd588842ca350a66ecadb7d9fc334812aa3b8de27543ab
+size 864520
diff --git a/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/checkpoints/latest.ckpt b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/checkpoints/latest.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..f344e62187ca431f69d028e518ac822bed122a9d
--- /dev/null
+++ b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/checkpoints/latest.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:841ce226dfd93b12ebfd588842ca350a66ecadb7d9fc334812aa3b8de27543ab
+size 864520
diff --git a/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/logs.json.txt b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/logs.json.txt
new file mode 100644
index 0000000000000000000000000000000000000000..c189244eab7f63b27e6442680e8c74986c8d172d
--- /dev/null
+++ b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/logs.json.txt
@@ -0,0 +1,418 @@
+{"train_loss": 0.252529501914978, "train_loss_bc": 0.25195011496543884, "train_loss_llm": 0.5793765187263489, "grad_norm": 0.12839388847351074, "global_step": 0, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.273204505443573, "train_loss_bc": 0.27264082431793213, "train_loss_llm": 0.563692033290863, "grad_norm": 0.13485388457775116, "global_step": 1, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.2867761254310608, "train_loss_bc": 0.28621771931648254, "train_loss_llm": 0.5584008693695068, "grad_norm": 0.274769127368927, "global_step": 2, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.2871931791305542, "train_loss_bc": 0.2865779399871826, "train_loss_llm": 0.6152305006980896, "grad_norm": 0.41221097111701965, "global_step": 3, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.28025686740875244, "train_loss_bc": 0.2797144949436188, "train_loss_llm": 0.5423757433891296, "grad_norm": 0.5496014356613159, "global_step": 4, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.3149482309818268, "train_loss_bc": 0.31439733505249023, "train_loss_llm": 0.5508872866630554, "grad_norm": 0.6956393718719482, "global_step": 5, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.27254703640937805, "train_loss_bc": 0.27196407318115234, "train_loss_llm": 0.5829575061798096, "grad_norm": 0.8312950730323792, "global_step": 6, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.22602498531341553, "train_loss_bc": 0.22543349862098694, "train_loss_llm": 0.5914822816848755, "grad_norm": 0.9541406631469727, "global_step": 7, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.20342595875263214, "train_loss_bc": 0.2028963267803192, "train_loss_llm": 0.5296257734298706, "grad_norm": 1.0699303150177002, "global_step": 8, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.19929638504981995, "train_loss_bc": 0.19871878623962402, "train_loss_llm": 0.5776059627532959, "grad_norm": 0.11595484614372253, "global_step": 9, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.21191416680812836, "train_loss_bc": 0.21130315959453583, "train_loss_llm": 0.6110129952430725, "grad_norm": 0.23422954976558685, "global_step": 10, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.2068999856710434, "train_loss_bc": 0.2063978612422943, "train_loss_llm": 0.5021252632141113, "grad_norm": 0.3522001802921295, "global_step": 11, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.257265567779541, "train_loss_bc": 0.25662338733673096, "train_loss_llm": 0.6421942710876465, "grad_norm": 0.483461856842041, "global_step": 12, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.23878663778305054, "train_loss_bc": 0.2381792515516281, "train_loss_llm": 0.6073929071426392, "grad_norm": 0.6102063059806824, "global_step": 13, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.2712763547897339, "train_loss_bc": 0.27066537737846375, "train_loss_llm": 0.6109854578971863, "grad_norm": 0.7479075789451599, "global_step": 14, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.24330928921699524, "train_loss_bc": 0.2427230179309845, "train_loss_llm": 0.586268424987793, "grad_norm": 0.8762980699539185, "global_step": 15, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.20316186547279358, "train_loss_bc": 0.20266824960708618, "train_loss_llm": 0.4936148524284363, "grad_norm": 0.992440402507782, "global_step": 16, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.1635446846485138, "train_loss_bc": 0.162959486246109, "train_loss_llm": 0.5851912498474121, "grad_norm": 0.11341577023267746, "global_step": 17, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.1420236974954605, "train_loss_bc": 0.14150172472000122, "train_loss_llm": 0.5219756364822388, "grad_norm": 0.2166670560836792, "global_step": 18, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.08970867097377777, "train_loss_bc": 0.08923432230949402, "train_loss_llm": 0.4743492901325226, "grad_norm": 0.2942521870136261, "global_step": 19, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.1407971978187561, "train_loss_bc": 0.14016547799110413, "train_loss_llm": 0.631725013256073, "grad_norm": 0.3959764838218689, "global_step": 20, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.12558668851852417, "train_loss_bc": 0.12498115748167038, "train_loss_llm": 0.6055365800857544, "grad_norm": 0.4912969172000885, "global_step": 21, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.15840043127536774, "train_loss_bc": 0.15789246559143066, "train_loss_llm": 0.5079687833786011, "grad_norm": 0.6031914949417114, "global_step": 22, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.15493251383304596, "train_loss_bc": 0.15430215001106262, "train_loss_llm": 0.6303583383560181, "grad_norm": 0.712800145149231, "global_step": 23, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.09710954874753952, "train_loss_bc": 0.09661616384983063, "train_loss_llm": 0.4933878481388092, "grad_norm": 0.7942712306976318, "global_step": 24, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.04198349267244339, "train_loss_bc": 0.04147119075059891, "train_loss_llm": 0.5123016834259033, "grad_norm": 0.049896661192178726, "global_step": 25, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.04926488921046257, "train_loss_bc": 0.04879248887300491, "train_loss_llm": 0.4724003076553345, "grad_norm": 0.10693306475877762, "global_step": 26, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.03119494765996933, "train_loss_bc": 0.03079175390303135, "train_loss_llm": 0.40319401025772095, "grad_norm": 0.130178764462471, "global_step": 27, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.045984115451574326, "train_loss_bc": 0.04547495022416115, "train_loss_llm": 0.5091666579246521, "grad_norm": 0.18151648342609406, "global_step": 28, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.036746662110090256, "train_loss_bc": 0.036322131752967834, "train_loss_llm": 0.4245292544364929, "grad_norm": 0.22341406345367432, "global_step": 29, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.06587483733892441, "train_loss_bc": 0.06540372967720032, "train_loss_llm": 0.47110506892204285, "grad_norm": 0.30597466230392456, "global_step": 30, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.05170199275016785, "train_loss_bc": 0.05132713168859482, "train_loss_llm": 0.37486234307289124, "grad_norm": 0.3634960949420929, "global_step": 31, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.05630849674344063, "train_loss_bc": 0.0558805912733078, "train_loss_llm": 0.42790722846984863, "grad_norm": 0.4307665228843689, "global_step": 32, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.0553022176027298, "train_loss_bc": 0.05469208583235741, "train_loss_llm": 0.6101305484771729, "grad_norm": 0.08577623218297958, "global_step": 33, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.04831269383430481, "train_loss_bc": 0.04779437929391861, "train_loss_llm": 0.5183138847351074, "grad_norm": 0.15602092444896698, "global_step": 34, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.061867598444223404, "train_loss_bc": 0.06128372997045517, "train_loss_llm": 0.5838690996170044, "grad_norm": 0.2528131902217865, "global_step": 35, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.05686777085065842, "train_loss_bc": 0.05627113953232765, "train_loss_llm": 0.5966323614120483, "grad_norm": 0.3395236134529114, "global_step": 36, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.03382698819041252, "train_loss_bc": 0.03323305398225784, "train_loss_llm": 0.5939337611198425, "grad_norm": 0.3958278000354767, "global_step": 37, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.06224585324525833, "train_loss_bc": 0.0616149976849556, "train_loss_llm": 0.6308567523956299, "grad_norm": 0.4894043505191803, "global_step": 38, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.04555570334196091, "train_loss_bc": 0.04494024068117142, "train_loss_llm": 0.6154611110687256, "grad_norm": 0.5536556839942932, "global_step": 39, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.03574361279606819, "train_loss_bc": 0.03507951647043228, "train_loss_llm": 0.6640970706939697, "grad_norm": 0.6100818514823914, "global_step": 40, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.146262988448143, "train_loss_bc": 0.14580723643302917, "train_loss_llm": 0.4557466208934784, "grad_norm": 0.19763296842575073, "global_step": 41, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.11445678770542145, "train_loss_bc": 0.11390470713376999, "train_loss_llm": 0.5520769357681274, "grad_norm": 0.3685164451599121, "global_step": 42, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.10677710175514221, "train_loss_bc": 0.10625766217708588, "train_loss_llm": 0.5194418430328369, "grad_norm": 0.5320614576339722, "global_step": 43, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.12251483649015427, "train_loss_bc": 0.12198641151189804, "train_loss_llm": 0.5284275412559509, "grad_norm": 0.7118619680404663, "global_step": 44, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.14140570163726807, "train_loss_bc": 0.1408904492855072, "train_loss_llm": 0.5152463316917419, "grad_norm": 0.9093842506408691, "global_step": 45, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.10901694744825363, "train_loss_bc": 0.1084449291229248, "train_loss_llm": 0.5720197558403015, "grad_norm": 1.0770854949951172, "global_step": 46, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.13558131456375122, "train_loss_bc": 0.13501602411270142, "train_loss_llm": 0.565291702747345, "grad_norm": 1.2658616304397583, "global_step": 47, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.14484672248363495, "train_loss_bc": 0.14428021013736725, "train_loss_llm": 0.5665071606636047, "grad_norm": 1.4656471014022827, "global_step": 48, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.24264752864837646, "train_loss_bc": 0.2419467568397522, "train_loss_llm": 0.7007750272750854, "grad_norm": 0.2969740033149719, "global_step": 49, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.13805940747261047, "train_loss_bc": 0.1374894082546234, "train_loss_llm": 0.5699948072433472, "grad_norm": 0.5104647874832153, "global_step": 50, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.16542810201644897, "train_loss_bc": 0.16495351493358612, "train_loss_llm": 0.47459012269973755, "grad_norm": 0.7459866404533386, "global_step": 51, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.25657016038894653, "train_loss_bc": 0.25585728883743286, "train_loss_llm": 0.7128623723983765, "grad_norm": 1.0538054704666138, "global_step": 52, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.20239487290382385, "train_loss_bc": 0.20180177688598633, "train_loss_llm": 0.5930944085121155, "grad_norm": 1.316612958908081, "global_step": 53, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.1541372388601303, "train_loss_bc": 0.15368221700191498, "train_loss_llm": 0.45501962304115295, "grad_norm": 1.5417735576629639, "global_step": 54, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.2185448706150055, "train_loss_bc": 0.2180437594652176, "train_loss_llm": 0.5011103749275208, "grad_norm": 1.8187888860702515, "global_step": 55, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.20139560103416443, "train_loss_bc": 0.20086990296840668, "train_loss_llm": 0.5256961584091187, "grad_norm": 2.08247447013855, "global_step": 56, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.20989899337291718, "train_loss_bc": 0.20911380648612976, "train_loss_llm": 0.7851892709732056, "grad_norm": 0.27354303002357483, "global_step": 57, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.19207656383514404, "train_loss_bc": 0.19136708974838257, "train_loss_llm": 0.7094740867614746, "grad_norm": 0.534111499786377, "global_step": 58, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.1742924004793167, "train_loss_bc": 0.17367114126682281, "train_loss_llm": 0.6212564706802368, "grad_norm": 0.7795819044113159, "global_step": 59, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.1624690294265747, "train_loss_bc": 0.1617729365825653, "train_loss_llm": 0.6960869431495667, "grad_norm": 1.0119670629501343, "global_step": 60, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.20042455196380615, "train_loss_bc": 0.19979658722877502, "train_loss_llm": 0.6279683113098145, "grad_norm": 1.274623990058899, "global_step": 61, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.16158545017242432, "train_loss_bc": 0.16083624958992004, "train_loss_llm": 0.7492036819458008, "grad_norm": 1.5101232528686523, "global_step": 62, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.13282041251659393, "train_loss_bc": 0.13209721446037292, "train_loss_llm": 0.723200798034668, "grad_norm": 1.7186288833618164, "global_step": 63, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.2033994346857071, "train_loss_bc": 0.2027282416820526, "train_loss_llm": 0.6711894273757935, "grad_norm": 1.9846457242965698, "global_step": 64, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.09530064463615417, "train_loss_bc": 0.09461785107851028, "train_loss_llm": 0.6827924847602844, "grad_norm": 0.1637452095746994, "global_step": 65, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.09785042703151703, "train_loss_bc": 0.09729202836751938, "train_loss_llm": 0.558398962020874, "grad_norm": 0.3286266624927521, "global_step": 66, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.09337419271469116, "train_loss_bc": 0.09270930290222168, "train_loss_llm": 0.6648919582366943, "grad_norm": 0.48786014318466187, "global_step": 67, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.17027954757213593, "train_loss_bc": 0.16956308484077454, "train_loss_llm": 0.7164597511291504, "grad_norm": 0.7218278050422668, "global_step": 68, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.08503676950931549, "train_loss_bc": 0.08446164429187775, "train_loss_llm": 0.5751272439956665, "grad_norm": 0.8772305250167847, "global_step": 69, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.10142002999782562, "train_loss_bc": 0.10081231594085693, "train_loss_llm": 0.6077142953872681, "grad_norm": 1.04507315158844, "global_step": 70, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.11661797761917114, "train_loss_bc": 0.11599370092153549, "train_loss_llm": 0.6242777109146118, "grad_norm": 1.2287834882736206, "global_step": 71, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.11624407768249512, "train_loss_bc": 0.11565285921096802, "train_loss_llm": 0.5912151336669922, "grad_norm": 1.4120811223983765, "global_step": 72, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.040211960673332214, "train_loss_bc": 0.039551250636577606, "train_loss_llm": 0.6607116460800171, "grad_norm": 0.0777788907289505, "global_step": 73, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.05076095834374428, "train_loss_bc": 0.05007569119334221, "train_loss_llm": 0.6852684617042542, "grad_norm": 0.17003870010375977, "global_step": 74, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.037128813564777374, "train_loss_bc": 0.03643818572163582, "train_loss_llm": 0.6906265020370483, "grad_norm": 0.244222030043602, "global_step": 75, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.037142593413591385, "train_loss_bc": 0.03646159917116165, "train_loss_llm": 0.6809947490692139, "grad_norm": 0.31510722637176514, "global_step": 76, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.05590587481856346, "train_loss_bc": 0.0552542544901371, "train_loss_llm": 0.6516196131706238, "grad_norm": 0.4150258004665375, "global_step": 77, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.030149903148412704, "train_loss_bc": 0.029475240036845207, "train_loss_llm": 0.6746631860733032, "grad_norm": 0.4752899408340454, "global_step": 78, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.050657838582992554, "train_loss_bc": 0.04992213845252991, "train_loss_llm": 0.7356998324394226, "grad_norm": 0.5678731799125671, "global_step": 79, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.02764507196843624, "train_loss_bc": 0.027012458071112633, "train_loss_llm": 0.6326141953468323, "grad_norm": 0.625312089920044, "global_step": 80, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.03073396533727646, "train_loss_bc": 0.03021111525595188, "train_loss_llm": 0.5228506326675415, "grad_norm": 0.053040843456983566, "global_step": 81, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.027266209945082664, "train_loss_bc": 0.026712927967309952, "train_loss_llm": 0.5532811880111694, "grad_norm": 0.09477357566356659, "global_step": 82, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.027156496420502663, "train_loss_bc": 0.026670875027775764, "train_loss_llm": 0.48562145233154297, "grad_norm": 0.13936017453670502, "global_step": 83, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.03493297100067139, "train_loss_bc": 0.03437262028455734, "train_loss_llm": 0.5603512525558472, "grad_norm": 0.20259420573711395, "global_step": 84, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.027796030044555664, "train_loss_bc": 0.027264408767223358, "train_loss_llm": 0.5316207408905029, "grad_norm": 0.23961691558361053, "global_step": 85, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.026962831616401672, "train_loss_bc": 0.026478836312890053, "train_loss_llm": 0.4839947819709778, "grad_norm": 0.278042733669281, "global_step": 86, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.022709660232067108, "train_loss_bc": 0.02220826968550682, "train_loss_llm": 0.5013896226882935, "grad_norm": 0.31111451983451843, "global_step": 87, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.03472929820418358, "train_loss_bc": 0.03418252617120743, "train_loss_llm": 0.5467737913131714, "grad_norm": 0.36670809984207153, "global_step": 88, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.06921354681253433, "train_loss_bc": 0.06863778829574585, "train_loss_llm": 0.5757583975791931, "grad_norm": 0.0987037718296051, "global_step": 89, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.0616544634103775, "train_loss_bc": 0.061051469296216965, "train_loss_llm": 0.602994441986084, "grad_norm": 0.18980276584625244, "global_step": 90, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.05179845914244652, "train_loss_bc": 0.051266275346279144, "train_loss_llm": 0.5321850180625916, "grad_norm": 0.2702069580554962, "global_step": 91, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.06521251052618027, "train_loss_bc": 0.06461584568023682, "train_loss_llm": 0.5966640710830688, "grad_norm": 0.3639739155769348, "global_step": 92, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.06196574494242668, "train_loss_bc": 0.06147213280200958, "train_loss_llm": 0.4936124384403229, "grad_norm": 0.45718127489089966, "global_step": 93, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.04629657045006752, "train_loss_bc": 0.045801080763339996, "train_loss_llm": 0.4954902231693268, "grad_norm": 0.5287754535675049, "global_step": 94, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.04616197198629379, "train_loss_bc": 0.04563061147928238, "train_loss_llm": 0.5313600301742554, "grad_norm": 0.6031498908996582, "global_step": 95, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.06340043991804123, "train_loss_bc": 0.06277582049369812, "train_loss_llm": 0.6246193647384644, "grad_norm": 0.6954230666160583, "global_step": 96, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.08191214501857758, "train_loss_bc": 0.0813114270567894, "train_loss_llm": 0.6007174253463745, "grad_norm": 0.10619106888771057, "global_step": 97, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.08071709424257278, "train_loss_bc": 0.08003760129213333, "train_loss_llm": 0.6794949769973755, "grad_norm": 0.20760591328144073, "global_step": 98, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.08332143723964691, "train_loss_bc": 0.08272609114646912, "train_loss_llm": 0.5953459739685059, "grad_norm": 0.3134561777114868, "global_step": 99, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.07155264914035797, "train_loss_bc": 0.07099221646785736, "train_loss_llm": 0.5604289770126343, "grad_norm": 0.40877580642700195, "global_step": 100, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.08975838869810104, "train_loss_bc": 0.08916652202606201, "train_loss_llm": 0.5918655395507812, "grad_norm": 0.522554337978363, "global_step": 101, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.07257966697216034, "train_loss_bc": 0.07201467454433441, "train_loss_llm": 0.5649896860122681, "grad_norm": 0.6189970970153809, "global_step": 102, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.06007641553878784, "train_loss_bc": 0.05953027680516243, "train_loss_llm": 0.546138346195221, "grad_norm": 0.702296793460846, "global_step": 103, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.04568513110280037, "train_loss_bc": 0.045178987085819244, "train_loss_llm": 0.5061453580856323, "grad_norm": 0.7713168263435364, "global_step": 104, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.062235742807388306, "train_loss_bc": 0.061548247933387756, "train_loss_llm": 0.687494158744812, "grad_norm": 0.08229470998048782, "global_step": 105, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.08357568085193634, "train_loss_bc": 0.08299360424280167, "train_loss_llm": 0.5820728540420532, "grad_norm": 0.18586039543151855, "global_step": 106, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.08088018745183945, "train_loss_bc": 0.08020119369029999, "train_loss_llm": 0.6789901256561279, "grad_norm": 0.2842538356781006, "global_step": 107, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.07067245990037918, "train_loss_bc": 0.07003812491893768, "train_loss_llm": 0.6343338489532471, "grad_norm": 0.3756967782974243, "global_step": 108, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.062134191393852234, "train_loss_bc": 0.06162497028708458, "train_loss_llm": 0.50922030210495, "grad_norm": 0.45985621213912964, "global_step": 109, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.05643927678465843, "train_loss_bc": 0.05575673654675484, "train_loss_llm": 0.6825414896011353, "grad_norm": 0.535986065864563, "global_step": 110, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.06275462359189987, "train_loss_bc": 0.06217849254608154, "train_loss_llm": 0.5761322975158691, "grad_norm": 0.6212720274925232, "global_step": 111, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.0717947706580162, "train_loss_bc": 0.07112696766853333, "train_loss_llm": 0.6678000688552856, "grad_norm": 0.712874174118042, "global_step": 112, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.07107824087142944, "train_loss_bc": 0.07066100835800171, "train_loss_llm": 0.4172302484512329, "grad_norm": 0.09572537988424301, "global_step": 113, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.0622958242893219, "train_loss_bc": 0.0617825910449028, "train_loss_llm": 0.5132333040237427, "grad_norm": 0.18129226565361023, "global_step": 114, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.05546606332063675, "train_loss_bc": 0.054820477962493896, "train_loss_llm": 0.6455863118171692, "grad_norm": 0.2585110068321228, "global_step": 115, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.052835989743471146, "train_loss_bc": 0.052223652601242065, "train_loss_llm": 0.612338662147522, "grad_norm": 0.3340230882167816, "global_step": 116, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.07355044782161713, "train_loss_bc": 0.0729360580444336, "train_loss_llm": 0.614387035369873, "grad_norm": 0.43235117197036743, "global_step": 117, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.058171968907117844, "train_loss_bc": 0.057668983936309814, "train_loss_llm": 0.5029836893081665, "grad_norm": 0.5117653608322144, "global_step": 118, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.06179669499397278, "train_loss_bc": 0.06129191815853119, "train_loss_llm": 0.5047756433486938, "grad_norm": 0.5967010855674744, "global_step": 119, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.03286455199122429, "train_loss_bc": 0.03232846036553383, "train_loss_llm": 0.536090612411499, "grad_norm": 0.6471052169799805, "global_step": 120, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.03573526442050934, "train_loss_bc": 0.03532949090003967, "train_loss_llm": 0.40577366948127747, "grad_norm": 0.05735393241047859, "global_step": 121, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.038237735629081726, "train_loss_bc": 0.0377943217754364, "train_loss_llm": 0.44341397285461426, "grad_norm": 0.11955223232507706, "global_step": 122, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.05409952253103256, "train_loss_bc": 0.05373173952102661, "train_loss_llm": 0.3677833676338196, "grad_norm": 0.20442572236061096, "global_step": 123, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.04305477812886238, "train_loss_bc": 0.0426463782787323, "train_loss_llm": 0.4084013104438782, "grad_norm": 0.2714554965496063, "global_step": 124, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.035634320229291916, "train_loss_bc": 0.03516857698559761, "train_loss_llm": 0.4657438099384308, "grad_norm": 0.3238549530506134, "global_step": 125, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.05339725315570831, "train_loss_bc": 0.05303904414176941, "train_loss_llm": 0.35820940136909485, "grad_norm": 0.4088974893093109, "global_step": 126, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.04185650870203972, "train_loss_bc": 0.04144421964883804, "train_loss_llm": 0.4122905433177948, "grad_norm": 0.47525259852409363, "global_step": 127, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.042993541806936264, "train_loss_bc": 0.042601581662893295, "train_loss_llm": 0.3919590413570404, "grad_norm": 0.5411036014556885, "global_step": 128, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.02562362141907215, "train_loss_bc": 0.024971390143036842, "train_loss_llm": 0.6522307395935059, "grad_norm": 0.041133757680654526, "global_step": 129, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.02191310189664364, "train_loss_bc": 0.02129165455698967, "train_loss_llm": 0.6214474439620972, "grad_norm": 0.07116004079580307, "global_step": 130, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.03156816214323044, "train_loss_bc": 0.0309942327439785, "train_loss_llm": 0.5739300847053528, "grad_norm": 0.12592613697052002, "global_step": 131, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.02577713131904602, "train_loss_bc": 0.025125574320554733, "train_loss_llm": 0.6515576839447021, "grad_norm": 0.16578812897205353, "global_step": 132, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.02320152334868908, "train_loss_bc": 0.02264384739100933, "train_loss_llm": 0.5576763153076172, "grad_norm": 0.19451332092285156, "global_step": 133, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.026553723961114883, "train_loss_bc": 0.02588409185409546, "train_loss_llm": 0.6696317195892334, "grad_norm": 0.23911207914352417, "global_step": 134, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.02071528509259224, "train_loss_bc": 0.02012854814529419, "train_loss_llm": 0.5867360830307007, "grad_norm": 0.27343958616256714, "global_step": 135, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.0177980437874794, "train_loss_bc": 0.01714349165558815, "train_loss_llm": 0.6545513272285461, "grad_norm": 0.2921649217605591, "global_step": 136, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.016527190804481506, "train_loss_bc": 0.015900835394859314, "train_loss_llm": 0.6263555288314819, "grad_norm": 0.027912678197026253, "global_step": 137, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.016124101355671883, "train_loss_bc": 0.015586758963763714, "train_loss_llm": 0.5373432636260986, "grad_norm": 0.058148931711912155, "global_step": 138, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.02101842127740383, "train_loss_bc": 0.020332563668489456, "train_loss_llm": 0.6858576536178589, "grad_norm": 0.07774510979652405, "global_step": 139, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.019856909289956093, "train_loss_bc": 0.019175313413143158, "train_loss_llm": 0.6815959215164185, "grad_norm": 0.1038837879896164, "global_step": 140, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.02635011076927185, "train_loss_bc": 0.02552071586251259, "train_loss_llm": 0.8293948769569397, "grad_norm": 0.13838204741477966, "global_step": 141, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.017442570999264717, "train_loss_bc": 0.016876015812158585, "train_loss_llm": 0.5665552616119385, "grad_norm": 0.16495107114315033, "global_step": 142, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.019354552030563354, "train_loss_bc": 0.018637431785464287, "train_loss_llm": 0.7171201109886169, "grad_norm": 0.19188618659973145, "global_step": 143, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.02011699415743351, "train_loss_bc": 0.01947595179080963, "train_loss_llm": 0.6410424709320068, "grad_norm": 0.21645328402519226, "global_step": 144, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.02425413206219673, "train_loss_bc": 0.023770108819007874, "train_loss_llm": 0.4840241074562073, "grad_norm": 0.0436902791261673, "global_step": 145, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.022116929292678833, "train_loss_bc": 0.021655619144439697, "train_loss_llm": 0.4613092541694641, "grad_norm": 0.08582352846860886, "global_step": 146, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.021659119054675102, "train_loss_bc": 0.021171528846025467, "train_loss_llm": 0.48758962750434875, "grad_norm": 0.126007542014122, "global_step": 147, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.03805282711982727, "train_loss_bc": 0.03744645416736603, "train_loss_llm": 0.6063730716705322, "grad_norm": 0.19119882583618164, "global_step": 148, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.01933918334543705, "train_loss_bc": 0.018880464136600494, "train_loss_llm": 0.45871883630752563, "grad_norm": 0.2215609848499298, "global_step": 149, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.020558631047606468, "train_loss_bc": 0.019996277987957, "train_loss_llm": 0.5623538494110107, "grad_norm": 0.2572121322154999, "global_step": 150, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.022163955494761467, "train_loss_bc": 0.021520184352993965, "train_loss_llm": 0.6437717080116272, "grad_norm": 0.29958251118659973, "global_step": 151, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.026239177212119102, "train_loss_bc": 0.025800224393606186, "train_loss_llm": 0.4389524757862091, "grad_norm": 0.34274646639823914, "global_step": 152, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.02925034798681736, "train_loss_bc": 0.028717506676912308, "train_loss_llm": 0.5328419804573059, "grad_norm": 0.05676320195198059, "global_step": 153, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.037463825196027756, "train_loss_bc": 0.03690113127231598, "train_loss_llm": 0.5626922845840454, "grad_norm": 0.12929601967334747, "global_step": 154, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.018557682633399963, "train_loss_bc": 0.018073368817567825, "train_loss_llm": 0.4843147099018097, "grad_norm": 0.17127014696598053, "global_step": 155, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.024363229051232338, "train_loss_bc": 0.02386392466723919, "train_loss_llm": 0.4993036687374115, "grad_norm": 0.2232280820608139, "global_step": 156, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.030357468873262405, "train_loss_bc": 0.029831916093826294, "train_loss_llm": 0.5255520939826965, "grad_norm": 0.2857641279697418, "global_step": 157, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.038563068956136703, "train_loss_bc": 0.03807063773274422, "train_loss_llm": 0.4924296736717224, "grad_norm": 0.3589693307876587, "global_step": 158, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.038679443299770355, "train_loss_bc": 0.03814232721924782, "train_loss_llm": 0.5371164083480835, "grad_norm": 0.42973586916923523, "global_step": 159, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.03393377736210823, "train_loss_bc": 0.0334688201546669, "train_loss_llm": 0.4649561643600464, "grad_norm": 0.49458184838294983, "global_step": 160, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.03411827236413956, "train_loss_bc": 0.033583398908376694, "train_loss_llm": 0.5348742008209229, "grad_norm": 0.06490988284349442, "global_step": 161, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.02351403422653675, "train_loss_bc": 0.02295222505927086, "train_loss_llm": 0.5618085861206055, "grad_norm": 0.11563616991043091, "global_step": 162, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.028045671060681343, "train_loss_bc": 0.027559760957956314, "train_loss_llm": 0.4859097898006439, "grad_norm": 0.17181871831417084, "global_step": 163, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.012934507802128792, "train_loss_bc": 0.012457642704248428, "train_loss_llm": 0.4768647849559784, "grad_norm": 0.20869013667106628, "global_step": 164, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.02624637447297573, "train_loss_bc": 0.02573414519429207, "train_loss_llm": 0.5122296214103699, "grad_norm": 0.2638067603111267, "global_step": 165, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.04066107049584389, "train_loss_bc": 0.04009600728750229, "train_loss_llm": 0.5650624632835388, "grad_norm": 0.33961179852485657, "global_step": 166, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.018790556117892265, "train_loss_bc": 0.018201837316155434, "train_loss_llm": 0.5887188911437988, "grad_norm": 0.38523611426353455, "global_step": 167, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.024333346635103226, "train_loss_bc": 0.023783767595887184, "train_loss_llm": 0.5495793223381042, "grad_norm": 0.4378797113895416, "global_step": 168, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.02820535935461521, "train_loss_bc": 0.027705006301403046, "train_loss_llm": 0.5003523826599121, "grad_norm": 0.053658343851566315, "global_step": 169, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.025200804695487022, "train_loss_bc": 0.02471126988530159, "train_loss_llm": 0.4895356297492981, "grad_norm": 0.10377084463834763, "global_step": 170, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.01955123245716095, "train_loss_bc": 0.019059764221310616, "train_loss_llm": 0.4914677143096924, "grad_norm": 0.14640706777572632, "global_step": 171, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.02138841524720192, "train_loss_bc": 0.02090127021074295, "train_loss_llm": 0.48714545369148254, "grad_norm": 0.1854257434606552, "global_step": 172, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.024181261658668518, "train_loss_bc": 0.023732315748929977, "train_loss_llm": 0.44894570112228394, "grad_norm": 0.23339462280273438, "global_step": 173, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.023717273026704788, "train_loss_bc": 0.02322128415107727, "train_loss_llm": 0.4959881603717804, "grad_norm": 0.2798902988433838, "global_step": 174, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.03485918045043945, "train_loss_bc": 0.034368738532066345, "train_loss_llm": 0.49044036865234375, "grad_norm": 0.343951553106308, "global_step": 175, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.02320096641778946, "train_loss_bc": 0.022748133167624474, "train_loss_llm": 0.4528330862522125, "grad_norm": 0.38900986313819885, "global_step": 176, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.023330306634306908, "train_loss_bc": 0.022773388773202896, "train_loss_llm": 0.5569183826446533, "grad_norm": 0.0416216216981411, "global_step": 177, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.017154095694422722, "train_loss_bc": 0.01675502397119999, "train_loss_llm": 0.3990713059902191, "grad_norm": 0.06875938922166824, "global_step": 178, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.021150220185518265, "train_loss_bc": 0.02067718282341957, "train_loss_llm": 0.4730375111103058, "grad_norm": 0.10553700476884842, "global_step": 179, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.016837185248732567, "train_loss_bc": 0.016467537730932236, "train_loss_llm": 0.36964699625968933, "grad_norm": 0.13219793140888214, "global_step": 180, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.009770027361810207, "train_loss_bc": 0.009397734887897968, "train_loss_llm": 0.3722921311855316, "grad_norm": 0.15051698684692383, "global_step": 181, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.02333925850689411, "train_loss_bc": 0.02287432923913002, "train_loss_llm": 0.46492841839790344, "grad_norm": 0.18662676215171814, "global_step": 182, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.013727608136832714, "train_loss_bc": 0.01333148404955864, "train_loss_llm": 0.39612439274787903, "grad_norm": 0.21264775097370148, "global_step": 183, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.01233526412397623, "train_loss_bc": 0.011927351355552673, "train_loss_llm": 0.4079124927520752, "grad_norm": 0.23667089641094208, "global_step": 184, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.014251401647925377, "train_loss_bc": 0.013858886435627937, "train_loss_llm": 0.3925148844718933, "grad_norm": 0.02162291295826435, "global_step": 185, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.02096753567457199, "train_loss_bc": 0.020425261929631233, "train_loss_llm": 0.542274534702301, "grad_norm": 0.05543696507811546, "global_step": 186, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.021045425906777382, "train_loss_bc": 0.02053808979690075, "train_loss_llm": 0.5073364973068237, "grad_norm": 0.08720546215772629, "global_step": 187, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.020341763272881508, "train_loss_bc": 0.019736729562282562, "train_loss_llm": 0.6050328016281128, "grad_norm": 0.11292923241853714, "global_step": 188, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.011690325103700161, "train_loss_bc": 0.011292900890111923, "train_loss_llm": 0.39742419123649597, "grad_norm": 0.13396863639354706, "global_step": 189, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.02014937624335289, "train_loss_bc": 0.019594522193074226, "train_loss_llm": 0.554853618144989, "grad_norm": 0.16246306896209717, "global_step": 190, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.014351895079016685, "train_loss_bc": 0.01393540296703577, "train_loss_llm": 0.41649240255355835, "grad_norm": 0.18816952407360077, "global_step": 191, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.015411981381475925, "train_loss_bc": 0.014920342713594437, "train_loss_llm": 0.4916388988494873, "grad_norm": 0.2118474692106247, "global_step": 192, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.018817156553268433, "train_loss_bc": 0.018374208360910416, "train_loss_llm": 0.4429486393928528, "grad_norm": 0.031203927472233772, "global_step": 193, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.015957778319716454, "train_loss_bc": 0.015566591173410416, "train_loss_llm": 0.39118722081184387, "grad_norm": 0.06421653926372528, "global_step": 194, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.019087474793195724, "train_loss_bc": 0.018518388271331787, "train_loss_llm": 0.5690857172012329, "grad_norm": 0.0811726450920105, "global_step": 195, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.015710245817899704, "train_loss_bc": 0.01526118814945221, "train_loss_llm": 0.44905757904052734, "grad_norm": 0.10153987258672714, "global_step": 196, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.019453734159469604, "train_loss_bc": 0.018925407901406288, "train_loss_llm": 0.5283269882202148, "grad_norm": 0.1219358816742897, "global_step": 197, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.01505982130765915, "train_loss_bc": 0.014631738886237144, "train_loss_llm": 0.4280821681022644, "grad_norm": 0.14476309716701508, "global_step": 198, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.013033466413617134, "train_loss_bc": 0.012675212696194649, "train_loss_llm": 0.3582540452480316, "grad_norm": 0.1675001084804535, "global_step": 199, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.01897766813635826, "train_loss_bc": 0.018507644534111023, "train_loss_llm": 0.4700234532356262, "grad_norm": 0.1958317756652832, "global_step": 200, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.021655641496181488, "train_loss_bc": 0.021151017397642136, "train_loss_llm": 0.5046237111091614, "grad_norm": 0.03384440392255783, "global_step": 201, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.019754817709326744, "train_loss_bc": 0.019261155277490616, "train_loss_llm": 0.49366283416748047, "grad_norm": 0.06363573670387268, "global_step": 202, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.0197446309030056, "train_loss_bc": 0.019323352724313736, "train_loss_llm": 0.4212789237499237, "grad_norm": 0.09140758961439133, "global_step": 203, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.02213365212082863, "train_loss_bc": 0.02167753502726555, "train_loss_llm": 0.4561164677143097, "grad_norm": 0.12779031693935394, "global_step": 204, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.018727730959653854, "train_loss_bc": 0.018266774713993073, "train_loss_llm": 0.46095675230026245, "grad_norm": 0.15023837983608246, "global_step": 205, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.021134980022907257, "train_loss_bc": 0.02065064013004303, "train_loss_llm": 0.48433929681777954, "grad_norm": 0.18333274126052856, "global_step": 206, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.018410563468933105, "train_loss_bc": 0.017892083153128624, "train_loss_llm": 0.5184803605079651, "grad_norm": 0.20620277523994446, "global_step": 207, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.01952839083969593, "train_loss_bc": 0.01910785771906376, "train_loss_llm": 0.42053380608558655, "grad_norm": 0.23822638392448425, "global_step": 208, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.020005524158477783, "train_loss_bc": 0.01958916336297989, "train_loss_llm": 0.41636162996292114, "grad_norm": 0.022418994456529617, "global_step": 209, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.022034049034118652, "train_loss_bc": 0.02159287966787815, "train_loss_llm": 0.4411696493625641, "grad_norm": 0.058893270790576935, "global_step": 210, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.018601490184664726, "train_loss_bc": 0.018017925322055817, "train_loss_llm": 0.583564043045044, "grad_norm": 0.07501673698425293, "global_step": 211, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.021930024027824402, "train_loss_bc": 0.021384473890066147, "train_loss_llm": 0.5455496311187744, "grad_norm": 0.09862517565488815, "global_step": 212, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.020846663042902946, "train_loss_bc": 0.020350880920886993, "train_loss_llm": 0.49578237533569336, "grad_norm": 0.1402716189622879, "global_step": 213, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.01877172477543354, "train_loss_bc": 0.01824098639190197, "train_loss_llm": 0.5307385921478271, "grad_norm": 0.16469259560108185, "global_step": 214, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.020292270928621292, "train_loss_bc": 0.019869061186909676, "train_loss_llm": 0.42321062088012695, "grad_norm": 0.19249005615711212, "global_step": 215, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.019689541310071945, "train_loss_bc": 0.019232220947742462, "train_loss_llm": 0.4573211669921875, "grad_norm": 0.21812190115451813, "global_step": 216, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.01748274266719818, "train_loss_bc": 0.016972113400697708, "train_loss_llm": 0.5106291174888611, "grad_norm": 0.01980498433113098, "global_step": 217, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.02484678477048874, "train_loss_bc": 0.024319060146808624, "train_loss_llm": 0.5277247428894043, "grad_norm": 0.0617092065513134, "global_step": 218, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.019288551062345505, "train_loss_bc": 0.01883828639984131, "train_loss_llm": 0.4502650499343872, "grad_norm": 0.08189266920089722, "global_step": 219, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.01973573863506317, "train_loss_bc": 0.019199654459953308, "train_loss_llm": 0.5360836982727051, "grad_norm": 0.09861791878938675, "global_step": 220, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.018722541630268097, "train_loss_bc": 0.018269415944814682, "train_loss_llm": 0.45312485098838806, "grad_norm": 0.12747113406658173, "global_step": 221, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.017685379832983017, "train_loss_bc": 0.0172601118683815, "train_loss_llm": 0.4252672493457794, "grad_norm": 0.15524466335773468, "global_step": 222, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.021818850189447403, "train_loss_bc": 0.02134229615330696, "train_loss_llm": 0.47655367851257324, "grad_norm": 0.1838337481021881, "global_step": 223, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.019331879913806915, "train_loss_bc": 0.01881510019302368, "train_loss_llm": 0.5167800188064575, "grad_norm": 0.2143346071243286, "global_step": 224, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.017838943749666214, "train_loss_bc": 0.017424583435058594, "train_loss_llm": 0.4143611192703247, "grad_norm": 0.023944241926074028, "global_step": 225, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.01796240359544754, "train_loss_bc": 0.017589787021279335, "train_loss_llm": 0.37261566519737244, "grad_norm": 0.03415573388338089, "global_step": 226, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.01584581844508648, "train_loss_bc": 0.015357905998826027, "train_loss_llm": 0.4879117012023926, "grad_norm": 0.05189693719148636, "global_step": 227, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.01800801046192646, "train_loss_bc": 0.01758820191025734, "train_loss_llm": 0.4198092520236969, "grad_norm": 0.07924457639455795, "global_step": 228, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.018989915028214455, "train_loss_bc": 0.01854291930794716, "train_loss_llm": 0.4469965100288391, "grad_norm": 0.11897021532058716, "global_step": 229, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.02125917375087738, "train_loss_bc": 0.020760733634233475, "train_loss_llm": 0.49844038486480713, "grad_norm": 0.1377515345811844, "global_step": 230, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.019712205976247787, "train_loss_bc": 0.01920940726995468, "train_loss_llm": 0.5027981996536255, "grad_norm": 0.16281495988368988, "global_step": 231, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.020320260897278786, "train_loss_bc": 0.019815631210803986, "train_loss_llm": 0.5046302080154419, "grad_norm": 0.1876341551542282, "global_step": 232, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.013357514515519142, "train_loss_bc": 0.01291839312762022, "train_loss_llm": 0.43912118673324585, "grad_norm": 0.02517073042690754, "global_step": 233, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.02109229937195778, "train_loss_bc": 0.020597826689481735, "train_loss_llm": 0.49447277188301086, "grad_norm": 0.04559013620018959, "global_step": 234, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.02008131518959999, "train_loss_bc": 0.019501332193613052, "train_loss_llm": 0.579983115196228, "grad_norm": 0.07952536642551422, "global_step": 235, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.016857489943504333, "train_loss_bc": 0.016379257664084435, "train_loss_llm": 0.4782329797744751, "grad_norm": 0.10649916529655457, "global_step": 236, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.06850671758405677, "train_loss_bc": 0.014644688926637173, "train_loss_llm": 0.4756101667881012, "grad_norm": 0.13082890212535858, "global_step": 237, "epoch": 0, "lr": 0.009999988862926341, "train/cumulative_reward": 2.7083310524135573, "train/mean_score": 0.33428478816554785, "train/success_rate": 0.0, "test/cumulative_reward": 2.474044586385482, "test/mean_score": 0.3310451992587934, "test/success_rate": 0.0, "val_loss": 0.017693543806672096, "train_action_mse_error": 0.021953511983156204}
+{"train_loss": 0.017798328772187233, "train_loss_bc": 0.017359893769025803, "train_loss_llm": 0.4384341835975647, "grad_norm": 0.157542422413826, "global_step": 238, "epoch": 1, "lr": 0.009999988862926341}
+{"train_loss": 0.01802152208983898, "train_loss_bc": 0.017627805471420288, "train_loss_llm": 0.39371609687805176, "grad_norm": 0.17802225053310394, "global_step": 239, "epoch": 1, "lr": 0.009999988862926341}
+{"train_loss": 0.018425248563289642, "train_loss_bc": 0.01776362583041191, "train_loss_llm": 0.6616224050521851, "grad_norm": 0.20682503283023834, "global_step": 240, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.017822718247771263, "train_loss_bc": 0.017327211797237396, "train_loss_llm": 0.4955056309700012, "grad_norm": 0.03360544890165329, "global_step": 241, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.01679021306335926, "train_loss_bc": 0.016283852979540825, "train_loss_llm": 0.5063599348068237, "grad_norm": 0.062126513570547104, "global_step": 242, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.020830130204558372, "train_loss_bc": 0.020347915589809418, "train_loss_llm": 0.48221397399902344, "grad_norm": 0.08846676349639893, "global_step": 243, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.011690114624798298, "train_loss_bc": 0.01113096158951521, "train_loss_llm": 0.559153139591217, "grad_norm": 0.1047411635518074, "global_step": 244, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.020986376330256462, "train_loss_bc": 0.020374851301312447, "train_loss_llm": 0.6115252375602722, "grad_norm": 0.1375197023153305, "global_step": 245, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.014499716460704803, "train_loss_bc": 0.013983565382659435, "train_loss_llm": 0.516150951385498, "grad_norm": 0.15900495648384094, "global_step": 246, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.02040776051580906, "train_loss_bc": 0.01990542560815811, "train_loss_llm": 0.502334475517273, "grad_norm": 0.1920090615749359, "global_step": 247, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.008450948633253574, "train_loss_bc": 0.00804897490888834, "train_loss_llm": 0.4019736349582672, "grad_norm": 0.20613166689872742, "global_step": 248, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.01662587560713291, "train_loss_bc": 0.016171330586075783, "train_loss_llm": 0.45454519987106323, "grad_norm": 0.02374984882771969, "global_step": 249, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.015652479603886604, "train_loss_bc": 0.015175838023424149, "train_loss_llm": 0.47664228081703186, "grad_norm": 0.04423899948596954, "global_step": 250, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.015529230237007141, "train_loss_bc": 0.015086237341165543, "train_loss_llm": 0.4429924190044403, "grad_norm": 0.06532718986272812, "global_step": 251, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.018649809062480927, "train_loss_bc": 0.018053732812404633, "train_loss_llm": 0.5960763692855835, "grad_norm": 0.09744929522275925, "global_step": 252, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.014919068664312363, "train_loss_bc": 0.014484588988125324, "train_loss_llm": 0.4344799220561981, "grad_norm": 0.1184827908873558, "global_step": 253, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.012522549368441105, "train_loss_bc": 0.0121694877743721, "train_loss_llm": 0.3530616760253906, "grad_norm": 0.13075849413871765, "global_step": 254, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.017960211262106895, "train_loss_bc": 0.017518820241093636, "train_loss_llm": 0.4413911700248718, "grad_norm": 0.15736038982868195, "global_step": 255, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.016007019206881523, "train_loss_bc": 0.015464743599295616, "train_loss_llm": 0.54227614402771, "grad_norm": 0.17768608033657074, "global_step": 256, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.01158602349460125, "train_loss_bc": 0.011238181963562965, "train_loss_llm": 0.34784168004989624, "grad_norm": 0.010093354620039463, "global_step": 257, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.010712604969739914, "train_loss_bc": 0.010269438847899437, "train_loss_llm": 0.44316577911376953, "grad_norm": 0.021126240491867065, "global_step": 258, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.01096857525408268, "train_loss_bc": 0.010642854496836662, "train_loss_llm": 0.3257203996181488, "grad_norm": 0.03387540951371193, "global_step": 259, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.01653478853404522, "train_loss_bc": 0.016012927517294884, "train_loss_llm": 0.5218604207038879, "grad_norm": 0.04911898449063301, "global_step": 260, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.017165496945381165, "train_loss_bc": 0.01656423695385456, "train_loss_llm": 0.6012594699859619, "grad_norm": 0.06821974366903305, "global_step": 261, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.012002137489616871, "train_loss_bc": 0.011621439829468727, "train_loss_llm": 0.38069722056388855, "grad_norm": 0.08292040973901749, "global_step": 262, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.018928784877061844, "train_loss_bc": 0.018516037613153458, "train_loss_llm": 0.41274651885032654, "grad_norm": 0.09135116636753082, "global_step": 263, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.018131952732801437, "train_loss_bc": 0.017562976107001305, "train_loss_llm": 0.5689768195152283, "grad_norm": 0.11499010771512985, "global_step": 264, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.012489533051848412, "train_loss_bc": 0.011947352439165115, "train_loss_llm": 0.5421801805496216, "grad_norm": 0.013015178963541985, "global_step": 265, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.013243050314486027, "train_loss_bc": 0.012746745720505714, "train_loss_llm": 0.4963045120239258, "grad_norm": 0.020864736288785934, "global_step": 266, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.010356509126722813, "train_loss_bc": 0.009778052568435669, "train_loss_llm": 0.5784561634063721, "grad_norm": 0.0276536475867033, "global_step": 267, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.012164799496531487, "train_loss_bc": 0.011662531644105911, "train_loss_llm": 0.5022678375244141, "grad_norm": 0.03239491581916809, "global_step": 268, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.014096668921411037, "train_loss_bc": 0.0135754169896245, "train_loss_llm": 0.5212522745132446, "grad_norm": 0.0413699746131897, "global_step": 269, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.011443986557424068, "train_loss_bc": 0.011009275913238525, "train_loss_llm": 0.43471041321754456, "grad_norm": 0.038190145045518875, "global_step": 270, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.01239698100835085, "train_loss_bc": 0.011889282613992691, "train_loss_llm": 0.5076982975006104, "grad_norm": 0.04352530464529991, "global_step": 271, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.013387206010520458, "train_loss_bc": 0.012860596179962158, "train_loss_llm": 0.5266100168228149, "grad_norm": 0.05260344222187996, "global_step": 272, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.01481005921959877, "train_loss_bc": 0.014252791181206703, "train_loss_llm": 0.5572683215141296, "grad_norm": 0.0161435529589653, "global_step": 273, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.009104442782700062, "train_loss_bc": 0.008664367720484734, "train_loss_llm": 0.44007524847984314, "grad_norm": 0.02379443496465683, "global_step": 274, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.016264215111732483, "train_loss_bc": 0.015678897500038147, "train_loss_llm": 0.5853180885314941, "grad_norm": 0.043524160981178284, "global_step": 275, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.017824366688728333, "train_loss_bc": 0.017341842874884605, "train_loss_llm": 0.4825235903263092, "grad_norm": 0.062320295721292496, "global_step": 276, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.018680082634091377, "train_loss_bc": 0.018099233508110046, "train_loss_llm": 0.5808486342430115, "grad_norm": 0.08115622401237488, "global_step": 277, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.012962117791175842, "train_loss_bc": 0.012479234486818314, "train_loss_llm": 0.4828835129737854, "grad_norm": 0.08807636052370071, "global_step": 278, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.01446839701384306, "train_loss_bc": 0.013988605700433254, "train_loss_llm": 0.4797913432121277, "grad_norm": 0.09451211988925934, "global_step": 279, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.01429255772382021, "train_loss_bc": 0.013756824657320976, "train_loss_llm": 0.5357327461242676, "grad_norm": 0.10867451131343842, "global_step": 280, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.013955993577837944, "train_loss_bc": 0.013429549522697926, "train_loss_llm": 0.5264439582824707, "grad_norm": 0.025083180516958237, "global_step": 281, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.016641786321997643, "train_loss_bc": 0.01618514023721218, "train_loss_llm": 0.4566459357738495, "grad_norm": 0.045515093952417374, "global_step": 282, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.014012634754180908, "train_loss_bc": 0.013572480529546738, "train_loss_llm": 0.4401538670063019, "grad_norm": 0.06089504435658455, "global_step": 283, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.01873624697327614, "train_loss_bc": 0.01815981976687908, "train_loss_llm": 0.5764279365539551, "grad_norm": 0.07969119399785995, "global_step": 284, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.017088143154978752, "train_loss_bc": 0.01662488281726837, "train_loss_llm": 0.46325966715812683, "grad_norm": 0.09512478858232498, "global_step": 285, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.010966386646032333, "train_loss_bc": 0.010503709316253662, "train_loss_llm": 0.46267759799957275, "grad_norm": 0.11192868649959564, "global_step": 286, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.01674928329885006, "train_loss_bc": 0.016327429562807083, "train_loss_llm": 0.4218546152114868, "grad_norm": 0.1299564689397812, "global_step": 287, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.016223106533288956, "train_loss_bc": 0.015695005655288696, "train_loss_llm": 0.5281013250350952, "grad_norm": 0.14104627072811127, "global_step": 288, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.017164213582873344, "train_loss_bc": 0.016666820272803307, "train_loss_llm": 0.4973934590816498, "grad_norm": 0.02183571644127369, "global_step": 289, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.01507254596799612, "train_loss_bc": 0.014609228819608688, "train_loss_llm": 0.46331721544265747, "grad_norm": 0.03880901262164116, "global_step": 290, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.019254591315984726, "train_loss_bc": 0.01874985173344612, "train_loss_llm": 0.5047386884689331, "grad_norm": 0.06385096162557602, "global_step": 291, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.0154347512871027, "train_loss_bc": 0.01500864326953888, "train_loss_llm": 0.42610809206962585, "grad_norm": 0.08098644018173218, "global_step": 292, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.01903417333960533, "train_loss_bc": 0.018556609749794006, "train_loss_llm": 0.47756439447402954, "grad_norm": 0.10871503502130508, "global_step": 293, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.0156480111181736, "train_loss_bc": 0.015174117870628834, "train_loss_llm": 0.47389230132102966, "grad_norm": 0.13166505098342896, "global_step": 294, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.016828790307044983, "train_loss_bc": 0.016389530152082443, "train_loss_llm": 0.43926095962524414, "grad_norm": 0.1540358066558838, "global_step": 295, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.013542444445192814, "train_loss_bc": 0.013059152290225029, "train_loss_llm": 0.48329171538352966, "grad_norm": 0.17128632962703705, "global_step": 296, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.01356798131018877, "train_loss_bc": 0.013153335079550743, "train_loss_llm": 0.41464588046073914, "grad_norm": 0.01961551606655121, "global_step": 297, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.015729112550616264, "train_loss_bc": 0.015209322795271873, "train_loss_llm": 0.5197891592979431, "grad_norm": 0.04597029462456703, "global_step": 298, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.015187690034508705, "train_loss_bc": 0.014714469201862812, "train_loss_llm": 0.4732206165790558, "grad_norm": 0.06501750648021698, "global_step": 299, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.01496143825352192, "train_loss_bc": 0.014608250930905342, "train_loss_llm": 0.35318759083747864, "grad_norm": 0.09145065397024155, "global_step": 300, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.014216883108019829, "train_loss_bc": 0.013763219118118286, "train_loss_llm": 0.4536639451980591, "grad_norm": 0.10366859287023544, "global_step": 301, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.01669706590473652, "train_loss_bc": 0.016175638884305954, "train_loss_llm": 0.5214270353317261, "grad_norm": 0.12138961255550385, "global_step": 302, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.014355774968862534, "train_loss_bc": 0.013972668908536434, "train_loss_llm": 0.3831060230731964, "grad_norm": 0.14051002264022827, "global_step": 303, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.0146627863869071, "train_loss_bc": 0.014223872683942318, "train_loss_llm": 0.4389132857322693, "grad_norm": 0.15912242233753204, "global_step": 304, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.01133162435144186, "train_loss_bc": 0.010947933420538902, "train_loss_llm": 0.3836905360221863, "grad_norm": 0.02009022980928421, "global_step": 305, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.01270595658570528, "train_loss_bc": 0.012229321524500847, "train_loss_llm": 0.4766354262828827, "grad_norm": 0.029522329568862915, "global_step": 306, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.014936204068362713, "train_loss_bc": 0.014451291412115097, "train_loss_llm": 0.4849129617214203, "grad_norm": 0.056380923837423325, "global_step": 307, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.010747802443802357, "train_loss_bc": 0.010318206623196602, "train_loss_llm": 0.4295954704284668, "grad_norm": 0.07131356745958328, "global_step": 308, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.010907587595283985, "train_loss_bc": 0.010417597368359566, "train_loss_llm": 0.4899904727935791, "grad_norm": 0.08291061967611313, "global_step": 309, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.01565735787153244, "train_loss_bc": 0.01524802204221487, "train_loss_llm": 0.4093364179134369, "grad_norm": 0.1052742674946785, "global_step": 310, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.013044213876128197, "train_loss_bc": 0.012592458166182041, "train_loss_llm": 0.4517558515071869, "grad_norm": 0.12751010060310364, "global_step": 311, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.012058139778673649, "train_loss_bc": 0.011555514298379421, "train_loss_llm": 0.5026251077651978, "grad_norm": 0.1479104608297348, "global_step": 312, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.010018293745815754, "train_loss_bc": 0.009687970392405987, "train_loss_llm": 0.3303234279155731, "grad_norm": 0.01355504896491766, "global_step": 313, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.012328105047345161, "train_loss_bc": 0.011914866045117378, "train_loss_llm": 0.4132387638092041, "grad_norm": 0.01594623737037182, "global_step": 314, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.013978242874145508, "train_loss_bc": 0.013544456101953983, "train_loss_llm": 0.4337867498397827, "grad_norm": 0.032734472304582596, "global_step": 315, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.010386270470917225, "train_loss_bc": 0.010068733245134354, "train_loss_llm": 0.31753700971603394, "grad_norm": 0.047776710242033005, "global_step": 316, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.012578755617141724, "train_loss_bc": 0.01214287057518959, "train_loss_llm": 0.4358847141265869, "grad_norm": 0.0635766088962555, "global_step": 317, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.012422928586602211, "train_loss_bc": 0.012042918242514133, "train_loss_llm": 0.38001012802124023, "grad_norm": 0.07768117636442184, "global_step": 318, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.010467208921909332, "train_loss_bc": 0.009988697245717049, "train_loss_llm": 0.478511244058609, "grad_norm": 0.08535484224557877, "global_step": 319, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.012417087331414223, "train_loss_bc": 0.01195848360657692, "train_loss_llm": 0.45860394835472107, "grad_norm": 0.10900090634822845, "global_step": 320, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.01247399765998125, "train_loss_bc": 0.01207180880010128, "train_loss_llm": 0.4021890163421631, "grad_norm": 0.010779356583952904, "global_step": 321, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.011968130245804787, "train_loss_bc": 0.0115253496915102, "train_loss_llm": 0.44278010725975037, "grad_norm": 0.016100643202662468, "global_step": 322, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.011378668248653412, "train_loss_bc": 0.010935855098068714, "train_loss_llm": 0.4428134262561798, "grad_norm": 0.02845556102693081, "global_step": 323, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.010558527894318104, "train_loss_bc": 0.010113537311553955, "train_loss_llm": 0.4449908137321472, "grad_norm": 0.02639344334602356, "global_step": 324, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.008580698631703854, "train_loss_bc": 0.008138567209243774, "train_loss_llm": 0.44213131070137024, "grad_norm": 0.039085108786821365, "global_step": 325, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.013355431146919727, "train_loss_bc": 0.012834073975682259, "train_loss_llm": 0.5213567614555359, "grad_norm": 0.04931477829813957, "global_step": 326, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.008711469359695911, "train_loss_bc": 0.008368385955691338, "train_loss_llm": 0.3430837392807007, "grad_norm": 0.05239582434296608, "global_step": 327, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.009385243989527225, "train_loss_bc": 0.008970173075795174, "train_loss_llm": 0.41507115960121155, "grad_norm": 0.05491437017917633, "global_step": 328, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.011174674145877361, "train_loss_bc": 0.010818562470376492, "train_loss_llm": 0.3561112880706787, "grad_norm": 0.011578625068068504, "global_step": 329, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.013502768240869045, "train_loss_bc": 0.013065600767731667, "train_loss_llm": 0.4371674656867981, "grad_norm": 0.026880592107772827, "global_step": 330, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.012593085877597332, "train_loss_bc": 0.012244774959981441, "train_loss_llm": 0.34831055998802185, "grad_norm": 0.041259463876485825, "global_step": 331, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.009598112665116787, "train_loss_bc": 0.009030044078826904, "train_loss_llm": 0.5680687427520752, "grad_norm": 0.05241383612155914, "global_step": 332, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.01214287243783474, "train_loss_bc": 0.011670759879052639, "train_loss_llm": 0.4721129238605499, "grad_norm": 0.07233195751905441, "global_step": 333, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.015494297258555889, "train_loss_bc": 0.01502845250070095, "train_loss_llm": 0.46584439277648926, "grad_norm": 0.0923396646976471, "global_step": 334, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.01266135461628437, "train_loss_bc": 0.012207714840769768, "train_loss_llm": 0.4536397457122803, "grad_norm": 0.10818523913621902, "global_step": 335, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.012813151814043522, "train_loss_bc": 0.012354401871562004, "train_loss_llm": 0.45874953269958496, "grad_norm": 0.1238781213760376, "global_step": 336, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.013637524098157883, "train_loss_bc": 0.013167794793844223, "train_loss_llm": 0.46972957253456116, "grad_norm": 0.017869004979729652, "global_step": 337, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.01720421575009823, "train_loss_bc": 0.01666909269988537, "train_loss_llm": 0.5351230502128601, "grad_norm": 0.04792848974466324, "global_step": 338, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.015335088595747948, "train_loss_bc": 0.014754555188119411, "train_loss_llm": 0.5805330276489258, "grad_norm": 0.06892868131399155, "global_step": 339, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.010542848147451878, "train_loss_bc": 0.01001989096403122, "train_loss_llm": 0.5229572653770447, "grad_norm": 0.0866188034415245, "global_step": 340, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.01668214052915573, "train_loss_bc": 0.01612561196088791, "train_loss_llm": 0.5565277934074402, "grad_norm": 0.10684026032686234, "global_step": 341, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.013128525577485561, "train_loss_bc": 0.012647897005081177, "train_loss_llm": 0.4806285798549652, "grad_norm": 0.1274142861366272, "global_step": 342, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.012806318700313568, "train_loss_bc": 0.012260029092431068, "train_loss_llm": 0.5462898015975952, "grad_norm": 0.1410902589559555, "global_step": 343, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.009487541392445564, "train_loss_bc": 0.009019860997796059, "train_loss_llm": 0.4676806926727295, "grad_norm": 0.15223082900047302, "global_step": 344, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.016361601650714874, "train_loss_bc": 0.01573288068175316, "train_loss_llm": 0.6287200450897217, "grad_norm": 0.023004453629255295, "global_step": 345, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.01248890906572342, "train_loss_bc": 0.011881167069077492, "train_loss_llm": 0.607742190361023, "grad_norm": 0.031962476670742035, "global_step": 346, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.01358707994222641, "train_loss_bc": 0.013073929585516453, "train_loss_llm": 0.5131505727767944, "grad_norm": 0.04822782427072525, "global_step": 347, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.015235469676554203, "train_loss_bc": 0.01475644949823618, "train_loss_llm": 0.4790200889110565, "grad_norm": 0.06381597369909286, "global_step": 348, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.01751648262143135, "train_loss_bc": 0.016855884343385696, "train_loss_llm": 0.6605973243713379, "grad_norm": 0.08681994676589966, "global_step": 349, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.014208652079105377, "train_loss_bc": 0.013812784105539322, "train_loss_llm": 0.3958682119846344, "grad_norm": 0.10667064785957336, "global_step": 350, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.011572916992008686, "train_loss_bc": 0.011084744706749916, "train_loss_llm": 0.48817187547683716, "grad_norm": 0.1193293035030365, "global_step": 351, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.01146447192877531, "train_loss_bc": 0.01082993671298027, "train_loss_llm": 0.6345353126525879, "grad_norm": 0.13804349303245544, "global_step": 352, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.012645299546420574, "train_loss_bc": 0.012096133083105087, "train_loss_llm": 0.5491666793823242, "grad_norm": 0.014580151066184044, "global_step": 353, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.012388558126986027, "train_loss_bc": 0.011813423596322536, "train_loss_llm": 0.57513427734375, "grad_norm": 0.029008738696575165, "global_step": 354, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.015240795910358429, "train_loss_bc": 0.014640103094279766, "train_loss_llm": 0.6006927490234375, "grad_norm": 0.03927018493413925, "global_step": 355, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.011942628771066666, "train_loss_bc": 0.011564518325030804, "train_loss_llm": 0.3781103491783142, "grad_norm": 0.056585244834423065, "global_step": 356, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.012461038306355476, "train_loss_bc": 0.011909164488315582, "train_loss_llm": 0.5518735647201538, "grad_norm": 0.06560716778039932, "global_step": 357, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.015487094409763813, "train_loss_bc": 0.015003865584731102, "train_loss_llm": 0.48322877287864685, "grad_norm": 0.0779387354850769, "global_step": 358, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.010963214561343193, "train_loss_bc": 0.010492322966456413, "train_loss_llm": 0.47089120745658875, "grad_norm": 0.09135229140520096, "global_step": 359, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.009490950964391232, "train_loss_bc": 0.00908201839774847, "train_loss_llm": 0.40893298387527466, "grad_norm": 0.11029430478811264, "global_step": 360, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.009366891346871853, "train_loss_bc": 0.008832603693008423, "train_loss_llm": 0.534287691116333, "grad_norm": 0.011780070140957832, "global_step": 361, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.01090614590793848, "train_loss_bc": 0.010547686368227005, "train_loss_llm": 0.3584598898887634, "grad_norm": 0.018876101821660995, "global_step": 362, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.01047124806791544, "train_loss_bc": 0.00999793503433466, "train_loss_llm": 0.4733126759529114, "grad_norm": 0.0347822941839695, "global_step": 363, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.013421941548585892, "train_loss_bc": 0.01281831320375204, "train_loss_llm": 0.603628396987915, "grad_norm": 0.0416879765689373, "global_step": 364, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.012736831791698933, "train_loss_bc": 0.01226730551570654, "train_loss_llm": 0.4695262610912323, "grad_norm": 0.061996493488550186, "global_step": 365, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.015469906851649284, "train_loss_bc": 0.014822958037257195, "train_loss_llm": 0.6469485759735107, "grad_norm": 0.06635187566280365, "global_step": 366, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.012995130382478237, "train_loss_bc": 0.012509873136878014, "train_loss_llm": 0.4852573275566101, "grad_norm": 0.08635496348142624, "global_step": 367, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.00998271256685257, "train_loss_bc": 0.009579310193657875, "train_loss_llm": 0.4034022390842438, "grad_norm": 0.10520216077566147, "global_step": 368, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.0111773069947958, "train_loss_bc": 0.010663645341992378, "train_loss_llm": 0.5136619806289673, "grad_norm": 0.013957403600215912, "global_step": 369, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.010809720493853092, "train_loss_bc": 0.010342610068619251, "train_loss_llm": 0.46711012721061707, "grad_norm": 0.028792060911655426, "global_step": 370, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.013553488999605179, "train_loss_bc": 0.01306125707924366, "train_loss_llm": 0.49223223328590393, "grad_norm": 0.03614845499396324, "global_step": 371, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.008836585097014904, "train_loss_bc": 0.008274243213236332, "train_loss_llm": 0.5623416900634766, "grad_norm": 0.04330018162727356, "global_step": 372, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.008892491459846497, "train_loss_bc": 0.008484721183776855, "train_loss_llm": 0.40777063369750977, "grad_norm": 0.061764974147081375, "global_step": 373, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.011546115390956402, "train_loss_bc": 0.011045539751648903, "train_loss_llm": 0.5005753636360168, "grad_norm": 0.07327363640069962, "global_step": 374, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.013276085257530212, "train_loss_bc": 0.012809041887521744, "train_loss_llm": 0.4670429527759552, "grad_norm": 0.08208861202001572, "global_step": 375, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.010347362607717514, "train_loss_bc": 0.009987818077206612, "train_loss_llm": 0.35954442620277405, "grad_norm": 0.09811953455209732, "global_step": 376, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.010294072329998016, "train_loss_bc": 0.009917671792209148, "train_loss_llm": 0.37640058994293213, "grad_norm": 0.01656760647892952, "global_step": 377, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.012072709389030933, "train_loss_bc": 0.011694014072418213, "train_loss_llm": 0.37869489192962646, "grad_norm": 0.038055505603551865, "global_step": 378, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.013379747048020363, "train_loss_bc": 0.012885721400380135, "train_loss_llm": 0.4940251410007477, "grad_norm": 0.048791639506816864, "global_step": 379, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.010779447853565216, "train_loss_bc": 0.010418189689517021, "train_loss_llm": 0.3612585663795471, "grad_norm": 0.06931304186582565, "global_step": 380, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.013290653005242348, "train_loss_bc": 0.0127793550491333, "train_loss_llm": 0.5112981796264648, "grad_norm": 0.08744651824235916, "global_step": 381, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.012638435699045658, "train_loss_bc": 0.012112822383642197, "train_loss_llm": 0.5256132483482361, "grad_norm": 0.08734080195426941, "global_step": 382, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.01276348065584898, "train_loss_bc": 0.01233246922492981, "train_loss_llm": 0.43101125955581665, "grad_norm": 0.11115267127752304, "global_step": 383, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.013118097558617592, "train_loss_bc": 0.012599822133779526, "train_loss_llm": 0.5182749629020691, "grad_norm": 0.11958809196949005, "global_step": 384, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.01025390811264515, "train_loss_bc": 0.009825386106967926, "train_loss_llm": 0.4285220801830292, "grad_norm": 0.018952684476971626, "global_step": 385, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.010963615961372852, "train_loss_bc": 0.010562529787421227, "train_loss_llm": 0.40108659863471985, "grad_norm": 0.03306251019239426, "global_step": 386, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.010541597381234169, "train_loss_bc": 0.010126705281436443, "train_loss_llm": 0.4148922562599182, "grad_norm": 0.042092613875865936, "global_step": 387, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.008702381514012814, "train_loss_bc": 0.008199061267077923, "train_loss_llm": 0.5033202171325684, "grad_norm": 0.043085530400276184, "global_step": 388, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.008918298408389091, "train_loss_bc": 0.008477844297885895, "train_loss_llm": 0.4404541254043579, "grad_norm": 0.055809881538152695, "global_step": 389, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.009737114422023296, "train_loss_bc": 0.009314477443695068, "train_loss_llm": 0.4226372539997101, "grad_norm": 0.07001017779111862, "global_step": 390, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.010793833062052727, "train_loss_bc": 0.010402481071650982, "train_loss_llm": 0.3913517892360687, "grad_norm": 0.07023876160383224, "global_step": 391, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.010602637194097042, "train_loss_bc": 0.010235416702926159, "train_loss_llm": 0.36722007393836975, "grad_norm": 0.09314236044883728, "global_step": 392, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.013229576870799065, "train_loss_bc": 0.01280839741230011, "train_loss_llm": 0.4211796224117279, "grad_norm": 0.010268638841807842, "global_step": 393, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.006598448846489191, "train_loss_bc": 0.006211167201399803, "train_loss_llm": 0.38728177547454834, "grad_norm": 0.012780013494193554, "global_step": 394, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.010388839058578014, "train_loss_bc": 0.00987747497856617, "train_loss_llm": 0.5113644599914551, "grad_norm": 0.015021376311779022, "global_step": 395, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.014541227370500565, "train_loss_bc": 0.014116690494120121, "train_loss_llm": 0.4245363771915436, "grad_norm": 0.02319067344069481, "global_step": 396, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.007016970310360193, "train_loss_bc": 0.006666948553174734, "train_loss_llm": 0.3500216007232666, "grad_norm": 0.027652941644191742, "global_step": 397, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.007159297354519367, "train_loss_bc": 0.006787103600800037, "train_loss_llm": 0.3721938133239746, "grad_norm": 0.03523283079266548, "global_step": 398, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.009045234881341457, "train_loss_bc": 0.008669788017868996, "train_loss_llm": 0.37544700503349304, "grad_norm": 0.049455754458904266, "global_step": 399, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.008435660041868687, "train_loss_bc": 0.008010749705135822, "train_loss_llm": 0.42491012811660767, "grad_norm": 0.0516187846660614, "global_step": 400, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.010924630798399448, "train_loss_bc": 0.01047501340508461, "train_loss_llm": 0.44961774349212646, "grad_norm": 0.019651779904961586, "global_step": 401, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.006148731801658869, "train_loss_bc": 0.0057486011646687984, "train_loss_llm": 0.4001305103302002, "grad_norm": 0.02275880053639412, "global_step": 402, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.007822881452739239, "train_loss_bc": 0.00734285730868578, "train_loss_llm": 0.48002392053604126, "grad_norm": 0.03126152977347374, "global_step": 403, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.00978546217083931, "train_loss_bc": 0.009389730170369148, "train_loss_llm": 0.3957315683364868, "grad_norm": 0.0482921376824379, "global_step": 404, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.00851339939981699, "train_loss_bc": 0.008063830435276031, "train_loss_llm": 0.4495692849159241, "grad_norm": 0.05878711864352226, "global_step": 405, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.012543894350528717, "train_loss_bc": 0.012006400153040886, "train_loss_llm": 0.5374938249588013, "grad_norm": 0.07312177866697311, "global_step": 406, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.004626167938113213, "train_loss_bc": 0.004230715800076723, "train_loss_llm": 0.39545202255249023, "grad_norm": 0.0742395669221878, "global_step": 407, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.010349040850996971, "train_loss_bc": 0.00993720255792141, "train_loss_llm": 0.41183826327323914, "grad_norm": 0.08678025007247925, "global_step": 408, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.006372408010065556, "train_loss_bc": 0.006014788523316383, "train_loss_llm": 0.35761937499046326, "grad_norm": 0.010603218339383602, "global_step": 409, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.009057055227458477, "train_loss_bc": 0.008602965623140335, "train_loss_llm": 0.45408937335014343, "grad_norm": 0.029408499598503113, "global_step": 410, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.006392288021743298, "train_loss_bc": 0.006004677154123783, "train_loss_llm": 0.38761094212532043, "grad_norm": 0.040126774460077286, "global_step": 411, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.007694873958826065, "train_loss_bc": 0.007268495857715607, "train_loss_llm": 0.42637819051742554, "grad_norm": 0.051206592470407486, "global_step": 412, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.00797163788229227, "train_loss_bc": 0.007495692931115627, "train_loss_llm": 0.47594505548477173, "grad_norm": 0.06213797628879547, "global_step": 413, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.008228043094277382, "train_loss_bc": 0.007861753925681114, "train_loss_llm": 0.366288959980011, "grad_norm": 0.07453621178865433, "global_step": 414, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.007793589495122433, "train_loss_bc": 0.00744793564081192, "train_loss_llm": 0.34565383195877075, "grad_norm": 0.08818801492452621, "global_step": 415, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.010696557350456715, "train_loss_bc": 0.01020999439060688, "train_loss_llm": 0.4865627586841583, "grad_norm": 0.10583324730396271, "global_step": 416, "epoch": 1, "lr": 0.009999948518946245}
+{"train_loss": 0.016479648649692535, "train_loss_bc": 0.016043461859226227, "train_loss_llm": 0.43618765473365784, "grad_norm": 0.02455216646194458, "global_step": 417, "epoch": 1, "lr": 0.009999948518946245}
diff --git a/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/train.log b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..74fda0185d5ac65159de7f7872a6e30ca3433217
--- /dev/null
+++ b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/train.log
@@ -0,0 +1,8 @@
+[2026-01-21 13:12:21,183][numexpr.utils][INFO] - Note: detected 112 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+[2026-01-21 13:12:21,183][numexpr.utils][INFO] - Note: NumExpr detected 112 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
+[2026-01-21 13:12:21,183][numexpr.utils][INFO] - NumExpr defaulting to 16 threads.
+[2026-01-21 13:12:27,199][datasets][INFO] - PyTorch version 2.2.2 available.
+[2026-01-21 13:12:27,200][datasets][INFO] - TensorFlow version 2.15.1 available.
+[2026-01-21 13:12:27,201][datasets][INFO] - JAX version 0.4.30 available.
+[2026-01-21 13:12:35,484][absl][INFO] - MUJOCO_GL=osmesa, attempting to import specified OpenGL backend.
+[2026-01-21 13:12:35,493][absl][INFO] - MuJoCo library version is: 2.3.7
diff --git a/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/debug-internal.log b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..046dcb6c0b0db686eeee21c8c44f6d67b74660a2
--- /dev/null
+++ b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2026-01-21T13:12:36.44966483+08:00","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2026-01-21T13:12:36.449675304+08:00","level":"INFO","msg":"created symlink","path":"/work/u1131674/LLM-BC/data/outputs/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/logs/debug-core.log"}
+{"time":"2026-01-21T13:12:36.564980991+08:00","level":"INFO","msg":"created new stream","id":"yhjy9tz9"}
+{"time":"2026-01-21T13:12:36.565006242+08:00","level":"INFO","msg":"stream: started","id":"yhjy9tz9"}
+{"time":"2026-01-21T13:12:36.565029519+08:00","level":"INFO","msg":"sender: started","stream_id":"yhjy9tz9"}
+{"time":"2026-01-21T13:12:36.565021074+08:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"yhjy9tz9"}}
+{"time":"2026-01-21T13:12:36.565029409+08:00","level":"INFO","msg":"handler: started","stream_id":{"value":"yhjy9tz9"}}
+{"time":"2026-01-21T13:12:37.456830647+08:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/debug.log b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..7cc40016b0d531704b8d3f8f3b8124e6afe091d9
--- /dev/null
+++ b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/debug.log
@@ -0,0 +1,26 @@
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_setup.py:_flush():79] Configure stats pid to 3666395
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_setup.py:_flush():79] Loading settings from /home/u1131674/.config/wandb/settings
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_setup.py:_flush():79] Loading settings from /work/u1131674/LLM-BC/wandb/settings
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/work/u1131674/LLM-BC/train.py', 'program': '/work/u1131674/LLM-BC/./train.py'}
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_setup.py:_flush():79] Applying login settings: {}
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_init.py:_log_setup():533] Logging user logs to /work/u1131674/LLM-BC/data/outputs/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/logs/debug.log
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_init.py:_log_setup():534] Logging internal logs to /work/u1131674/LLM-BC/data/outputs/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/logs/debug-internal.log
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_init.py:init():619] calling init triggers
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llmbc_lowdim', '_target_': 'llmbc.workspace.train_llmbc_lowdim_workspace.TrainLLMBCLowdimWorkspace', 'obs_dim': 9, 'action_dim': 4, 'task_name': 'box-close-v2', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llmbc_lowdim_policy.LLMBCLowdimPolicy', 'model': {'_target_': 'llmbc.model.policy.policy_mlp.PolicyMLP', 'input_size': 9, 'hidden_size': [256, 256], 'output_size': 4, 'activation': 'relu', 'n_obs_steps': 1, 'n_action_steps': 1}, 'obs_dim': 9, 'action_dim': 4, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'box-close-v2', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2026.01.21/13.12.19_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 9, 'action_dim': 4, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_bc_weight': 1.0, 'loss_llm_weight': 0.001, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'normalize_llm_loss': True}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.01, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 42, 'debug': False, 'resume': False, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 10, 'num_epochs': 1001, 'gradient_accumulate_every': 8, 'grad_norm_clip': 0.5, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'sample_max_batch': 128, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'box-close-v2-training', 'resume': True, 'mode': 'online', 'name': '2026.01.21-13.12.19_train_llmbc_lowdim_box-close-v2', 'tags': ['train_llmbc_lowdim', 'box-close-v2', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2', 'wandb_name_base': '2026.01.21-13.12.19_train_llmbc_lowdim_box-close-v2'}, 'task': {'name': 'box-close-v2', 'obs_dim': 9, 'action_dim': 4, 'env_runner': {'_target_': 'llmbc.env_runner.metaworld_lowdim_runner.MetaworldLowdimRunner', 'env_name': 'llf-metaworld-box-close-v2', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 30, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.9}, 'dataset': {'_target_': 'llmbc.dataset.metaworld_lowdim_dataset.MetaworldLowdimDataset', 'data_path': 'datasets/box-close-v2.pt', 'data_path2': 'datasets/box-close-v2.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.1, 'dummy_normalizer': True}, 'instructor': {'_target_': 'llmbc.translator.instructor.metaworld_instructor.box_close_v2_instructor.BoxCloseV2Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2026.01.21/13.12.19_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_init.py:init():669] starting backend
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_init.py:init():673] sending inform_init request
+2026-01-21 13:12:36,447 INFO    MainThread:3666395 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2026-01-21 13:12:36,447 INFO    MainThread:3666395 [wandb_init.py:init():686] backend started and connected
+2026-01-21 13:12:36,456 INFO    MainThread:3666395 [wandb_init.py:init():781] updated telemetry
+2026-01-21 13:12:36,506 INFO    MainThread:3666395 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2026-01-21 13:12:37,452 INFO    MainThread:3666395 [wandb_init.py:init():867] starting run threads in backend
+2026-01-21 13:12:38,016 INFO    MainThread:3666395 [wandb_run.py:_console_start():2451] atexit reg
+2026-01-21 13:12:38,016 INFO    MainThread:3666395 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2026-01-21 13:12:38,016 INFO    MainThread:3666395 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2026-01-21 13:12:38,016 INFO    MainThread:3666395 [wandb_run.py:_redirect():2389] Redirects installed.
+2026-01-21 13:12:38,019 INFO    MainThread:3666395 [wandb_init.py:init():911] run started, returning control to user process
+2026-01-21 13:12:38,019 INFO    MainThread:3666395 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/work/u1131674/LLM-BC/data/outputs/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2'}
diff --git a/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/files/output.log b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..c165b48414bb1159f704e97eb67cd26aa6afdec5
--- /dev/null
+++ b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/files/output.log
@@ -0,0 +1,3 @@
+Eval MetaworldLowdimRunner 1/6:   0%|          | 0/30 [00:00<?, ?it/s]/work/u1131674/LLM-BC/llmbc/common/llfbench_util.py:39: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:275.)
+  obs = torch.tensor(obs, dtype=torch.float32).unsqueeze(dim=0).to(device)
+Training epoch 1:  74%|███████▍  | 176/238 [00:23<00:08,  7.45it/s, grad_norm=0.0621, loss=0.00797]
diff --git a/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/files/requirements.txt b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..f07fb3b63f6171592bfb40896c50e7c4e8ebe927
--- /dev/null
+++ b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/files/requirements.txt
@@ -0,0 +1,857 @@
+rpds-py==0.27.1
+typeguard==4.4.4
+flatbuffers==25.12.19
+toppra==0.6.3
+sympy==1.14.0
+tiktoken==0.8.0
+nvidia-cuda-cupti-cu12==12.1.105
+arm_pytorch_utilities==0.4.3
+pynndescent==0.6.0
+multidict==6.7.0
+fonttools==4.60.2
+numexpr==2.10.1
+cmudict==1.0.13
+PyOpenGL-accelerate==3.1.10
+gmpy2==2.2.1
+peft==0.14.0
+metaworld==2.0.0
+nvidia-cufft-cu12==11.0.2.54
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+pexpect==4.9.0
+protobuf==4.25.8
+typing_extensions==4.15.0
+mujoco==2.3.7
+tokenizers==0.21.0
+pytorch-kinematics==0.7.5
+sniffio==1.3.1
+aiofiles==25.1.0
+mplib==0.1.1
+wcwidth==0.2.14
+Pygments==2.19.1
+anyio==4.12.1
+tensorflow-estimator==2.15.0
+filelock==3.17.0
+numpy==1.23.5
+attrs==25.4.0
+Markdown==3.9
+fsspec==2024.3.1
+libclang==18.1.1
+umap-learn==0.5.9.post2
+dill==0.3.8
+narwhals==2.15.0
+tensorboard==2.15.2
+dacite==1.9.2
+termcolor==3.1.0
+llmbc==0.0.0
+python-multipart==0.0.20
+exceptiongroup==1.3.1
+sapien==3.0.0b1
+pygame==2.6.1
+nvidia-curand-cu12==10.3.2.106
+evaluate==0.4.3
+msgpack==1.1.1
+tensorflow-probability==0.23.0
+diffusers==0.31.0
+certifi==2025.10.5
+d4rl==1.1
+pydub==0.25.1
+annotated-doc==0.0.4
+gitdb==4.0.12
+gradio_client==0.2.9
+Shapely==1.8.4
+mani_skill==3.0.0b20
+tensorflow-io-gcs-filesystem==0.37.1
+fasteners==0.20
+hjson==3.1.0
+ninja==1.13.0
+stack-data==0.6.3
+pyarrow==21.0.0
+networkx==3.2.1
+nvidia-cusparse-cu12==12.1.0.106
+pyparsing==3.3.1
+timm==1.0.22
+typing-inspection==0.4.2
+openai==2.8.1
+pybullet==3.2.6
+hydra-core==1.2.0
+gradio==3.36.1
+tensorflow==2.15.1
+asttokens==3.0.1
+importlib-metadata==5.2.0
+astunparse==1.6.3
+tifffile==2024.8.30
+annotated-types==0.7.0
+Bottleneck==1.4.2
+accelerate==1.0.1
+pytz==2025.2
+urllib3==2.5.0
+frozenlist==1.8.0
+sentry-sdk==2.50.0
+jsonschema==4.25.1
+tyro==0.9.1
+Farama-Notifications==0.0.4
+ffmpy==1.0.0
+httpx==0.28.1
+pymunk==6.2.1
+shtab==1.7.2
+glfw==2.0.0
+hf-xet==1.1.8
+omegaconf==2.2.1
+blobfile==3.0.0
+decorator==5.2.1
+cffi==1.17.1
+matplotlib-inline==0.2.1
+eval_type_backport==0.2.2
+torchaudio==2.2.2
+colorama==0.4.6
+click==8.1.8
+Cython==0.29.37
+orjson==3.11.5
+gym_bandits==0.0.2
+traitlets==5.14.3
+docker-pycreds==0.4.0
+multiprocess==0.70.15
+zipp==3.21.0
+antlr4-python3-runtime==4.9.3
+uc-micro-py==1.0.3
+mpmath==1.3.0
+idna==3.11
+aiodns==3.5.0
+charset-normalizer==3.4.4
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-cuda-nvrtc-cu12==12.1.105
+seaborn==0.13.2
+pyarrow-hotfix==0.7
+pillow==11.3.0
+pyautogen==0.1.0
+requests==2.32.0
+MarkupSafe==3.0.2
+websockets==15.0.1
+nvidia-nccl-cu12==2.19.3
+pure_eval==0.2.3
+parso==0.8.5
+huggingface-hub==0.26.2
+syllables==1.0.9
+tf-agents==0.19.0
+six==1.17.0
+referencing==0.36.2
+ptyprocess==0.7.0
+platformdirs==4.4.0
+fastapi==0.128.0
+stable-baselines3==2.2.1
+av==10.0.0
+diskcache==5.6.3
+pynvml==13.0.1
+pytorch-seed==0.2.0
+zarr==2.12.0
+mdurl==0.1.2
+docstring-parser==0.16
+packaging==25.0
+numcodecs==0.12.1
+opt_einsum==3.4.0
+markdown-it-py==2.2.0
+nvidia-cuda-runtime-cu12==12.1.105
+PyWavelets==1.6.0
+datasets==2.19.0
+contourpy==1.3.0
+aiohappyeyeballs==2.6.1
+jaxlib==0.4.30
+ImageIO==2.37.2
+wandb==0.18.6
+jiter==0.12.0
+gymnasium==0.29.1
+pycryptodomex==3.23.0
+google-pasta==0.2.0
+ipython==8.18.1
+threadpoolctl==3.6.0
+py-cpuinfo==9.0.0
+bitsandbytes==0.45.0
+xxhash==3.5.0
+google-auth-oauthlib==1.2.4
+rsa==4.9.1
+rouge_score==0.1.2
+dm-control==1.0.14
+oauthlib==3.3.1
+pandas==2.3.3
+tenacity==9.1.2
+asciitree==0.3.3
+scipy==1.13.1
+jedi==0.19.2
+gast==0.7.0
+google-auth==2.47.0
+transforms3d==0.4.2
+kiwisolver==1.4.7
+matplotlib==3.7.5
+aiohttp==3.12.15
+pip==23.3.2
+imageio-ffmpeg==0.6.0
+deepspeed==0.16.1
+yarl==1.18.0
+nvidia-nvtx-cu12==12.1.105
+llfbench==0.1.0
+wheel==0.45.1
+PySocks==1.7.1
+ml-dtypes==0.3.2
+PyYAML==6.0.2
+fast_kinematics==0.2.2
+gin-config==0.5.0
+setproctitle==1.3.7
+safetensors==0.5.3
+torchvision==0.17.2
+semantic-version==2.10.0
+PyOpenGL==3.1.10
+nltk==3.9.2
+lxml==6.0.2
+pydantic==2.12.5
+tqdm==4.67.1
+keras==2.15.0
+parse==1.19.1
+linkify-it-py==2.0.3
+dm-tree==0.1.8
+requests-oauthlib==2.0.0
+scikit-learn==1.6.1
+altair==6.0.0
+Werkzeug==3.1.5
+sentencepiece==0.2.0
+uvicorn==0.39.0
+cycler==0.12.1
+transformers==4.47.1
+uvloop==0.22.1
+mkl_random==1.2.8
+GitPython==3.1.46
+regex==2025.9.1
+jax==0.4.30
+llvmlite==0.39.1
+pyasn1_modules==0.4.2
+nvidia-cudnn-cu12==8.9.2.26
+pydantic_core==2.41.5
+google-genai==1.47.0
+propcache==0.3.1
+pycares==4.10.0
+pyperclip==1.11.0
+pyasn1==0.6.2
+async-timeout==5.0.1
+psutil==7.0.0
+gym==0.23.1
+dm-env==1.6
+Jinja2==3.1.6
+sentence-transformers==3.2.1
+einops==0.4.1
+triton==2.2.0
+grpcio==1.76.0
+labmaze==1.0.6
+nvidia-ml-py==13.590.44
+brotlicffi==1.0.9.2
+smmap==5.0.2
+cloudpickle==3.1.2
+setuptools==80.9.0
+starlette==0.49.3
+prompt_toolkit==3.0.52
+wrapt==1.14.2
+h5py==3.14.0
+scikit-image==0.19.3
+joblib==1.5.3
+opencv-python==4.11.0.86
+rich==14.2.0
+trl==0.11.4
+gym-notices==0.1.0
+trimesh==4.11.1
+mdit-py-plugins==0.3.3
+distro==1.9.0
+executing==2.2.1
+mkl-service==2.4.0
+nvidia-cusolver-cu12==11.4.5.107
+FLAML==2.3.6
+mujoco-py==2.1.2.14
+h11==0.16.0
+highway-env==1.9.1
+httpcore==1.0.9
+tensorboard-data-server==0.7.2
+tzdata==2025.3
+absl-py==2.3.1
+jsonschema-specifications==2025.9.1
+numba==0.56.4
+tabulate==0.9.0
+importlib-resources==5.13.0
+pycparser==2.23
+mkl_fft==1.3.11
+torch==2.2.2
+nvidia-cublas-cu12==12.1.3.1
+rpds-py==0.27.1
+typeguard==4.4.4
+flatbuffers==25.12.19
+toppra==0.6.3
+sympy==1.14.0
+tiktoken==0.8.0
+nvidia-cuda-cupti-cu12==12.1.105
+arm_pytorch_utilities==0.4.3
+pynndescent==0.6.0
+multidict==6.7.0
+fonttools==4.60.2
+numexpr==2.10.1
+cmudict==1.0.13
+PyOpenGL-accelerate==3.1.10
+gmpy2==2.2.1
+peft==0.14.0
+metaworld==2.0.0
+nvidia-cufft-cu12==11.0.2.54
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+pexpect==4.9.0
+protobuf==4.25.8
+typing_extensions==4.15.0
+mujoco==2.3.7
+tokenizers==0.21.0
+pytorch-kinematics==0.7.5
+sniffio==1.3.1
+aiofiles==25.1.0
+mplib==0.1.1
+wcwidth==0.2.14
+Pygments==2.19.1
+anyio==4.12.1
+tensorflow-estimator==2.15.0
+filelock==3.17.0
+numpy==1.23.5
+attrs==25.4.0
+Markdown==3.9
+fsspec==2024.3.1
+libclang==18.1.1
+umap-learn==0.5.9.post2
+dill==0.3.8
+narwhals==2.15.0
+tensorboard==2.15.2
+dacite==1.9.2
+termcolor==3.1.0
+llmbc==0.0.0
+python-multipart==0.0.20
+exceptiongroup==1.3.1
+sapien==3.0.0b1
+pygame==2.6.1
+nvidia-curand-cu12==10.3.2.106
+evaluate==0.4.3
+msgpack==1.1.1
+tensorflow-probability==0.23.0
+diffusers==0.31.0
+certifi==2025.10.5
+d4rl==1.1
+pydub==0.25.1
+annotated-doc==0.0.4
+gitdb==4.0.12
+gradio_client==0.2.9
+Shapely==1.8.4
+mani_skill==3.0.0b20
+tensorflow-io-gcs-filesystem==0.37.1
+fasteners==0.20
+hjson==3.1.0
+ninja==1.13.0
+stack-data==0.6.3
+pyarrow==21.0.0
+networkx==3.2.1
+nvidia-cusparse-cu12==12.1.0.106
+pyparsing==3.3.1
+timm==1.0.22
+typing-inspection==0.4.2
+openai==2.8.1
+pybullet==3.2.6
+hydra-core==1.2.0
+gradio==3.36.1
+tensorflow==2.15.1
+asttokens==3.0.1
+importlib-metadata==5.2.0
+astunparse==1.6.3
+tifffile==2024.8.30
+annotated-types==0.7.0
+Bottleneck==1.4.2
+accelerate==1.0.1
+pytz==2025.2
+urllib3==2.5.0
+frozenlist==1.8.0
+sentry-sdk==2.50.0
+jsonschema==4.25.1
+tyro==0.9.1
+Farama-Notifications==0.0.4
+ffmpy==1.0.0
+httpx==0.28.1
+pymunk==6.2.1
+shtab==1.7.2
+glfw==2.0.0
+hf-xet==1.1.8
+omegaconf==2.2.1
+blobfile==3.0.0
+decorator==5.2.1
+cffi==1.17.1
+matplotlib-inline==0.2.1
+eval_type_backport==0.2.2
+torchaudio==2.2.2
+colorama==0.4.6
+click==8.1.8
+Cython==0.29.37
+orjson==3.11.5
+gym_bandits==0.0.2
+traitlets==5.14.3
+docker-pycreds==0.4.0
+multiprocess==0.70.15
+zipp==3.21.0
+antlr4-python3-runtime==4.9.3
+uc-micro-py==1.0.3
+mpmath==1.3.0
+idna==3.11
+aiodns==3.5.0
+charset-normalizer==3.4.4
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-cuda-nvrtc-cu12==12.1.105
+seaborn==0.13.2
+pyarrow-hotfix==0.7
+pillow==11.3.0
+pyautogen==0.1.0
+requests==2.32.0
+MarkupSafe==3.0.2
+websockets==15.0.1
+nvidia-nccl-cu12==2.19.3
+pure_eval==0.2.3
+parso==0.8.5
+huggingface-hub==0.26.2
+syllables==1.0.9
+tf-agents==0.19.0
+six==1.17.0
+referencing==0.36.2
+ptyprocess==0.7.0
+platformdirs==4.4.0
+fastapi==0.128.0
+stable-baselines3==2.2.1
+av==10.0.0
+diskcache==5.6.3
+pynvml==13.0.1
+pytorch-seed==0.2.0
+zarr==2.12.0
+mdurl==0.1.2
+docstring-parser==0.16
+packaging==25.0
+numcodecs==0.12.1
+opt_einsum==3.4.0
+markdown-it-py==2.2.0
+nvidia-cuda-runtime-cu12==12.1.105
+PyWavelets==1.6.0
+datasets==2.19.0
+contourpy==1.3.0
+aiohappyeyeballs==2.6.1
+jaxlib==0.4.30
+ImageIO==2.37.2
+wandb==0.18.6
+jiter==0.12.0
+gymnasium==0.29.1
+pycryptodomex==3.23.0
+google-pasta==0.2.0
+ipython==8.18.1
+threadpoolctl==3.6.0
+py-cpuinfo==9.0.0
+bitsandbytes==0.45.0
+xxhash==3.5.0
+google-auth-oauthlib==1.2.4
+rsa==4.9.1
+rouge_score==0.1.2
+dm-control==1.0.14
+oauthlib==3.3.1
+pandas==2.3.3
+tenacity==9.1.2
+asciitree==0.3.3
+scipy==1.13.1
+jedi==0.19.2
+gast==0.7.0
+google-auth==2.47.0
+transforms3d==0.4.2
+kiwisolver==1.4.7
+matplotlib==3.7.5
+aiohttp==3.12.15
+pip==23.3.2
+imageio-ffmpeg==0.6.0
+deepspeed==0.16.1
+yarl==1.18.0
+nvidia-nvtx-cu12==12.1.105
+llfbench==0.1.0
+wheel==0.45.1
+PySocks==1.7.1
+ml-dtypes==0.3.2
+PyYAML==6.0.2
+fast_kinematics==0.2.2
+gin-config==0.5.0
+setproctitle==1.3.7
+safetensors==0.5.3
+torchvision==0.17.2
+semantic-version==2.10.0
+PyOpenGL==3.1.10
+nltk==3.9.2
+lxml==6.0.2
+pydantic==2.12.5
+tqdm==4.67.1
+keras==2.15.0
+parse==1.19.1
+linkify-it-py==2.0.3
+dm-tree==0.1.8
+requests-oauthlib==2.0.0
+scikit-learn==1.6.1
+altair==6.0.0
+Werkzeug==3.1.5
+sentencepiece==0.2.0
+uvicorn==0.39.0
+cycler==0.12.1
+transformers==4.47.1
+uvloop==0.22.1
+mkl_random==1.2.8
+GitPython==3.1.46
+regex==2025.9.1
+jax==0.4.30
+llvmlite==0.39.1
+pyasn1_modules==0.4.2
+nvidia-cudnn-cu12==8.9.2.26
+pydantic_core==2.41.5
+google-genai==1.47.0
+propcache==0.3.1
+pycares==4.10.0
+pyperclip==1.11.0
+pyasn1==0.6.2
+async-timeout==5.0.1
+psutil==7.0.0
+gym==0.23.1
+dm-env==1.6
+Jinja2==3.1.6
+sentence-transformers==3.2.1
+einops==0.4.1
+triton==2.2.0
+grpcio==1.76.0
+labmaze==1.0.6
+nvidia-ml-py==13.590.44
+brotlicffi==1.0.9.2
+smmap==5.0.2
+cloudpickle==3.1.2
+setuptools==80.9.0
+starlette==0.49.3
+prompt_toolkit==3.0.52
+wrapt==1.14.2
+h5py==3.14.0
+scikit-image==0.19.3
+joblib==1.5.3
+opencv-python==4.11.0.86
+rich==14.2.0
+trl==0.11.4
+gym-notices==0.1.0
+trimesh==4.11.1
+mdit-py-plugins==0.3.3
+distro==1.9.0
+executing==2.2.1
+mkl-service==2.4.0
+nvidia-cusolver-cu12==11.4.5.107
+FLAML==2.3.6
+mujoco-py==2.1.2.14
+h11==0.16.0
+highway-env==1.9.1
+httpcore==1.0.9
+tensorboard-data-server==0.7.2
+tzdata==2025.3
+absl-py==2.3.1
+jsonschema-specifications==2025.9.1
+numba==0.56.4
+tabulate==0.9.0
+importlib-resources==5.13.0
+pycparser==2.23
+mkl_fft==1.3.11
+torch==2.2.2
+nvidia-cublas-cu12==12.1.3.1
+llmbc==0.0.0
+rpds-py==0.27.1
+typeguard==4.4.4
+flatbuffers==25.12.19
+toppra==0.6.3
+sympy==1.14.0
+tiktoken==0.8.0
+nvidia-cuda-cupti-cu12==12.1.105
+arm_pytorch_utilities==0.4.3
+pynndescent==0.6.0
+multidict==6.7.0
+fonttools==4.60.2
+numexpr==2.10.1
+cmudict==1.0.13
+PyOpenGL-accelerate==3.1.10
+gmpy2==2.2.1
+peft==0.14.0
+metaworld==2.0.0
+nvidia-cufft-cu12==11.0.2.54
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+pexpect==4.9.0
+protobuf==4.25.8
+typing_extensions==4.15.0
+mujoco==2.3.7
+tokenizers==0.21.0
+pytorch-kinematics==0.7.5
+sniffio==1.3.1
+aiofiles==25.1.0
+mplib==0.1.1
+wcwidth==0.2.14
+Pygments==2.19.1
+anyio==4.12.1
+tensorflow-estimator==2.15.0
+filelock==3.17.0
+numpy==1.23.5
+attrs==25.4.0
+Markdown==3.9
+fsspec==2024.3.1
+libclang==18.1.1
+umap-learn==0.5.9.post2
+dill==0.3.8
+narwhals==2.15.0
+tensorboard==2.15.2
+dacite==1.9.2
+termcolor==3.1.0
+llmbc==0.0.0
+python-multipart==0.0.20
+exceptiongroup==1.3.1
+sapien==3.0.0b1
+pygame==2.6.1
+nvidia-curand-cu12==10.3.2.106
+evaluate==0.4.3
+msgpack==1.1.1
+tensorflow-probability==0.23.0
+diffusers==0.31.0
+certifi==2025.10.5
+d4rl==1.1
+pydub==0.25.1
+annotated-doc==0.0.4
+gitdb==4.0.12
+gradio_client==0.2.9
+Shapely==1.8.4
+mani_skill==3.0.0b20
+tensorflow-io-gcs-filesystem==0.37.1
+fasteners==0.20
+hjson==3.1.0
+ninja==1.13.0
+stack-data==0.6.3
+pyarrow==21.0.0
+networkx==3.2.1
+nvidia-cusparse-cu12==12.1.0.106
+pyparsing==3.3.1
+timm==1.0.22
+typing-inspection==0.4.2
+openai==2.8.1
+pybullet==3.2.6
+hydra-core==1.2.0
+gradio==3.36.1
+tensorflow==2.15.1
+asttokens==3.0.1
+importlib-metadata==5.2.0
+astunparse==1.6.3
+tifffile==2024.8.30
+annotated-types==0.7.0
+Bottleneck==1.4.2
+accelerate==1.0.1
+pytz==2025.2
+urllib3==2.5.0
+frozenlist==1.8.0
+sentry-sdk==2.50.0
+jsonschema==4.25.1
+tyro==0.9.1
+Farama-Notifications==0.0.4
+ffmpy==1.0.0
+httpx==0.28.1
+pymunk==6.2.1
+shtab==1.7.2
+glfw==2.0.0
+hf-xet==1.1.8
+omegaconf==2.2.1
+blobfile==3.0.0
+decorator==5.2.1
+cffi==1.17.1
+matplotlib-inline==0.2.1
+eval_type_backport==0.2.2
+torchaudio==2.2.2
+colorama==0.4.6
+click==8.1.8
+Cython==0.29.37
+orjson==3.11.5
+gym_bandits==0.0.2
+traitlets==5.14.3
+docker-pycreds==0.4.0
+multiprocess==0.70.15
+zipp==3.21.0
+antlr4-python3-runtime==4.9.3
+uc-micro-py==1.0.3
+mpmath==1.3.0
+idna==3.11
+aiodns==3.5.0
+charset-normalizer==3.4.4
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-cuda-nvrtc-cu12==12.1.105
+seaborn==0.13.2
+pyarrow-hotfix==0.7
+pillow==11.3.0
+pyautogen==0.1.0
+requests==2.32.0
+MarkupSafe==3.0.2
+websockets==15.0.1
+nvidia-nccl-cu12==2.19.3
+pure_eval==0.2.3
+parso==0.8.5
+huggingface-hub==0.26.2
+syllables==1.0.9
+tf-agents==0.19.0
+six==1.17.0
+referencing==0.36.2
+ptyprocess==0.7.0
+platformdirs==4.4.0
+fastapi==0.128.0
+stable-baselines3==2.2.1
+av==10.0.0
+diskcache==5.6.3
+pynvml==13.0.1
+pytorch-seed==0.2.0
+zarr==2.12.0
+mdurl==0.1.2
+docstring-parser==0.16
+packaging==25.0
+numcodecs==0.12.1
+opt_einsum==3.4.0
+markdown-it-py==2.2.0
+nvidia-cuda-runtime-cu12==12.1.105
+PyWavelets==1.6.0
+datasets==2.19.0
+contourpy==1.3.0
+aiohappyeyeballs==2.6.1
+jaxlib==0.4.30
+ImageIO==2.37.2
+wandb==0.18.6
+jiter==0.12.0
+gymnasium==0.29.1
+pycryptodomex==3.23.0
+google-pasta==0.2.0
+ipython==8.18.1
+threadpoolctl==3.6.0
+py-cpuinfo==9.0.0
+bitsandbytes==0.45.0
+xxhash==3.5.0
+google-auth-oauthlib==1.2.4
+rsa==4.9.1
+rouge_score==0.1.2
+dm-control==1.0.14
+oauthlib==3.3.1
+pandas==2.3.3
+tenacity==9.1.2
+asciitree==0.3.3
+scipy==1.13.1
+jedi==0.19.2
+gast==0.7.0
+google-auth==2.47.0
+transforms3d==0.4.2
+kiwisolver==1.4.7
+matplotlib==3.7.5
+aiohttp==3.12.15
+pip==23.3.2
+imageio-ffmpeg==0.6.0
+deepspeed==0.16.1
+yarl==1.18.0
+nvidia-nvtx-cu12==12.1.105
+llfbench==0.1.0
+wheel==0.45.1
+PySocks==1.7.1
+ml-dtypes==0.3.2
+PyYAML==6.0.2
+fast_kinematics==0.2.2
+gin-config==0.5.0
+setproctitle==1.3.7
+safetensors==0.5.3
+torchvision==0.17.2
+semantic-version==2.10.0
+PyOpenGL==3.1.10
+nltk==3.9.2
+lxml==6.0.2
+pydantic==2.12.5
+tqdm==4.67.1
+keras==2.15.0
+parse==1.19.1
+linkify-it-py==2.0.3
+dm-tree==0.1.8
+requests-oauthlib==2.0.0
+scikit-learn==1.6.1
+altair==6.0.0
+Werkzeug==3.1.5
+sentencepiece==0.2.0
+uvicorn==0.39.0
+cycler==0.12.1
+transformers==4.47.1
+uvloop==0.22.1
+mkl_random==1.2.8
+GitPython==3.1.46
+regex==2025.9.1
+jax==0.4.30
+llvmlite==0.39.1
+pyasn1_modules==0.4.2
+nvidia-cudnn-cu12==8.9.2.26
+pydantic_core==2.41.5
+google-genai==1.47.0
+propcache==0.3.1
+pycares==4.10.0
+pyperclip==1.11.0
+pyasn1==0.6.2
+async-timeout==5.0.1
+psutil==7.0.0
+gym==0.23.1
+dm-env==1.6
+Jinja2==3.1.6
+sentence-transformers==3.2.1
+einops==0.4.1
+triton==2.2.0
+grpcio==1.76.0
+labmaze==1.0.6
+nvidia-ml-py==13.590.44
+brotlicffi==1.0.9.2
+smmap==5.0.2
+cloudpickle==3.1.2
+setuptools==80.9.0
+starlette==0.49.3
+prompt_toolkit==3.0.52
+wrapt==1.14.2
+h5py==3.14.0
+scikit-image==0.19.3
+joblib==1.5.3
+opencv-python==4.11.0.86
+rich==14.2.0
+trl==0.11.4
+gym-notices==0.1.0
+trimesh==4.11.1
+mdit-py-plugins==0.3.3
+distro==1.9.0
+executing==2.2.1
+mkl-service==2.4.0
+nvidia-cusolver-cu12==11.4.5.107
+FLAML==2.3.6
+mujoco-py==2.1.2.14
+h11==0.16.0
+highway-env==1.9.1
+httpcore==1.0.9
+tensorboard-data-server==0.7.2
+tzdata==2025.3
+absl-py==2.3.1
+jsonschema-specifications==2025.9.1
+numba==0.56.4
+tabulate==0.9.0
+importlib-resources==5.13.0
+pycparser==2.23
+mkl_fft==1.3.11
+torch==2.2.2
+nvidia-cublas-cu12==12.1.3.1
+zipp==3.19.2
+jaraco.text==3.12.1
+jaraco.context==5.3.0
+importlib_metadata==8.0.0
+typeguard==4.3.0
+inflect==7.3.1
+more-itertools==10.3.0
+wheel==0.45.1
+packaging==24.2
+backports.tarfile==1.2.0
+autocommand==2.2.2
+jaraco.collections==5.1.0
+tomli==2.0.1
+platformdirs==4.2.2
+jaraco.functools==4.0.1
+typing_extensions==4.12.2
diff --git a/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/files/wandb-metadata.json b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..0c87a8d0862d090afde7f8730a57ba4ebaa720c2
--- /dev/null
+++ b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/files/wandb-metadata.json
@@ -0,0 +1,108 @@
+{
+  "os": "Linux-4.18.0-513.24.1.el8_9.x86_64-x86_64-with-glibc2.28",
+  "python": "3.9.25",
+  "startedAt": "2026-01-21T05:12:36.447778Z",
+  "args": [
+    "--config-path",
+    "./config/main_table",
+    "--config-name",
+    "llmbc_box-close-v2.yaml",
+    "policy.loss_llm_weight=1.0e-3",
+    "training.seed=42"
+  ],
+  "program": "/work/u1131674/LLM-BC/./train.py",
+  "codePath": "train.py",
+  "git": {
+    "remote": "https://github.com/CHYang25/LLM-BC.git",
+    "commit": "1d2e1f5818e116390426ef596d075fc0cf1b0081"
+  },
+  "email": "chris920325@gmail.com",
+  "root": "/work/u1131674/LLM-BC/data/outputs/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2",
+  "host": "hgpn19",
+  "username": "u1131674",
+  "executable": "/home/u1131674/.conda/envs/llm-bc/bin/python3",
+  "codePathLocal": "train.py",
+  "cpu_count": 112,
+  "cpu_count_logical": 112,
+  "gpu": "NVIDIA H100 80GB HBM3",
+  "gpu_count": 1,
+  "disk": {
+    "/": {
+      "total": "1918024196096",
+      "used": "394359058432"
+    }
+  },
+  "memory": {
+    "total": "2163685928960"
+  },
+  "cpu": {
+    "count": 112,
+    "countLogical": 112
+  },
+  "gpu_nvidia": [
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    }
+  ],
+  "slurm": {
+    "cluster_name": "hpc",
+    "conf": "/etc/slurm/slurm.conf",
+    "cpu_bind": "quiet,mask_cpu:0x00000000000000000000000000FF",
+    "cpu_bind_list": "0x00000000000000000000000000FF",
+    "cpu_bind_type": "mask_cpu:",
+    "cpu_bind_verbose": "quiet",
+    "cpus_on_node": "8",
+    "cpus_per_task": "8",
+    "distribution": "cyclic,pack",
+    "gpus_on_node": "1",
+    "gpus_per_node": "1",
+    "gtids": "0",
+    "job_account": "mst114558",
+    "job_cpus_per_node": "8",
+    "job_end_time": "1769145136",
+    "job_gid": "106773",
+    "job_group": "MST114558",
+    "job_id": "99320",
+    "job_name": "python3",
+    "job_nodelist": "hgpn19",
+    "job_num_nodes": "1",
+    "job_partition": "normal",
+    "job_qos": "normal",
+    "job_start_time": "1768972336",
+    "job_uid": "41408",
+    "job_user": "u1131674",
+    "jobid": "99320",
+    "launch_node_ipaddr": "172.21.101.1",
+    "localid": "0",
+    "mem_per_node": "204800",
+    "nnodes": "1",
+    "nodeid": "0",
+    "nodelist": "hgpn19",
+    "nprocs": "1",
+    "ntasks": "1",
+    "prio_process": "0",
+    "procid": "0",
+    "srun_comm_host": "172.21.101.1",
+    "srun_comm_port": "37185",
+    "step_gpus": "0",
+    "step_id": "0",
+    "step_launcher_port": "37185",
+    "step_nodelist": "hgpn19",
+    "step_num_nodes": "1",
+    "step_num_tasks": "1",
+    "step_tasks_per_node": "1",
+    "stepid": "0",
+    "submit_dir": "/work/u1131674/LLM-BC",
+    "submit_host": "cbi-lgn01",
+    "task_pid": "3666395",
+    "tasks_per_node": "1",
+    "topology_addr": "ibsw1.hgpn19",
+    "topology_addr_pattern": "switch.node",
+    "tres_per_task": "cpu:8",
+    "umask": "0022"
+  },
+  "cudaVersion": "12.4"
+}
\ No newline at end of file
diff --git a/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/logs/debug-core.log b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..b24f0eb556babfae0ec9fff047bd0dce7c8ac6e4
--- /dev/null
+++ b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/logs/debug-core.log
@@ -0,0 +1,7 @@
+{"time":"2026-01-21T13:12:35.832711383+08:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmpgly62w7c/port-3666395.txt","pid":3666395,"debug":false,"disable-analytics":false}
+{"time":"2026-01-21T13:12:35.8327317+08:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2026-01-21T13:12:35.833044589+08:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":3666395}
+{"time":"2026-01-21T13:12:35.833040266+08:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":39835,"Zone":""}}
+{"time":"2026-01-21T13:12:36.026076689+08:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:57216"}
+{"time":"2026-01-21T13:12:36.448305573+08:00","level":"INFO","msg":"handleInformInit: received","streamId":"yhjy9tz9","id":"127.0.0.1:57216"}
+{"time":"2026-01-21T13:12:36.565012013+08:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"yhjy9tz9","id":"127.0.0.1:57216"}
diff --git a/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/logs/debug-internal.log b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..046dcb6c0b0db686eeee21c8c44f6d67b74660a2
--- /dev/null
+++ b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2026-01-21T13:12:36.44966483+08:00","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2026-01-21T13:12:36.449675304+08:00","level":"INFO","msg":"created symlink","path":"/work/u1131674/LLM-BC/data/outputs/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/logs/debug-core.log"}
+{"time":"2026-01-21T13:12:36.564980991+08:00","level":"INFO","msg":"created new stream","id":"yhjy9tz9"}
+{"time":"2026-01-21T13:12:36.565006242+08:00","level":"INFO","msg":"stream: started","id":"yhjy9tz9"}
+{"time":"2026-01-21T13:12:36.565029519+08:00","level":"INFO","msg":"sender: started","stream_id":"yhjy9tz9"}
+{"time":"2026-01-21T13:12:36.565021074+08:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"yhjy9tz9"}}
+{"time":"2026-01-21T13:12:36.565029409+08:00","level":"INFO","msg":"handler: started","stream_id":{"value":"yhjy9tz9"}}
+{"time":"2026-01-21T13:12:37.456830647+08:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/logs/debug.log b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..7cc40016b0d531704b8d3f8f3b8124e6afe091d9
--- /dev/null
+++ b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/logs/debug.log
@@ -0,0 +1,26 @@
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_setup.py:_flush():79] Configure stats pid to 3666395
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_setup.py:_flush():79] Loading settings from /home/u1131674/.config/wandb/settings
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_setup.py:_flush():79] Loading settings from /work/u1131674/LLM-BC/wandb/settings
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/work/u1131674/LLM-BC/train.py', 'program': '/work/u1131674/LLM-BC/./train.py'}
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_setup.py:_flush():79] Applying login settings: {}
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_init.py:_log_setup():533] Logging user logs to /work/u1131674/LLM-BC/data/outputs/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/logs/debug.log
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_init.py:_log_setup():534] Logging internal logs to /work/u1131674/LLM-BC/data/outputs/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/logs/debug-internal.log
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_init.py:init():619] calling init triggers
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llmbc_lowdim', '_target_': 'llmbc.workspace.train_llmbc_lowdim_workspace.TrainLLMBCLowdimWorkspace', 'obs_dim': 9, 'action_dim': 4, 'task_name': 'box-close-v2', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llmbc_lowdim_policy.LLMBCLowdimPolicy', 'model': {'_target_': 'llmbc.model.policy.policy_mlp.PolicyMLP', 'input_size': 9, 'hidden_size': [256, 256], 'output_size': 4, 'activation': 'relu', 'n_obs_steps': 1, 'n_action_steps': 1}, 'obs_dim': 9, 'action_dim': 4, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'box-close-v2', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2026.01.21/13.12.19_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 9, 'action_dim': 4, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_bc_weight': 1.0, 'loss_llm_weight': 0.001, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'normalize_llm_loss': True}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.01, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 42, 'debug': False, 'resume': False, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 10, 'num_epochs': 1001, 'gradient_accumulate_every': 8, 'grad_norm_clip': 0.5, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'sample_max_batch': 128, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'box-close-v2-training', 'resume': True, 'mode': 'online', 'name': '2026.01.21-13.12.19_train_llmbc_lowdim_box-close-v2', 'tags': ['train_llmbc_lowdim', 'box-close-v2', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2', 'wandb_name_base': '2026.01.21-13.12.19_train_llmbc_lowdim_box-close-v2'}, 'task': {'name': 'box-close-v2', 'obs_dim': 9, 'action_dim': 4, 'env_runner': {'_target_': 'llmbc.env_runner.metaworld_lowdim_runner.MetaworldLowdimRunner', 'env_name': 'llf-metaworld-box-close-v2', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 30, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.9}, 'dataset': {'_target_': 'llmbc.dataset.metaworld_lowdim_dataset.MetaworldLowdimDataset', 'data_path': 'datasets/box-close-v2.pt', 'data_path2': 'datasets/box-close-v2.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.1, 'dummy_normalizer': True}, 'instructor': {'_target_': 'llmbc.translator.instructor.metaworld_instructor.box_close_v2_instructor.BoxCloseV2Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2026.01.21/13.12.19_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_init.py:init():669] starting backend
+2026-01-21 13:12:36,445 INFO    MainThread:3666395 [wandb_init.py:init():673] sending inform_init request
+2026-01-21 13:12:36,447 INFO    MainThread:3666395 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2026-01-21 13:12:36,447 INFO    MainThread:3666395 [wandb_init.py:init():686] backend started and connected
+2026-01-21 13:12:36,456 INFO    MainThread:3666395 [wandb_init.py:init():781] updated telemetry
+2026-01-21 13:12:36,506 INFO    MainThread:3666395 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2026-01-21 13:12:37,452 INFO    MainThread:3666395 [wandb_init.py:init():867] starting run threads in backend
+2026-01-21 13:12:38,016 INFO    MainThread:3666395 [wandb_run.py:_console_start():2451] atexit reg
+2026-01-21 13:12:38,016 INFO    MainThread:3666395 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2026-01-21 13:12:38,016 INFO    MainThread:3666395 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2026-01-21 13:12:38,016 INFO    MainThread:3666395 [wandb_run.py:_redirect():2389] Redirects installed.
+2026-01-21 13:12:38,019 INFO    MainThread:3666395 [wandb_init.py:init():911] run started, returning control to user process
+2026-01-21 13:12:38,019 INFO    MainThread:3666395 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/work/u1131674/LLM-BC/data/outputs/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2'}
diff --git a/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/run-yhjy9tz9.wandb b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/run-yhjy9tz9.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..09fbd16c6bc186e09f9fed4ebf1f40635f94df5e
--- /dev/null
+++ b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_131236-yhjy9tz9/run-yhjy9tz9.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8a15abdc3557e86e80be7f022afc84d1b6a86d97d6b37b42da9bb26e3ca4834e
+size 327680
diff --git a/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/wandb-resume.json b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/wandb-resume.json
new file mode 100644
index 0000000000000000000000000000000000000000..87f35b66672684a82e4dc0a9d09a3a57843f3175
--- /dev/null
+++ b/2026.01.21/13.12.19_train_llmbc_lowdim_box-close-v2/wandb/wandb-resume.json
@@ -0,0 +1 @@
+{"run_id": "yhjy9tz9"}
\ No newline at end of file
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..fdc6f65d0112b7d27c6b4beb56c6feb3cfd613b2
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml
@@ -0,0 +1,163 @@
+name: train_llmbc_lowdim
+_target_: llmbc.workspace.train_llmbc_lowdim_workspace.TrainLLMBCLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llmbc_lowdim_policy.LLMBCLowdimPolicy
+  model:
+    _target_: llmbc.model.policy.policy_mlp.PolicyMLP
+    input_size: ${eval:'${n_obs_steps}*${obs_dim}'}
+    hidden_size:
+    - 256
+    - 256
+    output_size: ${eval:'${n_action_steps}*${action_dim}'}
+    activation: relu
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${task.obs_dim}
+      action_dim: ${task.action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${n_action_steps}
+  loss_bc_weight: 1.0
+  loss_llm_weight: 1.0
+  horizon: ${horizon}
+  n_obs_steps: ${n_obs_steps}
+  n_action_steps: ${n_action_steps}
+  normalize_llm_loss: true
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.01
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 42
+  debug: false
+  resume: false
+  lr_scheduler: cosine
+  lr_warmup_steps: 10
+  num_epochs: 1001
+  gradient_accumulate_every: 8
+  grad_norm_clip: 0.5
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  sample_max_batch: 128
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: box-close-v2
+  obs_dim: 9
+  action_dim: 4
+  env_runner:
+    _target_: llmbc.env_runner.metaworld_lowdim_runner.MetaworldLowdimRunner
+    env_name: llf-metaworld-box-close-v2
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 30
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    - fp
+    visual: false
+    discount: 0.9
+  dataset:
+    _target_: llmbc.dataset.metaworld_lowdim_dataset.MetaworldLowdimDataset
+    data_path: datasets/box-close-v2.pt
+    data_path2: datasets/box-close-v2.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    obs_eef_target: true
+    use_manual_normalizer: false
+    val_ratio: 0.1
+    dummy_normalizer: true
+  instructor:
+    _target_: llmbc.translator.instructor.metaworld_instructor.box_close_v2_instructor.BoxCloseV2Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..3b8de7c1f320cd99ec4c75cf7ddac7025597b79b
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml
@@ -0,0 +1,156 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - policy.loss_llm_weight=1.0
+    - training.seed=42
+  job:
+    name: train
+    chdir: null
+    override_dirname: policy.loss_llm_weight=1.0,training.seed=42
+    id: ???
+    num: ???
+    config_name: llmbc_box-close-v2.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /work/u1131674/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /work/u1131674/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /work/u1131674/LLM-BC/data/outputs/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..c942dead3731bf6f4f16b8203638bd10d5cefcda
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml
@@ -0,0 +1,2 @@
+- policy.loss_llm_weight=1.0
+- training.seed=42
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/checkpoints/epoch=0000-test_success_rate=0.000.ckpt b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/checkpoints/epoch=0000-test_success_rate=0.000.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..11df1b3e303a91b12d134f7bdd65f7bec858d883
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/checkpoints/epoch=0000-test_success_rate=0.000.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d5378f0926ed6ae304f87ba9b6b5446204376808866f74a7290691c6290a7276
+size 864520
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/checkpoints/epoch=0005-test_success_rate=0.020.ckpt b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/checkpoints/epoch=0005-test_success_rate=0.020.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..9da6028454bd552084d8920edff89814c6a5cf26
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/checkpoints/epoch=0005-test_success_rate=0.020.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5bd30a5bc6f78125e8a77aee829a05d7cc69fb21f30e08d8fca20e44f80e6b39
+size 864520
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/checkpoints/epoch=0010-test_success_rate=0.000.ckpt b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/checkpoints/epoch=0010-test_success_rate=0.000.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..93ec3cd7b4e7885adb891f66f7306d5965343787
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/checkpoints/epoch=0010-test_success_rate=0.000.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:88b74af141d360240dd1ee4b98d59a39c1ed503769df8cbd09334cca7eddb044
+size 864520
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/checkpoints/latest.ckpt b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/checkpoints/latest.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..93ec3cd7b4e7885adb891f66f7306d5965343787
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/checkpoints/latest.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:88b74af141d360240dd1ee4b98d59a39c1ed503769df8cbd09334cca7eddb044
+size 864520
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/logs.json.txt b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/logs.json.txt
new file mode 100644
index 0000000000000000000000000000000000000000..9358223f9aa831288dbbb1657c3d4d31762d4cd0
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/logs.json.txt
@@ -0,0 +1,3176 @@
+{"train_loss": 0.8313266038894653, "train_loss_bc": 0.25195011496543884, "train_loss_llm": 0.5793765187263489, "grad_norm": 0.19568289816379547, "global_step": 0, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.8363328576087952, "train_loss_bc": 0.27264082431793213, "train_loss_llm": 0.563692033290863, "grad_norm": 0.3605307638645172, "global_step": 1, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.844618558883667, "train_loss_bc": 0.28621771931648254, "train_loss_llm": 0.5584008693695068, "grad_norm": 0.37696170806884766, "global_step": 2, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.9018084406852722, "train_loss_bc": 0.2865779399871826, "train_loss_llm": 0.6152305006980896, "grad_norm": 0.5888826847076416, "global_step": 3, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.8220902681350708, "train_loss_bc": 0.2797144949436188, "train_loss_llm": 0.5423757433891296, "grad_norm": 0.7436151504516602, "global_step": 4, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.8652846217155457, "train_loss_bc": 0.31439733505249023, "train_loss_llm": 0.5508872866630554, "grad_norm": 1.05312979221344, "global_step": 5, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.8549215793609619, "train_loss_bc": 0.27196407318115234, "train_loss_llm": 0.5829575061798096, "grad_norm": 1.3370558023452759, "global_step": 6, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.81691575050354, "train_loss_bc": 0.22543349862098694, "train_loss_llm": 0.5914822816848755, "grad_norm": 1.5119603872299194, "global_step": 7, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.7325221300125122, "train_loss_bc": 0.2028963267803192, "train_loss_llm": 0.5296257734298706, "grad_norm": 1.619626760482788, "global_step": 8, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.8231062889099121, "train_loss_bc": 0.2289796769618988, "train_loss_llm": 0.5941265821456909, "grad_norm": 0.28878751397132874, "global_step": 9, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.7365598082542419, "train_loss_bc": 0.2359171062707901, "train_loss_llm": 0.500642716884613, "grad_norm": 0.5618037581443787, "global_step": 10, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.7297426462173462, "train_loss_bc": 0.23217785358428955, "train_loss_llm": 0.49756476283073425, "grad_norm": 0.8748283386230469, "global_step": 11, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.8700624108314514, "train_loss_bc": 0.2836468815803528, "train_loss_llm": 0.5864155292510986, "grad_norm": 1.1272468566894531, "global_step": 12, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.7936700582504272, "train_loss_bc": 0.2633107900619507, "train_loss_llm": 0.5303592681884766, "grad_norm": 1.2873634099960327, "global_step": 13, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.8643474578857422, "train_loss_bc": 0.3005715012550354, "train_loss_llm": 0.5637759566307068, "grad_norm": 1.6147396564483643, "global_step": 14, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.8074679374694824, "train_loss_bc": 0.2702074348926544, "train_loss_llm": 0.5372605323791504, "grad_norm": 1.8537328243255615, "global_step": 15, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.7411356568336487, "train_loss_bc": 0.23075123131275177, "train_loss_llm": 0.5103844404220581, "grad_norm": 2.021789312362671, "global_step": 16, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.7354443669319153, "train_loss_bc": 0.24294354021549225, "train_loss_llm": 0.49250084161758423, "grad_norm": 0.30360040068626404, "global_step": 17, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.7209551334381104, "train_loss_bc": 0.22154095768928528, "train_loss_llm": 0.4994141757488251, "grad_norm": 0.6377134323120117, "global_step": 18, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.6589118242263794, "train_loss_bc": 0.16606873273849487, "train_loss_llm": 0.49284306168556213, "grad_norm": 0.6619905233383179, "global_step": 19, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.7598463296890259, "train_loss_bc": 0.2159489393234253, "train_loss_llm": 0.5438973903656006, "grad_norm": 0.870284914970398, "global_step": 20, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.6931416988372803, "train_loss_bc": 0.19678789377212524, "train_loss_llm": 0.49635377526283264, "grad_norm": 0.7532075643539429, "global_step": 21, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.7178231477737427, "train_loss_bc": 0.23771733045578003, "train_loss_llm": 0.48010578751564026, "grad_norm": 0.7929928302764893, "global_step": 22, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.7316043376922607, "train_loss_bc": 0.22993645071983337, "train_loss_llm": 0.501667857170105, "grad_norm": 0.9012734889984131, "global_step": 23, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.626742959022522, "train_loss_bc": 0.1712299883365631, "train_loss_llm": 0.45551297068595886, "grad_norm": 1.0485022068023682, "global_step": 24, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.6247212290763855, "train_loss_bc": 0.15165601670742035, "train_loss_llm": 0.47306522727012634, "grad_norm": 0.48823362588882446, "global_step": 25, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.6150246858596802, "train_loss_bc": 0.16425754129886627, "train_loss_llm": 0.4507671594619751, "grad_norm": 1.0485109090805054, "global_step": 26, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.45394617319107056, "train_loss_bc": 0.1483580321073532, "train_loss_llm": 0.30558812618255615, "grad_norm": 1.178194284439087, "global_step": 27, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.6752548217773438, "train_loss_bc": 0.1670721173286438, "train_loss_llm": 0.5081827044487, "grad_norm": 1.2281887531280518, "global_step": 28, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.5792257785797119, "train_loss_bc": 0.1513230800628662, "train_loss_llm": 0.4279026985168457, "grad_norm": 1.7420903444290161, "global_step": 29, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.6333491802215576, "train_loss_bc": 0.19699230790138245, "train_loss_llm": 0.43635687232017517, "grad_norm": 2.359750270843506, "global_step": 30, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.5619653463363647, "train_loss_bc": 0.17124873399734497, "train_loss_llm": 0.39071664214134216, "grad_norm": 2.5432322025299072, "global_step": 31, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.6519235372543335, "train_loss_bc": 0.1732330322265625, "train_loss_llm": 0.478690505027771, "grad_norm": 2.8135223388671875, "global_step": 32, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.571378231048584, "train_loss_bc": 0.12866553664207458, "train_loss_llm": 0.4427126944065094, "grad_norm": 0.3528197109699249, "global_step": 33, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.5374764204025269, "train_loss_bc": 0.1399051398038864, "train_loss_llm": 0.39757129549980164, "grad_norm": 0.7597311735153198, "global_step": 34, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.5663977265357971, "train_loss_bc": 0.12099409848451614, "train_loss_llm": 0.4454036056995392, "grad_norm": 1.062244176864624, "global_step": 35, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.5751760005950928, "train_loss_bc": 0.11996978521347046, "train_loss_llm": 0.4552062451839447, "grad_norm": 1.0516929626464844, "global_step": 36, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.5612151622772217, "train_loss_bc": 0.11587318032979965, "train_loss_llm": 0.4453420042991638, "grad_norm": 1.0004255771636963, "global_step": 37, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.636669933795929, "train_loss_bc": 0.12581126391887665, "train_loss_llm": 0.5108586549758911, "grad_norm": 1.2774564027786255, "global_step": 38, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.6454203128814697, "train_loss_bc": 0.14944717288017273, "train_loss_llm": 0.4959731698036194, "grad_norm": 1.1955031156539917, "global_step": 39, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.6086721420288086, "train_loss_bc": 0.13764478266239166, "train_loss_llm": 0.47102734446525574, "grad_norm": 1.5023189783096313, "global_step": 40, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.700048565864563, "train_loss_bc": 0.14525236189365387, "train_loss_llm": 0.5547962188720703, "grad_norm": 0.6365259289741516, "global_step": 41, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.7470864057540894, "train_loss_bc": 0.11557415127754211, "train_loss_llm": 0.6315122246742249, "grad_norm": 1.4149874448776245, "global_step": 42, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.7456610798835754, "train_loss_bc": 0.1255815625190735, "train_loss_llm": 0.620079517364502, "grad_norm": 1.402403473854065, "global_step": 43, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.6957529187202454, "train_loss_bc": 0.1251855492591858, "train_loss_llm": 0.5705673694610596, "grad_norm": 1.4071862697601318, "global_step": 44, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.6497532725334167, "train_loss_bc": 0.10828769952058792, "train_loss_llm": 0.5414655804634094, "grad_norm": 1.7386101484298706, "global_step": 45, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.6696566343307495, "train_loss_bc": 0.0925987958908081, "train_loss_llm": 0.5770578384399414, "grad_norm": 2.2053885459899902, "global_step": 46, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.6757327318191528, "train_loss_bc": 0.11974617838859558, "train_loss_llm": 0.5559865832328796, "grad_norm": 2.5256292819976807, "global_step": 47, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.680288553237915, "train_loss_bc": 0.13305431604385376, "train_loss_llm": 0.5472342371940613, "grad_norm": 3.0138795375823975, "global_step": 48, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.8119573593139648, "train_loss_bc": 0.16762256622314453, "train_loss_llm": 0.6443347930908203, "grad_norm": 0.4320089817047119, "global_step": 49, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.713575005531311, "train_loss_bc": 0.11115480959415436, "train_loss_llm": 0.6024202108383179, "grad_norm": 0.5432529449462891, "global_step": 50, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.6725531816482544, "train_loss_bc": 0.13280801475048065, "train_loss_llm": 0.5397451519966125, "grad_norm": 0.8188819885253906, "global_step": 51, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.7697457075119019, "train_loss_bc": 0.16904178261756897, "train_loss_llm": 0.6007039546966553, "grad_norm": 1.255976915359497, "global_step": 52, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.7852547764778137, "train_loss_bc": 0.15236406028270721, "train_loss_llm": 0.6328907012939453, "grad_norm": 1.4046225547790527, "global_step": 53, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.6396813988685608, "train_loss_bc": 0.11201974004507065, "train_loss_llm": 0.5276616811752319, "grad_norm": 1.5692311525344849, "global_step": 54, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.6749893426895142, "train_loss_bc": 0.1517806500196457, "train_loss_llm": 0.5232086777687073, "grad_norm": 1.891929030418396, "global_step": 55, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.6836948990821838, "train_loss_bc": 0.14996939897537231, "train_loss_llm": 0.5337255001068115, "grad_norm": 2.1591286659240723, "global_step": 56, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.749997615814209, "train_loss_bc": 0.16228321194648743, "train_loss_llm": 0.587714433670044, "grad_norm": 1.2689244747161865, "global_step": 57, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.7045919895172119, "train_loss_bc": 0.1564776599407196, "train_loss_llm": 0.5481142997741699, "grad_norm": 1.7910398244857788, "global_step": 58, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.6257767081260681, "train_loss_bc": 0.1288968026638031, "train_loss_llm": 0.496879905462265, "grad_norm": 1.3609168529510498, "global_step": 59, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.6768624186515808, "train_loss_bc": 0.11660248041152954, "train_loss_llm": 0.5602599382400513, "grad_norm": 1.8823113441467285, "global_step": 60, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.7805521488189697, "train_loss_bc": 0.158256396651268, "train_loss_llm": 0.6222957372665405, "grad_norm": 1.9486706256866455, "global_step": 61, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.6632103323936462, "train_loss_bc": 0.12338274717330933, "train_loss_llm": 0.5398275852203369, "grad_norm": 2.357013463973999, "global_step": 62, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.6085345149040222, "train_loss_bc": 0.10783083736896515, "train_loss_llm": 0.5007036924362183, "grad_norm": 2.711512804031372, "global_step": 63, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.6855509281158447, "train_loss_bc": 0.14549601078033447, "train_loss_llm": 0.5400549173355103, "grad_norm": 2.932204008102417, "global_step": 64, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.533577561378479, "train_loss_bc": 0.1347663700580597, "train_loss_llm": 0.3988111615180969, "grad_norm": 0.6197682023048401, "global_step": 65, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.5243123173713684, "train_loss_bc": 0.126514732837677, "train_loss_llm": 0.3977975845336914, "grad_norm": 1.5631933212280273, "global_step": 66, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.5849275588989258, "train_loss_bc": 0.12998796999454498, "train_loss_llm": 0.454939603805542, "grad_norm": 2.050203800201416, "global_step": 67, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.6737543940544128, "train_loss_bc": 0.215640589594841, "train_loss_llm": 0.45811378955841064, "grad_norm": 2.473456382751465, "global_step": 68, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.6213467121124268, "train_loss_bc": 0.11805020272731781, "train_loss_llm": 0.5032964944839478, "grad_norm": 3.375162363052368, "global_step": 69, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.623358428478241, "train_loss_bc": 0.14675572514533997, "train_loss_llm": 0.476602703332901, "grad_norm": 3.7143988609313965, "global_step": 70, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.47576427459716797, "train_loss_bc": 0.14363427460193634, "train_loss_llm": 0.3321300148963928, "grad_norm": 4.223862171173096, "global_step": 71, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.5712929964065552, "train_loss_bc": 0.14802372455596924, "train_loss_llm": 0.42326924204826355, "grad_norm": 5.257699489593506, "global_step": 72, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.5760146379470825, "train_loss_bc": 0.13023659586906433, "train_loss_llm": 0.4457780420780182, "grad_norm": 0.3408721089363098, "global_step": 73, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.6984405517578125, "train_loss_bc": 0.1528361439704895, "train_loss_llm": 0.545604407787323, "grad_norm": 1.509529948234558, "global_step": 74, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.6370081901550293, "train_loss_bc": 0.12532517313957214, "train_loss_llm": 0.5116829872131348, "grad_norm": 1.6523109674453735, "global_step": 75, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.651146650314331, "train_loss_bc": 0.13391375541687012, "train_loss_llm": 0.5172328948974609, "grad_norm": 2.7741808891296387, "global_step": 76, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.7337790131568909, "train_loss_bc": 0.17371296882629395, "train_loss_llm": 0.5600660443305969, "grad_norm": 3.5451955795288086, "global_step": 77, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.7240985631942749, "train_loss_bc": 0.11982648074626923, "train_loss_llm": 0.6042720675468445, "grad_norm": 4.919520854949951, "global_step": 78, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.6126335859298706, "train_loss_bc": 0.15389293432235718, "train_loss_llm": 0.4587406516075134, "grad_norm": 5.980681896209717, "global_step": 79, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.7417397499084473, "train_loss_bc": 0.11036017537117004, "train_loss_llm": 0.6313795447349548, "grad_norm": 7.16304349899292, "global_step": 80, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.7765107750892639, "train_loss_bc": 0.10514302551746368, "train_loss_llm": 0.6713677644729614, "grad_norm": 0.3581184446811676, "global_step": 81, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.8404637575149536, "train_loss_bc": 0.12236380577087402, "train_loss_llm": 0.7180999517440796, "grad_norm": 1.0500385761260986, "global_step": 82, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.6680566072463989, "train_loss_bc": 0.11400905251502991, "train_loss_llm": 0.5540475845336914, "grad_norm": 1.3361051082611084, "global_step": 83, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.8023328185081482, "train_loss_bc": 0.10530571639537811, "train_loss_llm": 0.6970270872116089, "grad_norm": 1.7183122634887695, "global_step": 84, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.7142009139060974, "train_loss_bc": 0.1393928974866867, "train_loss_llm": 0.5748080015182495, "grad_norm": 2.234342336654663, "global_step": 85, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.7243236303329468, "train_loss_bc": 0.12589135766029358, "train_loss_llm": 0.5984322428703308, "grad_norm": 2.8847038745880127, "global_step": 86, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.7086223363876343, "train_loss_bc": 0.12293017655611038, "train_loss_llm": 0.5856921672821045, "grad_norm": 3.210759401321411, "global_step": 87, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.7879502773284912, "train_loss_bc": 0.12161657214164734, "train_loss_llm": 0.6663336753845215, "grad_norm": 3.342355251312256, "global_step": 88, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.7819133400917053, "train_loss_bc": 0.08866779506206512, "train_loss_llm": 0.693245530128479, "grad_norm": 0.4061465561389923, "global_step": 89, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.6778355240821838, "train_loss_bc": 0.07598353177309036, "train_loss_llm": 0.6018519997596741, "grad_norm": 0.9757773876190186, "global_step": 90, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.6765045523643494, "train_loss_bc": 0.08461987227201462, "train_loss_llm": 0.5918846726417542, "grad_norm": 1.4663217067718506, "global_step": 91, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.7298818230628967, "train_loss_bc": 0.08294576406478882, "train_loss_llm": 0.6469360589981079, "grad_norm": 1.8079407215118408, "global_step": 92, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.6185898780822754, "train_loss_bc": 0.06542453169822693, "train_loss_llm": 0.5531653165817261, "grad_norm": 1.9481780529022217, "global_step": 93, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.6676853895187378, "train_loss_bc": 0.08439520001411438, "train_loss_llm": 0.5832902193069458, "grad_norm": 2.2004075050354004, "global_step": 94, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.5848714113235474, "train_loss_bc": 0.07452880591154099, "train_loss_llm": 0.5103425979614258, "grad_norm": 2.5905137062072754, "global_step": 95, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.6985846757888794, "train_loss_bc": 0.0786883533000946, "train_loss_llm": 0.6198962926864624, "grad_norm": 3.035501480102539, "global_step": 96, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.6329247951507568, "train_loss_bc": 0.06625214219093323, "train_loss_llm": 0.566672682762146, "grad_norm": 0.31852832436561584, "global_step": 97, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.64984530210495, "train_loss_bc": 0.06585906445980072, "train_loss_llm": 0.583986222743988, "grad_norm": 0.3918978273868561, "global_step": 98, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.6204670667648315, "train_loss_bc": 0.06154988333582878, "train_loss_llm": 0.5589171648025513, "grad_norm": 0.8008817434310913, "global_step": 99, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.6303058862686157, "train_loss_bc": 0.059621669352054596, "train_loss_llm": 0.5706841945648193, "grad_norm": 1.0015443563461304, "global_step": 100, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.6733949780464172, "train_loss_bc": 0.06387670338153839, "train_loss_llm": 0.60951828956604, "grad_norm": 0.8109094500541687, "global_step": 101, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.6420072913169861, "train_loss_bc": 0.06148868799209595, "train_loss_llm": 0.5805186033248901, "grad_norm": 0.5972558259963989, "global_step": 102, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.5898221135139465, "train_loss_bc": 0.06019408255815506, "train_loss_llm": 0.5296280384063721, "grad_norm": 0.9234480261802673, "global_step": 103, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.5860862135887146, "train_loss_bc": 0.06223937124013901, "train_loss_llm": 0.5238468647003174, "grad_norm": 1.1475905179977417, "global_step": 104, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.6203635931015015, "train_loss_bc": 0.08425287902355194, "train_loss_llm": 0.5361106991767883, "grad_norm": 0.08607848733663559, "global_step": 105, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.6076609492301941, "train_loss_bc": 0.08570748567581177, "train_loss_llm": 0.5219534635543823, "grad_norm": 0.14035871624946594, "global_step": 106, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.5832968950271606, "train_loss_bc": 0.08765765279531479, "train_loss_llm": 0.49563923478126526, "grad_norm": 0.20699994266033173, "global_step": 107, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.6167464256286621, "train_loss_bc": 0.07186004519462585, "train_loss_llm": 0.5448863506317139, "grad_norm": 0.38227757811546326, "global_step": 108, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.5484215021133423, "train_loss_bc": 0.06129927188158035, "train_loss_llm": 0.48712223768234253, "grad_norm": 0.4354296326637268, "global_step": 109, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.6034010648727417, "train_loss_bc": 0.07623648643493652, "train_loss_llm": 0.5271645784378052, "grad_norm": 0.4663279056549072, "global_step": 110, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.5433902740478516, "train_loss_bc": 0.07209351658821106, "train_loss_llm": 0.4712967574596405, "grad_norm": 0.5806366205215454, "global_step": 111, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.6501044631004333, "train_loss_bc": 0.07649253308773041, "train_loss_llm": 0.5736119151115417, "grad_norm": 0.6554194688796997, "global_step": 112, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.5971757173538208, "train_loss_bc": 0.12184911221265793, "train_loss_llm": 0.4753265976905823, "grad_norm": 0.44245225191116333, "global_step": 113, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.5405774116516113, "train_loss_bc": 0.1135147362947464, "train_loss_llm": 0.42706266045570374, "grad_norm": 0.8382753729820251, "global_step": 114, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.6186084747314453, "train_loss_bc": 0.09242409467697144, "train_loss_llm": 0.5261843800544739, "grad_norm": 0.6694650053977966, "global_step": 115, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.6162033081054688, "train_loss_bc": 0.09832631051540375, "train_loss_llm": 0.5178769826889038, "grad_norm": 0.46218451857566833, "global_step": 116, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.6161948442459106, "train_loss_bc": 0.11863601207733154, "train_loss_llm": 0.4975588619709015, "grad_norm": 0.516036331653595, "global_step": 117, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.5869094729423523, "train_loss_bc": 0.10637211799621582, "train_loss_llm": 0.4805373549461365, "grad_norm": 0.6917098760604858, "global_step": 118, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.6353615522384644, "train_loss_bc": 0.11543060839176178, "train_loss_llm": 0.5199309587478638, "grad_norm": 0.6870294809341431, "global_step": 119, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.5924842357635498, "train_loss_bc": 0.08739437907934189, "train_loss_llm": 0.5050898790359497, "grad_norm": 0.7161121964454651, "global_step": 120, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.6415342688560486, "train_loss_bc": 0.10673586279153824, "train_loss_llm": 0.5347983837127686, "grad_norm": 0.7448365688323975, "global_step": 121, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.6216447949409485, "train_loss_bc": 0.13135738670825958, "train_loss_llm": 0.4902874231338501, "grad_norm": 0.9667978882789612, "global_step": 122, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.709659218788147, "train_loss_bc": 0.13812290132045746, "train_loss_llm": 0.5715363025665283, "grad_norm": 1.6985499858856201, "global_step": 123, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.6559451818466187, "train_loss_bc": 0.1258990615606308, "train_loss_llm": 0.5300461053848267, "grad_norm": 2.411064863204956, "global_step": 124, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.6516229510307312, "train_loss_bc": 0.09848876297473907, "train_loss_llm": 0.5531342029571533, "grad_norm": 3.027717351913452, "global_step": 125, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.6187830567359924, "train_loss_bc": 0.13684335350990295, "train_loss_llm": 0.4819397032260895, "grad_norm": 3.3044815063476562, "global_step": 126, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.6397271156311035, "train_loss_bc": 0.11764324456453323, "train_loss_llm": 0.5220838785171509, "grad_norm": 3.704634189605713, "global_step": 127, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.5959568619728088, "train_loss_bc": 0.12032164633274078, "train_loss_llm": 0.47563520073890686, "grad_norm": 3.8218843936920166, "global_step": 128, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.7095919847488403, "train_loss_bc": 0.10220610350370407, "train_loss_llm": 0.6073858737945557, "grad_norm": 0.694095253944397, "global_step": 129, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.5936123132705688, "train_loss_bc": 0.10337748378515244, "train_loss_llm": 0.4902348220348358, "grad_norm": 1.4813703298568726, "global_step": 130, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.705855667591095, "train_loss_bc": 0.1499232053756714, "train_loss_llm": 0.5559324622154236, "grad_norm": 2.2628087997436523, "global_step": 131, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.7176936268806458, "train_loss_bc": 0.10211674124002457, "train_loss_llm": 0.6155768632888794, "grad_norm": 2.940720319747925, "global_step": 132, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.6909434199333191, "train_loss_bc": 0.10945617407560349, "train_loss_llm": 0.581487238407135, "grad_norm": 3.808136463165283, "global_step": 133, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.6531499028205872, "train_loss_bc": 0.13206584751605988, "train_loss_llm": 0.5210840702056885, "grad_norm": 4.419054985046387, "global_step": 134, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.6047822833061218, "train_loss_bc": 0.10194127261638641, "train_loss_llm": 0.5028409957885742, "grad_norm": 4.584996223449707, "global_step": 135, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.6190031170845032, "train_loss_bc": 0.10312415659427643, "train_loss_llm": 0.5158789753913879, "grad_norm": 5.193403244018555, "global_step": 136, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.6957727670669556, "train_loss_bc": 0.11590667068958282, "train_loss_llm": 0.5798661112785339, "grad_norm": 0.2811848223209381, "global_step": 137, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.5972821712493896, "train_loss_bc": 0.12460499256849289, "train_loss_llm": 0.47267717123031616, "grad_norm": 0.7630162835121155, "global_step": 138, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.7022737860679626, "train_loss_bc": 0.11667948216199875, "train_loss_llm": 0.5855942964553833, "grad_norm": 0.7395989894866943, "global_step": 139, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.5294551849365234, "train_loss_bc": 0.09338535368442535, "train_loss_llm": 0.4360698163509369, "grad_norm": 1.2054363489151, "global_step": 140, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.5766997337341309, "train_loss_bc": 0.08590236306190491, "train_loss_llm": 0.49079734086990356, "grad_norm": 1.4690495729446411, "global_step": 141, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.6680159568786621, "train_loss_bc": 0.11994433403015137, "train_loss_llm": 0.5480716228485107, "grad_norm": 1.7621300220489502, "global_step": 142, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.6203967332839966, "train_loss_bc": 0.1280258446931839, "train_loss_llm": 0.4923709034919739, "grad_norm": 2.1532232761383057, "global_step": 143, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.6331360340118408, "train_loss_bc": 0.10922515392303467, "train_loss_llm": 0.5239108800888062, "grad_norm": 2.5677027702331543, "global_step": 144, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.6013796925544739, "train_loss_bc": 0.09870920330286026, "train_loss_llm": 0.5026704668998718, "grad_norm": 0.27728700637817383, "global_step": 145, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.6342350244522095, "train_loss_bc": 0.09198327362537384, "train_loss_llm": 0.5422517657279968, "grad_norm": 0.44982558488845825, "global_step": 146, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.5620001554489136, "train_loss_bc": 0.09555114805698395, "train_loss_llm": 0.46644899249076843, "grad_norm": 0.7213959097862244, "global_step": 147, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.5587552189826965, "train_loss_bc": 0.07899651676416397, "train_loss_llm": 0.47975870966911316, "grad_norm": 0.9067458510398865, "global_step": 148, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.6176284551620483, "train_loss_bc": 0.11930093169212341, "train_loss_llm": 0.49832749366760254, "grad_norm": 1.0947027206420898, "global_step": 149, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.6315235495567322, "train_loss_bc": 0.10704723745584488, "train_loss_llm": 0.5244762897491455, "grad_norm": 1.5911121368408203, "global_step": 150, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.6320390701293945, "train_loss_bc": 0.09297312796115875, "train_loss_llm": 0.539065957069397, "grad_norm": 1.8463345766067505, "global_step": 151, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.6305031776428223, "train_loss_bc": 0.09817901253700256, "train_loss_llm": 0.5323241949081421, "grad_norm": 1.8637911081314087, "global_step": 152, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.659749448299408, "train_loss_bc": 0.0779445618391037, "train_loss_llm": 0.5818048715591431, "grad_norm": 0.19061632454395294, "global_step": 153, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.5378625392913818, "train_loss_bc": 0.07256138324737549, "train_loss_llm": 0.46530112624168396, "grad_norm": 0.30972129106521606, "global_step": 154, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.6299312114715576, "train_loss_bc": 0.0955180898308754, "train_loss_llm": 0.5344130992889404, "grad_norm": 0.495303213596344, "global_step": 155, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.6248565912246704, "train_loss_bc": 0.08166362345218658, "train_loss_llm": 0.543192982673645, "grad_norm": 0.6755563616752625, "global_step": 156, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.5874152779579163, "train_loss_bc": 0.06585406512022018, "train_loss_llm": 0.5215612053871155, "grad_norm": 0.7923941016197205, "global_step": 157, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.5911205410957336, "train_loss_bc": 0.06924962997436523, "train_loss_llm": 0.5218709111213684, "grad_norm": 1.0384002923965454, "global_step": 158, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.595698893070221, "train_loss_bc": 0.06858190149068832, "train_loss_llm": 0.5271170139312744, "grad_norm": 1.277113914489746, "global_step": 159, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.6305241584777832, "train_loss_bc": 0.07221454381942749, "train_loss_llm": 0.5583096146583557, "grad_norm": 1.491579532623291, "global_step": 160, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.6233241558074951, "train_loss_bc": 0.05888543277978897, "train_loss_llm": 0.5644387006759644, "grad_norm": 0.42433249950408936, "global_step": 161, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.5885544419288635, "train_loss_bc": 0.06433434039354324, "train_loss_llm": 0.5242201089859009, "grad_norm": 0.7519410252571106, "global_step": 162, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.555864155292511, "train_loss_bc": 0.0621156319975853, "train_loss_llm": 0.4937485158443451, "grad_norm": 1.0397820472717285, "global_step": 163, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.6634681820869446, "train_loss_bc": 0.07872708141803741, "train_loss_llm": 0.5847411155700684, "grad_norm": 1.5424201488494873, "global_step": 164, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.6786837577819824, "train_loss_bc": 0.0636448860168457, "train_loss_llm": 0.6150388717651367, "grad_norm": 1.828068733215332, "global_step": 165, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.6317124366760254, "train_loss_bc": 0.06333468109369278, "train_loss_llm": 0.5683777332305908, "grad_norm": 2.1854186058044434, "global_step": 166, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.6504004597663879, "train_loss_bc": 0.06619401276111603, "train_loss_llm": 0.5842064619064331, "grad_norm": 2.4737980365753174, "global_step": 167, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.6504256129264832, "train_loss_bc": 0.059639401733875275, "train_loss_llm": 0.5907862186431885, "grad_norm": 2.783386468887329, "global_step": 168, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.5659893751144409, "train_loss_bc": 0.0517486073076725, "train_loss_llm": 0.5142407417297363, "grad_norm": 0.16967549920082092, "global_step": 169, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.664044201374054, "train_loss_bc": 0.05724737420678139, "train_loss_llm": 0.6067968010902405, "grad_norm": 0.5432335734367371, "global_step": 170, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.6205095052719116, "train_loss_bc": 0.049484193325042725, "train_loss_llm": 0.5710253119468689, "grad_norm": 0.770635187625885, "global_step": 171, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.6260103583335876, "train_loss_bc": 0.057374510914087296, "train_loss_llm": 0.5686358213424683, "grad_norm": 1.1048003435134888, "global_step": 172, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.6476009488105774, "train_loss_bc": 0.06347770988941193, "train_loss_llm": 0.5841232538223267, "grad_norm": 1.47969388961792, "global_step": 173, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.5936827063560486, "train_loss_bc": 0.05407624691724777, "train_loss_llm": 0.5396064519882202, "grad_norm": 1.7960199117660522, "global_step": 174, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.5763559937477112, "train_loss_bc": 0.0550578348338604, "train_loss_llm": 0.5212981700897217, "grad_norm": 2.2928237915039062, "global_step": 175, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.6640670895576477, "train_loss_bc": 0.06301622092723846, "train_loss_llm": 0.601050853729248, "grad_norm": 2.7107558250427246, "global_step": 176, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.6389837265014648, "train_loss_bc": 0.05553784221410751, "train_loss_llm": 0.5834459066390991, "grad_norm": 0.3172086477279663, "global_step": 177, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.5678266286849976, "train_loss_bc": 0.053818799555301666, "train_loss_llm": 0.5140078067779541, "grad_norm": 0.598364531993866, "global_step": 178, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.5729694366455078, "train_loss_bc": 0.056438714265823364, "train_loss_llm": 0.5165307521820068, "grad_norm": 0.731922447681427, "global_step": 179, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.5084301233291626, "train_loss_bc": 0.05428725853562355, "train_loss_llm": 0.45414283871650696, "grad_norm": 0.733647882938385, "global_step": 180, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.5737233757972717, "train_loss_bc": 0.050930775701999664, "train_loss_llm": 0.5227925777435303, "grad_norm": 0.8674271106719971, "global_step": 181, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.6155983805656433, "train_loss_bc": 0.06356732547283173, "train_loss_llm": 0.5520310401916504, "grad_norm": 1.2366605997085571, "global_step": 182, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.5460070371627808, "train_loss_bc": 0.05507149174809456, "train_loss_llm": 0.4909355342388153, "grad_norm": 1.419065237045288, "global_step": 183, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.5784890651702881, "train_loss_bc": 0.05067930370569229, "train_loss_llm": 0.527809739112854, "grad_norm": 1.730777382850647, "global_step": 184, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.5986790657043457, "train_loss_bc": 0.053367312997579575, "train_loss_llm": 0.5453117489814758, "grad_norm": 0.3800815939903259, "global_step": 185, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.6331456899642944, "train_loss_bc": 0.06647957116365433, "train_loss_llm": 0.5666661262512207, "grad_norm": 0.550841212272644, "global_step": 186, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.6557256579399109, "train_loss_bc": 0.06513433903455734, "train_loss_llm": 0.590591311454773, "grad_norm": 0.6506525278091431, "global_step": 187, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.6531068682670593, "train_loss_bc": 0.06685297936201096, "train_loss_llm": 0.5862538814544678, "grad_norm": 0.813978374004364, "global_step": 188, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.585102915763855, "train_loss_bc": 0.050116654485464096, "train_loss_llm": 0.5349862575531006, "grad_norm": 0.9901291728019714, "global_step": 189, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.608094334602356, "train_loss_bc": 0.06573852896690369, "train_loss_llm": 0.5423557758331299, "grad_norm": 1.0917809009552002, "global_step": 190, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.553285539150238, "train_loss_bc": 0.051987506449222565, "train_loss_llm": 0.5012980103492737, "grad_norm": 1.3117693662643433, "global_step": 191, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.5979740619659424, "train_loss_bc": 0.05477207899093628, "train_loss_llm": 0.5432019829750061, "grad_norm": 1.5622726678848267, "global_step": 192, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.53948974609375, "train_loss_bc": 0.049603208899497986, "train_loss_llm": 0.4898865222930908, "grad_norm": 0.26885825395584106, "global_step": 193, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.5699334144592285, "train_loss_bc": 0.040948398411273956, "train_loss_llm": 0.5289850234985352, "grad_norm": 0.4311237037181854, "global_step": 194, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.5998855829238892, "train_loss_bc": 0.0649169385433197, "train_loss_llm": 0.5349686145782471, "grad_norm": 0.4776935577392578, "global_step": 195, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.5848433971405029, "train_loss_bc": 0.052904464304447174, "train_loss_llm": 0.531938910484314, "grad_norm": 0.6543026566505432, "global_step": 196, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.5419721007347107, "train_loss_bc": 0.056446049362421036, "train_loss_llm": 0.48552605509757996, "grad_norm": 0.8086276650428772, "global_step": 197, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.5236629843711853, "train_loss_bc": 0.04330951347947121, "train_loss_llm": 0.4803534746170044, "grad_norm": 1.0201612710952759, "global_step": 198, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.5237733125686646, "train_loss_bc": 0.04261238873004913, "train_loss_llm": 0.4811609089374542, "grad_norm": 1.1826351881027222, "global_step": 199, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.5727407932281494, "train_loss_bc": 0.052851997315883636, "train_loss_llm": 0.5198888182640076, "grad_norm": 1.3462566137313843, "global_step": 200, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.5506904125213623, "train_loss_bc": 0.04139140993356705, "train_loss_llm": 0.5092989802360535, "grad_norm": 0.07292228937149048, "global_step": 201, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.5165048837661743, "train_loss_bc": 0.03801167011260986, "train_loss_llm": 0.47849321365356445, "grad_norm": 0.3567997217178345, "global_step": 202, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.5340991020202637, "train_loss_bc": 0.04261269420385361, "train_loss_llm": 0.49148640036582947, "grad_norm": 0.6084778904914856, "global_step": 203, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.5330087542533875, "train_loss_bc": 0.04153793677687645, "train_loss_llm": 0.4914708435535431, "grad_norm": 0.7879531383514404, "global_step": 204, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.5892065167427063, "train_loss_bc": 0.05059516057372093, "train_loss_llm": 0.5386113524436951, "grad_norm": 1.0173338651657104, "global_step": 205, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.5024408102035522, "train_loss_bc": 0.04467802494764328, "train_loss_llm": 0.45776277780532837, "grad_norm": 1.1192439794540405, "global_step": 206, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.5470657348632812, "train_loss_bc": 0.050416335463523865, "train_loss_llm": 0.4966493844985962, "grad_norm": 1.2026572227478027, "global_step": 207, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.5016958713531494, "train_loss_bc": 0.04609403759241104, "train_loss_llm": 0.45560184121131897, "grad_norm": 1.483094334602356, "global_step": 208, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.5472368001937866, "train_loss_bc": 0.0478491485118866, "train_loss_llm": 0.4993876814842224, "grad_norm": 0.3624674081802368, "global_step": 209, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.5383202433586121, "train_loss_bc": 0.03845902532339096, "train_loss_llm": 0.4998612105846405, "grad_norm": 0.7191379070281982, "global_step": 210, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.6163931488990784, "train_loss_bc": 0.047254715114831924, "train_loss_llm": 0.5691384077072144, "grad_norm": 1.3227849006652832, "global_step": 211, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.5528941750526428, "train_loss_bc": 0.04776293784379959, "train_loss_llm": 0.5051312446594238, "grad_norm": 1.529079794883728, "global_step": 212, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.5325526595115662, "train_loss_bc": 0.030992986634373665, "train_loss_llm": 0.5015596747398376, "grad_norm": 1.7534347772598267, "global_step": 213, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.5399857759475708, "train_loss_bc": 0.041980139911174774, "train_loss_llm": 0.4980056583881378, "grad_norm": 2.1132171154022217, "global_step": 214, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.5050074458122253, "train_loss_bc": 0.041161153465509415, "train_loss_llm": 0.46384626626968384, "grad_norm": 2.419301748275757, "global_step": 215, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.5630204677581787, "train_loss_bc": 0.04377317056059837, "train_loss_llm": 0.51924729347229, "grad_norm": 2.5003366470336914, "global_step": 216, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.5476474761962891, "train_loss_bc": 0.043515950441360474, "train_loss_llm": 0.5041314959526062, "grad_norm": 0.19287417829036713, "global_step": 217, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.602856457233429, "train_loss_bc": 0.03219147026538849, "train_loss_llm": 0.5706650018692017, "grad_norm": 0.4047437906265259, "global_step": 218, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.5421754717826843, "train_loss_bc": 0.045672573149204254, "train_loss_llm": 0.4965028762817383, "grad_norm": 0.47906991839408875, "global_step": 219, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.5395273566246033, "train_loss_bc": 0.04781617224216461, "train_loss_llm": 0.49171116948127747, "grad_norm": 0.7668227553367615, "global_step": 220, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.6177992820739746, "train_loss_bc": 0.041776448488235474, "train_loss_llm": 0.5760228633880615, "grad_norm": 1.0734655857086182, "global_step": 221, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.5197610855102539, "train_loss_bc": 0.04148554801940918, "train_loss_llm": 0.47827550768852234, "grad_norm": 1.250927448272705, "global_step": 222, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.5623878240585327, "train_loss_bc": 0.040582042187452316, "train_loss_llm": 0.5218057632446289, "grad_norm": 1.3993902206420898, "global_step": 223, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.5394508838653564, "train_loss_bc": 0.036946747452020645, "train_loss_llm": 0.5025041103363037, "grad_norm": 1.6588102579116821, "global_step": 224, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.5145689249038696, "train_loss_bc": 0.041826408356428146, "train_loss_llm": 0.47274249792099, "grad_norm": 0.1394851803779602, "global_step": 225, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.5141273736953735, "train_loss_bc": 0.04913909733295441, "train_loss_llm": 0.46498826146125793, "grad_norm": 0.2277260571718216, "global_step": 226, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.5404082536697388, "train_loss_bc": 0.04541117697954178, "train_loss_llm": 0.4949970841407776, "grad_norm": 0.30826303362846375, "global_step": 227, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.5210723280906677, "train_loss_bc": 0.04269547760486603, "train_loss_llm": 0.4783768355846405, "grad_norm": 0.36804714798927307, "global_step": 228, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.5596851706504822, "train_loss_bc": 0.03812989220023155, "train_loss_llm": 0.5215553045272827, "grad_norm": 0.530840277671814, "global_step": 229, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.5538046956062317, "train_loss_bc": 0.04905159771442413, "train_loss_llm": 0.5047531127929688, "grad_norm": 0.6852225661277771, "global_step": 230, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.556023120880127, "train_loss_bc": 0.04601356387138367, "train_loss_llm": 0.5100095272064209, "grad_norm": 0.9050018191337585, "global_step": 231, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.6119743585586548, "train_loss_bc": 0.043795108795166016, "train_loss_llm": 0.5681792497634888, "grad_norm": 1.1243163347244263, "global_step": 232, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.4886215627193451, "train_loss_bc": 0.04433814436197281, "train_loss_llm": 0.4442834258079529, "grad_norm": 0.07114334404468536, "global_step": 233, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.49116814136505127, "train_loss_bc": 0.0473458506166935, "train_loss_llm": 0.44382229447364807, "grad_norm": 0.14864523708820343, "global_step": 234, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.5419774055480957, "train_loss_bc": 0.04251493513584137, "train_loss_llm": 0.49946245551109314, "grad_norm": 0.32366570830345154, "global_step": 235, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.5599954724311829, "train_loss_bc": 0.04581605643033981, "train_loss_llm": 0.5141794085502625, "grad_norm": 0.5510785579681396, "global_step": 236, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.6347646125975777, "train_loss_bc": 0.04789551720023155, "train_loss_llm": 0.44104430079460144, "grad_norm": 0.6841617822647095, "global_step": 237, "epoch": 0, "lr": 0.009999988862926341, "train/cumulative_reward": 0.8599394192354328, "train/mean_score": 0.18778941292135012, "train/success_rate": 0.0, "test/cumulative_reward": 0.8982324882353376, "test/mean_score": 0.19286863037395174, "test/success_rate": 0.0, "val_loss": 0.5265134572982788, "train_action_mse_error": 0.043627217411994934}
+{"train_loss": 0.5381523966789246, "train_loss_bc": 0.04555116221308708, "train_loss_llm": 0.492601215839386, "grad_norm": 0.8922774195671082, "global_step": 238, "epoch": 1, "lr": 0.009999988862926341}
+{"train_loss": 0.5474348664283752, "train_loss_bc": 0.04254743829369545, "train_loss_llm": 0.5048874020576477, "grad_norm": 1.039321780204773, "global_step": 239, "epoch": 1, "lr": 0.009999988862926341}
+{"train_loss": 0.509049117565155, "train_loss_bc": 0.044073931872844696, "train_loss_llm": 0.4649752080440521, "grad_norm": 1.277655005455017, "global_step": 240, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.49627938866615295, "train_loss_bc": 0.04819610342383385, "train_loss_llm": 0.4480832815170288, "grad_norm": 0.10973375290632248, "global_step": 241, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.4983351230621338, "train_loss_bc": 0.051831528544425964, "train_loss_llm": 0.446503609418869, "grad_norm": 0.2489425539970398, "global_step": 242, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.5408119559288025, "train_loss_bc": 0.049592602998018265, "train_loss_llm": 0.49121934175491333, "grad_norm": 0.3241773843765259, "global_step": 243, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.4707919657230377, "train_loss_bc": 0.05809708684682846, "train_loss_llm": 0.41269487142562866, "grad_norm": 0.47048601508140564, "global_step": 244, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.5214879512786865, "train_loss_bc": 0.04362129047513008, "train_loss_llm": 0.47786664962768555, "grad_norm": 0.5653802156448364, "global_step": 245, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.5277462601661682, "train_loss_bc": 0.05365925282239914, "train_loss_llm": 0.47408702969551086, "grad_norm": 0.7145820260047913, "global_step": 246, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.49594393372535706, "train_loss_bc": 0.04811670631170273, "train_loss_llm": 0.44782721996307373, "grad_norm": 0.8307949304580688, "global_step": 247, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.5243626832962036, "train_loss_bc": 0.06009555608034134, "train_loss_llm": 0.4642671048641205, "grad_norm": 0.9304418563842773, "global_step": 248, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.5023724436759949, "train_loss_bc": 0.056190572679042816, "train_loss_llm": 0.44618189334869385, "grad_norm": 0.17857395112514496, "global_step": 249, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.48775917291641235, "train_loss_bc": 0.053435660898685455, "train_loss_llm": 0.4343235194683075, "grad_norm": 0.33309128880500793, "global_step": 250, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.5082853436470032, "train_loss_bc": 0.052265018224716187, "train_loss_llm": 0.456020325422287, "grad_norm": 0.4480654001235962, "global_step": 251, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.5020080804824829, "train_loss_bc": 0.04970506206154823, "train_loss_llm": 0.452303022146225, "grad_norm": 0.5359346866607666, "global_step": 252, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.4868408441543579, "train_loss_bc": 0.05682246387004852, "train_loss_llm": 0.4300183951854706, "grad_norm": 0.7343043088912964, "global_step": 253, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.5475005507469177, "train_loss_bc": 0.06140977889299393, "train_loss_llm": 0.4860907793045044, "grad_norm": 0.8008485436439514, "global_step": 254, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.4903374910354614, "train_loss_bc": 0.053611624985933304, "train_loss_llm": 0.4367258548736572, "grad_norm": 0.9280992150306702, "global_step": 255, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.5334043502807617, "train_loss_bc": 0.05603662133216858, "train_loss_llm": 0.47736772894859314, "grad_norm": 1.0643631219863892, "global_step": 256, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.5516517758369446, "train_loss_bc": 0.05612470209598541, "train_loss_llm": 0.49552708864212036, "grad_norm": 0.13835476338863373, "global_step": 257, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.5231418609619141, "train_loss_bc": 0.05915754288434982, "train_loss_llm": 0.46398431062698364, "grad_norm": 0.26723143458366394, "global_step": 258, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.5235192775726318, "train_loss_bc": 0.05281173437833786, "train_loss_llm": 0.47070756554603577, "grad_norm": 0.43888208270072937, "global_step": 259, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.5558944940567017, "train_loss_bc": 0.05200108885765076, "train_loss_llm": 0.5038934350013733, "grad_norm": 0.5619978904724121, "global_step": 260, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.5043147206306458, "train_loss_bc": 0.05569998919963837, "train_loss_llm": 0.4486147463321686, "grad_norm": 0.6780798435211182, "global_step": 261, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.533893346786499, "train_loss_bc": 0.052863311022520065, "train_loss_llm": 0.48103001713752747, "grad_norm": 0.8439301252365112, "global_step": 262, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.5933086276054382, "train_loss_bc": 0.07059246301651001, "train_loss_llm": 0.5227161645889282, "grad_norm": 1.0240002870559692, "global_step": 263, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.47132816910743713, "train_loss_bc": 0.051695968955755234, "train_loss_llm": 0.4196321964263916, "grad_norm": 1.1591284275054932, "global_step": 264, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.46715712547302246, "train_loss_bc": 0.05000178515911102, "train_loss_llm": 0.41715535521507263, "grad_norm": 0.07937958836555481, "global_step": 265, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.49864432215690613, "train_loss_bc": 0.05092129856348038, "train_loss_llm": 0.44772303104400635, "grad_norm": 0.17687752842903137, "global_step": 266, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.49822020530700684, "train_loss_bc": 0.049001190811395645, "train_loss_llm": 0.4492190182209015, "grad_norm": 0.33126139640808105, "global_step": 267, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.4890698194503784, "train_loss_bc": 0.051895998418331146, "train_loss_llm": 0.4371738135814667, "grad_norm": 0.41056036949157715, "global_step": 268, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.4914860725402832, "train_loss_bc": 0.05112835019826889, "train_loss_llm": 0.4403577148914337, "grad_norm": 0.5003893971443176, "global_step": 269, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.48995691537857056, "train_loss_bc": 0.05658832564949989, "train_loss_llm": 0.43336859345436096, "grad_norm": 0.5883320569992065, "global_step": 270, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.49767428636550903, "train_loss_bc": 0.05400685966014862, "train_loss_llm": 0.4436674416065216, "grad_norm": 0.7586961388587952, "global_step": 271, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.49238455295562744, "train_loss_bc": 0.04577270895242691, "train_loss_llm": 0.44661185145378113, "grad_norm": 0.8533246517181396, "global_step": 272, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.44910189509391785, "train_loss_bc": 0.0441410169005394, "train_loss_llm": 0.40496087074279785, "grad_norm": 0.045189958065748215, "global_step": 273, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.4672417938709259, "train_loss_bc": 0.04527974873781204, "train_loss_llm": 0.42196205258369446, "grad_norm": 0.08505716174840927, "global_step": 274, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.4791067838668823, "train_loss_bc": 0.044979289174079895, "train_loss_llm": 0.4341275095939636, "grad_norm": 0.17557676136493683, "global_step": 275, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.44310635328292847, "train_loss_bc": 0.04733572527766228, "train_loss_llm": 0.3957706391811371, "grad_norm": 0.27072980999946594, "global_step": 276, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.49757620692253113, "train_loss_bc": 0.0448136031627655, "train_loss_llm": 0.4527626037597656, "grad_norm": 0.3443887531757355, "global_step": 277, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.5286760330200195, "train_loss_bc": 0.04862656071782112, "train_loss_llm": 0.4800494909286499, "grad_norm": 0.363724023103714, "global_step": 278, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.5060343146324158, "train_loss_bc": 0.04865698143839836, "train_loss_llm": 0.4573773145675659, "grad_norm": 0.5363508462905884, "global_step": 279, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.4685351848602295, "train_loss_bc": 0.04734189063310623, "train_loss_llm": 0.42119330167770386, "grad_norm": 0.5729765892028809, "global_step": 280, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.47432538866996765, "train_loss_bc": 0.04532093182206154, "train_loss_llm": 0.4290044605731964, "grad_norm": 0.11314888298511505, "global_step": 281, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.46935901045799255, "train_loss_bc": 0.048312555998563766, "train_loss_llm": 0.4210464656352997, "grad_norm": 0.15152578055858612, "global_step": 282, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.48709431290626526, "train_loss_bc": 0.04896659404039383, "train_loss_llm": 0.438127726316452, "grad_norm": 0.3490556478500366, "global_step": 283, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.4825354814529419, "train_loss_bc": 0.05201718956232071, "train_loss_llm": 0.4305182993412018, "grad_norm": 0.44826096296310425, "global_step": 284, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.5226064920425415, "train_loss_bc": 0.048371851444244385, "train_loss_llm": 0.47423461079597473, "grad_norm": 0.6183894276618958, "global_step": 285, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.49049344658851624, "train_loss_bc": 0.04646346718072891, "train_loss_llm": 0.4440299868583679, "grad_norm": 0.6792968511581421, "global_step": 286, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.5048105120658875, "train_loss_bc": 0.047896794974803925, "train_loss_llm": 0.45691370964050293, "grad_norm": 0.9179559350013733, "global_step": 287, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.4855044484138489, "train_loss_bc": 0.04968402162194252, "train_loss_llm": 0.43582043051719666, "grad_norm": 1.0505423545837402, "global_step": 288, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.5337408781051636, "train_loss_bc": 0.05116738751530647, "train_loss_llm": 0.4825734794139862, "grad_norm": 0.31405457854270935, "global_step": 289, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.473848819732666, "train_loss_bc": 0.053474776446819305, "train_loss_llm": 0.4203740358352661, "grad_norm": 0.5122129917144775, "global_step": 290, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.5054128170013428, "train_loss_bc": 0.055551107972860336, "train_loss_llm": 0.44986170530319214, "grad_norm": 0.7146496772766113, "global_step": 291, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.526140034198761, "train_loss_bc": 0.05336438864469528, "train_loss_llm": 0.4727756679058075, "grad_norm": 1.037352204322815, "global_step": 292, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.5215611457824707, "train_loss_bc": 0.05122142285108566, "train_loss_llm": 0.47033971548080444, "grad_norm": 1.3125296831130981, "global_step": 293, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.49011558294296265, "train_loss_bc": 0.05021468549966812, "train_loss_llm": 0.4399009048938751, "grad_norm": 1.6198666095733643, "global_step": 294, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.46781623363494873, "train_loss_bc": 0.05248855799436569, "train_loss_llm": 0.41532766819000244, "grad_norm": 1.960283637046814, "global_step": 295, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.5219404101371765, "train_loss_bc": 0.04825442656874657, "train_loss_llm": 0.47368600964546204, "grad_norm": 2.14477276802063, "global_step": 296, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.52499920129776, "train_loss_bc": 0.05256901681423187, "train_loss_llm": 0.47243019938468933, "grad_norm": 0.33433717489242554, "global_step": 297, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.5502440929412842, "train_loss_bc": 0.05179009959101677, "train_loss_llm": 0.4984539747238159, "grad_norm": 0.74588543176651, "global_step": 298, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.5179150104522705, "train_loss_bc": 0.05451096594333649, "train_loss_llm": 0.4634040296077728, "grad_norm": 1.0545660257339478, "global_step": 299, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.4899248778820038, "train_loss_bc": 0.048094742000103, "train_loss_llm": 0.4418301284313202, "grad_norm": 1.3357065916061401, "global_step": 300, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.5178258419036865, "train_loss_bc": 0.057998985052108765, "train_loss_llm": 0.45982688665390015, "grad_norm": 1.5910530090332031, "global_step": 301, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.5599058270454407, "train_loss_bc": 0.05857172980904579, "train_loss_llm": 0.5013340711593628, "grad_norm": 1.8083359003067017, "global_step": 302, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.5268552303314209, "train_loss_bc": 0.0546671561896801, "train_loss_llm": 0.4721880853176117, "grad_norm": 2.1309962272644043, "global_step": 303, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.5588576793670654, "train_loss_bc": 0.05594611540436745, "train_loss_llm": 0.5029115676879883, "grad_norm": 2.5465805530548096, "global_step": 304, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.5560619831085205, "train_loss_bc": 0.05122502148151398, "train_loss_llm": 0.5048369765281677, "grad_norm": 0.3715130388736725, "global_step": 305, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.43508145213127136, "train_loss_bc": 0.059167150408029556, "train_loss_llm": 0.3759143054485321, "grad_norm": 0.46506181359291077, "global_step": 306, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.5324741005897522, "train_loss_bc": 0.05213408172130585, "train_loss_llm": 0.48034003376960754, "grad_norm": 0.8128247261047363, "global_step": 307, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.5422834157943726, "train_loss_bc": 0.05327387899160385, "train_loss_llm": 0.4890095591545105, "grad_norm": 1.178523302078247, "global_step": 308, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.5178925395011902, "train_loss_bc": 0.054559770971536636, "train_loss_llm": 0.46333277225494385, "grad_norm": 1.5097570419311523, "global_step": 309, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.5270242691040039, "train_loss_bc": 0.053668275475502014, "train_loss_llm": 0.4733559787273407, "grad_norm": 1.9877610206604004, "global_step": 310, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.5356569290161133, "train_loss_bc": 0.04859429597854614, "train_loss_llm": 0.48706260323524475, "grad_norm": 2.416935920715332, "global_step": 311, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.5415602922439575, "train_loss_bc": 0.050895947962999344, "train_loss_llm": 0.49066436290740967, "grad_norm": 2.8204550743103027, "global_step": 312, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.45812809467315674, "train_loss_bc": 0.04948631674051285, "train_loss_llm": 0.4086417853832245, "grad_norm": 0.19889813661575317, "global_step": 313, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.4938216805458069, "train_loss_bc": 0.055118631571531296, "train_loss_llm": 0.4387030601501465, "grad_norm": 0.3476504385471344, "global_step": 314, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.5236456394195557, "train_loss_bc": 0.05370590090751648, "train_loss_llm": 0.4699397087097168, "grad_norm": 0.6526787281036377, "global_step": 315, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.47114962339401245, "train_loss_bc": 0.04795188456773758, "train_loss_llm": 0.42319774627685547, "grad_norm": 0.8622713088989258, "global_step": 316, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.5180140137672424, "train_loss_bc": 0.05108047276735306, "train_loss_llm": 0.46693354845046997, "grad_norm": 1.1033320426940918, "global_step": 317, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.4580061435699463, "train_loss_bc": 0.050734102725982666, "train_loss_llm": 0.4072720408439636, "grad_norm": 1.3375499248504639, "global_step": 318, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.5114523768424988, "train_loss_bc": 0.05577895790338516, "train_loss_llm": 0.4556734263896942, "grad_norm": 1.5570437908172607, "global_step": 319, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.47866347432136536, "train_loss_bc": 0.0446963869035244, "train_loss_llm": 0.43396708369255066, "grad_norm": 1.7350332736968994, "global_step": 320, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.4916403889656067, "train_loss_bc": 0.04897594451904297, "train_loss_llm": 0.4426644444465637, "grad_norm": 0.07266824692487717, "global_step": 321, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.46175774931907654, "train_loss_bc": 0.0462309755384922, "train_loss_llm": 0.41552677750587463, "grad_norm": 0.07555387914180756, "global_step": 322, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.4738427996635437, "train_loss_bc": 0.04668046534061432, "train_loss_llm": 0.4271623194217682, "grad_norm": 0.2331966906785965, "global_step": 323, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.4528917372226715, "train_loss_bc": 0.05157957226037979, "train_loss_llm": 0.4013121724128723, "grad_norm": 0.08229687809944153, "global_step": 324, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.46234843134880066, "train_loss_bc": 0.04551798850297928, "train_loss_llm": 0.416830450296402, "grad_norm": 0.1265740692615509, "global_step": 325, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.47864437103271484, "train_loss_bc": 0.04928738996386528, "train_loss_llm": 0.42935699224472046, "grad_norm": 0.20512168109416962, "global_step": 326, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.4313100576400757, "train_loss_bc": 0.05147486552596092, "train_loss_llm": 0.37983518838882446, "grad_norm": 0.18889786303043365, "global_step": 327, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.4659407138824463, "train_loss_bc": 0.055023469030857086, "train_loss_llm": 0.4109172523021698, "grad_norm": 0.32267239689826965, "global_step": 328, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.44610607624053955, "train_loss_bc": 0.05493360012769699, "train_loss_llm": 0.39117246866226196, "grad_norm": 0.0881352573633194, "global_step": 329, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.45425859093666077, "train_loss_bc": 0.0466257706284523, "train_loss_llm": 0.40763282775878906, "grad_norm": 0.1604263335466385, "global_step": 330, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.46555864810943604, "train_loss_bc": 0.05092105269432068, "train_loss_llm": 0.41463759541511536, "grad_norm": 0.32136961817741394, "global_step": 331, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.4689099192619324, "train_loss_bc": 0.044236257672309875, "train_loss_llm": 0.4246736764907837, "grad_norm": 0.4210379123687744, "global_step": 332, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.46717947721481323, "train_loss_bc": 0.05242560803890228, "train_loss_llm": 0.41475388407707214, "grad_norm": 0.6007596254348755, "global_step": 333, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.5113903284072876, "train_loss_bc": 0.05588795244693756, "train_loss_llm": 0.45550239086151123, "grad_norm": 0.712516188621521, "global_step": 334, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.4666154980659485, "train_loss_bc": 0.04903288185596466, "train_loss_llm": 0.417582631111145, "grad_norm": 0.8028944134712219, "global_step": 335, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.4520761966705322, "train_loss_bc": 0.05019170418381691, "train_loss_llm": 0.4018844962120056, "grad_norm": 0.9699961543083191, "global_step": 336, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.49666160345077515, "train_loss_bc": 0.05196812003850937, "train_loss_llm": 0.4446934759616852, "grad_norm": 0.050989508628845215, "global_step": 337, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.46786263585090637, "train_loss_bc": 0.058758337050676346, "train_loss_llm": 0.40910428762435913, "grad_norm": 0.1471395343542099, "global_step": 338, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.5123706459999084, "train_loss_bc": 0.056353434920310974, "train_loss_llm": 0.45601722598075867, "grad_norm": 0.17507734894752502, "global_step": 339, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.4703824520111084, "train_loss_bc": 0.05124170333147049, "train_loss_llm": 0.4191407561302185, "grad_norm": 0.29281264543533325, "global_step": 340, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.5273552536964417, "train_loss_bc": 0.05854935199022293, "train_loss_llm": 0.4688059091567993, "grad_norm": 0.3072934150695801, "global_step": 341, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.4716537296772003, "train_loss_bc": 0.05618858337402344, "train_loss_llm": 0.4154651463031769, "grad_norm": 0.34740307927131653, "global_step": 342, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.5039966702461243, "train_loss_bc": 0.05344989895820618, "train_loss_llm": 0.4505467712879181, "grad_norm": 0.4991505444049835, "global_step": 343, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.4974445104598999, "train_loss_bc": 0.05755143240094185, "train_loss_llm": 0.43989306688308716, "grad_norm": 0.5328041315078735, "global_step": 344, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.4428099989891052, "train_loss_bc": 0.06583501398563385, "train_loss_llm": 0.37697499990463257, "grad_norm": 0.17425179481506348, "global_step": 345, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.49497300386428833, "train_loss_bc": 0.06300137937068939, "train_loss_llm": 0.43197160959243774, "grad_norm": 0.2552144229412079, "global_step": 346, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.48597589135169983, "train_loss_bc": 0.06088007241487503, "train_loss_llm": 0.4250958263874054, "grad_norm": 0.3274417817592621, "global_step": 347, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.47342389822006226, "train_loss_bc": 0.06236180663108826, "train_loss_llm": 0.411062091588974, "grad_norm": 0.41974425315856934, "global_step": 348, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.4723413586616516, "train_loss_bc": 0.061314813792705536, "train_loss_llm": 0.4110265374183655, "grad_norm": 0.5961633920669556, "global_step": 349, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.5184833407402039, "train_loss_bc": 0.05976139008998871, "train_loss_llm": 0.45872196555137634, "grad_norm": 0.6610105037689209, "global_step": 350, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.49187520146369934, "train_loss_bc": 0.05963888764381409, "train_loss_llm": 0.43223631381988525, "grad_norm": 0.785905659198761, "global_step": 351, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.46889060735702515, "train_loss_bc": 0.05957440286874771, "train_loss_llm": 0.40931621193885803, "grad_norm": 0.8783209323883057, "global_step": 352, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.44079849123954773, "train_loss_bc": 0.07029765099287033, "train_loss_llm": 0.3705008327960968, "grad_norm": 0.12475637346506119, "global_step": 353, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.48778462409973145, "train_loss_bc": 0.07071694731712341, "train_loss_llm": 0.41706767678260803, "grad_norm": 0.1973169595003128, "global_step": 354, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.4667617380619049, "train_loss_bc": 0.07144748419523239, "train_loss_llm": 0.3953142464160919, "grad_norm": 0.33437809348106384, "global_step": 355, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.4524323046207428, "train_loss_bc": 0.06660684943199158, "train_loss_llm": 0.3858254551887512, "grad_norm": 0.5408980846405029, "global_step": 356, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.43120691180229187, "train_loss_bc": 0.0697384849190712, "train_loss_llm": 0.36146843433380127, "grad_norm": 0.6800632476806641, "global_step": 357, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.399555504322052, "train_loss_bc": 0.07468666881322861, "train_loss_llm": 0.3248688280582428, "grad_norm": 0.7811546921730042, "global_step": 358, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.44453415274620056, "train_loss_bc": 0.07012336701154709, "train_loss_llm": 0.3744107782840729, "grad_norm": 0.8296768665313721, "global_step": 359, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.4738423824310303, "train_loss_bc": 0.06265956908464432, "train_loss_llm": 0.41118282079696655, "grad_norm": 0.8803889751434326, "global_step": 360, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.46520477533340454, "train_loss_bc": 0.08925522863864899, "train_loss_llm": 0.37594956159591675, "grad_norm": 0.2608620226383209, "global_step": 361, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.4809143543243408, "train_loss_bc": 0.0898752212524414, "train_loss_llm": 0.3910391330718994, "grad_norm": 0.4211191236972809, "global_step": 362, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.41219931840896606, "train_loss_bc": 0.08454929292201996, "train_loss_llm": 0.3276500105857849, "grad_norm": 0.7235178351402283, "global_step": 363, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.4476202726364136, "train_loss_bc": 0.08649884164333344, "train_loss_llm": 0.36112141609191895, "grad_norm": 0.8589480519294739, "global_step": 364, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.4344724714756012, "train_loss_bc": 0.08530968427658081, "train_loss_llm": 0.3491627871990204, "grad_norm": 1.198199987411499, "global_step": 365, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.49386465549468994, "train_loss_bc": 0.091074138879776, "train_loss_llm": 0.40279051661491394, "grad_norm": 1.4333910942077637, "global_step": 366, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.43821969628334045, "train_loss_bc": 0.08441957831382751, "train_loss_llm": 0.35380011796951294, "grad_norm": 1.7354494333267212, "global_step": 367, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.4418696463108063, "train_loss_bc": 0.08716082572937012, "train_loss_llm": 0.35470882058143616, "grad_norm": 1.9420599937438965, "global_step": 368, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.46951574087142944, "train_loss_bc": 0.11030341684818268, "train_loss_llm": 0.35921233892440796, "grad_norm": 0.2526223063468933, "global_step": 369, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.4795970320701599, "train_loss_bc": 0.11018230020999908, "train_loss_llm": 0.36941471695899963, "grad_norm": 0.6502566933631897, "global_step": 370, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.45687779784202576, "train_loss_bc": 0.11526835709810257, "train_loss_llm": 0.3416094481945038, "grad_norm": 0.9524866342544556, "global_step": 371, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.4415377378463745, "train_loss_bc": 0.11479531228542328, "train_loss_llm": 0.32674241065979004, "grad_norm": 1.084122896194458, "global_step": 372, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.47096389532089233, "train_loss_bc": 0.11586213111877441, "train_loss_llm": 0.3551017642021179, "grad_norm": 1.3609733581542969, "global_step": 373, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.43593788146972656, "train_loss_bc": 0.11826633661985397, "train_loss_llm": 0.317671537399292, "grad_norm": 1.6573143005371094, "global_step": 374, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.46679380536079407, "train_loss_bc": 0.11390369385480881, "train_loss_llm": 0.35289010405540466, "grad_norm": 2.0741219520568848, "global_step": 375, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.45795518159866333, "train_loss_bc": 0.11674771457910538, "train_loss_llm": 0.34120747447013855, "grad_norm": 2.365565299987793, "global_step": 376, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.4484114348888397, "train_loss_bc": 0.13781186938285828, "train_loss_llm": 0.31059956550598145, "grad_norm": 0.2307644933462143, "global_step": 377, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.5143027305603027, "train_loss_bc": 0.13485470414161682, "train_loss_llm": 0.3794480562210083, "grad_norm": 0.4422929883003235, "global_step": 378, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.4763859510421753, "train_loss_bc": 0.14268043637275696, "train_loss_llm": 0.33370551466941833, "grad_norm": 0.7426139116287231, "global_step": 379, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.47448331117630005, "train_loss_bc": 0.13189630210399628, "train_loss_llm": 0.3425869941711426, "grad_norm": 0.939621090888977, "global_step": 380, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.47433286905288696, "train_loss_bc": 0.13337665796279907, "train_loss_llm": 0.3409562110900879, "grad_norm": 1.2057225704193115, "global_step": 381, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.468930721282959, "train_loss_bc": 0.15364034473896027, "train_loss_llm": 0.3152903914451599, "grad_norm": 1.4230432510375977, "global_step": 382, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.46025827527046204, "train_loss_bc": 0.13254335522651672, "train_loss_llm": 0.3277149200439453, "grad_norm": 1.8132578134536743, "global_step": 383, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.5030869245529175, "train_loss_bc": 0.14034587144851685, "train_loss_llm": 0.36274105310440063, "grad_norm": 2.117154598236084, "global_step": 384, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.49686193466186523, "train_loss_bc": 0.15617413818836212, "train_loss_llm": 0.3406877815723419, "grad_norm": 0.20575277507305145, "global_step": 385, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.48237258195877075, "train_loss_bc": 0.1562664955854416, "train_loss_llm": 0.32610610127449036, "grad_norm": 0.4431072771549225, "global_step": 386, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.4759964942932129, "train_loss_bc": 0.1560225486755371, "train_loss_llm": 0.3199739456176758, "grad_norm": 0.5599771738052368, "global_step": 387, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.5231286287307739, "train_loss_bc": 0.16578823328018188, "train_loss_llm": 0.35734042525291443, "grad_norm": 0.7299957871437073, "global_step": 388, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.4407727122306824, "train_loss_bc": 0.1499338150024414, "train_loss_llm": 0.29083889722824097, "grad_norm": 0.9180804491043091, "global_step": 389, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.45811378955841064, "train_loss_bc": 0.14795880019664764, "train_loss_llm": 0.3101550042629242, "grad_norm": 1.0863207578659058, "global_step": 390, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.47370240092277527, "train_loss_bc": 0.16378915309906006, "train_loss_llm": 0.3099132478237152, "grad_norm": 1.26326322555542, "global_step": 391, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.46934574842453003, "train_loss_bc": 0.14528752863407135, "train_loss_llm": 0.3240582048892975, "grad_norm": 1.483510971069336, "global_step": 392, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.48719313740730286, "train_loss_bc": 0.14780890941619873, "train_loss_llm": 0.3393842279911041, "grad_norm": 0.11807265877723694, "global_step": 393, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.49395015835762024, "train_loss_bc": 0.1501905620098114, "train_loss_llm": 0.34375959634780884, "grad_norm": 0.34290948510169983, "global_step": 394, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.4925297200679779, "train_loss_bc": 0.152513325214386, "train_loss_llm": 0.3400163948535919, "grad_norm": 0.5241888761520386, "global_step": 395, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.4789965748786926, "train_loss_bc": 0.14508941769599915, "train_loss_llm": 0.3339071571826935, "grad_norm": 0.5707587003707886, "global_step": 396, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.42711928486824036, "train_loss_bc": 0.14675167202949524, "train_loss_llm": 0.2803676128387451, "grad_norm": 0.714032769203186, "global_step": 397, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.4290037751197815, "train_loss_bc": 0.14006298780441284, "train_loss_llm": 0.28894078731536865, "grad_norm": 0.9173102378845215, "global_step": 398, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.4612293243408203, "train_loss_bc": 0.14106246829032898, "train_loss_llm": 0.32016685605049133, "grad_norm": 1.024153232574463, "global_step": 399, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.5238986611366272, "train_loss_bc": 0.14544589817523956, "train_loss_llm": 0.37845277786254883, "grad_norm": 1.2350348234176636, "global_step": 400, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.46203500032424927, "train_loss_bc": 0.12834131717681885, "train_loss_llm": 0.3336936831474304, "grad_norm": 0.22028587758541107, "global_step": 401, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.48294585943222046, "train_loss_bc": 0.13058257102966309, "train_loss_llm": 0.3523632884025574, "grad_norm": 0.4756149649620056, "global_step": 402, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.47623011469841003, "train_loss_bc": 0.13073894381523132, "train_loss_llm": 0.3454911708831787, "grad_norm": 0.714328408241272, "global_step": 403, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.5140247344970703, "train_loss_bc": 0.1383218765258789, "train_loss_llm": 0.3757028579711914, "grad_norm": 0.8884182572364807, "global_step": 404, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.4642232060432434, "train_loss_bc": 0.12655484676361084, "train_loss_llm": 0.33766835927963257, "grad_norm": 1.1159037351608276, "global_step": 405, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.4326334297657013, "train_loss_bc": 0.131933331489563, "train_loss_llm": 0.3007000982761383, "grad_norm": 1.3282500505447388, "global_step": 406, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.46831369400024414, "train_loss_bc": 0.13050945103168488, "train_loss_llm": 0.33780425786972046, "grad_norm": 1.6162424087524414, "global_step": 407, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.463715136051178, "train_loss_bc": 0.124570831656456, "train_loss_llm": 0.3391443192958832, "grad_norm": 1.820141315460205, "global_step": 408, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.4661135971546173, "train_loss_bc": 0.10983144491910934, "train_loss_llm": 0.35628214478492737, "grad_norm": 0.20378150045871735, "global_step": 409, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.47569313645362854, "train_loss_bc": 0.11172802001237869, "train_loss_llm": 0.36396512389183044, "grad_norm": 0.43250519037246704, "global_step": 410, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.469529926776886, "train_loss_bc": 0.11174346506595612, "train_loss_llm": 0.3577864468097687, "grad_norm": 0.6422659158706665, "global_step": 411, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.4172120988368988, "train_loss_bc": 0.11585000157356262, "train_loss_llm": 0.3013620972633362, "grad_norm": 0.886001706123352, "global_step": 412, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.4942012131214142, "train_loss_bc": 0.10972961783409119, "train_loss_llm": 0.384471595287323, "grad_norm": 1.170945405960083, "global_step": 413, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.4337618350982666, "train_loss_bc": 0.11432617902755737, "train_loss_llm": 0.31943565607070923, "grad_norm": 1.4258637428283691, "global_step": 414, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.4519069790840149, "train_loss_bc": 0.10938923805952072, "train_loss_llm": 0.3425177335739136, "grad_norm": 1.6312472820281982, "global_step": 415, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.48968836665153503, "train_loss_bc": 0.10831320285797119, "train_loss_llm": 0.38137516379356384, "grad_norm": 1.8861761093139648, "global_step": 416, "epoch": 1, "lr": 0.009999948518946245}
+{"train_loss": 0.4102782607078552, "train_loss_bc": 0.09747527539730072, "train_loss_llm": 0.3128030002117157, "grad_norm": 0.2837110757827759, "global_step": 417, "epoch": 1, "lr": 0.009999948518946245}
+{"train_loss": 0.47541892528533936, "train_loss_bc": 0.09394695609807968, "train_loss_llm": 0.3814719617366791, "grad_norm": 0.45869383215904236, "global_step": 418, "epoch": 1, "lr": 0.009999948518946245}
+{"train_loss": 0.4815974533557892, "train_loss_bc": 0.09509238600730896, "train_loss_llm": 0.3865050673484802, "grad_norm": 0.6437010765075684, "global_step": 419, "epoch": 1, "lr": 0.009999948518946245}
+{"train_loss": 0.3827531039714813, "train_loss_bc": 0.10254869610071182, "train_loss_llm": 0.2802044153213501, "grad_norm": 0.8223056197166443, "global_step": 420, "epoch": 1, "lr": 0.009999948518946245}
+{"train_loss": 0.4481104612350464, "train_loss_bc": 0.09243563562631607, "train_loss_llm": 0.3556748330593109, "grad_norm": 0.9697561860084534, "global_step": 421, "epoch": 1, "lr": 0.009999948518946245}
+{"train_loss": 0.45994675159454346, "train_loss_bc": 0.09605693817138672, "train_loss_llm": 0.36388981342315674, "grad_norm": 1.0464861392974854, "global_step": 422, "epoch": 1, "lr": 0.009999948518946245}
+{"train_loss": 0.4362821877002716, "train_loss_bc": 0.09707927703857422, "train_loss_llm": 0.3392029106616974, "grad_norm": 1.2648643255233765, "global_step": 423, "epoch": 1, "lr": 0.009999948518946245}
+{"train_loss": 0.41575419902801514, "train_loss_bc": 0.09105731546878815, "train_loss_llm": 0.3246968686580658, "grad_norm": 1.464423418045044, "global_step": 424, "epoch": 1, "lr": 0.009999946096640335}
+{"train_loss": 0.39861470460891724, "train_loss_bc": 0.08691386878490448, "train_loss_llm": 0.31170085072517395, "grad_norm": 0.0853797048330307, "global_step": 425, "epoch": 1, "lr": 0.009999946096640335}
+{"train_loss": 0.40170931816101074, "train_loss_bc": 0.08260142058134079, "train_loss_llm": 0.31910789012908936, "grad_norm": 0.22969917953014374, "global_step": 426, "epoch": 1, "lr": 0.009999946096640335}
+{"train_loss": 0.3613051474094391, "train_loss_bc": 0.08197750896215439, "train_loss_llm": 0.2793276309967041, "grad_norm": 0.23447459936141968, "global_step": 427, "epoch": 1, "lr": 0.009999946096640335}
+{"train_loss": 0.4254136085510254, "train_loss_bc": 0.08960045874118805, "train_loss_llm": 0.33581316471099854, "grad_norm": 0.3092045187950134, "global_step": 428, "epoch": 1, "lr": 0.009999946096640335}
+{"train_loss": 0.4420149624347687, "train_loss_bc": 0.09093666821718216, "train_loss_llm": 0.3510783016681671, "grad_norm": 0.3442038893699646, "global_step": 429, "epoch": 1, "lr": 0.009999946096640335}
+{"train_loss": 0.45237118005752563, "train_loss_bc": 0.08540432155132294, "train_loss_llm": 0.3669668436050415, "grad_norm": 0.42375192046165466, "global_step": 430, "epoch": 1, "lr": 0.009999946096640335}
+{"train_loss": 0.4531917870044708, "train_loss_bc": 0.08975496143102646, "train_loss_llm": 0.36343681812286377, "grad_norm": 0.5278224945068359, "global_step": 431, "epoch": 1, "lr": 0.009999946096640335}
+{"train_loss": 0.42148923873901367, "train_loss_bc": 0.08912579715251923, "train_loss_llm": 0.33236345648765564, "grad_norm": 0.6609516143798828, "global_step": 432, "epoch": 1, "lr": 0.009999943618649636}
+{"train_loss": 0.4762485921382904, "train_loss_bc": 0.07980602979660034, "train_loss_llm": 0.39644256234169006, "grad_norm": 0.3322566747665405, "global_step": 433, "epoch": 1, "lr": 0.009999943618649636}
+{"train_loss": 0.4715663194656372, "train_loss_bc": 0.08735206723213196, "train_loss_llm": 0.38421425223350525, "grad_norm": 0.6090394854545593, "global_step": 434, "epoch": 1, "lr": 0.009999943618649636}
+{"train_loss": 0.4553337097167969, "train_loss_bc": 0.0820671021938324, "train_loss_llm": 0.3732666075229645, "grad_norm": 0.7855100631713867, "global_step": 435, "epoch": 1, "lr": 0.009999943618649636}
+{"train_loss": 0.38580673933029175, "train_loss_bc": 0.07148528099060059, "train_loss_llm": 0.31432145833969116, "grad_norm": 0.9656161069869995, "global_step": 436, "epoch": 1, "lr": 0.009999943618649636}
+{"train_loss": 0.4485708773136139, "train_loss_bc": 0.08186005800962448, "train_loss_llm": 0.3667108118534088, "grad_norm": 1.215488314628601, "global_step": 437, "epoch": 1, "lr": 0.009999943618649636}
+{"train_loss": 0.4804670512676239, "train_loss_bc": 0.0879916176199913, "train_loss_llm": 0.392475426197052, "grad_norm": 1.4870049953460693, "global_step": 438, "epoch": 1, "lr": 0.009999943618649636}
+{"train_loss": 0.46137094497680664, "train_loss_bc": 0.08363783359527588, "train_loss_llm": 0.37773311138153076, "grad_norm": 1.8198163509368896, "global_step": 439, "epoch": 1, "lr": 0.009999943618649636}
+{"train_loss": 0.42331504821777344, "train_loss_bc": 0.07930539548397064, "train_loss_llm": 0.3440096378326416, "grad_norm": 2.0386102199554443, "global_step": 440, "epoch": 1, "lr": 0.009999941084974175}
+{"train_loss": 0.5009375214576721, "train_loss_bc": 0.07325311005115509, "train_loss_llm": 0.42768439650535583, "grad_norm": 0.3060132563114166, "global_step": 441, "epoch": 1, "lr": 0.009999941084974175}
+{"train_loss": 0.523720383644104, "train_loss_bc": 0.0823366567492485, "train_loss_llm": 0.4413837194442749, "grad_norm": 0.8341813087463379, "global_step": 442, "epoch": 1, "lr": 0.009999941084974175}
+{"train_loss": 0.50041264295578, "train_loss_bc": 0.07762286067008972, "train_loss_llm": 0.4227897822856903, "grad_norm": 1.155431866645813, "global_step": 443, "epoch": 1, "lr": 0.009999941084974175}
+{"train_loss": 0.45942115783691406, "train_loss_bc": 0.06712299585342407, "train_loss_llm": 0.39229816198349, "grad_norm": 1.4843006134033203, "global_step": 444, "epoch": 1, "lr": 0.009999941084974175}
+{"train_loss": 0.5370168089866638, "train_loss_bc": 0.08462180942296982, "train_loss_llm": 0.4523950219154358, "grad_norm": 1.883319616317749, "global_step": 445, "epoch": 1, "lr": 0.009999941084974175}
+{"train_loss": 0.5223930478096008, "train_loss_bc": 0.07834911346435547, "train_loss_llm": 0.44404393434524536, "grad_norm": 2.365044593811035, "global_step": 446, "epoch": 1, "lr": 0.009999941084974175}
+{"train_loss": 0.48575761914253235, "train_loss_bc": 0.07576701045036316, "train_loss_llm": 0.4099906086921692, "grad_norm": 2.745793342590332, "global_step": 447, "epoch": 1, "lr": 0.009999941084974175}
+{"train_loss": 0.4913061559200287, "train_loss_bc": 0.07663577795028687, "train_loss_llm": 0.4146703779697418, "grad_norm": 3.039611577987671, "global_step": 448, "epoch": 1, "lr": 0.009999938495613982}
+{"train_loss": 0.4492054581642151, "train_loss_bc": 0.07640067487955093, "train_loss_llm": 0.37280479073524475, "grad_norm": 0.33852633833885193, "global_step": 449, "epoch": 1, "lr": 0.009999938495613982}
+{"train_loss": 0.499530553817749, "train_loss_bc": 0.08314667642116547, "train_loss_llm": 0.41638386249542236, "grad_norm": 0.8066965937614441, "global_step": 450, "epoch": 1, "lr": 0.009999938495613982}
+{"train_loss": 0.5144305229187012, "train_loss_bc": 0.07407046854496002, "train_loss_llm": 0.44036003947257996, "grad_norm": 1.1623307466506958, "global_step": 451, "epoch": 1, "lr": 0.009999938495613982}
+{"train_loss": 0.5651369094848633, "train_loss_bc": 0.07935898751020432, "train_loss_llm": 0.48577794432640076, "grad_norm": 1.6541047096252441, "global_step": 452, "epoch": 1, "lr": 0.009999938495613982}
+{"train_loss": 0.49828869104385376, "train_loss_bc": 0.08008938282728195, "train_loss_llm": 0.4181993007659912, "grad_norm": 2.005312442779541, "global_step": 453, "epoch": 1, "lr": 0.009999938495613982}
+{"train_loss": 0.4968721866607666, "train_loss_bc": 0.07845742255449295, "train_loss_llm": 0.41841477155685425, "grad_norm": 2.403188467025757, "global_step": 454, "epoch": 1, "lr": 0.009999938495613982}
+{"train_loss": 0.41715168952941895, "train_loss_bc": 0.0654793530702591, "train_loss_llm": 0.35167232155799866, "grad_norm": 2.6619198322296143, "global_step": 455, "epoch": 1, "lr": 0.009999938495613982}
+{"train_loss": 0.5397456884384155, "train_loss_bc": 0.07840403914451599, "train_loss_llm": 0.4613416790962219, "grad_norm": 3.1508631706237793, "global_step": 456, "epoch": 1, "lr": 0.009999935850569084}
+{"train_loss": 0.4674712121486664, "train_loss_bc": 0.07846175879240036, "train_loss_llm": 0.3890094459056854, "grad_norm": 0.4389549791812897, "global_step": 457, "epoch": 1, "lr": 0.009999935850569084}
+{"train_loss": 0.5067363381385803, "train_loss_bc": 0.07051600515842438, "train_loss_llm": 0.43622031807899475, "grad_norm": 0.8250936269760132, "global_step": 458, "epoch": 1, "lr": 0.009999935850569084}
+{"train_loss": 0.4590223431587219, "train_loss_bc": 0.0727120190858841, "train_loss_llm": 0.38631030917167664, "grad_norm": 1.230048418045044, "global_step": 459, "epoch": 1, "lr": 0.009999935850569084}
+{"train_loss": 0.4788866937160492, "train_loss_bc": 0.07184258103370667, "train_loss_llm": 0.40704411268234253, "grad_norm": 1.5695873498916626, "global_step": 460, "epoch": 1, "lr": 0.009999935850569084}
+{"train_loss": 0.41932758688926697, "train_loss_bc": 0.07366716861724854, "train_loss_llm": 0.34566041827201843, "grad_norm": 1.8429542779922485, "global_step": 461, "epoch": 1, "lr": 0.009999935850569084}
+{"train_loss": 0.4508075416088104, "train_loss_bc": 0.07342109084129333, "train_loss_llm": 0.3773864507675171, "grad_norm": 2.209399700164795, "global_step": 462, "epoch": 1, "lr": 0.009999935850569084}
+{"train_loss": 0.4352608025074005, "train_loss_bc": 0.07005210965871811, "train_loss_llm": 0.3652086853981018, "grad_norm": 2.509512424468994, "global_step": 463, "epoch": 1, "lr": 0.009999935850569084}
+{"train_loss": 0.47118616104125977, "train_loss_bc": 0.07410141825675964, "train_loss_llm": 0.3970847427845001, "grad_norm": 2.803016185760498, "global_step": 464, "epoch": 1, "lr": 0.009999933149839513}
+{"train_loss": 0.4068133533000946, "train_loss_bc": 0.0775652825832367, "train_loss_llm": 0.3292480707168579, "grad_norm": 0.2175537347793579, "global_step": 465, "epoch": 1, "lr": 0.009999933149839513}
+{"train_loss": 0.4475701153278351, "train_loss_bc": 0.07911258935928345, "train_loss_llm": 0.36845752596855164, "grad_norm": 0.44073283672332764, "global_step": 466, "epoch": 1, "lr": 0.009999933149839513}
+{"train_loss": 0.41135627031326294, "train_loss_bc": 0.07718384265899658, "train_loss_llm": 0.33417242765426636, "grad_norm": 0.6908113956451416, "global_step": 467, "epoch": 1, "lr": 0.009999933149839513}
+{"train_loss": 0.42955926060676575, "train_loss_bc": 0.07163333892822266, "train_loss_llm": 0.3579259216785431, "grad_norm": 0.7479642629623413, "global_step": 468, "epoch": 1, "lr": 0.009999933149839513}
+{"train_loss": 0.44349679350852966, "train_loss_bc": 0.06680133938789368, "train_loss_llm": 0.376695454120636, "grad_norm": 0.9879596829414368, "global_step": 469, "epoch": 1, "lr": 0.009999933149839513}
+{"train_loss": 0.44950491189956665, "train_loss_bc": 0.06695382297039032, "train_loss_llm": 0.38255107402801514, "grad_norm": 1.2411768436431885, "global_step": 470, "epoch": 1, "lr": 0.009999933149839513}
+{"train_loss": 0.4878239035606384, "train_loss_bc": 0.06942431628704071, "train_loss_llm": 0.4183996021747589, "grad_norm": 1.304884433746338, "global_step": 471, "epoch": 1, "lr": 0.009999933149839513}
+{"train_loss": 0.43592962622642517, "train_loss_bc": 0.0713595449924469, "train_loss_llm": 0.36457008123397827, "grad_norm": 1.4668633937835693, "global_step": 472, "epoch": 1, "lr": 0.009999930393425296}
+{"train_loss": 0.38965165615081787, "train_loss_bc": 0.0695507675409317, "train_loss_llm": 0.32010090351104736, "grad_norm": 0.04030097648501396, "global_step": 473, "epoch": 1, "lr": 0.009999930393425296}
+{"train_loss": 0.41692981123924255, "train_loss_bc": 0.07114361971616745, "train_loss_llm": 0.3457861840724945, "grad_norm": 0.20869411528110504, "global_step": 474, "epoch": 1, "lr": 0.009999930393425296}
+{"train_loss": 0.4788587174746169, "train_loss_bc": 0.07689835131168365, "train_loss_llm": 0.3251399099826813, "grad_norm": 0.3351289927959442, "global_step": 475, "epoch": 1, "lr": 0.009999930393425296, "val_loss": 0.4183650612831116}
+{"train_loss": 0.4075002670288086, "train_loss_bc": 0.07441024482250214, "train_loss_llm": 0.33309003710746765, "grad_norm": 0.40601998567581177, "global_step": 476, "epoch": 2, "lr": 0.009999930393425296}
+{"train_loss": 0.419633150100708, "train_loss_bc": 0.07430659234523773, "train_loss_llm": 0.3453265428543091, "grad_norm": 0.45897558331489563, "global_step": 477, "epoch": 2, "lr": 0.009999930393425296}
+{"train_loss": 0.4378618001937866, "train_loss_bc": 0.07121076434850693, "train_loss_llm": 0.3666510283946991, "grad_norm": 0.6182071566581726, "global_step": 478, "epoch": 2, "lr": 0.009999930393425296}
+{"train_loss": 0.4052380323410034, "train_loss_bc": 0.07486671209335327, "train_loss_llm": 0.33037132024765015, "grad_norm": 0.7151554822921753, "global_step": 479, "epoch": 2, "lr": 0.009999930393425296}
+{"train_loss": 0.4058300852775574, "train_loss_bc": 0.07272480428218842, "train_loss_llm": 0.33310529589653015, "grad_norm": 0.8909885883331299, "global_step": 480, "epoch": 2, "lr": 0.009999927581326467}
+{"train_loss": 0.4487050771713257, "train_loss_bc": 0.07888162136077881, "train_loss_llm": 0.3698234558105469, "grad_norm": 0.23701544106006622, "global_step": 481, "epoch": 2, "lr": 0.009999927581326467}
+{"train_loss": 0.49103546142578125, "train_loss_bc": 0.08028317987918854, "train_loss_llm": 0.4107522964477539, "grad_norm": 0.49656835198402405, "global_step": 482, "epoch": 2, "lr": 0.009999927581326467}
+{"train_loss": 0.46792250871658325, "train_loss_bc": 0.09129071980714798, "train_loss_llm": 0.37663179636001587, "grad_norm": 0.840447723865509, "global_step": 483, "epoch": 2, "lr": 0.009999927581326467}
+{"train_loss": 0.4294581711292267, "train_loss_bc": 0.07801994681358337, "train_loss_llm": 0.3514382243156433, "grad_norm": 1.1434099674224854, "global_step": 484, "epoch": 2, "lr": 0.009999927581326467}
+{"train_loss": 0.432917058467865, "train_loss_bc": 0.07669934630393982, "train_loss_llm": 0.35621771216392517, "grad_norm": 1.25961172580719, "global_step": 485, "epoch": 2, "lr": 0.009999927581326467}
+{"train_loss": 0.44843345880508423, "train_loss_bc": 0.0854521095752716, "train_loss_llm": 0.3629813492298126, "grad_norm": 1.5249574184417725, "global_step": 486, "epoch": 2, "lr": 0.009999927581326467}
+{"train_loss": 0.44658222794532776, "train_loss_bc": 0.08360808342695236, "train_loss_llm": 0.3629741370677948, "grad_norm": 1.7271357774734497, "global_step": 487, "epoch": 2, "lr": 0.009999927581326467}
+{"train_loss": 0.40612655878067017, "train_loss_bc": 0.07177715003490448, "train_loss_llm": 0.3343493938446045, "grad_norm": 1.8562430143356323, "global_step": 488, "epoch": 2, "lr": 0.009999924713543057}
+{"train_loss": 0.42684754729270935, "train_loss_bc": 0.09092190861701965, "train_loss_llm": 0.3359256386756897, "grad_norm": 0.23652826249599457, "global_step": 489, "epoch": 2, "lr": 0.009999924713543057}
+{"train_loss": 0.4034007787704468, "train_loss_bc": 0.08247525990009308, "train_loss_llm": 0.3209255039691925, "grad_norm": 0.4782133400440216, "global_step": 490, "epoch": 2, "lr": 0.009999924713543057}
+{"train_loss": 0.4759541153907776, "train_loss_bc": 0.0957922413945198, "train_loss_llm": 0.3801618814468384, "grad_norm": 0.7578186988830566, "global_step": 491, "epoch": 2, "lr": 0.009999924713543057}
+{"train_loss": 0.43267786502838135, "train_loss_bc": 0.09899365901947021, "train_loss_llm": 0.33368420600891113, "grad_norm": 1.0671911239624023, "global_step": 492, "epoch": 2, "lr": 0.009999924713543057}
+{"train_loss": 0.437690794467926, "train_loss_bc": 0.0880081057548523, "train_loss_llm": 0.34968268871307373, "grad_norm": 1.276311993598938, "global_step": 493, "epoch": 2, "lr": 0.009999924713543057}
+{"train_loss": 0.46024733781814575, "train_loss_bc": 0.08821959793567657, "train_loss_llm": 0.37202775478363037, "grad_norm": 1.6337311267852783, "global_step": 494, "epoch": 2, "lr": 0.009999924713543057}
+{"train_loss": 0.44307515025138855, "train_loss_bc": 0.08822215348482132, "train_loss_llm": 0.3548530042171478, "grad_norm": 1.9520163536071777, "global_step": 495, "epoch": 2, "lr": 0.009999924713543057}
+{"train_loss": 0.4651302695274353, "train_loss_bc": 0.10031341016292572, "train_loss_llm": 0.3648168742656708, "grad_norm": 2.2416908740997314, "global_step": 496, "epoch": 2, "lr": 0.009999921790075092}
+{"train_loss": 0.460053950548172, "train_loss_bc": 0.10384845733642578, "train_loss_llm": 0.3562054932117462, "grad_norm": 0.3334377706050873, "global_step": 497, "epoch": 2, "lr": 0.009999921790075092}
+{"train_loss": 0.3990481495857239, "train_loss_bc": 0.08901384472846985, "train_loss_llm": 0.31003430485725403, "grad_norm": 0.4660588502883911, "global_step": 498, "epoch": 2, "lr": 0.009999921790075092}
+{"train_loss": 0.42172151803970337, "train_loss_bc": 0.0981050506234169, "train_loss_llm": 0.32361647486686707, "grad_norm": 0.581039547920227, "global_step": 499, "epoch": 2, "lr": 0.009999921790075092}
+{"train_loss": 0.4291045665740967, "train_loss_bc": 0.10251591354608536, "train_loss_llm": 0.3265886604785919, "grad_norm": 0.7758325934410095, "global_step": 500, "epoch": 2, "lr": 0.009999921790075092}
+{"train_loss": 0.4256713390350342, "train_loss_bc": 0.10863126814365387, "train_loss_llm": 0.3170400857925415, "grad_norm": 0.9548557996749878, "global_step": 501, "epoch": 2, "lr": 0.009999921790075092}
+{"train_loss": 0.43760862946510315, "train_loss_bc": 0.09728053957223892, "train_loss_llm": 0.3403280973434448, "grad_norm": 1.12931227684021, "global_step": 502, "epoch": 2, "lr": 0.009999921790075092}
+{"train_loss": 0.45826488733291626, "train_loss_bc": 0.10433649271726608, "train_loss_llm": 0.3539283871650696, "grad_norm": 1.3696564435958862, "global_step": 503, "epoch": 2, "lr": 0.009999921790075092}
+{"train_loss": 0.4078451991081238, "train_loss_bc": 0.10109137743711472, "train_loss_llm": 0.30675381422042847, "grad_norm": 1.5657364130020142, "global_step": 504, "epoch": 2, "lr": 0.009999918810922612}
+{"train_loss": 0.46158871054649353, "train_loss_bc": 0.11356564611196518, "train_loss_llm": 0.34802305698394775, "grad_norm": 0.08038321137428284, "global_step": 505, "epoch": 2, "lr": 0.009999918810922612}
+{"train_loss": 0.4302740693092346, "train_loss_bc": 0.10633869469165802, "train_loss_llm": 0.3239353895187378, "grad_norm": 0.1423225700855255, "global_step": 506, "epoch": 2, "lr": 0.009999918810922612}
+{"train_loss": 0.3946726620197296, "train_loss_bc": 0.09858065843582153, "train_loss_llm": 0.2960920035839081, "grad_norm": 0.22691631317138672, "global_step": 507, "epoch": 2, "lr": 0.009999918810922612}
+{"train_loss": 0.43218275904655457, "train_loss_bc": 0.11165168881416321, "train_loss_llm": 0.32053107023239136, "grad_norm": 0.26675117015838623, "global_step": 508, "epoch": 2, "lr": 0.009999918810922612}
+{"train_loss": 0.4359421730041504, "train_loss_bc": 0.11254166066646576, "train_loss_llm": 0.32340049743652344, "grad_norm": 0.2970382571220398, "global_step": 509, "epoch": 2, "lr": 0.009999918810922612}
+{"train_loss": 0.39746367931365967, "train_loss_bc": 0.11548503488302231, "train_loss_llm": 0.28197863698005676, "grad_norm": 0.3356829285621643, "global_step": 510, "epoch": 2, "lr": 0.009999918810922612}
+{"train_loss": 0.44985246658325195, "train_loss_bc": 0.1158825010061264, "train_loss_llm": 0.33396995067596436, "grad_norm": 0.3653471767902374, "global_step": 511, "epoch": 2, "lr": 0.009999918810922612}
+{"train_loss": 0.40962520241737366, "train_loss_bc": 0.11661162972450256, "train_loss_llm": 0.2930135726928711, "grad_norm": 0.47077563405036926, "global_step": 512, "epoch": 2, "lr": 0.009999915776085647}
+{"train_loss": 0.4406594932079315, "train_loss_bc": 0.09577595442533493, "train_loss_llm": 0.344883531332016, "grad_norm": 0.19058510661125183, "global_step": 513, "epoch": 2, "lr": 0.009999915776085647}
+{"train_loss": 0.40324023365974426, "train_loss_bc": 0.10336797684431076, "train_loss_llm": 0.2998722493648529, "grad_norm": 0.3978632986545563, "global_step": 514, "epoch": 2, "lr": 0.009999915776085647}
+{"train_loss": 0.4531550407409668, "train_loss_bc": 0.10935159772634506, "train_loss_llm": 0.34380343556404114, "grad_norm": 0.5800808072090149, "global_step": 515, "epoch": 2, "lr": 0.009999915776085647}
+{"train_loss": 0.4735947251319885, "train_loss_bc": 0.09741951525211334, "train_loss_llm": 0.376175194978714, "grad_norm": 0.7351229786872864, "global_step": 516, "epoch": 2, "lr": 0.009999915776085647}
+{"train_loss": 0.4245181381702423, "train_loss_bc": 0.09908033162355423, "train_loss_llm": 0.3254378139972687, "grad_norm": 0.9251295924186707, "global_step": 517, "epoch": 2, "lr": 0.009999915776085647}
+{"train_loss": 0.44432389736175537, "train_loss_bc": 0.10448859632015228, "train_loss_llm": 0.3398352861404419, "grad_norm": 1.1177761554718018, "global_step": 518, "epoch": 2, "lr": 0.009999915776085647}
+{"train_loss": 0.4511752426624298, "train_loss_bc": 0.10869146138429642, "train_loss_llm": 0.342483788728714, "grad_norm": 1.281354546546936, "global_step": 519, "epoch": 2, "lr": 0.009999915776085647}
+{"train_loss": 0.4109398126602173, "train_loss_bc": 0.09863792359828949, "train_loss_llm": 0.312301903963089, "grad_norm": 1.5582077503204346, "global_step": 520, "epoch": 2, "lr": 0.009999912685564232}
+{"train_loss": 0.420954167842865, "train_loss_bc": 0.09968677163124084, "train_loss_llm": 0.32126739621162415, "grad_norm": 0.18459048867225647, "global_step": 521, "epoch": 2, "lr": 0.009999912685564232}
+{"train_loss": 0.4888111352920532, "train_loss_bc": 0.09494258463382721, "train_loss_llm": 0.3938685357570648, "grad_norm": 0.4560869634151459, "global_step": 522, "epoch": 2, "lr": 0.009999912685564232}
+{"train_loss": 0.4527308940887451, "train_loss_bc": 0.08939626067876816, "train_loss_llm": 0.36333462595939636, "grad_norm": 0.7256752252578735, "global_step": 523, "epoch": 2, "lr": 0.009999912685564232}
+{"train_loss": 0.447079062461853, "train_loss_bc": 0.10175997018814087, "train_loss_llm": 0.34531909227371216, "grad_norm": 1.0130788087844849, "global_step": 524, "epoch": 2, "lr": 0.009999912685564232}
+{"train_loss": 0.4306512773036957, "train_loss_bc": 0.09093537926673889, "train_loss_llm": 0.3397158980369568, "grad_norm": 1.2408363819122314, "global_step": 525, "epoch": 2, "lr": 0.009999912685564232}
+{"train_loss": 0.4287051558494568, "train_loss_bc": 0.09637592732906342, "train_loss_llm": 0.3323292136192322, "grad_norm": 1.4358757734298706, "global_step": 526, "epoch": 2, "lr": 0.009999912685564232}
+{"train_loss": 0.46918076276779175, "train_loss_bc": 0.09835150837898254, "train_loss_llm": 0.3708292543888092, "grad_norm": 1.5794153213500977, "global_step": 527, "epoch": 2, "lr": 0.009999912685564232}
+{"train_loss": 0.4224490523338318, "train_loss_bc": 0.09337089955806732, "train_loss_llm": 0.32907813787460327, "grad_norm": 1.836764931678772, "global_step": 528, "epoch": 2, "lr": 0.009999909539358398}
+{"train_loss": 0.43107742071151733, "train_loss_bc": 0.08547393232584, "train_loss_llm": 0.34560349583625793, "grad_norm": 0.36765944957733154, "global_step": 529, "epoch": 2, "lr": 0.009999909539358398}
+{"train_loss": 0.46351563930511475, "train_loss_bc": 0.09525685012340546, "train_loss_llm": 0.3682588040828705, "grad_norm": 0.558239758014679, "global_step": 530, "epoch": 2, "lr": 0.009999909539358398}
+{"train_loss": 0.44715481996536255, "train_loss_bc": 0.08952507376670837, "train_loss_llm": 0.3576297461986542, "grad_norm": 0.6951246857643127, "global_step": 531, "epoch": 2, "lr": 0.009999909539358398}
+{"train_loss": 0.40584173798561096, "train_loss_bc": 0.08065243810415268, "train_loss_llm": 0.3251892924308777, "grad_norm": 0.8120625615119934, "global_step": 532, "epoch": 2, "lr": 0.009999909539358398}
+{"train_loss": 0.4359903931617737, "train_loss_bc": 0.07827238738536835, "train_loss_llm": 0.35771802067756653, "grad_norm": 1.0342434644699097, "global_step": 533, "epoch": 2, "lr": 0.009999909539358398}
+{"train_loss": 0.44323381781578064, "train_loss_bc": 0.09228533506393433, "train_loss_llm": 0.3509484827518463, "grad_norm": 1.2177081108093262, "global_step": 534, "epoch": 2, "lr": 0.009999909539358398}
+{"train_loss": 0.4415989816188812, "train_loss_bc": 0.08462801575660706, "train_loss_llm": 0.35697096586227417, "grad_norm": 1.4044368267059326, "global_step": 535, "epoch": 2, "lr": 0.009999909539358398}
+{"train_loss": 0.4449506998062134, "train_loss_bc": 0.08836030960083008, "train_loss_llm": 0.3565903902053833, "grad_norm": 1.6917306184768677, "global_step": 536, "epoch": 2, "lr": 0.009999906337468185}
+{"train_loss": 0.4531981348991394, "train_loss_bc": 0.07308182865381241, "train_loss_llm": 0.3801163136959076, "grad_norm": 0.15037661790847778, "global_step": 537, "epoch": 2, "lr": 0.009999906337468185}
+{"train_loss": 0.42868027091026306, "train_loss_bc": 0.0853402316570282, "train_loss_llm": 0.34334003925323486, "grad_norm": 0.15946851670742035, "global_step": 538, "epoch": 2, "lr": 0.009999906337468185}
+{"train_loss": 0.39886951446533203, "train_loss_bc": 0.07769735157489777, "train_loss_llm": 0.32117217779159546, "grad_norm": 0.1850792020559311, "global_step": 539, "epoch": 2, "lr": 0.009999906337468185}
+{"train_loss": 0.40761685371398926, "train_loss_bc": 0.08767780661582947, "train_loss_llm": 0.3199390470981598, "grad_norm": 0.25740712881088257, "global_step": 540, "epoch": 2, "lr": 0.009999906337468185}
+{"train_loss": 0.4301179051399231, "train_loss_bc": 0.08043624460697174, "train_loss_llm": 0.34968167543411255, "grad_norm": 0.3840186893939972, "global_step": 541, "epoch": 2, "lr": 0.009999906337468185}
+{"train_loss": 0.4177236557006836, "train_loss_bc": 0.08151036500930786, "train_loss_llm": 0.33621329069137573, "grad_norm": 0.4281911849975586, "global_step": 542, "epoch": 2, "lr": 0.009999906337468185}
+{"train_loss": 0.4153977036476135, "train_loss_bc": 0.08349554985761642, "train_loss_llm": 0.3319021463394165, "grad_norm": 0.5129688382148743, "global_step": 543, "epoch": 2, "lr": 0.009999906337468185}
+{"train_loss": 0.41469424962997437, "train_loss_bc": 0.08606115728616714, "train_loss_llm": 0.3286330997943878, "grad_norm": 0.6009166836738586, "global_step": 544, "epoch": 2, "lr": 0.009999903079893626}
+{"train_loss": 0.41651520133018494, "train_loss_bc": 0.07489743828773499, "train_loss_llm": 0.34161776304244995, "grad_norm": 0.10294855386018753, "global_step": 545, "epoch": 2, "lr": 0.009999903079893626}
+{"train_loss": 0.43718770146369934, "train_loss_bc": 0.07521822303533554, "train_loss_llm": 0.3619694709777832, "grad_norm": 0.1560080349445343, "global_step": 546, "epoch": 2, "lr": 0.009999903079893626}
+{"train_loss": 0.42426401376724243, "train_loss_bc": 0.07886402308940887, "train_loss_llm": 0.34540000557899475, "grad_norm": 0.19795741140842438, "global_step": 547, "epoch": 2, "lr": 0.009999903079893626}
+{"train_loss": 0.4371216893196106, "train_loss_bc": 0.07539700716733932, "train_loss_llm": 0.3617246747016907, "grad_norm": 0.3112781345844269, "global_step": 548, "epoch": 2, "lr": 0.009999903079893626}
+{"train_loss": 0.44721364974975586, "train_loss_bc": 0.0764458030462265, "train_loss_llm": 0.37076786160469055, "grad_norm": 0.4146748483181, "global_step": 549, "epoch": 2, "lr": 0.009999903079893626}
+{"train_loss": 0.4418211579322815, "train_loss_bc": 0.07636310905218124, "train_loss_llm": 0.36545804142951965, "grad_norm": 0.47647958993911743, "global_step": 550, "epoch": 2, "lr": 0.009999903079893626}
+{"train_loss": 0.43148016929626465, "train_loss_bc": 0.08113914728164673, "train_loss_llm": 0.3503410220146179, "grad_norm": 0.6522648930549622, "global_step": 551, "epoch": 2, "lr": 0.009999903079893626}
+{"train_loss": 0.40331968665122986, "train_loss_bc": 0.07365512102842331, "train_loss_llm": 0.32966455817222595, "grad_norm": 0.8014014959335327, "global_step": 552, "epoch": 2, "lr": 0.009999899766634755}
+{"train_loss": 0.41163522005081177, "train_loss_bc": 0.06960827112197876, "train_loss_llm": 0.342026948928833, "grad_norm": 0.24828393757343292, "global_step": 553, "epoch": 2, "lr": 0.009999899766634755}
+{"train_loss": 0.45529404282569885, "train_loss_bc": 0.07234203070402145, "train_loss_llm": 0.3829520046710968, "grad_norm": 0.47438812255859375, "global_step": 554, "epoch": 2, "lr": 0.009999899766634755}
+{"train_loss": 0.43079060316085815, "train_loss_bc": 0.07845665514469147, "train_loss_llm": 0.3523339629173279, "grad_norm": 0.6965692639350891, "global_step": 555, "epoch": 2, "lr": 0.009999899766634755}
+{"train_loss": 0.49077045917510986, "train_loss_bc": 0.07614822685718536, "train_loss_llm": 0.4146222472190857, "grad_norm": 0.8184064030647278, "global_step": 556, "epoch": 2, "lr": 0.009999899766634755}
+{"train_loss": 0.43349170684814453, "train_loss_bc": 0.07880569994449615, "train_loss_llm": 0.3546859920024872, "grad_norm": 1.0480519533157349, "global_step": 557, "epoch": 2, "lr": 0.009999899766634755}
+{"train_loss": 0.46292227506637573, "train_loss_bc": 0.07524273544549942, "train_loss_llm": 0.3876795470714569, "grad_norm": 1.100321888923645, "global_step": 558, "epoch": 2, "lr": 0.009999899766634755}
+{"train_loss": 0.4645707607269287, "train_loss_bc": 0.07579153031110764, "train_loss_llm": 0.3887792229652405, "grad_norm": 1.2204151153564453, "global_step": 559, "epoch": 2, "lr": 0.009999899766634755}
+{"train_loss": 0.40711408853530884, "train_loss_bc": 0.07561276853084564, "train_loss_llm": 0.331501305103302, "grad_norm": 1.462188482284546, "global_step": 560, "epoch": 2, "lr": 0.009999896397691615}
+{"train_loss": 0.4627052843570709, "train_loss_bc": 0.08349796384572983, "train_loss_llm": 0.3792073130607605, "grad_norm": 0.3634810745716095, "global_step": 561, "epoch": 2, "lr": 0.009999896397691615}
+{"train_loss": 0.37950557470321655, "train_loss_bc": 0.07609245181083679, "train_loss_llm": 0.30341312289237976, "grad_norm": 0.4759324789047241, "global_step": 562, "epoch": 2, "lr": 0.009999896397691615}
+{"train_loss": 0.46502792835235596, "train_loss_bc": 0.08016758412122726, "train_loss_llm": 0.3848603367805481, "grad_norm": 0.617774248123169, "global_step": 563, "epoch": 2, "lr": 0.009999896397691615}
+{"train_loss": 0.42225146293640137, "train_loss_bc": 0.07741118967533112, "train_loss_llm": 0.34484028816223145, "grad_norm": 0.7530955672264099, "global_step": 564, "epoch": 2, "lr": 0.009999896397691615}
+{"train_loss": 0.4192259907722473, "train_loss_bc": 0.07680658996105194, "train_loss_llm": 0.34241941571235657, "grad_norm": 0.9498980641365051, "global_step": 565, "epoch": 2, "lr": 0.009999896397691615}
+{"train_loss": 0.43544185161590576, "train_loss_bc": 0.07859663665294647, "train_loss_llm": 0.3568452000617981, "grad_norm": 1.2146503925323486, "global_step": 566, "epoch": 2, "lr": 0.009999896397691615}
+{"train_loss": 0.44955378770828247, "train_loss_bc": 0.07265609502792358, "train_loss_llm": 0.3768976926803589, "grad_norm": 1.3304953575134277, "global_step": 567, "epoch": 2, "lr": 0.009999896397691615}
+{"train_loss": 0.4591597318649292, "train_loss_bc": 0.08191506564617157, "train_loss_llm": 0.3772446811199188, "grad_norm": 1.5423089265823364, "global_step": 568, "epoch": 2, "lr": 0.009999892973064237}
+{"train_loss": 0.4721347689628601, "train_loss_bc": 0.08922852575778961, "train_loss_llm": 0.3829062581062317, "grad_norm": 0.24781295657157898, "global_step": 569, "epoch": 2, "lr": 0.009999892973064237}
+{"train_loss": 0.4341358542442322, "train_loss_bc": 0.0856778472661972, "train_loss_llm": 0.3484579920768738, "grad_norm": 0.33594390749931335, "global_step": 570, "epoch": 2, "lr": 0.009999892973064237}
+{"train_loss": 0.4087400436401367, "train_loss_bc": 0.07443584501743317, "train_loss_llm": 0.33430421352386475, "grad_norm": 0.4647153913974762, "global_step": 571, "epoch": 2, "lr": 0.009999892973064237}
+{"train_loss": 0.4078214764595032, "train_loss_bc": 0.08218885958194733, "train_loss_llm": 0.32563260197639465, "grad_norm": 0.41992872953414917, "global_step": 572, "epoch": 2, "lr": 0.009999892973064237}
+{"train_loss": 0.40663808584213257, "train_loss_bc": 0.08027030527591705, "train_loss_llm": 0.3263677954673767, "grad_norm": 0.5841646790504456, "global_step": 573, "epoch": 2, "lr": 0.009999892973064237}
+{"train_loss": 0.4360664486885071, "train_loss_bc": 0.08944319188594818, "train_loss_llm": 0.3466232419013977, "grad_norm": 0.6846237182617188, "global_step": 574, "epoch": 2, "lr": 0.009999892973064237}
+{"train_loss": 0.41815662384033203, "train_loss_bc": 0.08207780122756958, "train_loss_llm": 0.33607882261276245, "grad_norm": 0.7549338340759277, "global_step": 575, "epoch": 2, "lr": 0.009999892973064237}
+{"train_loss": 0.47273287177085876, "train_loss_bc": 0.09286567568778992, "train_loss_llm": 0.37986719608306885, "grad_norm": 0.8858387470245361, "global_step": 576, "epoch": 2, "lr": 0.009999889492752663}
+{"train_loss": 0.4195874035358429, "train_loss_bc": 0.09223143011331558, "train_loss_llm": 0.3273559808731079, "grad_norm": 0.11669079959392548, "global_step": 577, "epoch": 2, "lr": 0.009999889492752663}
+{"train_loss": 0.4273373782634735, "train_loss_bc": 0.09598425030708313, "train_loss_llm": 0.3313531279563904, "grad_norm": 0.26633745431900024, "global_step": 578, "epoch": 2, "lr": 0.009999889492752663}
+{"train_loss": 0.38965991139411926, "train_loss_bc": 0.09822592884302139, "train_loss_llm": 0.29143399000167847, "grad_norm": 0.32965585589408875, "global_step": 579, "epoch": 2, "lr": 0.009999889492752663}
+{"train_loss": 0.4276115298271179, "train_loss_bc": 0.0944446325302124, "train_loss_llm": 0.3331668972969055, "grad_norm": 0.4686974883079529, "global_step": 580, "epoch": 2, "lr": 0.009999889492752663}
+{"train_loss": 0.4080336093902588, "train_loss_bc": 0.08655841648578644, "train_loss_llm": 0.32147517800331116, "grad_norm": 0.5368421673774719, "global_step": 581, "epoch": 2, "lr": 0.009999889492752663}
+{"train_loss": 0.4380302131175995, "train_loss_bc": 0.09635409712791443, "train_loss_llm": 0.34167611598968506, "grad_norm": 0.5916479229927063, "global_step": 582, "epoch": 2, "lr": 0.009999889492752663}
+{"train_loss": 0.4554138481616974, "train_loss_bc": 0.09554126858711243, "train_loss_llm": 0.35987257957458496, "grad_norm": 0.7863181233406067, "global_step": 583, "epoch": 2, "lr": 0.009999889492752663}
+{"train_loss": 0.4151180684566498, "train_loss_bc": 0.09479612112045288, "train_loss_llm": 0.3203219473361969, "grad_norm": 0.8786006569862366, "global_step": 584, "epoch": 2, "lr": 0.00999988595675693}
+{"train_loss": 0.42585307359695435, "train_loss_bc": 0.1004682332277298, "train_loss_llm": 0.32538482546806335, "grad_norm": 0.19918857514858246, "global_step": 585, "epoch": 2, "lr": 0.00999988595675693}
+{"train_loss": 0.44469791650772095, "train_loss_bc": 0.11555919796228409, "train_loss_llm": 0.32913872599601746, "grad_norm": 0.38283541798591614, "global_step": 586, "epoch": 2, "lr": 0.00999988595675693}
+{"train_loss": 0.45297154784202576, "train_loss_bc": 0.10449522733688354, "train_loss_llm": 0.3484763205051422, "grad_norm": 0.5628781318664551, "global_step": 587, "epoch": 2, "lr": 0.00999988595675693}
+{"train_loss": 0.4199542999267578, "train_loss_bc": 0.10603269934654236, "train_loss_llm": 0.31392160058021545, "grad_norm": 0.6741154789924622, "global_step": 588, "epoch": 2, "lr": 0.00999988595675693}
+{"train_loss": 0.412473201751709, "train_loss_bc": 0.10289125144481659, "train_loss_llm": 0.3095819652080536, "grad_norm": 0.8231542706489563, "global_step": 589, "epoch": 2, "lr": 0.00999988595675693}
+{"train_loss": 0.43036240339279175, "train_loss_bc": 0.10232548415660858, "train_loss_llm": 0.32803693413734436, "grad_norm": 0.7885339856147766, "global_step": 590, "epoch": 2, "lr": 0.00999988595675693}
+{"train_loss": 0.4369162619113922, "train_loss_bc": 0.10582656413316727, "train_loss_llm": 0.33108970522880554, "grad_norm": 0.9888026714324951, "global_step": 591, "epoch": 2, "lr": 0.00999988595675693}
+{"train_loss": 0.42933890223503113, "train_loss_bc": 0.10677803307771683, "train_loss_llm": 0.3225608766078949, "grad_norm": 1.1501303911209106, "global_step": 592, "epoch": 2, "lr": 0.00999988236507708}
+{"train_loss": 0.4492464065551758, "train_loss_bc": 0.09649311006069183, "train_loss_llm": 0.35275328159332275, "grad_norm": 0.21813231706619263, "global_step": 593, "epoch": 2, "lr": 0.00999988236507708}
+{"train_loss": 0.42256292700767517, "train_loss_bc": 0.09830623865127563, "train_loss_llm": 0.32425668835639954, "grad_norm": 0.39469343423843384, "global_step": 594, "epoch": 2, "lr": 0.00999988236507708}
+{"train_loss": 0.4612087905406952, "train_loss_bc": 0.10892733931541443, "train_loss_llm": 0.35228145122528076, "grad_norm": 0.5550432205200195, "global_step": 595, "epoch": 2, "lr": 0.00999988236507708}
+{"train_loss": 0.45548495650291443, "train_loss_bc": 0.10715228319168091, "train_loss_llm": 0.3483326733112335, "grad_norm": 0.7228237390518188, "global_step": 596, "epoch": 2, "lr": 0.00999988236507708}
+{"train_loss": 0.47021374106407166, "train_loss_bc": 0.10811927914619446, "train_loss_llm": 0.3620944619178772, "grad_norm": 0.9018688201904297, "global_step": 597, "epoch": 2, "lr": 0.00999988236507708}
+{"train_loss": 0.3799229562282562, "train_loss_bc": 0.09355828166007996, "train_loss_llm": 0.28636467456817627, "grad_norm": 1.0679750442504883, "global_step": 598, "epoch": 2, "lr": 0.00999988236507708}
+{"train_loss": 0.4161437451839447, "train_loss_bc": 0.10755757242441177, "train_loss_llm": 0.3085861802101135, "grad_norm": 1.308051586151123, "global_step": 599, "epoch": 2, "lr": 0.00999988236507708}
+{"train_loss": 0.4197009205818176, "train_loss_bc": 0.11014455556869507, "train_loss_llm": 0.30955636501312256, "grad_norm": 1.4433079957962036, "global_step": 600, "epoch": 2, "lr": 0.009999878717713151}
+{"train_loss": 0.4394400417804718, "train_loss_bc": 0.09497631341218948, "train_loss_llm": 0.3444637358188629, "grad_norm": 0.06002218276262283, "global_step": 601, "epoch": 2, "lr": 0.009999878717713151}
+{"train_loss": 0.40649473667144775, "train_loss_bc": 0.10401158034801483, "train_loss_llm": 0.30248314142227173, "grad_norm": 0.16865821182727814, "global_step": 602, "epoch": 2, "lr": 0.009999878717713151}
+{"train_loss": 0.4002603590488434, "train_loss_bc": 0.09985539317131042, "train_loss_llm": 0.30040496587753296, "grad_norm": 0.2704157829284668, "global_step": 603, "epoch": 2, "lr": 0.009999878717713151}
+{"train_loss": 0.43046724796295166, "train_loss_bc": 0.09627915918827057, "train_loss_llm": 0.3341881036758423, "grad_norm": 0.32577136158943176, "global_step": 604, "epoch": 2, "lr": 0.009999878717713151}
+{"train_loss": 0.4079289436340332, "train_loss_bc": 0.1011551171541214, "train_loss_llm": 0.306773841381073, "grad_norm": 0.43674615025520325, "global_step": 605, "epoch": 2, "lr": 0.009999878717713151}
+{"train_loss": 0.44714874029159546, "train_loss_bc": 0.10735622048377991, "train_loss_llm": 0.33979251980781555, "grad_norm": 0.4971620738506317, "global_step": 606, "epoch": 2, "lr": 0.009999878717713151}
+{"train_loss": 0.44159194827079773, "train_loss_bc": 0.10010259598493576, "train_loss_llm": 0.34148934483528137, "grad_norm": 0.620949387550354, "global_step": 607, "epoch": 2, "lr": 0.009999878717713151}
+{"train_loss": 0.4158746004104614, "train_loss_bc": 0.10421653091907501, "train_loss_llm": 0.3116580843925476, "grad_norm": 0.6529578566551208, "global_step": 608, "epoch": 2, "lr": 0.009999875014665182}
+{"train_loss": 0.4048372507095337, "train_loss_bc": 0.09684020280838013, "train_loss_llm": 0.30799704790115356, "grad_norm": 0.0452987402677536, "global_step": 609, "epoch": 2, "lr": 0.009999875014665182}
+{"train_loss": 0.4071410000324249, "train_loss_bc": 0.09941978007555008, "train_loss_llm": 0.30772122740745544, "grad_norm": 0.12298334389925003, "global_step": 610, "epoch": 2, "lr": 0.009999875014665182}
+{"train_loss": 0.41657108068466187, "train_loss_bc": 0.09616453945636749, "train_loss_llm": 0.32040655612945557, "grad_norm": 0.2433784455060959, "global_step": 611, "epoch": 2, "lr": 0.009999875014665182}
+{"train_loss": 0.373251736164093, "train_loss_bc": 0.10204102098941803, "train_loss_llm": 0.2712107002735138, "grad_norm": 0.2914789021015167, "global_step": 612, "epoch": 2, "lr": 0.009999875014665182}
+{"train_loss": 0.43657252192497253, "train_loss_bc": 0.10546910762786865, "train_loss_llm": 0.3311034142971039, "grad_norm": 0.41823381185531616, "global_step": 613, "epoch": 2, "lr": 0.009999875014665182}
+{"train_loss": 0.42135119438171387, "train_loss_bc": 0.09924598038196564, "train_loss_llm": 0.32210519909858704, "grad_norm": 0.5209823250770569, "global_step": 614, "epoch": 2, "lr": 0.009999875014665182}
+{"train_loss": 0.4094250798225403, "train_loss_bc": 0.10584111511707306, "train_loss_llm": 0.30358394980430603, "grad_norm": 0.5568364858627319, "global_step": 615, "epoch": 2, "lr": 0.009999875014665182}
+{"train_loss": 0.35862821340560913, "train_loss_bc": 0.0952034443616867, "train_loss_llm": 0.2634247839450836, "grad_norm": 0.59416264295578, "global_step": 616, "epoch": 2, "lr": 0.009999871255933218}
+{"train_loss": 0.42153117060661316, "train_loss_bc": 0.08935713022947311, "train_loss_llm": 0.33217403292655945, "grad_norm": 0.17233236134052277, "global_step": 617, "epoch": 2, "lr": 0.009999871255933218}
+{"train_loss": 0.4502792954444885, "train_loss_bc": 0.09841695427894592, "train_loss_llm": 0.3518623411655426, "grad_norm": 0.39704540371894836, "global_step": 618, "epoch": 2, "lr": 0.009999871255933218}
+{"train_loss": 0.42770010232925415, "train_loss_bc": 0.0855618268251419, "train_loss_llm": 0.34213829040527344, "grad_norm": 0.45655176043510437, "global_step": 619, "epoch": 2, "lr": 0.009999871255933218}
+{"train_loss": 0.4011039137840271, "train_loss_bc": 0.09026925265789032, "train_loss_llm": 0.3108346462249756, "grad_norm": 0.6013332009315491, "global_step": 620, "epoch": 2, "lr": 0.009999871255933218}
+{"train_loss": 0.454532265663147, "train_loss_bc": 0.0848693773150444, "train_loss_llm": 0.369662880897522, "grad_norm": 0.7004614472389221, "global_step": 621, "epoch": 2, "lr": 0.009999871255933218}
+{"train_loss": 0.4175281524658203, "train_loss_bc": 0.09319639205932617, "train_loss_llm": 0.32433176040649414, "grad_norm": 0.8623825907707214, "global_step": 622, "epoch": 2, "lr": 0.009999871255933218}
+{"train_loss": 0.406002014875412, "train_loss_bc": 0.0862511694431305, "train_loss_llm": 0.3197508454322815, "grad_norm": 1.0937658548355103, "global_step": 623, "epoch": 2, "lr": 0.009999871255933218}
+{"train_loss": 0.43508201837539673, "train_loss_bc": 0.09944696724414825, "train_loss_llm": 0.3356350362300873, "grad_norm": 1.1901488304138184, "global_step": 624, "epoch": 2, "lr": 0.0099998674415173}
+{"train_loss": 0.36755067110061646, "train_loss_bc": 0.08198805153369904, "train_loss_llm": 0.2855626344680786, "grad_norm": 0.12439513206481934, "global_step": 625, "epoch": 2, "lr": 0.0099998674415173}
+{"train_loss": 0.41964709758758545, "train_loss_bc": 0.08526808023452759, "train_loss_llm": 0.33437901735305786, "grad_norm": 0.2570105195045471, "global_step": 626, "epoch": 2, "lr": 0.0099998674415173}
+{"train_loss": 0.41203683614730835, "train_loss_bc": 0.08778507262468338, "train_loss_llm": 0.32425177097320557, "grad_norm": 0.38900548219680786, "global_step": 627, "epoch": 2, "lr": 0.0099998674415173}
+{"train_loss": 0.4353477656841278, "train_loss_bc": 0.08681038022041321, "train_loss_llm": 0.3485373854637146, "grad_norm": 0.5536660552024841, "global_step": 628, "epoch": 2, "lr": 0.0099998674415173}
+{"train_loss": 0.4564046263694763, "train_loss_bc": 0.08649353682994843, "train_loss_llm": 0.3699110746383667, "grad_norm": 0.6863783001899719, "global_step": 629, "epoch": 2, "lr": 0.0099998674415173}
+{"train_loss": 0.3751559555530548, "train_loss_bc": 0.08970434218645096, "train_loss_llm": 0.28545162081718445, "grad_norm": 0.7498563528060913, "global_step": 630, "epoch": 2, "lr": 0.0099998674415173}
+{"train_loss": 0.4794917702674866, "train_loss_bc": 0.08069047331809998, "train_loss_llm": 0.3988012969493866, "grad_norm": 0.8321115374565125, "global_step": 631, "epoch": 2, "lr": 0.0099998674415173}
+{"train_loss": 0.43039101362228394, "train_loss_bc": 0.08610419929027557, "train_loss_llm": 0.34428679943084717, "grad_norm": 1.0934339761734009, "global_step": 632, "epoch": 2, "lr": 0.009999863571417465}
+{"train_loss": 0.4235507547855377, "train_loss_bc": 0.08258163928985596, "train_loss_llm": 0.34096911549568176, "grad_norm": 0.07223966717720032, "global_step": 633, "epoch": 2, "lr": 0.009999863571417465}
+{"train_loss": 0.3944488763809204, "train_loss_bc": 0.08412286639213562, "train_loss_llm": 0.3103260099887848, "grad_norm": 0.0729902982711792, "global_step": 634, "epoch": 2, "lr": 0.009999863571417465}
+{"train_loss": 0.40704643726348877, "train_loss_bc": 0.09020131826400757, "train_loss_llm": 0.3168451189994812, "grad_norm": 0.1593436598777771, "global_step": 635, "epoch": 2, "lr": 0.009999863571417465}
+{"train_loss": 0.40470650792121887, "train_loss_bc": 0.08574675768613815, "train_loss_llm": 0.3189597427845001, "grad_norm": 0.2076716274023056, "global_step": 636, "epoch": 2, "lr": 0.009999863571417465}
+{"train_loss": 0.4090449810028076, "train_loss_bc": 0.08615049719810486, "train_loss_llm": 0.32289448380470276, "grad_norm": 0.27101007103919983, "global_step": 637, "epoch": 2, "lr": 0.009999863571417465}
+{"train_loss": 0.4033856689929962, "train_loss_bc": 0.08203125, "train_loss_llm": 0.3213544189929962, "grad_norm": 0.4035555422306061, "global_step": 638, "epoch": 2, "lr": 0.009999863571417465}
+{"train_loss": 0.45216307044029236, "train_loss_bc": 0.088284432888031, "train_loss_llm": 0.36387863755226135, "grad_norm": 0.5029809474945068, "global_step": 639, "epoch": 2, "lr": 0.009999863571417465}
+{"train_loss": 0.406577467918396, "train_loss_bc": 0.08719421923160553, "train_loss_llm": 0.3193832337856293, "grad_norm": 0.5775508284568787, "global_step": 640, "epoch": 2, "lr": 0.009999859645633765}
+{"train_loss": 0.4654691219329834, "train_loss_bc": 0.08190923184156418, "train_loss_llm": 0.3835598826408386, "grad_norm": 0.18913933634757996, "global_step": 641, "epoch": 2, "lr": 0.009999859645633765}
+{"train_loss": 0.4591779112815857, "train_loss_bc": 0.0814066082239151, "train_loss_llm": 0.3777713179588318, "grad_norm": 0.34009379148483276, "global_step": 642, "epoch": 2, "lr": 0.009999859645633765}
+{"train_loss": 0.4223529100418091, "train_loss_bc": 0.07894039899110794, "train_loss_llm": 0.34341251850128174, "grad_norm": 0.4337559938430786, "global_step": 643, "epoch": 2, "lr": 0.009999859645633765}
+{"train_loss": 0.4008530378341675, "train_loss_bc": 0.07686619460582733, "train_loss_llm": 0.32398685812950134, "grad_norm": 0.6137154698371887, "global_step": 644, "epoch": 2, "lr": 0.009999859645633765}
+{"train_loss": 0.42682844400405884, "train_loss_bc": 0.08780953288078308, "train_loss_llm": 0.33901891112327576, "grad_norm": 0.8056911826133728, "global_step": 645, "epoch": 2, "lr": 0.009999859645633765}
+{"train_loss": 0.4369775950908661, "train_loss_bc": 0.08732619136571884, "train_loss_llm": 0.34965139627456665, "grad_norm": 0.7895442843437195, "global_step": 646, "epoch": 2, "lr": 0.009999859645633765}
+{"train_loss": 0.43768081068992615, "train_loss_bc": 0.07999866455793381, "train_loss_llm": 0.35768213868141174, "grad_norm": 0.9185712337493896, "global_step": 647, "epoch": 2, "lr": 0.009999859645633765}
+{"train_loss": 0.4741099774837494, "train_loss_bc": 0.08784717321395874, "train_loss_llm": 0.38626280426979065, "grad_norm": 1.1131240129470825, "global_step": 648, "epoch": 2, "lr": 0.009999855664166236}
+{"train_loss": 0.40452444553375244, "train_loss_bc": 0.07263417541980743, "train_loss_llm": 0.3318902552127838, "grad_norm": 0.13623394072055817, "global_step": 649, "epoch": 2, "lr": 0.009999855664166236}
+{"train_loss": 0.44210129976272583, "train_loss_bc": 0.08203163743019104, "train_loss_llm": 0.3600696623325348, "grad_norm": 0.39031171798706055, "global_step": 650, "epoch": 2, "lr": 0.009999855664166236}
+{"train_loss": 0.40264421701431274, "train_loss_bc": 0.07208280265331268, "train_loss_llm": 0.33056139945983887, "grad_norm": 0.6138424277305603, "global_step": 651, "epoch": 2, "lr": 0.009999855664166236}
+{"train_loss": 0.40508583188056946, "train_loss_bc": 0.0815805122256279, "train_loss_llm": 0.32350531220436096, "grad_norm": 0.795283854007721, "global_step": 652, "epoch": 2, "lr": 0.009999855664166236}
+{"train_loss": 0.4109329581260681, "train_loss_bc": 0.0886995792388916, "train_loss_llm": 0.3222333788871765, "grad_norm": 0.9247920513153076, "global_step": 653, "epoch": 2, "lr": 0.009999855664166236}
+{"train_loss": 0.45307958126068115, "train_loss_bc": 0.08388397842645645, "train_loss_llm": 0.3691956102848053, "grad_norm": 1.1164097785949707, "global_step": 654, "epoch": 2, "lr": 0.009999855664166236}
+{"train_loss": 0.45190560817718506, "train_loss_bc": 0.08818061649799347, "train_loss_llm": 0.3637250065803528, "grad_norm": 1.3368088006973267, "global_step": 655, "epoch": 2, "lr": 0.009999855664166236}
+{"train_loss": 0.427350789308548, "train_loss_bc": 0.08439868688583374, "train_loss_llm": 0.34295210242271423, "grad_norm": 1.4116929769515991, "global_step": 656, "epoch": 2, "lr": 0.009999851627014927}
+{"train_loss": 0.40821924805641174, "train_loss_bc": 0.07953747361898422, "train_loss_llm": 0.3286817669868469, "grad_norm": 0.04042778164148331, "global_step": 657, "epoch": 2, "lr": 0.009999851627014927}
+{"train_loss": 0.39452019333839417, "train_loss_bc": 0.08069989830255508, "train_loss_llm": 0.3138203024864197, "grad_norm": 0.2378966212272644, "global_step": 658, "epoch": 2, "lr": 0.009999851627014927}
+{"train_loss": 0.46694254875183105, "train_loss_bc": 0.08599086105823517, "train_loss_llm": 0.3809517025947571, "grad_norm": 0.4906860291957855, "global_step": 659, "epoch": 2, "lr": 0.009999851627014927}
+{"train_loss": 0.3694714307785034, "train_loss_bc": 0.08161680400371552, "train_loss_llm": 0.2878546118736267, "grad_norm": 0.6637605428695679, "global_step": 660, "epoch": 2, "lr": 0.009999851627014927}
+{"train_loss": 0.39441657066345215, "train_loss_bc": 0.07806064188480377, "train_loss_llm": 0.31635594367980957, "grad_norm": 0.7323715090751648, "global_step": 661, "epoch": 2, "lr": 0.009999851627014927}
+{"train_loss": 0.4424039125442505, "train_loss_bc": 0.0843936949968338, "train_loss_llm": 0.3580102026462555, "grad_norm": 0.8425866961479187, "global_step": 662, "epoch": 2, "lr": 0.009999851627014927}
+{"train_loss": 0.42215368151664734, "train_loss_bc": 0.07864845544099808, "train_loss_llm": 0.34350523352622986, "grad_norm": 1.1153165102005005, "global_step": 663, "epoch": 2, "lr": 0.009999851627014927}
+{"train_loss": 0.3838925361633301, "train_loss_bc": 0.07779639959335327, "train_loss_llm": 0.3060961365699768, "grad_norm": 1.2843812704086304, "global_step": 664, "epoch": 2, "lr": 0.009999847534179882}
+{"train_loss": 0.3559499979019165, "train_loss_bc": 0.0772915631532669, "train_loss_llm": 0.2786584496498108, "grad_norm": 0.13039137423038483, "global_step": 665, "epoch": 2, "lr": 0.009999847534179882}
+{"train_loss": 0.4298795461654663, "train_loss_bc": 0.07911164313554764, "train_loss_llm": 0.35076791048049927, "grad_norm": 0.24559268355369568, "global_step": 666, "epoch": 2, "lr": 0.009999847534179882}
+{"train_loss": 0.4093383550643921, "train_loss_bc": 0.08373752236366272, "train_loss_llm": 0.32560083270072937, "grad_norm": 0.2918049693107605, "global_step": 667, "epoch": 2, "lr": 0.009999847534179882}
+{"train_loss": 0.3712396025657654, "train_loss_bc": 0.08248396217823029, "train_loss_llm": 0.2887556254863739, "grad_norm": 0.3038633167743683, "global_step": 668, "epoch": 2, "lr": 0.009999847534179882}
+{"train_loss": 0.40350988507270813, "train_loss_bc": 0.08196783810853958, "train_loss_llm": 0.32154205441474915, "grad_norm": 0.3354317545890808, "global_step": 669, "epoch": 2, "lr": 0.009999847534179882}
+{"train_loss": 0.4286501109600067, "train_loss_bc": 0.08226852864027023, "train_loss_llm": 0.3463815748691559, "grad_norm": 0.46313026547431946, "global_step": 670, "epoch": 2, "lr": 0.009999847534179882}
+{"train_loss": 0.46817630529403687, "train_loss_bc": 0.08395998179912567, "train_loss_llm": 0.38421630859375, "grad_norm": 0.5779849290847778, "global_step": 671, "epoch": 2, "lr": 0.009999847534179882}
+{"train_loss": 0.3959871530532837, "train_loss_bc": 0.0846199244260788, "train_loss_llm": 0.3113672137260437, "grad_norm": 0.5964794754981995, "global_step": 672, "epoch": 2, "lr": 0.009999843385661145}
+{"train_loss": 0.40895336866378784, "train_loss_bc": 0.08753222972154617, "train_loss_llm": 0.32142114639282227, "grad_norm": 0.1413833200931549, "global_step": 673, "epoch": 2, "lr": 0.009999843385661145}
+{"train_loss": 0.43423333764076233, "train_loss_bc": 0.08123829215765, "train_loss_llm": 0.35299503803253174, "grad_norm": 0.2955138683319092, "global_step": 674, "epoch": 2, "lr": 0.009999843385661145}
+{"train_loss": 0.4276881217956543, "train_loss_bc": 0.07885690033435822, "train_loss_llm": 0.3488312065601349, "grad_norm": 0.3970159590244293, "global_step": 675, "epoch": 2, "lr": 0.009999843385661145}
+{"train_loss": 0.4004608392715454, "train_loss_bc": 0.0837220624089241, "train_loss_llm": 0.3167387843132019, "grad_norm": 0.5109164118766785, "global_step": 676, "epoch": 2, "lr": 0.009999843385661145}
+{"train_loss": 0.3899121880531311, "train_loss_bc": 0.08269120752811432, "train_loss_llm": 0.3072209656238556, "grad_norm": 0.6184984445571899, "global_step": 677, "epoch": 2, "lr": 0.009999843385661145}
+{"train_loss": 0.44320252537727356, "train_loss_bc": 0.09054619073867798, "train_loss_llm": 0.3526563346385956, "grad_norm": 0.6945905685424805, "global_step": 678, "epoch": 2, "lr": 0.009999843385661145}
+{"train_loss": 0.4392162263393402, "train_loss_bc": 0.08224163204431534, "train_loss_llm": 0.35697460174560547, "grad_norm": 0.8676753640174866, "global_step": 679, "epoch": 2, "lr": 0.009999843385661145}
+{"train_loss": 0.40406334400177, "train_loss_bc": 0.08649159967899323, "train_loss_llm": 0.317571759223938, "grad_norm": 1.0459764003753662, "global_step": 680, "epoch": 2, "lr": 0.009999839181458763}
+{"train_loss": 0.4105849862098694, "train_loss_bc": 0.08570100367069244, "train_loss_llm": 0.32488399744033813, "grad_norm": 0.17371612787246704, "global_step": 681, "epoch": 2, "lr": 0.009999839181458763}
+{"train_loss": 0.4367002248764038, "train_loss_bc": 0.08208604156970978, "train_loss_llm": 0.35461416840553284, "grad_norm": 0.35402408242225647, "global_step": 682, "epoch": 2, "lr": 0.009999839181458763}
+{"train_loss": 0.41319042444229126, "train_loss_bc": 0.08255571126937866, "train_loss_llm": 0.3306347131729126, "grad_norm": 0.5297295451164246, "global_step": 683, "epoch": 2, "lr": 0.009999839181458763}
+{"train_loss": 0.4207320213317871, "train_loss_bc": 0.0807187408208847, "train_loss_llm": 0.3400132656097412, "grad_norm": 0.6594598889350891, "global_step": 684, "epoch": 2, "lr": 0.009999839181458763}
+{"train_loss": 0.4468151926994324, "train_loss_bc": 0.08585113286972046, "train_loss_llm": 0.3609640598297119, "grad_norm": 0.8267357349395752, "global_step": 685, "epoch": 2, "lr": 0.009999839181458763}
+{"train_loss": 0.386695921421051, "train_loss_bc": 0.09102232754230499, "train_loss_llm": 0.2956736087799072, "grad_norm": 0.9952560663223267, "global_step": 686, "epoch": 2, "lr": 0.009999839181458763}
+{"train_loss": 0.4026229977607727, "train_loss_bc": 0.0808575302362442, "train_loss_llm": 0.3217654824256897, "grad_norm": 1.1747488975524902, "global_step": 687, "epoch": 2, "lr": 0.009999839181458763}
+{"train_loss": 0.4087214171886444, "train_loss_bc": 0.08088070154190063, "train_loss_llm": 0.3278407156467438, "grad_norm": 1.4236809015274048, "global_step": 688, "epoch": 2, "lr": 0.009999834921572784}
+{"train_loss": 0.47681814432144165, "train_loss_bc": 0.08180368691682816, "train_loss_llm": 0.3950144648551941, "grad_norm": 0.17850428819656372, "global_step": 689, "epoch": 2, "lr": 0.009999834921572784}
+{"train_loss": 0.4422776401042938, "train_loss_bc": 0.08417511731386185, "train_loss_llm": 0.3581025302410126, "grad_norm": 0.33283400535583496, "global_step": 690, "epoch": 2, "lr": 0.009999834921572784}
+{"train_loss": 0.4142545461654663, "train_loss_bc": 0.08281052112579346, "train_loss_llm": 0.33144402503967285, "grad_norm": 0.4197819232940674, "global_step": 691, "epoch": 2, "lr": 0.009999834921572784}
+{"train_loss": 0.41894662380218506, "train_loss_bc": 0.08951713144779205, "train_loss_llm": 0.3294294774532318, "grad_norm": 0.6612998247146606, "global_step": 692, "epoch": 2, "lr": 0.009999834921572784}
+{"train_loss": 0.4349121153354645, "train_loss_bc": 0.08317986130714417, "train_loss_llm": 0.3517322540283203, "grad_norm": 0.8266332149505615, "global_step": 693, "epoch": 2, "lr": 0.009999834921572784}
+{"train_loss": 0.4062268137931824, "train_loss_bc": 0.08344195783138275, "train_loss_llm": 0.3227848410606384, "grad_norm": 1.1115113496780396, "global_step": 694, "epoch": 2, "lr": 0.009999834921572784}
+{"train_loss": 0.43269526958465576, "train_loss_bc": 0.08741868287324905, "train_loss_llm": 0.3452765941619873, "grad_norm": 1.3005260229110718, "global_step": 695, "epoch": 2, "lr": 0.009999834921572784}
+{"train_loss": 0.43427592515945435, "train_loss_bc": 0.09614653885364532, "train_loss_llm": 0.3381294012069702, "grad_norm": 1.4950710535049438, "global_step": 696, "epoch": 2, "lr": 0.009999830606003256}
+{"train_loss": 0.37025973200798035, "train_loss_bc": 0.08892624825239182, "train_loss_llm": 0.28133347630500793, "grad_norm": 0.12888041138648987, "global_step": 697, "epoch": 2, "lr": 0.009999830606003256}
+{"train_loss": 0.43055081367492676, "train_loss_bc": 0.08361153304576874, "train_loss_llm": 0.3469392657279968, "grad_norm": 0.26531633734703064, "global_step": 698, "epoch": 2, "lr": 0.009999830606003256}
+{"train_loss": 0.4134922921657562, "train_loss_bc": 0.09019134193658829, "train_loss_llm": 0.32330095767974854, "grad_norm": 0.3604576587677002, "global_step": 699, "epoch": 2, "lr": 0.009999830606003256}
+{"train_loss": 0.43134522438049316, "train_loss_bc": 0.08583910763263702, "train_loss_llm": 0.34550610184669495, "grad_norm": 0.4432973861694336, "global_step": 700, "epoch": 2, "lr": 0.009999830606003256}
+{"train_loss": 0.45312586426734924, "train_loss_bc": 0.08769596368074417, "train_loss_llm": 0.36542990803718567, "grad_norm": 0.41833147406578064, "global_step": 701, "epoch": 2, "lr": 0.009999830606003256}
+{"train_loss": 0.4150705337524414, "train_loss_bc": 0.08476578444242477, "train_loss_llm": 0.33030474185943604, "grad_norm": 0.4742109477519989, "global_step": 702, "epoch": 2, "lr": 0.009999830606003256}
+{"train_loss": 0.4119277894496918, "train_loss_bc": 0.08963596820831299, "train_loss_llm": 0.3222918212413788, "grad_norm": 0.5139663815498352, "global_step": 703, "epoch": 2, "lr": 0.009999830606003256}
+{"train_loss": 0.4352174401283264, "train_loss_bc": 0.09175768494606018, "train_loss_llm": 0.34345975518226624, "grad_norm": 0.6480681300163269, "global_step": 704, "epoch": 2, "lr": 0.009999826234750223}
+{"train_loss": 0.4495852291584015, "train_loss_bc": 0.0998201072216034, "train_loss_llm": 0.3497651219367981, "grad_norm": 0.04817187413573265, "global_step": 705, "epoch": 2, "lr": 0.009999826234750223}
+{"train_loss": 0.3885568082332611, "train_loss_bc": 0.08893939852714539, "train_loss_llm": 0.2996174097061157, "grad_norm": 0.07981809228658676, "global_step": 706, "epoch": 2, "lr": 0.009999826234750223}
+{"train_loss": 0.40011534094810486, "train_loss_bc": 0.0916965901851654, "train_loss_llm": 0.30841875076293945, "grad_norm": 0.19988131523132324, "global_step": 707, "epoch": 2, "lr": 0.009999826234750223}
+{"train_loss": 0.43449997901916504, "train_loss_bc": 0.08408117294311523, "train_loss_llm": 0.3504188060760498, "grad_norm": 0.25721248984336853, "global_step": 708, "epoch": 2, "lr": 0.009999826234750223}
+{"train_loss": 0.3838536739349365, "train_loss_bc": 0.08915920555591583, "train_loss_llm": 0.2946944832801819, "grad_norm": 0.2930973470211029, "global_step": 709, "epoch": 2, "lr": 0.009999826234750223}
+{"train_loss": 0.3879382610321045, "train_loss_bc": 0.09002384543418884, "train_loss_llm": 0.29791441559791565, "grad_norm": 0.36019501090049744, "global_step": 710, "epoch": 2, "lr": 0.009999826234750223}
+{"train_loss": 0.40915465354919434, "train_loss_bc": 0.09149250388145447, "train_loss_llm": 0.31766214966773987, "grad_norm": 0.47664937376976013, "global_step": 711, "epoch": 2, "lr": 0.009999826234750223}
+{"train_loss": 0.4324988126754761, "train_loss_bc": 0.08520808815956116, "train_loss_llm": 0.3472907245159149, "grad_norm": 0.48213380575180054, "global_step": 712, "epoch": 2, "lr": 0.009999821807813739}
+{"train_loss": 0.4267037399426228, "train_loss_bc": 0.0838322713971138, "train_loss_llm": 0.27907463908195496, "grad_norm": 0.04746406525373459, "global_step": 713, "epoch": 2, "lr": 0.009999821807813739, "val_loss": 0.4175809323787689}
+{"train_loss": 0.4340039789676666, "train_loss_bc": 0.09443977475166321, "train_loss_llm": 0.3395642042160034, "grad_norm": 0.13083234429359436, "global_step": 714, "epoch": 3, "lr": 0.009999821807813739}
+{"train_loss": 0.451368510723114, "train_loss_bc": 0.08245304226875305, "train_loss_llm": 0.36891546845436096, "grad_norm": 0.27961593866348267, "global_step": 715, "epoch": 3, "lr": 0.009999821807813739}
+{"train_loss": 0.42091646790504456, "train_loss_bc": 0.0896746814250946, "train_loss_llm": 0.33124178647994995, "grad_norm": 0.47069796919822693, "global_step": 716, "epoch": 3, "lr": 0.009999821807813739}
+{"train_loss": 0.4184543192386627, "train_loss_bc": 0.09883877635002136, "train_loss_llm": 0.31961554288864136, "grad_norm": 0.5846332311630249, "global_step": 717, "epoch": 3, "lr": 0.009999821807813739}
+{"train_loss": 0.4174632728099823, "train_loss_bc": 0.09391048550605774, "train_loss_llm": 0.32355278730392456, "grad_norm": 0.739881694316864, "global_step": 718, "epoch": 3, "lr": 0.009999821807813739}
+{"train_loss": 0.4051377773284912, "train_loss_bc": 0.09462060034275055, "train_loss_llm": 0.31051716208457947, "grad_norm": 0.8413203954696655, "global_step": 719, "epoch": 3, "lr": 0.009999821807813739}
+{"train_loss": 0.4392220973968506, "train_loss_bc": 0.091712087392807, "train_loss_llm": 0.3475100100040436, "grad_norm": 1.0343899726867676, "global_step": 720, "epoch": 3, "lr": 0.009999817325193847}
+{"train_loss": 0.4314854145050049, "train_loss_bc": 0.08314450085163116, "train_loss_llm": 0.3483408987522125, "grad_norm": 0.06227312982082367, "global_step": 721, "epoch": 3, "lr": 0.009999817325193847}
+{"train_loss": 0.4330766797065735, "train_loss_bc": 0.10084544122219086, "train_loss_llm": 0.3322312533855438, "grad_norm": 0.174891397356987, "global_step": 722, "epoch": 3, "lr": 0.009999817325193847}
+{"train_loss": 0.43941453099250793, "train_loss_bc": 0.09137815982103348, "train_loss_llm": 0.34803637862205505, "grad_norm": 0.3135887682437897, "global_step": 723, "epoch": 3, "lr": 0.009999817325193847}
+{"train_loss": 0.4354877471923828, "train_loss_bc": 0.09015272557735443, "train_loss_llm": 0.3453350365161896, "grad_norm": 0.41395291686058044, "global_step": 724, "epoch": 3, "lr": 0.009999817325193847}
+{"train_loss": 0.4057964086532593, "train_loss_bc": 0.08517379313707352, "train_loss_llm": 0.32062262296676636, "grad_norm": 0.5614804029464722, "global_step": 725, "epoch": 3, "lr": 0.009999817325193847}
+{"train_loss": 0.4410501718521118, "train_loss_bc": 0.08583560585975647, "train_loss_llm": 0.35521456599235535, "grad_norm": 0.7354132533073425, "global_step": 726, "epoch": 3, "lr": 0.009999817325193847}
+{"train_loss": 0.4441853165626526, "train_loss_bc": 0.09801183640956879, "train_loss_llm": 0.3461734652519226, "grad_norm": 0.9023030996322632, "global_step": 727, "epoch": 3, "lr": 0.009999817325193847}
+{"train_loss": 0.4386127293109894, "train_loss_bc": 0.08683935552835464, "train_loss_llm": 0.35177338123321533, "grad_norm": 1.0960994958877563, "global_step": 728, "epoch": 3, "lr": 0.009999812786890603}
+{"train_loss": 0.4077993929386139, "train_loss_bc": 0.09200751036405563, "train_loss_llm": 0.31579187512397766, "grad_norm": 0.07888605445623398, "global_step": 729, "epoch": 3, "lr": 0.009999812786890603}
+{"train_loss": 0.4235953688621521, "train_loss_bc": 0.0902867466211319, "train_loss_llm": 0.3333086371421814, "grad_norm": 0.14089439809322357, "global_step": 730, "epoch": 3, "lr": 0.009999812786890603}
+{"train_loss": 0.45022326707839966, "train_loss_bc": 0.08338843286037445, "train_loss_llm": 0.366834819316864, "grad_norm": 0.22826175391674042, "global_step": 731, "epoch": 3, "lr": 0.009999812786890603}
+{"train_loss": 0.39933159947395325, "train_loss_bc": 0.09467428922653198, "train_loss_llm": 0.30465731024742126, "grad_norm": 0.25825682282447815, "global_step": 732, "epoch": 3, "lr": 0.009999812786890603}
+{"train_loss": 0.4323520064353943, "train_loss_bc": 0.09097336232662201, "train_loss_llm": 0.3413786292076111, "grad_norm": 0.3861393630504608, "global_step": 733, "epoch": 3, "lr": 0.009999812786890603}
+{"train_loss": 0.42989733815193176, "train_loss_bc": 0.09519010782241821, "train_loss_llm": 0.33470723032951355, "grad_norm": 0.5009217858314514, "global_step": 734, "epoch": 3, "lr": 0.009999812786890603}
+{"train_loss": 0.4426732659339905, "train_loss_bc": 0.0868009626865387, "train_loss_llm": 0.3558723032474518, "grad_norm": 0.5327439308166504, "global_step": 735, "epoch": 3, "lr": 0.009999812786890603}
+{"train_loss": 0.47885704040527344, "train_loss_bc": 0.09013570845127106, "train_loss_llm": 0.3887213468551636, "grad_norm": 0.6944171190261841, "global_step": 736, "epoch": 3, "lr": 0.009999808192904054}
+{"train_loss": 0.43491122126579285, "train_loss_bc": 0.0898112878203392, "train_loss_llm": 0.34509992599487305, "grad_norm": 0.09365450590848923, "global_step": 737, "epoch": 3, "lr": 0.009999808192904054}
+{"train_loss": 0.38101351261138916, "train_loss_bc": 0.09004780650138855, "train_loss_llm": 0.2909657061100006, "grad_norm": 0.2002667486667633, "global_step": 738, "epoch": 3, "lr": 0.009999808192904054}
+{"train_loss": 0.46215662360191345, "train_loss_bc": 0.09618476778268814, "train_loss_llm": 0.3659718632698059, "grad_norm": 0.27343490719795227, "global_step": 739, "epoch": 3, "lr": 0.009999808192904054}
+{"train_loss": 0.43530842661857605, "train_loss_bc": 0.09272260218858719, "train_loss_llm": 0.34258583188056946, "grad_norm": 0.41266363859176636, "global_step": 740, "epoch": 3, "lr": 0.009999808192904054}
+{"train_loss": 0.38820716738700867, "train_loss_bc": 0.08616452664136887, "train_loss_llm": 0.3020426332950592, "grad_norm": 0.4347699284553528, "global_step": 741, "epoch": 3, "lr": 0.009999808192904054}
+{"train_loss": 0.4470370411872864, "train_loss_bc": 0.08636035025119781, "train_loss_llm": 0.36067670583724976, "grad_norm": 0.5836013555526733, "global_step": 742, "epoch": 3, "lr": 0.009999808192904054}
+{"train_loss": 0.4103003740310669, "train_loss_bc": 0.0899830013513565, "train_loss_llm": 0.3203173875808716, "grad_norm": 0.616446852684021, "global_step": 743, "epoch": 3, "lr": 0.009999808192904054}
+{"train_loss": 0.42142102122306824, "train_loss_bc": 0.08813199400901794, "train_loss_llm": 0.3332890272140503, "grad_norm": 0.6600897312164307, "global_step": 744, "epoch": 3, "lr": 0.009999803543234254}
+{"train_loss": 0.4081529974937439, "train_loss_bc": 0.09567183256149292, "train_loss_llm": 0.312481164932251, "grad_norm": 0.13279327750205994, "global_step": 745, "epoch": 3, "lr": 0.009999803543234254}
+{"train_loss": 0.4022011160850525, "train_loss_bc": 0.09272385388612747, "train_loss_llm": 0.3094772696495056, "grad_norm": 0.23692142963409424, "global_step": 746, "epoch": 3, "lr": 0.009999803543234254}
+{"train_loss": 0.40940529108047485, "train_loss_bc": 0.09359021484851837, "train_loss_llm": 0.3158150911331177, "grad_norm": 0.41895362734794617, "global_step": 747, "epoch": 3, "lr": 0.009999803543234254}
+{"train_loss": 0.40831664204597473, "train_loss_bc": 0.09212467074394226, "train_loss_llm": 0.31619197130203247, "grad_norm": 0.4878000319004059, "global_step": 748, "epoch": 3, "lr": 0.009999803543234254}
+{"train_loss": 0.45193105936050415, "train_loss_bc": 0.09003330767154694, "train_loss_llm": 0.3618977665901184, "grad_norm": 0.5414050817489624, "global_step": 749, "epoch": 3, "lr": 0.009999803543234254}
+{"train_loss": 0.4492814540863037, "train_loss_bc": 0.09969577938318253, "train_loss_llm": 0.3495856821537018, "grad_norm": 0.6434056758880615, "global_step": 750, "epoch": 3, "lr": 0.009999803543234254}
+{"train_loss": 0.4313489496707916, "train_loss_bc": 0.0968555137515068, "train_loss_llm": 0.3344934284687042, "grad_norm": 0.751587986946106, "global_step": 751, "epoch": 3, "lr": 0.009999803543234254}
+{"train_loss": 0.4366893172264099, "train_loss_bc": 0.09609466791152954, "train_loss_llm": 0.34059464931488037, "grad_norm": 0.8906834125518799, "global_step": 752, "epoch": 3, "lr": 0.009999798837881253}
+{"train_loss": 0.426980584859848, "train_loss_bc": 0.09065744280815125, "train_loss_llm": 0.3363231420516968, "grad_norm": 0.15300418436527252, "global_step": 753, "epoch": 3, "lr": 0.009999798837881253}
+{"train_loss": 0.35398200154304504, "train_loss_bc": 0.08291991800069809, "train_loss_llm": 0.27106207609176636, "grad_norm": 0.2353072315454483, "global_step": 754, "epoch": 3, "lr": 0.009999798837881253}
+{"train_loss": 0.41383659839630127, "train_loss_bc": 0.09313468635082245, "train_loss_llm": 0.32070192694664, "grad_norm": 0.29503384232521057, "global_step": 755, "epoch": 3, "lr": 0.009999798837881253}
+{"train_loss": 0.4193098843097687, "train_loss_bc": 0.09009656310081482, "train_loss_llm": 0.32921332120895386, "grad_norm": 0.4759692847728729, "global_step": 756, "epoch": 3, "lr": 0.009999798837881253}
+{"train_loss": 0.4159160256385803, "train_loss_bc": 0.09529800713062286, "train_loss_llm": 0.32061800360679626, "grad_norm": 0.5811482071876526, "global_step": 757, "epoch": 3, "lr": 0.009999798837881253}
+{"train_loss": 0.42258888483047485, "train_loss_bc": 0.10258859395980835, "train_loss_llm": 0.3200002908706665, "grad_norm": 0.7301919460296631, "global_step": 758, "epoch": 3, "lr": 0.009999798837881253}
+{"train_loss": 0.4485745429992676, "train_loss_bc": 0.09473755955696106, "train_loss_llm": 0.3538369834423065, "grad_norm": 0.8659543395042419, "global_step": 759, "epoch": 3, "lr": 0.009999798837881253}
+{"train_loss": 0.4087349772453308, "train_loss_bc": 0.09181156754493713, "train_loss_llm": 0.3169234097003937, "grad_norm": 1.0026798248291016, "global_step": 760, "epoch": 3, "lr": 0.0099997940768451}
+{"train_loss": 0.42200565338134766, "train_loss_bc": 0.07866500318050385, "train_loss_llm": 0.343340665102005, "grad_norm": 0.07636940479278564, "global_step": 761, "epoch": 3, "lr": 0.0099997940768451}
+{"train_loss": 0.3950446546077728, "train_loss_bc": 0.08772044628858566, "train_loss_llm": 0.30732420086860657, "grad_norm": 0.10181924700737, "global_step": 762, "epoch": 3, "lr": 0.0099997940768451}
+{"train_loss": 0.4035179018974304, "train_loss_bc": 0.09461116790771484, "train_loss_llm": 0.3089067339897156, "grad_norm": 0.1366013139486313, "global_step": 763, "epoch": 3, "lr": 0.0099997940768451}
+{"train_loss": 0.37561488151550293, "train_loss_bc": 0.08893707394599915, "train_loss_llm": 0.2866778075695038, "grad_norm": 0.1790091097354889, "global_step": 764, "epoch": 3, "lr": 0.0099997940768451}
+{"train_loss": 0.41008424758911133, "train_loss_bc": 0.09342099726200104, "train_loss_llm": 0.3166632652282715, "grad_norm": 0.2516975402832031, "global_step": 765, "epoch": 3, "lr": 0.0099997940768451}
+{"train_loss": 0.4067188501358032, "train_loss_bc": 0.09246636927127838, "train_loss_llm": 0.31425246596336365, "grad_norm": 0.27693477272987366, "global_step": 766, "epoch": 3, "lr": 0.0099997940768451}
+{"train_loss": 0.3650985062122345, "train_loss_bc": 0.07838056236505508, "train_loss_llm": 0.28671795129776, "grad_norm": 0.30575862526893616, "global_step": 767, "epoch": 3, "lr": 0.0099997940768451}
+{"train_loss": 0.4138939380645752, "train_loss_bc": 0.09061313420534134, "train_loss_llm": 0.32328081130981445, "grad_norm": 0.3916633427143097, "global_step": 768, "epoch": 3, "lr": 0.009999789260125855}
+{"train_loss": 0.3755345940589905, "train_loss_bc": 0.08336186408996582, "train_loss_llm": 0.29217272996902466, "grad_norm": 0.034577734768390656, "global_step": 769, "epoch": 3, "lr": 0.009999789260125855}
+{"train_loss": 0.42306628823280334, "train_loss_bc": 0.08256462216377258, "train_loss_llm": 0.34050166606903076, "grad_norm": 0.10534365475177765, "global_step": 770, "epoch": 3, "lr": 0.009999789260125855}
+{"train_loss": 0.37589624524116516, "train_loss_bc": 0.07911615818738937, "train_loss_llm": 0.2967800796031952, "grad_norm": 0.2859879434108734, "global_step": 771, "epoch": 3, "lr": 0.009999789260125855}
+{"train_loss": 0.42057353258132935, "train_loss_bc": 0.09638046473264694, "train_loss_llm": 0.3241930603981018, "grad_norm": 0.3293988108634949, "global_step": 772, "epoch": 3, "lr": 0.009999789260125855}
+{"train_loss": 0.4381614327430725, "train_loss_bc": 0.08970487862825394, "train_loss_llm": 0.34845656156539917, "grad_norm": 0.4735810160636902, "global_step": 773, "epoch": 3, "lr": 0.009999789260125855}
+{"train_loss": 0.40362775325775146, "train_loss_bc": 0.08823862671852112, "train_loss_llm": 0.31538912653923035, "grad_norm": 0.4835810661315918, "global_step": 774, "epoch": 3, "lr": 0.009999789260125855}
+{"train_loss": 0.4089650511741638, "train_loss_bc": 0.09051378071308136, "train_loss_llm": 0.31845125555992126, "grad_norm": 0.5805407166481018, "global_step": 775, "epoch": 3, "lr": 0.009999789260125855}
+{"train_loss": 0.41131454706192017, "train_loss_bc": 0.09349094331264496, "train_loss_llm": 0.317823588848114, "grad_norm": 0.5838042497634888, "global_step": 776, "epoch": 3, "lr": 0.009999784387723568}
+{"train_loss": 0.4123690128326416, "train_loss_bc": 0.08865870535373688, "train_loss_llm": 0.3237103223800659, "grad_norm": 0.08098431676626205, "global_step": 777, "epoch": 3, "lr": 0.009999784387723568}
+{"train_loss": 0.42437946796417236, "train_loss_bc": 0.08767522871494293, "train_loss_llm": 0.3367042541503906, "grad_norm": 0.18534068763256073, "global_step": 778, "epoch": 3, "lr": 0.009999784387723568}
+{"train_loss": 0.37375974655151367, "train_loss_bc": 0.08966339379549026, "train_loss_llm": 0.284096360206604, "grad_norm": 0.29410821199417114, "global_step": 779, "epoch": 3, "lr": 0.009999784387723568}
+{"train_loss": 0.39116334915161133, "train_loss_bc": 0.08099887520074844, "train_loss_llm": 0.3101644814014435, "grad_norm": 0.4110369384288788, "global_step": 780, "epoch": 3, "lr": 0.009999784387723568}
+{"train_loss": 0.4368244409561157, "train_loss_bc": 0.0793800950050354, "train_loss_llm": 0.3574443459510803, "grad_norm": 0.4050554037094116, "global_step": 781, "epoch": 3, "lr": 0.009999784387723568}
+{"train_loss": 0.41633862257003784, "train_loss_bc": 0.07709015905857086, "train_loss_llm": 0.3392484784126282, "grad_norm": 0.554351806640625, "global_step": 782, "epoch": 3, "lr": 0.009999784387723568}
+{"train_loss": 0.3875071406364441, "train_loss_bc": 0.09398246556520462, "train_loss_llm": 0.29352468252182007, "grad_norm": 0.6255326271057129, "global_step": 783, "epoch": 3, "lr": 0.009999784387723568}
+{"train_loss": 0.4013974070549011, "train_loss_bc": 0.08086498081684113, "train_loss_llm": 0.3205324411392212, "grad_norm": 0.7081670761108398, "global_step": 784, "epoch": 3, "lr": 0.009999779459638291}
+{"train_loss": 0.43862828612327576, "train_loss_bc": 0.07655856013298035, "train_loss_llm": 0.3620697259902954, "grad_norm": 0.06385190039873123, "global_step": 785, "epoch": 3, "lr": 0.009999779459638291}
+{"train_loss": 0.39497578144073486, "train_loss_bc": 0.08151555061340332, "train_loss_llm": 0.31346023082733154, "grad_norm": 0.0896420031785965, "global_step": 786, "epoch": 3, "lr": 0.009999779459638291}
+{"train_loss": 0.426445871591568, "train_loss_bc": 0.08011292666196823, "train_loss_llm": 0.34633293747901917, "grad_norm": 0.12519504129886627, "global_step": 787, "epoch": 3, "lr": 0.009999779459638291}
+{"train_loss": 0.37286192178726196, "train_loss_bc": 0.08147110044956207, "train_loss_llm": 0.2913908064365387, "grad_norm": 0.24685318768024445, "global_step": 788, "epoch": 3, "lr": 0.009999779459638291}
+{"train_loss": 0.4257084131240845, "train_loss_bc": 0.07639405876398087, "train_loss_llm": 0.3493143618106842, "grad_norm": 0.35099485516548157, "global_step": 789, "epoch": 3, "lr": 0.009999779459638291}
+{"train_loss": 0.41155725717544556, "train_loss_bc": 0.08582033216953278, "train_loss_llm": 0.325736939907074, "grad_norm": 0.38959142565727234, "global_step": 790, "epoch": 3, "lr": 0.009999779459638291}
+{"train_loss": 0.39823707938194275, "train_loss_bc": 0.08211007714271545, "train_loss_llm": 0.3161270022392273, "grad_norm": 0.39599722623825073, "global_step": 791, "epoch": 3, "lr": 0.009999779459638291}
+{"train_loss": 0.3962033987045288, "train_loss_bc": 0.08519342541694641, "train_loss_llm": 0.3110099732875824, "grad_norm": 0.4325672686100006, "global_step": 792, "epoch": 3, "lr": 0.009999774475870084}
+{"train_loss": 0.3844829797744751, "train_loss_bc": 0.07239948213100433, "train_loss_llm": 0.31208351254463196, "grad_norm": 0.060884200036525726, "global_step": 793, "epoch": 3, "lr": 0.009999774475870084}
+{"train_loss": 0.3881854712963104, "train_loss_bc": 0.08267071843147278, "train_loss_llm": 0.30551475286483765, "grad_norm": 0.09677359461784363, "global_step": 794, "epoch": 3, "lr": 0.009999774475870084}
+{"train_loss": 0.4010370969772339, "train_loss_bc": 0.07662903517484665, "train_loss_llm": 0.32440805435180664, "grad_norm": 0.17970989644527435, "global_step": 795, "epoch": 3, "lr": 0.009999774475870084}
+{"train_loss": 0.39525192975997925, "train_loss_bc": 0.08157877624034882, "train_loss_llm": 0.31367313861846924, "grad_norm": 0.22257517278194427, "global_step": 796, "epoch": 3, "lr": 0.009999774475870084}
+{"train_loss": 0.39772337675094604, "train_loss_bc": 0.07612954080104828, "train_loss_llm": 0.3215938210487366, "grad_norm": 0.2703208923339844, "global_step": 797, "epoch": 3, "lr": 0.009999774475870084}
+{"train_loss": 0.45228317379951477, "train_loss_bc": 0.07508605718612671, "train_loss_llm": 0.37719711661338806, "grad_norm": 0.3461889326572418, "global_step": 798, "epoch": 3, "lr": 0.009999774475870084}
+{"train_loss": 0.4427989721298218, "train_loss_bc": 0.08166802674531937, "train_loss_llm": 0.361130952835083, "grad_norm": 0.4040929675102234, "global_step": 799, "epoch": 3, "lr": 0.009999774475870084}
+{"train_loss": 0.4188823103904724, "train_loss_bc": 0.06738415360450745, "train_loss_llm": 0.35149815678596497, "grad_norm": 0.336247056722641, "global_step": 800, "epoch": 3, "lr": 0.009999769436418997}
+{"train_loss": 0.47528934478759766, "train_loss_bc": 0.07610413432121277, "train_loss_llm": 0.3991852104663849, "grad_norm": 0.0799269899725914, "global_step": 801, "epoch": 3, "lr": 0.009999769436418997}
+{"train_loss": 0.4123396873474121, "train_loss_bc": 0.0776849016547203, "train_loss_llm": 0.3346547782421112, "grad_norm": 0.10895472764968872, "global_step": 802, "epoch": 3, "lr": 0.009999769436418997}
+{"train_loss": 0.42539337277412415, "train_loss_bc": 0.08310922235250473, "train_loss_llm": 0.3422841429710388, "grad_norm": 0.22050462663173676, "global_step": 803, "epoch": 3, "lr": 0.009999769436418997}
+{"train_loss": 0.4557936489582062, "train_loss_bc": 0.07663330435752869, "train_loss_llm": 0.3791603446006775, "grad_norm": 0.36354243755340576, "global_step": 804, "epoch": 3, "lr": 0.009999769436418997}
+{"train_loss": 0.4340270161628723, "train_loss_bc": 0.07879003882408142, "train_loss_llm": 0.3552369773387909, "grad_norm": 0.43144431710243225, "global_step": 805, "epoch": 3, "lr": 0.009999769436418997}
+{"train_loss": 0.44146695733070374, "train_loss_bc": 0.07848844677209854, "train_loss_llm": 0.3629785180091858, "grad_norm": 0.49131786823272705, "global_step": 806, "epoch": 3, "lr": 0.009999769436418997}
+{"train_loss": 0.4207811951637268, "train_loss_bc": 0.08367030322551727, "train_loss_llm": 0.33711087703704834, "grad_norm": 0.6396426558494568, "global_step": 807, "epoch": 3, "lr": 0.009999769436418997}
+{"train_loss": 0.4131953716278076, "train_loss_bc": 0.07628713548183441, "train_loss_llm": 0.336908221244812, "grad_norm": 0.7120835781097412, "global_step": 808, "epoch": 3, "lr": 0.009999764341285092}
+{"train_loss": 0.3863363265991211, "train_loss_bc": 0.07259798794984818, "train_loss_llm": 0.3137383460998535, "grad_norm": 0.11647261679172516, "global_step": 809, "epoch": 3, "lr": 0.009999764341285092}
+{"train_loss": 0.44672542810440063, "train_loss_bc": 0.09368108212947845, "train_loss_llm": 0.3530443608760834, "grad_norm": 0.16445553302764893, "global_step": 810, "epoch": 3, "lr": 0.009999764341285092}
+{"train_loss": 0.43206629157066345, "train_loss_bc": 0.08359920233488083, "train_loss_llm": 0.348467081785202, "grad_norm": 0.17125025391578674, "global_step": 811, "epoch": 3, "lr": 0.009999764341285092}
+{"train_loss": 0.3846418261528015, "train_loss_bc": 0.08405862748622894, "train_loss_llm": 0.30058321356773376, "grad_norm": 0.1821776032447815, "global_step": 812, "epoch": 3, "lr": 0.009999764341285092}
+{"train_loss": 0.43989184498786926, "train_loss_bc": 0.08977395296096802, "train_loss_llm": 0.35011789202690125, "grad_norm": 0.3044271469116211, "global_step": 813, "epoch": 3, "lr": 0.009999764341285092}
+{"train_loss": 0.3821457028388977, "train_loss_bc": 0.0818837583065033, "train_loss_llm": 0.3002619445323944, "grad_norm": 0.3556677997112274, "global_step": 814, "epoch": 3, "lr": 0.009999764341285092}
+{"train_loss": 0.36683276295661926, "train_loss_bc": 0.07692926377058029, "train_loss_llm": 0.2899034917354584, "grad_norm": 0.31957104802131653, "global_step": 815, "epoch": 3, "lr": 0.009999764341285092}
+{"train_loss": 0.41894426941871643, "train_loss_bc": 0.09348057955503464, "train_loss_llm": 0.3254636824131012, "grad_norm": 0.3663007318973541, "global_step": 816, "epoch": 3, "lr": 0.009999759190468421}
+{"train_loss": 0.3733394145965576, "train_loss_bc": 0.09497900307178497, "train_loss_llm": 0.27836039662361145, "grad_norm": 0.024224551394581795, "global_step": 817, "epoch": 3, "lr": 0.009999759190468421}
+{"train_loss": 0.38483548164367676, "train_loss_bc": 0.08974435925483704, "train_loss_llm": 0.2950911223888397, "grad_norm": 0.08476077765226364, "global_step": 818, "epoch": 3, "lr": 0.009999759190468421}
+{"train_loss": 0.39134401082992554, "train_loss_bc": 0.08513703942298889, "train_loss_llm": 0.30620697140693665, "grad_norm": 0.11645128577947617, "global_step": 819, "epoch": 3, "lr": 0.009999759190468421}
+{"train_loss": 0.4103563725948334, "train_loss_bc": 0.09998896718025208, "train_loss_llm": 0.3103674054145813, "grad_norm": 0.13307741284370422, "global_step": 820, "epoch": 3, "lr": 0.009999759190468421}
+{"train_loss": 0.4122682809829712, "train_loss_bc": 0.09539330005645752, "train_loss_llm": 0.31687498092651367, "grad_norm": 0.1808049976825714, "global_step": 821, "epoch": 3, "lr": 0.009999759190468421}
+{"train_loss": 0.3591268062591553, "train_loss_bc": 0.08386435359716415, "train_loss_llm": 0.2752624452114105, "grad_norm": 0.21503214538097382, "global_step": 822, "epoch": 3, "lr": 0.009999759190468421}
+{"train_loss": 0.4656383991241455, "train_loss_bc": 0.0920507162809372, "train_loss_llm": 0.3735876679420471, "grad_norm": 0.21691712737083435, "global_step": 823, "epoch": 3, "lr": 0.009999759190468421}
+{"train_loss": 0.3987467885017395, "train_loss_bc": 0.095179483294487, "train_loss_llm": 0.3035672903060913, "grad_norm": 0.20987187325954437, "global_step": 824, "epoch": 3, "lr": 0.009999753983969042}
+{"train_loss": 0.43967312574386597, "train_loss_bc": 0.09898658096790314, "train_loss_llm": 0.340686559677124, "grad_norm": 0.06465443223714828, "global_step": 825, "epoch": 3, "lr": 0.009999753983969042}
+{"train_loss": 0.39333420991897583, "train_loss_bc": 0.09927710890769958, "train_loss_llm": 0.29405710101127625, "grad_norm": 0.19438762962818146, "global_step": 826, "epoch": 3, "lr": 0.009999753983969042}
+{"train_loss": 0.46804487705230713, "train_loss_bc": 0.0915873795747757, "train_loss_llm": 0.37645748257637024, "grad_norm": 0.26659393310546875, "global_step": 827, "epoch": 3, "lr": 0.009999753983969042}
+{"train_loss": 0.39704543352127075, "train_loss_bc": 0.08417860418558121, "train_loss_llm": 0.31286683678627014, "grad_norm": 0.32869473099708557, "global_step": 828, "epoch": 3, "lr": 0.009999753983969042}
+{"train_loss": 0.4458159804344177, "train_loss_bc": 0.08786450326442719, "train_loss_llm": 0.35795149207115173, "grad_norm": 0.4199512004852295, "global_step": 829, "epoch": 3, "lr": 0.009999753983969042}
+{"train_loss": 0.4365490674972534, "train_loss_bc": 0.09227210283279419, "train_loss_llm": 0.34427696466445923, "grad_norm": 0.4782719016075134, "global_step": 830, "epoch": 3, "lr": 0.009999753983969042}
+{"train_loss": 0.4044567942619324, "train_loss_bc": 0.08651896566152573, "train_loss_llm": 0.31793782114982605, "grad_norm": 0.5474238395690918, "global_step": 831, "epoch": 3, "lr": 0.009999753983969042}
+{"train_loss": 0.4387871026992798, "train_loss_bc": 0.09963499009609222, "train_loss_llm": 0.33915209770202637, "grad_norm": 0.5600315928459167, "global_step": 832, "epoch": 3, "lr": 0.009999748721787015}
+{"train_loss": 0.39333605766296387, "train_loss_bc": 0.1001603901386261, "train_loss_llm": 0.29317566752433777, "grad_norm": 0.09371457993984222, "global_step": 833, "epoch": 3, "lr": 0.009999748721787015}
+{"train_loss": 0.4213705360889435, "train_loss_bc": 0.09657207131385803, "train_loss_llm": 0.32479846477508545, "grad_norm": 0.20635758340358734, "global_step": 834, "epoch": 3, "lr": 0.009999748721787015}
+{"train_loss": 0.42030274868011475, "train_loss_bc": 0.09455357491970062, "train_loss_llm": 0.3257491886615753, "grad_norm": 0.26281023025512695, "global_step": 835, "epoch": 3, "lr": 0.009999748721787015}
+{"train_loss": 0.43302789330482483, "train_loss_bc": 0.09510257095098495, "train_loss_llm": 0.3379253149032593, "grad_norm": 0.3478268086910248, "global_step": 836, "epoch": 3, "lr": 0.009999748721787015}
+{"train_loss": 0.4093034267425537, "train_loss_bc": 0.09732173383235931, "train_loss_llm": 0.3119816780090332, "grad_norm": 0.3750342130661011, "global_step": 837, "epoch": 3, "lr": 0.009999748721787015}
+{"train_loss": 0.3930651843547821, "train_loss_bc": 0.09378549456596375, "train_loss_llm": 0.29927968978881836, "grad_norm": 0.3705196678638458, "global_step": 838, "epoch": 3, "lr": 0.009999748721787015}
+{"train_loss": 0.40733909606933594, "train_loss_bc": 0.0978504866361618, "train_loss_llm": 0.30948859453201294, "grad_norm": 0.3859363794326782, "global_step": 839, "epoch": 3, "lr": 0.009999748721787015}
+{"train_loss": 0.48423948884010315, "train_loss_bc": 0.09337208420038223, "train_loss_llm": 0.3908674120903015, "grad_norm": 0.4525446891784668, "global_step": 840, "epoch": 3, "lr": 0.009999743403922397}
+{"train_loss": 0.38794225454330444, "train_loss_bc": 0.08291538804769516, "train_loss_llm": 0.3050268590450287, "grad_norm": 0.02793085388839245, "global_step": 841, "epoch": 3, "lr": 0.009999743403922397}
+{"train_loss": 0.36121320724487305, "train_loss_bc": 0.08641456067562103, "train_loss_llm": 0.2747986614704132, "grad_norm": 0.09522376209497452, "global_step": 842, "epoch": 3, "lr": 0.009999743403922397}
+{"train_loss": 0.40792185068130493, "train_loss_bc": 0.08248098194599152, "train_loss_llm": 0.3254408538341522, "grad_norm": 0.09358809143304825, "global_step": 843, "epoch": 3, "lr": 0.009999743403922397}
+{"train_loss": 0.4552464485168457, "train_loss_bc": 0.08180747926235199, "train_loss_llm": 0.3734389543533325, "grad_norm": 0.15952983498573303, "global_step": 844, "epoch": 3, "lr": 0.009999743403922397}
+{"train_loss": 0.3779147267341614, "train_loss_bc": 0.0860183909535408, "train_loss_llm": 0.29189634323120117, "grad_norm": 0.25420570373535156, "global_step": 845, "epoch": 3, "lr": 0.009999743403922397}
+{"train_loss": 0.407291054725647, "train_loss_bc": 0.08351566642522812, "train_loss_llm": 0.32377538084983826, "grad_norm": 0.32267558574676514, "global_step": 846, "epoch": 3, "lr": 0.009999743403922397}
+{"train_loss": 0.42298534512519836, "train_loss_bc": 0.0907410979270935, "train_loss_llm": 0.33224424719810486, "grad_norm": 0.3043036460876465, "global_step": 847, "epoch": 3, "lr": 0.009999743403922397}
+{"train_loss": 0.44583427906036377, "train_loss_bc": 0.08282115310430527, "train_loss_llm": 0.3630131185054779, "grad_norm": 0.3601779639720917, "global_step": 848, "epoch": 3, "lr": 0.00999973803037525}
+{"train_loss": 0.4183797240257263, "train_loss_bc": 0.08148691803216934, "train_loss_llm": 0.3368928134441376, "grad_norm": 0.04451899603009224, "global_step": 849, "epoch": 3, "lr": 0.00999973803037525}
+{"train_loss": 0.439393550157547, "train_loss_bc": 0.08202474564313889, "train_loss_llm": 0.3573687970638275, "grad_norm": 0.12162098288536072, "global_step": 850, "epoch": 3, "lr": 0.00999973803037525}
+{"train_loss": 0.3774834871292114, "train_loss_bc": 0.07542379200458527, "train_loss_llm": 0.30205968022346497, "grad_norm": 0.15946930646896362, "global_step": 851, "epoch": 3, "lr": 0.00999973803037525}
+{"train_loss": 0.3848726749420166, "train_loss_bc": 0.08498530089855194, "train_loss_llm": 0.29988738894462585, "grad_norm": 0.35925379395484924, "global_step": 852, "epoch": 3, "lr": 0.00999973803037525}
+{"train_loss": 0.37598568201065063, "train_loss_bc": 0.07709939777851105, "train_loss_llm": 0.2988862991333008, "grad_norm": 0.3885250389575958, "global_step": 853, "epoch": 3, "lr": 0.00999973803037525}
+{"train_loss": 0.3666327893733978, "train_loss_bc": 0.07587272673845291, "train_loss_llm": 0.2907600700855255, "grad_norm": 0.4564976394176483, "global_step": 854, "epoch": 3, "lr": 0.00999973803037525}
+{"train_loss": 0.43165862560272217, "train_loss_bc": 0.07712697982788086, "train_loss_llm": 0.3545316457748413, "grad_norm": 0.47122055292129517, "global_step": 855, "epoch": 3, "lr": 0.00999973803037525}
+{"train_loss": 0.416837602853775, "train_loss_bc": 0.0772976353764534, "train_loss_llm": 0.3395399749279022, "grad_norm": 0.5807058215141296, "global_step": 856, "epoch": 3, "lr": 0.00999973260114563}
+{"train_loss": 0.4423700273036957, "train_loss_bc": 0.07795453071594238, "train_loss_llm": 0.3644154965877533, "grad_norm": 0.1277359575033188, "global_step": 857, "epoch": 3, "lr": 0.00999973260114563}
+{"train_loss": 0.3899132013320923, "train_loss_bc": 0.07814112305641174, "train_loss_llm": 0.31177207827568054, "grad_norm": 0.0922044962644577, "global_step": 858, "epoch": 3, "lr": 0.00999973260114563}
+{"train_loss": 0.43560558557510376, "train_loss_bc": 0.07199312746524811, "train_loss_llm": 0.36361247301101685, "grad_norm": 0.0965769961476326, "global_step": 859, "epoch": 3, "lr": 0.00999973260114563}
+{"train_loss": 0.38363686203956604, "train_loss_bc": 0.07218766212463379, "train_loss_llm": 0.31144919991493225, "grad_norm": 0.10629147291183472, "global_step": 860, "epoch": 3, "lr": 0.00999973260114563}
+{"train_loss": 0.43416208028793335, "train_loss_bc": 0.07200643420219421, "train_loss_llm": 0.36215564608573914, "grad_norm": 0.11687256395816803, "global_step": 861, "epoch": 3, "lr": 0.00999973260114563}
+{"train_loss": 0.41746464371681213, "train_loss_bc": 0.07969766110181808, "train_loss_llm": 0.33776697516441345, "grad_norm": 0.16255542635917664, "global_step": 862, "epoch": 3, "lr": 0.00999973260114563}
+{"train_loss": 0.40594586730003357, "train_loss_bc": 0.08410655707120895, "train_loss_llm": 0.321839302778244, "grad_norm": 0.22617116570472717, "global_step": 863, "epoch": 3, "lr": 0.00999973260114563}
+{"train_loss": 0.3893257975578308, "train_loss_bc": 0.08224974572658539, "train_loss_llm": 0.30707603693008423, "grad_norm": 0.2494937777519226, "global_step": 864, "epoch": 3, "lr": 0.009999727116233599}
+{"train_loss": 0.44513869285583496, "train_loss_bc": 0.07174758613109589, "train_loss_llm": 0.37339112162590027, "grad_norm": 0.07631546258926392, "global_step": 865, "epoch": 3, "lr": 0.009999727116233599}
+{"train_loss": 0.4255530536174774, "train_loss_bc": 0.07484117150306702, "train_loss_llm": 0.3507118821144104, "grad_norm": 0.13947512209415436, "global_step": 866, "epoch": 3, "lr": 0.009999727116233599}
+{"train_loss": 0.45152679085731506, "train_loss_bc": 0.0799020528793335, "train_loss_llm": 0.37162473797798157, "grad_norm": 0.22317829728126526, "global_step": 867, "epoch": 3, "lr": 0.009999727116233599}
+{"train_loss": 0.4045267105102539, "train_loss_bc": 0.0813288539648056, "train_loss_llm": 0.3231978714466095, "grad_norm": 0.20515142381191254, "global_step": 868, "epoch": 3, "lr": 0.009999727116233599}
+{"train_loss": 0.36402764916419983, "train_loss_bc": 0.06936651468276978, "train_loss_llm": 0.29466113448143005, "grad_norm": 0.2679091989994049, "global_step": 869, "epoch": 3, "lr": 0.009999727116233599}
+{"train_loss": 0.4087457060813904, "train_loss_bc": 0.07226454466581345, "train_loss_llm": 0.33648115396499634, "grad_norm": 0.36285415291786194, "global_step": 870, "epoch": 3, "lr": 0.009999727116233599}
+{"train_loss": 0.41560158133506775, "train_loss_bc": 0.07894600182771683, "train_loss_llm": 0.3366555869579315, "grad_norm": 0.3699515461921692, "global_step": 871, "epoch": 3, "lr": 0.009999727116233599}
+{"train_loss": 0.3800853192806244, "train_loss_bc": 0.07599377632141113, "train_loss_llm": 0.30409154295921326, "grad_norm": 0.4238370954990387, "global_step": 872, "epoch": 3, "lr": 0.009999721575639218}
+{"train_loss": 0.4208911955356598, "train_loss_bc": 0.07600895315408707, "train_loss_llm": 0.3448822498321533, "grad_norm": 0.06197290122509003, "global_step": 873, "epoch": 3, "lr": 0.009999721575639218}
+{"train_loss": 0.4186064898967743, "train_loss_bc": 0.07607150077819824, "train_loss_llm": 0.34253498911857605, "grad_norm": 0.16149604320526123, "global_step": 874, "epoch": 3, "lr": 0.009999721575639218}
+{"train_loss": 0.3919215798377991, "train_loss_bc": 0.07326105982065201, "train_loss_llm": 0.31866052746772766, "grad_norm": 0.2211698442697525, "global_step": 875, "epoch": 3, "lr": 0.009999721575639218}
+{"train_loss": 0.4228207468986511, "train_loss_bc": 0.07367417216300964, "train_loss_llm": 0.3491465747356415, "grad_norm": 0.2403457909822464, "global_step": 876, "epoch": 3, "lr": 0.009999721575639218}
+{"train_loss": 0.4403741955757141, "train_loss_bc": 0.07196877896785736, "train_loss_llm": 0.36840543150901794, "grad_norm": 0.37106531858444214, "global_step": 877, "epoch": 3, "lr": 0.009999721575639218}
+{"train_loss": 0.3665013909339905, "train_loss_bc": 0.07431934773921967, "train_loss_llm": 0.292182058095932, "grad_norm": 0.4612933397293091, "global_step": 878, "epoch": 3, "lr": 0.009999721575639218}
+{"train_loss": 0.4509531855583191, "train_loss_bc": 0.07803159207105637, "train_loss_llm": 0.37292158603668213, "grad_norm": 0.5695249438285828, "global_step": 879, "epoch": 3, "lr": 0.009999721575639218}
+{"train_loss": 0.44735267758369446, "train_loss_bc": 0.07087098807096481, "train_loss_llm": 0.37648168206214905, "grad_norm": 0.6343324780464172, "global_step": 880, "epoch": 3, "lr": 0.009999715979362549}
+{"train_loss": 0.4092033803462982, "train_loss_bc": 0.07890478521585464, "train_loss_llm": 0.33029860258102417, "grad_norm": 0.044045284390449524, "global_step": 881, "epoch": 3, "lr": 0.009999715979362549}
+{"train_loss": 0.4396461844444275, "train_loss_bc": 0.08536450564861298, "train_loss_llm": 0.3542816936969757, "grad_norm": 0.10325101763010025, "global_step": 882, "epoch": 3, "lr": 0.009999715979362549}
+{"train_loss": 0.40968090295791626, "train_loss_bc": 0.08709421008825302, "train_loss_llm": 0.32258668541908264, "grad_norm": 0.11567249149084091, "global_step": 883, "epoch": 3, "lr": 0.009999715979362549}
+{"train_loss": 0.4067554175853729, "train_loss_bc": 0.07935860753059387, "train_loss_llm": 0.32739681005477905, "grad_norm": 0.2240329384803772, "global_step": 884, "epoch": 3, "lr": 0.009999715979362549}
+{"train_loss": 0.39364099502563477, "train_loss_bc": 0.08319039642810822, "train_loss_llm": 0.31045061349868774, "grad_norm": 0.2692946493625641, "global_step": 885, "epoch": 3, "lr": 0.009999715979362549}
+{"train_loss": 0.39155131578445435, "train_loss_bc": 0.08128137141466141, "train_loss_llm": 0.31026995182037354, "grad_norm": 0.2938096821308136, "global_step": 886, "epoch": 3, "lr": 0.009999715979362549}
+{"train_loss": 0.4444335103034973, "train_loss_bc": 0.07646477222442627, "train_loss_llm": 0.36796873807907104, "grad_norm": 0.25933364033699036, "global_step": 887, "epoch": 3, "lr": 0.009999715979362549}
+{"train_loss": 0.39355945587158203, "train_loss_bc": 0.08206014335155487, "train_loss_llm": 0.31149929761886597, "grad_norm": 0.2647741734981537, "global_step": 888, "epoch": 3, "lr": 0.009999710327403655}
+{"train_loss": 0.4275510609149933, "train_loss_bc": 0.08760282397270203, "train_loss_llm": 0.33994823694229126, "grad_norm": 0.05301534757018089, "global_step": 889, "epoch": 3, "lr": 0.009999710327403655}
+{"train_loss": 0.47944575548171997, "train_loss_bc": 0.08571179211139679, "train_loss_llm": 0.3937339782714844, "grad_norm": 0.09734183549880981, "global_step": 890, "epoch": 3, "lr": 0.009999710327403655}
+{"train_loss": 0.43427741527557373, "train_loss_bc": 0.0806751698255539, "train_loss_llm": 0.35360226035118103, "grad_norm": 0.14974345266819, "global_step": 891, "epoch": 3, "lr": 0.009999710327403655}
+{"train_loss": 0.40807926654815674, "train_loss_bc": 0.07913873344659805, "train_loss_llm": 0.3289405405521393, "grad_norm": 0.2725120782852173, "global_step": 892, "epoch": 3, "lr": 0.009999710327403655}
+{"train_loss": 0.44112658500671387, "train_loss_bc": 0.07454994320869446, "train_loss_llm": 0.3665766417980194, "grad_norm": 0.40407848358154297, "global_step": 893, "epoch": 3, "lr": 0.009999710327403655}
+{"train_loss": 0.43892237544059753, "train_loss_bc": 0.0830860361456871, "train_loss_llm": 0.35583633184432983, "grad_norm": 0.5088609457015991, "global_step": 894, "epoch": 3, "lr": 0.009999710327403655}
+{"train_loss": 0.47556525468826294, "train_loss_bc": 0.08507544547319412, "train_loss_llm": 0.3904898166656494, "grad_norm": 0.6350763440132141, "global_step": 895, "epoch": 3, "lr": 0.009999710327403655}
+{"train_loss": 0.42211151123046875, "train_loss_bc": 0.08399508893489838, "train_loss_llm": 0.33811643719673157, "grad_norm": 0.6709234714508057, "global_step": 896, "epoch": 3, "lr": 0.009999704619762597}
+{"train_loss": 0.4286286234855652, "train_loss_bc": 0.0831407755613327, "train_loss_llm": 0.3454878330230713, "grad_norm": 0.07464639842510223, "global_step": 897, "epoch": 3, "lr": 0.009999704619762597}
+{"train_loss": 0.43041133880615234, "train_loss_bc": 0.08457869291305542, "train_loss_llm": 0.3458326458930969, "grad_norm": 0.10823515802621841, "global_step": 898, "epoch": 3, "lr": 0.009999704619762597}
+{"train_loss": 0.366130530834198, "train_loss_bc": 0.08597922325134277, "train_loss_llm": 0.2801513075828552, "grad_norm": 0.1326931267976761, "global_step": 899, "epoch": 3, "lr": 0.009999704619762597}
+{"train_loss": 0.3921065330505371, "train_loss_bc": 0.09037799388170242, "train_loss_llm": 0.3017285466194153, "grad_norm": 0.13336819410324097, "global_step": 900, "epoch": 3, "lr": 0.009999704619762597}
+{"train_loss": 0.3951440453529358, "train_loss_bc": 0.08165912330150604, "train_loss_llm": 0.31348493695259094, "grad_norm": 0.15001806616783142, "global_step": 901, "epoch": 3, "lr": 0.009999704619762597}
+{"train_loss": 0.4243858754634857, "train_loss_bc": 0.08474921435117722, "train_loss_llm": 0.3396366536617279, "grad_norm": 0.1134578213095665, "global_step": 902, "epoch": 3, "lr": 0.009999704619762597}
+{"train_loss": 0.4213111996650696, "train_loss_bc": 0.09548201411962509, "train_loss_llm": 0.3258291780948639, "grad_norm": 0.15310260653495789, "global_step": 903, "epoch": 3, "lr": 0.009999704619762597}
+{"train_loss": 0.4265420138835907, "train_loss_bc": 0.09121567755937576, "train_loss_llm": 0.33532634377479553, "grad_norm": 0.1398969292640686, "global_step": 904, "epoch": 3, "lr": 0.009999698856439442}
+{"train_loss": 0.3816920518875122, "train_loss_bc": 0.08776640892028809, "train_loss_llm": 0.2939256429672241, "grad_norm": 0.054541174322366714, "global_step": 905, "epoch": 3, "lr": 0.009999698856439442}
+{"train_loss": 0.42429864406585693, "train_loss_bc": 0.0922984853386879, "train_loss_llm": 0.33200016617774963, "grad_norm": 0.08678407967090607, "global_step": 906, "epoch": 3, "lr": 0.009999698856439442}
+{"train_loss": 0.4133818745613098, "train_loss_bc": 0.10082808136940002, "train_loss_llm": 0.3125537931919098, "grad_norm": 0.1244494691491127, "global_step": 907, "epoch": 3, "lr": 0.009999698856439442}
+{"train_loss": 0.42044660449028015, "train_loss_bc": 0.09406119585037231, "train_loss_llm": 0.32638540863990784, "grad_norm": 0.1268356293439865, "global_step": 908, "epoch": 3, "lr": 0.009999698856439442}
+{"train_loss": 0.3891826272010803, "train_loss_bc": 0.08655153214931488, "train_loss_llm": 0.30263110995292664, "grad_norm": 0.1255992203950882, "global_step": 909, "epoch": 3, "lr": 0.009999698856439442}
+{"train_loss": 0.39562126994132996, "train_loss_bc": 0.09394770115613937, "train_loss_llm": 0.30167356133461, "grad_norm": 0.15309050679206848, "global_step": 910, "epoch": 3, "lr": 0.009999698856439442}
+{"train_loss": 0.37456268072128296, "train_loss_bc": 0.08555827289819717, "train_loss_llm": 0.2890044152736664, "grad_norm": 0.1891452670097351, "global_step": 911, "epoch": 3, "lr": 0.009999698856439442}
+{"train_loss": 0.39652979373931885, "train_loss_bc": 0.09098048508167267, "train_loss_llm": 0.305549293756485, "grad_norm": 0.21850472688674927, "global_step": 912, "epoch": 3, "lr": 0.00999969303743425}
+{"train_loss": 0.40780502557754517, "train_loss_bc": 0.08508462458848953, "train_loss_llm": 0.32272040843963623, "grad_norm": 0.044701315462589264, "global_step": 913, "epoch": 3, "lr": 0.00999969303743425}
+{"train_loss": 0.4059898853302002, "train_loss_bc": 0.09412239491939545, "train_loss_llm": 0.31186747550964355, "grad_norm": 0.09934660792350769, "global_step": 914, "epoch": 3, "lr": 0.00999969303743425}
+{"train_loss": 0.3993336260318756, "train_loss_bc": 0.09113200753927231, "train_loss_llm": 0.3082016110420227, "grad_norm": 0.10609062016010284, "global_step": 915, "epoch": 3, "lr": 0.00999969303743425}
+{"train_loss": 0.4275696277618408, "train_loss_bc": 0.08583153784275055, "train_loss_llm": 0.3417380750179291, "grad_norm": 0.13043154776096344, "global_step": 916, "epoch": 3, "lr": 0.00999969303743425}
+{"train_loss": 0.4300083518028259, "train_loss_bc": 0.08419814705848694, "train_loss_llm": 0.345810204744339, "grad_norm": 0.18152689933776855, "global_step": 917, "epoch": 3, "lr": 0.00999969303743425}
+{"train_loss": 0.43288540840148926, "train_loss_bc": 0.0883379802107811, "train_loss_llm": 0.34454742074012756, "grad_norm": 0.2183097004890442, "global_step": 918, "epoch": 3, "lr": 0.00999969303743425}
+{"train_loss": 0.4424322843551636, "train_loss_bc": 0.08501739799976349, "train_loss_llm": 0.3574149012565613, "grad_norm": 0.3119629919528961, "global_step": 919, "epoch": 3, "lr": 0.00999969303743425}
+{"train_loss": 0.42455971240997314, "train_loss_bc": 0.08299025893211365, "train_loss_llm": 0.3415694534778595, "grad_norm": 0.3746108114719391, "global_step": 920, "epoch": 3, "lr": 0.009999687162747087}
+{"train_loss": 0.3523795008659363, "train_loss_bc": 0.07762179523706436, "train_loss_llm": 0.2747577130794525, "grad_norm": 0.061737675219774246, "global_step": 921, "epoch": 3, "lr": 0.009999687162747087}
+{"train_loss": 0.37280815839767456, "train_loss_bc": 0.07544085383415222, "train_loss_llm": 0.29736730456352234, "grad_norm": 0.029557378962635994, "global_step": 922, "epoch": 3, "lr": 0.009999687162747087}
+{"train_loss": 0.41892221570014954, "train_loss_bc": 0.08726736903190613, "train_loss_llm": 0.3316548466682434, "grad_norm": 0.04257436841726303, "global_step": 923, "epoch": 3, "lr": 0.009999687162747087}
+{"train_loss": 0.4117335081100464, "train_loss_bc": 0.08255143463611603, "train_loss_llm": 0.32918205857276917, "grad_norm": 0.04655180126428604, "global_step": 924, "epoch": 3, "lr": 0.009999687162747087}
+{"train_loss": 0.3938751518726349, "train_loss_bc": 0.0722321942448616, "train_loss_llm": 0.3216429650783539, "grad_norm": 0.0710449069738388, "global_step": 925, "epoch": 3, "lr": 0.009999687162747087}
+{"train_loss": 0.378958523273468, "train_loss_bc": 0.07001848518848419, "train_loss_llm": 0.30894002318382263, "grad_norm": 0.09862548112869263, "global_step": 926, "epoch": 3, "lr": 0.009999687162747087}
+{"train_loss": 0.41392895579338074, "train_loss_bc": 0.08644986152648926, "train_loss_llm": 0.3274790942668915, "grad_norm": 0.1180848777294159, "global_step": 927, "epoch": 3, "lr": 0.009999687162747087}
+{"train_loss": 0.4255317151546478, "train_loss_bc": 0.08413177728652954, "train_loss_llm": 0.3413999378681183, "grad_norm": 0.17736652493476868, "global_step": 928, "epoch": 3, "lr": 0.009999681232378021}
+{"train_loss": 0.3573494851589203, "train_loss_bc": 0.07378873229026794, "train_loss_llm": 0.28356075286865234, "grad_norm": 0.10769438743591309, "global_step": 929, "epoch": 3, "lr": 0.009999681232378021}
+{"train_loss": 0.4445154666900635, "train_loss_bc": 0.07499825209379196, "train_loss_llm": 0.3695172071456909, "grad_norm": 0.17428776621818542, "global_step": 930, "epoch": 3, "lr": 0.009999681232378021}
+{"train_loss": 0.3864392638206482, "train_loss_bc": 0.07856722176074982, "train_loss_llm": 0.30787205696105957, "grad_norm": 0.26262393593788147, "global_step": 931, "epoch": 3, "lr": 0.009999681232378021}
+{"train_loss": 0.36477527022361755, "train_loss_bc": 0.07274475693702698, "train_loss_llm": 0.2920305132865906, "grad_norm": 0.23637862503528595, "global_step": 932, "epoch": 3, "lr": 0.009999681232378021}
+{"train_loss": 0.4142002463340759, "train_loss_bc": 0.08045965433120728, "train_loss_llm": 0.33374059200286865, "grad_norm": 0.27505210041999817, "global_step": 933, "epoch": 3, "lr": 0.009999681232378021}
+{"train_loss": 0.4308488667011261, "train_loss_bc": 0.08499892801046371, "train_loss_llm": 0.3458499312400818, "grad_norm": 0.38526833057403564, "global_step": 934, "epoch": 3, "lr": 0.009999681232378021}
+{"train_loss": 0.38719403743743896, "train_loss_bc": 0.08330000936985016, "train_loss_llm": 0.3038940131664276, "grad_norm": 0.46567562222480774, "global_step": 935, "epoch": 3, "lr": 0.009999681232378021}
+{"train_loss": 0.39289116859436035, "train_loss_bc": 0.07922473549842834, "train_loss_llm": 0.313666433095932, "grad_norm": 0.5778480172157288, "global_step": 936, "epoch": 3, "lr": 0.009999675246327116}
+{"train_loss": 0.3784421980381012, "train_loss_bc": 0.07118213921785355, "train_loss_llm": 0.30726006627082825, "grad_norm": 0.06686083972454071, "global_step": 937, "epoch": 3, "lr": 0.009999675246327116}
+{"train_loss": 0.410058856010437, "train_loss_bc": 0.06852373480796814, "train_loss_llm": 0.34153512120246887, "grad_norm": 0.12025078386068344, "global_step": 938, "epoch": 3, "lr": 0.009999675246327116}
+{"train_loss": 0.4223623275756836, "train_loss_bc": 0.07482554018497467, "train_loss_llm": 0.34753677248954773, "grad_norm": 0.16060017049312592, "global_step": 939, "epoch": 3, "lr": 0.009999675246327116}
+{"train_loss": 0.44039565324783325, "train_loss_bc": 0.08413948863744736, "train_loss_llm": 0.3562561571598053, "grad_norm": 0.26143625378608704, "global_step": 940, "epoch": 3, "lr": 0.009999675246327116}
+{"train_loss": 0.44048011302948, "train_loss_bc": 0.06952832639217377, "train_loss_llm": 0.3709518015384674, "grad_norm": 0.274914026260376, "global_step": 941, "epoch": 3, "lr": 0.009999675246327116}
+{"train_loss": 0.39906591176986694, "train_loss_bc": 0.075252965092659, "train_loss_llm": 0.32381293177604675, "grad_norm": 0.3429313004016876, "global_step": 942, "epoch": 3, "lr": 0.009999675246327116}
+{"train_loss": 0.4074867069721222, "train_loss_bc": 0.07184937596321106, "train_loss_llm": 0.33563733100891113, "grad_norm": 0.40891480445861816, "global_step": 943, "epoch": 3, "lr": 0.009999675246327116}
+{"train_loss": 0.3942667245864868, "train_loss_bc": 0.07561461627483368, "train_loss_llm": 0.31865212321281433, "grad_norm": 0.4563116729259491, "global_step": 944, "epoch": 3, "lr": 0.009999669204594438}
+{"train_loss": 0.4113943874835968, "train_loss_bc": 0.06492641568183899, "train_loss_llm": 0.3464679718017578, "grad_norm": 0.07629673182964325, "global_step": 945, "epoch": 3, "lr": 0.009999669204594438}
+{"train_loss": 0.42466187477111816, "train_loss_bc": 0.07224422693252563, "train_loss_llm": 0.35241764783859253, "grad_norm": 0.18480855226516724, "global_step": 946, "epoch": 3, "lr": 0.009999669204594438}
+{"train_loss": 0.38328319787979126, "train_loss_bc": 0.07008200883865356, "train_loss_llm": 0.3132011890411377, "grad_norm": 0.1963348090648651, "global_step": 947, "epoch": 3, "lr": 0.009999669204594438}
+{"train_loss": 0.41552963852882385, "train_loss_bc": 0.06805163621902466, "train_loss_llm": 0.3474780023097992, "grad_norm": 0.2406829595565796, "global_step": 948, "epoch": 3, "lr": 0.009999669204594438}
+{"train_loss": 0.3951277732849121, "train_loss_bc": 0.054214611649513245, "train_loss_llm": 0.34091317653656006, "grad_norm": 0.2743810713291168, "global_step": 949, "epoch": 3, "lr": 0.009999669204594438}
+{"train_loss": 0.4249717891216278, "train_loss_bc": 0.0726194977760315, "train_loss_llm": 0.3523522913455963, "grad_norm": 0.3049352765083313, "global_step": 950, "epoch": 3, "lr": 0.009999669204594438}
+{"train_loss": 0.4140906787219168, "train_loss_bc": 0.07728451490402222, "train_loss_llm": 0.3219153583049774, "grad_norm": 0.3877473771572113, "global_step": 951, "epoch": 3, "lr": 0.009999669204594438, "val_loss": 0.40428397059440613}
+{"train_loss": 0.3889205753803253, "train_loss_bc": 0.06129908561706543, "train_loss_llm": 0.3276214897632599, "grad_norm": 0.42246249318122864, "global_step": 952, "epoch": 4, "lr": 0.009999663107180055}
+{"train_loss": 0.4421125054359436, "train_loss_bc": 0.06818702816963196, "train_loss_llm": 0.37392547726631165, "grad_norm": 0.10745435953140259, "global_step": 953, "epoch": 4, "lr": 0.009999663107180055}
+{"train_loss": 0.44027841091156006, "train_loss_bc": 0.0703430026769638, "train_loss_llm": 0.36993542313575745, "grad_norm": 0.2028966248035431, "global_step": 954, "epoch": 4, "lr": 0.009999663107180055}
+{"train_loss": 0.3958848714828491, "train_loss_bc": 0.08030667155981064, "train_loss_llm": 0.3155781924724579, "grad_norm": 0.24739646911621094, "global_step": 955, "epoch": 4, "lr": 0.009999663107180055}
+{"train_loss": 0.3730059266090393, "train_loss_bc": 0.06481833755970001, "train_loss_llm": 0.3081876039505005, "grad_norm": 0.4161275625228882, "global_step": 956, "epoch": 4, "lr": 0.009999663107180055}
+{"train_loss": 0.4146585464477539, "train_loss_bc": 0.07200856506824493, "train_loss_llm": 0.34264999628067017, "grad_norm": 0.4993325173854828, "global_step": 957, "epoch": 4, "lr": 0.009999663107180055}
+{"train_loss": 0.4045320451259613, "train_loss_bc": 0.07145833224058151, "train_loss_llm": 0.3330737054347992, "grad_norm": 0.584438145160675, "global_step": 958, "epoch": 4, "lr": 0.009999663107180055}
+{"train_loss": 0.3955847918987274, "train_loss_bc": 0.07723039388656616, "train_loss_llm": 0.31835439801216125, "grad_norm": 0.769216001033783, "global_step": 959, "epoch": 4, "lr": 0.009999663107180055}
+{"train_loss": 0.38717883825302124, "train_loss_bc": 0.07844443619251251, "train_loss_llm": 0.3087344169616699, "grad_norm": 0.8209479451179504, "global_step": 960, "epoch": 4, "lr": 0.009999656954084037}
+{"train_loss": 0.4235498607158661, "train_loss_bc": 0.07443630695343018, "train_loss_llm": 0.3491135537624359, "grad_norm": 0.10874534398317337, "global_step": 961, "epoch": 4, "lr": 0.009999656954084037}
+{"train_loss": 0.41722941398620605, "train_loss_bc": 0.0747588574886322, "train_loss_llm": 0.34247055649757385, "grad_norm": 0.23608118295669556, "global_step": 962, "epoch": 4, "lr": 0.009999656954084037}
+{"train_loss": 0.4042573571205139, "train_loss_bc": 0.0696314200758934, "train_loss_llm": 0.3346259295940399, "grad_norm": 0.3727935552597046, "global_step": 963, "epoch": 4, "lr": 0.009999656954084037}
+{"train_loss": 0.40589189529418945, "train_loss_bc": 0.07570016384124756, "train_loss_llm": 0.3301917314529419, "grad_norm": 0.46376219391822815, "global_step": 964, "epoch": 4, "lr": 0.009999656954084037}
+{"train_loss": 0.4041791558265686, "train_loss_bc": 0.0836397260427475, "train_loss_llm": 0.3205394446849823, "grad_norm": 0.5556835532188416, "global_step": 965, "epoch": 4, "lr": 0.009999656954084037}
+{"train_loss": 0.41172823309898376, "train_loss_bc": 0.0729452595114708, "train_loss_llm": 0.3387829661369324, "grad_norm": 0.6281371712684631, "global_step": 966, "epoch": 4, "lr": 0.009999656954084037}
+{"train_loss": 0.3939768075942993, "train_loss_bc": 0.06425975263118744, "train_loss_llm": 0.32971706986427307, "grad_norm": 0.703376829624176, "global_step": 967, "epoch": 4, "lr": 0.009999656954084037}
+{"train_loss": 0.4303460121154785, "train_loss_bc": 0.08206038177013397, "train_loss_llm": 0.34828561544418335, "grad_norm": 0.752334713935852, "global_step": 968, "epoch": 4, "lr": 0.009999650745306449}
+{"train_loss": 0.3897997736930847, "train_loss_bc": 0.07636252790689468, "train_loss_llm": 0.31343725323677063, "grad_norm": 0.08691861480474472, "global_step": 969, "epoch": 4, "lr": 0.009999650745306449}
+{"train_loss": 0.40995073318481445, "train_loss_bc": 0.07306678593158722, "train_loss_llm": 0.33688393235206604, "grad_norm": 0.2531069815158844, "global_step": 970, "epoch": 4, "lr": 0.009999650745306449}
+{"train_loss": 0.3556844890117645, "train_loss_bc": 0.0723370686173439, "train_loss_llm": 0.2833474278450012, "grad_norm": 0.17503494024276733, "global_step": 971, "epoch": 4, "lr": 0.009999650745306449}
+{"train_loss": 0.3954557180404663, "train_loss_bc": 0.07962971925735474, "train_loss_llm": 0.3158259987831116, "grad_norm": 0.1346885859966278, "global_step": 972, "epoch": 4, "lr": 0.009999650745306449}
+{"train_loss": 0.38526397943496704, "train_loss_bc": 0.07648308575153351, "train_loss_llm": 0.30878087878227234, "grad_norm": 0.2143183797597885, "global_step": 973, "epoch": 4, "lr": 0.009999650745306449}
+{"train_loss": 0.37366610765457153, "train_loss_bc": 0.08087773621082306, "train_loss_llm": 0.2927883565425873, "grad_norm": 0.24196957051753998, "global_step": 974, "epoch": 4, "lr": 0.009999650745306449}
+{"train_loss": 0.4001992344856262, "train_loss_bc": 0.07390003651380539, "train_loss_llm": 0.32629919052124023, "grad_norm": 0.3514339327812195, "global_step": 975, "epoch": 4, "lr": 0.009999650745306449}
+{"train_loss": 0.39033806324005127, "train_loss_bc": 0.07303822785615921, "train_loss_llm": 0.31729984283447266, "grad_norm": 0.40404224395751953, "global_step": 976, "epoch": 4, "lr": 0.009999644480847362}
+{"train_loss": 0.4342735707759857, "train_loss_bc": 0.08645551651716232, "train_loss_llm": 0.3478180468082428, "grad_norm": 0.07180124521255493, "global_step": 977, "epoch": 4, "lr": 0.009999644480847362}
+{"train_loss": 0.3884064555168152, "train_loss_bc": 0.0668419897556305, "train_loss_llm": 0.3215644657611847, "grad_norm": 0.16180108487606049, "global_step": 978, "epoch": 4, "lr": 0.009999644480847362}
+{"train_loss": 0.4276011884212494, "train_loss_bc": 0.07922208309173584, "train_loss_llm": 0.34837910532951355, "grad_norm": 0.32670626044273376, "global_step": 979, "epoch": 4, "lr": 0.009999644480847362}
+{"train_loss": 0.4408290982246399, "train_loss_bc": 0.0761280357837677, "train_loss_llm": 0.3647010624408722, "grad_norm": 0.35235556960105896, "global_step": 980, "epoch": 4, "lr": 0.009999644480847362}
+{"train_loss": 0.39623594284057617, "train_loss_bc": 0.08636346459388733, "train_loss_llm": 0.30987247824668884, "grad_norm": 0.4130868911743164, "global_step": 981, "epoch": 4, "lr": 0.009999644480847362}
+{"train_loss": 0.3824079632759094, "train_loss_bc": 0.08557958900928497, "train_loss_llm": 0.29682838916778564, "grad_norm": 0.537477433681488, "global_step": 982, "epoch": 4, "lr": 0.009999644480847362}
+{"train_loss": 0.42363011837005615, "train_loss_bc": 0.08522425591945648, "train_loss_llm": 0.33840587735176086, "grad_norm": 0.6057241559028625, "global_step": 983, "epoch": 4, "lr": 0.009999644480847362}
+{"train_loss": 0.41272443532943726, "train_loss_bc": 0.07393600046634674, "train_loss_llm": 0.3387884497642517, "grad_norm": 0.638294517993927, "global_step": 984, "epoch": 4, "lr": 0.009999638160706845}
+{"train_loss": 0.3892185091972351, "train_loss_bc": 0.08014633506536484, "train_loss_llm": 0.3090721666812897, "grad_norm": 0.16684503853321075, "global_step": 985, "epoch": 4, "lr": 0.009999638160706845}
+{"train_loss": 0.4356057345867157, "train_loss_bc": 0.09306081384420395, "train_loss_llm": 0.34254491329193115, "grad_norm": 0.2706025540828705, "global_step": 986, "epoch": 4, "lr": 0.009999638160706845}
+{"train_loss": 0.4108954071998596, "train_loss_bc": 0.0752069503068924, "train_loss_llm": 0.3356884717941284, "grad_norm": 0.4138285517692566, "global_step": 987, "epoch": 4, "lr": 0.009999638160706845}
+{"train_loss": 0.42745012044906616, "train_loss_bc": 0.07920683920383453, "train_loss_llm": 0.34824326634407043, "grad_norm": 0.4947754740715027, "global_step": 988, "epoch": 4, "lr": 0.009999638160706845}
+{"train_loss": 0.425476610660553, "train_loss_bc": 0.08864077180624008, "train_loss_llm": 0.3368358314037323, "grad_norm": 0.6216281056404114, "global_step": 989, "epoch": 4, "lr": 0.009999638160706845}
+{"train_loss": 0.38662832975387573, "train_loss_bc": 0.08576231449842453, "train_loss_llm": 0.3008660078048706, "grad_norm": 0.7611678838729858, "global_step": 990, "epoch": 4, "lr": 0.009999638160706845}
+{"train_loss": 0.4226006269454956, "train_loss_bc": 0.08918671309947968, "train_loss_llm": 0.33341389894485474, "grad_norm": 0.8166177272796631, "global_step": 991, "epoch": 4, "lr": 0.009999638160706845}
+{"train_loss": 0.4064217805862427, "train_loss_bc": 0.07826296985149384, "train_loss_llm": 0.32815882563591003, "grad_norm": 1.0331740379333496, "global_step": 992, "epoch": 4, "lr": 0.00999963178488497}
+{"train_loss": 0.4363706111907959, "train_loss_bc": 0.09674931317567825, "train_loss_llm": 0.33962130546569824, "grad_norm": 0.028653476387262344, "global_step": 993, "epoch": 4, "lr": 0.00999963178488497}
+{"train_loss": 0.3938346207141876, "train_loss_bc": 0.10267224907875061, "train_loss_llm": 0.291162371635437, "grad_norm": 0.12778635323047638, "global_step": 994, "epoch": 4, "lr": 0.00999963178488497}
+{"train_loss": 0.43345025181770325, "train_loss_bc": 0.09392135590314865, "train_loss_llm": 0.339528888463974, "grad_norm": 0.16941916942596436, "global_step": 995, "epoch": 4, "lr": 0.00999963178488497}
+{"train_loss": 0.47298574447631836, "train_loss_bc": 0.07883341610431671, "train_loss_llm": 0.39415234327316284, "grad_norm": 0.2932804822921753, "global_step": 996, "epoch": 4, "lr": 0.00999963178488497}
+{"train_loss": 0.39479532837867737, "train_loss_bc": 0.07865434885025024, "train_loss_llm": 0.3161409795284271, "grad_norm": 0.3695148527622223, "global_step": 997, "epoch": 4, "lr": 0.00999963178488497}
+{"train_loss": 0.37804126739501953, "train_loss_bc": 0.0788038969039917, "train_loss_llm": 0.29923737049102783, "grad_norm": 0.40303415060043335, "global_step": 998, "epoch": 4, "lr": 0.00999963178488497}
+{"train_loss": 0.4525074362754822, "train_loss_bc": 0.09730367362499237, "train_loss_llm": 0.355203777551651, "grad_norm": 0.5463839769363403, "global_step": 999, "epoch": 4, "lr": 0.00999963178488497}
+{"train_loss": 0.39799582958221436, "train_loss_bc": 0.09450183808803558, "train_loss_llm": 0.30349400639533997, "grad_norm": 0.661736011505127, "global_step": 1000, "epoch": 4, "lr": 0.009999625353381806}
+{"train_loss": 0.3909425735473633, "train_loss_bc": 0.0908740982413292, "train_loss_llm": 0.3000684678554535, "grad_norm": 0.110078364610672, "global_step": 1001, "epoch": 4, "lr": 0.009999625353381806}
+{"train_loss": 0.4023226797580719, "train_loss_bc": 0.09496399015188217, "train_loss_llm": 0.30735868215560913, "grad_norm": 0.17096874117851257, "global_step": 1002, "epoch": 4, "lr": 0.009999625353381806}
+{"train_loss": 0.4257325530052185, "train_loss_bc": 0.09297572076320648, "train_loss_llm": 0.33275681734085083, "grad_norm": 0.1609070748090744, "global_step": 1003, "epoch": 4, "lr": 0.009999625353381806}
+{"train_loss": 0.43829843401908875, "train_loss_bc": 0.08815815299749374, "train_loss_llm": 0.3501402735710144, "grad_norm": 0.20466606318950653, "global_step": 1004, "epoch": 4, "lr": 0.009999625353381806}
+{"train_loss": 0.43996763229370117, "train_loss_bc": 0.095282182097435, "train_loss_llm": 0.34468546509742737, "grad_norm": 0.2254326343536377, "global_step": 1005, "epoch": 4, "lr": 0.009999625353381806}
+{"train_loss": 0.4216962158679962, "train_loss_bc": 0.0920509323477745, "train_loss_llm": 0.3296452760696411, "grad_norm": 0.2814660370349884, "global_step": 1006, "epoch": 4, "lr": 0.009999625353381806}
+{"train_loss": 0.3951725363731384, "train_loss_bc": 0.09668521583080292, "train_loss_llm": 0.2984873056411743, "grad_norm": 0.2621922791004181, "global_step": 1007, "epoch": 4, "lr": 0.009999625353381806}
+{"train_loss": 0.38098660111427307, "train_loss_bc": 0.0997234582901001, "train_loss_llm": 0.281263142824173, "grad_norm": 0.297638863325119, "global_step": 1008, "epoch": 4, "lr": 0.009999618866197428}
+{"train_loss": 0.44589877128601074, "train_loss_bc": 0.10858937352895737, "train_loss_llm": 0.3373093903064728, "grad_norm": 0.10707902908325195, "global_step": 1009, "epoch": 4, "lr": 0.009999618866197428}
+{"train_loss": 0.42035141587257385, "train_loss_bc": 0.09447428584098816, "train_loss_llm": 0.3258771300315857, "grad_norm": 0.17836417257785797, "global_step": 1010, "epoch": 4, "lr": 0.009999618866197428}
+{"train_loss": 0.4442600607872009, "train_loss_bc": 0.09368208050727844, "train_loss_llm": 0.3505779802799225, "grad_norm": 0.22253400087356567, "global_step": 1011, "epoch": 4, "lr": 0.009999618866197428}
+{"train_loss": 0.401283860206604, "train_loss_bc": 0.09211447089910507, "train_loss_llm": 0.30916938185691833, "grad_norm": 0.28375405073165894, "global_step": 1012, "epoch": 4, "lr": 0.009999618866197428}
+{"train_loss": 0.38587433099746704, "train_loss_bc": 0.09805978834629059, "train_loss_llm": 0.28781455755233765, "grad_norm": 0.4023783206939697, "global_step": 1013, "epoch": 4, "lr": 0.009999618866197428}
+{"train_loss": 0.4291914105415344, "train_loss_bc": 0.10562656819820404, "train_loss_llm": 0.3235648572444916, "grad_norm": 0.48711705207824707, "global_step": 1014, "epoch": 4, "lr": 0.009999618866197428}
+{"train_loss": 0.4114626348018646, "train_loss_bc": 0.09644699096679688, "train_loss_llm": 0.31501564383506775, "grad_norm": 0.5557970404624939, "global_step": 1015, "epoch": 4, "lr": 0.009999618866197428}
+{"train_loss": 0.40264075994491577, "train_loss_bc": 0.08801534026861191, "train_loss_llm": 0.31462541222572327, "grad_norm": 0.6526421904563904, "global_step": 1016, "epoch": 4, "lr": 0.009999612323331904}
+{"train_loss": 0.38569778203964233, "train_loss_bc": 0.07969971001148224, "train_loss_llm": 0.3059980869293213, "grad_norm": 0.04792322218418121, "global_step": 1017, "epoch": 4, "lr": 0.009999612323331904}
+{"train_loss": 0.4149100184440613, "train_loss_bc": 0.0949491560459137, "train_loss_llm": 0.3199608623981476, "grad_norm": 0.050484247505664825, "global_step": 1018, "epoch": 4, "lr": 0.009999612323331904}
+{"train_loss": 0.41763579845428467, "train_loss_bc": 0.09399016201496124, "train_loss_llm": 0.32364562153816223, "grad_norm": 0.08788666129112244, "global_step": 1019, "epoch": 4, "lr": 0.009999612323331904}
+{"train_loss": 0.38215094804763794, "train_loss_bc": 0.09645058214664459, "train_loss_llm": 0.28570035099983215, "grad_norm": 0.13322719931602478, "global_step": 1020, "epoch": 4, "lr": 0.009999612323331904}
+{"train_loss": 0.42234909534454346, "train_loss_bc": 0.09212224930524826, "train_loss_llm": 0.3302268385887146, "grad_norm": 0.22380498051643372, "global_step": 1021, "epoch": 4, "lr": 0.009999612323331904}
+{"train_loss": 0.39892661571502686, "train_loss_bc": 0.08140487968921661, "train_loss_llm": 0.31752172112464905, "grad_norm": 0.22525304555892944, "global_step": 1022, "epoch": 4, "lr": 0.009999612323331904}
+{"train_loss": 0.39701175689697266, "train_loss_bc": 0.09671775996685028, "train_loss_llm": 0.30029401183128357, "grad_norm": 0.22314642369747162, "global_step": 1023, "epoch": 4, "lr": 0.009999612323331904}
+{"train_loss": 0.39709585905075073, "train_loss_bc": 0.0905051976442337, "train_loss_llm": 0.3065906763076782, "grad_norm": 0.24899286031723022, "global_step": 1024, "epoch": 4, "lr": 0.009999605724785308}
+{"train_loss": 0.4435592293739319, "train_loss_bc": 0.061831459403038025, "train_loss_llm": 0.38172775506973267, "grad_norm": 0.12396500259637833, "global_step": 1025, "epoch": 4, "lr": 0.009999605724785308}
+{"train_loss": 0.40742072463035583, "train_loss_bc": 0.05771820992231369, "train_loss_llm": 0.34970250725746155, "grad_norm": 0.22530540823936462, "global_step": 1026, "epoch": 4, "lr": 0.009999605724785308}
+{"train_loss": 0.4201498329639435, "train_loss_bc": 0.06040196865797043, "train_loss_llm": 0.35974785685539246, "grad_norm": 0.3807514011859894, "global_step": 1027, "epoch": 4, "lr": 0.009999605724785308}
+{"train_loss": 0.4002249240875244, "train_loss_bc": 0.06421813368797302, "train_loss_llm": 0.3360067903995514, "grad_norm": 0.3948187828063965, "global_step": 1028, "epoch": 4, "lr": 0.009999605724785308}
+{"train_loss": 0.4067322313785553, "train_loss_bc": 0.07158327102661133, "train_loss_llm": 0.33514896035194397, "grad_norm": 0.41715505719184875, "global_step": 1029, "epoch": 4, "lr": 0.009999605724785308}
+{"train_loss": 0.44392186403274536, "train_loss_bc": 0.06709956377744675, "train_loss_llm": 0.376822292804718, "grad_norm": 0.42456722259521484, "global_step": 1030, "epoch": 4, "lr": 0.009999605724785308}
+{"train_loss": 0.41947489976882935, "train_loss_bc": 0.06345819681882858, "train_loss_llm": 0.35601669549942017, "grad_norm": 0.4698476791381836, "global_step": 1031, "epoch": 4, "lr": 0.009999605724785308}
+{"train_loss": 0.39946049451828003, "train_loss_bc": 0.06649095565080643, "train_loss_llm": 0.3329695463180542, "grad_norm": 0.4749966859817505, "global_step": 1032, "epoch": 4, "lr": 0.009999599070557714}
+{"train_loss": 0.4558436870574951, "train_loss_bc": 0.06658907234668732, "train_loss_llm": 0.389254629611969, "grad_norm": 0.1579374372959137, "global_step": 1033, "epoch": 4, "lr": 0.009999599070557714}
+{"train_loss": 0.4175301492214203, "train_loss_bc": 0.06433006376028061, "train_loss_llm": 0.3532000780105591, "grad_norm": 0.16712673008441925, "global_step": 1034, "epoch": 4, "lr": 0.009999599070557714}
+{"train_loss": 0.36436259746551514, "train_loss_bc": 0.05723876133561134, "train_loss_llm": 0.3071238398551941, "grad_norm": 0.20936405658721924, "global_step": 1035, "epoch": 4, "lr": 0.009999599070557714}
+{"train_loss": 0.4135836362838745, "train_loss_bc": 0.07459954172372818, "train_loss_llm": 0.33898410201072693, "grad_norm": 0.2805637717247009, "global_step": 1036, "epoch": 4, "lr": 0.009999599070557714}
+{"train_loss": 0.39805173873901367, "train_loss_bc": 0.05786018818616867, "train_loss_llm": 0.3401915431022644, "grad_norm": 0.25896549224853516, "global_step": 1037, "epoch": 4, "lr": 0.009999599070557714}
+{"train_loss": 0.40682727098464966, "train_loss_bc": 0.06885027140378952, "train_loss_llm": 0.33797699213027954, "grad_norm": 0.31955087184906006, "global_step": 1038, "epoch": 4, "lr": 0.009999599070557714}
+{"train_loss": 0.44050276279449463, "train_loss_bc": 0.0637490302324295, "train_loss_llm": 0.37675371766090393, "grad_norm": 0.29800528287887573, "global_step": 1039, "epoch": 4, "lr": 0.009999599070557714}
+{"train_loss": 0.4122283458709717, "train_loss_bc": 0.06170915067195892, "train_loss_llm": 0.35051918029785156, "grad_norm": 0.3336866796016693, "global_step": 1040, "epoch": 4, "lr": 0.009999592360649196}
+{"train_loss": 0.4584740102291107, "train_loss_bc": 0.061327528208494186, "train_loss_llm": 0.3971464931964874, "grad_norm": 0.06192399933934212, "global_step": 1041, "epoch": 4, "lr": 0.009999592360649196}
+{"train_loss": 0.410603404045105, "train_loss_bc": 0.06770876049995422, "train_loss_llm": 0.34289464354515076, "grad_norm": 0.1312362253665924, "global_step": 1042, "epoch": 4, "lr": 0.009999592360649196}
+{"train_loss": 0.40616288781166077, "train_loss_bc": 0.06801139563322067, "train_loss_llm": 0.3381514847278595, "grad_norm": 0.18254850804805756, "global_step": 1043, "epoch": 4, "lr": 0.009999592360649196}
+{"train_loss": 0.43890181183815, "train_loss_bc": 0.05401849001646042, "train_loss_llm": 0.384883314371109, "grad_norm": 0.2763271629810333, "global_step": 1044, "epoch": 4, "lr": 0.009999592360649196}
+{"train_loss": 0.3669883608818054, "train_loss_bc": 0.055717602372169495, "train_loss_llm": 0.31127074360847473, "grad_norm": 0.31960827112197876, "global_step": 1045, "epoch": 4, "lr": 0.009999592360649196}
+{"train_loss": 0.3968946635723114, "train_loss_bc": 0.047248389571905136, "train_loss_llm": 0.34964627027511597, "grad_norm": 0.4149946868419647, "global_step": 1046, "epoch": 4, "lr": 0.009999592360649196}
+{"train_loss": 0.38723060488700867, "train_loss_bc": 0.0635022222995758, "train_loss_llm": 0.32372838258743286, "grad_norm": 0.5479879975318909, "global_step": 1047, "epoch": 4, "lr": 0.009999592360649196}
+{"train_loss": 0.376992404460907, "train_loss_bc": 0.05478610098361969, "train_loss_llm": 0.3222062885761261, "grad_norm": 0.6098511815071106, "global_step": 1048, "epoch": 4, "lr": 0.009999585595059831}
+{"train_loss": 0.410951167345047, "train_loss_bc": 0.06011689826846123, "train_loss_llm": 0.35083428025245667, "grad_norm": 0.05257026478648186, "global_step": 1049, "epoch": 4, "lr": 0.009999585595059831}
+{"train_loss": 0.3652927279472351, "train_loss_bc": 0.051626287400722504, "train_loss_llm": 0.313666433095932, "grad_norm": 0.08967696875333786, "global_step": 1050, "epoch": 4, "lr": 0.009999585595059831}
+{"train_loss": 0.45026832818984985, "train_loss_bc": 0.06860150396823883, "train_loss_llm": 0.38166680932044983, "grad_norm": 0.15474463999271393, "global_step": 1051, "epoch": 4, "lr": 0.009999585595059831}
+{"train_loss": 0.43854284286499023, "train_loss_bc": 0.060041770339012146, "train_loss_llm": 0.3785010874271393, "grad_norm": 0.18012304604053497, "global_step": 1052, "epoch": 4, "lr": 0.009999585595059831}
+{"train_loss": 0.416998028755188, "train_loss_bc": 0.07127533107995987, "train_loss_llm": 0.3457227051258087, "grad_norm": 0.19670726358890533, "global_step": 1053, "epoch": 4, "lr": 0.009999585595059831}
+{"train_loss": 0.37814459204673767, "train_loss_bc": 0.05770619958639145, "train_loss_llm": 0.3204383850097656, "grad_norm": 0.23323950171470642, "global_step": 1054, "epoch": 4, "lr": 0.009999585595059831}
+{"train_loss": 0.40279504656791687, "train_loss_bc": 0.05601000040769577, "train_loss_llm": 0.3467850387096405, "grad_norm": 0.2775455713272095, "global_step": 1055, "epoch": 4, "lr": 0.009999585595059831}
+{"train_loss": 0.3735727369785309, "train_loss_bc": 0.06702548265457153, "train_loss_llm": 0.30654725432395935, "grad_norm": 0.3275339901447296, "global_step": 1056, "epoch": 4, "lr": 0.009999578773789692}
+{"train_loss": 0.3619680404663086, "train_loss_bc": 0.05938237905502319, "train_loss_llm": 0.3025856614112854, "grad_norm": 0.047119539231061935, "global_step": 1057, "epoch": 4, "lr": 0.009999578773789692}
+{"train_loss": 0.40894192457199097, "train_loss_bc": 0.058019302785396576, "train_loss_llm": 0.3509226143360138, "grad_norm": 0.11877671629190445, "global_step": 1058, "epoch": 4, "lr": 0.009999578773789692}
+{"train_loss": 0.39949867129325867, "train_loss_bc": 0.07249172776937485, "train_loss_llm": 0.3270069360733032, "grad_norm": 0.16000625491142273, "global_step": 1059, "epoch": 4, "lr": 0.009999578773789692}
+{"train_loss": 0.4156387448310852, "train_loss_bc": 0.06073977053165436, "train_loss_llm": 0.35489895939826965, "grad_norm": 0.20913854241371155, "global_step": 1060, "epoch": 4, "lr": 0.009999578773789692}
+{"train_loss": 0.37205561995506287, "train_loss_bc": 0.07061034440994263, "train_loss_llm": 0.30144527554512024, "grad_norm": 0.22489257156848907, "global_step": 1061, "epoch": 4, "lr": 0.009999578773789692}
+{"train_loss": 0.37293529510498047, "train_loss_bc": 0.05943760275840759, "train_loss_llm": 0.3134976923465729, "grad_norm": 0.26078474521636963, "global_step": 1062, "epoch": 4, "lr": 0.009999578773789692}
+{"train_loss": 0.396030068397522, "train_loss_bc": 0.06153838336467743, "train_loss_llm": 0.33449167013168335, "grad_norm": 0.3542875051498413, "global_step": 1063, "epoch": 4, "lr": 0.009999578773789692}
+{"train_loss": 0.3948947787284851, "train_loss_bc": 0.06646862626075745, "train_loss_llm": 0.32842615246772766, "grad_norm": 0.3604896664619446, "global_step": 1064, "epoch": 4, "lr": 0.009999571896838855}
+{"train_loss": 0.3564755916595459, "train_loss_bc": 0.06903542578220367, "train_loss_llm": 0.2874401807785034, "grad_norm": 0.08063967525959015, "global_step": 1065, "epoch": 4, "lr": 0.009999571896838855}
+{"train_loss": 0.4061865210533142, "train_loss_bc": 0.06487898528575897, "train_loss_llm": 0.34130755066871643, "grad_norm": 0.17853949964046478, "global_step": 1066, "epoch": 4, "lr": 0.009999571896838855}
+{"train_loss": 0.4010978043079376, "train_loss_bc": 0.06978631019592285, "train_loss_llm": 0.33131149411201477, "grad_norm": 0.1372785121202469, "global_step": 1067, "epoch": 4, "lr": 0.009999571896838855}
+{"train_loss": 0.36677244305610657, "train_loss_bc": 0.061659831553697586, "train_loss_llm": 0.3051126003265381, "grad_norm": 0.1660328060388565, "global_step": 1068, "epoch": 4, "lr": 0.009999571896838855}
+{"train_loss": 0.425447940826416, "train_loss_bc": 0.08224102854728699, "train_loss_llm": 0.34320691227912903, "grad_norm": 0.22128865122795105, "global_step": 1069, "epoch": 4, "lr": 0.009999571896838855}
+{"train_loss": 0.39894458651542664, "train_loss_bc": 0.074200838804245, "train_loss_llm": 0.32474374771118164, "grad_norm": 0.20415757596492767, "global_step": 1070, "epoch": 4, "lr": 0.009999571896838855}
+{"train_loss": 0.3829959034919739, "train_loss_bc": 0.06565216928720474, "train_loss_llm": 0.31734374165534973, "grad_norm": 0.23151066899299622, "global_step": 1071, "epoch": 4, "lr": 0.009999571896838855}
+{"train_loss": 0.35595035552978516, "train_loss_bc": 0.07158073037862778, "train_loss_llm": 0.2843696177005768, "grad_norm": 0.2731558680534363, "global_step": 1072, "epoch": 4, "lr": 0.009999564964207395}
+{"train_loss": 0.391853392124176, "train_loss_bc": 0.07711093127727509, "train_loss_llm": 0.31474244594573975, "grad_norm": 0.10271287709474564, "global_step": 1073, "epoch": 4, "lr": 0.009999564964207395}
+{"train_loss": 0.40718069672584534, "train_loss_bc": 0.08471637964248657, "train_loss_llm": 0.32246431708335876, "grad_norm": 0.15700402855873108, "global_step": 1074, "epoch": 4, "lr": 0.009999564964207395}
+{"train_loss": 0.42359215021133423, "train_loss_bc": 0.07322876155376434, "train_loss_llm": 0.3503633737564087, "grad_norm": 0.19932043552398682, "global_step": 1075, "epoch": 4, "lr": 0.009999564964207395}
+{"train_loss": 0.37157851457595825, "train_loss_bc": 0.07606080174446106, "train_loss_llm": 0.2955177128314972, "grad_norm": 0.20662282407283783, "global_step": 1076, "epoch": 4, "lr": 0.009999564964207395}
+{"train_loss": 0.4061952233314514, "train_loss_bc": 0.08939213305711746, "train_loss_llm": 0.31680309772491455, "grad_norm": 0.2878707945346832, "global_step": 1077, "epoch": 4, "lr": 0.009999564964207395}
+{"train_loss": 0.4088464081287384, "train_loss_bc": 0.07706963270902634, "train_loss_llm": 0.33177676796913147, "grad_norm": 0.4063880443572998, "global_step": 1078, "epoch": 4, "lr": 0.009999564964207395}
+{"train_loss": 0.48629647493362427, "train_loss_bc": 0.07728411257266998, "train_loss_llm": 0.4090123772621155, "grad_norm": 0.426352858543396, "global_step": 1079, "epoch": 4, "lr": 0.009999564964207395}
+{"train_loss": 0.4292190968990326, "train_loss_bc": 0.07719683647155762, "train_loss_llm": 0.352022260427475, "grad_norm": 0.5544529557228088, "global_step": 1080, "epoch": 4, "lr": 0.009999557975895393}
+{"train_loss": 0.3959062695503235, "train_loss_bc": 0.09131382405757904, "train_loss_llm": 0.30459243059158325, "grad_norm": 0.1009378656744957, "global_step": 1081, "epoch": 4, "lr": 0.009999557975895393}
+{"train_loss": 0.3962766230106354, "train_loss_bc": 0.07447749376296997, "train_loss_llm": 0.3217991292476654, "grad_norm": 0.37059536576271057, "global_step": 1082, "epoch": 4, "lr": 0.009999557975895393}
+{"train_loss": 0.38104933500289917, "train_loss_bc": 0.08995359390974045, "train_loss_llm": 0.2910957336425781, "grad_norm": 0.4968440532684326, "global_step": 1083, "epoch": 4, "lr": 0.009999557975895393}
+{"train_loss": 0.4219258725643158, "train_loss_bc": 0.09553157538175583, "train_loss_llm": 0.32639428973197937, "grad_norm": 0.5040833950042725, "global_step": 1084, "epoch": 4, "lr": 0.009999557975895393}
+{"train_loss": 0.391011118888855, "train_loss_bc": 0.0868627279996872, "train_loss_llm": 0.3041483759880066, "grad_norm": 0.6068540215492249, "global_step": 1085, "epoch": 4, "lr": 0.009999557975895393}
+{"train_loss": 0.397043913602829, "train_loss_bc": 0.0972505509853363, "train_loss_llm": 0.2997933626174927, "grad_norm": 0.7012368440628052, "global_step": 1086, "epoch": 4, "lr": 0.009999557975895393}
+{"train_loss": 0.40416356921195984, "train_loss_bc": 0.09541157633066177, "train_loss_llm": 0.30875200033187866, "grad_norm": 0.814490020275116, "global_step": 1087, "epoch": 4, "lr": 0.009999557975895393}
+{"train_loss": 0.3906492590904236, "train_loss_bc": 0.09406547248363495, "train_loss_llm": 0.29658380150794983, "grad_norm": 0.9244651198387146, "global_step": 1088, "epoch": 4, "lr": 0.009999550931902926}
+{"train_loss": 0.4260321855545044, "train_loss_bc": 0.09365449845790863, "train_loss_llm": 0.33237770199775696, "grad_norm": 0.08883188664913177, "global_step": 1089, "epoch": 4, "lr": 0.009999550931902926}
+{"train_loss": 0.4042676091194153, "train_loss_bc": 0.0899156779050827, "train_loss_llm": 0.3143519163131714, "grad_norm": 0.22262737154960632, "global_step": 1090, "epoch": 4, "lr": 0.009999550931902926}
+{"train_loss": 0.37518638372421265, "train_loss_bc": 0.08765201270580292, "train_loss_llm": 0.28753435611724854, "grad_norm": 0.24601636826992035, "global_step": 1091, "epoch": 4, "lr": 0.009999550931902926}
+{"train_loss": 0.40417078137397766, "train_loss_bc": 0.08279599994421005, "train_loss_llm": 0.321374773979187, "grad_norm": 0.29331669211387634, "global_step": 1092, "epoch": 4, "lr": 0.009999550931902926}
+{"train_loss": 0.34322699904441833, "train_loss_bc": 0.08693794161081314, "train_loss_llm": 0.2562890648841858, "grad_norm": 0.3830481469631195, "global_step": 1093, "epoch": 4, "lr": 0.009999550931902926}
+{"train_loss": 0.37648457288742065, "train_loss_bc": 0.08044898509979248, "train_loss_llm": 0.2960355877876282, "grad_norm": 0.40737494826316833, "global_step": 1094, "epoch": 4, "lr": 0.009999550931902926}
+{"train_loss": 0.4464970827102661, "train_loss_bc": 0.09274937212467194, "train_loss_llm": 0.35374772548675537, "grad_norm": 0.4683525264263153, "global_step": 1095, "epoch": 4, "lr": 0.009999550931902926}
+{"train_loss": 0.4148114323616028, "train_loss_bc": 0.09187228977680206, "train_loss_llm": 0.3229391276836395, "grad_norm": 0.5387771725654602, "global_step": 1096, "epoch": 4, "lr": 0.00999954383223007}
+{"train_loss": 0.4420672655105591, "train_loss_bc": 0.08711432665586472, "train_loss_llm": 0.35495293140411377, "grad_norm": 0.08730136603116989, "global_step": 1097, "epoch": 4, "lr": 0.00999954383223007}
+{"train_loss": 0.3665750026702881, "train_loss_bc": 0.07828740775585175, "train_loss_llm": 0.28828758001327515, "grad_norm": 0.09671468287706375, "global_step": 1098, "epoch": 4, "lr": 0.00999954383223007}
+{"train_loss": 0.4200534224510193, "train_loss_bc": 0.08540724217891693, "train_loss_llm": 0.33464619517326355, "grad_norm": 0.09756211191415787, "global_step": 1099, "epoch": 4, "lr": 0.00999954383223007}
+{"train_loss": 0.3766030967235565, "train_loss_bc": 0.06546372920274734, "train_loss_llm": 0.31113937497138977, "grad_norm": 0.11873649805784225, "global_step": 1100, "epoch": 4, "lr": 0.00999954383223007}
+{"train_loss": 0.39613157510757446, "train_loss_bc": 0.08483739197254181, "train_loss_llm": 0.31129416823387146, "grad_norm": 0.12251027673482895, "global_step": 1101, "epoch": 4, "lr": 0.00999954383223007}
+{"train_loss": 0.4252161979675293, "train_loss_bc": 0.07855511456727982, "train_loss_llm": 0.3466610908508301, "grad_norm": 0.19983680546283722, "global_step": 1102, "epoch": 4, "lr": 0.00999954383223007}
+{"train_loss": 0.3392588496208191, "train_loss_bc": 0.07985346019268036, "train_loss_llm": 0.2594054043292999, "grad_norm": 0.2120959758758545, "global_step": 1103, "epoch": 4, "lr": 0.00999954383223007}
+{"train_loss": 0.41864919662475586, "train_loss_bc": 0.08557556569576263, "train_loss_llm": 0.3330736458301544, "grad_norm": 0.26938655972480774, "global_step": 1104, "epoch": 4, "lr": 0.009999536676876905}
+{"train_loss": 0.327339768409729, "train_loss_bc": 0.05716293305158615, "train_loss_llm": 0.27017682790756226, "grad_norm": 0.1269286721944809, "global_step": 1105, "epoch": 4, "lr": 0.009999536676876905}
+{"train_loss": 0.35917097330093384, "train_loss_bc": 0.06379741430282593, "train_loss_llm": 0.2953735589981079, "grad_norm": 0.2128644436597824, "global_step": 1106, "epoch": 4, "lr": 0.009999536676876905}
+{"train_loss": 0.39620786905288696, "train_loss_bc": 0.06889205425977707, "train_loss_llm": 0.3273158073425293, "grad_norm": 0.27225518226623535, "global_step": 1107, "epoch": 4, "lr": 0.009999536676876905}
+{"train_loss": 0.3771017789840698, "train_loss_bc": 0.08975983411073685, "train_loss_llm": 0.2873419523239136, "grad_norm": 0.28454509377479553, "global_step": 1108, "epoch": 4, "lr": 0.009999536676876905}
+{"train_loss": 0.3556789755821228, "train_loss_bc": 0.08121558278799057, "train_loss_llm": 0.27446338534355164, "grad_norm": 0.3295210301876068, "global_step": 1109, "epoch": 4, "lr": 0.009999536676876905}
+{"train_loss": 0.3704584240913391, "train_loss_bc": 0.08551016449928284, "train_loss_llm": 0.2849482595920563, "grad_norm": 0.3054159879684448, "global_step": 1110, "epoch": 4, "lr": 0.009999536676876905}
+{"train_loss": 0.3650308847427368, "train_loss_bc": 0.07360386103391647, "train_loss_llm": 0.29142701625823975, "grad_norm": 0.5818514823913574, "global_step": 1111, "epoch": 4, "lr": 0.009999536676876905}
+{"train_loss": 0.41211187839508057, "train_loss_bc": 0.07859346270561218, "train_loss_llm": 0.3335184156894684, "grad_norm": 0.6912001967430115, "global_step": 1112, "epoch": 4, "lr": 0.009999529465843511}
+{"train_loss": 0.41424521803855896, "train_loss_bc": 0.07590150833129883, "train_loss_llm": 0.33834370970726013, "grad_norm": 0.049398183822631836, "global_step": 1113, "epoch": 4, "lr": 0.009999529465843511}
+{"train_loss": 0.3837934732437134, "train_loss_bc": 0.08659330755472183, "train_loss_llm": 0.29720017313957214, "grad_norm": 0.20481476187705994, "global_step": 1114, "epoch": 4, "lr": 0.009999529465843511}
+{"train_loss": 0.38875073194503784, "train_loss_bc": 0.08095903694629669, "train_loss_llm": 0.30779168009757996, "grad_norm": 0.20290973782539368, "global_step": 1115, "epoch": 4, "lr": 0.009999529465843511}
+{"train_loss": 0.39955902099609375, "train_loss_bc": 0.07429248094558716, "train_loss_llm": 0.3252665400505066, "grad_norm": 0.4194190204143524, "global_step": 1116, "epoch": 4, "lr": 0.009999529465843511}
+{"train_loss": 0.41314780712127686, "train_loss_bc": 0.07547499984502792, "train_loss_llm": 0.33767279982566833, "grad_norm": 0.4759710133075714, "global_step": 1117, "epoch": 4, "lr": 0.009999529465843511}
+{"train_loss": 0.41647928953170776, "train_loss_bc": 0.07971717417240143, "train_loss_llm": 0.33676210045814514, "grad_norm": 0.5170549750328064, "global_step": 1118, "epoch": 4, "lr": 0.009999529465843511}
+{"train_loss": 0.31815293431282043, "train_loss_bc": 0.055338628590106964, "train_loss_llm": 0.26281431317329407, "grad_norm": 0.5943654179573059, "global_step": 1119, "epoch": 4, "lr": 0.009999529465843511}
+{"train_loss": 0.3964637517929077, "train_loss_bc": 0.08686327189207077, "train_loss_llm": 0.30960047245025635, "grad_norm": 0.6537874341011047, "global_step": 1120, "epoch": 4, "lr": 0.00999952219912997}
+{"train_loss": 0.4161514937877655, "train_loss_bc": 0.06672386080026627, "train_loss_llm": 0.34942764043807983, "grad_norm": 0.028890790417790413, "global_step": 1121, "epoch": 4, "lr": 0.00999952219912997}
+{"train_loss": 0.3794907331466675, "train_loss_bc": 0.06923176348209381, "train_loss_llm": 0.3102589547634125, "grad_norm": 0.17231068015098572, "global_step": 1122, "epoch": 4, "lr": 0.00999952219912997}
+{"train_loss": 0.4138950705528259, "train_loss_bc": 0.07963258028030396, "train_loss_llm": 0.334262490272522, "grad_norm": 0.22187910974025726, "global_step": 1123, "epoch": 4, "lr": 0.00999952219912997}
+{"train_loss": 0.37087127566337585, "train_loss_bc": 0.0618627667427063, "train_loss_llm": 0.30900850892066956, "grad_norm": 0.4479973614215851, "global_step": 1124, "epoch": 4, "lr": 0.00999952219912997}
+{"train_loss": 0.3556194305419922, "train_loss_bc": 0.07722554355859756, "train_loss_llm": 0.2783938944339752, "grad_norm": 0.537968635559082, "global_step": 1125, "epoch": 4, "lr": 0.00999952219912997}
+{"train_loss": 0.39824944734573364, "train_loss_bc": 0.07003582268953323, "train_loss_llm": 0.328213632106781, "grad_norm": 0.6897768378257751, "global_step": 1126, "epoch": 4, "lr": 0.00999952219912997}
+{"train_loss": 0.47801268100738525, "train_loss_bc": 0.08420903980731964, "train_loss_llm": 0.3938036561012268, "grad_norm": 0.7441295981407166, "global_step": 1127, "epoch": 4, "lr": 0.00999952219912997}
+{"train_loss": 0.3902316689491272, "train_loss_bc": 0.06571508944034576, "train_loss_llm": 0.32451656460762024, "grad_norm": 0.9841683506965637, "global_step": 1128, "epoch": 4, "lr": 0.00999951487673636}
+{"train_loss": 0.4346120357513428, "train_loss_bc": 0.06669029593467712, "train_loss_llm": 0.36792173981666565, "grad_norm": 0.12965704500675201, "global_step": 1129, "epoch": 4, "lr": 0.00999951487673636}
+{"train_loss": 0.4046020209789276, "train_loss_bc": 0.07221323251724243, "train_loss_llm": 0.3323887884616852, "grad_norm": 0.1738778054714203, "global_step": 1130, "epoch": 4, "lr": 0.00999951487673636}
+{"train_loss": 0.3849533796310425, "train_loss_bc": 0.067366823554039, "train_loss_llm": 0.3175865709781647, "grad_norm": 0.20415647327899933, "global_step": 1131, "epoch": 4, "lr": 0.00999951487673636}
+{"train_loss": 0.36820560693740845, "train_loss_bc": 0.06191212683916092, "train_loss_llm": 0.3062934875488281, "grad_norm": 0.2623322010040283, "global_step": 1132, "epoch": 4, "lr": 0.00999951487673636}
+{"train_loss": 0.43810102343559265, "train_loss_bc": 0.0701228454709053, "train_loss_llm": 0.36797818541526794, "grad_norm": 0.25778496265411377, "global_step": 1133, "epoch": 4, "lr": 0.00999951487673636}
+{"train_loss": 0.34527653455734253, "train_loss_bc": 0.055749356746673584, "train_loss_llm": 0.28952717781066895, "grad_norm": 0.27931296825408936, "global_step": 1134, "epoch": 4, "lr": 0.00999951487673636}
+{"train_loss": 0.3970331847667694, "train_loss_bc": 0.06676461547613144, "train_loss_llm": 0.3302685618400574, "grad_norm": 0.3657947778701782, "global_step": 1135, "epoch": 4, "lr": 0.00999951487673636}
+{"train_loss": 0.42815038561820984, "train_loss_bc": 0.08488588780164719, "train_loss_llm": 0.34326449036598206, "grad_norm": 0.44596222043037415, "global_step": 1136, "epoch": 4, "lr": 0.009999507498662765}
+{"train_loss": 0.4129917323589325, "train_loss_bc": 0.07281575351953506, "train_loss_llm": 0.340175986289978, "grad_norm": 0.04923337697982788, "global_step": 1137, "epoch": 4, "lr": 0.009999507498662765}
+{"train_loss": 0.3603048622608185, "train_loss_bc": 0.051634013652801514, "train_loss_llm": 0.30867084860801697, "grad_norm": 0.09411152452230453, "global_step": 1138, "epoch": 4, "lr": 0.009999507498662765}
+{"train_loss": 0.39771518111228943, "train_loss_bc": 0.07589882612228394, "train_loss_llm": 0.3218163549900055, "grad_norm": 0.1525518000125885, "global_step": 1139, "epoch": 4, "lr": 0.009999507498662765}
+{"train_loss": 0.3542385697364807, "train_loss_bc": 0.06098748743534088, "train_loss_llm": 0.293251097202301, "grad_norm": 0.17215915024280548, "global_step": 1140, "epoch": 4, "lr": 0.009999507498662765}
+{"train_loss": 0.3585309684276581, "train_loss_bc": 0.06699598580598831, "train_loss_llm": 0.29153499007225037, "grad_norm": 0.48236268758773804, "global_step": 1141, "epoch": 4, "lr": 0.009999507498662765}
+{"train_loss": 0.38295117020606995, "train_loss_bc": 0.06184167042374611, "train_loss_llm": 0.32110950350761414, "grad_norm": 0.5545852184295654, "global_step": 1142, "epoch": 4, "lr": 0.009999507498662765}
+{"train_loss": 0.41110408306121826, "train_loss_bc": 0.07251480221748352, "train_loss_llm": 0.33858928084373474, "grad_norm": 0.588934600353241, "global_step": 1143, "epoch": 4, "lr": 0.009999507498662765}
+{"train_loss": 0.3432080149650574, "train_loss_bc": 0.05585198849439621, "train_loss_llm": 0.28735601902008057, "grad_norm": 0.6300132870674133, "global_step": 1144, "epoch": 4, "lr": 0.009999500064909265}
+{"train_loss": 0.3858969509601593, "train_loss_bc": 0.08129768818616867, "train_loss_llm": 0.30459925532341003, "grad_norm": 0.062042441219091415, "global_step": 1145, "epoch": 4, "lr": 0.009999500064909265}
+{"train_loss": 0.3548205494880676, "train_loss_bc": 0.06104777753353119, "train_loss_llm": 0.29377275705337524, "grad_norm": 0.18291650712490082, "global_step": 1146, "epoch": 4, "lr": 0.009999500064909265}
+{"train_loss": 0.40582868456840515, "train_loss_bc": 0.06910184770822525, "train_loss_llm": 0.3367268443107605, "grad_norm": 0.2245234251022339, "global_step": 1147, "epoch": 4, "lr": 0.009999500064909265}
+{"train_loss": 0.37664443254470825, "train_loss_bc": 0.0778462365269661, "train_loss_llm": 0.29879820346832275, "grad_norm": 0.28406384587287903, "global_step": 1148, "epoch": 4, "lr": 0.009999500064909265}
+{"train_loss": 0.3417024612426758, "train_loss_bc": 0.06612969189882278, "train_loss_llm": 0.2755727767944336, "grad_norm": 0.42899322509765625, "global_step": 1149, "epoch": 4, "lr": 0.009999500064909265}
+{"train_loss": 0.3362075090408325, "train_loss_bc": 0.06372377276420593, "train_loss_llm": 0.2724837362766266, "grad_norm": 0.5383444428443909, "global_step": 1150, "epoch": 4, "lr": 0.009999500064909265}
+{"train_loss": 0.368997186422348, "train_loss_bc": 0.08537697792053223, "train_loss_llm": 0.2836202085018158, "grad_norm": 0.514715850353241, "global_step": 1151, "epoch": 4, "lr": 0.009999500064909265}
+{"train_loss": 0.39277487993240356, "train_loss_bc": 0.06976576894521713, "train_loss_llm": 0.32300910353660583, "grad_norm": 0.5108054280281067, "global_step": 1152, "epoch": 4, "lr": 0.009999492575475943}
+{"train_loss": 0.42372843623161316, "train_loss_bc": 0.07869669795036316, "train_loss_llm": 0.34503173828125, "grad_norm": 0.08062661439180374, "global_step": 1153, "epoch": 4, "lr": 0.009999492575475943}
+{"train_loss": 0.4142807722091675, "train_loss_bc": 0.07064501941204071, "train_loss_llm": 0.34363576769828796, "grad_norm": 0.1459723562002182, "global_step": 1154, "epoch": 4, "lr": 0.009999492575475943}
+{"train_loss": 0.40615183115005493, "train_loss_bc": 0.07766176760196686, "train_loss_llm": 0.32849007844924927, "grad_norm": 0.16806544363498688, "global_step": 1155, "epoch": 4, "lr": 0.009999492575475943}
+{"train_loss": 0.4024524390697479, "train_loss_bc": 0.06957864761352539, "train_loss_llm": 0.33287379145622253, "grad_norm": 0.19057375192642212, "global_step": 1156, "epoch": 4, "lr": 0.009999492575475943}
+{"train_loss": 0.346679151058197, "train_loss_bc": 0.05511648207902908, "train_loss_llm": 0.29156267642974854, "grad_norm": 0.23480825126171112, "global_step": 1157, "epoch": 4, "lr": 0.009999492575475943}
+{"train_loss": 0.31114935874938965, "train_loss_bc": 0.06881239265203476, "train_loss_llm": 0.2423369586467743, "grad_norm": 0.29719069600105286, "global_step": 1158, "epoch": 4, "lr": 0.009999492575475943}
+{"train_loss": 0.40564408898353577, "train_loss_bc": 0.06697406619787216, "train_loss_llm": 0.338670015335083, "grad_norm": 0.3748111128807068, "global_step": 1159, "epoch": 4, "lr": 0.009999492575475943}
+{"train_loss": 0.4133382737636566, "train_loss_bc": 0.06382457166910172, "train_loss_llm": 0.3495137095451355, "grad_norm": 0.42615047097206116, "global_step": 1160, "epoch": 4, "lr": 0.009999485030362886}
+{"train_loss": 0.4310733377933502, "train_loss_bc": 0.07825600355863571, "train_loss_llm": 0.3528173267841339, "grad_norm": 0.09043508023023605, "global_step": 1161, "epoch": 4, "lr": 0.009999485030362886}
+{"train_loss": 0.38166099786758423, "train_loss_bc": 0.07051894068717957, "train_loss_llm": 0.31114205718040466, "grad_norm": 0.16054750978946686, "global_step": 1162, "epoch": 4, "lr": 0.009999485030362886}
+{"train_loss": 0.37662750482559204, "train_loss_bc": 0.07169234752655029, "train_loss_llm": 0.30493515729904175, "grad_norm": 0.15167540311813354, "global_step": 1163, "epoch": 4, "lr": 0.009999485030362886}
+{"train_loss": 0.31069934368133545, "train_loss_bc": 0.0665917918086052, "train_loss_llm": 0.24410754442214966, "grad_norm": 0.1966121941804886, "global_step": 1164, "epoch": 4, "lr": 0.009999485030362886}
+{"train_loss": 0.4072870910167694, "train_loss_bc": 0.0732235312461853, "train_loss_llm": 0.3340635597705841, "grad_norm": 0.348775714635849, "global_step": 1165, "epoch": 4, "lr": 0.009999485030362886}
+{"train_loss": 0.40397635102272034, "train_loss_bc": 0.056795280426740646, "train_loss_llm": 0.3471810817718506, "grad_norm": 0.4581236243247986, "global_step": 1166, "epoch": 4, "lr": 0.009999485030362886}
+{"train_loss": 0.3671324849128723, "train_loss_bc": 0.07090996205806732, "train_loss_llm": 0.2962225377559662, "grad_norm": 0.5196312665939331, "global_step": 1167, "epoch": 4, "lr": 0.009999485030362886}
+{"train_loss": 0.4128756523132324, "train_loss_bc": 0.06729860603809357, "train_loss_llm": 0.34557706117630005, "grad_norm": 0.6330803036689758, "global_step": 1168, "epoch": 4, "lr": 0.009999477429570174}
+{"train_loss": 0.39958441257476807, "train_loss_bc": 0.08098794519901276, "train_loss_llm": 0.3185964822769165, "grad_norm": 0.125691756606102, "global_step": 1169, "epoch": 4, "lr": 0.009999477429570174}
+{"train_loss": 0.41768038272857666, "train_loss_bc": 0.06826753914356232, "train_loss_llm": 0.34941285848617554, "grad_norm": 0.22154532372951508, "global_step": 1170, "epoch": 4, "lr": 0.009999477429570174}
+{"train_loss": 0.41184765100479126, "train_loss_bc": 0.07806463539600372, "train_loss_llm": 0.33378303050994873, "grad_norm": 0.2551923096179962, "global_step": 1171, "epoch": 4, "lr": 0.009999477429570174}
+{"train_loss": 0.312800794839859, "train_loss_bc": 0.059681475162506104, "train_loss_llm": 0.2531193196773529, "grad_norm": 0.31370678544044495, "global_step": 1172, "epoch": 4, "lr": 0.009999477429570174}
+{"train_loss": 0.384941041469574, "train_loss_bc": 0.07500408589839935, "train_loss_llm": 0.3099369406700134, "grad_norm": 0.39137694239616394, "global_step": 1173, "epoch": 4, "lr": 0.009999477429570174}
+{"train_loss": 0.3346687853336334, "train_loss_bc": 0.05507836490869522, "train_loss_llm": 0.2795904278755188, "grad_norm": 0.5466123223304749, "global_step": 1174, "epoch": 4, "lr": 0.009999477429570174}
+{"train_loss": 0.37857678532600403, "train_loss_bc": 0.06632673740386963, "train_loss_llm": 0.3122500479221344, "grad_norm": 0.6829107999801636, "global_step": 1175, "epoch": 4, "lr": 0.009999477429570174}
+{"train_loss": 0.3831574618816376, "train_loss_bc": 0.07451682537794113, "train_loss_llm": 0.30864062905311584, "grad_norm": 0.7608582377433777, "global_step": 1176, "epoch": 4, "lr": 0.009999469773097893}
+{"train_loss": 0.373410701751709, "train_loss_bc": 0.08793257921934128, "train_loss_llm": 0.2854781150817871, "grad_norm": 0.12315893173217773, "global_step": 1177, "epoch": 4, "lr": 0.009999469773097893}
+{"train_loss": 0.41190633177757263, "train_loss_bc": 0.06910976767539978, "train_loss_llm": 0.34279656410217285, "grad_norm": 0.16811662912368774, "global_step": 1178, "epoch": 4, "lr": 0.009999469773097893}
+{"train_loss": 0.3936510384082794, "train_loss_bc": 0.09693313390016556, "train_loss_llm": 0.29671791195869446, "grad_norm": 0.3718840479850769, "global_step": 1179, "epoch": 4, "lr": 0.009999469773097893}
+{"train_loss": 0.3826850950717926, "train_loss_bc": 0.09629377722740173, "train_loss_llm": 0.28639131784439087, "grad_norm": 0.4753416180610657, "global_step": 1180, "epoch": 4, "lr": 0.009999469773097893}
+{"train_loss": 0.3721667528152466, "train_loss_bc": 0.08879618346691132, "train_loss_llm": 0.2833705544471741, "grad_norm": 0.5686862468719482, "global_step": 1181, "epoch": 4, "lr": 0.009999469773097893}
+{"train_loss": 0.42539137601852417, "train_loss_bc": 0.09303176403045654, "train_loss_llm": 0.3323596119880676, "grad_norm": 0.7072955965995789, "global_step": 1182, "epoch": 4, "lr": 0.009999469773097893}
+{"train_loss": 0.3593997359275818, "train_loss_bc": 0.08810532093048096, "train_loss_llm": 0.27129441499710083, "grad_norm": 0.8616524934768677, "global_step": 1183, "epoch": 4, "lr": 0.009999469773097893}
+{"train_loss": 0.3921026885509491, "train_loss_bc": 0.09844381362199783, "train_loss_llm": 0.29365888237953186, "grad_norm": 0.8841583728790283, "global_step": 1184, "epoch": 4, "lr": 0.009999462060946129}
+{"train_loss": 0.35025495290756226, "train_loss_bc": 0.08766241371631622, "train_loss_llm": 0.2625925540924072, "grad_norm": 0.16175925731658936, "global_step": 1185, "epoch": 4, "lr": 0.009999462060946129}
+{"train_loss": 0.3330070376396179, "train_loss_bc": 0.08821748197078705, "train_loss_llm": 0.24478957056999207, "grad_norm": 0.31178349256515503, "global_step": 1186, "epoch": 4, "lr": 0.009999462060946129}
+{"train_loss": 0.4145607352256775, "train_loss_bc": 0.08373324573040009, "train_loss_llm": 0.3308275043964386, "grad_norm": 0.3518746793270111, "global_step": 1187, "epoch": 4, "lr": 0.009999462060946129}
+{"train_loss": 0.3813832700252533, "train_loss_bc": 0.07893076539039612, "train_loss_llm": 0.3024525046348572, "grad_norm": 0.5344591736793518, "global_step": 1188, "epoch": 4, "lr": 0.009999462060946129}
+{"train_loss": 0.39834372010551583, "train_loss_bc": 0.08815010637044907, "train_loss_llm": 0.33019259572029114, "grad_norm": 0.5699349045753479, "global_step": 1189, "epoch": 4, "lr": 0.009999462060946129, "val_loss": 0.3862874209880829}
+{"train_loss": 0.44142332673072815, "train_loss_bc": 0.09426793456077576, "train_loss_llm": 0.3471553921699524, "grad_norm": 0.7150334119796753, "global_step": 1190, "epoch": 5, "lr": 0.009999462060946129}
+{"train_loss": 0.36890077590942383, "train_loss_bc": 0.08448545634746552, "train_loss_llm": 0.2844153046607971, "grad_norm": 0.8187453150749207, "global_step": 1191, "epoch": 5, "lr": 0.009999462060946129}
+{"train_loss": 0.3435814082622528, "train_loss_bc": 0.0782431960105896, "train_loss_llm": 0.2653382122516632, "grad_norm": 0.9929426908493042, "global_step": 1192, "epoch": 5, "lr": 0.009999454293114966}
+{"train_loss": 0.3654264211654663, "train_loss_bc": 0.07525201141834259, "train_loss_llm": 0.2901743948459625, "grad_norm": 0.13457363843917847, "global_step": 1193, "epoch": 5, "lr": 0.009999454293114966}
+{"train_loss": 0.34007716178894043, "train_loss_bc": 0.08467720448970795, "train_loss_llm": 0.2553999722003937, "grad_norm": 0.12728188931941986, "global_step": 1194, "epoch": 5, "lr": 0.009999454293114966}
+{"train_loss": 0.3897826075553894, "train_loss_bc": 0.0821896493434906, "train_loss_llm": 0.3075929582118988, "grad_norm": 0.16195057332515717, "global_step": 1195, "epoch": 5, "lr": 0.009999454293114966}
+{"train_loss": 0.42113423347473145, "train_loss_bc": 0.08963643014431, "train_loss_llm": 0.33149778842926025, "grad_norm": 0.2520240247249603, "global_step": 1196, "epoch": 5, "lr": 0.009999454293114966}
+{"train_loss": 0.35654234886169434, "train_loss_bc": 0.07889415323734283, "train_loss_llm": 0.2776481807231903, "grad_norm": 0.3310949504375458, "global_step": 1197, "epoch": 5, "lr": 0.009999454293114966}
+{"train_loss": 0.4084455668926239, "train_loss_bc": 0.08676787465810776, "train_loss_llm": 0.32167768478393555, "grad_norm": 0.34920376539230347, "global_step": 1198, "epoch": 5, "lr": 0.009999454293114966}
+{"train_loss": 0.3569125533103943, "train_loss_bc": 0.08769337832927704, "train_loss_llm": 0.26921918988227844, "grad_norm": 0.4897533655166626, "global_step": 1199, "epoch": 5, "lr": 0.009999454293114966}
+{"train_loss": 0.3512067198753357, "train_loss_bc": 0.09656874090433121, "train_loss_llm": 0.2546379864215851, "grad_norm": 0.6122066974639893, "global_step": 1200, "epoch": 5, "lr": 0.009999446469604491}
+{"train_loss": 0.4043961763381958, "train_loss_bc": 0.07580970227718353, "train_loss_llm": 0.32858648896217346, "grad_norm": 0.05079870671033859, "global_step": 1201, "epoch": 5, "lr": 0.009999446469604491}
+{"train_loss": 0.41981327533721924, "train_loss_bc": 0.07851120084524155, "train_loss_llm": 0.3413020670413971, "grad_norm": 0.17416571080684662, "global_step": 1202, "epoch": 5, "lr": 0.009999446469604491}
+{"train_loss": 0.3904315233230591, "train_loss_bc": 0.07516682147979736, "train_loss_llm": 0.3152647018432617, "grad_norm": 0.29526397585868835, "global_step": 1203, "epoch": 5, "lr": 0.009999446469604491}
+{"train_loss": 0.3812353014945984, "train_loss_bc": 0.08394963294267654, "train_loss_llm": 0.29728567600250244, "grad_norm": 0.448381245136261, "global_step": 1204, "epoch": 5, "lr": 0.009999446469604491}
+{"train_loss": 0.38355517387390137, "train_loss_bc": 0.07421623170375824, "train_loss_llm": 0.30933892726898193, "grad_norm": 0.45794248580932617, "global_step": 1205, "epoch": 5, "lr": 0.009999446469604491}
+{"train_loss": 0.4220442771911621, "train_loss_bc": 0.08261018991470337, "train_loss_llm": 0.33943408727645874, "grad_norm": 0.6079602837562561, "global_step": 1206, "epoch": 5, "lr": 0.009999446469604491}
+{"train_loss": 0.36034128069877625, "train_loss_bc": 0.07295656949281693, "train_loss_llm": 0.2873847186565399, "grad_norm": 0.6889204382896423, "global_step": 1207, "epoch": 5, "lr": 0.009999446469604491}
+{"train_loss": 0.35702627897262573, "train_loss_bc": 0.07439647614955902, "train_loss_llm": 0.2826298177242279, "grad_norm": 0.7573314309120178, "global_step": 1208, "epoch": 5, "lr": 0.009999438590414795}
+{"train_loss": 0.4382562041282654, "train_loss_bc": 0.0710258036851883, "train_loss_llm": 0.3672303855419159, "grad_norm": 0.28009504079818726, "global_step": 1209, "epoch": 5, "lr": 0.009999438590414795}
+{"train_loss": 0.42320963740348816, "train_loss_bc": 0.0560586079955101, "train_loss_llm": 0.36715102195739746, "grad_norm": 0.2825331687927246, "global_step": 1210, "epoch": 5, "lr": 0.009999438590414795}
+{"train_loss": 0.35425424575805664, "train_loss_bc": 0.05337937921285629, "train_loss_llm": 0.30087485909461975, "grad_norm": 0.4437119662761688, "global_step": 1211, "epoch": 5, "lr": 0.009999438590414795}
+{"train_loss": 0.402805358171463, "train_loss_bc": 0.0684581995010376, "train_loss_llm": 0.3343471586704254, "grad_norm": 0.5277477502822876, "global_step": 1212, "epoch": 5, "lr": 0.009999438590414795}
+{"train_loss": 0.3349175751209259, "train_loss_bc": 0.06947874277830124, "train_loss_llm": 0.26543882489204407, "grad_norm": 0.5542382001876831, "global_step": 1213, "epoch": 5, "lr": 0.009999438590414795}
+{"train_loss": 0.43138208985328674, "train_loss_bc": 0.07485716789960861, "train_loss_llm": 0.35652491450309753, "grad_norm": 0.6620912551879883, "global_step": 1214, "epoch": 5, "lr": 0.009999438590414795}
+{"train_loss": 0.40251582860946655, "train_loss_bc": 0.05383547395467758, "train_loss_llm": 0.3486803472042084, "grad_norm": 0.921963095664978, "global_step": 1215, "epoch": 5, "lr": 0.009999438590414795}
+{"train_loss": 0.43186062574386597, "train_loss_bc": 0.06388528645038605, "train_loss_llm": 0.3679753541946411, "grad_norm": 1.1376229524612427, "global_step": 1216, "epoch": 5, "lr": 0.00999943065554596}
+{"train_loss": 0.40157681703567505, "train_loss_bc": 0.07371258735656738, "train_loss_llm": 0.32786422967910767, "grad_norm": 0.3025626838207245, "global_step": 1217, "epoch": 5, "lr": 0.00999943065554596}
+{"train_loss": 0.33330056071281433, "train_loss_bc": 0.051752008497714996, "train_loss_llm": 0.28154855966567993, "grad_norm": 0.49364107847213745, "global_step": 1218, "epoch": 5, "lr": 0.00999943065554596}
+{"train_loss": 0.31999412178993225, "train_loss_bc": 0.07574895769357681, "train_loss_llm": 0.24424517154693604, "grad_norm": 0.5477727651596069, "global_step": 1219, "epoch": 5, "lr": 0.00999943065554596}
+{"train_loss": 0.38501718640327454, "train_loss_bc": 0.05486214905977249, "train_loss_llm": 0.33015504479408264, "grad_norm": 0.6053773164749146, "global_step": 1220, "epoch": 5, "lr": 0.00999943065554596}
+{"train_loss": 0.36694538593292236, "train_loss_bc": 0.06383496522903442, "train_loss_llm": 0.30311042070388794, "grad_norm": 0.7580680847167969, "global_step": 1221, "epoch": 5, "lr": 0.00999943065554596}
+{"train_loss": 0.4003937840461731, "train_loss_bc": 0.078592449426651, "train_loss_llm": 0.3218013346195221, "grad_norm": 0.8191909193992615, "global_step": 1222, "epoch": 5, "lr": 0.00999943065554596}
+{"train_loss": 0.4233219027519226, "train_loss_bc": 0.07404686510562897, "train_loss_llm": 0.34927505254745483, "grad_norm": 0.8172193169593811, "global_step": 1223, "epoch": 5, "lr": 0.00999943065554596}
+{"train_loss": 0.40012896060943604, "train_loss_bc": 0.06773336231708527, "train_loss_llm": 0.33239561319351196, "grad_norm": 1.042494773864746, "global_step": 1224, "epoch": 5, "lr": 0.009999422664998077}
+{"train_loss": 0.37599697709083557, "train_loss_bc": 0.06614866107702255, "train_loss_llm": 0.3098483085632324, "grad_norm": 0.23112066090106964, "global_step": 1225, "epoch": 5, "lr": 0.009999422664998077}
+{"train_loss": 0.38688501715660095, "train_loss_bc": 0.06933015584945679, "train_loss_llm": 0.31755486130714417, "grad_norm": 0.17424429953098297, "global_step": 1226, "epoch": 5, "lr": 0.009999422664998077}
+{"train_loss": 0.4197278916835785, "train_loss_bc": 0.08511137962341309, "train_loss_llm": 0.3346165120601654, "grad_norm": 0.22407962381839752, "global_step": 1227, "epoch": 5, "lr": 0.009999422664998077}
+{"train_loss": 0.38674336671829224, "train_loss_bc": 0.07924167811870575, "train_loss_llm": 0.3075016736984253, "grad_norm": 0.2882550358772278, "global_step": 1228, "epoch": 5, "lr": 0.009999422664998077}
+{"train_loss": 0.35487061738967896, "train_loss_bc": 0.055957306176424026, "train_loss_llm": 0.29891330003738403, "grad_norm": 0.32645297050476074, "global_step": 1229, "epoch": 5, "lr": 0.009999422664998077}
+{"train_loss": 0.39504164457321167, "train_loss_bc": 0.07194988429546356, "train_loss_llm": 0.3230917453765869, "grad_norm": 0.3446570932865143, "global_step": 1230, "epoch": 5, "lr": 0.009999422664998077}
+{"train_loss": 0.371980220079422, "train_loss_bc": 0.08621782064437866, "train_loss_llm": 0.28576239943504333, "grad_norm": 0.38980886340141296, "global_step": 1231, "epoch": 5, "lr": 0.009999422664998077}
+{"train_loss": 0.4004095196723938, "train_loss_bc": 0.08424302935600281, "train_loss_llm": 0.316166490316391, "grad_norm": 0.35985267162323, "global_step": 1232, "epoch": 5, "lr": 0.009999414618771236}
+{"train_loss": 0.4184785485267639, "train_loss_bc": 0.0762898400425911, "train_loss_llm": 0.3421887159347534, "grad_norm": 0.06983260810375214, "global_step": 1233, "epoch": 5, "lr": 0.009999414618771236}
+{"train_loss": 0.4053935706615448, "train_loss_bc": 0.07522044330835342, "train_loss_llm": 0.330173134803772, "grad_norm": 0.18036457896232605, "global_step": 1234, "epoch": 5, "lr": 0.009999414618771236}
+{"train_loss": 0.3984895944595337, "train_loss_bc": 0.08093810081481934, "train_loss_llm": 0.31755149364471436, "grad_norm": 0.2012374997138977, "global_step": 1235, "epoch": 5, "lr": 0.009999414618771236}
+{"train_loss": 0.36540475487709045, "train_loss_bc": 0.07629283517599106, "train_loss_llm": 0.2891119122505188, "grad_norm": 0.2882973849773407, "global_step": 1236, "epoch": 5, "lr": 0.009999414618771236}
+{"train_loss": 0.3661792278289795, "train_loss_bc": 0.08901719748973846, "train_loss_llm": 0.27716201543807983, "grad_norm": 0.3340485095977783, "global_step": 1237, "epoch": 5, "lr": 0.009999414618771236}
+{"train_loss": 0.39243167638778687, "train_loss_bc": 0.08738072216510773, "train_loss_llm": 0.30505093932151794, "grad_norm": 0.37098780274391174, "global_step": 1238, "epoch": 5, "lr": 0.009999414618771236}
+{"train_loss": 0.4199190139770508, "train_loss_bc": 0.07356474548578262, "train_loss_llm": 0.34635427594184875, "grad_norm": 0.3497443199157715, "global_step": 1239, "epoch": 5, "lr": 0.009999414618771236}
+{"train_loss": 0.41843563318252563, "train_loss_bc": 0.08405642211437225, "train_loss_llm": 0.3343791961669922, "grad_norm": 0.4590156078338623, "global_step": 1240, "epoch": 5, "lr": 0.009999406516865525}
+{"train_loss": 0.32540014386177063, "train_loss_bc": 0.06835383176803589, "train_loss_llm": 0.25704631209373474, "grad_norm": 0.09209434688091278, "global_step": 1241, "epoch": 5, "lr": 0.009999406516865525}
+{"train_loss": 0.3175235390663147, "train_loss_bc": 0.07381720840930939, "train_loss_llm": 0.24370631575584412, "grad_norm": 0.3805776536464691, "global_step": 1242, "epoch": 5, "lr": 0.009999406516865525}
+{"train_loss": 0.35971391201019287, "train_loss_bc": 0.07461433112621307, "train_loss_llm": 0.2850995659828186, "grad_norm": 0.4662376940250397, "global_step": 1243, "epoch": 5, "lr": 0.009999406516865525}
+{"train_loss": 0.3980724513530731, "train_loss_bc": 0.0810520276427269, "train_loss_llm": 0.3170204162597656, "grad_norm": 0.5615415573120117, "global_step": 1244, "epoch": 5, "lr": 0.009999406516865525}
+{"train_loss": 0.31861257553100586, "train_loss_bc": 0.07133639603853226, "train_loss_llm": 0.2472761869430542, "grad_norm": 0.7577903866767883, "global_step": 1245, "epoch": 5, "lr": 0.009999406516865525}
+{"train_loss": 0.3532654345035553, "train_loss_bc": 0.07570723444223404, "train_loss_llm": 0.27755820751190186, "grad_norm": 0.7006781697273254, "global_step": 1246, "epoch": 5, "lr": 0.009999406516865525}
+{"train_loss": 0.4499465823173523, "train_loss_bc": 0.07303695380687714, "train_loss_llm": 0.37690961360931396, "grad_norm": 0.8312017917633057, "global_step": 1247, "epoch": 5, "lr": 0.009999406516865525}
+{"train_loss": 0.40092262625694275, "train_loss_bc": 0.07253599166870117, "train_loss_llm": 0.3283866345882416, "grad_norm": 0.8983598351478577, "global_step": 1248, "epoch": 5, "lr": 0.009999398359281033}
+{"train_loss": 0.3922184407711029, "train_loss_bc": 0.08515150099992752, "train_loss_llm": 0.307066947221756, "grad_norm": 0.07262931764125824, "global_step": 1249, "epoch": 5, "lr": 0.009999398359281033}
+{"train_loss": 0.4012730121612549, "train_loss_bc": 0.07861430943012238, "train_loss_llm": 0.3226587176322937, "grad_norm": 0.11284437775611877, "global_step": 1250, "epoch": 5, "lr": 0.009999398359281033}
+{"train_loss": 0.3812474012374878, "train_loss_bc": 0.07724464684724808, "train_loss_llm": 0.3040027618408203, "grad_norm": 0.1690259873867035, "global_step": 1251, "epoch": 5, "lr": 0.009999398359281033}
+{"train_loss": 0.39394691586494446, "train_loss_bc": 0.06376639008522034, "train_loss_llm": 0.3301805257797241, "grad_norm": 0.28547680377960205, "global_step": 1252, "epoch": 5, "lr": 0.009999398359281033}
+{"train_loss": 0.3894708752632141, "train_loss_bc": 0.07852624356746674, "train_loss_llm": 0.31094464659690857, "grad_norm": 0.39647093415260315, "global_step": 1253, "epoch": 5, "lr": 0.009999398359281033}
+{"train_loss": 0.35957449674606323, "train_loss_bc": 0.06959351152181625, "train_loss_llm": 0.2899809777736664, "grad_norm": 0.5558651089668274, "global_step": 1254, "epoch": 5, "lr": 0.009999398359281033}
+{"train_loss": 0.37836503982543945, "train_loss_bc": 0.05672697722911835, "train_loss_llm": 0.3216380476951599, "grad_norm": 0.6604971289634705, "global_step": 1255, "epoch": 5, "lr": 0.009999398359281033}
+{"train_loss": 0.3774338960647583, "train_loss_bc": 0.07299406081438065, "train_loss_llm": 0.30443984270095825, "grad_norm": 0.7869863510131836, "global_step": 1256, "epoch": 5, "lr": 0.009999390146017854}
+{"train_loss": 0.37922602891921997, "train_loss_bc": 0.05518881604075432, "train_loss_llm": 0.32403722405433655, "grad_norm": 0.07365355640649796, "global_step": 1257, "epoch": 5, "lr": 0.009999390146017854}
+{"train_loss": 0.3451153635978699, "train_loss_bc": 0.06475265324115753, "train_loss_llm": 0.28036269545555115, "grad_norm": 0.1864345818758011, "global_step": 1258, "epoch": 5, "lr": 0.009999390146017854}
+{"train_loss": 0.33828848600387573, "train_loss_bc": 0.07170061767101288, "train_loss_llm": 0.26658788323402405, "grad_norm": 0.15746241807937622, "global_step": 1259, "epoch": 5, "lr": 0.009999390146017854}
+{"train_loss": 0.41498905420303345, "train_loss_bc": 0.07672835886478424, "train_loss_llm": 0.338260680437088, "grad_norm": 0.1906963437795639, "global_step": 1260, "epoch": 5, "lr": 0.009999390146017854}
+{"train_loss": 0.32176291942596436, "train_loss_bc": 0.05484028160572052, "train_loss_llm": 0.26692265272140503, "grad_norm": 0.26023831963539124, "global_step": 1261, "epoch": 5, "lr": 0.009999390146017854}
+{"train_loss": 0.39955949783325195, "train_loss_bc": 0.0704704076051712, "train_loss_llm": 0.32908907532691956, "grad_norm": 0.3360167145729065, "global_step": 1262, "epoch": 5, "lr": 0.009999390146017854}
+{"train_loss": 0.359738290309906, "train_loss_bc": 0.07965565472841263, "train_loss_llm": 0.280082643032074, "grad_norm": 0.3362085521221161, "global_step": 1263, "epoch": 5, "lr": 0.009999390146017854}
+{"train_loss": 0.4113982915878296, "train_loss_bc": 0.06259466707706451, "train_loss_llm": 0.34880363941192627, "grad_norm": 0.3195131719112396, "global_step": 1264, "epoch": 5, "lr": 0.009999381877076078}
+{"train_loss": 0.38330966234207153, "train_loss_bc": 0.06047670543193817, "train_loss_llm": 0.32283294200897217, "grad_norm": 0.10556165874004364, "global_step": 1265, "epoch": 5, "lr": 0.009999381877076078}
+{"train_loss": 0.42321208119392395, "train_loss_bc": 0.06509657949209213, "train_loss_llm": 0.3581154942512512, "grad_norm": 0.16698066890239716, "global_step": 1266, "epoch": 5, "lr": 0.009999381877076078}
+{"train_loss": 0.4114033281803131, "train_loss_bc": 0.06743618100881577, "train_loss_llm": 0.34396713972091675, "grad_norm": 0.1851794719696045, "global_step": 1267, "epoch": 5, "lr": 0.009999381877076078}
+{"train_loss": 0.33592861890792847, "train_loss_bc": 0.058031097054481506, "train_loss_llm": 0.27789750695228577, "grad_norm": 0.2595731317996979, "global_step": 1268, "epoch": 5, "lr": 0.009999381877076078}
+{"train_loss": 0.36274343729019165, "train_loss_bc": 0.05559580773115158, "train_loss_llm": 0.3071476221084595, "grad_norm": 0.3624609708786011, "global_step": 1269, "epoch": 5, "lr": 0.009999381877076078}
+{"train_loss": 0.4294157326221466, "train_loss_bc": 0.06318671256303787, "train_loss_llm": 0.36622902750968933, "grad_norm": 0.3723922371864319, "global_step": 1270, "epoch": 5, "lr": 0.009999381877076078}
+{"train_loss": 0.3805317282676697, "train_loss_bc": 0.050340138375759125, "train_loss_llm": 0.33019158244132996, "grad_norm": 0.46940848231315613, "global_step": 1271, "epoch": 5, "lr": 0.009999381877076078}
+{"train_loss": 0.42623937129974365, "train_loss_bc": 0.06681893765926361, "train_loss_llm": 0.35942041873931885, "grad_norm": 0.46194571256637573, "global_step": 1272, "epoch": 5, "lr": 0.009999373552455799}
+{"train_loss": 0.40500006079673767, "train_loss_bc": 0.0674273669719696, "train_loss_llm": 0.33757269382476807, "grad_norm": 0.06715166568756104, "global_step": 1273, "epoch": 5, "lr": 0.009999373552455799}
+{"train_loss": 0.34662991762161255, "train_loss_bc": 0.06260107457637787, "train_loss_llm": 0.2840288281440735, "grad_norm": 0.12621867656707764, "global_step": 1274, "epoch": 5, "lr": 0.009999373552455799}
+{"train_loss": 0.36943110823631287, "train_loss_bc": 0.06454535573720932, "train_loss_llm": 0.30488574504852295, "grad_norm": 0.2230449914932251, "global_step": 1275, "epoch": 5, "lr": 0.009999373552455799}
+{"train_loss": 0.3930443525314331, "train_loss_bc": 0.07371889054775238, "train_loss_llm": 0.3193254768848419, "grad_norm": 0.3254086673259735, "global_step": 1276, "epoch": 5, "lr": 0.009999373552455799}
+{"train_loss": 0.3596475422382355, "train_loss_bc": 0.05781850591301918, "train_loss_llm": 0.3018290400505066, "grad_norm": 0.42261141538619995, "global_step": 1277, "epoch": 5, "lr": 0.009999373552455799}
+{"train_loss": 0.36532002687454224, "train_loss_bc": 0.062001004815101624, "train_loss_llm": 0.3033190369606018, "grad_norm": 0.5383293628692627, "global_step": 1278, "epoch": 5, "lr": 0.009999373552455799}
+{"train_loss": 0.3326343297958374, "train_loss_bc": 0.06220399960875511, "train_loss_llm": 0.270430326461792, "grad_norm": 0.6338499784469604, "global_step": 1279, "epoch": 5, "lr": 0.009999373552455799}
+{"train_loss": 0.4099677503108978, "train_loss_bc": 0.06433430314064026, "train_loss_llm": 0.34563344717025757, "grad_norm": 0.7085050940513611, "global_step": 1280, "epoch": 5, "lr": 0.009999365172157106}
+{"train_loss": 0.35182619094848633, "train_loss_bc": 0.06573943048715591, "train_loss_llm": 0.286086767911911, "grad_norm": 0.09505439549684525, "global_step": 1281, "epoch": 5, "lr": 0.009999365172157106}
+{"train_loss": 0.4092906415462494, "train_loss_bc": 0.08378724008798599, "train_loss_llm": 0.325503408908844, "grad_norm": 0.12765607237815857, "global_step": 1282, "epoch": 5, "lr": 0.009999365172157106}
+{"train_loss": 0.3565276265144348, "train_loss_bc": 0.07060467451810837, "train_loss_llm": 0.28592294454574585, "grad_norm": 0.12046250700950623, "global_step": 1283, "epoch": 5, "lr": 0.009999365172157106}
+{"train_loss": 0.3609330654144287, "train_loss_bc": 0.05113193392753601, "train_loss_llm": 0.3098011314868927, "grad_norm": 0.13988837599754333, "global_step": 1284, "epoch": 5, "lr": 0.009999365172157106}
+{"train_loss": 0.3514600992202759, "train_loss_bc": 0.06408439576625824, "train_loss_llm": 0.28737568855285645, "grad_norm": 0.2027307152748108, "global_step": 1285, "epoch": 5, "lr": 0.009999365172157106}
+{"train_loss": 0.41093146800994873, "train_loss_bc": 0.06366636604070663, "train_loss_llm": 0.3472650945186615, "grad_norm": 0.2604207694530487, "global_step": 1286, "epoch": 5, "lr": 0.009999365172157106}
+{"train_loss": 0.3295367956161499, "train_loss_bc": 0.06397765874862671, "train_loss_llm": 0.2655591368675232, "grad_norm": 0.27703607082366943, "global_step": 1287, "epoch": 5, "lr": 0.009999365172157106}
+{"train_loss": 0.2984020709991455, "train_loss_bc": 0.04666118323802948, "train_loss_llm": 0.2517409026622772, "grad_norm": 0.2998346984386444, "global_step": 1288, "epoch": 5, "lr": 0.009999356736180095}
+{"train_loss": 0.37786760926246643, "train_loss_bc": 0.06696289777755737, "train_loss_llm": 0.31090471148490906, "grad_norm": 0.043605007231235504, "global_step": 1289, "epoch": 5, "lr": 0.009999356736180095}
+{"train_loss": 0.383788526058197, "train_loss_bc": 0.07377931475639343, "train_loss_llm": 0.3100092113018036, "grad_norm": 0.07378366589546204, "global_step": 1290, "epoch": 5, "lr": 0.009999356736180095}
+{"train_loss": 0.3902435898780823, "train_loss_bc": 0.07406012713909149, "train_loss_llm": 0.316183477640152, "grad_norm": 0.12238039821386337, "global_step": 1291, "epoch": 5, "lr": 0.009999356736180095}
+{"train_loss": 0.3858996629714966, "train_loss_bc": 0.07235289365053177, "train_loss_llm": 0.3135467767715454, "grad_norm": 0.23897819221019745, "global_step": 1292, "epoch": 5, "lr": 0.009999356736180095}
+{"train_loss": 0.3849620819091797, "train_loss_bc": 0.07556377351284027, "train_loss_llm": 0.3093983232975006, "grad_norm": 0.18521985411643982, "global_step": 1293, "epoch": 5, "lr": 0.009999356736180095}
+{"train_loss": 0.3703638017177582, "train_loss_bc": 0.06338071078062057, "train_loss_llm": 0.306983083486557, "grad_norm": 0.19071424007415771, "global_step": 1294, "epoch": 5, "lr": 0.009999356736180095}
+{"train_loss": 0.3586791157722473, "train_loss_bc": 0.07050690799951553, "train_loss_llm": 0.2881722152233124, "grad_norm": 0.19640867412090302, "global_step": 1295, "epoch": 5, "lr": 0.009999356736180095}
+{"train_loss": 0.3751533627510071, "train_loss_bc": 0.07159797847270966, "train_loss_llm": 0.3035553991794586, "grad_norm": 0.20013803243637085, "global_step": 1296, "epoch": 5, "lr": 0.009999348244524859}
+{"train_loss": 0.37594690918922424, "train_loss_bc": 0.07653024792671204, "train_loss_llm": 0.2994166612625122, "grad_norm": 0.15397310256958008, "global_step": 1297, "epoch": 5, "lr": 0.009999348244524859}
+{"train_loss": 0.3805938959121704, "train_loss_bc": 0.0711418092250824, "train_loss_llm": 0.309452086687088, "grad_norm": 0.2775421142578125, "global_step": 1298, "epoch": 5, "lr": 0.009999348244524859}
+{"train_loss": 0.4497634470462799, "train_loss_bc": 0.07625638693571091, "train_loss_llm": 0.3735070526599884, "grad_norm": 0.32239657640457153, "global_step": 1299, "epoch": 5, "lr": 0.009999348244524859}
+{"train_loss": 0.4188249409198761, "train_loss_bc": 0.07501021027565002, "train_loss_llm": 0.3438147306442261, "grad_norm": 0.3694405257701874, "global_step": 1300, "epoch": 5, "lr": 0.009999348244524859}
+{"train_loss": 0.3646417260169983, "train_loss_bc": 0.0726238265633583, "train_loss_llm": 0.2920179069042206, "grad_norm": 0.5864570736885071, "global_step": 1301, "epoch": 5, "lr": 0.009999348244524859}
+{"train_loss": 0.4188694953918457, "train_loss_bc": 0.07888926565647125, "train_loss_llm": 0.33998021483421326, "grad_norm": 0.7051088809967041, "global_step": 1302, "epoch": 5, "lr": 0.009999348244524859}
+{"train_loss": 0.35848477482795715, "train_loss_bc": 0.06948569416999817, "train_loss_llm": 0.288999080657959, "grad_norm": 0.8236064910888672, "global_step": 1303, "epoch": 5, "lr": 0.009999348244524859}
+{"train_loss": 0.3868817687034607, "train_loss_bc": 0.07604023069143295, "train_loss_llm": 0.31084153056144714, "grad_norm": 0.8672236800193787, "global_step": 1304, "epoch": 5, "lr": 0.009999339697191491}
+{"train_loss": 0.38734376430511475, "train_loss_bc": 0.07955069839954376, "train_loss_llm": 0.3077930808067322, "grad_norm": 0.1160058081150055, "global_step": 1305, "epoch": 5, "lr": 0.009999339697191491}
+{"train_loss": 0.40188297629356384, "train_loss_bc": 0.08561787009239197, "train_loss_llm": 0.3162651062011719, "grad_norm": 0.16189657151699066, "global_step": 1306, "epoch": 5, "lr": 0.009999339697191491}
+{"train_loss": 0.3736618161201477, "train_loss_bc": 0.07256300747394562, "train_loss_llm": 0.3010988235473633, "grad_norm": 0.12650683522224426, "global_step": 1307, "epoch": 5, "lr": 0.009999339697191491}
+{"train_loss": 0.36218246817588806, "train_loss_bc": 0.07273209095001221, "train_loss_llm": 0.28945037722587585, "grad_norm": 0.17101988196372986, "global_step": 1308, "epoch": 5, "lr": 0.009999339697191491}
+{"train_loss": 0.27617147564888, "train_loss_bc": 0.0479089617729187, "train_loss_llm": 0.2282625138759613, "grad_norm": 0.3132120966911316, "global_step": 1309, "epoch": 5, "lr": 0.009999339697191491}
+{"train_loss": 0.34987038373947144, "train_loss_bc": 0.07771262526512146, "train_loss_llm": 0.27215775847435, "grad_norm": 0.3297308683395386, "global_step": 1310, "epoch": 5, "lr": 0.009999339697191491}
+{"train_loss": 0.3808292746543884, "train_loss_bc": 0.0713920146226883, "train_loss_llm": 0.30943727493286133, "grad_norm": 0.31700873374938965, "global_step": 1311, "epoch": 5, "lr": 0.009999339697191491}
+{"train_loss": 0.41063156723976135, "train_loss_bc": 0.09089499711990356, "train_loss_llm": 0.3197365701198578, "grad_norm": 0.3855264484882355, "global_step": 1312, "epoch": 5, "lr": 0.009999331094180091}
+{"train_loss": 0.387733519077301, "train_loss_bc": 0.08515296131372452, "train_loss_llm": 0.3025805652141571, "grad_norm": 0.1472398042678833, "global_step": 1313, "epoch": 5, "lr": 0.009999331094180091}
+{"train_loss": 0.3531907796859741, "train_loss_bc": 0.07424049079418182, "train_loss_llm": 0.2789502739906311, "grad_norm": 0.1617136150598526, "global_step": 1314, "epoch": 5, "lr": 0.009999331094180091}
+{"train_loss": 0.3361186385154724, "train_loss_bc": 0.08274942636489868, "train_loss_llm": 0.25336921215057373, "grad_norm": 0.22830282151699066, "global_step": 1315, "epoch": 5, "lr": 0.009999331094180091}
+{"train_loss": 0.380795955657959, "train_loss_bc": 0.08370421826839447, "train_loss_llm": 0.2970917522907257, "grad_norm": 0.2130567729473114, "global_step": 1316, "epoch": 5, "lr": 0.009999331094180091}
+{"train_loss": 0.38978660106658936, "train_loss_bc": 0.06832568347454071, "train_loss_llm": 0.32146093249320984, "grad_norm": 0.41492509841918945, "global_step": 1317, "epoch": 5, "lr": 0.009999331094180091}
+{"train_loss": 0.38697460293769836, "train_loss_bc": 0.0637584924697876, "train_loss_llm": 0.32321611046791077, "grad_norm": 0.439409077167511, "global_step": 1318, "epoch": 5, "lr": 0.009999331094180091}
+{"train_loss": 0.3501301407814026, "train_loss_bc": 0.06897790729999542, "train_loss_llm": 0.28115224838256836, "grad_norm": 0.543222963809967, "global_step": 1319, "epoch": 5, "lr": 0.009999331094180091}
+{"train_loss": 0.40462416410446167, "train_loss_bc": 0.07694533467292786, "train_loss_llm": 0.3276788294315338, "grad_norm": 0.5549091696739197, "global_step": 1320, "epoch": 5, "lr": 0.009999322435490749}
+{"train_loss": 0.39953407645225525, "train_loss_bc": 0.08077764511108398, "train_loss_llm": 0.31875643134117126, "grad_norm": 0.06237373873591423, "global_step": 1321, "epoch": 5, "lr": 0.009999322435490749}
+{"train_loss": 0.3935467004776001, "train_loss_bc": 0.07993532717227936, "train_loss_llm": 0.31361138820648193, "grad_norm": 0.06566664576530457, "global_step": 1322, "epoch": 5, "lr": 0.009999322435490749}
+{"train_loss": 0.3345641493797302, "train_loss_bc": 0.04888229817152023, "train_loss_llm": 0.2856818437576294, "grad_norm": 0.08973192423582077, "global_step": 1323, "epoch": 5, "lr": 0.009999322435490749}
+{"train_loss": 0.3515419065952301, "train_loss_bc": 0.06208581477403641, "train_loss_llm": 0.2894560992717743, "grad_norm": 0.1535400003194809, "global_step": 1324, "epoch": 5, "lr": 0.009999322435490749}
+{"train_loss": 0.3851848542690277, "train_loss_bc": 0.06517651677131653, "train_loss_llm": 0.3200083374977112, "grad_norm": 0.21205350756645203, "global_step": 1325, "epoch": 5, "lr": 0.009999322435490749}
+{"train_loss": 0.3905838429927826, "train_loss_bc": 0.08033084869384766, "train_loss_llm": 0.31025299429893494, "grad_norm": 0.31179216504096985, "global_step": 1326, "epoch": 5, "lr": 0.009999322435490749}
+{"train_loss": 0.37606972455978394, "train_loss_bc": 0.06784799695014954, "train_loss_llm": 0.3082217276096344, "grad_norm": 0.542493462562561, "global_step": 1327, "epoch": 5, "lr": 0.009999322435490749}
+{"train_loss": 0.385555624961853, "train_loss_bc": 0.0713161826133728, "train_loss_llm": 0.3142394423484802, "grad_norm": 0.6276203393936157, "global_step": 1328, "epoch": 5, "lr": 0.009999313721123566}
+{"train_loss": 0.36868417263031006, "train_loss_bc": 0.07279989868402481, "train_loss_llm": 0.29588428139686584, "grad_norm": 0.05101705715060234, "global_step": 1329, "epoch": 5, "lr": 0.009999313721123566}
+{"train_loss": 0.35372042655944824, "train_loss_bc": 0.07615717500448227, "train_loss_llm": 0.2775632441043854, "grad_norm": 0.18173082172870636, "global_step": 1330, "epoch": 5, "lr": 0.009999313721123566}
+{"train_loss": 0.3597396910190582, "train_loss_bc": 0.06805300712585449, "train_loss_llm": 0.29168668389320374, "grad_norm": 0.23521168529987335, "global_step": 1331, "epoch": 5, "lr": 0.009999313721123566}
+{"train_loss": 0.47550567984580994, "train_loss_bc": 0.08479568362236023, "train_loss_llm": 0.3907099962234497, "grad_norm": 0.22649721801280975, "global_step": 1332, "epoch": 5, "lr": 0.009999313721123566}
+{"train_loss": 0.3878285884857178, "train_loss_bc": 0.08261502534151077, "train_loss_llm": 0.3052135705947876, "grad_norm": 0.31493812799453735, "global_step": 1333, "epoch": 5, "lr": 0.009999313721123566}
+{"train_loss": 0.383282870054245, "train_loss_bc": 0.057842642068862915, "train_loss_llm": 0.3254402279853821, "grad_norm": 0.9338793754577637, "global_step": 1334, "epoch": 5, "lr": 0.009999313721123566}
+{"train_loss": 0.391330361366272, "train_loss_bc": 0.06284116208553314, "train_loss_llm": 0.3284892141819, "grad_norm": 1.0277663469314575, "global_step": 1335, "epoch": 5, "lr": 0.009999313721123566}
+{"train_loss": 0.3781067430973053, "train_loss_bc": 0.07071945816278458, "train_loss_llm": 0.3073872923851013, "grad_norm": 1.1431469917297363, "global_step": 1336, "epoch": 5, "lr": 0.009999304951078637}
+{"train_loss": 0.41269832849502563, "train_loss_bc": 0.08502107858657837, "train_loss_llm": 0.32767724990844727, "grad_norm": 0.26366299390792847, "global_step": 1337, "epoch": 5, "lr": 0.009999304951078637}
+{"train_loss": 0.3845070004463196, "train_loss_bc": 0.07919593155384064, "train_loss_llm": 0.30531108379364014, "grad_norm": 0.27975785732269287, "global_step": 1338, "epoch": 5, "lr": 0.009999304951078637}
+{"train_loss": 0.3893407881259918, "train_loss_bc": 0.07367128878831863, "train_loss_llm": 0.3156695067882538, "grad_norm": 0.37743672728538513, "global_step": 1339, "epoch": 5, "lr": 0.009999304951078637}
+{"train_loss": 0.37420549988746643, "train_loss_bc": 0.08538895100355148, "train_loss_llm": 0.28881654143333435, "grad_norm": 0.4289032220840454, "global_step": 1340, "epoch": 5, "lr": 0.009999304951078637}
+{"train_loss": 0.3442850410938263, "train_loss_bc": 0.06427693367004395, "train_loss_llm": 0.28000810742378235, "grad_norm": 0.5487748384475708, "global_step": 1341, "epoch": 5, "lr": 0.009999304951078637}
+{"train_loss": 0.3530404567718506, "train_loss_bc": 0.06526656448841095, "train_loss_llm": 0.28777390718460083, "grad_norm": 0.689736545085907, "global_step": 1342, "epoch": 5, "lr": 0.009999304951078637}
+{"train_loss": 0.3509061932563782, "train_loss_bc": 0.07887855172157288, "train_loss_llm": 0.2720276415348053, "grad_norm": 0.6809297800064087, "global_step": 1343, "epoch": 5, "lr": 0.009999304951078637}
+{"train_loss": 0.39512863755226135, "train_loss_bc": 0.07902487367391586, "train_loss_llm": 0.3161037564277649, "grad_norm": 0.7238640785217285, "global_step": 1344, "epoch": 5, "lr": 0.009999296125356058}
+{"train_loss": 0.44635358452796936, "train_loss_bc": 0.09345215559005737, "train_loss_llm": 0.352901428937912, "grad_norm": 0.12566052377223969, "global_step": 1345, "epoch": 5, "lr": 0.009999296125356058}
+{"train_loss": 0.38883176445961, "train_loss_bc": 0.08495137095451355, "train_loss_llm": 0.30388039350509644, "grad_norm": 0.204918771982193, "global_step": 1346, "epoch": 5, "lr": 0.009999296125356058}
+{"train_loss": 0.3714916408061981, "train_loss_bc": 0.06972190737724304, "train_loss_llm": 0.3017697334289551, "grad_norm": 0.4989515542984009, "global_step": 1347, "epoch": 5, "lr": 0.009999296125356058}
+{"train_loss": 0.40171003341674805, "train_loss_bc": 0.08192871510982513, "train_loss_llm": 0.3197813332080841, "grad_norm": 0.5367122888565063, "global_step": 1348, "epoch": 5, "lr": 0.009999296125356058}
+{"train_loss": 0.38635194301605225, "train_loss_bc": 0.09039106220006943, "train_loss_llm": 0.2959608733654022, "grad_norm": 0.6770176291465759, "global_step": 1349, "epoch": 5, "lr": 0.009999296125356058}
+{"train_loss": 0.38506507873535156, "train_loss_bc": 0.0872301310300827, "train_loss_llm": 0.29783493280410767, "grad_norm": 0.7936511039733887, "global_step": 1350, "epoch": 5, "lr": 0.009999296125356058}
+{"train_loss": 0.40813785791397095, "train_loss_bc": 0.09225998818874359, "train_loss_llm": 0.31587788462638855, "grad_norm": 0.8919664025306702, "global_step": 1351, "epoch": 5, "lr": 0.009999296125356058}
+{"train_loss": 0.3979683518409729, "train_loss_bc": 0.08931411057710648, "train_loss_llm": 0.308654248714447, "grad_norm": 1.070904016494751, "global_step": 1352, "epoch": 5, "lr": 0.009999287243955933}
+{"train_loss": 0.44113045930862427, "train_loss_bc": 0.08020900934934616, "train_loss_llm": 0.3609214425086975, "grad_norm": 0.15701061487197876, "global_step": 1353, "epoch": 5, "lr": 0.009999287243955933}
+{"train_loss": 0.44134071469306946, "train_loss_bc": 0.09215369820594788, "train_loss_llm": 0.3491870164871216, "grad_norm": 0.2000778615474701, "global_step": 1354, "epoch": 5, "lr": 0.009999287243955933}
+{"train_loss": 0.40943601727485657, "train_loss_bc": 0.08079662919044495, "train_loss_llm": 0.3286393880844116, "grad_norm": 0.3311246931552887, "global_step": 1355, "epoch": 5, "lr": 0.009999287243955933}
+{"train_loss": 0.4207582473754883, "train_loss_bc": 0.08985184133052826, "train_loss_llm": 0.33090639114379883, "grad_norm": 0.4001939296722412, "global_step": 1356, "epoch": 5, "lr": 0.009999287243955933}
+{"train_loss": 0.3789238929748535, "train_loss_bc": 0.0789845734834671, "train_loss_llm": 0.2999393343925476, "grad_norm": 0.6355811953544617, "global_step": 1357, "epoch": 5, "lr": 0.009999287243955933}
+{"train_loss": 0.35769009590148926, "train_loss_bc": 0.07917103171348572, "train_loss_llm": 0.27851906418800354, "grad_norm": 0.7411963939666748, "global_step": 1358, "epoch": 5, "lr": 0.009999287243955933}
+{"train_loss": 0.4085814952850342, "train_loss_bc": 0.08197511732578278, "train_loss_llm": 0.3266063928604126, "grad_norm": 0.8358168005943298, "global_step": 1359, "epoch": 5, "lr": 0.009999287243955933}
+{"train_loss": 0.3524884283542633, "train_loss_bc": 0.08334041386842728, "train_loss_llm": 0.2691480219364166, "grad_norm": 0.9643449187278748, "global_step": 1360, "epoch": 5, "lr": 0.009999278306878355}
+{"train_loss": 0.36330342292785645, "train_loss_bc": 0.0741296261548996, "train_loss_llm": 0.28917381167411804, "grad_norm": 0.13672171533107758, "global_step": 1361, "epoch": 5, "lr": 0.009999278306878355}
+{"train_loss": 0.39316093921661377, "train_loss_bc": 0.08547352254390717, "train_loss_llm": 0.3076874315738678, "grad_norm": 0.18238016963005066, "global_step": 1362, "epoch": 5, "lr": 0.009999278306878355}
+{"train_loss": 0.35364362597465515, "train_loss_bc": 0.07313692569732666, "train_loss_llm": 0.2805067002773285, "grad_norm": 0.4445739686489105, "global_step": 1363, "epoch": 5, "lr": 0.009999278306878355}
+{"train_loss": 0.3596263527870178, "train_loss_bc": 0.06765829026699066, "train_loss_llm": 0.29196807742118835, "grad_norm": 0.4813205897808075, "global_step": 1364, "epoch": 5, "lr": 0.009999278306878355}
+{"train_loss": 0.3839051425457001, "train_loss_bc": 0.07909461855888367, "train_loss_llm": 0.3048105239868164, "grad_norm": 0.5365320444107056, "global_step": 1365, "epoch": 5, "lr": 0.009999278306878355}
+{"train_loss": 0.35797467827796936, "train_loss_bc": 0.07483518123626709, "train_loss_llm": 0.28313949704170227, "grad_norm": 0.5236226320266724, "global_step": 1366, "epoch": 5, "lr": 0.009999278306878355}
+{"train_loss": 0.3959536552429199, "train_loss_bc": 0.08254024386405945, "train_loss_llm": 0.3134134113788605, "grad_norm": 0.5694528222084045, "global_step": 1367, "epoch": 5, "lr": 0.009999278306878355}
+{"train_loss": 0.363376647233963, "train_loss_bc": 0.062418967485427856, "train_loss_llm": 0.30095767974853516, "grad_norm": 0.6304254531860352, "global_step": 1368, "epoch": 5, "lr": 0.009999269314123425}
+{"train_loss": 0.43019333481788635, "train_loss_bc": 0.0673198476433754, "train_loss_llm": 0.36287349462509155, "grad_norm": 0.06820008903741837, "global_step": 1369, "epoch": 5, "lr": 0.009999269314123425}
+{"train_loss": 0.4099794030189514, "train_loss_bc": 0.07247984409332275, "train_loss_llm": 0.33749955892562866, "grad_norm": 0.12246192991733551, "global_step": 1370, "epoch": 5, "lr": 0.009999269314123425}
+{"train_loss": 0.38196223974227905, "train_loss_bc": 0.07259440422058105, "train_loss_llm": 0.309367835521698, "grad_norm": 0.15011435747146606, "global_step": 1371, "epoch": 5, "lr": 0.009999269314123425}
+{"train_loss": 0.3640904426574707, "train_loss_bc": 0.0669010728597641, "train_loss_llm": 0.2971893548965454, "grad_norm": 0.22074703872203827, "global_step": 1372, "epoch": 5, "lr": 0.009999269314123425}
+{"train_loss": 0.4589863121509552, "train_loss_bc": 0.0658402144908905, "train_loss_llm": 0.3931460976600647, "grad_norm": 0.4119308292865753, "global_step": 1373, "epoch": 5, "lr": 0.009999269314123425}
+{"train_loss": 0.31540894508361816, "train_loss_bc": 0.05198328197002411, "train_loss_llm": 0.26342567801475525, "grad_norm": 0.4879787564277649, "global_step": 1374, "epoch": 5, "lr": 0.009999269314123425}
+{"train_loss": 0.4613858759403229, "train_loss_bc": 0.07201313972473145, "train_loss_llm": 0.38937273621559143, "grad_norm": 0.6110175251960754, "global_step": 1375, "epoch": 5, "lr": 0.009999269314123425}
+{"train_loss": 0.3625941872596741, "train_loss_bc": 0.07231511175632477, "train_loss_llm": 0.2902790606021881, "grad_norm": 0.6319581270217896, "global_step": 1376, "epoch": 5, "lr": 0.009999260265691243}
+{"train_loss": 0.3745105266571045, "train_loss_bc": 0.0527934655547142, "train_loss_llm": 0.3217170536518097, "grad_norm": 0.1052914410829544, "global_step": 1377, "epoch": 5, "lr": 0.009999260265691243}
+{"train_loss": 0.4338243007659912, "train_loss_bc": 0.05592585355043411, "train_loss_llm": 0.3778984546661377, "grad_norm": 0.239121675491333, "global_step": 1378, "epoch": 5, "lr": 0.009999260265691243}
+{"train_loss": 0.4170421361923218, "train_loss_bc": 0.052647966891527176, "train_loss_llm": 0.3643941581249237, "grad_norm": 0.291394978761673, "global_step": 1379, "epoch": 5, "lr": 0.009999260265691243}
+{"train_loss": 0.3035705089569092, "train_loss_bc": 0.051667727530002594, "train_loss_llm": 0.2519027888774872, "grad_norm": 0.38642066717147827, "global_step": 1380, "epoch": 5, "lr": 0.009999260265691243}
+{"train_loss": 0.3446175754070282, "train_loss_bc": 0.06201693415641785, "train_loss_llm": 0.28260064125061035, "grad_norm": 0.3950912058353424, "global_step": 1381, "epoch": 5, "lr": 0.009999260265691243}
+{"train_loss": 0.4161488711833954, "train_loss_bc": 0.06280365586280823, "train_loss_llm": 0.35334521532058716, "grad_norm": 0.4709485173225403, "global_step": 1382, "epoch": 5, "lr": 0.009999260265691243}
+{"train_loss": 0.36226484179496765, "train_loss_bc": 0.05640990659594536, "train_loss_llm": 0.3058549463748932, "grad_norm": 0.5741108655929565, "global_step": 1383, "epoch": 5, "lr": 0.009999260265691243}
+{"train_loss": 0.3702004551887512, "train_loss_bc": 0.052118681371212006, "train_loss_llm": 0.3180817663669586, "grad_norm": 0.5902929902076721, "global_step": 1384, "epoch": 5, "lr": 0.009999251161581913}
+{"train_loss": 0.39794841408729553, "train_loss_bc": 0.06038413196802139, "train_loss_llm": 0.33756428956985474, "grad_norm": 0.12387105077505112, "global_step": 1385, "epoch": 5, "lr": 0.009999251161581913}
+{"train_loss": 0.4204927086830139, "train_loss_bc": 0.06012769043445587, "train_loss_llm": 0.36036503314971924, "grad_norm": 0.18323306739330292, "global_step": 1386, "epoch": 5, "lr": 0.009999251161581913}
+{"train_loss": 0.379270076751709, "train_loss_bc": 0.04873473942279816, "train_loss_llm": 0.330535352230072, "grad_norm": 0.2128172367811203, "global_step": 1387, "epoch": 5, "lr": 0.009999251161581913}
+{"train_loss": 0.3628697991371155, "train_loss_bc": 0.03700181841850281, "train_loss_llm": 0.32586798071861267, "grad_norm": 0.20408421754837036, "global_step": 1388, "epoch": 5, "lr": 0.009999251161581913}
+{"train_loss": 0.46512022614479065, "train_loss_bc": 0.06379925459623337, "train_loss_llm": 0.4013209640979767, "grad_norm": 0.23434008657932281, "global_step": 1389, "epoch": 5, "lr": 0.009999251161581913}
+{"train_loss": 0.39549386501312256, "train_loss_bc": 0.0483398362994194, "train_loss_llm": 0.34715402126312256, "grad_norm": 0.29166051745414734, "global_step": 1390, "epoch": 5, "lr": 0.009999251161581913}
+{"train_loss": 0.3681612014770508, "train_loss_bc": 0.05576661601662636, "train_loss_llm": 0.3123945891857147, "grad_norm": 0.3219917416572571, "global_step": 1391, "epoch": 5, "lr": 0.009999251161581913}
+{"train_loss": 0.4034537971019745, "train_loss_bc": 0.06145823374390602, "train_loss_llm": 0.34199556708335876, "grad_norm": 0.34914007782936096, "global_step": 1392, "epoch": 5, "lr": 0.009999242001795533}
+{"train_loss": 0.3850291669368744, "train_loss_bc": 0.04974362999200821, "train_loss_llm": 0.3352855443954468, "grad_norm": 0.19402523338794708, "global_step": 1393, "epoch": 5, "lr": 0.009999242001795533}
+{"train_loss": 0.37807369232177734, "train_loss_bc": 0.060435306280851364, "train_loss_llm": 0.3176383972167969, "grad_norm": 0.19181421399116516, "global_step": 1394, "epoch": 5, "lr": 0.009999242001795533}
+{"train_loss": 0.4356151223182678, "train_loss_bc": 0.050475236028432846, "train_loss_llm": 0.3851398825645447, "grad_norm": 0.35885992646217346, "global_step": 1395, "epoch": 5, "lr": 0.009999242001795533}
+{"train_loss": 0.36329689621925354, "train_loss_bc": 0.05711134895682335, "train_loss_llm": 0.3061855435371399, "grad_norm": 0.3436221182346344, "global_step": 1396, "epoch": 5, "lr": 0.009999242001795533}
+{"train_loss": 0.3869920074939728, "train_loss_bc": 0.05565191060304642, "train_loss_llm": 0.33134010434150696, "grad_norm": 0.31847360730171204, "global_step": 1397, "epoch": 5, "lr": 0.009999242001795533}
+{"train_loss": 0.43261897563934326, "train_loss_bc": 0.0613676942884922, "train_loss_llm": 0.37125128507614136, "grad_norm": 0.40509524941444397, "global_step": 1398, "epoch": 5, "lr": 0.009999242001795533}
+{"train_loss": 0.3957323133945465, "train_loss_bc": 0.0539071187376976, "train_loss_llm": 0.3418251872062683, "grad_norm": 0.47830137610435486, "global_step": 1399, "epoch": 5, "lr": 0.009999242001795533}
+{"train_loss": 0.3729439973831177, "train_loss_bc": 0.05726087838411331, "train_loss_llm": 0.31568312644958496, "grad_norm": 0.5351987481117249, "global_step": 1400, "epoch": 5, "lr": 0.009999232786332204}
+{"train_loss": 0.3592974543571472, "train_loss_bc": 0.06026475131511688, "train_loss_llm": 0.29903268814086914, "grad_norm": 0.08343968540430069, "global_step": 1401, "epoch": 5, "lr": 0.009999232786332204}
+{"train_loss": 0.4062887132167816, "train_loss_bc": 0.06155272200703621, "train_loss_llm": 0.3447359800338745, "grad_norm": 0.1501355767250061, "global_step": 1402, "epoch": 5, "lr": 0.009999232786332204}
+{"train_loss": 0.4243745803833008, "train_loss_bc": 0.07102271169424057, "train_loss_llm": 0.3533518612384796, "grad_norm": 0.242767333984375, "global_step": 1403, "epoch": 5, "lr": 0.009999232786332204}
+{"train_loss": 0.3745984435081482, "train_loss_bc": 0.059332072734832764, "train_loss_llm": 0.31526637077331543, "grad_norm": 0.5023761987686157, "global_step": 1404, "epoch": 5, "lr": 0.009999232786332204}
+{"train_loss": 0.40990379452705383, "train_loss_bc": 0.05773356556892395, "train_loss_llm": 0.3521702289581299, "grad_norm": 0.53661048412323, "global_step": 1405, "epoch": 5, "lr": 0.009999232786332204}
+{"train_loss": 0.40816640853881836, "train_loss_bc": 0.06628839671611786, "train_loss_llm": 0.3418780267238617, "grad_norm": 0.5725618600845337, "global_step": 1406, "epoch": 5, "lr": 0.009999232786332204}
+{"train_loss": 0.315459281206131, "train_loss_bc": 0.05899263173341751, "train_loss_llm": 0.25646665692329407, "grad_norm": 0.7651938199996948, "global_step": 1407, "epoch": 5, "lr": 0.009999232786332204}
+{"train_loss": 0.44462883472442627, "train_loss_bc": 0.07066480815410614, "train_loss_llm": 0.37396401166915894, "grad_norm": 0.8534300923347473, "global_step": 1408, "epoch": 5, "lr": 0.009999223515192033}
+{"train_loss": 0.3817790448665619, "train_loss_bc": 0.06834340840578079, "train_loss_llm": 0.3134356439113617, "grad_norm": 0.039985403418540955, "global_step": 1409, "epoch": 5, "lr": 0.009999223515192033}
+{"train_loss": 0.38622355461120605, "train_loss_bc": 0.07149447500705719, "train_loss_llm": 0.31472909450531006, "grad_norm": 0.0747046247124672, "global_step": 1410, "epoch": 5, "lr": 0.009999223515192033}
+{"train_loss": 0.3789900839328766, "train_loss_bc": 0.07700838893651962, "train_loss_llm": 0.30198168754577637, "grad_norm": 0.07356882840394974, "global_step": 1411, "epoch": 5, "lr": 0.009999223515192033}
+{"train_loss": 0.3843172788619995, "train_loss_bc": 0.0802711695432663, "train_loss_llm": 0.304046094417572, "grad_norm": 0.16001832485198975, "global_step": 1412, "epoch": 5, "lr": 0.009999223515192033}
+{"train_loss": 0.4063147306442261, "train_loss_bc": 0.0718424916267395, "train_loss_llm": 0.3344722390174866, "grad_norm": 0.2328999936580658, "global_step": 1413, "epoch": 5, "lr": 0.009999223515192033}
+{"train_loss": 0.3533449172973633, "train_loss_bc": 0.060019951313734055, "train_loss_llm": 0.2933249771595001, "grad_norm": 0.2686339318752289, "global_step": 1414, "epoch": 5, "lr": 0.009999223515192033}
+{"train_loss": 0.40085017681121826, "train_loss_bc": 0.07687674462795258, "train_loss_llm": 0.3239734172821045, "grad_norm": 0.3112798035144806, "global_step": 1415, "epoch": 5, "lr": 0.009999223515192033}
+{"train_loss": 0.3781803846359253, "train_loss_bc": 0.05241073668003082, "train_loss_llm": 0.32576966285705566, "grad_norm": 0.4295889139175415, "global_step": 1416, "epoch": 5, "lr": 0.00999921418837512}
+{"train_loss": 0.425918847322464, "train_loss_bc": 0.07832351326942444, "train_loss_llm": 0.34759533405303955, "grad_norm": 0.11521836370229721, "global_step": 1417, "epoch": 5, "lr": 0.00999921418837512}
+{"train_loss": 0.4340050518512726, "train_loss_bc": 0.0874670147895813, "train_loss_llm": 0.3465380370616913, "grad_norm": 0.09277604520320892, "global_step": 1418, "epoch": 5, "lr": 0.00999921418837512}
+{"train_loss": 0.36929139494895935, "train_loss_bc": 0.07826200127601624, "train_loss_llm": 0.2910293936729431, "grad_norm": 0.12407151609659195, "global_step": 1419, "epoch": 5, "lr": 0.00999921418837512}
+{"train_loss": 0.40446048974990845, "train_loss_bc": 0.06672892719507217, "train_loss_llm": 0.33773157000541687, "grad_norm": 0.09866830706596375, "global_step": 1420, "epoch": 5, "lr": 0.00999921418837512}
+{"train_loss": 0.38456428050994873, "train_loss_bc": 0.0763879269361496, "train_loss_llm": 0.30817633867263794, "grad_norm": 0.12963739037513733, "global_step": 1421, "epoch": 5, "lr": 0.00999921418837512}
+{"train_loss": 0.3846395015716553, "train_loss_bc": 0.07770559191703796, "train_loss_llm": 0.3069339096546173, "grad_norm": 0.20337575674057007, "global_step": 1422, "epoch": 5, "lr": 0.00999921418837512}
+{"train_loss": 0.34079641103744507, "train_loss_bc": 0.06625266373157501, "train_loss_llm": 0.27454376220703125, "grad_norm": 0.19381332397460938, "global_step": 1423, "epoch": 5, "lr": 0.00999921418837512}
+{"train_loss": 0.38108664751052856, "train_loss_bc": 0.07567425072193146, "train_loss_llm": 0.3054124116897583, "grad_norm": 0.21301135420799255, "global_step": 1424, "epoch": 5, "lr": 0.00999920480588157}
+{"train_loss": 0.3894703984260559, "train_loss_bc": 0.08321239054203033, "train_loss_llm": 0.3062579929828644, "grad_norm": 0.10259858518838882, "global_step": 1425, "epoch": 5, "lr": 0.00999920480588157}
+{"train_loss": 0.4275699853897095, "train_loss_bc": 0.06847119331359863, "train_loss_llm": 0.35909879207611084, "grad_norm": 0.237782284617424, "global_step": 1426, "epoch": 5, "lr": 0.00999920480588157}
+{"train_loss": 0.3840745966724989, "train_loss_bc": 0.0826307088136673, "train_loss_llm": 0.2647458612918854, "grad_norm": 0.2570185363292694, "global_step": 1427, "epoch": 5, "lr": 0.00999920480588157, "train/cumulative_reward": 1.2561640609154892, "train/mean_score": 0.2590309585610127, "train/success_rate": 0.0, "test/cumulative_reward": 0.9676630265212924, "test/mean_score": 0.17704175463165173, "test/success_rate": 0.02, "val_loss": 0.37128907442092896, "train_action_mse_error": 0.09260161966085434}
+{"train_loss": 0.39149534702301025, "train_loss_bc": 0.07160429656505585, "train_loss_llm": 0.3198910653591156, "grad_norm": 0.40006911754608154, "global_step": 1428, "epoch": 6, "lr": 0.00999920480588157}
+{"train_loss": 0.3763691484928131, "train_loss_bc": 0.06223607435822487, "train_loss_llm": 0.31413307785987854, "grad_norm": 0.42374756932258606, "global_step": 1429, "epoch": 6, "lr": 0.00999920480588157}
+{"train_loss": 0.40768975019454956, "train_loss_bc": 0.09325140714645386, "train_loss_llm": 0.3144383430480957, "grad_norm": 0.4786472022533417, "global_step": 1430, "epoch": 6, "lr": 0.00999920480588157}
+{"train_loss": 0.31688177585601807, "train_loss_bc": 0.06769808381795883, "train_loss_llm": 0.24918368458747864, "grad_norm": 0.5380679965019226, "global_step": 1431, "epoch": 6, "lr": 0.00999920480588157}
+{"train_loss": 0.373844712972641, "train_loss_bc": 0.07702970504760742, "train_loss_llm": 0.29681500792503357, "grad_norm": 0.6238613128662109, "global_step": 1432, "epoch": 6, "lr": 0.009999195367711487}
+{"train_loss": 0.39822784066200256, "train_loss_bc": 0.06763219833374023, "train_loss_llm": 0.33059564232826233, "grad_norm": 0.46140366792678833, "global_step": 1433, "epoch": 6, "lr": 0.009999195367711487}
+{"train_loss": 0.36352965235710144, "train_loss_bc": 0.08179396390914917, "train_loss_llm": 0.28173568844795227, "grad_norm": 0.6699656844139099, "global_step": 1434, "epoch": 6, "lr": 0.009999195367711487}
+{"train_loss": 0.3938041925430298, "train_loss_bc": 0.07610104978084564, "train_loss_llm": 0.31770312786102295, "grad_norm": 0.6197958588600159, "global_step": 1435, "epoch": 6, "lr": 0.009999195367711487}
+{"train_loss": 0.376300573348999, "train_loss_bc": 0.07644473016262054, "train_loss_llm": 0.2998558282852173, "grad_norm": 0.9138873219490051, "global_step": 1436, "epoch": 6, "lr": 0.009999195367711487}
+{"train_loss": 0.38020437955856323, "train_loss_bc": 0.07543545961380005, "train_loss_llm": 0.3047689199447632, "grad_norm": 1.0364482402801514, "global_step": 1437, "epoch": 6, "lr": 0.009999195367711487}
+{"train_loss": 0.35991835594177246, "train_loss_bc": 0.06381000578403473, "train_loss_llm": 0.2961083650588989, "grad_norm": 1.0883036851882935, "global_step": 1438, "epoch": 6, "lr": 0.009999195367711487}
+{"train_loss": 0.34160852432250977, "train_loss_bc": 0.06992068886756897, "train_loss_llm": 0.2716878354549408, "grad_norm": 0.9502350091934204, "global_step": 1439, "epoch": 6, "lr": 0.009999195367711487}
+{"train_loss": 0.3381469249725342, "train_loss_bc": 0.07705877721309662, "train_loss_llm": 0.26108816266059875, "grad_norm": 1.1427983045578003, "global_step": 1440, "epoch": 6, "lr": 0.009999185873864976}
+{"train_loss": 0.406399130821228, "train_loss_bc": 0.06797890365123749, "train_loss_llm": 0.33842024207115173, "grad_norm": 0.3471716344356537, "global_step": 1441, "epoch": 6, "lr": 0.009999185873864976}
+{"train_loss": 0.3678288757801056, "train_loss_bc": 0.07114943861961365, "train_loss_llm": 0.29667943716049194, "grad_norm": 0.3740527927875519, "global_step": 1442, "epoch": 6, "lr": 0.009999185873864976}
+{"train_loss": 0.4529806077480316, "train_loss_bc": 0.07422670722007751, "train_loss_llm": 0.3787539005279541, "grad_norm": 0.6921804547309875, "global_step": 1443, "epoch": 6, "lr": 0.009999185873864976}
+{"train_loss": 0.3684578537940979, "train_loss_bc": 0.08477594703435898, "train_loss_llm": 0.2836818993091583, "grad_norm": 0.8634828925132751, "global_step": 1444, "epoch": 6, "lr": 0.009999185873864976}
+{"train_loss": 0.38448646664619446, "train_loss_bc": 0.0644696056842804, "train_loss_llm": 0.32001686096191406, "grad_norm": 1.2372528314590454, "global_step": 1445, "epoch": 6, "lr": 0.009999185873864976}
+{"train_loss": 0.4135354161262512, "train_loss_bc": 0.06721765547990799, "train_loss_llm": 0.34631776809692383, "grad_norm": 1.594524621963501, "global_step": 1446, "epoch": 6, "lr": 0.009999185873864976}
+{"train_loss": 0.3570314645767212, "train_loss_bc": 0.0657159686088562, "train_loss_llm": 0.291315495967865, "grad_norm": 1.5152310132980347, "global_step": 1447, "epoch": 6, "lr": 0.009999185873864976}
+{"train_loss": 0.5206533670425415, "train_loss_bc": 0.06399883329868317, "train_loss_llm": 0.45665451884269714, "grad_norm": 1.5572189092636108, "global_step": 1448, "epoch": 6, "lr": 0.009999176324342144}
+{"train_loss": 0.28841495513916016, "train_loss_bc": 0.0635925680398941, "train_loss_llm": 0.22482240200042725, "grad_norm": 0.35481587052345276, "global_step": 1449, "epoch": 6, "lr": 0.009999176324342144}
+{"train_loss": 0.4228476285934448, "train_loss_bc": 0.08258135616779327, "train_loss_llm": 0.34026625752449036, "grad_norm": 0.3808695077896118, "global_step": 1450, "epoch": 6, "lr": 0.009999176324342144}
+{"train_loss": 0.2910454273223877, "train_loss_bc": 0.05701570212841034, "train_loss_llm": 0.23402971029281616, "grad_norm": 0.23489230871200562, "global_step": 1451, "epoch": 6, "lr": 0.009999176324342144}
+{"train_loss": 0.4454607665538788, "train_loss_bc": 0.07157046347856522, "train_loss_llm": 0.37389031052589417, "grad_norm": 0.5672813057899475, "global_step": 1452, "epoch": 6, "lr": 0.009999176324342144}
+{"train_loss": 0.3179231882095337, "train_loss_bc": 0.06105232983827591, "train_loss_llm": 0.2568708658218384, "grad_norm": 0.7990560531616211, "global_step": 1453, "epoch": 6, "lr": 0.009999176324342144}
+{"train_loss": 0.3523246645927429, "train_loss_bc": 0.07255470752716064, "train_loss_llm": 0.2797699570655823, "grad_norm": 1.6802157163619995, "global_step": 1454, "epoch": 6, "lr": 0.009999176324342144}
+{"train_loss": 0.3679264485836029, "train_loss_bc": 0.045804254710674286, "train_loss_llm": 0.322122186422348, "grad_norm": 1.455573320388794, "global_step": 1455, "epoch": 6, "lr": 0.009999176324342144}
+{"train_loss": 0.3562260866165161, "train_loss_bc": 0.05908195674419403, "train_loss_llm": 0.2971441149711609, "grad_norm": 3.1173555850982666, "global_step": 1456, "epoch": 6, "lr": 0.009999166719143096}
+{"train_loss": 0.4231061339378357, "train_loss_bc": 0.06628794223070145, "train_loss_llm": 0.35681819915771484, "grad_norm": 0.27115923166275024, "global_step": 1457, "epoch": 6, "lr": 0.009999166719143096}
+{"train_loss": 0.3853585422039032, "train_loss_bc": 0.08888386934995651, "train_loss_llm": 0.2964746654033661, "grad_norm": 0.312406986951828, "global_step": 1458, "epoch": 6, "lr": 0.009999166719143096}
+{"train_loss": 0.4282447397708893, "train_loss_bc": 0.06339091062545776, "train_loss_llm": 0.3648538291454315, "grad_norm": 0.5184860825538635, "global_step": 1459, "epoch": 6, "lr": 0.009999166719143096}
+{"train_loss": 0.3765486776828766, "train_loss_bc": 0.0735296830534935, "train_loss_llm": 0.3030189871788025, "grad_norm": 0.660749614238739, "global_step": 1460, "epoch": 6, "lr": 0.009999166719143096}
+{"train_loss": 0.4241717457771301, "train_loss_bc": 0.0726848691701889, "train_loss_llm": 0.3514868915081024, "grad_norm": 0.72834712266922, "global_step": 1461, "epoch": 6, "lr": 0.009999166719143096}
+{"train_loss": 0.420078307390213, "train_loss_bc": 0.07067152857780457, "train_loss_llm": 0.34940677881240845, "grad_norm": 0.7751659750938416, "global_step": 1462, "epoch": 6, "lr": 0.009999166719143096}
+{"train_loss": 0.35983312129974365, "train_loss_bc": 0.07897341251373291, "train_loss_llm": 0.28085970878601074, "grad_norm": 0.8756398558616638, "global_step": 1463, "epoch": 6, "lr": 0.009999166719143096}
+{"train_loss": 0.4035351276397705, "train_loss_bc": 0.07038252055644989, "train_loss_llm": 0.3331525921821594, "grad_norm": 1.0185753107070923, "global_step": 1464, "epoch": 6, "lr": 0.009999157058267939}
+{"train_loss": 0.3613821864128113, "train_loss_bc": 0.07324866950511932, "train_loss_llm": 0.28813350200653076, "grad_norm": 0.08268377929925919, "global_step": 1465, "epoch": 6, "lr": 0.009999157058267939}
+{"train_loss": 0.3692266047000885, "train_loss_bc": 0.0747329518198967, "train_loss_llm": 0.2944936454296112, "grad_norm": 0.28399866819381714, "global_step": 1466, "epoch": 6, "lr": 0.009999157058267939}
+{"train_loss": 0.4731183648109436, "train_loss_bc": 0.07813437283039093, "train_loss_llm": 0.3949839770793915, "grad_norm": 0.3450077474117279, "global_step": 1467, "epoch": 6, "lr": 0.009999157058267939}
+{"train_loss": 0.3466186225414276, "train_loss_bc": 0.07923012226819992, "train_loss_llm": 0.2673884928226471, "grad_norm": 0.31579291820526123, "global_step": 1468, "epoch": 6, "lr": 0.009999157058267939}
+{"train_loss": 0.3874267637729645, "train_loss_bc": 0.08505484461784363, "train_loss_llm": 0.30237191915512085, "grad_norm": 0.34271588921546936, "global_step": 1469, "epoch": 6, "lr": 0.009999157058267939}
+{"train_loss": 0.36189356446266174, "train_loss_bc": 0.07554741948843002, "train_loss_llm": 0.2863461375236511, "grad_norm": 0.45871663093566895, "global_step": 1470, "epoch": 6, "lr": 0.009999157058267939}
+{"train_loss": 0.3796031177043915, "train_loss_bc": 0.0773780345916748, "train_loss_llm": 0.3022250831127167, "grad_norm": 0.5881025195121765, "global_step": 1471, "epoch": 6, "lr": 0.009999157058267939}
+{"train_loss": 0.37832191586494446, "train_loss_bc": 0.08054154366254807, "train_loss_llm": 0.2977803647518158, "grad_norm": 0.789414644241333, "global_step": 1472, "epoch": 6, "lr": 0.009999147341716782}
+{"train_loss": 0.38474172353744507, "train_loss_bc": 0.08474621176719666, "train_loss_llm": 0.2999955117702484, "grad_norm": 0.0716811940073967, "global_step": 1473, "epoch": 6, "lr": 0.009999147341716782}
+{"train_loss": 0.3330865502357483, "train_loss_bc": 0.0695892870426178, "train_loss_llm": 0.2634972631931305, "grad_norm": 0.13359369337558746, "global_step": 1474, "epoch": 6, "lr": 0.009999147341716782}
+{"train_loss": 0.429728239774704, "train_loss_bc": 0.08018233627080917, "train_loss_llm": 0.3495458960533142, "grad_norm": 0.15627847611904144, "global_step": 1475, "epoch": 6, "lr": 0.009999147341716782}
+{"train_loss": 0.43422260880470276, "train_loss_bc": 0.08384735137224197, "train_loss_llm": 0.3503752648830414, "grad_norm": 0.13218042254447937, "global_step": 1476, "epoch": 6, "lr": 0.009999147341716782}
+{"train_loss": 0.4458363950252533, "train_loss_bc": 0.07017332315444946, "train_loss_llm": 0.37566307187080383, "grad_norm": 0.21291810274124146, "global_step": 1477, "epoch": 6, "lr": 0.009999147341716782}
+{"train_loss": 0.40942585468292236, "train_loss_bc": 0.0930713564157486, "train_loss_llm": 0.3163544833660126, "grad_norm": 0.2581360936164856, "global_step": 1478, "epoch": 6, "lr": 0.009999147341716782}
+{"train_loss": 0.3991433084011078, "train_loss_bc": 0.0650220513343811, "train_loss_llm": 0.3341212570667267, "grad_norm": 0.25184404850006104, "global_step": 1479, "epoch": 6, "lr": 0.009999147341716782}
+{"train_loss": 0.3772839307785034, "train_loss_bc": 0.07781277596950531, "train_loss_llm": 0.2994711399078369, "grad_norm": 0.3036835193634033, "global_step": 1480, "epoch": 6, "lr": 0.009999137569489731}
+{"train_loss": 0.3389502167701721, "train_loss_bc": 0.07516419887542725, "train_loss_llm": 0.2637860178947449, "grad_norm": 0.2589643895626068, "global_step": 1481, "epoch": 6, "lr": 0.009999137569489731}
+{"train_loss": 0.3933073580265045, "train_loss_bc": 0.07419969886541367, "train_loss_llm": 0.31910765171051025, "grad_norm": 0.5312948226928711, "global_step": 1482, "epoch": 6, "lr": 0.009999137569489731}
+{"train_loss": 0.3688376247882843, "train_loss_bc": 0.08734606951475143, "train_loss_llm": 0.28149154782295227, "grad_norm": 0.5641780495643616, "global_step": 1483, "epoch": 6, "lr": 0.009999137569489731}
+{"train_loss": 0.3594745397567749, "train_loss_bc": 0.07639889419078827, "train_loss_llm": 0.2830756604671478, "grad_norm": 0.7806139588356018, "global_step": 1484, "epoch": 6, "lr": 0.009999137569489731}
+{"train_loss": 0.38781940937042236, "train_loss_bc": 0.07756926119327545, "train_loss_llm": 0.3102501630783081, "grad_norm": 0.8794524669647217, "global_step": 1485, "epoch": 6, "lr": 0.009999137569489731}
+{"train_loss": 0.39316317439079285, "train_loss_bc": 0.06764892488718033, "train_loss_llm": 0.3255142569541931, "grad_norm": 1.034761667251587, "global_step": 1486, "epoch": 6, "lr": 0.009999137569489731}
+{"train_loss": 0.41634735465049744, "train_loss_bc": 0.06646432727575302, "train_loss_llm": 0.3498830199241638, "grad_norm": 1.486865758895874, "global_step": 1487, "epoch": 6, "lr": 0.009999137569489731}
+{"train_loss": 0.4116080403327942, "train_loss_bc": 0.07673346996307373, "train_loss_llm": 0.33487457036972046, "grad_norm": 1.6983875036239624, "global_step": 1488, "epoch": 6, "lr": 0.009999127741586896}
+{"train_loss": 0.4021530747413635, "train_loss_bc": 0.07725116610527039, "train_loss_llm": 0.32490190863609314, "grad_norm": 0.20447446405887604, "global_step": 1489, "epoch": 6, "lr": 0.009999127741586896}
+{"train_loss": 0.384514182806015, "train_loss_bc": 0.07725739479064941, "train_loss_llm": 0.3072567880153656, "grad_norm": 0.45221656560897827, "global_step": 1490, "epoch": 6, "lr": 0.009999127741586896}
+{"train_loss": 0.4177454113960266, "train_loss_bc": 0.07660786807537079, "train_loss_llm": 0.34113752841949463, "grad_norm": 0.7443872690200806, "global_step": 1491, "epoch": 6, "lr": 0.009999127741586896}
+{"train_loss": 0.3959225118160248, "train_loss_bc": 0.0660753846168518, "train_loss_llm": 0.329847127199173, "grad_norm": 1.037766933441162, "global_step": 1492, "epoch": 6, "lr": 0.009999127741586896}
+{"train_loss": 0.3724263906478882, "train_loss_bc": 0.0724760890007019, "train_loss_llm": 0.2999503016471863, "grad_norm": 1.1266776323318481, "global_step": 1493, "epoch": 6, "lr": 0.009999127741586896}
+{"train_loss": 0.32602792978286743, "train_loss_bc": 0.06299892067909241, "train_loss_llm": 0.263029009103775, "grad_norm": 1.3252431154251099, "global_step": 1494, "epoch": 6, "lr": 0.009999127741586896}
+{"train_loss": 0.42794713377952576, "train_loss_bc": 0.08071238547563553, "train_loss_llm": 0.3472347557544708, "grad_norm": 1.4005221128463745, "global_step": 1495, "epoch": 6, "lr": 0.009999127741586896}
+{"train_loss": 0.40608036518096924, "train_loss_bc": 0.08527374267578125, "train_loss_llm": 0.320806622505188, "grad_norm": 1.8137400150299072, "global_step": 1496, "epoch": 6, "lr": 0.009999117858008387}
+{"train_loss": 0.3549998700618744, "train_loss_bc": 0.0652042031288147, "train_loss_llm": 0.2897956669330597, "grad_norm": 0.22595666348934174, "global_step": 1497, "epoch": 6, "lr": 0.009999117858008387}
+{"train_loss": 0.4339302182197571, "train_loss_bc": 0.07523128390312195, "train_loss_llm": 0.35869893431663513, "grad_norm": 0.2924794852733612, "global_step": 1498, "epoch": 6, "lr": 0.009999117858008387}
+{"train_loss": 0.3281877040863037, "train_loss_bc": 0.06867697089910507, "train_loss_llm": 0.25951072573661804, "grad_norm": 0.3175717294216156, "global_step": 1499, "epoch": 6, "lr": 0.009999117858008387}
+{"train_loss": 0.4666430354118347, "train_loss_bc": 0.07795185595750809, "train_loss_llm": 0.3886911869049072, "grad_norm": 0.5257339477539062, "global_step": 1500, "epoch": 6, "lr": 0.009999117858008387}
+{"train_loss": 0.3942236304283142, "train_loss_bc": 0.06520229578018188, "train_loss_llm": 0.3290213346481323, "grad_norm": 0.5710198879241943, "global_step": 1501, "epoch": 6, "lr": 0.009999117858008387}
+{"train_loss": 0.3808383345603943, "train_loss_bc": 0.06620577722787857, "train_loss_llm": 0.3146325647830963, "grad_norm": 0.7781753540039062, "global_step": 1502, "epoch": 6, "lr": 0.009999117858008387}
+{"train_loss": 0.4185372292995453, "train_loss_bc": 0.06029004603624344, "train_loss_llm": 0.35824719071388245, "grad_norm": 1.1970443725585938, "global_step": 1503, "epoch": 6, "lr": 0.009999117858008387}
+{"train_loss": 0.4066808223724365, "train_loss_bc": 0.051722362637519836, "train_loss_llm": 0.3549584746360779, "grad_norm": 1.4594911336898804, "global_step": 1504, "epoch": 6, "lr": 0.009999107918754314}
+{"train_loss": 0.35224875807762146, "train_loss_bc": 0.05408673733472824, "train_loss_llm": 0.2981620132923126, "grad_norm": 0.15125149488449097, "global_step": 1505, "epoch": 6, "lr": 0.009999107918754314}
+{"train_loss": 0.35372233390808105, "train_loss_bc": 0.04440905898809433, "train_loss_llm": 0.30931326746940613, "grad_norm": 0.14698977768421173, "global_step": 1506, "epoch": 6, "lr": 0.009999107918754314}
+{"train_loss": 0.3670732378959656, "train_loss_bc": 0.058449529111385345, "train_loss_llm": 0.30862370133399963, "grad_norm": 0.356597900390625, "global_step": 1507, "epoch": 6, "lr": 0.009999107918754314}
+{"train_loss": 0.4205497205257416, "train_loss_bc": 0.05776676908135414, "train_loss_llm": 0.36278295516967773, "grad_norm": 0.32903820276260376, "global_step": 1508, "epoch": 6, "lr": 0.009999107918754314}
+{"train_loss": 0.35578057169914246, "train_loss_bc": 0.056438595056533813, "train_loss_llm": 0.29934197664260864, "grad_norm": 0.318085253238678, "global_step": 1509, "epoch": 6, "lr": 0.009999107918754314}
+{"train_loss": 0.40873387455940247, "train_loss_bc": 0.06109243631362915, "train_loss_llm": 0.3476414382457733, "grad_norm": 0.33276060223579407, "global_step": 1510, "epoch": 6, "lr": 0.009999107918754314}
+{"train_loss": 0.3381177484989166, "train_loss_bc": 0.057078443467617035, "train_loss_llm": 0.281039297580719, "grad_norm": 0.34663814306259155, "global_step": 1511, "epoch": 6, "lr": 0.009999107918754314}
+{"train_loss": 0.40217363834381104, "train_loss_bc": 0.06571437418460846, "train_loss_llm": 0.3364592492580414, "grad_norm": 0.3726654648780823, "global_step": 1512, "epoch": 6, "lr": 0.009999097923824788}
+{"train_loss": 0.35603511333465576, "train_loss_bc": 0.05520586296916008, "train_loss_llm": 0.3008292615413666, "grad_norm": 0.11083760112524033, "global_step": 1513, "epoch": 6, "lr": 0.009999097923824788}
+{"train_loss": 0.3857841491699219, "train_loss_bc": 0.060204289853572845, "train_loss_llm": 0.32557985186576843, "grad_norm": 0.27591416239738464, "global_step": 1514, "epoch": 6, "lr": 0.009999097923824788}
+{"train_loss": 0.34598249197006226, "train_loss_bc": 0.0462900847196579, "train_loss_llm": 0.29969242215156555, "grad_norm": 0.4035240709781647, "global_step": 1515, "epoch": 6, "lr": 0.009999097923824788}
+{"train_loss": 0.35184088349342346, "train_loss_bc": 0.03894725441932678, "train_loss_llm": 0.3128936290740967, "grad_norm": 0.556161642074585, "global_step": 1516, "epoch": 6, "lr": 0.009999097923824788}
+{"train_loss": 0.3272879719734192, "train_loss_bc": 0.04696018993854523, "train_loss_llm": 0.28032776713371277, "grad_norm": 0.8157252669334412, "global_step": 1517, "epoch": 6, "lr": 0.009999097923824788}
+{"train_loss": 0.3809499144554138, "train_loss_bc": 0.055870283395051956, "train_loss_llm": 0.32507961988449097, "grad_norm": 0.9742076992988586, "global_step": 1518, "epoch": 6, "lr": 0.009999097923824788}
+{"train_loss": 0.4061242640018463, "train_loss_bc": 0.06192818656563759, "train_loss_llm": 0.344196081161499, "grad_norm": 0.9884278774261475, "global_step": 1519, "epoch": 6, "lr": 0.009999097923824788}
+{"train_loss": 0.4385513365268707, "train_loss_bc": 0.05219558626413345, "train_loss_llm": 0.38635575771331787, "grad_norm": 1.088639259338379, "global_step": 1520, "epoch": 6, "lr": 0.009999087873219917}
+{"train_loss": 0.3465261459350586, "train_loss_bc": 0.04894963651895523, "train_loss_llm": 0.29757651686668396, "grad_norm": 0.18954287469387054, "global_step": 1521, "epoch": 6, "lr": 0.009999087873219917}
+{"train_loss": 0.41888704895973206, "train_loss_bc": 0.043065398931503296, "train_loss_llm": 0.37582165002822876, "grad_norm": 0.37086987495422363, "global_step": 1522, "epoch": 6, "lr": 0.009999087873219917}
+{"train_loss": 0.4059273600578308, "train_loss_bc": 0.05093192309141159, "train_loss_llm": 0.3549954295158386, "grad_norm": 0.6348915100097656, "global_step": 1523, "epoch": 6, "lr": 0.009999087873219917}
+{"train_loss": 0.3972315192222595, "train_loss_bc": 0.048349007964134216, "train_loss_llm": 0.3488824963569641, "grad_norm": 0.6822160482406616, "global_step": 1524, "epoch": 6, "lr": 0.009999087873219917}
+{"train_loss": 0.3836495280265808, "train_loss_bc": 0.05255840718746185, "train_loss_llm": 0.33109113574028015, "grad_norm": 0.9136046767234802, "global_step": 1525, "epoch": 6, "lr": 0.009999087873219917}
+{"train_loss": 0.4246482253074646, "train_loss_bc": 0.05595436692237854, "train_loss_llm": 0.36869385838508606, "grad_norm": 0.9885969758033752, "global_step": 1526, "epoch": 6, "lr": 0.009999087873219917}
+{"train_loss": 0.3770548403263092, "train_loss_bc": 0.04919867962598801, "train_loss_llm": 0.3278561532497406, "grad_norm": 1.1863571405410767, "global_step": 1527, "epoch": 6, "lr": 0.009999087873219917}
+{"train_loss": 0.3794351816177368, "train_loss_bc": 0.055299654603004456, "train_loss_llm": 0.32413554191589355, "grad_norm": 1.3172595500946045, "global_step": 1528, "epoch": 6, "lr": 0.009999077766939818}
+{"train_loss": 0.4030618667602539, "train_loss_bc": 0.0641726702451706, "train_loss_llm": 0.3388891816139221, "grad_norm": 0.09284099191427231, "global_step": 1529, "epoch": 6, "lr": 0.009999077766939818}
+{"train_loss": 0.4185514748096466, "train_loss_bc": 0.05244573578238487, "train_loss_llm": 0.36610573530197144, "grad_norm": 0.20214931666851044, "global_step": 1530, "epoch": 6, "lr": 0.009999077766939818}
+{"train_loss": 0.34049949049949646, "train_loss_bc": 0.04612395912408829, "train_loss_llm": 0.29437553882598877, "grad_norm": 0.5762534141540527, "global_step": 1531, "epoch": 6, "lr": 0.009999077766939818}
+{"train_loss": 0.3474377989768982, "train_loss_bc": 0.042362067848443985, "train_loss_llm": 0.3050757348537445, "grad_norm": 0.6718428730964661, "global_step": 1532, "epoch": 6, "lr": 0.009999077766939818}
+{"train_loss": 0.3792061507701874, "train_loss_bc": 0.053772903978824615, "train_loss_llm": 0.32543325424194336, "grad_norm": 0.7150874733924866, "global_step": 1533, "epoch": 6, "lr": 0.009999077766939818}
+{"train_loss": 0.405367910861969, "train_loss_bc": 0.051257360726594925, "train_loss_llm": 0.3541105389595032, "grad_norm": 0.747879683971405, "global_step": 1534, "epoch": 6, "lr": 0.009999077766939818}
+{"train_loss": 0.38723140954971313, "train_loss_bc": 0.05327432602643967, "train_loss_llm": 0.33395707607269287, "grad_norm": 0.9513279795646667, "global_step": 1535, "epoch": 6, "lr": 0.009999077766939818}
+{"train_loss": 0.3643866181373596, "train_loss_bc": 0.0526510626077652, "train_loss_llm": 0.3117355704307556, "grad_norm": 1.0882502794265747, "global_step": 1536, "epoch": 6, "lr": 0.0099990676049846}
+{"train_loss": 0.3974705636501312, "train_loss_bc": 0.06053689494729042, "train_loss_llm": 0.3369336724281311, "grad_norm": 0.09859924018383026, "global_step": 1537, "epoch": 6, "lr": 0.0099990676049846}
+{"train_loss": 0.4252433180809021, "train_loss_bc": 0.06596466153860092, "train_loss_llm": 0.3592786490917206, "grad_norm": 0.21610666811466217, "global_step": 1538, "epoch": 6, "lr": 0.0099990676049846}
+{"train_loss": 0.3633272051811218, "train_loss_bc": 0.056426651775836945, "train_loss_llm": 0.3069005608558655, "grad_norm": 0.3482184112071991, "global_step": 1539, "epoch": 6, "lr": 0.0099990676049846}
+{"train_loss": 0.3426530659198761, "train_loss_bc": 0.06436743587255478, "train_loss_llm": 0.2782856225967407, "grad_norm": 0.369216650724411, "global_step": 1540, "epoch": 6, "lr": 0.0099990676049846}
+{"train_loss": 0.3736867308616638, "train_loss_bc": 0.05143905431032181, "train_loss_llm": 0.3222476840019226, "grad_norm": 0.5235579013824463, "global_step": 1541, "epoch": 6, "lr": 0.0099990676049846}
+{"train_loss": 0.36212003231048584, "train_loss_bc": 0.056448712944984436, "train_loss_llm": 0.3056713044643402, "grad_norm": 0.5551358461380005, "global_step": 1542, "epoch": 6, "lr": 0.0099990676049846}
+{"train_loss": 0.3585420846939087, "train_loss_bc": 0.055580321699380875, "train_loss_llm": 0.3029617667198181, "grad_norm": 0.597274124622345, "global_step": 1543, "epoch": 6, "lr": 0.0099990676049846}
+{"train_loss": 0.40569135546684265, "train_loss_bc": 0.05374450236558914, "train_loss_llm": 0.3519468605518341, "grad_norm": 0.748847246170044, "global_step": 1544, "epoch": 6, "lr": 0.009999057387354378}
+{"train_loss": 0.356203556060791, "train_loss_bc": 0.04961298406124115, "train_loss_llm": 0.30659055709838867, "grad_norm": 0.1951756328344345, "global_step": 1545, "epoch": 6, "lr": 0.009999057387354378}
+{"train_loss": 0.3931710422039032, "train_loss_bc": 0.07613199204206467, "train_loss_llm": 0.31703904271125793, "grad_norm": 0.2812471091747284, "global_step": 1546, "epoch": 6, "lr": 0.009999057387354378}
+{"train_loss": 0.3806036114692688, "train_loss_bc": 0.05930813029408455, "train_loss_llm": 0.32129546999931335, "grad_norm": 0.4504828155040741, "global_step": 1547, "epoch": 6, "lr": 0.009999057387354378}
+{"train_loss": 0.30574148893356323, "train_loss_bc": 0.04677845537662506, "train_loss_llm": 0.25896304845809937, "grad_norm": 0.5822638869285583, "global_step": 1548, "epoch": 6, "lr": 0.009999057387354378}
+{"train_loss": 0.31661853194236755, "train_loss_bc": 0.05046703666448593, "train_loss_llm": 0.266151487827301, "grad_norm": 0.6640739440917969, "global_step": 1549, "epoch": 6, "lr": 0.009999057387354378}
+{"train_loss": 0.34737029671669006, "train_loss_bc": 0.0512276254594326, "train_loss_llm": 0.29614266753196716, "grad_norm": 0.7394713759422302, "global_step": 1550, "epoch": 6, "lr": 0.009999057387354378}
+{"train_loss": 0.3831838369369507, "train_loss_bc": 0.06337323784828186, "train_loss_llm": 0.3198105990886688, "grad_norm": 0.8647981882095337, "global_step": 1551, "epoch": 6, "lr": 0.009999057387354378}
+{"train_loss": 0.35154327750205994, "train_loss_bc": 0.05742481350898743, "train_loss_llm": 0.2941184639930725, "grad_norm": 0.9588636755943298, "global_step": 1552, "epoch": 6, "lr": 0.009999047114049264}
+{"train_loss": 0.34336337447166443, "train_loss_bc": 0.05694279074668884, "train_loss_llm": 0.2864205837249756, "grad_norm": 0.17830979824066162, "global_step": 1553, "epoch": 6, "lr": 0.009999047114049264}
+{"train_loss": 0.43405768275260925, "train_loss_bc": 0.07506003230810165, "train_loss_llm": 0.358997642993927, "grad_norm": 0.3625474274158478, "global_step": 1554, "epoch": 6, "lr": 0.009999047114049264}
+{"train_loss": 0.37242013216018677, "train_loss_bc": 0.0593675822019577, "train_loss_llm": 0.31305253505706787, "grad_norm": 0.6613458395004272, "global_step": 1555, "epoch": 6, "lr": 0.009999047114049264}
+{"train_loss": 0.42457252740859985, "train_loss_bc": 0.08270187675952911, "train_loss_llm": 0.34187063574790955, "grad_norm": 0.7944937348365784, "global_step": 1556, "epoch": 6, "lr": 0.009999047114049264}
+{"train_loss": 0.3768569231033325, "train_loss_bc": 0.08103960752487183, "train_loss_llm": 0.2958173155784607, "grad_norm": 0.9953393936157227, "global_step": 1557, "epoch": 6, "lr": 0.009999047114049264}
+{"train_loss": 0.3503534197807312, "train_loss_bc": 0.051151201128959656, "train_loss_llm": 0.29920223355293274, "grad_norm": 1.3633527755737305, "global_step": 1558, "epoch": 6, "lr": 0.009999047114049264}
+{"train_loss": 0.35568737983703613, "train_loss_bc": 0.06587401032447815, "train_loss_llm": 0.289813369512558, "grad_norm": 1.516014814376831, "global_step": 1559, "epoch": 6, "lr": 0.009999047114049264}
+{"train_loss": 0.40274178981781006, "train_loss_bc": 0.07628512382507324, "train_loss_llm": 0.3264566659927368, "grad_norm": 1.5740201473236084, "global_step": 1560, "epoch": 6, "lr": 0.009999036785069373}
+{"train_loss": 0.4396136403083801, "train_loss_bc": 0.06658206880092621, "train_loss_llm": 0.3730315864086151, "grad_norm": 0.2325354814529419, "global_step": 1561, "epoch": 6, "lr": 0.009999036785069373}
+{"train_loss": 0.31579118967056274, "train_loss_bc": 0.060180868953466415, "train_loss_llm": 0.25561031699180603, "grad_norm": 0.5696695446968079, "global_step": 1562, "epoch": 6, "lr": 0.009999036785069373}
+{"train_loss": 0.4484158456325531, "train_loss_bc": 0.08709696680307388, "train_loss_llm": 0.3613188862800598, "grad_norm": 0.9638566970825195, "global_step": 1563, "epoch": 6, "lr": 0.009999036785069373}
+{"train_loss": 0.3730396032333374, "train_loss_bc": 0.0853690654039383, "train_loss_llm": 0.2876705527305603, "grad_norm": 1.2065372467041016, "global_step": 1564, "epoch": 6, "lr": 0.009999036785069373}
+{"train_loss": 0.379402756690979, "train_loss_bc": 0.08596429973840714, "train_loss_llm": 0.29343846440315247, "grad_norm": 1.718045949935913, "global_step": 1565, "epoch": 6, "lr": 0.009999036785069373}
+{"train_loss": 0.36810189485549927, "train_loss_bc": 0.06853170692920685, "train_loss_llm": 0.2995702028274536, "grad_norm": 1.7351211309432983, "global_step": 1566, "epoch": 6, "lr": 0.009999036785069373}
+{"train_loss": 0.44551748037338257, "train_loss_bc": 0.09674528241157532, "train_loss_llm": 0.34877219796180725, "grad_norm": 1.9166042804718018, "global_step": 1567, "epoch": 6, "lr": 0.009999036785069373}
+{"train_loss": 0.40417197346687317, "train_loss_bc": 0.08263435959815979, "train_loss_llm": 0.3215376138687134, "grad_norm": 2.015212059020996, "global_step": 1568, "epoch": 6, "lr": 0.00999902640041482}
+{"train_loss": 0.3532639443874359, "train_loss_bc": 0.07912423461675644, "train_loss_llm": 0.2741397023200989, "grad_norm": 0.18482542037963867, "global_step": 1569, "epoch": 6, "lr": 0.00999902640041482}
+{"train_loss": 0.4166276454925537, "train_loss_bc": 0.08694344758987427, "train_loss_llm": 0.32968419790267944, "grad_norm": 0.47971782088279724, "global_step": 1570, "epoch": 6, "lr": 0.00999902640041482}
+{"train_loss": 0.435175359249115, "train_loss_bc": 0.09675706923007965, "train_loss_llm": 0.33841830492019653, "grad_norm": 0.49031680822372437, "global_step": 1571, "epoch": 6, "lr": 0.00999902640041482}
+{"train_loss": 0.3850994110107422, "train_loss_bc": 0.09093558043241501, "train_loss_llm": 0.2941638231277466, "grad_norm": 0.4625539183616638, "global_step": 1572, "epoch": 6, "lr": 0.00999902640041482}
+{"train_loss": 0.32175710797309875, "train_loss_bc": 0.07858257740736008, "train_loss_llm": 0.24317452311515808, "grad_norm": 0.5190997123718262, "global_step": 1573, "epoch": 6, "lr": 0.00999902640041482}
+{"train_loss": 0.4090699851512909, "train_loss_bc": 0.09125018119812012, "train_loss_llm": 0.3178198039531708, "grad_norm": 0.7668021321296692, "global_step": 1574, "epoch": 6, "lr": 0.00999902640041482}
+{"train_loss": 0.3753921687602997, "train_loss_bc": 0.11524542421102524, "train_loss_llm": 0.26014673709869385, "grad_norm": 0.9452959895133972, "global_step": 1575, "epoch": 6, "lr": 0.00999902640041482}
+{"train_loss": 0.3558117747306824, "train_loss_bc": 0.08599697053432465, "train_loss_llm": 0.2698148190975189, "grad_norm": 0.9960489869117737, "global_step": 1576, "epoch": 6, "lr": 0.009999015960085724}
+{"train_loss": 0.4386768043041229, "train_loss_bc": 0.08558258414268494, "train_loss_llm": 0.353094220161438, "grad_norm": 0.1273016482591629, "global_step": 1577, "epoch": 6, "lr": 0.009999015960085724}
+{"train_loss": 0.37436604499816895, "train_loss_bc": 0.07383321225643158, "train_loss_llm": 0.30053284764289856, "grad_norm": 0.20466242730617523, "global_step": 1578, "epoch": 6, "lr": 0.009999015960085724}
+{"train_loss": 0.35451120138168335, "train_loss_bc": 0.09028513729572296, "train_loss_llm": 0.2642260491847992, "grad_norm": 0.2915131449699402, "global_step": 1579, "epoch": 6, "lr": 0.009999015960085724}
+{"train_loss": 0.393821120262146, "train_loss_bc": 0.10307547450065613, "train_loss_llm": 0.29074564576148987, "grad_norm": 0.44719502329826355, "global_step": 1580, "epoch": 6, "lr": 0.009999015960085724}
+{"train_loss": 0.36764711141586304, "train_loss_bc": 0.07625748217105865, "train_loss_llm": 0.2913896441459656, "grad_norm": 0.4902922511100769, "global_step": 1581, "epoch": 6, "lr": 0.009999015960085724}
+{"train_loss": 0.3710138201713562, "train_loss_bc": 0.09152460098266602, "train_loss_llm": 0.2794892191886902, "grad_norm": 0.690193772315979, "global_step": 1582, "epoch": 6, "lr": 0.009999015960085724}
+{"train_loss": 0.4006490111351013, "train_loss_bc": 0.1161467656493187, "train_loss_llm": 0.284502238035202, "grad_norm": 0.7637850046157837, "global_step": 1583, "epoch": 6, "lr": 0.009999015960085724}
+{"train_loss": 0.3163445293903351, "train_loss_bc": 0.07438895106315613, "train_loss_llm": 0.24195557832717896, "grad_norm": 0.8264155387878418, "global_step": 1584, "epoch": 6, "lr": 0.009999005464082196}
+{"train_loss": 0.41485151648521423, "train_loss_bc": 0.0908503457903862, "train_loss_llm": 0.32400116324424744, "grad_norm": 0.18838120996952057, "global_step": 1585, "epoch": 6, "lr": 0.009999005464082196}
+{"train_loss": 0.4110707938671112, "train_loss_bc": 0.06509160250425339, "train_loss_llm": 0.3459791839122772, "grad_norm": 0.6751598119735718, "global_step": 1586, "epoch": 6, "lr": 0.009999005464082196}
+{"train_loss": 0.363075852394104, "train_loss_bc": 0.08417877554893494, "train_loss_llm": 0.27889707684516907, "grad_norm": 0.8614604473114014, "global_step": 1587, "epoch": 6, "lr": 0.009999005464082196}
+{"train_loss": 0.3688826560974121, "train_loss_bc": 0.06683248281478882, "train_loss_llm": 0.3020501732826233, "grad_norm": 1.2072441577911377, "global_step": 1588, "epoch": 6, "lr": 0.009999005464082196}
+{"train_loss": 0.3502880930900574, "train_loss_bc": 0.08063389360904694, "train_loss_llm": 0.26965418457984924, "grad_norm": 1.3529636859893799, "global_step": 1589, "epoch": 6, "lr": 0.009999005464082196}
+{"train_loss": 0.3571937680244446, "train_loss_bc": 0.07454116642475128, "train_loss_llm": 0.2826525866985321, "grad_norm": 1.493629813194275, "global_step": 1590, "epoch": 6, "lr": 0.009999005464082196}
+{"train_loss": 0.3540283441543579, "train_loss_bc": 0.06839752942323685, "train_loss_llm": 0.28563082218170166, "grad_norm": 2.06441068649292, "global_step": 1591, "epoch": 6, "lr": 0.009999005464082196}
+{"train_loss": 0.4065401256084442, "train_loss_bc": 0.09849169105291367, "train_loss_llm": 0.30804842710494995, "grad_norm": 2.1059165000915527, "global_step": 1592, "epoch": 6, "lr": 0.009998994912404358}
+{"train_loss": 0.38923993706703186, "train_loss_bc": 0.0629236102104187, "train_loss_llm": 0.32631632685661316, "grad_norm": 0.22327813506126404, "global_step": 1593, "epoch": 6, "lr": 0.009998994912404358}
+{"train_loss": 0.4249913990497589, "train_loss_bc": 0.07633116841316223, "train_loss_llm": 0.3486602306365967, "grad_norm": 0.33924928307533264, "global_step": 1594, "epoch": 6, "lr": 0.009998994912404358}
+{"train_loss": 0.3437004089355469, "train_loss_bc": 0.0695604681968689, "train_loss_llm": 0.274139940738678, "grad_norm": 0.6230061650276184, "global_step": 1595, "epoch": 6, "lr": 0.009998994912404358}
+{"train_loss": 0.42500317096710205, "train_loss_bc": 0.06735475361347198, "train_loss_llm": 0.35764843225479126, "grad_norm": 1.02345609664917, "global_step": 1596, "epoch": 6, "lr": 0.009998994912404358}
+{"train_loss": 0.42198824882507324, "train_loss_bc": 0.07135787606239319, "train_loss_llm": 0.35063037276268005, "grad_norm": 1.227034091949463, "global_step": 1597, "epoch": 6, "lr": 0.009998994912404358}
+{"train_loss": 0.40231966972351074, "train_loss_bc": 0.10091322660446167, "train_loss_llm": 0.3014064431190491, "grad_norm": 1.2476637363433838, "global_step": 1598, "epoch": 6, "lr": 0.009998994912404358}
+{"train_loss": 0.29328933358192444, "train_loss_bc": 0.04813719168305397, "train_loss_llm": 0.24515214562416077, "grad_norm": 1.482853651046753, "global_step": 1599, "epoch": 6, "lr": 0.009998994912404358}
+{"train_loss": 0.40527814626693726, "train_loss_bc": 0.07881207764148712, "train_loss_llm": 0.32646608352661133, "grad_norm": 1.7762373685836792, "global_step": 1600, "epoch": 6, "lr": 0.009998984305052323}
+{"train_loss": 0.38605546951293945, "train_loss_bc": 0.08630010485649109, "train_loss_llm": 0.29975536465644836, "grad_norm": 0.2304304540157318, "global_step": 1601, "epoch": 6, "lr": 0.009998984305052323}
+{"train_loss": 0.4221339821815491, "train_loss_bc": 0.07448859512805939, "train_loss_llm": 0.3476453721523285, "grad_norm": 0.3473600447177887, "global_step": 1602, "epoch": 6, "lr": 0.009998984305052323}
+{"train_loss": 0.3852067291736603, "train_loss_bc": 0.08439522981643677, "train_loss_llm": 0.3008114993572235, "grad_norm": 0.59902024269104, "global_step": 1603, "epoch": 6, "lr": 0.009998984305052323}
+{"train_loss": 0.29610615968704224, "train_loss_bc": 0.06612500548362732, "train_loss_llm": 0.22998115420341492, "grad_norm": 0.8189723491668701, "global_step": 1604, "epoch": 6, "lr": 0.009998984305052323}
+{"train_loss": 0.3583969473838806, "train_loss_bc": 0.0611562617123127, "train_loss_llm": 0.297240674495697, "grad_norm": 0.9879958033561707, "global_step": 1605, "epoch": 6, "lr": 0.009998984305052323}
+{"train_loss": 0.3601911664009094, "train_loss_bc": 0.07862779498100281, "train_loss_llm": 0.2815633714199066, "grad_norm": 1.0996627807617188, "global_step": 1606, "epoch": 6, "lr": 0.009998984305052323}
+{"train_loss": 0.36866816878318787, "train_loss_bc": 0.08292705565690994, "train_loss_llm": 0.2857411205768585, "grad_norm": 1.2202258110046387, "global_step": 1607, "epoch": 6, "lr": 0.009998984305052323}
+{"train_loss": 0.38092637062072754, "train_loss_bc": 0.07133563607931137, "train_loss_llm": 0.30959072709083557, "grad_norm": 1.300479769706726, "global_step": 1608, "epoch": 6, "lr": 0.00999897364202621}
+{"train_loss": 0.4276788830757141, "train_loss_bc": 0.07730717957019806, "train_loss_llm": 0.35037168860435486, "grad_norm": 0.2089974284172058, "global_step": 1609, "epoch": 6, "lr": 0.00999897364202621}
+{"train_loss": 0.370039701461792, "train_loss_bc": 0.07821451127529144, "train_loss_llm": 0.29182517528533936, "grad_norm": 0.3855687081813812, "global_step": 1610, "epoch": 6, "lr": 0.00999897364202621}
+{"train_loss": 0.3761782944202423, "train_loss_bc": 0.0904235765337944, "train_loss_llm": 0.2857547104358673, "grad_norm": 0.48772162199020386, "global_step": 1611, "epoch": 6, "lr": 0.00999897364202621}
+{"train_loss": 0.28590965270996094, "train_loss_bc": 0.04752659425139427, "train_loss_llm": 0.23838305473327637, "grad_norm": 0.8840028047561646, "global_step": 1612, "epoch": 6, "lr": 0.00999897364202621}
+{"train_loss": 0.30043962597846985, "train_loss_bc": 0.07037528604269028, "train_loss_llm": 0.23006433248519897, "grad_norm": 0.9770386815071106, "global_step": 1613, "epoch": 6, "lr": 0.00999897364202621}
+{"train_loss": 0.32047590613365173, "train_loss_bc": 0.0697411596775055, "train_loss_llm": 0.25073474645614624, "grad_norm": 1.108674168586731, "global_step": 1614, "epoch": 6, "lr": 0.00999897364202621}
+{"train_loss": 0.28312021493911743, "train_loss_bc": 0.06817658245563507, "train_loss_llm": 0.21494364738464355, "grad_norm": 1.2023885250091553, "global_step": 1615, "epoch": 6, "lr": 0.00999897364202621}
+{"train_loss": 0.3843621015548706, "train_loss_bc": 0.07573528587818146, "train_loss_llm": 0.30862680077552795, "grad_norm": 1.376373291015625, "global_step": 1616, "epoch": 6, "lr": 0.00999896292332614}
+{"train_loss": 0.35626447200775146, "train_loss_bc": 0.07744164764881134, "train_loss_llm": 0.27882280945777893, "grad_norm": 0.25834083557128906, "global_step": 1617, "epoch": 6, "lr": 0.00999896292332614}
+{"train_loss": 0.3167758584022522, "train_loss_bc": 0.06383834779262543, "train_loss_llm": 0.2529374957084656, "grad_norm": 0.448318749666214, "global_step": 1618, "epoch": 6, "lr": 0.00999896292332614}
+{"train_loss": 0.3718138039112091, "train_loss_bc": 0.09201522916555405, "train_loss_llm": 0.27979856729507446, "grad_norm": 0.5147557854652405, "global_step": 1619, "epoch": 6, "lr": 0.00999896292332614}
+{"train_loss": 0.400515079498291, "train_loss_bc": 0.09217850118875504, "train_loss_llm": 0.3083365857601166, "grad_norm": 0.6871021389961243, "global_step": 1620, "epoch": 6, "lr": 0.00999896292332614}
+{"train_loss": 0.3788508176803589, "train_loss_bc": 0.08435303717851639, "train_loss_llm": 0.2944977879524231, "grad_norm": 0.8085633516311646, "global_step": 1621, "epoch": 6, "lr": 0.00999896292332614}
+{"train_loss": 0.34936800599098206, "train_loss_bc": 0.07366913557052612, "train_loss_llm": 0.27569887042045593, "grad_norm": 0.8276916146278381, "global_step": 1622, "epoch": 6, "lr": 0.00999896292332614}
+{"train_loss": 0.32193171977996826, "train_loss_bc": 0.07297383248806, "train_loss_llm": 0.24895787239074707, "grad_norm": 0.8445298075675964, "global_step": 1623, "epoch": 6, "lr": 0.00999896292332614}
+{"train_loss": 0.3780166208744049, "train_loss_bc": 0.08188172429800034, "train_loss_llm": 0.296134889125824, "grad_norm": 0.9459460377693176, "global_step": 1624, "epoch": 6, "lr": 0.009998952148952231}
+{"train_loss": 0.3142867088317871, "train_loss_bc": 0.07510082423686981, "train_loss_llm": 0.2391858994960785, "grad_norm": 0.33690565824508667, "global_step": 1625, "epoch": 6, "lr": 0.009998952148952231}
+{"train_loss": 0.35728156566619873, "train_loss_bc": 0.07174573838710785, "train_loss_llm": 0.2855358421802521, "grad_norm": 0.21200677752494812, "global_step": 1626, "epoch": 6, "lr": 0.009998952148952231}
+{"train_loss": 0.3266659379005432, "train_loss_bc": 0.058878201991319656, "train_loss_llm": 0.26778772473335266, "grad_norm": 0.7454918026924133, "global_step": 1627, "epoch": 6, "lr": 0.009998952148952231}
+{"train_loss": 0.29201817512512207, "train_loss_bc": 0.07195043563842773, "train_loss_llm": 0.22006773948669434, "grad_norm": 0.4453643262386322, "global_step": 1628, "epoch": 6, "lr": 0.009998952148952231}
+{"train_loss": 0.2944182753562927, "train_loss_bc": 0.047117121517658234, "train_loss_llm": 0.2473011612892151, "grad_norm": 0.7708187699317932, "global_step": 1629, "epoch": 6, "lr": 0.009998952148952231}
+{"train_loss": 0.3290413022041321, "train_loss_bc": 0.06960682570934296, "train_loss_llm": 0.2594344913959503, "grad_norm": 0.8892156481742859, "global_step": 1630, "epoch": 6, "lr": 0.009998952148952231}
+{"train_loss": 0.41034889221191406, "train_loss_bc": 0.0628964751958847, "train_loss_llm": 0.34745243191719055, "grad_norm": 0.9616142511367798, "global_step": 1631, "epoch": 6, "lr": 0.009998952148952231}
+{"train_loss": 0.3652201294898987, "train_loss_bc": 0.06436420977115631, "train_loss_llm": 0.30085593461990356, "grad_norm": 0.9642853736877441, "global_step": 1632, "epoch": 6, "lr": 0.009998941318904601}
+{"train_loss": 0.3498106896877289, "train_loss_bc": 0.048881061375141144, "train_loss_llm": 0.30092963576316833, "grad_norm": 0.5391032695770264, "global_step": 1633, "epoch": 6, "lr": 0.009998941318904601}
+{"train_loss": 0.343913197517395, "train_loss_bc": 0.0680069699883461, "train_loss_llm": 0.2759062349796295, "grad_norm": 0.7295672297477722, "global_step": 1634, "epoch": 6, "lr": 0.009998941318904601}
+{"train_loss": 0.3704081177711487, "train_loss_bc": 0.07139067351818085, "train_loss_llm": 0.29901742935180664, "grad_norm": 1.1648606061935425, "global_step": 1635, "epoch": 6, "lr": 0.009998941318904601}
+{"train_loss": 0.3193461000919342, "train_loss_bc": 0.05228107422590256, "train_loss_llm": 0.26706501841545105, "grad_norm": 1.3869904279708862, "global_step": 1636, "epoch": 6, "lr": 0.009998941318904601}
+{"train_loss": 0.38507479429244995, "train_loss_bc": 0.06114216893911362, "train_loss_llm": 0.32393261790275574, "grad_norm": 1.4821432828903198, "global_step": 1637, "epoch": 6, "lr": 0.009998941318904601}
+{"train_loss": 0.27342456579208374, "train_loss_bc": 0.061944738030433655, "train_loss_llm": 0.2114798128604889, "grad_norm": 1.7936118841171265, "global_step": 1638, "epoch": 6, "lr": 0.009998941318904601}
+{"train_loss": 0.3451170325279236, "train_loss_bc": 0.08352489769458771, "train_loss_llm": 0.2615921199321747, "grad_norm": 1.8134626150131226, "global_step": 1639, "epoch": 6, "lr": 0.009998941318904601}
+{"train_loss": 0.33575814962387085, "train_loss_bc": 0.0617000013589859, "train_loss_llm": 0.27405813336372375, "grad_norm": 1.8950695991516113, "global_step": 1640, "epoch": 6, "lr": 0.009998930433183376}
+{"train_loss": 0.3366733193397522, "train_loss_bc": 0.05900845304131508, "train_loss_llm": 0.2776648700237274, "grad_norm": 0.11225219070911407, "global_step": 1641, "epoch": 6, "lr": 0.009998930433183376}
+{"train_loss": 0.3791029453277588, "train_loss_bc": 0.06747174263000488, "train_loss_llm": 0.3116312026977539, "grad_norm": 0.32165253162384033, "global_step": 1642, "epoch": 6, "lr": 0.009998930433183376}
+{"train_loss": 0.41614866256713867, "train_loss_bc": 0.07366184890270233, "train_loss_llm": 0.34248682856559753, "grad_norm": 0.3031291365623474, "global_step": 1643, "epoch": 6, "lr": 0.009998930433183376}
+{"train_loss": 0.42126286029815674, "train_loss_bc": 0.0682169497013092, "train_loss_llm": 0.35304591059684753, "grad_norm": 0.41230472922325134, "global_step": 1644, "epoch": 6, "lr": 0.009998930433183376}
+{"train_loss": 0.33079639077186584, "train_loss_bc": 0.06713628768920898, "train_loss_llm": 0.26366010308265686, "grad_norm": 0.39314156770706177, "global_step": 1645, "epoch": 6, "lr": 0.009998930433183376}
+{"train_loss": 0.38834914565086365, "train_loss_bc": 0.05902697890996933, "train_loss_llm": 0.3293221592903137, "grad_norm": 0.6313636898994446, "global_step": 1646, "epoch": 6, "lr": 0.009998930433183376}
+{"train_loss": 0.38831451535224915, "train_loss_bc": 0.07061100006103516, "train_loss_llm": 0.317703515291214, "grad_norm": 0.7344806790351868, "global_step": 1647, "epoch": 6, "lr": 0.009998930433183376}
+{"train_loss": 0.3980354070663452, "train_loss_bc": 0.0715438574552536, "train_loss_llm": 0.3264915347099304, "grad_norm": 0.9646230936050415, "global_step": 1648, "epoch": 6, "lr": 0.009998919491788672}
+{"train_loss": 0.3444794714450836, "train_loss_bc": 0.05825179070234299, "train_loss_llm": 0.28622767329216003, "grad_norm": 0.16870900988578796, "global_step": 1649, "epoch": 6, "lr": 0.009998919491788672}
+{"train_loss": 0.38760149478912354, "train_loss_bc": 0.05502663925290108, "train_loss_llm": 0.33257484436035156, "grad_norm": 0.4357771575450897, "global_step": 1650, "epoch": 6, "lr": 0.009998919491788672}
+{"train_loss": 0.32593807578086853, "train_loss_bc": 0.05640116333961487, "train_loss_llm": 0.26953691244125366, "grad_norm": 0.4933830499649048, "global_step": 1651, "epoch": 6, "lr": 0.009998919491788672}
+{"train_loss": 0.3946300446987152, "train_loss_bc": 0.05928850546479225, "train_loss_llm": 0.33534154295921326, "grad_norm": 0.8294484615325928, "global_step": 1652, "epoch": 6, "lr": 0.009998919491788672}
+{"train_loss": 0.3903549313545227, "train_loss_bc": 0.05479632318019867, "train_loss_llm": 0.33555862307548523, "grad_norm": 1.0996195077896118, "global_step": 1653, "epoch": 6, "lr": 0.009998919491788672}
+{"train_loss": 0.39750954508781433, "train_loss_bc": 0.06958025693893433, "train_loss_llm": 0.32792928814888, "grad_norm": 1.5818133354187012, "global_step": 1654, "epoch": 6, "lr": 0.009998919491788672}
+{"train_loss": 0.35966306924819946, "train_loss_bc": 0.064669169485569, "train_loss_llm": 0.29499390721321106, "grad_norm": 1.7839956283569336, "global_step": 1655, "epoch": 6, "lr": 0.009998919491788672}
+{"train_loss": 0.32856255769729614, "train_loss_bc": 0.05928932875394821, "train_loss_llm": 0.26927322149276733, "grad_norm": 1.9290895462036133, "global_step": 1656, "epoch": 6, "lr": 0.009998908494720612}
+{"train_loss": 0.3342960774898529, "train_loss_bc": 0.053608812391757965, "train_loss_llm": 0.28068727254867554, "grad_norm": 0.2414254993200302, "global_step": 1657, "epoch": 6, "lr": 0.009998908494720612}
+{"train_loss": 0.39186152815818787, "train_loss_bc": 0.05328727513551712, "train_loss_llm": 0.33857426047325134, "grad_norm": 0.28808942437171936, "global_step": 1658, "epoch": 6, "lr": 0.009998908494720612}
+{"train_loss": 0.2964392304420471, "train_loss_bc": 0.049363866448402405, "train_loss_llm": 0.2470753788948059, "grad_norm": 0.4880116581916809, "global_step": 1659, "epoch": 6, "lr": 0.009998908494720612}
+{"train_loss": 0.3618515729904175, "train_loss_bc": 0.05414725840091705, "train_loss_llm": 0.30770429968833923, "grad_norm": 0.5006968379020691, "global_step": 1660, "epoch": 6, "lr": 0.009998908494720612}
+{"train_loss": 0.40049540996551514, "train_loss_bc": 0.05351875722408295, "train_loss_llm": 0.3469766676425934, "grad_norm": 0.49241384863853455, "global_step": 1661, "epoch": 6, "lr": 0.009998908494720612}
+{"train_loss": 0.35785412788391113, "train_loss_bc": 0.04316003620624542, "train_loss_llm": 0.3146940767765045, "grad_norm": 0.7874588370323181, "global_step": 1662, "epoch": 6, "lr": 0.009998908494720612}
+{"train_loss": 0.353624165058136, "train_loss_bc": 0.05895897001028061, "train_loss_llm": 0.2946651875972748, "grad_norm": 0.8298804759979248, "global_step": 1663, "epoch": 6, "lr": 0.009998908494720612}
+{"train_loss": 0.4326709508895874, "train_loss_bc": 0.06085605546832085, "train_loss_llm": 0.37181490659713745, "grad_norm": 0.7858492136001587, "global_step": 1664, "epoch": 6, "lr": 0.009998897441979323}
+{"train_loss": 0.3764507227084216, "train_loss_bc": 0.062047701328992844, "train_loss_llm": 0.3469794988632202, "grad_norm": 0.15842896699905396, "global_step": 1665, "epoch": 6, "lr": 0.009998897441979323, "val_loss": 0.35098502039909363}
+{"train_loss": 0.4180462956428528, "train_loss_bc": 0.04578949511051178, "train_loss_llm": 0.3722568154335022, "grad_norm": 0.21008926630020142, "global_step": 1666, "epoch": 7, "lr": 0.009998897441979323}
+{"train_loss": 0.3765812814235687, "train_loss_bc": 0.05407017096877098, "train_loss_llm": 0.32251110672950745, "grad_norm": 0.31746789813041687, "global_step": 1667, "epoch": 7, "lr": 0.009998897441979323}
+{"train_loss": 0.3858303427696228, "train_loss_bc": 0.04953133314847946, "train_loss_llm": 0.33629900217056274, "grad_norm": 0.46182751655578613, "global_step": 1668, "epoch": 7, "lr": 0.009998897441979323}
+{"train_loss": 0.39336949586868286, "train_loss_bc": 0.04077225923538208, "train_loss_llm": 0.3525972366333008, "grad_norm": 0.4026010036468506, "global_step": 1669, "epoch": 7, "lr": 0.009998897441979323}
+{"train_loss": 0.3586035370826721, "train_loss_bc": 0.045881934463977814, "train_loss_llm": 0.3127216100692749, "grad_norm": 0.5487643480300903, "global_step": 1670, "epoch": 7, "lr": 0.009998897441979323}
+{"train_loss": 0.33266139030456543, "train_loss_bc": 0.05024217814207077, "train_loss_llm": 0.28241920471191406, "grad_norm": 0.6359094977378845, "global_step": 1671, "epoch": 7, "lr": 0.009998897441979323}
+{"train_loss": 0.2753089666366577, "train_loss_bc": 0.03759100288152695, "train_loss_llm": 0.23771795630455017, "grad_norm": 0.8435400128364563, "global_step": 1672, "epoch": 7, "lr": 0.00999888633356492}
+{"train_loss": 0.37366536259651184, "train_loss_bc": 0.054616354405879974, "train_loss_llm": 0.31904900074005127, "grad_norm": 0.11302237212657928, "global_step": 1673, "epoch": 7, "lr": 0.00999888633356492}
+{"train_loss": 0.3342615067958832, "train_loss_bc": 0.04543965309858322, "train_loss_llm": 0.28882184624671936, "grad_norm": 0.24709050357341766, "global_step": 1674, "epoch": 7, "lr": 0.00999888633356492}
+{"train_loss": 0.3832571506500244, "train_loss_bc": 0.0477469339966774, "train_loss_llm": 0.3355102241039276, "grad_norm": 0.38699185848236084, "global_step": 1675, "epoch": 7, "lr": 0.00999888633356492}
+{"train_loss": 0.3576637804508209, "train_loss_bc": 0.0601942241191864, "train_loss_llm": 0.2974695563316345, "grad_norm": 0.676538348197937, "global_step": 1676, "epoch": 7, "lr": 0.00999888633356492}
+{"train_loss": 0.3371146321296692, "train_loss_bc": 0.05022931843996048, "train_loss_llm": 0.2868853211402893, "grad_norm": 0.756446361541748, "global_step": 1677, "epoch": 7, "lr": 0.00999888633356492}
+{"train_loss": 0.39121702313423157, "train_loss_bc": 0.058405227959156036, "train_loss_llm": 0.33281180262565613, "grad_norm": 0.9468017220497131, "global_step": 1678, "epoch": 7, "lr": 0.00999888633356492}
+{"train_loss": 0.37810996174812317, "train_loss_bc": 0.05396966263651848, "train_loss_llm": 0.3241403102874756, "grad_norm": 1.0703328847885132, "global_step": 1679, "epoch": 7, "lr": 0.00999888633356492}
+{"train_loss": 0.39252781867980957, "train_loss_bc": 0.06686197966337204, "train_loss_llm": 0.32566583156585693, "grad_norm": 1.2071889638900757, "global_step": 1680, "epoch": 7, "lr": 0.009998875169477535}
+{"train_loss": 0.34571346640586853, "train_loss_bc": 0.06131970137357712, "train_loss_llm": 0.2843937575817108, "grad_norm": 0.20959168672561646, "global_step": 1681, "epoch": 7, "lr": 0.009998875169477535}
+{"train_loss": 0.3708537518978119, "train_loss_bc": 0.07402353733778, "train_loss_llm": 0.2968302071094513, "grad_norm": 0.25082874298095703, "global_step": 1682, "epoch": 7, "lr": 0.009998875169477535}
+{"train_loss": 0.37935346364974976, "train_loss_bc": 0.058240994811058044, "train_loss_llm": 0.3211124837398529, "grad_norm": 0.3472289741039276, "global_step": 1683, "epoch": 7, "lr": 0.009998875169477535}
+{"train_loss": 0.3689492344856262, "train_loss_bc": 0.07074834406375885, "train_loss_llm": 0.29820090532302856, "grad_norm": 0.39035698771476746, "global_step": 1684, "epoch": 7, "lr": 0.009998875169477535}
+{"train_loss": 0.38064637780189514, "train_loss_bc": 0.04618694633245468, "train_loss_llm": 0.33445942401885986, "grad_norm": 0.5238217711448669, "global_step": 1685, "epoch": 7, "lr": 0.009998875169477535}
+{"train_loss": 0.3217592239379883, "train_loss_bc": 0.06382864713668823, "train_loss_llm": 0.25793057680130005, "grad_norm": 0.6009277701377869, "global_step": 1686, "epoch": 7, "lr": 0.009998875169477535}
+{"train_loss": 0.3919174075126648, "train_loss_bc": 0.07264944911003113, "train_loss_llm": 0.31926795840263367, "grad_norm": 0.6749009490013123, "global_step": 1687, "epoch": 7, "lr": 0.009998875169477535}
+{"train_loss": 0.35793936252593994, "train_loss_bc": 0.06810835003852844, "train_loss_llm": 0.2898310124874115, "grad_norm": 0.7990018725395203, "global_step": 1688, "epoch": 7, "lr": 0.009998863949717286}
+{"train_loss": 0.3912865221500397, "train_loss_bc": 0.07485868781805038, "train_loss_llm": 0.3164278268814087, "grad_norm": 0.06472135335206985, "global_step": 1689, "epoch": 7, "lr": 0.009998863949717286}
+{"train_loss": 0.3258587121963501, "train_loss_bc": 0.06245272606611252, "train_loss_llm": 0.263405978679657, "grad_norm": 0.16428974270820618, "global_step": 1690, "epoch": 7, "lr": 0.009998863949717286}
+{"train_loss": 0.3059422969818115, "train_loss_bc": 0.06299854815006256, "train_loss_llm": 0.24294376373291016, "grad_norm": 0.2740243077278137, "global_step": 1691, "epoch": 7, "lr": 0.009998863949717286}
+{"train_loss": 0.36370018124580383, "train_loss_bc": 0.06929564476013184, "train_loss_llm": 0.294404536485672, "grad_norm": 0.2650889754295349, "global_step": 1692, "epoch": 7, "lr": 0.009998863949717286}
+{"train_loss": 0.3970831036567688, "train_loss_bc": 0.08918604999780655, "train_loss_llm": 0.30789706110954285, "grad_norm": 0.29215890169143677, "global_step": 1693, "epoch": 7, "lr": 0.009998863949717286}
+{"train_loss": 0.3544411063194275, "train_loss_bc": 0.07193818688392639, "train_loss_llm": 0.2825029194355011, "grad_norm": 0.35538506507873535, "global_step": 1694, "epoch": 7, "lr": 0.009998863949717286}
+{"train_loss": 0.31556010246276855, "train_loss_bc": 0.06455805897712708, "train_loss_llm": 0.2510020434856415, "grad_norm": 0.632907509803772, "global_step": 1695, "epoch": 7, "lr": 0.009998863949717286}
+{"train_loss": 0.29684484004974365, "train_loss_bc": 0.07479287683963776, "train_loss_llm": 0.2220519781112671, "grad_norm": 0.7670716643333435, "global_step": 1696, "epoch": 7, "lr": 0.0099988526742843}
+{"train_loss": 0.3399665057659149, "train_loss_bc": 0.07387933135032654, "train_loss_llm": 0.2660871744155884, "grad_norm": 0.04927961155772209, "global_step": 1697, "epoch": 7, "lr": 0.0099988526742843}
+{"train_loss": 0.35429805517196655, "train_loss_bc": 0.0753617137670517, "train_loss_llm": 0.27893632650375366, "grad_norm": 0.19026701152324677, "global_step": 1698, "epoch": 7, "lr": 0.0099988526742843}
+{"train_loss": 0.2557011544704437, "train_loss_bc": 0.05339275673031807, "train_loss_llm": 0.20230838656425476, "grad_norm": 0.3055969774723053, "global_step": 1699, "epoch": 7, "lr": 0.0099988526742843}
+{"train_loss": 0.3470908999443054, "train_loss_bc": 0.0690874308347702, "train_loss_llm": 0.278003454208374, "grad_norm": 0.38279345631599426, "global_step": 1700, "epoch": 7, "lr": 0.0099988526742843}
+{"train_loss": 0.3518504202365875, "train_loss_bc": 0.08556964993476868, "train_loss_llm": 0.26628077030181885, "grad_norm": 0.4144613444805145, "global_step": 1701, "epoch": 7, "lr": 0.0099988526742843}
+{"train_loss": 0.3461688160896301, "train_loss_bc": 0.05598898231983185, "train_loss_llm": 0.2901798188686371, "grad_norm": 0.602797269821167, "global_step": 1702, "epoch": 7, "lr": 0.0099988526742843}
+{"train_loss": 0.3242475688457489, "train_loss_bc": 0.06838070601224899, "train_loss_llm": 0.2558668553829193, "grad_norm": 0.8915458917617798, "global_step": 1703, "epoch": 7, "lr": 0.0099988526742843}
+{"train_loss": 0.36405834555625916, "train_loss_bc": 0.08969953656196594, "train_loss_llm": 0.2743588089942932, "grad_norm": 0.9795811772346497, "global_step": 1704, "epoch": 7, "lr": 0.009998841343178704}
+{"train_loss": 0.2894418239593506, "train_loss_bc": 0.0649377852678299, "train_loss_llm": 0.22450405359268188, "grad_norm": 0.12011931836605072, "global_step": 1705, "epoch": 7, "lr": 0.009998841343178704}
+{"train_loss": 0.35014188289642334, "train_loss_bc": 0.06817223131656647, "train_loss_llm": 0.2819696366786957, "grad_norm": 0.3224846422672272, "global_step": 1706, "epoch": 7, "lr": 0.009998841343178704}
+{"train_loss": 0.3680593967437744, "train_loss_bc": 0.08540719002485275, "train_loss_llm": 0.28265219926834106, "grad_norm": 0.38511884212493896, "global_step": 1707, "epoch": 7, "lr": 0.009998841343178704}
+{"train_loss": 0.34007570147514343, "train_loss_bc": 0.06987985223531723, "train_loss_llm": 0.2701958417892456, "grad_norm": 0.4494926929473877, "global_step": 1708, "epoch": 7, "lr": 0.009998841343178704}
+{"train_loss": 0.40897971391677856, "train_loss_bc": 0.07986079156398773, "train_loss_llm": 0.329118937253952, "grad_norm": 0.5183451771736145, "global_step": 1709, "epoch": 7, "lr": 0.009998841343178704}
+{"train_loss": 0.4131110608577728, "train_loss_bc": 0.08057685941457748, "train_loss_llm": 0.33253419399261475, "grad_norm": 0.5621387362480164, "global_step": 1710, "epoch": 7, "lr": 0.009998841343178704}
+{"train_loss": 0.36263608932495117, "train_loss_bc": 0.0879283919930458, "train_loss_llm": 0.27470770478248596, "grad_norm": 0.5992975831031799, "global_step": 1711, "epoch": 7, "lr": 0.009998841343178704}
+{"train_loss": 0.37824857234954834, "train_loss_bc": 0.07504408061504364, "train_loss_llm": 0.3032044768333435, "grad_norm": 0.6367416381835938, "global_step": 1712, "epoch": 7, "lr": 0.009998829956400624}
+{"train_loss": 0.37824487686157227, "train_loss_bc": 0.07198890298604965, "train_loss_llm": 0.306255966424942, "grad_norm": 0.08819302171468735, "global_step": 1713, "epoch": 7, "lr": 0.009998829956400624}
+{"train_loss": 0.21796168386936188, "train_loss_bc": 0.04026429355144501, "train_loss_llm": 0.17769739031791687, "grad_norm": 0.179817333817482, "global_step": 1714, "epoch": 7, "lr": 0.009998829956400624}
+{"train_loss": 0.4159414768218994, "train_loss_bc": 0.08395162969827652, "train_loss_llm": 0.3319898545742035, "grad_norm": 0.4230997860431671, "global_step": 1715, "epoch": 7, "lr": 0.009998829956400624}
+{"train_loss": 0.3838103413581848, "train_loss_bc": 0.06533826887607574, "train_loss_llm": 0.3184720575809479, "grad_norm": 0.7010316252708435, "global_step": 1716, "epoch": 7, "lr": 0.009998829956400624}
+{"train_loss": 0.36279547214508057, "train_loss_bc": 0.0724191963672638, "train_loss_llm": 0.2903762757778168, "grad_norm": 0.6343563795089722, "global_step": 1717, "epoch": 7, "lr": 0.009998829956400624}
+{"train_loss": 0.40733784437179565, "train_loss_bc": 0.0875609815120697, "train_loss_llm": 0.31977686285972595, "grad_norm": 0.6438074111938477, "global_step": 1718, "epoch": 7, "lr": 0.009998829956400624}
+{"train_loss": 0.3713560402393341, "train_loss_bc": 0.06804608553647995, "train_loss_llm": 0.30330994725227356, "grad_norm": 1.313941478729248, "global_step": 1719, "epoch": 7, "lr": 0.009998829956400624}
+{"train_loss": 0.3816385865211487, "train_loss_bc": 0.0734102874994278, "train_loss_llm": 0.3082283139228821, "grad_norm": 1.4453622102737427, "global_step": 1720, "epoch": 7, "lr": 0.009998818513950182}
+{"train_loss": 0.356438547372818, "train_loss_bc": 0.06725450605154037, "train_loss_llm": 0.289184033870697, "grad_norm": 0.08551506698131561, "global_step": 1721, "epoch": 7, "lr": 0.009998818513950182}
+{"train_loss": 0.36611413955688477, "train_loss_bc": 0.08436743915081024, "train_loss_llm": 0.2817467153072357, "grad_norm": 0.4480535686016083, "global_step": 1722, "epoch": 7, "lr": 0.009998818513950182}
+{"train_loss": 0.33697277307510376, "train_loss_bc": 0.04855731129646301, "train_loss_llm": 0.28841546177864075, "grad_norm": 0.9502305388450623, "global_step": 1723, "epoch": 7, "lr": 0.009998818513950182}
+{"train_loss": 0.4124620854854584, "train_loss_bc": 0.08218217641115189, "train_loss_llm": 0.3302799165248871, "grad_norm": 1.1102709770202637, "global_step": 1724, "epoch": 7, "lr": 0.009998818513950182}
+{"train_loss": 0.350815087556839, "train_loss_bc": 0.06041453033685684, "train_loss_llm": 0.29040056467056274, "grad_norm": 0.9359046220779419, "global_step": 1725, "epoch": 7, "lr": 0.009998818513950182}
+{"train_loss": 0.31956714391708374, "train_loss_bc": 0.06301756948232651, "train_loss_llm": 0.25654956698417664, "grad_norm": 1.2159613370895386, "global_step": 1726, "epoch": 7, "lr": 0.009998818513950182}
+{"train_loss": 0.3681221902370453, "train_loss_bc": 0.07651969790458679, "train_loss_llm": 0.2916024923324585, "grad_norm": 1.4208056926727295, "global_step": 1727, "epoch": 7, "lr": 0.009998818513950182}
+{"train_loss": 0.42672452330589294, "train_loss_bc": 0.07222169637680054, "train_loss_llm": 0.3545028269290924, "grad_norm": 2.1807734966278076, "global_step": 1728, "epoch": 7, "lr": 0.009998807015827513}
+{"train_loss": 0.39692163467407227, "train_loss_bc": 0.08182596415281296, "train_loss_llm": 0.3150956630706787, "grad_norm": 0.18166483938694, "global_step": 1729, "epoch": 7, "lr": 0.009998807015827513}
+{"train_loss": 0.3808649182319641, "train_loss_bc": 0.08453160524368286, "train_loss_llm": 0.29633331298828125, "grad_norm": 0.4721103608608246, "global_step": 1730, "epoch": 7, "lr": 0.009998807015827513}
+{"train_loss": 0.35233354568481445, "train_loss_bc": 0.05996058136224747, "train_loss_llm": 0.2923729717731476, "grad_norm": 0.6985835433006287, "global_step": 1731, "epoch": 7, "lr": 0.009998807015827513}
+{"train_loss": 0.4440019428730011, "train_loss_bc": 0.0831199362874031, "train_loss_llm": 0.3608820140361786, "grad_norm": 0.8477849364280701, "global_step": 1732, "epoch": 7, "lr": 0.009998807015827513}
+{"train_loss": 0.41131269931793213, "train_loss_bc": 0.09633053839206696, "train_loss_llm": 0.314982146024704, "grad_norm": 0.9868282079696655, "global_step": 1733, "epoch": 7, "lr": 0.009998807015827513}
+{"train_loss": 0.4215836524963379, "train_loss_bc": 0.08720338344573975, "train_loss_llm": 0.33438026905059814, "grad_norm": 1.222511649131775, "global_step": 1734, "epoch": 7, "lr": 0.009998807015827513}
+{"train_loss": 0.42479002475738525, "train_loss_bc": 0.06696134060621262, "train_loss_llm": 0.35782867670059204, "grad_norm": 1.498681902885437, "global_step": 1735, "epoch": 7, "lr": 0.009998807015827513}
+{"train_loss": 0.35454151034355164, "train_loss_bc": 0.06610298156738281, "train_loss_llm": 0.2884385287761688, "grad_norm": 1.8287067413330078, "global_step": 1736, "epoch": 7, "lr": 0.009998795462032741}
+{"train_loss": 0.33511272072792053, "train_loss_bc": 0.07104885578155518, "train_loss_llm": 0.26406386494636536, "grad_norm": 0.38095200061798096, "global_step": 1737, "epoch": 7, "lr": 0.009998795462032741}
+{"train_loss": 0.3925337791442871, "train_loss_bc": 0.05810786411166191, "train_loss_llm": 0.3344259262084961, "grad_norm": 0.39777711033821106, "global_step": 1738, "epoch": 7, "lr": 0.009998795462032741}
+{"train_loss": 0.39763644337654114, "train_loss_bc": 0.06218872591853142, "train_loss_llm": 0.3354477286338806, "grad_norm": 0.5586749911308289, "global_step": 1739, "epoch": 7, "lr": 0.009998795462032741}
+{"train_loss": 0.40543699264526367, "train_loss_bc": 0.08295675367116928, "train_loss_llm": 0.3224802315235138, "grad_norm": 0.663031280040741, "global_step": 1740, "epoch": 7, "lr": 0.009998795462032741}
+{"train_loss": 0.39319461584091187, "train_loss_bc": 0.07534575462341309, "train_loss_llm": 0.3178488612174988, "grad_norm": 0.7895253896713257, "global_step": 1741, "epoch": 7, "lr": 0.009998795462032741}
+{"train_loss": 0.3660406768321991, "train_loss_bc": 0.08403787016868591, "train_loss_llm": 0.2820028066635132, "grad_norm": 0.8919379711151123, "global_step": 1742, "epoch": 7, "lr": 0.009998795462032741}
+{"train_loss": 0.3773137331008911, "train_loss_bc": 0.0728866457939148, "train_loss_llm": 0.3044270873069763, "grad_norm": 1.0964211225509644, "global_step": 1743, "epoch": 7, "lr": 0.009998795462032741}
+{"train_loss": 0.3961171507835388, "train_loss_bc": 0.07842156291007996, "train_loss_llm": 0.31769558787345886, "grad_norm": 1.2526284456253052, "global_step": 1744, "epoch": 7, "lr": 0.009998783852565996}
+{"train_loss": 0.3500289022922516, "train_loss_bc": 0.06492755562067032, "train_loss_llm": 0.28510135412216187, "grad_norm": 0.16307085752487183, "global_step": 1745, "epoch": 7, "lr": 0.009998783852565996}
+{"train_loss": 0.34270405769348145, "train_loss_bc": 0.09385310113430023, "train_loss_llm": 0.2488509714603424, "grad_norm": 0.19655102491378784, "global_step": 1746, "epoch": 7, "lr": 0.009998783852565996}
+{"train_loss": 0.348044216632843, "train_loss_bc": 0.07172457873821259, "train_loss_llm": 0.27631962299346924, "grad_norm": 0.4047257900238037, "global_step": 1747, "epoch": 7, "lr": 0.009998783852565996}
+{"train_loss": 0.39413464069366455, "train_loss_bc": 0.06544007360935211, "train_loss_llm": 0.32869458198547363, "grad_norm": 0.4889715313911438, "global_step": 1748, "epoch": 7, "lr": 0.009998783852565996}
+{"train_loss": 0.40045276284217834, "train_loss_bc": 0.07613486051559448, "train_loss_llm": 0.32431790232658386, "grad_norm": 0.5417243838310242, "global_step": 1749, "epoch": 7, "lr": 0.009998783852565996}
+{"train_loss": 0.39198189973831177, "train_loss_bc": 0.09056366980075836, "train_loss_llm": 0.3014182448387146, "grad_norm": 0.65203857421875, "global_step": 1750, "epoch": 7, "lr": 0.009998783852565996}
+{"train_loss": 0.3821774423122406, "train_loss_bc": 0.0749104917049408, "train_loss_llm": 0.3072669506072998, "grad_norm": 0.8327614068984985, "global_step": 1751, "epoch": 7, "lr": 0.009998783852565996}
+{"train_loss": 0.4158759117126465, "train_loss_bc": 0.07021865248680115, "train_loss_llm": 0.34565725922584534, "grad_norm": 0.9816909432411194, "global_step": 1752, "epoch": 7, "lr": 0.009998772187427405}
+{"train_loss": 0.3997502326965332, "train_loss_bc": 0.08367922902107239, "train_loss_llm": 0.3160710036754608, "grad_norm": 0.48142528533935547, "global_step": 1753, "epoch": 7, "lr": 0.009998772187427405}
+{"train_loss": 0.43259599804878235, "train_loss_bc": 0.06372272223234177, "train_loss_llm": 0.36887326836586, "grad_norm": 0.7681893706321716, "global_step": 1754, "epoch": 7, "lr": 0.009998772187427405}
+{"train_loss": 0.35971206426620483, "train_loss_bc": 0.08482660353183746, "train_loss_llm": 0.27488547563552856, "grad_norm": 0.7831048965454102, "global_step": 1755, "epoch": 7, "lr": 0.009998772187427405}
+{"train_loss": 0.3647059202194214, "train_loss_bc": 0.05168513208627701, "train_loss_llm": 0.313020795583725, "grad_norm": 0.7422829270362854, "global_step": 1756, "epoch": 7, "lr": 0.009998772187427405}
+{"train_loss": 0.27828583121299744, "train_loss_bc": 0.05386663228273392, "train_loss_llm": 0.22441920638084412, "grad_norm": 0.8792173862457275, "global_step": 1757, "epoch": 7, "lr": 0.009998772187427405}
+{"train_loss": 0.3303543031215668, "train_loss_bc": 0.061927687376737595, "train_loss_llm": 0.2684266269207001, "grad_norm": 1.353880524635315, "global_step": 1758, "epoch": 7, "lr": 0.009998772187427405}
+{"train_loss": 0.3567621409893036, "train_loss_bc": 0.06603872776031494, "train_loss_llm": 0.29072341322898865, "grad_norm": 1.2608625888824463, "global_step": 1759, "epoch": 7, "lr": 0.009998772187427405}
+{"train_loss": 0.3642231822013855, "train_loss_bc": 0.06494779139757156, "train_loss_llm": 0.29927539825439453, "grad_norm": 1.8225003480911255, "global_step": 1760, "epoch": 7, "lr": 0.009998760466617098}
+{"train_loss": 0.31702080368995667, "train_loss_bc": 0.055579815059900284, "train_loss_llm": 0.2614409923553467, "grad_norm": 0.11306152492761612, "global_step": 1761, "epoch": 7, "lr": 0.009998760466617098}
+{"train_loss": 0.25422203540802, "train_loss_bc": 0.0451049841940403, "train_loss_llm": 0.20911705493927002, "grad_norm": 0.5708962082862854, "global_step": 1762, "epoch": 7, "lr": 0.009998760466617098}
+{"train_loss": 0.3499683737754822, "train_loss_bc": 0.08078594505786896, "train_loss_llm": 0.2691824436187744, "grad_norm": 0.6558148264884949, "global_step": 1763, "epoch": 7, "lr": 0.009998760466617098}
+{"train_loss": 0.35998860001564026, "train_loss_bc": 0.08142459392547607, "train_loss_llm": 0.2785640060901642, "grad_norm": 0.7676975727081299, "global_step": 1764, "epoch": 7, "lr": 0.009998760466617098}
+{"train_loss": 0.3834282159805298, "train_loss_bc": 0.05956392362713814, "train_loss_llm": 0.32386428117752075, "grad_norm": 0.8814156651496887, "global_step": 1765, "epoch": 7, "lr": 0.009998760466617098}
+{"train_loss": 0.3461564779281616, "train_loss_bc": 0.05079936608672142, "train_loss_llm": 0.2953571081161499, "grad_norm": 1.0548980236053467, "global_step": 1766, "epoch": 7, "lr": 0.009998760466617098}
+{"train_loss": 0.30008071660995483, "train_loss_bc": 0.0505417138338089, "train_loss_llm": 0.24953901767730713, "grad_norm": 1.2263284921646118, "global_step": 1767, "epoch": 7, "lr": 0.009998760466617098}
+{"train_loss": 0.3893372714519501, "train_loss_bc": 0.07479864358901978, "train_loss_llm": 0.3145386278629303, "grad_norm": 1.228757619857788, "global_step": 1768, "epoch": 7, "lr": 0.00999874869013521}
+{"train_loss": 0.36384332180023193, "train_loss_bc": 0.0792284607887268, "train_loss_llm": 0.2846148610115051, "grad_norm": 0.2257380187511444, "global_step": 1769, "epoch": 7, "lr": 0.00999874869013521}
+{"train_loss": 0.30737215280532837, "train_loss_bc": 0.08272267878055573, "train_loss_llm": 0.22464945912361145, "grad_norm": 0.24648772180080414, "global_step": 1770, "epoch": 7, "lr": 0.00999874869013521}
+{"train_loss": 0.4024234414100647, "train_loss_bc": 0.0770905464887619, "train_loss_llm": 0.325332909822464, "grad_norm": 0.35610511898994446, "global_step": 1771, "epoch": 7, "lr": 0.00999874869013521}
+{"train_loss": 0.4094943702220917, "train_loss_bc": 0.057760484516620636, "train_loss_llm": 0.35173389315605164, "grad_norm": 1.1263573169708252, "global_step": 1772, "epoch": 7, "lr": 0.00999874869013521}
+{"train_loss": 0.3592410087585449, "train_loss_bc": 0.06997054070234299, "train_loss_llm": 0.28927046060562134, "grad_norm": 1.19736909866333, "global_step": 1773, "epoch": 7, "lr": 0.00999874869013521}
+{"train_loss": 0.3391185402870178, "train_loss_bc": 0.07683554291725159, "train_loss_llm": 0.26228299736976624, "grad_norm": 1.3626402616500854, "global_step": 1774, "epoch": 7, "lr": 0.00999874869013521}
+{"train_loss": 0.3631959855556488, "train_loss_bc": 0.07065632939338684, "train_loss_llm": 0.29253965616226196, "grad_norm": 1.8111443519592285, "global_step": 1775, "epoch": 7, "lr": 0.00999874869013521}
+{"train_loss": 0.4237315058708191, "train_loss_bc": 0.08076288551092148, "train_loss_llm": 0.342968612909317, "grad_norm": 1.8126355409622192, "global_step": 1776, "epoch": 7, "lr": 0.009998736857981867}
+{"train_loss": 0.3779061436653137, "train_loss_bc": 0.0846468061208725, "train_loss_llm": 0.29325932264328003, "grad_norm": 0.18322201073169708, "global_step": 1777, "epoch": 7, "lr": 0.009998736857981867}
+{"train_loss": 0.3709299862384796, "train_loss_bc": 0.08732300996780396, "train_loss_llm": 0.28360697627067566, "grad_norm": 0.17633762955665588, "global_step": 1778, "epoch": 7, "lr": 0.009998736857981867}
+{"train_loss": 0.38087403774261475, "train_loss_bc": 0.09262219816446304, "train_loss_llm": 0.2882518470287323, "grad_norm": 0.29747262597084045, "global_step": 1779, "epoch": 7, "lr": 0.009998736857981867}
+{"train_loss": 0.332914263010025, "train_loss_bc": 0.06141155958175659, "train_loss_llm": 0.27150270342826843, "grad_norm": 0.3403194844722748, "global_step": 1780, "epoch": 7, "lr": 0.009998736857981867}
+{"train_loss": 0.334611177444458, "train_loss_bc": 0.07649481296539307, "train_loss_llm": 0.25811636447906494, "grad_norm": 0.4996051490306854, "global_step": 1781, "epoch": 7, "lr": 0.009998736857981867}
+{"train_loss": 0.3252139091491699, "train_loss_bc": 0.07396642863750458, "train_loss_llm": 0.25124746561050415, "grad_norm": 0.6309248208999634, "global_step": 1782, "epoch": 7, "lr": 0.009998736857981867}
+{"train_loss": 0.3862762153148651, "train_loss_bc": 0.08741989731788635, "train_loss_llm": 0.29885631799697876, "grad_norm": 0.7393953800201416, "global_step": 1783, "epoch": 7, "lr": 0.009998736857981867}
+{"train_loss": 0.399377703666687, "train_loss_bc": 0.09153638780117035, "train_loss_llm": 0.30784133076667786, "grad_norm": 0.8570067882537842, "global_step": 1784, "epoch": 7, "lr": 0.009998724970157203}
+{"train_loss": 0.38962361216545105, "train_loss_bc": 0.07431109994649887, "train_loss_llm": 0.3153125047683716, "grad_norm": 0.1561032235622406, "global_step": 1785, "epoch": 7, "lr": 0.009998724970157203}
+{"train_loss": 0.36493098735809326, "train_loss_bc": 0.0883694589138031, "train_loss_llm": 0.27656152844429016, "grad_norm": 0.2406950145959854, "global_step": 1786, "epoch": 7, "lr": 0.009998724970157203}
+{"train_loss": 0.3565836548805237, "train_loss_bc": 0.08306033909320831, "train_loss_llm": 0.2735233008861542, "grad_norm": 0.640539288520813, "global_step": 1787, "epoch": 7, "lr": 0.009998724970157203}
+{"train_loss": 0.33600300550460815, "train_loss_bc": 0.062194351106882095, "train_loss_llm": 0.27380865812301636, "grad_norm": 0.5691652894020081, "global_step": 1788, "epoch": 7, "lr": 0.009998724970157203}
+{"train_loss": 0.4137839078903198, "train_loss_bc": 0.08623732626438141, "train_loss_llm": 0.3275465965270996, "grad_norm": 0.7799240350723267, "global_step": 1789, "epoch": 7, "lr": 0.009998724970157203}
+{"train_loss": 0.3708115816116333, "train_loss_bc": 0.09326711297035217, "train_loss_llm": 0.27754446864128113, "grad_norm": 0.8873181343078613, "global_step": 1790, "epoch": 7, "lr": 0.009998724970157203}
+{"train_loss": 0.3801100254058838, "train_loss_bc": 0.09233416616916656, "train_loss_llm": 0.2877758741378784, "grad_norm": 1.0797101259231567, "global_step": 1791, "epoch": 7, "lr": 0.009998724970157203}
+{"train_loss": 0.33278918266296387, "train_loss_bc": 0.08067530393600464, "train_loss_llm": 0.25211387872695923, "grad_norm": 1.1628841161727905, "global_step": 1792, "epoch": 7, "lr": 0.00999871302666135}
+{"train_loss": 0.3647996783256531, "train_loss_bc": 0.08265887200832367, "train_loss_llm": 0.2821407914161682, "grad_norm": 0.2906930446624756, "global_step": 1793, "epoch": 7, "lr": 0.00999871302666135}
+{"train_loss": 0.3358112871646881, "train_loss_bc": 0.06073844060301781, "train_loss_llm": 0.27507284283638, "grad_norm": 0.9951003193855286, "global_step": 1794, "epoch": 7, "lr": 0.00999871302666135}
+{"train_loss": 0.28877273201942444, "train_loss_bc": 0.06744688749313354, "train_loss_llm": 0.2213258445262909, "grad_norm": 1.7712969779968262, "global_step": 1795, "epoch": 7, "lr": 0.00999871302666135}
+{"train_loss": 0.3975679576396942, "train_loss_bc": 0.09387748688459396, "train_loss_llm": 0.30369046330451965, "grad_norm": 1.9572269916534424, "global_step": 1796, "epoch": 7, "lr": 0.00999871302666135}
+{"train_loss": 0.40965133905410767, "train_loss_bc": 0.06882227957248688, "train_loss_llm": 0.340829074382782, "grad_norm": 2.4814093112945557, "global_step": 1797, "epoch": 7, "lr": 0.00999871302666135}
+{"train_loss": 0.37625157833099365, "train_loss_bc": 0.09349139034748077, "train_loss_llm": 0.2827602028846741, "grad_norm": 2.697983741760254, "global_step": 1798, "epoch": 7, "lr": 0.00999871302666135}
+{"train_loss": 0.3936039209365845, "train_loss_bc": 0.08579787611961365, "train_loss_llm": 0.3078060448169708, "grad_norm": 2.701155424118042, "global_step": 1799, "epoch": 7, "lr": 0.00999871302666135}
+{"train_loss": 0.4203835129737854, "train_loss_bc": 0.08395655453205109, "train_loss_llm": 0.3364269733428955, "grad_norm": 2.7395057678222656, "global_step": 1800, "epoch": 7, "lr": 0.009998701027494441}
+{"train_loss": 0.3474692702293396, "train_loss_bc": 0.07412765175104141, "train_loss_llm": 0.2733416259288788, "grad_norm": 0.22146064043045044, "global_step": 1801, "epoch": 7, "lr": 0.009998701027494441}
+{"train_loss": 0.35882627964019775, "train_loss_bc": 0.05131201446056366, "train_loss_llm": 0.3075142502784729, "grad_norm": 0.6804041862487793, "global_step": 1802, "epoch": 7, "lr": 0.009998701027494441}
+{"train_loss": 0.43520110845565796, "train_loss_bc": 0.07988035678863525, "train_loss_llm": 0.3553207516670227, "grad_norm": 0.8889732360839844, "global_step": 1803, "epoch": 7, "lr": 0.009998701027494441}
+{"train_loss": 0.3655543625354767, "train_loss_bc": 0.06918928772211075, "train_loss_llm": 0.29636508226394653, "grad_norm": 0.9367740154266357, "global_step": 1804, "epoch": 7, "lr": 0.009998701027494441}
+{"train_loss": 0.3334643840789795, "train_loss_bc": 0.06612725555896759, "train_loss_llm": 0.2673371136188507, "grad_norm": 1.0012706518173218, "global_step": 1805, "epoch": 7, "lr": 0.009998701027494441}
+{"train_loss": 0.3052404224872589, "train_loss_bc": 0.07415440678596497, "train_loss_llm": 0.23108601570129395, "grad_norm": 1.1331701278686523, "global_step": 1806, "epoch": 7, "lr": 0.009998701027494441}
+{"train_loss": 0.34110158681869507, "train_loss_bc": 0.06172052025794983, "train_loss_llm": 0.27938106656074524, "grad_norm": 1.2392916679382324, "global_step": 1807, "epoch": 7, "lr": 0.009998701027494441}
+{"train_loss": 0.38623958826065063, "train_loss_bc": 0.059816960245370865, "train_loss_llm": 0.32642263174057007, "grad_norm": 1.4241279363632202, "global_step": 1808, "epoch": 7, "lr": 0.009998688972656612}
+{"train_loss": 0.29373112320899963, "train_loss_bc": 0.05404147505760193, "train_loss_llm": 0.2396896481513977, "grad_norm": 0.34453704953193665, "global_step": 1809, "epoch": 7, "lr": 0.009998688972656612}
+{"train_loss": 0.3455636501312256, "train_loss_bc": 0.07155688107013702, "train_loss_llm": 0.27400675415992737, "grad_norm": 0.4433152973651886, "global_step": 1810, "epoch": 7, "lr": 0.009998688972656612}
+{"train_loss": 0.44961103796958923, "train_loss_bc": 0.07545360177755356, "train_loss_llm": 0.3741574287414551, "grad_norm": 0.7744240760803223, "global_step": 1811, "epoch": 7, "lr": 0.009998688972656612}
+{"train_loss": 0.35095474123954773, "train_loss_bc": 0.06292370706796646, "train_loss_llm": 0.28803104162216187, "grad_norm": 1.064332127571106, "global_step": 1812, "epoch": 7, "lr": 0.009998688972656612}
+{"train_loss": 0.4092091917991638, "train_loss_bc": 0.0902508944272995, "train_loss_llm": 0.3189583122730255, "grad_norm": 0.9708210825920105, "global_step": 1813, "epoch": 7, "lr": 0.009998688972656612}
+{"train_loss": 0.36608952283859253, "train_loss_bc": 0.06294994056224823, "train_loss_llm": 0.3031395673751831, "grad_norm": 1.114769697189331, "global_step": 1814, "epoch": 7, "lr": 0.009998688972656612}
+{"train_loss": 0.3389703631401062, "train_loss_bc": 0.07667835056781769, "train_loss_llm": 0.2622919976711273, "grad_norm": 1.142072319984436, "global_step": 1815, "epoch": 7, "lr": 0.009998688972656612}
+{"train_loss": 0.26760801672935486, "train_loss_bc": 0.04845082014799118, "train_loss_llm": 0.21915718913078308, "grad_norm": 1.2181248664855957, "global_step": 1816, "epoch": 7, "lr": 0.009998676862147993}
+{"train_loss": 0.4078204333782196, "train_loss_bc": 0.05729823559522629, "train_loss_llm": 0.3505221903324127, "grad_norm": 0.17123150825500488, "global_step": 1817, "epoch": 7, "lr": 0.009998676862147993}
+{"train_loss": 0.3597498834133148, "train_loss_bc": 0.06076899170875549, "train_loss_llm": 0.2989808917045593, "grad_norm": 0.25840893387794495, "global_step": 1818, "epoch": 7, "lr": 0.009998676862147993}
+{"train_loss": 0.3999682366847992, "train_loss_bc": 0.06512882560491562, "train_loss_llm": 0.334839403629303, "grad_norm": 0.3844691216945648, "global_step": 1819, "epoch": 7, "lr": 0.009998676862147993}
+{"train_loss": 0.3636995553970337, "train_loss_bc": 0.06679315865039825, "train_loss_llm": 0.29690641164779663, "grad_norm": 0.5693702697753906, "global_step": 1820, "epoch": 7, "lr": 0.009998676862147993}
+{"train_loss": 0.35841503739356995, "train_loss_bc": 0.0675070658326149, "train_loss_llm": 0.29090797901153564, "grad_norm": 0.6332321166992188, "global_step": 1821, "epoch": 7, "lr": 0.009998676862147993}
+{"train_loss": 0.34956425428390503, "train_loss_bc": 0.06691552698612213, "train_loss_llm": 0.2826487123966217, "grad_norm": 0.7296680212020874, "global_step": 1822, "epoch": 7, "lr": 0.009998676862147993}
+{"train_loss": 0.39080142974853516, "train_loss_bc": 0.054999686777591705, "train_loss_llm": 0.33580175042152405, "grad_norm": 0.82758629322052, "global_step": 1823, "epoch": 7, "lr": 0.009998676862147993}
+{"train_loss": 0.40085965394973755, "train_loss_bc": 0.07033703476190567, "train_loss_llm": 0.3305226266384125, "grad_norm": 0.930455207824707, "global_step": 1824, "epoch": 7, "lr": 0.009998664695968721}
+{"train_loss": 0.3600277304649353, "train_loss_bc": 0.04116343334317207, "train_loss_llm": 0.31886428594589233, "grad_norm": 0.20957313477993011, "global_step": 1825, "epoch": 7, "lr": 0.009998664695968721}
+{"train_loss": 0.4417491555213928, "train_loss_bc": 0.05289047211408615, "train_loss_llm": 0.3888586759567261, "grad_norm": 0.38245660066604614, "global_step": 1826, "epoch": 7, "lr": 0.009998664695968721}
+{"train_loss": 0.38604307174682617, "train_loss_bc": 0.054753318428993225, "train_loss_llm": 0.33128976821899414, "grad_norm": 0.6118590235710144, "global_step": 1827, "epoch": 7, "lr": 0.009998664695968721}
+{"train_loss": 0.35330432653427124, "train_loss_bc": 0.0571761280298233, "train_loss_llm": 0.29612821340560913, "grad_norm": 0.6763256192207336, "global_step": 1828, "epoch": 7, "lr": 0.009998664695968721}
+{"train_loss": 0.3470814824104309, "train_loss_bc": 0.057345062494277954, "train_loss_llm": 0.28973641991615295, "grad_norm": 0.8684618473052979, "global_step": 1829, "epoch": 7, "lr": 0.009998664695968721}
+{"train_loss": 0.37488073110580444, "train_loss_bc": 0.05163802206516266, "train_loss_llm": 0.323242723941803, "grad_norm": 0.915056049823761, "global_step": 1830, "epoch": 7, "lr": 0.009998664695968721}
+{"train_loss": 0.3866802453994751, "train_loss_bc": 0.04922318831086159, "train_loss_llm": 0.3374570608139038, "grad_norm": 1.1538485288619995, "global_step": 1831, "epoch": 7, "lr": 0.009998664695968721}
+{"train_loss": 0.38442444801330566, "train_loss_bc": 0.05583972483873367, "train_loss_llm": 0.3285847306251526, "grad_norm": 1.1344068050384521, "global_step": 1832, "epoch": 7, "lr": 0.009998652474118932}
+{"train_loss": 0.36521846055984497, "train_loss_bc": 0.05589545518159866, "train_loss_llm": 0.3093230128288269, "grad_norm": 0.08928007632493973, "global_step": 1833, "epoch": 7, "lr": 0.009998652474118932}
+{"train_loss": 0.4264722168445587, "train_loss_bc": 0.06703991442918777, "train_loss_llm": 0.35943230986595154, "grad_norm": 0.23867052793502808, "global_step": 1834, "epoch": 7, "lr": 0.009998652474118932}
+{"train_loss": 0.42411643266677856, "train_loss_bc": 0.054432064294815063, "train_loss_llm": 0.3696843683719635, "grad_norm": 0.3380902111530304, "global_step": 1835, "epoch": 7, "lr": 0.009998652474118932}
+{"train_loss": 0.38623306155204773, "train_loss_bc": 0.0495128333568573, "train_loss_llm": 0.33672022819519043, "grad_norm": 0.5789569616317749, "global_step": 1836, "epoch": 7, "lr": 0.009998652474118932}
+{"train_loss": 0.41465839743614197, "train_loss_bc": 0.05097091197967529, "train_loss_llm": 0.3636874854564667, "grad_norm": 0.766288161277771, "global_step": 1837, "epoch": 7, "lr": 0.009998652474118932}
+{"train_loss": 0.27453142404556274, "train_loss_bc": 0.049183741211891174, "train_loss_llm": 0.22534766793251038, "grad_norm": 0.8936642408370972, "global_step": 1838, "epoch": 7, "lr": 0.009998652474118932}
+{"train_loss": 0.33386218547821045, "train_loss_bc": 0.045993395149707794, "train_loss_llm": 0.28786879777908325, "grad_norm": 1.0288102626800537, "global_step": 1839, "epoch": 7, "lr": 0.009998652474118932}
+{"train_loss": 0.3163813054561615, "train_loss_bc": 0.05013367161154747, "train_loss_llm": 0.26624763011932373, "grad_norm": 1.2496836185455322, "global_step": 1840, "epoch": 7, "lr": 0.009998640196598761}
+{"train_loss": 0.3859800696372986, "train_loss_bc": 0.06885044276714325, "train_loss_llm": 0.31712964177131653, "grad_norm": 0.14798854291439056, "global_step": 1841, "epoch": 7, "lr": 0.009998640196598761}
+{"train_loss": 0.3338707685470581, "train_loss_bc": 0.04619978368282318, "train_loss_llm": 0.28767096996307373, "grad_norm": 0.32595551013946533, "global_step": 1842, "epoch": 7, "lr": 0.009998640196598761}
+{"train_loss": 0.40404292941093445, "train_loss_bc": 0.06340351700782776, "train_loss_llm": 0.3406394124031067, "grad_norm": 0.40111058950424194, "global_step": 1843, "epoch": 7, "lr": 0.009998640196598761}
+{"train_loss": 0.3463685214519501, "train_loss_bc": 0.047749072313308716, "train_loss_llm": 0.29861944913864136, "grad_norm": 0.48393240571022034, "global_step": 1844, "epoch": 7, "lr": 0.009998640196598761}
+{"train_loss": 0.3968430459499359, "train_loss_bc": 0.056707270443439484, "train_loss_llm": 0.340135782957077, "grad_norm": 0.6053295731544495, "global_step": 1845, "epoch": 7, "lr": 0.009998640196598761}
+{"train_loss": 0.34929290413856506, "train_loss_bc": 0.059512585401535034, "train_loss_llm": 0.28978031873703003, "grad_norm": 0.6592934727668762, "global_step": 1846, "epoch": 7, "lr": 0.009998640196598761}
+{"train_loss": 0.22213882207870483, "train_loss_bc": 0.03296492248773575, "train_loss_llm": 0.18917390704154968, "grad_norm": 0.7780323028564453, "global_step": 1847, "epoch": 7, "lr": 0.009998640196598761}
+{"train_loss": 0.3260536789894104, "train_loss_bc": 0.051975540816783905, "train_loss_llm": 0.2740781307220459, "grad_norm": 0.7839661240577698, "global_step": 1848, "epoch": 7, "lr": 0.009998627863408348}
+{"train_loss": 0.39150670170783997, "train_loss_bc": 0.06183761730790138, "train_loss_llm": 0.3296690881252289, "grad_norm": 0.16488023102283478, "global_step": 1849, "epoch": 7, "lr": 0.009998627863408348}
+{"train_loss": 0.40545913577079773, "train_loss_bc": 0.06834754347801208, "train_loss_llm": 0.33711159229278564, "grad_norm": 0.2111659049987793, "global_step": 1850, "epoch": 7, "lr": 0.009998627863408348}
+{"train_loss": 0.3204483985900879, "train_loss_bc": 0.06286409497261047, "train_loss_llm": 0.2575843036174774, "grad_norm": 0.2379792332649231, "global_step": 1851, "epoch": 7, "lr": 0.009998627863408348}
+{"train_loss": 0.2818763554096222, "train_loss_bc": 0.05605755373835564, "train_loss_llm": 0.22581881284713745, "grad_norm": 0.32087045907974243, "global_step": 1852, "epoch": 7, "lr": 0.009998627863408348}
+{"train_loss": 0.3909197449684143, "train_loss_bc": 0.06993846595287323, "train_loss_llm": 0.3209812641143799, "grad_norm": 0.31916511058807373, "global_step": 1853, "epoch": 7, "lr": 0.009998627863408348}
+{"train_loss": 0.36142289638519287, "train_loss_bc": 0.06215936690568924, "train_loss_llm": 0.29926353693008423, "grad_norm": 0.4326213002204895, "global_step": 1854, "epoch": 7, "lr": 0.009998627863408348}
+{"train_loss": 0.4119248390197754, "train_loss_bc": 0.06873312592506409, "train_loss_llm": 0.3431917130947113, "grad_norm": 0.5313543677330017, "global_step": 1855, "epoch": 7, "lr": 0.009998627863408348}
+{"train_loss": 0.3472803235054016, "train_loss_bc": 0.062124885618686676, "train_loss_llm": 0.28515544533729553, "grad_norm": 0.6006670594215393, "global_step": 1856, "epoch": 7, "lr": 0.009998615474547824}
+{"train_loss": 0.38403213024139404, "train_loss_bc": 0.07215328514575958, "train_loss_llm": 0.31187885999679565, "grad_norm": 0.169959157705307, "global_step": 1857, "epoch": 7, "lr": 0.009998615474547824}
+{"train_loss": 0.32451486587524414, "train_loss_bc": 0.05093997344374657, "train_loss_llm": 0.2735748887062073, "grad_norm": 0.576121985912323, "global_step": 1858, "epoch": 7, "lr": 0.009998615474547824}
+{"train_loss": 0.3129948675632477, "train_loss_bc": 0.05756865069270134, "train_loss_llm": 0.25542622804641724, "grad_norm": 0.8320863246917725, "global_step": 1859, "epoch": 7, "lr": 0.009998615474547824}
+{"train_loss": 0.38851362466812134, "train_loss_bc": 0.06855189800262451, "train_loss_llm": 0.3199617266654968, "grad_norm": 0.9086993932723999, "global_step": 1860, "epoch": 7, "lr": 0.009998615474547824}
+{"train_loss": 0.3671875, "train_loss_bc": 0.07904590666294098, "train_loss_llm": 0.2881416082382202, "grad_norm": 1.0581308603286743, "global_step": 1861, "epoch": 7, "lr": 0.009998615474547824}
+{"train_loss": 0.28089439868927, "train_loss_bc": 0.05209740251302719, "train_loss_llm": 0.22879698872566223, "grad_norm": 1.4110908508300781, "global_step": 1862, "epoch": 7, "lr": 0.009998615474547824}
+{"train_loss": 0.4081176817417145, "train_loss_bc": 0.08255771547555923, "train_loss_llm": 0.32555997371673584, "grad_norm": 1.534754991531372, "global_step": 1863, "epoch": 7, "lr": 0.009998615474547824}
+{"train_loss": 0.38412171602249146, "train_loss_bc": 0.06501902639865875, "train_loss_llm": 0.3191026747226715, "grad_norm": 1.642447590827942, "global_step": 1864, "epoch": 7, "lr": 0.009998603030017332}
+{"train_loss": 0.2733188271522522, "train_loss_bc": 0.06350894272327423, "train_loss_llm": 0.20980986952781677, "grad_norm": 0.3094525933265686, "global_step": 1865, "epoch": 7, "lr": 0.009998603030017332}
+{"train_loss": 0.40544775128364563, "train_loss_bc": 0.08738601207733154, "train_loss_llm": 0.3180617392063141, "grad_norm": 0.5178832411766052, "global_step": 1866, "epoch": 7, "lr": 0.009998603030017332}
+{"train_loss": 0.3907771706581116, "train_loss_bc": 0.09976699948310852, "train_loss_llm": 0.29101017117500305, "grad_norm": 1.3837158679962158, "global_step": 1867, "epoch": 7, "lr": 0.009998603030017332}
+{"train_loss": 0.34260380268096924, "train_loss_bc": 0.05526530742645264, "train_loss_llm": 0.2873384952545166, "grad_norm": 1.366987943649292, "global_step": 1868, "epoch": 7, "lr": 0.009998603030017332}
+{"train_loss": 0.39127007126808167, "train_loss_bc": 0.07638880610466003, "train_loss_llm": 0.31488126516342163, "grad_norm": 1.5852280855178833, "global_step": 1869, "epoch": 7, "lr": 0.009998603030017332}
+{"train_loss": 0.3091302216053009, "train_loss_bc": 0.0650448426604271, "train_loss_llm": 0.2440853714942932, "grad_norm": 1.8188233375549316, "global_step": 1870, "epoch": 7, "lr": 0.009998603030017332}
+{"train_loss": 0.36087313294410706, "train_loss_bc": 0.08376741409301758, "train_loss_llm": 0.2771057188510895, "grad_norm": 2.0492916107177734, "global_step": 1871, "epoch": 7, "lr": 0.009998603030017332}
+{"train_loss": 0.37801820039749146, "train_loss_bc": 0.08527682721614838, "train_loss_llm": 0.2927413582801819, "grad_norm": 2.279942750930786, "global_step": 1872, "epoch": 7, "lr": 0.00999859052981701}
+{"train_loss": 0.43307459354400635, "train_loss_bc": 0.08616505563259125, "train_loss_llm": 0.3469095230102539, "grad_norm": 0.19529390335083008, "global_step": 1873, "epoch": 7, "lr": 0.00999859052981701}
+{"train_loss": 0.3513949513435364, "train_loss_bc": 0.06967749446630478, "train_loss_llm": 0.281717449426651, "grad_norm": 0.6210596561431885, "global_step": 1874, "epoch": 7, "lr": 0.00999859052981701}
+{"train_loss": 0.41569581627845764, "train_loss_bc": 0.09366867691278458, "train_loss_llm": 0.32202714681625366, "grad_norm": 0.9176658987998962, "global_step": 1875, "epoch": 7, "lr": 0.00999859052981701}
+{"train_loss": 0.42618608474731445, "train_loss_bc": 0.09739620983600616, "train_loss_llm": 0.3287898600101471, "grad_norm": 1.0822608470916748, "global_step": 1876, "epoch": 7, "lr": 0.00999859052981701}
+{"train_loss": 0.3940550982952118, "train_loss_bc": 0.09412604570388794, "train_loss_llm": 0.29992905259132385, "grad_norm": 1.3577420711517334, "global_step": 1877, "epoch": 7, "lr": 0.00999859052981701}
+{"train_loss": 0.38895028829574585, "train_loss_bc": 0.1028057187795639, "train_loss_llm": 0.28614455461502075, "grad_norm": 1.547336459159851, "global_step": 1878, "epoch": 7, "lr": 0.00999859052981701}
+{"train_loss": 0.3658972978591919, "train_loss_bc": 0.07863868772983551, "train_loss_llm": 0.2872586250305176, "grad_norm": 1.8678417205810547, "global_step": 1879, "epoch": 7, "lr": 0.00999859052981701}
+{"train_loss": 0.39359796047210693, "train_loss_bc": 0.08757384121417999, "train_loss_llm": 0.30602410435676575, "grad_norm": 2.6852049827575684, "global_step": 1880, "epoch": 7, "lr": 0.009998577973946996}
+{"train_loss": 0.40039533376693726, "train_loss_bc": 0.09117903560400009, "train_loss_llm": 0.30921629071235657, "grad_norm": 0.1391306072473526, "global_step": 1881, "epoch": 7, "lr": 0.009998577973946996}
+{"train_loss": 0.3892429769039154, "train_loss_bc": 0.08729642629623413, "train_loss_llm": 0.3019465506076813, "grad_norm": 0.2829505205154419, "global_step": 1882, "epoch": 7, "lr": 0.009998577973946996}
+{"train_loss": 0.3982393145561218, "train_loss_bc": 0.07118172943592072, "train_loss_llm": 0.3270576000213623, "grad_norm": 0.47514626383781433, "global_step": 1883, "epoch": 7, "lr": 0.009998577973946996}
+{"train_loss": 0.3667759299278259, "train_loss_bc": 0.06926192343235016, "train_loss_llm": 0.2975139915943146, "grad_norm": 0.5484980344772339, "global_step": 1884, "epoch": 7, "lr": 0.009998577973946996}
+{"train_loss": 0.37924924492836, "train_loss_bc": 0.07934445887804031, "train_loss_llm": 0.29990479350090027, "grad_norm": 0.9054089188575745, "global_step": 1885, "epoch": 7, "lr": 0.009998577973946996}
+{"train_loss": 0.30871114134788513, "train_loss_bc": 0.07551395148038864, "train_loss_llm": 0.2331971824169159, "grad_norm": 1.1156597137451172, "global_step": 1886, "epoch": 7, "lr": 0.009998577973946996}
+{"train_loss": 0.3727671504020691, "train_loss_bc": 0.06596492230892181, "train_loss_llm": 0.30680224299430847, "grad_norm": 1.3982921838760376, "global_step": 1887, "epoch": 7, "lr": 0.009998577973946996}
+{"train_loss": 0.3500012755393982, "train_loss_bc": 0.0849655419588089, "train_loss_llm": 0.2650357186794281, "grad_norm": 1.6204745769500732, "global_step": 1888, "epoch": 7, "lr": 0.00999856536240743}
+{"train_loss": 0.3651546239852905, "train_loss_bc": 0.07750119268894196, "train_loss_llm": 0.2876534163951874, "grad_norm": 0.6667128801345825, "global_step": 1889, "epoch": 7, "lr": 0.00999856536240743}
+{"train_loss": 0.4277978539466858, "train_loss_bc": 0.09213361144065857, "train_loss_llm": 0.3356642425060272, "grad_norm": 0.5700995326042175, "global_step": 1890, "epoch": 7, "lr": 0.00999856536240743}
+{"train_loss": 0.36321038007736206, "train_loss_bc": 0.06527945399284363, "train_loss_llm": 0.29793092608451843, "grad_norm": 0.5346031785011292, "global_step": 1891, "epoch": 7, "lr": 0.00999856536240743}
+{"train_loss": 0.4351244866847992, "train_loss_bc": 0.0758676826953888, "train_loss_llm": 0.3592568039894104, "grad_norm": 0.4455954432487488, "global_step": 1892, "epoch": 7, "lr": 0.00999856536240743}
+{"train_loss": 0.3749271333217621, "train_loss_bc": 0.08015397191047668, "train_loss_llm": 0.2947731614112854, "grad_norm": 0.48304441571235657, "global_step": 1893, "epoch": 7, "lr": 0.00999856536240743}
+{"train_loss": 0.4111388027667999, "train_loss_bc": 0.10525425523519516, "train_loss_llm": 0.30588454008102417, "grad_norm": 0.5190344452857971, "global_step": 1894, "epoch": 7, "lr": 0.00999856536240743}
+{"train_loss": 0.37215864658355713, "train_loss_bc": 0.0762997567653656, "train_loss_llm": 0.29585888981819153, "grad_norm": 0.604705810546875, "global_step": 1895, "epoch": 7, "lr": 0.00999856536240743}
+{"train_loss": 0.43806278705596924, "train_loss_bc": 0.07789938896894455, "train_loss_llm": 0.3601633906364441, "grad_norm": 0.6851215958595276, "global_step": 1896, "epoch": 7, "lr": 0.009998552695198453}
+{"train_loss": 0.4145163595676422, "train_loss_bc": 0.08313053846359253, "train_loss_llm": 0.3313858211040497, "grad_norm": 0.14324964582920074, "global_step": 1897, "epoch": 7, "lr": 0.009998552695198453}
+{"train_loss": 0.3688904643058777, "train_loss_bc": 0.07117624580860138, "train_loss_llm": 0.2977142333984375, "grad_norm": 0.2670575678348541, "global_step": 1898, "epoch": 7, "lr": 0.009998552695198453}
+{"train_loss": 0.46666836738586426, "train_loss_bc": 0.09353115409612656, "train_loss_llm": 0.3731372058391571, "grad_norm": 0.3757126033306122, "global_step": 1899, "epoch": 7, "lr": 0.009998552695198453}
+{"train_loss": 0.3747278153896332, "train_loss_bc": 0.08927255868911743, "train_loss_llm": 0.28545525670051575, "grad_norm": 0.42920926213264465, "global_step": 1900, "epoch": 7, "lr": 0.009998552695198453}
+{"train_loss": 0.3616642951965332, "train_loss_bc": 0.08749894797801971, "train_loss_llm": 0.2741653323173523, "grad_norm": 0.49645695090293884, "global_step": 1901, "epoch": 7, "lr": 0.009998552695198453}
+{"train_loss": 0.4672425389289856, "train_loss_bc": 0.07338722795248032, "train_loss_llm": 0.3938553035259247, "grad_norm": 0.8558648824691772, "global_step": 1902, "epoch": 7, "lr": 0.009998552695198453}
+{"train_loss": 0.36754553577228755, "train_loss_bc": 0.07271217554807663, "train_loss_llm": 0.27280712127685547, "grad_norm": 0.7633791565895081, "global_step": 1903, "epoch": 7, "lr": 0.009998552695198453, "val_loss": 0.3526001572608948}
+{"train_loss": 0.37469470500946045, "train_loss_bc": 0.07692794501781464, "train_loss_llm": 0.297766774892807, "grad_norm": 0.9414187669754028, "global_step": 1904, "epoch": 8, "lr": 0.009998539972320206}
+{"train_loss": 0.3092619478702545, "train_loss_bc": 0.05139394477009773, "train_loss_llm": 0.2578679919242859, "grad_norm": 0.4372994005680084, "global_step": 1905, "epoch": 8, "lr": 0.009998539972320206}
+{"train_loss": 0.33090391755104065, "train_loss_bc": 0.0602635033428669, "train_loss_llm": 0.27064040303230286, "grad_norm": 0.8723078370094299, "global_step": 1906, "epoch": 8, "lr": 0.009998539972320206}
+{"train_loss": 0.3641416132450104, "train_loss_bc": 0.05783260986208916, "train_loss_llm": 0.3063090145587921, "grad_norm": 1.3908928632736206, "global_step": 1907, "epoch": 8, "lr": 0.009998539972320206}
+{"train_loss": 0.34200289845466614, "train_loss_bc": 0.0754629597067833, "train_loss_llm": 0.26653993129730225, "grad_norm": 1.5778634548187256, "global_step": 1908, "epoch": 8, "lr": 0.009998539972320206}
+{"train_loss": 0.31198328733444214, "train_loss_bc": 0.05991259217262268, "train_loss_llm": 0.25207069516181946, "grad_norm": 1.7464467287063599, "global_step": 1909, "epoch": 8, "lr": 0.009998539972320206}
+{"train_loss": 0.29957640171051025, "train_loss_bc": 0.06339450180530548, "train_loss_llm": 0.23618191480636597, "grad_norm": 1.691758632659912, "global_step": 1910, "epoch": 8, "lr": 0.009998539972320206}
+{"train_loss": 0.3900410830974579, "train_loss_bc": 0.05412589758634567, "train_loss_llm": 0.3359151780605316, "grad_norm": 2.0850026607513428, "global_step": 1911, "epoch": 8, "lr": 0.009998539972320206}
+{"train_loss": 0.4086717963218689, "train_loss_bc": 0.08833493292331696, "train_loss_llm": 0.32033684849739075, "grad_norm": 2.05315899848938, "global_step": 1912, "epoch": 8, "lr": 0.009998527193772831}
+{"train_loss": 0.43376410007476807, "train_loss_bc": 0.07345589995384216, "train_loss_llm": 0.3603082001209259, "grad_norm": 0.16708427667617798, "global_step": 1913, "epoch": 8, "lr": 0.009998527193772831}
+{"train_loss": 0.23269438743591309, "train_loss_bc": 0.02962091937661171, "train_loss_llm": 0.20307347178459167, "grad_norm": 0.268709272146225, "global_step": 1914, "epoch": 8, "lr": 0.009998527193772831}
+{"train_loss": 0.3475117087364197, "train_loss_bc": 0.05810496583580971, "train_loss_llm": 0.28940674662590027, "grad_norm": 0.24052654206752777, "global_step": 1915, "epoch": 8, "lr": 0.009998527193772831}
+{"train_loss": 0.36858439445495605, "train_loss_bc": 0.06503383815288544, "train_loss_llm": 0.3035505414009094, "grad_norm": 0.28505557775497437, "global_step": 1916, "epoch": 8, "lr": 0.009998527193772831}
+{"train_loss": 0.3551723062992096, "train_loss_bc": 0.06559231877326965, "train_loss_llm": 0.28957998752593994, "grad_norm": 0.302813321352005, "global_step": 1917, "epoch": 8, "lr": 0.009998527193772831}
+{"train_loss": 0.2859710454940796, "train_loss_bc": 0.05777578055858612, "train_loss_llm": 0.22819527983665466, "grad_norm": 0.3496053218841553, "global_step": 1918, "epoch": 8, "lr": 0.009998527193772831}
+{"train_loss": 0.44212642312049866, "train_loss_bc": 0.06627261638641357, "train_loss_llm": 0.3758538067340851, "grad_norm": 0.3920689523220062, "global_step": 1919, "epoch": 8, "lr": 0.009998527193772831}
+{"train_loss": 0.3521318733692169, "train_loss_bc": 0.07357452064752579, "train_loss_llm": 0.27855736017227173, "grad_norm": 0.449019193649292, "global_step": 1920, "epoch": 8, "lr": 0.009998514359556468}
+{"train_loss": 0.513748824596405, "train_loss_bc": 0.06768962740898132, "train_loss_llm": 0.4460591971874237, "grad_norm": 0.3935346305370331, "global_step": 1921, "epoch": 8, "lr": 0.009998514359556468}
+{"train_loss": 0.3771044611930847, "train_loss_bc": 0.04887904226779938, "train_loss_llm": 0.32822543382644653, "grad_norm": 0.6081584692001343, "global_step": 1922, "epoch": 8, "lr": 0.009998514359556468}
+{"train_loss": 0.3626863658428192, "train_loss_bc": 0.048556625843048096, "train_loss_llm": 0.3141297399997711, "grad_norm": 0.7933315634727478, "global_step": 1923, "epoch": 8, "lr": 0.009998514359556468}
+{"train_loss": 0.34460434317588806, "train_loss_bc": 0.04804583638906479, "train_loss_llm": 0.2965584993362427, "grad_norm": 1.128722071647644, "global_step": 1924, "epoch": 8, "lr": 0.009998514359556468}
+{"train_loss": 0.3970787525177002, "train_loss_bc": 0.050678499042987823, "train_loss_llm": 0.34640026092529297, "grad_norm": 1.2854098081588745, "global_step": 1925, "epoch": 8, "lr": 0.009998514359556468}
+{"train_loss": 0.35386836528778076, "train_loss_bc": 0.04784002900123596, "train_loss_llm": 0.3060283362865448, "grad_norm": 1.4190274477005005, "global_step": 1926, "epoch": 8, "lr": 0.009998514359556468}
+{"train_loss": 0.4198237359523773, "train_loss_bc": 0.055040717124938965, "train_loss_llm": 0.36478301882743835, "grad_norm": 1.4698708057403564, "global_step": 1927, "epoch": 8, "lr": 0.009998514359556468}
+{"train_loss": 0.3994748592376709, "train_loss_bc": 0.051036544144153595, "train_loss_llm": 0.3484383225440979, "grad_norm": 2.001549482345581, "global_step": 1928, "epoch": 8, "lr": 0.009998501469671264}
+{"train_loss": 0.3189670443534851, "train_loss_bc": 0.04668711870908737, "train_loss_llm": 0.27227991819381714, "grad_norm": 0.5499022006988525, "global_step": 1929, "epoch": 8, "lr": 0.009998501469671264}
+{"train_loss": 0.43595898151397705, "train_loss_bc": 0.05561074987053871, "train_loss_llm": 0.38034823536872864, "grad_norm": 0.8758007884025574, "global_step": 1930, "epoch": 8, "lr": 0.009998501469671264}
+{"train_loss": 0.3424230217933655, "train_loss_bc": 0.05203448235988617, "train_loss_llm": 0.2903885543346405, "grad_norm": 1.4392155408859253, "global_step": 1931, "epoch": 8, "lr": 0.009998501469671264}
+{"train_loss": 0.3770945072174072, "train_loss_bc": 0.04116944968700409, "train_loss_llm": 0.33592507243156433, "grad_norm": 1.9403076171875, "global_step": 1932, "epoch": 8, "lr": 0.009998501469671264}
+{"train_loss": 0.4137524962425232, "train_loss_bc": 0.05493619292974472, "train_loss_llm": 0.3588162958621979, "grad_norm": 2.218506097793579, "global_step": 1933, "epoch": 8, "lr": 0.009998501469671264}
+{"train_loss": 0.358114093542099, "train_loss_bc": 0.05091621354222298, "train_loss_llm": 0.3071978688240051, "grad_norm": 2.4093265533447266, "global_step": 1934, "epoch": 8, "lr": 0.009998501469671264}
+{"train_loss": 0.38117361068725586, "train_loss_bc": 0.05504559352993965, "train_loss_llm": 0.3261280059814453, "grad_norm": 2.5342133045196533, "global_step": 1935, "epoch": 8, "lr": 0.009998501469671264}
+{"train_loss": 0.4309139847755432, "train_loss_bc": 0.05578501895070076, "train_loss_llm": 0.37512895464897156, "grad_norm": 2.77439022064209, "global_step": 1936, "epoch": 8, "lr": 0.009998488524117359}
+{"train_loss": 0.39372846484184265, "train_loss_bc": 0.06532067060470581, "train_loss_llm": 0.32840779423713684, "grad_norm": 0.1092822402715683, "global_step": 1937, "epoch": 8, "lr": 0.009998488524117359}
+{"train_loss": 0.500203549861908, "train_loss_bc": 0.07864334434270859, "train_loss_llm": 0.4215601980686188, "grad_norm": 0.2506297528743744, "global_step": 1938, "epoch": 8, "lr": 0.009998488524117359}
+{"train_loss": 0.3865649998188019, "train_loss_bc": 0.05749848484992981, "train_loss_llm": 0.32906651496887207, "grad_norm": 0.6001723408699036, "global_step": 1939, "epoch": 8, "lr": 0.009998488524117359}
+{"train_loss": 0.3549613952636719, "train_loss_bc": 0.06125669553875923, "train_loss_llm": 0.29370468854904175, "grad_norm": 0.7588144540786743, "global_step": 1940, "epoch": 8, "lr": 0.009998488524117359}
+{"train_loss": 0.27109241485595703, "train_loss_bc": 0.049296632409095764, "train_loss_llm": 0.22179576754570007, "grad_norm": 0.9562414884567261, "global_step": 1941, "epoch": 8, "lr": 0.009998488524117359}
+{"train_loss": 0.3283239006996155, "train_loss_bc": 0.037894804030656815, "train_loss_llm": 0.29042908549308777, "grad_norm": 1.1380465030670166, "global_step": 1942, "epoch": 8, "lr": 0.009998488524117359}
+{"train_loss": 0.3587791323661804, "train_loss_bc": 0.05546318739652634, "train_loss_llm": 0.3033159375190735, "grad_norm": 1.2234355211257935, "global_step": 1943, "epoch": 8, "lr": 0.009998488524117359}
+{"train_loss": 0.34540557861328125, "train_loss_bc": 0.05357860028743744, "train_loss_llm": 0.291826993227005, "grad_norm": 1.5523526668548584, "global_step": 1944, "epoch": 8, "lr": 0.009998475522894899}
+{"train_loss": 0.37276071310043335, "train_loss_bc": 0.06555783003568649, "train_loss_llm": 0.30720287561416626, "grad_norm": 0.35627102851867676, "global_step": 1945, "epoch": 8, "lr": 0.009998475522894899}
+{"train_loss": 0.47298261523246765, "train_loss_bc": 0.05973529815673828, "train_loss_llm": 0.41324731707572937, "grad_norm": 0.699634850025177, "global_step": 1946, "epoch": 8, "lr": 0.009998475522894899}
+{"train_loss": 0.36430078744888306, "train_loss_bc": 0.07691603153944016, "train_loss_llm": 0.2873847484588623, "grad_norm": 0.7514538168907166, "global_step": 1947, "epoch": 8, "lr": 0.009998475522894899}
+{"train_loss": 0.3656086325645447, "train_loss_bc": 0.06680911779403687, "train_loss_llm": 0.2987995147705078, "grad_norm": 0.7609348893165588, "global_step": 1948, "epoch": 8, "lr": 0.009998475522894899}
+{"train_loss": 0.3551492989063263, "train_loss_bc": 0.05627334862947464, "train_loss_llm": 0.29887595772743225, "grad_norm": 0.7310062646865845, "global_step": 1949, "epoch": 8, "lr": 0.009998475522894899}
+{"train_loss": 0.28316399455070496, "train_loss_bc": 0.05941791459918022, "train_loss_llm": 0.22374609112739563, "grad_norm": 0.7907347679138184, "global_step": 1950, "epoch": 8, "lr": 0.009998475522894899}
+{"train_loss": 0.32692956924438477, "train_loss_bc": 0.053961947560310364, "train_loss_llm": 0.2729676067829132, "grad_norm": 0.7819061279296875, "global_step": 1951, "epoch": 8, "lr": 0.009998475522894899}
+{"train_loss": 0.3922077417373657, "train_loss_bc": 0.05115862563252449, "train_loss_llm": 0.34104910492897034, "grad_norm": 0.859655499458313, "global_step": 1952, "epoch": 8, "lr": 0.009998462466004028}
+{"train_loss": 0.3814013600349426, "train_loss_bc": 0.07276175916194916, "train_loss_llm": 0.3086395859718323, "grad_norm": 0.17760057747364044, "global_step": 1953, "epoch": 8, "lr": 0.009998462466004028}
+{"train_loss": 0.40427300333976746, "train_loss_bc": 0.08349127322435379, "train_loss_llm": 0.32078173756599426, "grad_norm": 0.21085631847381592, "global_step": 1954, "epoch": 8, "lr": 0.009998462466004028}
+{"train_loss": 0.4186701774597168, "train_loss_bc": 0.06723155081272125, "train_loss_llm": 0.35143864154815674, "grad_norm": 0.24390994012355804, "global_step": 1955, "epoch": 8, "lr": 0.009998462466004028}
+{"train_loss": 0.42522895336151123, "train_loss_bc": 0.09371156245470047, "train_loss_llm": 0.33151739835739136, "grad_norm": 0.21500883996486664, "global_step": 1956, "epoch": 8, "lr": 0.009998462466004028}
+{"train_loss": 0.32717305421829224, "train_loss_bc": 0.058367159217596054, "train_loss_llm": 0.2688058912754059, "grad_norm": 0.3118167519569397, "global_step": 1957, "epoch": 8, "lr": 0.009998462466004028}
+{"train_loss": 0.35389450192451477, "train_loss_bc": 0.07407265901565552, "train_loss_llm": 0.27982184290885925, "grad_norm": 0.3121388852596283, "global_step": 1958, "epoch": 8, "lr": 0.009998462466004028}
+{"train_loss": 0.3631778657436371, "train_loss_bc": 0.07845877856016159, "train_loss_llm": 0.2847190797328949, "grad_norm": 0.3459170460700989, "global_step": 1959, "epoch": 8, "lr": 0.009998462466004028}
+{"train_loss": 0.3051460087299347, "train_loss_bc": 0.05867142230272293, "train_loss_llm": 0.24647459387779236, "grad_norm": 1.3016618490219116, "global_step": 1960, "epoch": 8, "lr": 0.009998449353444891}
+{"train_loss": 0.48233360052108765, "train_loss_bc": 0.09727004915475845, "train_loss_llm": 0.3850635588169098, "grad_norm": 0.28423503041267395, "global_step": 1961, "epoch": 8, "lr": 0.009998449353444891}
+{"train_loss": 0.3211013674736023, "train_loss_bc": 0.07562734931707382, "train_loss_llm": 0.24547401070594788, "grad_norm": 0.5998956561088562, "global_step": 1962, "epoch": 8, "lr": 0.009998449353444891}
+{"train_loss": 0.45159047842025757, "train_loss_bc": 0.10312147438526154, "train_loss_llm": 0.34846898913383484, "grad_norm": 0.8333702683448792, "global_step": 1963, "epoch": 8, "lr": 0.009998449353444891}
+{"train_loss": 0.38652729988098145, "train_loss_bc": 0.10769708454608917, "train_loss_llm": 0.2788302004337311, "grad_norm": 0.92195725440979, "global_step": 1964, "epoch": 8, "lr": 0.009998449353444891}
+{"train_loss": 0.38281917572021484, "train_loss_bc": 0.09886852651834488, "train_loss_llm": 0.28395065665245056, "grad_norm": 1.0595440864562988, "global_step": 1965, "epoch": 8, "lr": 0.009998449353444891}
+{"train_loss": 0.28473877906799316, "train_loss_bc": 0.054936643689870834, "train_loss_llm": 0.22980213165283203, "grad_norm": 1.5665860176086426, "global_step": 1966, "epoch": 8, "lr": 0.009998449353444891}
+{"train_loss": 0.346495121717453, "train_loss_bc": 0.06847122311592102, "train_loss_llm": 0.278023898601532, "grad_norm": 1.7329915761947632, "global_step": 1967, "epoch": 8, "lr": 0.009998449353444891}
+{"train_loss": 0.3856604993343353, "train_loss_bc": 0.08933598548173904, "train_loss_llm": 0.2963245213031769, "grad_norm": 1.9254356622695923, "global_step": 1968, "epoch": 8, "lr": 0.009998436185217636}
+{"train_loss": 0.39560404419898987, "train_loss_bc": 0.08472179621458054, "train_loss_llm": 0.31088224053382874, "grad_norm": 0.34315577149391174, "global_step": 1969, "epoch": 8, "lr": 0.009998436185217636}
+{"train_loss": 0.3905867040157318, "train_loss_bc": 0.09521857649087906, "train_loss_llm": 0.29536813497543335, "grad_norm": 0.5396148562431335, "global_step": 1970, "epoch": 8, "lr": 0.009998436185217636}
+{"train_loss": 0.40091726183891296, "train_loss_bc": 0.06839371472597122, "train_loss_llm": 0.33252355456352234, "grad_norm": 0.8710072040557861, "global_step": 1971, "epoch": 8, "lr": 0.009998436185217636}
+{"train_loss": 0.41487058997154236, "train_loss_bc": 0.1056089922785759, "train_loss_llm": 0.30926159024238586, "grad_norm": 0.9735164642333984, "global_step": 1972, "epoch": 8, "lr": 0.009998436185217636}
+{"train_loss": 0.4541715979576111, "train_loss_bc": 0.09102000296115875, "train_loss_llm": 0.3631516098976135, "grad_norm": 1.2108513116836548, "global_step": 1973, "epoch": 8, "lr": 0.009998436185217636}
+{"train_loss": 0.39147257804870605, "train_loss_bc": 0.07818403095006943, "train_loss_llm": 0.31328853964805603, "grad_norm": 1.596828579902649, "global_step": 1974, "epoch": 8, "lr": 0.009998436185217636}
+{"train_loss": 0.36183345317840576, "train_loss_bc": 0.09009380638599396, "train_loss_llm": 0.2717396318912506, "grad_norm": 1.7339357137680054, "global_step": 1975, "epoch": 8, "lr": 0.009998436185217636}
+{"train_loss": 0.4585466980934143, "train_loss_bc": 0.09607063233852386, "train_loss_llm": 0.36247605085372925, "grad_norm": 1.741649866104126, "global_step": 1976, "epoch": 8, "lr": 0.009998422961322409}
+{"train_loss": 0.39298146963119507, "train_loss_bc": 0.09107004106044769, "train_loss_llm": 0.3019114136695862, "grad_norm": 0.23172496259212494, "global_step": 1977, "epoch": 8, "lr": 0.009998422961322409}
+{"train_loss": 0.404776006937027, "train_loss_bc": 0.08387047052383423, "train_loss_llm": 0.32090553641319275, "grad_norm": 0.23281733691692352, "global_step": 1978, "epoch": 8, "lr": 0.009998422961322409}
+{"train_loss": 0.4544309973716736, "train_loss_bc": 0.07078845798969269, "train_loss_llm": 0.3836425542831421, "grad_norm": 0.4652611315250397, "global_step": 1979, "epoch": 8, "lr": 0.009998422961322409}
+{"train_loss": 0.45249617099761963, "train_loss_bc": 0.11244891583919525, "train_loss_llm": 0.3400472402572632, "grad_norm": 0.6061004996299744, "global_step": 1980, "epoch": 8, "lr": 0.009998422961322409}
+{"train_loss": 0.4461955428123474, "train_loss_bc": 0.10681669414043427, "train_loss_llm": 0.33937886357307434, "grad_norm": 0.7423578500747681, "global_step": 1981, "epoch": 8, "lr": 0.009998422961322409}
+{"train_loss": 0.41733071208000183, "train_loss_bc": 0.11289659142494202, "train_loss_llm": 0.3044341206550598, "grad_norm": 0.8050928711891174, "global_step": 1982, "epoch": 8, "lr": 0.009998422961322409}
+{"train_loss": 0.42539891600608826, "train_loss_bc": 0.11485802382230759, "train_loss_llm": 0.3105408847332001, "grad_norm": 0.9070794582366943, "global_step": 1983, "epoch": 8, "lr": 0.009998422961322409}
+{"train_loss": 0.4346264600753784, "train_loss_bc": 0.10439212620258331, "train_loss_llm": 0.3302343487739563, "grad_norm": 1.0462594032287598, "global_step": 1984, "epoch": 8, "lr": 0.009998409681759355}
+{"train_loss": 0.40020596981048584, "train_loss_bc": 0.08670882880687714, "train_loss_llm": 0.3134971559047699, "grad_norm": 0.14555473625659943, "global_step": 1985, "epoch": 8, "lr": 0.009998409681759355}
+{"train_loss": 0.4123572111129761, "train_loss_bc": 0.08705258369445801, "train_loss_llm": 0.32530462741851807, "grad_norm": 0.15454143285751343, "global_step": 1986, "epoch": 8, "lr": 0.009998409681759355}
+{"train_loss": 0.39935410022735596, "train_loss_bc": 0.09925934672355652, "train_loss_llm": 0.30009475350379944, "grad_norm": 0.31130218505859375, "global_step": 1987, "epoch": 8, "lr": 0.009998409681759355}
+{"train_loss": 0.41299429535865784, "train_loss_bc": 0.08758124709129333, "train_loss_llm": 0.3254130482673645, "grad_norm": 0.33515045046806335, "global_step": 1988, "epoch": 8, "lr": 0.009998409681759355}
+{"train_loss": 0.3909139037132263, "train_loss_bc": 0.10422869026660919, "train_loss_llm": 0.28668519854545593, "grad_norm": 0.41314342617988586, "global_step": 1989, "epoch": 8, "lr": 0.009998409681759355}
+{"train_loss": 0.45936664938926697, "train_loss_bc": 0.11635313183069229, "train_loss_llm": 0.3430135250091553, "grad_norm": 0.47907307744026184, "global_step": 1990, "epoch": 8, "lr": 0.009998409681759355}
+{"train_loss": 0.43043458461761475, "train_loss_bc": 0.09007836878299713, "train_loss_llm": 0.3403562009334564, "grad_norm": 0.610460102558136, "global_step": 1991, "epoch": 8, "lr": 0.009998409681759355}
+{"train_loss": 0.39808905124664307, "train_loss_bc": 0.08753042668104172, "train_loss_llm": 0.31055861711502075, "grad_norm": 0.8501365780830383, "global_step": 1992, "epoch": 8, "lr": 0.009998396346528625}
+{"train_loss": 0.4306168556213379, "train_loss_bc": 0.07757289707660675, "train_loss_llm": 0.35304394364356995, "grad_norm": 0.13110758364200592, "global_step": 1993, "epoch": 8, "lr": 0.009998396346528625}
+{"train_loss": 0.3427485525608063, "train_loss_bc": 0.06035303324460983, "train_loss_llm": 0.28239551186561584, "grad_norm": 0.5384228229522705, "global_step": 1994, "epoch": 8, "lr": 0.009998396346528625}
+{"train_loss": 0.3892408013343811, "train_loss_bc": 0.09064267575740814, "train_loss_llm": 0.29859811067581177, "grad_norm": 0.6644057631492615, "global_step": 1995, "epoch": 8, "lr": 0.009998396346528625}
+{"train_loss": 0.36574259400367737, "train_loss_bc": 0.07851874828338623, "train_loss_llm": 0.28722384572029114, "grad_norm": 0.6303197741508484, "global_step": 1996, "epoch": 8, "lr": 0.009998396346528625}
+{"train_loss": 0.40068039298057556, "train_loss_bc": 0.08568605780601501, "train_loss_llm": 0.31499433517456055, "grad_norm": 0.78978031873703, "global_step": 1997, "epoch": 8, "lr": 0.009998396346528625}
+{"train_loss": 0.36588388681411743, "train_loss_bc": 0.06892481446266174, "train_loss_llm": 0.2969590723514557, "grad_norm": 0.5614583492279053, "global_step": 1998, "epoch": 8, "lr": 0.009998396346528625}
+{"train_loss": 0.3869171142578125, "train_loss_bc": 0.0813804343342781, "train_loss_llm": 0.305536687374115, "grad_norm": 0.6398288607597351, "global_step": 1999, "epoch": 8, "lr": 0.009998396346528625}
+{"train_loss": 0.4815433919429779, "train_loss_bc": 0.0975542962551117, "train_loss_llm": 0.3839890956878662, "grad_norm": 0.6901123523712158, "global_step": 2000, "epoch": 8, "lr": 0.009998382955630365}
+{"train_loss": 0.3899592161178589, "train_loss_bc": 0.06689971685409546, "train_loss_llm": 0.3230594992637634, "grad_norm": 0.1299755871295929, "global_step": 2001, "epoch": 8, "lr": 0.009998382955630365}
+{"train_loss": 0.4454813003540039, "train_loss_bc": 0.08341263234615326, "train_loss_llm": 0.36206865310668945, "grad_norm": 0.2713247537612915, "global_step": 2002, "epoch": 8, "lr": 0.009998382955630365}
+{"train_loss": 0.36544370651245117, "train_loss_bc": 0.07147733867168427, "train_loss_llm": 0.2939663529396057, "grad_norm": 0.45972704887390137, "global_step": 2003, "epoch": 8, "lr": 0.009998382955630365}
+{"train_loss": 0.354386568069458, "train_loss_bc": 0.07227585464715958, "train_loss_llm": 0.28211072087287903, "grad_norm": 0.7996398210525513, "global_step": 2004, "epoch": 8, "lr": 0.009998382955630365}
+{"train_loss": 0.4063551723957062, "train_loss_bc": 0.06932047009468079, "train_loss_llm": 0.3370347023010254, "grad_norm": 1.0625230073928833, "global_step": 2005, "epoch": 8, "lr": 0.009998382955630365}
+{"train_loss": 0.40348055958747864, "train_loss_bc": 0.08933386206626892, "train_loss_llm": 0.3141466975212097, "grad_norm": 1.1499816179275513, "global_step": 2006, "epoch": 8, "lr": 0.009998382955630365}
+{"train_loss": 0.36463165283203125, "train_loss_bc": 0.07135006785392761, "train_loss_llm": 0.29328158497810364, "grad_norm": 1.2894599437713623, "global_step": 2007, "epoch": 8, "lr": 0.009998382955630365}
+{"train_loss": 0.37958279252052307, "train_loss_bc": 0.0697060227394104, "train_loss_llm": 0.30987676978111267, "grad_norm": 1.406938910484314, "global_step": 2008, "epoch": 8, "lr": 0.009998369509064724}
+{"train_loss": 0.36889803409576416, "train_loss_bc": 0.06432454288005829, "train_loss_llm": 0.30457350611686707, "grad_norm": 0.20539312064647675, "global_step": 2009, "epoch": 8, "lr": 0.009998369509064724}
+{"train_loss": 0.3688904941082001, "train_loss_bc": 0.05953962355852127, "train_loss_llm": 0.3093508780002594, "grad_norm": 0.36356380581855774, "global_step": 2010, "epoch": 8, "lr": 0.009998369509064724}
+{"train_loss": 0.3363038897514343, "train_loss_bc": 0.06056849658489227, "train_loss_llm": 0.27573537826538086, "grad_norm": 0.40816909074783325, "global_step": 2011, "epoch": 8, "lr": 0.009998369509064724}
+{"train_loss": 0.3937811851501465, "train_loss_bc": 0.056019194424152374, "train_loss_llm": 0.3377619981765747, "grad_norm": 0.5275013446807861, "global_step": 2012, "epoch": 8, "lr": 0.009998369509064724}
+{"train_loss": 0.4253149926662445, "train_loss_bc": 0.07476571202278137, "train_loss_llm": 0.35054928064346313, "grad_norm": 0.7206706404685974, "global_step": 2013, "epoch": 8, "lr": 0.009998369509064724}
+{"train_loss": 0.2856908142566681, "train_loss_bc": 0.04481334611773491, "train_loss_llm": 0.24087747931480408, "grad_norm": 0.78270423412323, "global_step": 2014, "epoch": 8, "lr": 0.009998369509064724}
+{"train_loss": 0.3743305802345276, "train_loss_bc": 0.06487302482128143, "train_loss_llm": 0.30945754051208496, "grad_norm": 0.981656551361084, "global_step": 2015, "epoch": 8, "lr": 0.009998369509064724}
+{"train_loss": 0.3987117409706116, "train_loss_bc": 0.06715068966150284, "train_loss_llm": 0.33156105875968933, "grad_norm": 1.21268892288208, "global_step": 2016, "epoch": 8, "lr": 0.009998356006831856}
+{"train_loss": 0.36276108026504517, "train_loss_bc": 0.06608463823795319, "train_loss_llm": 0.2966764271259308, "grad_norm": 0.167511984705925, "global_step": 2017, "epoch": 8, "lr": 0.009998356006831856}
+{"train_loss": 0.2917657494544983, "train_loss_bc": 0.037586312741041183, "train_loss_llm": 0.254179447889328, "grad_norm": 0.2722213864326477, "global_step": 2018, "epoch": 8, "lr": 0.009998356006831856}
+{"train_loss": 0.3879307210445404, "train_loss_bc": 0.05194905400276184, "train_loss_llm": 0.33598166704177856, "grad_norm": 0.5010253190994263, "global_step": 2019, "epoch": 8, "lr": 0.009998356006831856}
+{"train_loss": 0.3030148446559906, "train_loss_bc": 0.05143860727548599, "train_loss_llm": 0.2515762448310852, "grad_norm": 0.545956015586853, "global_step": 2020, "epoch": 8, "lr": 0.009998356006831856}
+{"train_loss": 0.34513241052627563, "train_loss_bc": 0.0625113993883133, "train_loss_llm": 0.28262099623680115, "grad_norm": 0.6854719519615173, "global_step": 2021, "epoch": 8, "lr": 0.009998356006831856}
+{"train_loss": 0.3588653802871704, "train_loss_bc": 0.047435931861400604, "train_loss_llm": 0.3114294409751892, "grad_norm": 0.7514984607696533, "global_step": 2022, "epoch": 8, "lr": 0.009998356006831856}
+{"train_loss": 0.40401962399482727, "train_loss_bc": 0.06387552618980408, "train_loss_llm": 0.3401440978050232, "grad_norm": 0.8431846499443054, "global_step": 2023, "epoch": 8, "lr": 0.009998356006831856}
+{"train_loss": 0.36768341064453125, "train_loss_bc": 0.05530717223882675, "train_loss_llm": 0.3123762309551239, "grad_norm": 0.9323952198028564, "global_step": 2024, "epoch": 8, "lr": 0.009998342448931906}
+{"train_loss": 0.44331270456314087, "train_loss_bc": 0.060331087559461594, "train_loss_llm": 0.38298162817955017, "grad_norm": 0.271474152803421, "global_step": 2025, "epoch": 8, "lr": 0.009998342448931906}
+{"train_loss": 0.33824220299720764, "train_loss_bc": 0.04224269837141037, "train_loss_llm": 0.2959994971752167, "grad_norm": 0.5306692123413086, "global_step": 2026, "epoch": 8, "lr": 0.009998342448931906}
+{"train_loss": 0.3811052441596985, "train_loss_bc": 0.04819997027516365, "train_loss_llm": 0.33290526270866394, "grad_norm": 0.717960774898529, "global_step": 2027, "epoch": 8, "lr": 0.009998342448931906}
+{"train_loss": 0.3990797996520996, "train_loss_bc": 0.057096563279628754, "train_loss_llm": 0.34198322892189026, "grad_norm": 0.7748227119445801, "global_step": 2028, "epoch": 8, "lr": 0.009998342448931906}
+{"train_loss": 0.45023149251937866, "train_loss_bc": 0.04785509034991264, "train_loss_llm": 0.4023764133453369, "grad_norm": 0.9798692464828491, "global_step": 2029, "epoch": 8, "lr": 0.009998342448931906}
+{"train_loss": 0.3958844244480133, "train_loss_bc": 0.054431237280368805, "train_loss_llm": 0.3414531946182251, "grad_norm": 1.2322616577148438, "global_step": 2030, "epoch": 8, "lr": 0.009998342448931906}
+{"train_loss": 0.3973466157913208, "train_loss_bc": 0.046106547117233276, "train_loss_llm": 0.3512400686740875, "grad_norm": 1.3078633546829224, "global_step": 2031, "epoch": 8, "lr": 0.009998342448931906}
+{"train_loss": 0.39923083782196045, "train_loss_bc": 0.073311448097229, "train_loss_llm": 0.32591938972473145, "grad_norm": 1.4507646560668945, "global_step": 2032, "epoch": 8, "lr": 0.00999832883536503}
+{"train_loss": 0.36663463711738586, "train_loss_bc": 0.04706454277038574, "train_loss_llm": 0.3195700943470001, "grad_norm": 0.11130519956350327, "global_step": 2033, "epoch": 8, "lr": 0.00999832883536503}
+{"train_loss": 0.3910991847515106, "train_loss_bc": 0.059072788804769516, "train_loss_llm": 0.3320263922214508, "grad_norm": 0.2711220979690552, "global_step": 2034, "epoch": 8, "lr": 0.00999832883536503}
+{"train_loss": 0.3202728033065796, "train_loss_bc": 0.03913593292236328, "train_loss_llm": 0.2811368703842163, "grad_norm": 0.631310224533081, "global_step": 2035, "epoch": 8, "lr": 0.00999832883536503}
+{"train_loss": 0.344366192817688, "train_loss_bc": 0.04870860278606415, "train_loss_llm": 0.29565757513046265, "grad_norm": 0.7282015681266785, "global_step": 2036, "epoch": 8, "lr": 0.00999832883536503}
+{"train_loss": 0.4296191930770874, "train_loss_bc": 0.05802130699157715, "train_loss_llm": 0.37159788608551025, "grad_norm": 0.8597942590713501, "global_step": 2037, "epoch": 8, "lr": 0.00999832883536503}
+{"train_loss": 0.3839038014411926, "train_loss_bc": 0.05564660578966141, "train_loss_llm": 0.3282572031021118, "grad_norm": 1.0222514867782593, "global_step": 2038, "epoch": 8, "lr": 0.00999832883536503}
+{"train_loss": 0.29403313994407654, "train_loss_bc": 0.03681495040655136, "train_loss_llm": 0.2572181820869446, "grad_norm": 1.0790274143218994, "global_step": 2039, "epoch": 8, "lr": 0.00999832883536503}
+{"train_loss": 0.3498631715774536, "train_loss_bc": 0.048985496163368225, "train_loss_llm": 0.3008776605129242, "grad_norm": 1.2666916847229004, "global_step": 2040, "epoch": 8, "lr": 0.009998315166131375}
+{"train_loss": 0.3624730110168457, "train_loss_bc": 0.05136188864707947, "train_loss_llm": 0.31111112236976624, "grad_norm": 0.12032525986433029, "global_step": 2041, "epoch": 8, "lr": 0.009998315166131375}
+{"train_loss": 0.38999661803245544, "train_loss_bc": 0.05341067165136337, "train_loss_llm": 0.3365859389305115, "grad_norm": 0.28095006942749023, "global_step": 2042, "epoch": 8, "lr": 0.009998315166131375}
+{"train_loss": 0.3502452075481415, "train_loss_bc": 0.055291734635829926, "train_loss_llm": 0.29495346546173096, "grad_norm": 0.36083388328552246, "global_step": 2043, "epoch": 8, "lr": 0.009998315166131375}
+{"train_loss": 0.4210421144962311, "train_loss_bc": 0.05489248037338257, "train_loss_llm": 0.3661496341228485, "grad_norm": 0.5805440545082092, "global_step": 2044, "epoch": 8, "lr": 0.009998315166131375}
+{"train_loss": 0.38795214891433716, "train_loss_bc": 0.053181685507297516, "train_loss_llm": 0.33477047085762024, "grad_norm": 0.7302812337875366, "global_step": 2045, "epoch": 8, "lr": 0.009998315166131375}
+{"train_loss": 0.3302462100982666, "train_loss_bc": 0.050450149923563004, "train_loss_llm": 0.2797960638999939, "grad_norm": 0.901116669178009, "global_step": 2046, "epoch": 8, "lr": 0.009998315166131375}
+{"train_loss": 0.4128861427307129, "train_loss_bc": 0.05055687204003334, "train_loss_llm": 0.36232927441596985, "grad_norm": 1.0888983011245728, "global_step": 2047, "epoch": 8, "lr": 0.009998315166131375}
+{"train_loss": 0.2713407874107361, "train_loss_bc": 0.03764398396015167, "train_loss_llm": 0.2336968183517456, "grad_norm": 1.102513074874878, "global_step": 2048, "epoch": 8, "lr": 0.009998301441231094}
+{"train_loss": 0.3660864233970642, "train_loss_bc": 0.05422329902648926, "train_loss_llm": 0.31186312437057495, "grad_norm": 0.14497549831867218, "global_step": 2049, "epoch": 8, "lr": 0.009998301441231094}
+{"train_loss": 0.3634125590324402, "train_loss_bc": 0.05055151879787445, "train_loss_llm": 0.31286105513572693, "grad_norm": 0.31555473804473877, "global_step": 2050, "epoch": 8, "lr": 0.009998301441231094}
+{"train_loss": 0.3323996961116791, "train_loss_bc": 0.050674401223659515, "train_loss_llm": 0.28172528743743896, "grad_norm": 0.4094929099082947, "global_step": 2051, "epoch": 8, "lr": 0.009998301441231094}
+{"train_loss": 0.3874812424182892, "train_loss_bc": 0.05289289727807045, "train_loss_llm": 0.33458834886550903, "grad_norm": 0.44928988814353943, "global_step": 2052, "epoch": 8, "lr": 0.009998301441231094}
+{"train_loss": 0.3275456428527832, "train_loss_bc": 0.046592772006988525, "train_loss_llm": 0.2809528708457947, "grad_norm": 0.6202855110168457, "global_step": 2053, "epoch": 8, "lr": 0.009998301441231094}
+{"train_loss": 0.40493521094322205, "train_loss_bc": 0.052929919213056564, "train_loss_llm": 0.3520053029060364, "grad_norm": 0.8304718136787415, "global_step": 2054, "epoch": 8, "lr": 0.009998301441231094}
+{"train_loss": 0.40914386510849, "train_loss_bc": 0.05419392138719559, "train_loss_llm": 0.354949951171875, "grad_norm": 0.9406084418296814, "global_step": 2055, "epoch": 8, "lr": 0.009998301441231094}
+{"train_loss": 0.406235933303833, "train_loss_bc": 0.04959384724497795, "train_loss_llm": 0.35664209723472595, "grad_norm": 1.0640188455581665, "global_step": 2056, "epoch": 8, "lr": 0.009998287660664344}
+{"train_loss": 0.35505738854408264, "train_loss_bc": 0.049335774034261703, "train_loss_llm": 0.30572161078453064, "grad_norm": 0.10700161755084991, "global_step": 2057, "epoch": 8, "lr": 0.009998287660664344}
+{"train_loss": 0.37646913528442383, "train_loss_bc": 0.05169180780649185, "train_loss_llm": 0.3247773349285126, "grad_norm": 0.20061369240283966, "global_step": 2058, "epoch": 8, "lr": 0.009998287660664344}
+{"train_loss": 0.3640460968017578, "train_loss_bc": 0.05316203832626343, "train_loss_llm": 0.3108840584754944, "grad_norm": 0.3534817397594452, "global_step": 2059, "epoch": 8, "lr": 0.009998287660664344}
+{"train_loss": 0.3765774071216583, "train_loss_bc": 0.05036569759249687, "train_loss_llm": 0.32621172070503235, "grad_norm": 0.422150582075119, "global_step": 2060, "epoch": 8, "lr": 0.009998287660664344}
+{"train_loss": 0.3506776988506317, "train_loss_bc": 0.05075806379318237, "train_loss_llm": 0.29991963505744934, "grad_norm": 0.5163276791572571, "global_step": 2061, "epoch": 8, "lr": 0.009998287660664344}
+{"train_loss": 0.41519439220428467, "train_loss_bc": 0.04922686517238617, "train_loss_llm": 0.3659675121307373, "grad_norm": 0.7543911933898926, "global_step": 2062, "epoch": 8, "lr": 0.009998287660664344}
+{"train_loss": 0.35852399468421936, "train_loss_bc": 0.04215174540877342, "train_loss_llm": 0.31637224555015564, "grad_norm": 0.896693766117096, "global_step": 2063, "epoch": 8, "lr": 0.009998287660664344}
+{"train_loss": 0.345414400100708, "train_loss_bc": 0.04367782175540924, "train_loss_llm": 0.30173659324645996, "grad_norm": 0.9965383410453796, "global_step": 2064, "epoch": 8, "lr": 0.009998273824431273}
+{"train_loss": 0.40865522623062134, "train_loss_bc": 0.04848445951938629, "train_loss_llm": 0.36017075181007385, "grad_norm": 0.10162776708602905, "global_step": 2065, "epoch": 8, "lr": 0.009998273824431273}
+{"train_loss": 0.41178247332572937, "train_loss_bc": 0.062377870082855225, "train_loss_llm": 0.34940460324287415, "grad_norm": 0.1643219143152237, "global_step": 2066, "epoch": 8, "lr": 0.009998273824431273}
+{"train_loss": 0.3718617558479309, "train_loss_bc": 0.048809707164764404, "train_loss_llm": 0.3230520486831665, "grad_norm": 0.20229746401309967, "global_step": 2067, "epoch": 8, "lr": 0.009998273824431273}
+{"train_loss": 0.43520689010620117, "train_loss_bc": 0.056522585451602936, "train_loss_llm": 0.37868431210517883, "grad_norm": 0.3164619505405426, "global_step": 2068, "epoch": 8, "lr": 0.009998273824431273}
+{"train_loss": 0.41546136140823364, "train_loss_bc": 0.05568447336554527, "train_loss_llm": 0.35977688431739807, "grad_norm": 0.35661405324935913, "global_step": 2069, "epoch": 8, "lr": 0.009998273824431273}
+{"train_loss": 0.40925315022468567, "train_loss_bc": 0.05455900356173515, "train_loss_llm": 0.3546941578388214, "grad_norm": 0.41710710525512695, "global_step": 2070, "epoch": 8, "lr": 0.009998273824431273}
+{"train_loss": 0.36282968521118164, "train_loss_bc": 0.05844224989414215, "train_loss_llm": 0.3043874204158783, "grad_norm": 0.43689867854118347, "global_step": 2071, "epoch": 8, "lr": 0.009998273824431273}
+{"train_loss": 0.404153436422348, "train_loss_bc": 0.059480708092451096, "train_loss_llm": 0.3446727395057678, "grad_norm": 0.5223709344863892, "global_step": 2072, "epoch": 8, "lr": 0.009998259932532038}
+{"train_loss": 0.3305780291557312, "train_loss_bc": 0.06256750971078873, "train_loss_llm": 0.26801052689552307, "grad_norm": 0.0663740485906601, "global_step": 2073, "epoch": 8, "lr": 0.009998259932532038}
+{"train_loss": 0.3459368348121643, "train_loss_bc": 0.06597883999347687, "train_loss_llm": 0.27995797991752625, "grad_norm": 0.10434892773628235, "global_step": 2074, "epoch": 8, "lr": 0.009998259932532038}
+{"train_loss": 0.389678418636322, "train_loss_bc": 0.058297500014305115, "train_loss_llm": 0.3313809335231781, "grad_norm": 0.16788385808467865, "global_step": 2075, "epoch": 8, "lr": 0.009998259932532038}
+{"train_loss": 0.3817223310470581, "train_loss_bc": 0.06480057537555695, "train_loss_llm": 0.31692177057266235, "grad_norm": 0.18012869358062744, "global_step": 2076, "epoch": 8, "lr": 0.009998259932532038}
+{"train_loss": 0.39040035009384155, "train_loss_bc": 0.06359084695577621, "train_loss_llm": 0.32680949568748474, "grad_norm": 0.3233765959739685, "global_step": 2077, "epoch": 8, "lr": 0.009998259932532038}
+{"train_loss": 0.3611915111541748, "train_loss_bc": 0.07157433032989502, "train_loss_llm": 0.2896171808242798, "grad_norm": 0.3621407151222229, "global_step": 2078, "epoch": 8, "lr": 0.009998259932532038}
+{"train_loss": 0.3416752219200134, "train_loss_bc": 0.054228849709033966, "train_loss_llm": 0.28744637966156006, "grad_norm": 0.4512180685997009, "global_step": 2079, "epoch": 8, "lr": 0.009998259932532038}
+{"train_loss": 0.29995062947273254, "train_loss_bc": 0.045735616236925125, "train_loss_llm": 0.2542150020599365, "grad_norm": 0.531258225440979, "global_step": 2080, "epoch": 8, "lr": 0.009998245984966797}
+{"train_loss": 0.35802072286605835, "train_loss_bc": 0.06290015578269958, "train_loss_llm": 0.29512056708335876, "grad_norm": 0.10465647280216217, "global_step": 2081, "epoch": 8, "lr": 0.009998245984966797}
+{"train_loss": 0.4302302598953247, "train_loss_bc": 0.07098263502120972, "train_loss_llm": 0.359247624874115, "grad_norm": 0.20345792174339294, "global_step": 2082, "epoch": 8, "lr": 0.009998245984966797}
+{"train_loss": 0.33045846223831177, "train_loss_bc": 0.05391225218772888, "train_loss_llm": 0.2765462100505829, "grad_norm": 0.4610021114349365, "global_step": 2083, "epoch": 8, "lr": 0.009998245984966797}
+{"train_loss": 0.4104711711406708, "train_loss_bc": 0.07030708342790604, "train_loss_llm": 0.34016409516334534, "grad_norm": 0.8124243021011353, "global_step": 2084, "epoch": 8, "lr": 0.009998245984966797}
+{"train_loss": 0.35650020837783813, "train_loss_bc": 0.07463936507701874, "train_loss_llm": 0.2818608283996582, "grad_norm": 0.8690241575241089, "global_step": 2085, "epoch": 8, "lr": 0.009998245984966797}
+{"train_loss": 0.3518674969673157, "train_loss_bc": 0.060941725969314575, "train_loss_llm": 0.2909257709980011, "grad_norm": 0.9032943844795227, "global_step": 2086, "epoch": 8, "lr": 0.009998245984966797}
+{"train_loss": 0.35028839111328125, "train_loss_bc": 0.07236162573099136, "train_loss_llm": 0.2779267728328705, "grad_norm": 1.0965237617492676, "global_step": 2087, "epoch": 8, "lr": 0.009998245984966797}
+{"train_loss": 0.3747100830078125, "train_loss_bc": 0.06644630432128906, "train_loss_llm": 0.30826377868652344, "grad_norm": 1.183945655822754, "global_step": 2088, "epoch": 8, "lr": 0.009998231981735698}
+{"train_loss": 0.36828935146331787, "train_loss_bc": 0.09170488268136978, "train_loss_llm": 0.2765844762325287, "grad_norm": 0.060782432556152344, "global_step": 2089, "epoch": 8, "lr": 0.009998231981735698}
+{"train_loss": 0.3452538251876831, "train_loss_bc": 0.0775177925825119, "train_loss_llm": 0.2677360475063324, "grad_norm": 0.20661817491054535, "global_step": 2090, "epoch": 8, "lr": 0.009998231981735698}
+{"train_loss": 0.32907426357269287, "train_loss_bc": 0.06835879385471344, "train_loss_llm": 0.26071545481681824, "grad_norm": 0.36376839876174927, "global_step": 2091, "epoch": 8, "lr": 0.009998231981735698}
+{"train_loss": 0.3297099173069, "train_loss_bc": 0.07448720186948776, "train_loss_llm": 0.25522270798683167, "grad_norm": 0.46769940853118896, "global_step": 2092, "epoch": 8, "lr": 0.009998231981735698}
+{"train_loss": 0.41570723056793213, "train_loss_bc": 0.08011935651302338, "train_loss_llm": 0.33558785915374756, "grad_norm": 0.5827374458312988, "global_step": 2093, "epoch": 8, "lr": 0.009998231981735698}
+{"train_loss": 0.38628655672073364, "train_loss_bc": 0.08551822602748871, "train_loss_llm": 0.30076831579208374, "grad_norm": 0.6125128865242004, "global_step": 2094, "epoch": 8, "lr": 0.009998231981735698}
+{"train_loss": 0.3047146201133728, "train_loss_bc": 0.07011811435222626, "train_loss_llm": 0.23459649085998535, "grad_norm": 0.7406044602394104, "global_step": 2095, "epoch": 8, "lr": 0.009998231981735698}
+{"train_loss": 0.37339144945144653, "train_loss_bc": 0.062491584569215775, "train_loss_llm": 0.31089985370635986, "grad_norm": 0.8153337240219116, "global_step": 2096, "epoch": 8, "lr": 0.009998217922838901}
+{"train_loss": 0.3500366806983948, "train_loss_bc": 0.08932477980852127, "train_loss_llm": 0.2607119083404541, "grad_norm": 0.0677071064710617, "global_step": 2097, "epoch": 8, "lr": 0.009998217922838901}
+{"train_loss": 0.4125853478908539, "train_loss_bc": 0.09005524963140488, "train_loss_llm": 0.3225300908088684, "grad_norm": 0.18206307291984558, "global_step": 2098, "epoch": 8, "lr": 0.009998217922838901}
+{"train_loss": 0.40661969780921936, "train_loss_bc": 0.08398133516311646, "train_loss_llm": 0.3226383626461029, "grad_norm": 0.2717920243740082, "global_step": 2099, "epoch": 8, "lr": 0.009998217922838901}
+{"train_loss": 0.4154745936393738, "train_loss_bc": 0.08678092062473297, "train_loss_llm": 0.3286936581134796, "grad_norm": 0.33022525906562805, "global_step": 2100, "epoch": 8, "lr": 0.009998217922838901}
+{"train_loss": 0.37668901681900024, "train_loss_bc": 0.09776176512241364, "train_loss_llm": 0.2789272665977478, "grad_norm": 0.39025020599365234, "global_step": 2101, "epoch": 8, "lr": 0.009998217922838901}
+{"train_loss": 0.38734206557273865, "train_loss_bc": 0.09192430973052979, "train_loss_llm": 0.29541775584220886, "grad_norm": 0.4639376699924469, "global_step": 2102, "epoch": 8, "lr": 0.009998217922838901}
+{"train_loss": 0.3602607846260071, "train_loss_bc": 0.08498760312795639, "train_loss_llm": 0.2752731740474701, "grad_norm": 0.5428676605224609, "global_step": 2103, "epoch": 8, "lr": 0.009998217922838901}
+{"train_loss": 0.396771639585495, "train_loss_bc": 0.1070336103439331, "train_loss_llm": 0.2897380292415619, "grad_norm": 0.6645487546920776, "global_step": 2104, "epoch": 8, "lr": 0.009998203808276563}
+{"train_loss": 0.36541086435317993, "train_loss_bc": 0.09655677527189255, "train_loss_llm": 0.2688540816307068, "grad_norm": 0.18199428915977478, "global_step": 2105, "epoch": 8, "lr": 0.009998203808276563}
+{"train_loss": 0.4914267957210541, "train_loss_bc": 0.11085402965545654, "train_loss_llm": 0.38057276606559753, "grad_norm": 0.2820064127445221, "global_step": 2106, "epoch": 8, "lr": 0.009998203808276563}
+{"train_loss": 0.3547772169113159, "train_loss_bc": 0.10741515457630157, "train_loss_llm": 0.24736207723617554, "grad_norm": 0.40048927068710327, "global_step": 2107, "epoch": 8, "lr": 0.009998203808276563}
+{"train_loss": 0.39874112606048584, "train_loss_bc": 0.0804494172334671, "train_loss_llm": 0.31829172372817993, "grad_norm": 0.40349218249320984, "global_step": 2108, "epoch": 8, "lr": 0.009998203808276563}
+{"train_loss": 0.321236789226532, "train_loss_bc": 0.07118292152881622, "train_loss_llm": 0.25005385279655457, "grad_norm": 0.5575374364852905, "global_step": 2109, "epoch": 8, "lr": 0.009998203808276563}
+{"train_loss": 0.3418785333633423, "train_loss_bc": 0.08020441234111786, "train_loss_llm": 0.2616741359233856, "grad_norm": 0.624273419380188, "global_step": 2110, "epoch": 8, "lr": 0.009998203808276563}
+{"train_loss": 0.3606889843940735, "train_loss_bc": 0.08903001248836517, "train_loss_llm": 0.2716589868068695, "grad_norm": 0.7891644835472107, "global_step": 2111, "epoch": 8, "lr": 0.009998203808276563}
+{"train_loss": 0.4152785539627075, "train_loss_bc": 0.10432543605566025, "train_loss_llm": 0.3109531104564667, "grad_norm": 0.7688243985176086, "global_step": 2112, "epoch": 8, "lr": 0.00999818963804884}
+{"train_loss": 0.33946406841278076, "train_loss_bc": 0.0906272679567337, "train_loss_llm": 0.24883681535720825, "grad_norm": 0.06810572743415833, "global_step": 2113, "epoch": 8, "lr": 0.00999818963804884}
+{"train_loss": 0.40178388357162476, "train_loss_bc": 0.08938714116811752, "train_loss_llm": 0.31239673495292664, "grad_norm": 0.1706453263759613, "global_step": 2114, "epoch": 8, "lr": 0.00999818963804884}
+{"train_loss": 0.3980497121810913, "train_loss_bc": 0.0846979171037674, "train_loss_llm": 0.3133517801761627, "grad_norm": 0.2008473128080368, "global_step": 2115, "epoch": 8, "lr": 0.00999818963804884}
+{"train_loss": 0.3859221339225769, "train_loss_bc": 0.0863904058933258, "train_loss_llm": 0.2995317280292511, "grad_norm": 0.2951529622077942, "global_step": 2116, "epoch": 8, "lr": 0.00999818963804884}
+{"train_loss": 0.3914124667644501, "train_loss_bc": 0.09313293546438217, "train_loss_llm": 0.2982795238494873, "grad_norm": 0.33862972259521484, "global_step": 2117, "epoch": 8, "lr": 0.00999818963804884}
+{"train_loss": 0.3281571567058563, "train_loss_bc": 0.0854528546333313, "train_loss_llm": 0.24270430207252502, "grad_norm": 0.41606011986732483, "global_step": 2118, "epoch": 8, "lr": 0.00999818963804884}
+{"train_loss": 0.3977762460708618, "train_loss_bc": 0.0929420068860054, "train_loss_llm": 0.304834246635437, "grad_norm": 0.4299941062927246, "global_step": 2119, "epoch": 8, "lr": 0.00999818963804884}
+{"train_loss": 0.39259353280067444, "train_loss_bc": 0.07756009697914124, "train_loss_llm": 0.3150334358215332, "grad_norm": 0.5627456307411194, "global_step": 2120, "epoch": 8, "lr": 0.009998175412155889}
+{"train_loss": 0.38773223757743835, "train_loss_bc": 0.06227991729974747, "train_loss_llm": 0.3254523277282715, "grad_norm": 0.12261734902858734, "global_step": 2121, "epoch": 8, "lr": 0.009998175412155889}
+{"train_loss": 0.38182878494262695, "train_loss_bc": 0.06737693399190903, "train_loss_llm": 0.31445184350013733, "grad_norm": 0.07716862112283707, "global_step": 2122, "epoch": 8, "lr": 0.009998175412155889}
+{"train_loss": 0.389409601688385, "train_loss_bc": 0.07836806029081345, "train_loss_llm": 0.31104153394699097, "grad_norm": 0.08905879408121109, "global_step": 2123, "epoch": 8, "lr": 0.009998175412155889}
+{"train_loss": 0.32498395442962646, "train_loss_bc": 0.07985265552997589, "train_loss_llm": 0.24513131380081177, "grad_norm": 0.1290941834449768, "global_step": 2124, "epoch": 8, "lr": 0.009998175412155889}
+{"train_loss": 0.31256651878356934, "train_loss_bc": 0.07791239023208618, "train_loss_llm": 0.23465412855148315, "grad_norm": 0.1487320214509964, "global_step": 2125, "epoch": 8, "lr": 0.009998175412155889}
+{"train_loss": 0.3708302974700928, "train_loss_bc": 0.07569094002246857, "train_loss_llm": 0.295139342546463, "grad_norm": 0.28152933716773987, "global_step": 2126, "epoch": 8, "lr": 0.009998175412155889}
+{"train_loss": 0.35079964995384216, "train_loss_bc": 0.07823598384857178, "train_loss_llm": 0.2725636661052704, "grad_norm": 0.3523348867893219, "global_step": 2127, "epoch": 8, "lr": 0.009998175412155889}
+{"train_loss": 0.36479324102401733, "train_loss_bc": 0.07911214232444763, "train_loss_llm": 0.2856810986995697, "grad_norm": 0.3712371289730072, "global_step": 2128, "epoch": 8, "lr": 0.009998161130597871}
+{"train_loss": 0.3701997995376587, "train_loss_bc": 0.06746694445610046, "train_loss_llm": 0.3027328550815582, "grad_norm": 0.07722913473844528, "global_step": 2129, "epoch": 8, "lr": 0.009998161130597871}
+{"train_loss": 0.33370253443717957, "train_loss_bc": 0.06507077068090439, "train_loss_llm": 0.2686317563056946, "grad_norm": 0.12988817691802979, "global_step": 2130, "epoch": 8, "lr": 0.009998161130597871}
+{"train_loss": 0.321475625038147, "train_loss_bc": 0.07316341996192932, "train_loss_llm": 0.24831220507621765, "grad_norm": 0.21328407526016235, "global_step": 2131, "epoch": 8, "lr": 0.009998161130597871}
+{"train_loss": 0.355193555355072, "train_loss_bc": 0.06140922009944916, "train_loss_llm": 0.29378435015678406, "grad_norm": 0.28521525859832764, "global_step": 2132, "epoch": 8, "lr": 0.009998161130597871}
+{"train_loss": 0.4511187672615051, "train_loss_bc": 0.06680279970169067, "train_loss_llm": 0.38431596755981445, "grad_norm": 0.29180413484573364, "global_step": 2133, "epoch": 8, "lr": 0.009998161130597871}
+{"train_loss": 0.35092151165008545, "train_loss_bc": 0.05996174365282059, "train_loss_llm": 0.29095977544784546, "grad_norm": 0.30022260546684265, "global_step": 2134, "epoch": 8, "lr": 0.009998161130597871}
+{"train_loss": 0.3792092502117157, "train_loss_bc": 0.07230347394943237, "train_loss_llm": 0.3069057762622833, "grad_norm": 0.38436418771743774, "global_step": 2135, "epoch": 8, "lr": 0.009998161130597871}
+{"train_loss": 0.3801041841506958, "train_loss_bc": 0.06966371089220047, "train_loss_llm": 0.3104404807090759, "grad_norm": 0.4527592658996582, "global_step": 2136, "epoch": 8, "lr": 0.009998146793374945}
+{"train_loss": 0.41427862644195557, "train_loss_bc": 0.06970343738794327, "train_loss_llm": 0.3445751965045929, "grad_norm": 0.16035068035125732, "global_step": 2137, "epoch": 8, "lr": 0.009998146793374945}
+{"train_loss": 0.3450213372707367, "train_loss_bc": 0.05935556814074516, "train_loss_llm": 0.2856657803058624, "grad_norm": 0.20325443148612976, "global_step": 2138, "epoch": 8, "lr": 0.009998146793374945}
+{"train_loss": 0.34214770793914795, "train_loss_bc": 0.06499527394771576, "train_loss_llm": 0.2771524488925934, "grad_norm": 0.25489190220832825, "global_step": 2139, "epoch": 8, "lr": 0.009998146793374945}
+{"train_loss": 0.38258254528045654, "train_loss_bc": 0.059323638677597046, "train_loss_llm": 0.3232589066028595, "grad_norm": 0.29057422280311584, "global_step": 2140, "epoch": 8, "lr": 0.009998146793374945}
+{"train_loss": 0.3774497870888029, "train_loss_bc": 0.06168875843286514, "train_loss_llm": 0.3330030143260956, "grad_norm": 0.3994361162185669, "global_step": 2141, "epoch": 8, "lr": 0.009998146793374945, "val_loss": 0.3513509929180145}
+{"train_loss": 0.35246741771698, "train_loss_bc": 0.05810967832803726, "train_loss_llm": 0.2943577468395233, "grad_norm": 0.42870238423347473, "global_step": 2142, "epoch": 9, "lr": 0.009998146793374945}
+{"train_loss": 0.33674901723861694, "train_loss_bc": 0.05317689850926399, "train_loss_llm": 0.28357210755348206, "grad_norm": 0.48948538303375244, "global_step": 2143, "epoch": 9, "lr": 0.009998146793374945}
+{"train_loss": 0.38273558020591736, "train_loss_bc": 0.059025488793849945, "train_loss_llm": 0.3237100839614868, "grad_norm": 0.5366721749305725, "global_step": 2144, "epoch": 9, "lr": 0.009998132400487268}
+{"train_loss": 0.41318878531455994, "train_loss_bc": 0.06133584305644035, "train_loss_llm": 0.3518529534339905, "grad_norm": 0.08518465608358383, "global_step": 2145, "epoch": 9, "lr": 0.009998132400487268}
+{"train_loss": 0.3175005614757538, "train_loss_bc": 0.05551319569349289, "train_loss_llm": 0.2619873583316803, "grad_norm": 0.1454313099384308, "global_step": 2146, "epoch": 9, "lr": 0.009998132400487268}
+{"train_loss": 0.4256182014942169, "train_loss_bc": 0.060054779052734375, "train_loss_llm": 0.36556342244148254, "grad_norm": 0.20040273666381836, "global_step": 2147, "epoch": 9, "lr": 0.009998132400487268}
+{"train_loss": 0.38499242067337036, "train_loss_bc": 0.04983396828174591, "train_loss_llm": 0.33515843749046326, "grad_norm": 0.25913530588150024, "global_step": 2148, "epoch": 9, "lr": 0.009998132400487268}
+{"train_loss": 0.32957321405410767, "train_loss_bc": 0.05512528121471405, "train_loss_llm": 0.2744479477405548, "grad_norm": 0.2849377393722534, "global_step": 2149, "epoch": 9, "lr": 0.009998132400487268}
+{"train_loss": 0.32261162996292114, "train_loss_bc": 0.046407196670770645, "train_loss_llm": 0.2762044370174408, "grad_norm": 0.35507872700691223, "global_step": 2150, "epoch": 9, "lr": 0.009998132400487268}
+{"train_loss": 0.3361271619796753, "train_loss_bc": 0.060117609798908234, "train_loss_llm": 0.27600955963134766, "grad_norm": 0.34722673892974854, "global_step": 2151, "epoch": 9, "lr": 0.009998132400487268}
+{"train_loss": 0.28510236740112305, "train_loss_bc": 0.04910688102245331, "train_loss_llm": 0.23599547147750854, "grad_norm": 0.3862699568271637, "global_step": 2152, "epoch": 9, "lr": 0.009998117951935002}
+{"train_loss": 0.3696257472038269, "train_loss_bc": 0.06033588573336601, "train_loss_llm": 0.3092898726463318, "grad_norm": 0.15381492674350739, "global_step": 2153, "epoch": 9, "lr": 0.009998117951935002}
+{"train_loss": 0.33223214745521545, "train_loss_bc": 0.053319670259952545, "train_loss_llm": 0.2789124846458435, "grad_norm": 0.25351428985595703, "global_step": 2154, "epoch": 9, "lr": 0.009998117951935002}
+{"train_loss": 0.3863678574562073, "train_loss_bc": 0.06153625249862671, "train_loss_llm": 0.32483160495758057, "grad_norm": 0.38205012679100037, "global_step": 2155, "epoch": 9, "lr": 0.009998117951935002}
+{"train_loss": 0.3144724369049072, "train_loss_bc": 0.052834220230579376, "train_loss_llm": 0.26163822412490845, "grad_norm": 0.32005658745765686, "global_step": 2156, "epoch": 9, "lr": 0.009998117951935002}
+{"train_loss": 0.3506843149662018, "train_loss_bc": 0.05669036880135536, "train_loss_llm": 0.2939939498901367, "grad_norm": 0.28507503867149353, "global_step": 2157, "epoch": 9, "lr": 0.009998117951935002}
+{"train_loss": 0.35336291790008545, "train_loss_bc": 0.0642438754439354, "train_loss_llm": 0.28911903500556946, "grad_norm": 0.3020762503147125, "global_step": 2158, "epoch": 9, "lr": 0.009998117951935002}
+{"train_loss": 0.38474369049072266, "train_loss_bc": 0.03875836357474327, "train_loss_llm": 0.3459853231906891, "grad_norm": 0.42306485772132874, "global_step": 2159, "epoch": 9, "lr": 0.009998117951935002}
+{"train_loss": 0.36888962984085083, "train_loss_bc": 0.06480345129966736, "train_loss_llm": 0.30408617854118347, "grad_norm": 0.4325783848762512, "global_step": 2160, "epoch": 9, "lr": 0.009998103447718308}
+{"train_loss": 0.32980653643608093, "train_loss_bc": 0.05961403250694275, "train_loss_llm": 0.2701925039291382, "grad_norm": 0.1887044906616211, "global_step": 2161, "epoch": 9, "lr": 0.009998103447718308}
+{"train_loss": 0.36010536551475525, "train_loss_bc": 0.05494443699717522, "train_loss_llm": 0.3051609396934509, "grad_norm": 0.3325269818305969, "global_step": 2162, "epoch": 9, "lr": 0.009998103447718308}
+{"train_loss": 0.34644120931625366, "train_loss_bc": 0.06385906040668488, "train_loss_llm": 0.28258216381073, "grad_norm": 0.42697659134864807, "global_step": 2163, "epoch": 9, "lr": 0.009998103447718308}
+{"train_loss": 0.37307894229888916, "train_loss_bc": 0.06161510571837425, "train_loss_llm": 0.3114638328552246, "grad_norm": 0.5618923902511597, "global_step": 2164, "epoch": 9, "lr": 0.009998103447718308}
+{"train_loss": 0.3535764217376709, "train_loss_bc": 0.06114457547664642, "train_loss_llm": 0.29243186116218567, "grad_norm": 0.7210773229598999, "global_step": 2165, "epoch": 9, "lr": 0.009998103447718308}
+{"train_loss": 0.3506886959075928, "train_loss_bc": 0.054195865988731384, "train_loss_llm": 0.2964928448200226, "grad_norm": 0.9420446157455444, "global_step": 2166, "epoch": 9, "lr": 0.009998103447718308}
+{"train_loss": 0.32261765003204346, "train_loss_bc": 0.06527726352214813, "train_loss_llm": 0.2573404014110565, "grad_norm": 0.9738169312477112, "global_step": 2167, "epoch": 9, "lr": 0.009998103447718308}
+{"train_loss": 0.37727290391921997, "train_loss_bc": 0.07272551953792572, "train_loss_llm": 0.30454736948013306, "grad_norm": 0.9730469584465027, "global_step": 2168, "epoch": 9, "lr": 0.009998088887837346}
+{"train_loss": 0.36734122037887573, "train_loss_bc": 0.07602275907993317, "train_loss_llm": 0.29131847620010376, "grad_norm": 0.07196664065122604, "global_step": 2169, "epoch": 9, "lr": 0.009998088887837346}
+{"train_loss": 0.2935824990272522, "train_loss_bc": 0.054451897740364075, "train_loss_llm": 0.23913061618804932, "grad_norm": 0.13334912061691284, "global_step": 2170, "epoch": 9, "lr": 0.009998088887837346}
+{"train_loss": 0.3569790720939636, "train_loss_bc": 0.07092790305614471, "train_loss_llm": 0.2860511839389801, "grad_norm": 0.18769660592079163, "global_step": 2171, "epoch": 9, "lr": 0.009998088887837346}
+{"train_loss": 0.3702664077281952, "train_loss_bc": 0.06872120499610901, "train_loss_llm": 0.3015452027320862, "grad_norm": 0.3164903223514557, "global_step": 2172, "epoch": 9, "lr": 0.009998088887837346}
+{"train_loss": 0.39197516441345215, "train_loss_bc": 0.07502205669879913, "train_loss_llm": 0.3169531226158142, "grad_norm": 0.37399548292160034, "global_step": 2173, "epoch": 9, "lr": 0.009998088887837346}
+{"train_loss": 0.38564765453338623, "train_loss_bc": 0.0723431259393692, "train_loss_llm": 0.3133045434951782, "grad_norm": 0.4007376432418823, "global_step": 2174, "epoch": 9, "lr": 0.009998088887837346}
+{"train_loss": 0.3482005000114441, "train_loss_bc": 0.07089391350746155, "train_loss_llm": 0.27730658650398254, "grad_norm": 0.4707142412662506, "global_step": 2175, "epoch": 9, "lr": 0.009998088887837346}
+{"train_loss": 0.3597118556499481, "train_loss_bc": 0.06896793842315674, "train_loss_llm": 0.2907439172267914, "grad_norm": 0.5364314317703247, "global_step": 2176, "epoch": 9, "lr": 0.00999807427229228}
+{"train_loss": 0.3644936680793762, "train_loss_bc": 0.07980524748563766, "train_loss_llm": 0.28468841314315796, "grad_norm": 0.11380850523710251, "global_step": 2177, "epoch": 9, "lr": 0.00999807427229228}
+{"train_loss": 0.3576711416244507, "train_loss_bc": 0.08065083622932434, "train_loss_llm": 0.27702030539512634, "grad_norm": 0.18149368464946747, "global_step": 2178, "epoch": 9, "lr": 0.00999807427229228}
+{"train_loss": 0.38359373807907104, "train_loss_bc": 0.07615111768245697, "train_loss_llm": 0.3074426054954529, "grad_norm": 0.17823003232479095, "global_step": 2179, "epoch": 9, "lr": 0.00999807427229228}
+{"train_loss": 0.3808009624481201, "train_loss_bc": 0.07424500584602356, "train_loss_llm": 0.30655595660209656, "grad_norm": 0.22313138842582703, "global_step": 2180, "epoch": 9, "lr": 0.00999807427229228}
+{"train_loss": 0.38023078441619873, "train_loss_bc": 0.06951389461755753, "train_loss_llm": 0.3107168972492218, "grad_norm": 0.41819900274276733, "global_step": 2181, "epoch": 9, "lr": 0.00999807427229228}
+{"train_loss": 0.3231024146080017, "train_loss_bc": 0.07138760387897491, "train_loss_llm": 0.2517147958278656, "grad_norm": 0.481195330619812, "global_step": 2182, "epoch": 9, "lr": 0.00999807427229228}
+{"train_loss": 0.3409480154514313, "train_loss_bc": 0.05727347731590271, "train_loss_llm": 0.28367453813552856, "grad_norm": 0.5814007520675659, "global_step": 2183, "epoch": 9, "lr": 0.00999807427229228}
+{"train_loss": 0.3329491913318634, "train_loss_bc": 0.07301771640777588, "train_loss_llm": 0.2599314749240875, "grad_norm": 0.6029663681983948, "global_step": 2184, "epoch": 9, "lr": 0.009998059601083272}
+{"train_loss": 0.36218011379241943, "train_loss_bc": 0.07006432116031647, "train_loss_llm": 0.2921157777309418, "grad_norm": 0.08820795267820358, "global_step": 2185, "epoch": 9, "lr": 0.009998059601083272}
+{"train_loss": 0.28723379969596863, "train_loss_bc": 0.06770748645067215, "train_loss_llm": 0.21952632069587708, "grad_norm": 0.12799495458602905, "global_step": 2186, "epoch": 9, "lr": 0.009998059601083272}
+{"train_loss": 0.37431901693344116, "train_loss_bc": 0.08107666671276093, "train_loss_llm": 0.29324236512184143, "grad_norm": 0.261471688747406, "global_step": 2187, "epoch": 9, "lr": 0.009998059601083272}
+{"train_loss": 0.3794283866882324, "train_loss_bc": 0.08428070694208145, "train_loss_llm": 0.29514768719673157, "grad_norm": 0.35893920063972473, "global_step": 2188, "epoch": 9, "lr": 0.009998059601083272}
+{"train_loss": 0.35757285356521606, "train_loss_bc": 0.07211903482675552, "train_loss_llm": 0.28545382618904114, "grad_norm": 0.34283003211021423, "global_step": 2189, "epoch": 9, "lr": 0.009998059601083272}
+{"train_loss": 0.3881520926952362, "train_loss_bc": 0.07856210321187973, "train_loss_llm": 0.3095899820327759, "grad_norm": 0.41185563802719116, "global_step": 2190, "epoch": 9, "lr": 0.009998059601083272}
+{"train_loss": 0.3566880524158478, "train_loss_bc": 0.09253688901662827, "train_loss_llm": 0.2641511559486389, "grad_norm": 0.4920615255832672, "global_step": 2191, "epoch": 9, "lr": 0.009998059601083272}
+{"train_loss": 0.3793568015098572, "train_loss_bc": 0.07924975454807281, "train_loss_llm": 0.30010703206062317, "grad_norm": 0.5989136695861816, "global_step": 2192, "epoch": 9, "lr": 0.009998044874210485}
+{"train_loss": 0.4114447832107544, "train_loss_bc": 0.08391955494880676, "train_loss_llm": 0.32752522826194763, "grad_norm": 0.0997195839881897, "global_step": 2193, "epoch": 9, "lr": 0.009998044874210485}
+{"train_loss": 0.3408544063568115, "train_loss_bc": 0.06198723241686821, "train_loss_llm": 0.2788671851158142, "grad_norm": 0.1376497596502304, "global_step": 2194, "epoch": 9, "lr": 0.009998044874210485}
+{"train_loss": 0.33461275696754456, "train_loss_bc": 0.0550912506878376, "train_loss_llm": 0.27952149510383606, "grad_norm": 0.15803854167461395, "global_step": 2195, "epoch": 9, "lr": 0.009998044874210485}
+{"train_loss": 0.4109225869178772, "train_loss_bc": 0.08203993737697601, "train_loss_llm": 0.3288826644420624, "grad_norm": 0.17176216840744019, "global_step": 2196, "epoch": 9, "lr": 0.009998044874210485}
+{"train_loss": 0.39714157581329346, "train_loss_bc": 0.08261571824550629, "train_loss_llm": 0.314525842666626, "grad_norm": 0.18757586181163788, "global_step": 2197, "epoch": 9, "lr": 0.009998044874210485}
+{"train_loss": 0.39708155393600464, "train_loss_bc": 0.08335410058498383, "train_loss_llm": 0.3137274384498596, "grad_norm": 0.28039664030075073, "global_step": 2198, "epoch": 9, "lr": 0.009998044874210485}
+{"train_loss": 0.391341894865036, "train_loss_bc": 0.08626636862754822, "train_loss_llm": 0.3050755262374878, "grad_norm": 0.293885201215744, "global_step": 2199, "epoch": 9, "lr": 0.009998044874210485}
+{"train_loss": 0.30407047271728516, "train_loss_bc": 0.07251173257827759, "train_loss_llm": 0.23155874013900757, "grad_norm": 0.3186785876750946, "global_step": 2200, "epoch": 9, "lr": 0.009998030091674085}
+{"train_loss": 0.37528860569000244, "train_loss_bc": 0.07718023657798767, "train_loss_llm": 0.29810836911201477, "grad_norm": 0.07217267155647278, "global_step": 2201, "epoch": 9, "lr": 0.009998030091674085}
+{"train_loss": 0.3741270899772644, "train_loss_bc": 0.07995446026325226, "train_loss_llm": 0.29417264461517334, "grad_norm": 0.1545783430337906, "global_step": 2202, "epoch": 9, "lr": 0.009998030091674085}
+{"train_loss": 0.33970436453819275, "train_loss_bc": 0.06935757398605347, "train_loss_llm": 0.2703467905521393, "grad_norm": 0.21736320853233337, "global_step": 2203, "epoch": 9, "lr": 0.009998030091674085}
+{"train_loss": 0.35382670164108276, "train_loss_bc": 0.07513703405857086, "train_loss_llm": 0.2786896824836731, "grad_norm": 0.3293181359767914, "global_step": 2204, "epoch": 9, "lr": 0.009998030091674085}
+{"train_loss": 0.27737417817115784, "train_loss_bc": 0.06127064675092697, "train_loss_llm": 0.21610352396965027, "grad_norm": 0.3855697214603424, "global_step": 2205, "epoch": 9, "lr": 0.009998030091674085}
+{"train_loss": 0.317672461271286, "train_loss_bc": 0.07261136174201965, "train_loss_llm": 0.24506109952926636, "grad_norm": 0.435748428106308, "global_step": 2206, "epoch": 9, "lr": 0.009998030091674085}
+{"train_loss": 0.34023308753967285, "train_loss_bc": 0.07988591492176056, "train_loss_llm": 0.2603471875190735, "grad_norm": 0.4632936418056488, "global_step": 2207, "epoch": 9, "lr": 0.009998030091674085}
+{"train_loss": 0.3297560214996338, "train_loss_bc": 0.07074902951717377, "train_loss_llm": 0.2590070068836212, "grad_norm": 0.5984489917755127, "global_step": 2208, "epoch": 9, "lr": 0.009998015253474234}
+{"train_loss": 0.3788260817527771, "train_loss_bc": 0.061066217720508575, "train_loss_llm": 0.3177598714828491, "grad_norm": 0.11112187802791595, "global_step": 2209, "epoch": 9, "lr": 0.009998015253474234}
+{"train_loss": 0.31903040409088135, "train_loss_bc": 0.06494377553462982, "train_loss_llm": 0.2540866434574127, "grad_norm": 0.20619112253189087, "global_step": 2210, "epoch": 9, "lr": 0.009998015253474234}
+{"train_loss": 0.37512001395225525, "train_loss_bc": 0.07771215587854385, "train_loss_llm": 0.297407865524292, "grad_norm": 0.33674654364585876, "global_step": 2211, "epoch": 9, "lr": 0.009998015253474234}
+{"train_loss": 0.365233838558197, "train_loss_bc": 0.06786175072193146, "train_loss_llm": 0.29737210273742676, "grad_norm": 0.38928550481796265, "global_step": 2212, "epoch": 9, "lr": 0.009998015253474234}
+{"train_loss": 0.35733306407928467, "train_loss_bc": 0.06915934383869171, "train_loss_llm": 0.28817370533943176, "grad_norm": 0.5015974044799805, "global_step": 2213, "epoch": 9, "lr": 0.009998015253474234}
+{"train_loss": 0.36449217796325684, "train_loss_bc": 0.061701130121946335, "train_loss_llm": 0.3027910590171814, "grad_norm": 0.5733022093772888, "global_step": 2214, "epoch": 9, "lr": 0.009998015253474234}
+{"train_loss": 0.34037336707115173, "train_loss_bc": 0.07810484617948532, "train_loss_llm": 0.2622685134410858, "grad_norm": 0.72576904296875, "global_step": 2215, "epoch": 9, "lr": 0.009998015253474234}
+{"train_loss": 0.34067419171333313, "train_loss_bc": 0.06243997439742088, "train_loss_llm": 0.27823421359062195, "grad_norm": 0.8512946963310242, "global_step": 2216, "epoch": 9, "lr": 0.009998000359611096}
+{"train_loss": 0.35484352707862854, "train_loss_bc": 0.07339394092559814, "train_loss_llm": 0.2814495861530304, "grad_norm": 0.059018876403570175, "global_step": 2217, "epoch": 9, "lr": 0.009998000359611096}
+{"train_loss": 0.30265772342681885, "train_loss_bc": 0.059614282101392746, "train_loss_llm": 0.243043452501297, "grad_norm": 0.12923631072044373, "global_step": 2218, "epoch": 9, "lr": 0.009998000359611096}
+{"train_loss": 0.29042965173721313, "train_loss_bc": 0.053999900817871094, "train_loss_llm": 0.23642975091934204, "grad_norm": 0.22224484384059906, "global_step": 2219, "epoch": 9, "lr": 0.009998000359611096}
+{"train_loss": 0.30894598364830017, "train_loss_bc": 0.04176436737179756, "train_loss_llm": 0.2671816051006317, "grad_norm": 0.36636731028556824, "global_step": 2220, "epoch": 9, "lr": 0.009998000359611096}
+{"train_loss": 0.3319377601146698, "train_loss_bc": 0.056598372757434845, "train_loss_llm": 0.27533939480781555, "grad_norm": 0.41888922452926636, "global_step": 2221, "epoch": 9, "lr": 0.009998000359611096}
+{"train_loss": 0.422420859336853, "train_loss_bc": 0.0850372165441513, "train_loss_llm": 0.3373836278915405, "grad_norm": 0.3760641813278198, "global_step": 2222, "epoch": 9, "lr": 0.009998000359611096}
+{"train_loss": 0.3789813816547394, "train_loss_bc": 0.06559130549430847, "train_loss_llm": 0.3133900761604309, "grad_norm": 0.39411595463752747, "global_step": 2223, "epoch": 9, "lr": 0.009998000359611096}
+{"train_loss": 0.3156304359436035, "train_loss_bc": 0.05274658650159836, "train_loss_llm": 0.26288384199142456, "grad_norm": 0.41241025924682617, "global_step": 2224, "epoch": 9, "lr": 0.009997985410084842}
+{"train_loss": 0.2926787734031677, "train_loss_bc": 0.04402511939406395, "train_loss_llm": 0.24865365028381348, "grad_norm": 0.1124650314450264, "global_step": 2225, "epoch": 9, "lr": 0.009997985410084842}
+{"train_loss": 0.3225157558917999, "train_loss_bc": 0.06057881563901901, "train_loss_llm": 0.2619369328022003, "grad_norm": 0.16931673884391785, "global_step": 2226, "epoch": 9, "lr": 0.009997985410084842}
+{"train_loss": 0.3479948043823242, "train_loss_bc": 0.05405005067586899, "train_loss_llm": 0.29394474625587463, "grad_norm": 0.22614635527133942, "global_step": 2227, "epoch": 9, "lr": 0.009997985410084842}
+{"train_loss": 0.39774394035339355, "train_loss_bc": 0.06854558736085892, "train_loss_llm": 0.32919836044311523, "grad_norm": 0.2971436679363251, "global_step": 2228, "epoch": 9, "lr": 0.009997985410084842}
+{"train_loss": 0.3552355468273163, "train_loss_bc": 0.05047167092561722, "train_loss_llm": 0.30476388335227966, "grad_norm": 0.40759071707725525, "global_step": 2229, "epoch": 9, "lr": 0.009997985410084842}
+{"train_loss": 0.34800055623054504, "train_loss_bc": 0.04542944207787514, "train_loss_llm": 0.3025711178779602, "grad_norm": 0.614773690700531, "global_step": 2230, "epoch": 9, "lr": 0.009997985410084842}
+{"train_loss": 0.42590636014938354, "train_loss_bc": 0.05493598431348801, "train_loss_llm": 0.37097036838531494, "grad_norm": 0.6402178406715393, "global_step": 2231, "epoch": 9, "lr": 0.009997985410084842}
+{"train_loss": 0.3909667730331421, "train_loss_bc": 0.06646357476711273, "train_loss_llm": 0.32450318336486816, "grad_norm": 0.8998677134513855, "global_step": 2232, "epoch": 9, "lr": 0.009997970404895636}
+{"train_loss": 0.34187230467796326, "train_loss_bc": 0.06674911826848984, "train_loss_llm": 0.2751231789588928, "grad_norm": 0.17275747656822205, "global_step": 2233, "epoch": 9, "lr": 0.009997970404895636}
+{"train_loss": 0.3699503242969513, "train_loss_bc": 0.06334546208381653, "train_loss_llm": 0.30660486221313477, "grad_norm": 0.18862491846084595, "global_step": 2234, "epoch": 9, "lr": 0.009997970404895636}
+{"train_loss": 0.37627166509628296, "train_loss_bc": 0.06492345035076141, "train_loss_llm": 0.31134822964668274, "grad_norm": 0.31883370876312256, "global_step": 2235, "epoch": 9, "lr": 0.009997970404895636}
+{"train_loss": 0.3014790415763855, "train_loss_bc": 0.043300554156303406, "train_loss_llm": 0.2581785023212433, "grad_norm": 0.41015052795410156, "global_step": 2236, "epoch": 9, "lr": 0.009997970404895636}
+{"train_loss": 0.3432968556880951, "train_loss_bc": 0.04071933776140213, "train_loss_llm": 0.30257752537727356, "grad_norm": 0.867313802242279, "global_step": 2237, "epoch": 9, "lr": 0.009997970404895636}
+{"train_loss": 0.3341616988182068, "train_loss_bc": 0.048554908484220505, "train_loss_llm": 0.2856068015098572, "grad_norm": 0.8420842289924622, "global_step": 2238, "epoch": 9, "lr": 0.009997970404895636}
+{"train_loss": 0.3650040626525879, "train_loss_bc": 0.06611056625843048, "train_loss_llm": 0.2988935112953186, "grad_norm": 0.9421206116676331, "global_step": 2239, "epoch": 9, "lr": 0.009997970404895636}
+{"train_loss": 0.3799235224723816, "train_loss_bc": 0.058822885155677795, "train_loss_llm": 0.3211006224155426, "grad_norm": 0.9477659463882446, "global_step": 2240, "epoch": 9, "lr": 0.009997955344043644}
+{"train_loss": 0.3374624252319336, "train_loss_bc": 0.06793500483036041, "train_loss_llm": 0.269527405500412, "grad_norm": 0.11404809355735779, "global_step": 2241, "epoch": 9, "lr": 0.009997955344043644}
+{"train_loss": 0.36646339297294617, "train_loss_bc": 0.058899618685245514, "train_loss_llm": 0.30756378173828125, "grad_norm": 0.329118937253952, "global_step": 2242, "epoch": 9, "lr": 0.009997955344043644}
+{"train_loss": 0.29723691940307617, "train_loss_bc": 0.056454434990882874, "train_loss_llm": 0.2407824695110321, "grad_norm": 0.3384261727333069, "global_step": 2243, "epoch": 9, "lr": 0.009997955344043644}
+{"train_loss": 0.3011983633041382, "train_loss_bc": 0.053205687552690506, "train_loss_llm": 0.24799266457557678, "grad_norm": 0.3747698962688446, "global_step": 2244, "epoch": 9, "lr": 0.009997955344043644}
+{"train_loss": 0.3595580458641052, "train_loss_bc": 0.07378353923559189, "train_loss_llm": 0.28577449917793274, "grad_norm": 0.46571558713912964, "global_step": 2245, "epoch": 9, "lr": 0.009997955344043644}
+{"train_loss": 0.2954104244709015, "train_loss_bc": 0.04445306211709976, "train_loss_llm": 0.2509573698043823, "grad_norm": 0.4740527272224426, "global_step": 2246, "epoch": 9, "lr": 0.009997955344043644}
+{"train_loss": 0.3692390024662018, "train_loss_bc": 0.06000376492738724, "train_loss_llm": 0.30923524498939514, "grad_norm": 0.5673546195030212, "global_step": 2247, "epoch": 9, "lr": 0.009997955344043644}
+{"train_loss": 0.3224692940711975, "train_loss_bc": 0.06917925179004669, "train_loss_llm": 0.2532900273799896, "grad_norm": 0.5578353404998779, "global_step": 2248, "epoch": 9, "lr": 0.009997940227529034}
+{"train_loss": 0.3437098264694214, "train_loss_bc": 0.06414608657360077, "train_loss_llm": 0.2795637249946594, "grad_norm": 0.11354025453329086, "global_step": 2249, "epoch": 9, "lr": 0.009997940227529034}
+{"train_loss": 0.3457840085029602, "train_loss_bc": 0.0781169980764389, "train_loss_llm": 0.2676669955253601, "grad_norm": 0.1152959018945694, "global_step": 2250, "epoch": 9, "lr": 0.009997940227529034}
+{"train_loss": 0.3418881595134735, "train_loss_bc": 0.072299063205719, "train_loss_llm": 0.2695890963077545, "grad_norm": 0.25216150283813477, "global_step": 2251, "epoch": 9, "lr": 0.009997940227529034}
+{"train_loss": 0.3308660686016083, "train_loss_bc": 0.07862713932991028, "train_loss_llm": 0.252238929271698, "grad_norm": 0.3857722878456116, "global_step": 2252, "epoch": 9, "lr": 0.009997940227529034}
+{"train_loss": 0.28987038135528564, "train_loss_bc": 0.05633581057190895, "train_loss_llm": 0.233534574508667, "grad_norm": 0.34352338314056396, "global_step": 2253, "epoch": 9, "lr": 0.009997940227529034}
+{"train_loss": 0.34040945768356323, "train_loss_bc": 0.09091122448444366, "train_loss_llm": 0.24949821829795837, "grad_norm": 0.36501428484916687, "global_step": 2254, "epoch": 9, "lr": 0.009997940227529034}
+{"train_loss": 0.37932273745536804, "train_loss_bc": 0.06078752130270004, "train_loss_llm": 0.3185352087020874, "grad_norm": 0.6703457832336426, "global_step": 2255, "epoch": 9, "lr": 0.009997940227529034}
+{"train_loss": 0.28232425451278687, "train_loss_bc": 0.051855042576789856, "train_loss_llm": 0.23046919703483582, "grad_norm": 0.8649573922157288, "global_step": 2256, "epoch": 9, "lr": 0.009997925055351976}
+{"train_loss": 0.3767669200897217, "train_loss_bc": 0.09633424133062363, "train_loss_llm": 0.28043267130851746, "grad_norm": 0.10237269103527069, "global_step": 2257, "epoch": 9, "lr": 0.009997925055351976}
+{"train_loss": 0.35627856850624084, "train_loss_bc": 0.07712268829345703, "train_loss_llm": 0.2791558802127838, "grad_norm": 0.2593736946582794, "global_step": 2258, "epoch": 9, "lr": 0.009997925055351976}
+{"train_loss": 0.3804137706756592, "train_loss_bc": 0.0771954208612442, "train_loss_llm": 0.30321836471557617, "grad_norm": 0.4443565011024475, "global_step": 2259, "epoch": 9, "lr": 0.009997925055351976}
+{"train_loss": 0.40001583099365234, "train_loss_bc": 0.07263429462909698, "train_loss_llm": 0.32738152146339417, "grad_norm": 0.6462936997413635, "global_step": 2260, "epoch": 9, "lr": 0.009997925055351976}
+{"train_loss": 0.38376057147979736, "train_loss_bc": 0.08817578852176666, "train_loss_llm": 0.2955847978591919, "grad_norm": 0.8597159385681152, "global_step": 2261, "epoch": 9, "lr": 0.009997925055351976}
+{"train_loss": 0.37331295013427734, "train_loss_bc": 0.0771607831120491, "train_loss_llm": 0.29615217447280884, "grad_norm": 1.099647879600525, "global_step": 2262, "epoch": 9, "lr": 0.009997925055351976}
+{"train_loss": 0.33692172169685364, "train_loss_bc": 0.08034279942512512, "train_loss_llm": 0.2565789222717285, "grad_norm": 1.3636530637741089, "global_step": 2263, "epoch": 9, "lr": 0.009997925055351976}
+{"train_loss": 0.4297086000442505, "train_loss_bc": 0.08813543617725372, "train_loss_llm": 0.34157314896583557, "grad_norm": 1.5873559713363647, "global_step": 2264, "epoch": 9, "lr": 0.009997909827512638}
+{"train_loss": 0.38855838775634766, "train_loss_bc": 0.09589973092079163, "train_loss_llm": 0.29265865683555603, "grad_norm": 0.14736442267894745, "global_step": 2265, "epoch": 9, "lr": 0.009997909827512638}
+{"train_loss": 0.38504883646965027, "train_loss_bc": 0.08375900238752365, "train_loss_llm": 0.301289826631546, "grad_norm": 0.26600122451782227, "global_step": 2266, "epoch": 9, "lr": 0.009997909827512638}
+{"train_loss": 0.35190242528915405, "train_loss_bc": 0.07416626065969467, "train_loss_llm": 0.2777361571788788, "grad_norm": 0.5466733574867249, "global_step": 2267, "epoch": 9, "lr": 0.009997909827512638}
+{"train_loss": 0.38099807500839233, "train_loss_bc": 0.07600684463977814, "train_loss_llm": 0.3049912452697754, "grad_norm": 0.8924068212509155, "global_step": 2268, "epoch": 9, "lr": 0.009997909827512638}
+{"train_loss": 0.35891908407211304, "train_loss_bc": 0.08637417107820511, "train_loss_llm": 0.2725449204444885, "grad_norm": 1.0171064138412476, "global_step": 2269, "epoch": 9, "lr": 0.009997909827512638}
+{"train_loss": 0.39285337924957275, "train_loss_bc": 0.10352660715579987, "train_loss_llm": 0.2893267571926117, "grad_norm": 1.078532338142395, "global_step": 2270, "epoch": 9, "lr": 0.009997909827512638}
+{"train_loss": 0.4023222029209137, "train_loss_bc": 0.08563995361328125, "train_loss_llm": 0.31668224930763245, "grad_norm": 1.2098850011825562, "global_step": 2271, "epoch": 9, "lr": 0.009997909827512638}
+{"train_loss": 0.41061270236968994, "train_loss_bc": 0.08822089433670044, "train_loss_llm": 0.3223918080329895, "grad_norm": 1.456304907798767, "global_step": 2272, "epoch": 9, "lr": 0.009997894544011189}
+{"train_loss": 0.3731309473514557, "train_loss_bc": 0.0981837809085846, "train_loss_llm": 0.2749471664428711, "grad_norm": 0.11958108842372894, "global_step": 2273, "epoch": 9, "lr": 0.009997894544011189}
+{"train_loss": 0.3058781325817108, "train_loss_bc": 0.07026129961013794, "train_loss_llm": 0.23561683297157288, "grad_norm": 0.2399197816848755, "global_step": 2274, "epoch": 9, "lr": 0.009997894544011189}
+{"train_loss": 0.40684249997138977, "train_loss_bc": 0.1000705137848854, "train_loss_llm": 0.30677199363708496, "grad_norm": 0.3070518970489502, "global_step": 2275, "epoch": 9, "lr": 0.009997894544011189}
+{"train_loss": 0.4818144142627716, "train_loss_bc": 0.09257594496011734, "train_loss_llm": 0.38923847675323486, "grad_norm": 0.5022789835929871, "global_step": 2276, "epoch": 9, "lr": 0.009997894544011189}
+{"train_loss": 0.36457717418670654, "train_loss_bc": 0.09649495780467987, "train_loss_llm": 0.2680822014808655, "grad_norm": 0.635502278804779, "global_step": 2277, "epoch": 9, "lr": 0.009997894544011189}
+{"train_loss": 0.33851099014282227, "train_loss_bc": 0.07073047757148743, "train_loss_llm": 0.26778051257133484, "grad_norm": 0.8343318104743958, "global_step": 2278, "epoch": 9, "lr": 0.009997894544011189}
+{"train_loss": 0.3614274263381958, "train_loss_bc": 0.0785624235868454, "train_loss_llm": 0.2828649878501892, "grad_norm": 1.0892481803894043, "global_step": 2279, "epoch": 9, "lr": 0.009997894544011189}
+{"train_loss": 0.34810012578964233, "train_loss_bc": 0.10055620968341827, "train_loss_llm": 0.24754393100738525, "grad_norm": 1.1680214405059814, "global_step": 2280, "epoch": 9, "lr": 0.0099978792048478}
+{"train_loss": 0.33022719621658325, "train_loss_bc": 0.06444774568080902, "train_loss_llm": 0.26577943563461304, "grad_norm": 0.22217662632465363, "global_step": 2281, "epoch": 9, "lr": 0.0099978792048478}
+{"train_loss": 0.3991357982158661, "train_loss_bc": 0.08628043532371521, "train_loss_llm": 0.3128553628921509, "grad_norm": 0.2426079511642456, "global_step": 2282, "epoch": 9, "lr": 0.0099978792048478}
+{"train_loss": 0.34438619017601013, "train_loss_bc": 0.08199155330657959, "train_loss_llm": 0.26239463686943054, "grad_norm": 0.3561282753944397, "global_step": 2283, "epoch": 9, "lr": 0.0099978792048478}
+{"train_loss": 0.3835572898387909, "train_loss_bc": 0.09570679813623428, "train_loss_llm": 0.2878504991531372, "grad_norm": 0.4739099442958832, "global_step": 2284, "epoch": 9, "lr": 0.0099978792048478}
+{"train_loss": 0.394811749458313, "train_loss_bc": 0.08944214135408401, "train_loss_llm": 0.30536961555480957, "grad_norm": 0.550835907459259, "global_step": 2285, "epoch": 9, "lr": 0.0099978792048478}
+{"train_loss": 0.4183213412761688, "train_loss_bc": 0.0956890881061554, "train_loss_llm": 0.3226322531700134, "grad_norm": 0.6188713908195496, "global_step": 2286, "epoch": 9, "lr": 0.0099978792048478}
+{"train_loss": 0.3925798535346985, "train_loss_bc": 0.09184543043375015, "train_loss_llm": 0.30073443055152893, "grad_norm": 0.7101010084152222, "global_step": 2287, "epoch": 9, "lr": 0.0099978792048478}
+{"train_loss": 0.3541256785392761, "train_loss_bc": 0.08423750847578049, "train_loss_llm": 0.26988816261291504, "grad_norm": 0.8573200106620789, "global_step": 2288, "epoch": 9, "lr": 0.00999786381002264}
+{"train_loss": 0.34515756368637085, "train_loss_bc": 0.07266728579998016, "train_loss_llm": 0.2724902629852295, "grad_norm": 0.12178586423397064, "global_step": 2289, "epoch": 9, "lr": 0.00999786381002264}
+{"train_loss": 0.38227295875549316, "train_loss_bc": 0.08149062842130661, "train_loss_llm": 0.30078232288360596, "grad_norm": 0.3271544277667999, "global_step": 2290, "epoch": 9, "lr": 0.00999786381002264}
+{"train_loss": 0.3617229461669922, "train_loss_bc": 0.07077868282794952, "train_loss_llm": 0.29094424843788147, "grad_norm": 0.4414099156856537, "global_step": 2291, "epoch": 9, "lr": 0.00999786381002264}
+{"train_loss": 0.2843268811702728, "train_loss_bc": 0.06213148683309555, "train_loss_llm": 0.22219538688659668, "grad_norm": 0.5647392868995667, "global_step": 2292, "epoch": 9, "lr": 0.00999786381002264}
+{"train_loss": 0.3479042649269104, "train_loss_bc": 0.0684739425778389, "train_loss_llm": 0.2794303297996521, "grad_norm": 0.6556326150894165, "global_step": 2293, "epoch": 9, "lr": 0.00999786381002264}
+{"train_loss": 0.35352155566215515, "train_loss_bc": 0.07575700432062149, "train_loss_llm": 0.27776455879211426, "grad_norm": 0.8202281594276428, "global_step": 2294, "epoch": 9, "lr": 0.00999786381002264}
+{"train_loss": 0.36007362604141235, "train_loss_bc": 0.06914366781711578, "train_loss_llm": 0.2909299433231354, "grad_norm": 0.8999060392379761, "global_step": 2295, "epoch": 9, "lr": 0.00999786381002264}
+{"train_loss": 0.34161943197250366, "train_loss_bc": 0.06855906546115875, "train_loss_llm": 0.2730603516101837, "grad_norm": 1.0411936044692993, "global_step": 2296, "epoch": 9, "lr": 0.009997848359535884}
+{"train_loss": 0.37643665075302124, "train_loss_bc": 0.06488142907619476, "train_loss_llm": 0.3115552067756653, "grad_norm": 0.13842982053756714, "global_step": 2297, "epoch": 9, "lr": 0.009997848359535884}
+{"train_loss": 0.274265855550766, "train_loss_bc": 0.05497843027114868, "train_loss_llm": 0.2192874252796173, "grad_norm": 0.2290758639574051, "global_step": 2298, "epoch": 9, "lr": 0.009997848359535884}
+{"train_loss": 0.34474194049835205, "train_loss_bc": 0.0705157071352005, "train_loss_llm": 0.27422624826431274, "grad_norm": 0.40534138679504395, "global_step": 2299, "epoch": 9, "lr": 0.009997848359535884}
+{"train_loss": 0.35392487049102783, "train_loss_bc": 0.06613587588071823, "train_loss_llm": 0.287788987159729, "grad_norm": 0.6162903904914856, "global_step": 2300, "epoch": 9, "lr": 0.009997848359535884}
+{"train_loss": 0.3001329302787781, "train_loss_bc": 0.042736560106277466, "train_loss_llm": 0.2573963701725006, "grad_norm": 0.7510783672332764, "global_step": 2301, "epoch": 9, "lr": 0.009997848359535884}
+{"train_loss": 0.36818549036979675, "train_loss_bc": 0.07461880892515182, "train_loss_llm": 0.29356667399406433, "grad_norm": 0.9217627048492432, "global_step": 2302, "epoch": 9, "lr": 0.009997848359535884}
+{"train_loss": 0.3401021957397461, "train_loss_bc": 0.060433827340602875, "train_loss_llm": 0.2796683609485626, "grad_norm": 1.1167078018188477, "global_step": 2303, "epoch": 9, "lr": 0.009997848359535884}
+{"train_loss": 0.3517979085445404, "train_loss_bc": 0.06042148545384407, "train_loss_llm": 0.29137641191482544, "grad_norm": 1.3251413106918335, "global_step": 2304, "epoch": 9, "lr": 0.0099978328533877}
+{"train_loss": 0.3677240014076233, "train_loss_bc": 0.06305567920207977, "train_loss_llm": 0.3046683073043823, "grad_norm": 0.04269280284643173, "global_step": 2305, "epoch": 9, "lr": 0.0099978328533877}
+{"train_loss": 0.37495437264442444, "train_loss_bc": 0.0658147931098938, "train_loss_llm": 0.30913957953453064, "grad_norm": 0.12267068773508072, "global_step": 2306, "epoch": 9, "lr": 0.0099978328533877}
+{"train_loss": 0.40468865633010864, "train_loss_bc": 0.07683764398097992, "train_loss_llm": 0.3278510272502899, "grad_norm": 0.23402482271194458, "global_step": 2307, "epoch": 9, "lr": 0.0099978328533877}
+{"train_loss": 0.3633049726486206, "train_loss_bc": 0.07205231487751007, "train_loss_llm": 0.29125264286994934, "grad_norm": 0.3305196464061737, "global_step": 2308, "epoch": 9, "lr": 0.0099978328533877}
+{"train_loss": 0.3582288920879364, "train_loss_bc": 0.0727221667766571, "train_loss_llm": 0.2855067253112793, "grad_norm": 0.4538545310497284, "global_step": 2309, "epoch": 9, "lr": 0.0099978328533877}
+{"train_loss": 0.4103442132472992, "train_loss_bc": 0.06375756859779358, "train_loss_llm": 0.3465866446495056, "grad_norm": 0.6799159049987793, "global_step": 2310, "epoch": 9, "lr": 0.0099978328533877}
+{"train_loss": 0.2847093641757965, "train_loss_bc": 0.03994425758719444, "train_loss_llm": 0.24476510286331177, "grad_norm": 0.880867063999176, "global_step": 2311, "epoch": 9, "lr": 0.0099978328533877}
+{"train_loss": 0.4067424535751343, "train_loss_bc": 0.07235251367092133, "train_loss_llm": 0.33438992500305176, "grad_norm": 1.1031407117843628, "global_step": 2312, "epoch": 9, "lr": 0.009997817291578266}
+{"train_loss": 0.31125691533088684, "train_loss_bc": 0.051936931908130646, "train_loss_llm": 0.2593199908733368, "grad_norm": 0.1965790092945099, "global_step": 2313, "epoch": 9, "lr": 0.009997817291578266}
+{"train_loss": 0.39912599325180054, "train_loss_bc": 0.07697489857673645, "train_loss_llm": 0.3221510946750641, "grad_norm": 0.30144643783569336, "global_step": 2314, "epoch": 9, "lr": 0.009997817291578266}
+{"train_loss": 0.3167215585708618, "train_loss_bc": 0.05943019688129425, "train_loss_llm": 0.25729137659072876, "grad_norm": 0.4550763964653015, "global_step": 2315, "epoch": 9, "lr": 0.009997817291578266}
+{"train_loss": 0.3543478548526764, "train_loss_bc": 0.05734788253903389, "train_loss_llm": 0.2969999611377716, "grad_norm": 0.5109459757804871, "global_step": 2316, "epoch": 9, "lr": 0.009997817291578266}
+{"train_loss": 0.350918173789978, "train_loss_bc": 0.06453568488359451, "train_loss_llm": 0.2863824963569641, "grad_norm": 0.6603274345397949, "global_step": 2317, "epoch": 9, "lr": 0.009997817291578266}
+{"train_loss": 0.378044068813324, "train_loss_bc": 0.061787884682416916, "train_loss_llm": 0.31625619530677795, "grad_norm": 0.7647362947463989, "global_step": 2318, "epoch": 9, "lr": 0.009997817291578266}
+{"train_loss": 0.31612297892570496, "train_loss_bc": 0.05958709865808487, "train_loss_llm": 0.2565358877182007, "grad_norm": 0.8240283727645874, "global_step": 2319, "epoch": 9, "lr": 0.009997817291578266}
+{"train_loss": 0.27504491806030273, "train_loss_bc": 0.04998005926609039, "train_loss_llm": 0.22506487369537354, "grad_norm": 0.9037614464759827, "global_step": 2320, "epoch": 9, "lr": 0.00999780167410775}
+{"train_loss": 0.3692612648010254, "train_loss_bc": 0.07520312070846558, "train_loss_llm": 0.2940581440925598, "grad_norm": 0.07921640574932098, "global_step": 2321, "epoch": 9, "lr": 0.00999780167410775}
+{"train_loss": 0.413452684879303, "train_loss_bc": 0.07544390857219696, "train_loss_llm": 0.3380087614059448, "grad_norm": 0.24793723225593567, "global_step": 2322, "epoch": 9, "lr": 0.00999780167410775}
+{"train_loss": 0.3568365275859833, "train_loss_bc": 0.0686708465218544, "train_loss_llm": 0.2881656885147095, "grad_norm": 0.2833497226238251, "global_step": 2323, "epoch": 9, "lr": 0.00999780167410775}
+{"train_loss": 0.3352683484554291, "train_loss_bc": 0.05248281732201576, "train_loss_llm": 0.2827855348587036, "grad_norm": 0.5048463344573975, "global_step": 2324, "epoch": 9, "lr": 0.00999780167410775}
+{"train_loss": 0.29179367423057556, "train_loss_bc": 0.04693615064024925, "train_loss_llm": 0.244857519865036, "grad_norm": 0.5499255657196045, "global_step": 2325, "epoch": 9, "lr": 0.00999780167410775}
+{"train_loss": 0.380994975566864, "train_loss_bc": 0.0762079507112503, "train_loss_llm": 0.3047870099544525, "grad_norm": 0.5890242457389832, "global_step": 2326, "epoch": 9, "lr": 0.00999780167410775}
+{"train_loss": 0.3791992664337158, "train_loss_bc": 0.06879554688930511, "train_loss_llm": 0.3104037344455719, "grad_norm": 0.610806405544281, "global_step": 2327, "epoch": 9, "lr": 0.00999780167410775}
+{"train_loss": 0.33256083726882935, "train_loss_bc": 0.07008963078260422, "train_loss_llm": 0.26247119903564453, "grad_norm": 0.6988927125930786, "global_step": 2328, "epoch": 9, "lr": 0.009997786000976328}
+{"train_loss": 0.3702590763568878, "train_loss_bc": 0.07153088599443436, "train_loss_llm": 0.29872819781303406, "grad_norm": 0.2881392538547516, "global_step": 2329, "epoch": 9, "lr": 0.009997786000976328}
+{"train_loss": 0.39359015226364136, "train_loss_bc": 0.08358578383922577, "train_loss_llm": 0.3100043833255768, "grad_norm": 0.4319477379322052, "global_step": 2330, "epoch": 9, "lr": 0.009997786000976328}
+{"train_loss": 0.3656345307826996, "train_loss_bc": 0.0701025128364563, "train_loss_llm": 0.2955320179462433, "grad_norm": 0.5938220024108887, "global_step": 2331, "epoch": 9, "lr": 0.009997786000976328}
+{"train_loss": 0.3513672649860382, "train_loss_bc": 0.07387453317642212, "train_loss_llm": 0.2774927318096161, "grad_norm": 0.6632972955703735, "global_step": 2332, "epoch": 9, "lr": 0.009997786000976328}
+{"train_loss": 0.39171168208122253, "train_loss_bc": 0.06840739399194717, "train_loss_llm": 0.32330429553985596, "grad_norm": 0.7525166273117065, "global_step": 2333, "epoch": 9, "lr": 0.009997786000976328}
+{"train_loss": 0.37947383522987366, "train_loss_bc": 0.07717141509056091, "train_loss_llm": 0.30230242013931274, "grad_norm": 0.9274827837944031, "global_step": 2334, "epoch": 9, "lr": 0.009997786000976328}
+{"train_loss": 0.41684240102767944, "train_loss_bc": 0.07532735913991928, "train_loss_llm": 0.34151503443717957, "grad_norm": 1.0289725065231323, "global_step": 2335, "epoch": 9, "lr": 0.009997786000976328}
+{"train_loss": 0.39041295647621155, "train_loss_bc": 0.0863049328327179, "train_loss_llm": 0.30410802364349365, "grad_norm": 1.1974517107009888, "global_step": 2336, "epoch": 9, "lr": 0.009997770272184174}
+{"train_loss": 0.3890085220336914, "train_loss_bc": 0.08412682265043259, "train_loss_llm": 0.3048816919326782, "grad_norm": 0.14886441826820374, "global_step": 2337, "epoch": 9, "lr": 0.009997770272184174}
+{"train_loss": 0.3315565288066864, "train_loss_bc": 0.06521344184875488, "train_loss_llm": 0.2663430869579315, "grad_norm": 0.5813417434692383, "global_step": 2338, "epoch": 9, "lr": 0.009997770272184174}
+{"train_loss": 0.3639291226863861, "train_loss_bc": 0.08356418460607529, "train_loss_llm": 0.2803649306297302, "grad_norm": 0.7193617820739746, "global_step": 2339, "epoch": 9, "lr": 0.009997770272184174}
+{"train_loss": 0.41387516260147095, "train_loss_bc": 0.06606714427471161, "train_loss_llm": 0.34780800342559814, "grad_norm": 0.978751003742218, "global_step": 2340, "epoch": 9, "lr": 0.009997770272184174}
+{"train_loss": 0.3744112551212311, "train_loss_bc": 0.07710763812065125, "train_loss_llm": 0.29730361700057983, "grad_norm": 1.0456416606903076, "global_step": 2341, "epoch": 9, "lr": 0.009997770272184174}
+{"train_loss": 0.38767948746681213, "train_loss_bc": 0.06203750520944595, "train_loss_llm": 0.3256419897079468, "grad_norm": 1.2958402633666992, "global_step": 2342, "epoch": 9, "lr": 0.009997770272184174}
+{"train_loss": 0.3165862560272217, "train_loss_bc": 0.07220581918954849, "train_loss_llm": 0.24438044428825378, "grad_norm": 1.3729100227355957, "global_step": 2343, "epoch": 9, "lr": 0.009997770272184174}
+{"train_loss": 0.33437249064445496, "train_loss_bc": 0.06340000033378601, "train_loss_llm": 0.27097249031066895, "grad_norm": 1.6503891944885254, "global_step": 2344, "epoch": 9, "lr": 0.009997754487731466}
+{"train_loss": 0.422738641500473, "train_loss_bc": 0.09434586763381958, "train_loss_llm": 0.32839277386665344, "grad_norm": 0.19002383947372437, "global_step": 2345, "epoch": 9, "lr": 0.009997754487731466}
+{"train_loss": 0.3567880392074585, "train_loss_bc": 0.0777142196893692, "train_loss_llm": 0.2790738046169281, "grad_norm": 0.3258890211582184, "global_step": 2346, "epoch": 9, "lr": 0.009997754487731466}
+{"train_loss": 0.30986201763153076, "train_loss_bc": 0.06315161287784576, "train_loss_llm": 0.2467104196548462, "grad_norm": 0.6630577445030212, "global_step": 2347, "epoch": 9, "lr": 0.009997754487731466}
+{"train_loss": 0.37045231461524963, "train_loss_bc": 0.08109650015830994, "train_loss_llm": 0.2893558144569397, "grad_norm": 0.8256849050521851, "global_step": 2348, "epoch": 9, "lr": 0.009997754487731466}
+{"train_loss": 0.34779083728790283, "train_loss_bc": 0.06934438645839691, "train_loss_llm": 0.2784464359283447, "grad_norm": 1.1727373600006104, "global_step": 2349, "epoch": 9, "lr": 0.009997754487731466}
+{"train_loss": 0.39333367347717285, "train_loss_bc": 0.07518978416919708, "train_loss_llm": 0.3181438744068146, "grad_norm": 1.5169488191604614, "global_step": 2350, "epoch": 9, "lr": 0.009997754487731466}
+{"train_loss": 0.34966835379600525, "train_loss_bc": 0.0752626582980156, "train_loss_llm": 0.27440568804740906, "grad_norm": 1.691324234008789, "global_step": 2351, "epoch": 9, "lr": 0.009997754487731466}
+{"train_loss": 0.3289839029312134, "train_loss_bc": 0.06630640476942062, "train_loss_llm": 0.26267749071121216, "grad_norm": 2.0976405143737793, "global_step": 2352, "epoch": 9, "lr": 0.009997738647618375}
+{"train_loss": 0.40375328063964844, "train_loss_bc": 0.0727936327457428, "train_loss_llm": 0.33095964789390564, "grad_norm": 0.0949101597070694, "global_step": 2353, "epoch": 9, "lr": 0.009997738647618375}
+{"train_loss": 0.3816208839416504, "train_loss_bc": 0.059172190725803375, "train_loss_llm": 0.3224487006664276, "grad_norm": 0.20896026492118835, "global_step": 2354, "epoch": 9, "lr": 0.009997738647618375}
+{"train_loss": 0.33287951350212097, "train_loss_bc": 0.06586623191833496, "train_loss_llm": 0.267013281583786, "grad_norm": 0.4089146554470062, "global_step": 2355, "epoch": 9, "lr": 0.009997738647618375}
+{"train_loss": 0.3453950583934784, "train_loss_bc": 0.06669139862060547, "train_loss_llm": 0.2787036597728729, "grad_norm": 0.47647204995155334, "global_step": 2356, "epoch": 9, "lr": 0.009997738647618375}
+{"train_loss": 0.30574721097946167, "train_loss_bc": 0.07111245393753052, "train_loss_llm": 0.23463475704193115, "grad_norm": 0.5153944492340088, "global_step": 2357, "epoch": 9, "lr": 0.009997738647618375}
+{"train_loss": 0.40123826265335083, "train_loss_bc": 0.08271314203739166, "train_loss_llm": 0.31852513551712036, "grad_norm": 0.5738496780395508, "global_step": 2358, "epoch": 9, "lr": 0.009997738647618375}
+{"train_loss": 0.3744533658027649, "train_loss_bc": 0.06808304786682129, "train_loss_llm": 0.3063703179359436, "grad_norm": 0.75722736120224, "global_step": 2359, "epoch": 9, "lr": 0.009997738647618375}
+{"train_loss": 0.3825632333755493, "train_loss_bc": 0.07102779299020767, "train_loss_llm": 0.31153544783592224, "grad_norm": 0.8942374587059021, "global_step": 2360, "epoch": 9, "lr": 0.009997722751845082}
+{"train_loss": 0.3438693583011627, "train_loss_bc": 0.06490334868431091, "train_loss_llm": 0.2789660096168518, "grad_norm": 0.13663876056671143, "global_step": 2361, "epoch": 9, "lr": 0.009997722751845082}
+{"train_loss": 0.42019709944725037, "train_loss_bc": 0.07338041067123413, "train_loss_llm": 0.34681668877601624, "grad_norm": 0.17458781599998474, "global_step": 2362, "epoch": 9, "lr": 0.009997722751845082}
+{"train_loss": 0.32405513525009155, "train_loss_bc": 0.06384740769863129, "train_loss_llm": 0.26020774245262146, "grad_norm": 0.16751724481582642, "global_step": 2363, "epoch": 9, "lr": 0.009997722751845082}
+{"train_loss": 0.43618232011795044, "train_loss_bc": 0.07644258439540863, "train_loss_llm": 0.3597397208213806, "grad_norm": 0.2566344141960144, "global_step": 2364, "epoch": 9, "lr": 0.009997722751845082}
+{"train_loss": 0.36242443323135376, "train_loss_bc": 0.06108986586332321, "train_loss_llm": 0.30133455991744995, "grad_norm": 0.29356688261032104, "global_step": 2365, "epoch": 9, "lr": 0.009997722751845082}
+{"train_loss": 0.397931307554245, "train_loss_bc": 0.05259907245635986, "train_loss_llm": 0.34533223509788513, "grad_norm": 0.3523794114589691, "global_step": 2366, "epoch": 9, "lr": 0.009997722751845082}
+{"train_loss": 0.3994331359863281, "train_loss_bc": 0.07455508410930634, "train_loss_llm": 0.3248780369758606, "grad_norm": 0.38382813334465027, "global_step": 2367, "epoch": 9, "lr": 0.009997722751845082}
+{"train_loss": 0.3384900689125061, "train_loss_bc": 0.0531260222196579, "train_loss_llm": 0.2853640615940094, "grad_norm": 0.47791096568107605, "global_step": 2368, "epoch": 9, "lr": 0.00999770680041176}
+{"train_loss": 0.3481309413909912, "train_loss_bc": 0.06341812014579773, "train_loss_llm": 0.2847128212451935, "grad_norm": 0.1576966643333435, "global_step": 2369, "epoch": 9, "lr": 0.00999770680041176}
+{"train_loss": 0.3945331871509552, "train_loss_bc": 0.053838957101106644, "train_loss_llm": 0.34069421887397766, "grad_norm": 0.2561357915401459, "global_step": 2370, "epoch": 9, "lr": 0.00999770680041176}
+{"train_loss": 0.3462551236152649, "train_loss_bc": 0.03984973579645157, "train_loss_llm": 0.3064053952693939, "grad_norm": 0.4202791452407837, "global_step": 2371, "epoch": 9, "lr": 0.00999770680041176}
+{"train_loss": 0.3846035599708557, "train_loss_bc": 0.06371797621250153, "train_loss_llm": 0.320885568857193, "grad_norm": 0.594990611076355, "global_step": 2372, "epoch": 9, "lr": 0.00999770680041176}
+{"train_loss": 0.4246424436569214, "train_loss_bc": 0.04712440073490143, "train_loss_llm": 0.37751802802085876, "grad_norm": 0.811725378036499, "global_step": 2373, "epoch": 9, "lr": 0.00999770680041176}
+{"train_loss": 0.3536119759082794, "train_loss_bc": 0.07155585289001465, "train_loss_llm": 0.28205612301826477, "grad_norm": 0.8627647161483765, "global_step": 2374, "epoch": 9, "lr": 0.00999770680041176}
+{"train_loss": 0.3802557587623596, "train_loss_bc": 0.06978534162044525, "train_loss_llm": 0.3104704022407532, "grad_norm": 0.9059949517250061, "global_step": 2375, "epoch": 9, "lr": 0.00999770680041176}
+{"train_loss": 0.3543468713760376, "train_loss_bc": 0.05763532221317291, "train_loss_llm": 0.2967115640640259, "grad_norm": 1.0190953016281128, "global_step": 2376, "epoch": 9, "lr": 0.00999769079331859}
+{"train_loss": 0.3075012266635895, "train_loss_bc": 0.0711599662899971, "train_loss_llm": 0.23634126782417297, "grad_norm": 0.09347307682037354, "global_step": 2377, "epoch": 9, "lr": 0.00999769079331859}
+{"train_loss": 0.35066884756088257, "train_loss_bc": 0.06985507160425186, "train_loss_llm": 0.2808137834072113, "grad_norm": 0.1538940817117691, "global_step": 2378, "epoch": 9, "lr": 0.00999769079331859}
+{"train_loss": 0.35852063140448404, "train_loss_bc": 0.04731912538409233, "train_loss_llm": 0.2901681959629059, "grad_norm": 0.5263442397117615, "global_step": 2379, "epoch": 9, "lr": 0.00999769079331859, "val_loss": 0.3521723449230194}
+{"train_loss": 0.3677360415458679, "train_loss_bc": 0.06071137636899948, "train_loss_llm": 0.30702465772628784, "grad_norm": 0.8783592581748962, "global_step": 2380, "epoch": 10, "lr": 0.00999769079331859}
+{"train_loss": 0.4093219041824341, "train_loss_bc": 0.07413627207279205, "train_loss_llm": 0.3351856470108032, "grad_norm": 0.955385148525238, "global_step": 2381, "epoch": 10, "lr": 0.00999769079331859}
+{"train_loss": 0.3148399889469147, "train_loss_bc": 0.04862401634454727, "train_loss_llm": 0.266215980052948, "grad_norm": 1.1282463073730469, "global_step": 2382, "epoch": 10, "lr": 0.00999769079331859}
+{"train_loss": 0.3892759382724762, "train_loss_bc": 0.06405869126319885, "train_loss_llm": 0.32521724700927734, "grad_norm": 1.3729315996170044, "global_step": 2383, "epoch": 10, "lr": 0.00999769079331859}
+{"train_loss": 0.34904131293296814, "train_loss_bc": 0.06571817398071289, "train_loss_llm": 0.28332313895225525, "grad_norm": 1.2863045930862427, "global_step": 2384, "epoch": 10, "lr": 0.009997674730565748}
+{"train_loss": 0.4097830057144165, "train_loss_bc": 0.06477038562297821, "train_loss_llm": 0.3450126051902771, "grad_norm": 0.1391845941543579, "global_step": 2385, "epoch": 10, "lr": 0.009997674730565748}
+{"train_loss": 0.31851881742477417, "train_loss_bc": 0.06865399330854416, "train_loss_llm": 0.24986481666564941, "grad_norm": 0.1981663703918457, "global_step": 2386, "epoch": 10, "lr": 0.009997674730565748}
+{"train_loss": 0.34552425146102905, "train_loss_bc": 0.05636536329984665, "train_loss_llm": 0.2891588807106018, "grad_norm": 0.25155195593833923, "global_step": 2387, "epoch": 10, "lr": 0.009997674730565748}
+{"train_loss": 0.3021736741065979, "train_loss_bc": 0.05001455917954445, "train_loss_llm": 0.25215911865234375, "grad_norm": 0.5169110298156738, "global_step": 2388, "epoch": 10, "lr": 0.009997674730565748}
+{"train_loss": 0.3534165620803833, "train_loss_bc": 0.06610357016324997, "train_loss_llm": 0.28731298446655273, "grad_norm": 0.567698061466217, "global_step": 2389, "epoch": 10, "lr": 0.009997674730565748}
+{"train_loss": 0.27528056502342224, "train_loss_bc": 0.05724572390317917, "train_loss_llm": 0.21803483366966248, "grad_norm": 0.7921919226646423, "global_step": 2390, "epoch": 10, "lr": 0.009997674730565748}
+{"train_loss": 0.34738898277282715, "train_loss_bc": 0.08312167227268219, "train_loss_llm": 0.26426729559898376, "grad_norm": 0.8015503287315369, "global_step": 2391, "epoch": 10, "lr": 0.009997674730565748}
+{"train_loss": 0.366161972284317, "train_loss_bc": 0.07353675365447998, "train_loss_llm": 0.29262521862983704, "grad_norm": 0.9244561791419983, "global_step": 2392, "epoch": 10, "lr": 0.009997658612153416}
+{"train_loss": 0.3330153822898865, "train_loss_bc": 0.08381406962871552, "train_loss_llm": 0.24920129776000977, "grad_norm": 0.08771798759698868, "global_step": 2393, "epoch": 10, "lr": 0.009997658612153416}
+{"train_loss": 0.37328994274139404, "train_loss_bc": 0.08317757397890091, "train_loss_llm": 0.29011237621307373, "grad_norm": 0.2579168677330017, "global_step": 2394, "epoch": 10, "lr": 0.009997658612153416}
+{"train_loss": 0.42036643624305725, "train_loss_bc": 0.08260253816843033, "train_loss_llm": 0.3377639055252075, "grad_norm": 0.42041629552841187, "global_step": 2395, "epoch": 10, "lr": 0.009997658612153416}
+{"train_loss": 0.36048316955566406, "train_loss_bc": 0.07657842338085175, "train_loss_llm": 0.2839047610759735, "grad_norm": 0.4896564483642578, "global_step": 2396, "epoch": 10, "lr": 0.009997658612153416}
+{"train_loss": 0.38632190227508545, "train_loss_bc": 0.09822921454906464, "train_loss_llm": 0.288092702627182, "grad_norm": 0.6741446256637573, "global_step": 2397, "epoch": 10, "lr": 0.009997658612153416}
+{"train_loss": 0.3262888491153717, "train_loss_bc": 0.08613985776901245, "train_loss_llm": 0.24014899134635925, "grad_norm": 0.7900853753089905, "global_step": 2398, "epoch": 10, "lr": 0.009997658612153416}
+{"train_loss": 0.31511393189430237, "train_loss_bc": 0.05933966115117073, "train_loss_llm": 0.25577425956726074, "grad_norm": 1.155620813369751, "global_step": 2399, "epoch": 10, "lr": 0.009997658612153416}
+{"train_loss": 0.3685215711593628, "train_loss_bc": 0.08497430384159088, "train_loss_llm": 0.2835472524166107, "grad_norm": 1.2483090162277222, "global_step": 2400, "epoch": 10, "lr": 0.009997642438081768}
+{"train_loss": 0.4136987626552582, "train_loss_bc": 0.09063947945833206, "train_loss_llm": 0.3230592906475067, "grad_norm": 0.14334124326705933, "global_step": 2401, "epoch": 10, "lr": 0.009997642438081768}
+{"train_loss": 0.33941978216171265, "train_loss_bc": 0.08757506310939789, "train_loss_llm": 0.25184473395347595, "grad_norm": 0.16952243447303772, "global_step": 2402, "epoch": 10, "lr": 0.009997642438081768}
+{"train_loss": 0.3382022976875305, "train_loss_bc": 0.08390989899635315, "train_loss_llm": 0.25429239869117737, "grad_norm": 0.27739807963371277, "global_step": 2403, "epoch": 10, "lr": 0.009997642438081768}
+{"train_loss": 0.3503599762916565, "train_loss_bc": 0.08617649972438812, "train_loss_llm": 0.2641834616661072, "grad_norm": 0.32760176062583923, "global_step": 2404, "epoch": 10, "lr": 0.009997642438081768}
+{"train_loss": 0.4045846462249756, "train_loss_bc": 0.11719276756048203, "train_loss_llm": 0.28739187121391296, "grad_norm": 0.46034014225006104, "global_step": 2405, "epoch": 10, "lr": 0.009997642438081768}
+{"train_loss": 0.43499720096588135, "train_loss_bc": 0.10030311346054077, "train_loss_llm": 0.3346940875053406, "grad_norm": 0.5858363509178162, "global_step": 2406, "epoch": 10, "lr": 0.009997642438081768}
+{"train_loss": 0.36664411425590515, "train_loss_bc": 0.1000375747680664, "train_loss_llm": 0.26660653948783875, "grad_norm": 0.6315473914146423, "global_step": 2407, "epoch": 10, "lr": 0.009997642438081768}
+{"train_loss": 0.3301762044429779, "train_loss_bc": 0.07258972525596619, "train_loss_llm": 0.2575864791870117, "grad_norm": 0.6297135353088379, "global_step": 2408, "epoch": 10, "lr": 0.00999762620835099}
+{"train_loss": 0.2803076505661011, "train_loss_bc": 0.08262050151824951, "train_loss_llm": 0.19768714904785156, "grad_norm": 0.09919674694538116, "global_step": 2409, "epoch": 10, "lr": 0.00999762620835099}
+{"train_loss": 0.3535301387310028, "train_loss_bc": 0.100078284740448, "train_loss_llm": 0.2534518539905548, "grad_norm": 0.19656391441822052, "global_step": 2410, "epoch": 10, "lr": 0.00999762620835099}
+{"train_loss": 0.35381293296813965, "train_loss_bc": 0.11963029950857162, "train_loss_llm": 0.23418262600898743, "grad_norm": 0.24427610635757446, "global_step": 2411, "epoch": 10, "lr": 0.00999762620835099}
+{"train_loss": 0.3484075665473938, "train_loss_bc": 0.09232790768146515, "train_loss_llm": 0.25607967376708984, "grad_norm": 0.2867773771286011, "global_step": 2412, "epoch": 10, "lr": 0.00999762620835099}
+{"train_loss": 0.3948700726032257, "train_loss_bc": 0.10153286904096603, "train_loss_llm": 0.2933371961116791, "grad_norm": 0.32905781269073486, "global_step": 2413, "epoch": 10, "lr": 0.00999762620835099}
+{"train_loss": 0.37846702337265015, "train_loss_bc": 0.09329245984554291, "train_loss_llm": 0.28517454862594604, "grad_norm": 0.4117923676967621, "global_step": 2414, "epoch": 10, "lr": 0.00999762620835099}
+{"train_loss": 0.33381471037864685, "train_loss_bc": 0.07341793179512024, "train_loss_llm": 0.2603967785835266, "grad_norm": 0.5075021386146545, "global_step": 2415, "epoch": 10, "lr": 0.00999762620835099}
+{"train_loss": 0.4104660153388977, "train_loss_bc": 0.11605094373226166, "train_loss_llm": 0.29441505670547485, "grad_norm": 0.5515798926353455, "global_step": 2416, "epoch": 10, "lr": 0.009997609922961259}
+{"train_loss": 0.3782028257846832, "train_loss_bc": 0.09725863486528397, "train_loss_llm": 0.28094419836997986, "grad_norm": 0.16146907210350037, "global_step": 2417, "epoch": 10, "lr": 0.009997609922961259}
+{"train_loss": 0.3648880124092102, "train_loss_bc": 0.09022431075572968, "train_loss_llm": 0.2746637165546417, "grad_norm": 0.1676664799451828, "global_step": 2418, "epoch": 10, "lr": 0.009997609922961259}
+{"train_loss": 0.4248555600643158, "train_loss_bc": 0.09903520345687866, "train_loss_llm": 0.32582035660743713, "grad_norm": 0.25865107774734497, "global_step": 2419, "epoch": 10, "lr": 0.009997609922961259}
+{"train_loss": 0.3587837517261505, "train_loss_bc": 0.08937454968690872, "train_loss_llm": 0.2694092094898224, "grad_norm": 0.42322754859924316, "global_step": 2420, "epoch": 10, "lr": 0.009997609922961259}
+{"train_loss": 0.3077106177806854, "train_loss_bc": 0.08283469825983047, "train_loss_llm": 0.22487592697143555, "grad_norm": 0.4570367634296417, "global_step": 2421, "epoch": 10, "lr": 0.009997609922961259}
+{"train_loss": 0.3397941589355469, "train_loss_bc": 0.08123992383480072, "train_loss_llm": 0.25855422019958496, "grad_norm": 0.5905921459197998, "global_step": 2422, "epoch": 10, "lr": 0.009997609922961259}
+{"train_loss": 0.28671661019325256, "train_loss_bc": 0.0876862108707428, "train_loss_llm": 0.19903039932250977, "grad_norm": 0.6682088971138, "global_step": 2423, "epoch": 10, "lr": 0.009997609922961259}
+{"train_loss": 0.3523632287979126, "train_loss_bc": 0.09139681607484818, "train_loss_llm": 0.260966420173645, "grad_norm": 0.7669875621795654, "global_step": 2424, "epoch": 10, "lr": 0.009997593581912757}
+{"train_loss": 0.34946149587631226, "train_loss_bc": 0.08320482075214386, "train_loss_llm": 0.2662566602230072, "grad_norm": 0.11529631167650223, "global_step": 2425, "epoch": 10, "lr": 0.009997593581912757}
+{"train_loss": 0.3682646155357361, "train_loss_bc": 0.07073257863521576, "train_loss_llm": 0.2975320518016815, "grad_norm": 0.21936820447444916, "global_step": 2426, "epoch": 10, "lr": 0.009997593581912757}
+{"train_loss": 0.3229201138019562, "train_loss_bc": 0.07662183791399002, "train_loss_llm": 0.24629828333854675, "grad_norm": 0.3600856363773346, "global_step": 2427, "epoch": 10, "lr": 0.009997593581912757}
+{"train_loss": 0.3214270770549774, "train_loss_bc": 0.07594278454780579, "train_loss_llm": 0.24548429250717163, "grad_norm": 0.49629849195480347, "global_step": 2428, "epoch": 10, "lr": 0.009997593581912757}
+{"train_loss": 0.3571111559867859, "train_loss_bc": 0.09951776266098022, "train_loss_llm": 0.25759339332580566, "grad_norm": 0.6108081936836243, "global_step": 2429, "epoch": 10, "lr": 0.009997593581912757}
+{"train_loss": 0.39924877882003784, "train_loss_bc": 0.09449154883623123, "train_loss_llm": 0.3047572374343872, "grad_norm": 0.6578720808029175, "global_step": 2430, "epoch": 10, "lr": 0.009997593581912757}
+{"train_loss": 0.3473358154296875, "train_loss_bc": 0.08214685320854187, "train_loss_llm": 0.26518896222114563, "grad_norm": 0.8034911751747131, "global_step": 2431, "epoch": 10, "lr": 0.009997593581912757}
+{"train_loss": 0.3642895221710205, "train_loss_bc": 0.06977565586566925, "train_loss_llm": 0.29451388120651245, "grad_norm": 0.8564273118972778, "global_step": 2432, "epoch": 10, "lr": 0.009997577185205667}
+{"train_loss": 0.3425977826118469, "train_loss_bc": 0.07132552564144135, "train_loss_llm": 0.2712722718715668, "grad_norm": 0.14766143262386322, "global_step": 2433, "epoch": 10, "lr": 0.009997577185205667}
+{"train_loss": 0.3411197364330292, "train_loss_bc": 0.08366414904594421, "train_loss_llm": 0.25745558738708496, "grad_norm": 0.1380721926689148, "global_step": 2434, "epoch": 10, "lr": 0.009997577185205667}
+{"train_loss": 0.2984653413295746, "train_loss_bc": 0.05509299039840698, "train_loss_llm": 0.2433723509311676, "grad_norm": 0.4516771137714386, "global_step": 2435, "epoch": 10, "lr": 0.009997577185205667}
+{"train_loss": 0.3855549097061157, "train_loss_bc": 0.0667254626750946, "train_loss_llm": 0.3188294470310211, "grad_norm": 0.6855002641677856, "global_step": 2436, "epoch": 10, "lr": 0.009997577185205667}
+{"train_loss": 0.3319118916988373, "train_loss_bc": 0.07895315438508987, "train_loss_llm": 0.252958744764328, "grad_norm": 0.7413025498390198, "global_step": 2437, "epoch": 10, "lr": 0.009997577185205667}
+{"train_loss": 0.3132767677307129, "train_loss_bc": 0.06621074676513672, "train_loss_llm": 0.24706602096557617, "grad_norm": 0.809645414352417, "global_step": 2438, "epoch": 10, "lr": 0.009997577185205667}
+{"train_loss": 0.32300835847854614, "train_loss_bc": 0.07018566131591797, "train_loss_llm": 0.2528226971626282, "grad_norm": 0.862499475479126, "global_step": 2439, "epoch": 10, "lr": 0.009997577185205667}
+{"train_loss": 0.3539953827857971, "train_loss_bc": 0.07006514817476273, "train_loss_llm": 0.283930242061615, "grad_norm": 0.8641050457954407, "global_step": 2440, "epoch": 10, "lr": 0.009997560732840171}
+{"train_loss": 0.35362815856933594, "train_loss_bc": 0.06386484205722809, "train_loss_llm": 0.28976330161094666, "grad_norm": 0.14732854068279266, "global_step": 2441, "epoch": 10, "lr": 0.009997560732840171}
+{"train_loss": 0.3839351236820221, "train_loss_bc": 0.06076134368777275, "train_loss_llm": 0.32317379117012024, "grad_norm": 0.21903903782367706, "global_step": 2442, "epoch": 10, "lr": 0.009997560732840171}
+{"train_loss": 0.2830756902694702, "train_loss_bc": 0.04998917877674103, "train_loss_llm": 0.23308652639389038, "grad_norm": 0.347538560628891, "global_step": 2443, "epoch": 10, "lr": 0.009997560732840171}
+{"train_loss": 0.3558662533760071, "train_loss_bc": 0.0598522424697876, "train_loss_llm": 0.2960140109062195, "grad_norm": 0.37066811323165894, "global_step": 2444, "epoch": 10, "lr": 0.009997560732840171}
+{"train_loss": 0.32092607021331787, "train_loss_bc": 0.05240453779697418, "train_loss_llm": 0.2685215175151825, "grad_norm": 0.48627525568008423, "global_step": 2445, "epoch": 10, "lr": 0.009997560732840171}
+{"train_loss": 0.3942698836326599, "train_loss_bc": 0.06737212836742401, "train_loss_llm": 0.3268977701663971, "grad_norm": 0.5423147678375244, "global_step": 2446, "epoch": 10, "lr": 0.009997560732840171}
+{"train_loss": 0.31182217597961426, "train_loss_bc": 0.05185997486114502, "train_loss_llm": 0.25996220111846924, "grad_norm": 0.5654186606407166, "global_step": 2447, "epoch": 10, "lr": 0.009997560732840171}
+{"train_loss": 0.38706815242767334, "train_loss_bc": 0.07736770808696747, "train_loss_llm": 0.30970045924186707, "grad_norm": 0.5868966579437256, "global_step": 2448, "epoch": 10, "lr": 0.009997544224816454}
+{"train_loss": 0.3767368197441101, "train_loss_bc": 0.05308770388364792, "train_loss_llm": 0.3236491084098816, "grad_norm": 0.17630018293857574, "global_step": 2449, "epoch": 10, "lr": 0.009997544224816454}
+{"train_loss": 0.3911738097667694, "train_loss_bc": 0.06134377792477608, "train_loss_llm": 0.32983002066612244, "grad_norm": 0.24602504074573517, "global_step": 2450, "epoch": 10, "lr": 0.009997544224816454}
+{"train_loss": 0.2882470488548279, "train_loss_bc": 0.0417720191180706, "train_loss_llm": 0.24647504091262817, "grad_norm": 0.4332800805568695, "global_step": 2451, "epoch": 10, "lr": 0.009997544224816454}
+{"train_loss": 0.3365011215209961, "train_loss_bc": 0.062010690569877625, "train_loss_llm": 0.2744904160499573, "grad_norm": 0.5606359839439392, "global_step": 2452, "epoch": 10, "lr": 0.009997544224816454}
+{"train_loss": 0.39641842246055603, "train_loss_bc": 0.06308570504188538, "train_loss_llm": 0.33333271741867065, "grad_norm": 0.7223694920539856, "global_step": 2453, "epoch": 10, "lr": 0.009997544224816454}
+{"train_loss": 0.4336526095867157, "train_loss_bc": 0.0770435705780983, "train_loss_llm": 0.356609046459198, "grad_norm": 0.8127440810203552, "global_step": 2454, "epoch": 10, "lr": 0.009997544224816454}
+{"train_loss": 0.31263720989227295, "train_loss_bc": 0.05399073660373688, "train_loss_llm": 0.2586464583873749, "grad_norm": 0.9178571105003357, "global_step": 2455, "epoch": 10, "lr": 0.009997544224816454}
+{"train_loss": 0.4225764274597168, "train_loss_bc": 0.0604260191321373, "train_loss_llm": 0.3621504008769989, "grad_norm": 1.0542049407958984, "global_step": 2456, "epoch": 10, "lr": 0.009997527661134698}
+{"train_loss": 0.369511216878891, "train_loss_bc": 0.05168382078409195, "train_loss_llm": 0.31782740354537964, "grad_norm": 0.23302683234214783, "global_step": 2457, "epoch": 10, "lr": 0.009997527661134698}
+{"train_loss": 0.39665305614471436, "train_loss_bc": 0.0543878972530365, "train_loss_llm": 0.34226515889167786, "grad_norm": 0.26925548911094666, "global_step": 2458, "epoch": 10, "lr": 0.009997527661134698}
+{"train_loss": 0.3163882791996002, "train_loss_bc": 0.04561225324869156, "train_loss_llm": 0.27077603340148926, "grad_norm": 0.6472745537757874, "global_step": 2459, "epoch": 10, "lr": 0.009997527661134698}
+{"train_loss": 0.37416765093803406, "train_loss_bc": 0.05979093909263611, "train_loss_llm": 0.31437671184539795, "grad_norm": 0.7221978306770325, "global_step": 2460, "epoch": 10, "lr": 0.009997527661134698}
+{"train_loss": 0.39015117287635803, "train_loss_bc": 0.05325973033905029, "train_loss_llm": 0.33689144253730774, "grad_norm": 0.866981029510498, "global_step": 2461, "epoch": 10, "lr": 0.009997527661134698}
+{"train_loss": 0.33113694190979004, "train_loss_bc": 0.052340179681777954, "train_loss_llm": 0.2787967622280121, "grad_norm": 0.9514475464820862, "global_step": 2462, "epoch": 10, "lr": 0.009997527661134698}
+{"train_loss": 0.37112224102020264, "train_loss_bc": 0.06153453141450882, "train_loss_llm": 0.3095877170562744, "grad_norm": 0.9941548109054565, "global_step": 2463, "epoch": 10, "lr": 0.009997527661134698}
+{"train_loss": 0.37415510416030884, "train_loss_bc": 0.06338253617286682, "train_loss_llm": 0.310772567987442, "grad_norm": 1.1533359289169312, "global_step": 2464, "epoch": 10, "lr": 0.009997511041795087}
+{"train_loss": 0.3860892057418823, "train_loss_bc": 0.059996798634529114, "train_loss_llm": 0.3260924220085144, "grad_norm": 0.2327832281589508, "global_step": 2465, "epoch": 10, "lr": 0.009997511041795087}
+{"train_loss": 0.3337917625904083, "train_loss_bc": 0.04941346496343613, "train_loss_llm": 0.2843782901763916, "grad_norm": 0.44253870844841003, "global_step": 2466, "epoch": 10, "lr": 0.009997511041795087}
+{"train_loss": 0.38856232166290283, "train_loss_bc": 0.059316352009773254, "train_loss_llm": 0.3292459547519684, "grad_norm": 0.6441690325737, "global_step": 2467, "epoch": 10, "lr": 0.009997511041795087}
+{"train_loss": 0.38483795523643494, "train_loss_bc": 0.05386381596326828, "train_loss_llm": 0.33097413182258606, "grad_norm": 0.8593996167182922, "global_step": 2468, "epoch": 10, "lr": 0.009997511041795087}
+{"train_loss": 0.3798157572746277, "train_loss_bc": 0.057513490319252014, "train_loss_llm": 0.32230228185653687, "grad_norm": 1.1919682025909424, "global_step": 2469, "epoch": 10, "lr": 0.009997511041795087}
+{"train_loss": 0.3639245927333832, "train_loss_bc": 0.05927246809005737, "train_loss_llm": 0.3046521246433258, "grad_norm": 1.3810266256332397, "global_step": 2470, "epoch": 10, "lr": 0.009997511041795087}
+{"train_loss": 0.3381528854370117, "train_loss_bc": 0.0623881071805954, "train_loss_llm": 0.2757647931575775, "grad_norm": 1.529491662979126, "global_step": 2471, "epoch": 10, "lr": 0.009997511041795087}
+{"train_loss": 0.46590015292167664, "train_loss_bc": 0.05867423489689827, "train_loss_llm": 0.40722590684890747, "grad_norm": 1.8359415531158447, "global_step": 2472, "epoch": 10, "lr": 0.009997494366797807}
+{"train_loss": 0.3593940734863281, "train_loss_bc": 0.051771946251392365, "train_loss_llm": 0.30762213468551636, "grad_norm": 0.056303367018699646, "global_step": 2473, "epoch": 10, "lr": 0.009997494366797807}
+{"train_loss": 0.3658227026462555, "train_loss_bc": 0.05830713361501694, "train_loss_llm": 0.30751556158065796, "grad_norm": 0.17456626892089844, "global_step": 2474, "epoch": 10, "lr": 0.009997494366797807}
+{"train_loss": 0.37442225217819214, "train_loss_bc": 0.07146584987640381, "train_loss_llm": 0.30295640230178833, "grad_norm": 0.23718996345996857, "global_step": 2475, "epoch": 10, "lr": 0.009997494366797807}
+{"train_loss": 0.41446590423583984, "train_loss_bc": 0.06531919538974762, "train_loss_llm": 0.34914669394493103, "grad_norm": 0.3429745137691498, "global_step": 2476, "epoch": 10, "lr": 0.009997494366797807}
+{"train_loss": 0.3218669891357422, "train_loss_bc": 0.04980172589421272, "train_loss_llm": 0.27206525206565857, "grad_norm": 0.5620255470275879, "global_step": 2477, "epoch": 10, "lr": 0.009997494366797807}
+{"train_loss": 0.3188546597957611, "train_loss_bc": 0.0495537593960762, "train_loss_llm": 0.2693009078502655, "grad_norm": 0.6431949734687805, "global_step": 2478, "epoch": 10, "lr": 0.009997494366797807}
+{"train_loss": 0.41643744707107544, "train_loss_bc": 0.06273265182971954, "train_loss_llm": 0.3537048101425171, "grad_norm": 0.6780773401260376, "global_step": 2479, "epoch": 10, "lr": 0.009997494366797807}
+{"train_loss": 0.28207671642303467, "train_loss_bc": 0.03845435008406639, "train_loss_llm": 0.24362236261367798, "grad_norm": 0.7503290772438049, "global_step": 2480, "epoch": 10, "lr": 0.009997477636143042}
+{"train_loss": 0.37621262669563293, "train_loss_bc": 0.07274192571640015, "train_loss_llm": 0.3034707009792328, "grad_norm": 0.09361866861581802, "global_step": 2481, "epoch": 10, "lr": 0.009997477636143042}
+{"train_loss": 0.46730655431747437, "train_loss_bc": 0.06702407449483871, "train_loss_llm": 0.40028247237205505, "grad_norm": 0.119352325797081, "global_step": 2482, "epoch": 10, "lr": 0.009997477636143042}
+{"train_loss": 0.34187471866607666, "train_loss_bc": 0.05702845752239227, "train_loss_llm": 0.2848462760448456, "grad_norm": 0.16659283638000488, "global_step": 2483, "epoch": 10, "lr": 0.009997477636143042}
+{"train_loss": 0.3554386496543884, "train_loss_bc": 0.04641377553343773, "train_loss_llm": 0.3090248703956604, "grad_norm": 0.2397068440914154, "global_step": 2484, "epoch": 10, "lr": 0.009997477636143042}
+{"train_loss": 0.29652032256126404, "train_loss_bc": 0.05161367729306221, "train_loss_llm": 0.24490663409233093, "grad_norm": 0.27660584449768066, "global_step": 2485, "epoch": 10, "lr": 0.009997477636143042}
+{"train_loss": 0.347655713558197, "train_loss_bc": 0.06160788983106613, "train_loss_llm": 0.2860478162765503, "grad_norm": 0.306462824344635, "global_step": 2486, "epoch": 10, "lr": 0.009997477636143042}
+{"train_loss": 0.33129778504371643, "train_loss_bc": 0.05364280566573143, "train_loss_llm": 0.2776549756526947, "grad_norm": 0.3282727897167206, "global_step": 2487, "epoch": 10, "lr": 0.009997477636143042}
+{"train_loss": 0.3735138773918152, "train_loss_bc": 0.06373018026351929, "train_loss_llm": 0.3097836971282959, "grad_norm": 0.35338398814201355, "global_step": 2488, "epoch": 10, "lr": 0.009997460849830981}
+{"train_loss": 0.33633795380592346, "train_loss_bc": 0.06703675538301468, "train_loss_llm": 0.2693012058734894, "grad_norm": 0.08248481154441833, "global_step": 2489, "epoch": 10, "lr": 0.009997460849830981}
+{"train_loss": 0.35618722438812256, "train_loss_bc": 0.06648935377597809, "train_loss_llm": 0.2896978557109833, "grad_norm": 0.13274304568767548, "global_step": 2490, "epoch": 10, "lr": 0.009997460849830981}
+{"train_loss": 0.3130059540271759, "train_loss_bc": 0.06232427805662155, "train_loss_llm": 0.25068166851997375, "grad_norm": 0.2064497470855713, "global_step": 2491, "epoch": 10, "lr": 0.009997460849830981}
+{"train_loss": 0.4054645299911499, "train_loss_bc": 0.07416833937168121, "train_loss_llm": 0.3312962055206299, "grad_norm": 0.20722009241580963, "global_step": 2492, "epoch": 10, "lr": 0.009997460849830981}
+{"train_loss": 0.41969382762908936, "train_loss_bc": 0.054719001054763794, "train_loss_llm": 0.36497482657432556, "grad_norm": 0.19519124925136566, "global_step": 2493, "epoch": 10, "lr": 0.009997460849830981}
+{"train_loss": 0.34671729803085327, "train_loss_bc": 0.06403404474258423, "train_loss_llm": 0.28268325328826904, "grad_norm": 0.2669326066970825, "global_step": 2494, "epoch": 10, "lr": 0.009997460849830981}
+{"train_loss": 0.37761181592941284, "train_loss_bc": 0.05871459096670151, "train_loss_llm": 0.31889721751213074, "grad_norm": 0.2718285024166107, "global_step": 2495, "epoch": 10, "lr": 0.009997460849830981}
+{"train_loss": 0.41919976472854614, "train_loss_bc": 0.06782472878694534, "train_loss_llm": 0.3513750433921814, "grad_norm": 0.4118233621120453, "global_step": 2496, "epoch": 10, "lr": 0.00999744400786181}
+{"train_loss": 0.3780038058757782, "train_loss_bc": 0.06681063026189804, "train_loss_llm": 0.31119316816329956, "grad_norm": 0.10260981321334839, "global_step": 2497, "epoch": 10, "lr": 0.00999744400786181}
+{"train_loss": 0.28662317991256714, "train_loss_bc": 0.06547950208187103, "train_loss_llm": 0.2211436927318573, "grad_norm": 0.1404837667942047, "global_step": 2498, "epoch": 10, "lr": 0.00999744400786181}
+{"train_loss": 0.3227047622203827, "train_loss_bc": 0.05757937580347061, "train_loss_llm": 0.2651253938674927, "grad_norm": 0.2586067020893097, "global_step": 2499, "epoch": 10, "lr": 0.00999744400786181}
+{"train_loss": 0.35190504789352417, "train_loss_bc": 0.08145855367183685, "train_loss_llm": 0.2704465091228485, "grad_norm": 0.30411067605018616, "global_step": 2500, "epoch": 10, "lr": 0.00999744400786181}
+{"train_loss": 0.37184077501296997, "train_loss_bc": 0.07027952373027802, "train_loss_llm": 0.30156126618385315, "grad_norm": 0.37608805298805237, "global_step": 2501, "epoch": 10, "lr": 0.00999744400786181}
+{"train_loss": 0.3345894515514374, "train_loss_bc": 0.07220142334699631, "train_loss_llm": 0.2623880207538605, "grad_norm": 0.4783642590045929, "global_step": 2502, "epoch": 10, "lr": 0.00999744400786181}
+{"train_loss": 0.33694010972976685, "train_loss_bc": 0.06855595111846924, "train_loss_llm": 0.2683841586112976, "grad_norm": 0.49389708042144775, "global_step": 2503, "epoch": 10, "lr": 0.00999744400786181}
+{"train_loss": 0.36234110593795776, "train_loss_bc": 0.084508515894413, "train_loss_llm": 0.27783259749412537, "grad_norm": 0.5034226775169373, "global_step": 2504, "epoch": 10, "lr": 0.009997427110235716}
+{"train_loss": 0.3776713013648987, "train_loss_bc": 0.07993928343057632, "train_loss_llm": 0.29773202538490295, "grad_norm": 0.05600079149007797, "global_step": 2505, "epoch": 10, "lr": 0.009997427110235716}
+{"train_loss": 0.35462629795074463, "train_loss_bc": 0.08993544429540634, "train_loss_llm": 0.2646908462047577, "grad_norm": 0.06330161541700363, "global_step": 2506, "epoch": 10, "lr": 0.009997427110235716}
+{"train_loss": 0.351266086101532, "train_loss_bc": 0.07776190340518951, "train_loss_llm": 0.2735041677951813, "grad_norm": 0.2188044935464859, "global_step": 2507, "epoch": 10, "lr": 0.009997427110235716}
+{"train_loss": 0.3266819417476654, "train_loss_bc": 0.0527321919798851, "train_loss_llm": 0.2739497423171997, "grad_norm": 0.36235958337783813, "global_step": 2508, "epoch": 10, "lr": 0.009997427110235716}
+{"train_loss": 0.3574677109718323, "train_loss_bc": 0.07995961606502533, "train_loss_llm": 0.27750808000564575, "grad_norm": 0.3729492127895355, "global_step": 2509, "epoch": 10, "lr": 0.009997427110235716}
+{"train_loss": 0.34026145935058594, "train_loss_bc": 0.08291205763816833, "train_loss_llm": 0.2573494017124176, "grad_norm": 0.502537727355957, "global_step": 2510, "epoch": 10, "lr": 0.009997427110235716}
+{"train_loss": 0.3474666476249695, "train_loss_bc": 0.08623836934566498, "train_loss_llm": 0.2612282931804657, "grad_norm": 0.630352258682251, "global_step": 2511, "epoch": 10, "lr": 0.009997427110235716}
+{"train_loss": 0.30935949087142944, "train_loss_bc": 0.060733869671821594, "train_loss_llm": 0.24862560629844666, "grad_norm": 0.6429501175880432, "global_step": 2512, "epoch": 10, "lr": 0.009997410156952888}
+{"train_loss": 0.32677578926086426, "train_loss_bc": 0.08178998529911041, "train_loss_llm": 0.24498578906059265, "grad_norm": 0.09445895254611969, "global_step": 2513, "epoch": 10, "lr": 0.009997410156952888}
+{"train_loss": 0.3511889576911926, "train_loss_bc": 0.05978642404079437, "train_loss_llm": 0.29140251874923706, "grad_norm": 0.1387622058391571, "global_step": 2514, "epoch": 10, "lr": 0.009997410156952888}
+{"train_loss": 0.32484057545661926, "train_loss_bc": 0.07341328263282776, "train_loss_llm": 0.2514272928237915, "grad_norm": 0.1689692735671997, "global_step": 2515, "epoch": 10, "lr": 0.009997410156952888}
+{"train_loss": 0.38384902477264404, "train_loss_bc": 0.10249315947294235, "train_loss_llm": 0.2813558578491211, "grad_norm": 0.2342311143875122, "global_step": 2516, "epoch": 10, "lr": 0.009997410156952888}
+{"train_loss": 0.37717175483703613, "train_loss_bc": 0.08980017900466919, "train_loss_llm": 0.28737157583236694, "grad_norm": 0.3095564842224121, "global_step": 2517, "epoch": 10, "lr": 0.009997410156952888}
+{"train_loss": 0.39107343554496765, "train_loss_bc": 0.0836947038769722, "train_loss_llm": 0.30737873911857605, "grad_norm": 0.4512748718261719, "global_step": 2518, "epoch": 10, "lr": 0.009997410156952888}
+{"train_loss": 0.38338562846183777, "train_loss_bc": 0.08509993553161621, "train_loss_llm": 0.29828569293022156, "grad_norm": 0.4749986231327057, "global_step": 2519, "epoch": 10, "lr": 0.009997410156952888}
+{"train_loss": 0.39686912298202515, "train_loss_bc": 0.08999810367822647, "train_loss_llm": 0.3068710267543793, "grad_norm": 0.5427872538566589, "global_step": 2520, "epoch": 10, "lr": 0.009997393148013513}
+{"train_loss": 0.37843385338783264, "train_loss_bc": 0.08086618781089783, "train_loss_llm": 0.2975676655769348, "grad_norm": 0.1514420360326767, "global_step": 2521, "epoch": 10, "lr": 0.009997393148013513}
+{"train_loss": 0.3510572910308838, "train_loss_bc": 0.08493251353502274, "train_loss_llm": 0.26612478494644165, "grad_norm": 0.24658244848251343, "global_step": 2522, "epoch": 10, "lr": 0.009997393148013513}
+{"train_loss": 0.3764829933643341, "train_loss_bc": 0.10391160100698471, "train_loss_llm": 0.2725713849067688, "grad_norm": 0.28333503007888794, "global_step": 2523, "epoch": 10, "lr": 0.009997393148013513}
+{"train_loss": 0.3270394504070282, "train_loss_bc": 0.0949949398636818, "train_loss_llm": 0.232044517993927, "grad_norm": 0.2761595547199249, "global_step": 2524, "epoch": 10, "lr": 0.009997393148013513}
+{"train_loss": 0.3426498770713806, "train_loss_bc": 0.08079908788204193, "train_loss_llm": 0.2618507742881775, "grad_norm": 0.331142783164978, "global_step": 2525, "epoch": 10, "lr": 0.009997393148013513}
+{"train_loss": 0.3581847548484802, "train_loss_bc": 0.07914512604475021, "train_loss_llm": 0.2790396213531494, "grad_norm": 0.4080905616283417, "global_step": 2526, "epoch": 10, "lr": 0.009997393148013513}
+{"train_loss": 0.332584023475647, "train_loss_bc": 0.0925438404083252, "train_loss_llm": 0.24004018306732178, "grad_norm": 0.4598636031150818, "global_step": 2527, "epoch": 10, "lr": 0.009997393148013513}
+{"train_loss": 0.35962963104248047, "train_loss_bc": 0.09493672847747803, "train_loss_llm": 0.26469290256500244, "grad_norm": 0.5168507099151611, "global_step": 2528, "epoch": 10, "lr": 0.009997376083417784}
+{"train_loss": 0.328987717628479, "train_loss_bc": 0.08048886060714722, "train_loss_llm": 0.2484988570213318, "grad_norm": 0.11574133485555649, "global_step": 2529, "epoch": 10, "lr": 0.009997376083417784}
+{"train_loss": 0.34615564346313477, "train_loss_bc": 0.06631116569042206, "train_loss_llm": 0.2798444628715515, "grad_norm": 0.20593658089637756, "global_step": 2530, "epoch": 10, "lr": 0.009997376083417784}
+{"train_loss": 0.31409841775894165, "train_loss_bc": 0.08267595618963242, "train_loss_llm": 0.23142245411872864, "grad_norm": 0.2556034326553345, "global_step": 2531, "epoch": 10, "lr": 0.009997376083417784}
+{"train_loss": 0.30739375948905945, "train_loss_bc": 0.06614813208580017, "train_loss_llm": 0.24124562740325928, "grad_norm": 0.2564292848110199, "global_step": 2532, "epoch": 10, "lr": 0.009997376083417784}
+{"train_loss": 0.3258053660392761, "train_loss_bc": 0.056498933583498, "train_loss_llm": 0.2693064212799072, "grad_norm": 0.37007051706314087, "global_step": 2533, "epoch": 10, "lr": 0.009997376083417784}
+{"train_loss": 0.3935356140136719, "train_loss_bc": 0.08986255526542664, "train_loss_llm": 0.30367305874824524, "grad_norm": 0.41632288694381714, "global_step": 2534, "epoch": 10, "lr": 0.009997376083417784}
+{"train_loss": 0.29855063557624817, "train_loss_bc": 0.06049581617116928, "train_loss_llm": 0.2380548119544983, "grad_norm": 0.46030721068382263, "global_step": 2535, "epoch": 10, "lr": 0.009997376083417784}
+{"train_loss": 0.3221321702003479, "train_loss_bc": 0.06883664429187775, "train_loss_llm": 0.25329551100730896, "grad_norm": 0.4820031523704529, "global_step": 2536, "epoch": 10, "lr": 0.009997358963165889}
+{"train_loss": 0.31248748302459717, "train_loss_bc": 0.05556131899356842, "train_loss_llm": 0.25692614912986755, "grad_norm": 0.07238239794969559, "global_step": 2537, "epoch": 10, "lr": 0.009997358963165889}
+{"train_loss": 0.32566991448402405, "train_loss_bc": 0.07519745826721191, "train_loss_llm": 0.25047245621681213, "grad_norm": 0.17624527215957642, "global_step": 2538, "epoch": 10, "lr": 0.009997358963165889}
+{"train_loss": 0.36648061871528625, "train_loss_bc": 0.064517080783844, "train_loss_llm": 0.30196353793144226, "grad_norm": 0.23231975734233856, "global_step": 2539, "epoch": 10, "lr": 0.009997358963165889}
+{"train_loss": 0.39574044942855835, "train_loss_bc": 0.08222199976444244, "train_loss_llm": 0.3135184645652771, "grad_norm": 0.3806550204753876, "global_step": 2540, "epoch": 10, "lr": 0.009997358963165889}
+{"train_loss": 0.40543487668037415, "train_loss_bc": 0.07567881792783737, "train_loss_llm": 0.3297560513019562, "grad_norm": 0.44162631034851074, "global_step": 2541, "epoch": 10, "lr": 0.009997358963165889}
+{"train_loss": 0.3507191240787506, "train_loss_bc": 0.059616584330797195, "train_loss_llm": 0.2911025285720825, "grad_norm": 0.5648102760314941, "global_step": 2542, "epoch": 10, "lr": 0.009997358963165889}
+{"train_loss": 0.29980766773223877, "train_loss_bc": 0.0712754875421524, "train_loss_llm": 0.22853219509124756, "grad_norm": 0.6502841114997864, "global_step": 2543, "epoch": 10, "lr": 0.009997358963165889}
+{"train_loss": 0.3238556385040283, "train_loss_bc": 0.07660020887851715, "train_loss_llm": 0.24725544452667236, "grad_norm": 0.767189085483551, "global_step": 2544, "epoch": 10, "lr": 0.009997341787258016}
+{"train_loss": 0.3914110064506531, "train_loss_bc": 0.06287084519863129, "train_loss_llm": 0.3285401463508606, "grad_norm": 0.1740299016237259, "global_step": 2545, "epoch": 10, "lr": 0.009997341787258016}
+{"train_loss": 0.3633723556995392, "train_loss_bc": 0.06499424576759338, "train_loss_llm": 0.2983781099319458, "grad_norm": 0.28912174701690674, "global_step": 2546, "epoch": 10, "lr": 0.009997341787258016}
+{"train_loss": 0.33467215299606323, "train_loss_bc": 0.052171602845191956, "train_loss_llm": 0.2825005352497101, "grad_norm": 0.46989309787750244, "global_step": 2547, "epoch": 10, "lr": 0.009997341787258016}
+{"train_loss": 0.31892937421798706, "train_loss_bc": 0.05914193391799927, "train_loss_llm": 0.2597874402999878, "grad_norm": 0.6589430570602417, "global_step": 2548, "epoch": 10, "lr": 0.009997341787258016}
+{"train_loss": 0.24512413144111633, "train_loss_bc": 0.046090662479400635, "train_loss_llm": 0.1990334689617157, "grad_norm": 0.7090895175933838, "global_step": 2549, "epoch": 10, "lr": 0.009997341787258016}
+{"train_loss": 0.34003880620002747, "train_loss_bc": 0.056919582188129425, "train_loss_llm": 0.28311923146247864, "grad_norm": 0.8966007828712463, "global_step": 2550, "epoch": 10, "lr": 0.009997341787258016}
+{"train_loss": 0.341020405292511, "train_loss_bc": 0.06005234271287918, "train_loss_llm": 0.2809680700302124, "grad_norm": 1.028676152229309, "global_step": 2551, "epoch": 10, "lr": 0.009997341787258016}
+{"train_loss": 0.3436736762523651, "train_loss_bc": 0.0658738985657692, "train_loss_llm": 0.2777997851371765, "grad_norm": 1.2248510122299194, "global_step": 2552, "epoch": 10, "lr": 0.00999732455569436}
+{"train_loss": 0.3378557860851288, "train_loss_bc": 0.04731002077460289, "train_loss_llm": 0.2905457615852356, "grad_norm": 0.25154978036880493, "global_step": 2553, "epoch": 10, "lr": 0.00999732455569436}
+{"train_loss": 0.328016459941864, "train_loss_bc": 0.062209464609622955, "train_loss_llm": 0.26580700278282166, "grad_norm": 0.29378047585487366, "global_step": 2554, "epoch": 10, "lr": 0.00999732455569436}
+{"train_loss": 0.34082379937171936, "train_loss_bc": 0.061627235263586044, "train_loss_llm": 0.279196560382843, "grad_norm": 0.3527950942516327, "global_step": 2555, "epoch": 10, "lr": 0.00999732455569436}
+{"train_loss": 0.33752256631851196, "train_loss_bc": 0.05769164860248566, "train_loss_llm": 0.2798309326171875, "grad_norm": 0.5243393778800964, "global_step": 2556, "epoch": 10, "lr": 0.00999732455569436}
+{"train_loss": 0.3712819516658783, "train_loss_bc": 0.0648186206817627, "train_loss_llm": 0.3064633309841156, "grad_norm": 0.6117833256721497, "global_step": 2557, "epoch": 10, "lr": 0.00999732455569436}
+{"train_loss": 0.40862563252449036, "train_loss_bc": 0.07275140285491943, "train_loss_llm": 0.3358742296695709, "grad_norm": 0.7171077132225037, "global_step": 2558, "epoch": 10, "lr": 0.00999732455569436}
+{"train_loss": 0.306150883436203, "train_loss_bc": 0.055749427527189255, "train_loss_llm": 0.25040146708488464, "grad_norm": 0.9142627716064453, "global_step": 2559, "epoch": 10, "lr": 0.00999732455569436}
+{"train_loss": 0.3554905652999878, "train_loss_bc": 0.05672668665647507, "train_loss_llm": 0.29876387119293213, "grad_norm": 1.201820969581604, "global_step": 2560, "epoch": 10, "lr": 0.009997307268475112}
+{"train_loss": 0.36457011103630066, "train_loss_bc": 0.06036705896258354, "train_loss_llm": 0.304203063249588, "grad_norm": 0.2155224233865738, "global_step": 2561, "epoch": 10, "lr": 0.009997307268475112}
+{"train_loss": 0.3850523829460144, "train_loss_bc": 0.07208538055419922, "train_loss_llm": 0.3129670023918152, "grad_norm": 0.38580241799354553, "global_step": 2562, "epoch": 10, "lr": 0.009997307268475112}
+{"train_loss": 0.38745060563087463, "train_loss_bc": 0.054342154413461685, "train_loss_llm": 0.33310845494270325, "grad_norm": 0.5256523489952087, "global_step": 2563, "epoch": 10, "lr": 0.009997307268475112}
+{"train_loss": 0.3231697678565979, "train_loss_bc": 0.05714649334549904, "train_loss_llm": 0.26602327823638916, "grad_norm": 0.6102420091629028, "global_step": 2564, "epoch": 10, "lr": 0.009997307268475112}
+{"train_loss": 0.3407879173755646, "train_loss_bc": 0.05421321839094162, "train_loss_llm": 0.28657469153404236, "grad_norm": 1.1681917905807495, "global_step": 2565, "epoch": 10, "lr": 0.009997307268475112}
+{"train_loss": 0.34291359782218933, "train_loss_bc": 0.05375590920448303, "train_loss_llm": 0.2891576886177063, "grad_norm": 1.2778115272521973, "global_step": 2566, "epoch": 10, "lr": 0.009997307268475112}
+{"train_loss": 0.28207558393478394, "train_loss_bc": 0.06426221132278442, "train_loss_llm": 0.2178133726119995, "grad_norm": 1.3108371496200562, "global_step": 2567, "epoch": 10, "lr": 0.009997307268475112}
+{"train_loss": 0.2898491322994232, "train_loss_bc": 0.05116073414683342, "train_loss_llm": 0.2386884093284607, "grad_norm": 1.4511827230453491, "global_step": 2568, "epoch": 10, "lr": 0.009997289925600464}
+{"train_loss": 0.34752196073532104, "train_loss_bc": 0.06113847345113754, "train_loss_llm": 0.2863834798336029, "grad_norm": 0.11057419329881668, "global_step": 2569, "epoch": 10, "lr": 0.009997289925600464}
+{"train_loss": 0.27829137444496155, "train_loss_bc": 0.0477260984480381, "train_loss_llm": 0.23056527972221375, "grad_norm": 0.1656438410282135, "global_step": 2570, "epoch": 10, "lr": 0.009997289925600464}
+{"train_loss": 0.3597075641155243, "train_loss_bc": 0.05988827720284462, "train_loss_llm": 0.29981929063796997, "grad_norm": 0.2342677116394043, "global_step": 2571, "epoch": 10, "lr": 0.009997289925600464}
+{"train_loss": 0.322998970746994, "train_loss_bc": 0.05586980655789375, "train_loss_llm": 0.26712915301322937, "grad_norm": 0.313962459564209, "global_step": 2572, "epoch": 10, "lr": 0.009997289925600464}
+{"train_loss": 0.3820619583129883, "train_loss_bc": 0.03998417407274246, "train_loss_llm": 0.3420777916908264, "grad_norm": 0.34855762124061584, "global_step": 2573, "epoch": 10, "lr": 0.009997289925600464}
+{"train_loss": 0.3328428566455841, "train_loss_bc": 0.061926018446683884, "train_loss_llm": 0.2709168493747711, "grad_norm": 0.38666853308677673, "global_step": 2574, "epoch": 10, "lr": 0.009997289925600464}
+{"train_loss": 0.3411802649497986, "train_loss_bc": 0.06391289830207825, "train_loss_llm": 0.27726736664772034, "grad_norm": 0.4176402688026428, "global_step": 2575, "epoch": 10, "lr": 0.009997289925600464}
+{"train_loss": 0.32621532678604126, "train_loss_bc": 0.06397958844900131, "train_loss_llm": 0.26223573088645935, "grad_norm": 0.4594179689884186, "global_step": 2576, "epoch": 10, "lr": 0.00999727252707061}
+{"train_loss": 0.3617638647556305, "train_loss_bc": 0.061297256499528885, "train_loss_llm": 0.3004665970802307, "grad_norm": 0.1041528582572937, "global_step": 2577, "epoch": 10, "lr": 0.00999727252707061}
+{"train_loss": 0.3413517475128174, "train_loss_bc": 0.05932335555553436, "train_loss_llm": 0.2820283770561218, "grad_norm": 0.17926090955734253, "global_step": 2578, "epoch": 10, "lr": 0.00999727252707061}
+{"train_loss": 0.3788067102432251, "train_loss_bc": 0.064908966422081, "train_loss_llm": 0.3138977587223053, "grad_norm": 0.22810068726539612, "global_step": 2579, "epoch": 10, "lr": 0.00999727252707061}
+{"train_loss": 0.37223339080810547, "train_loss_bc": 0.06899400055408478, "train_loss_llm": 0.3032393753528595, "grad_norm": 0.2903779447078705, "global_step": 2580, "epoch": 10, "lr": 0.00999727252707061}
+{"train_loss": 0.39328035712242126, "train_loss_bc": 0.08006390184164047, "train_loss_llm": 0.3132164478302002, "grad_norm": 0.3525373637676239, "global_step": 2581, "epoch": 10, "lr": 0.00999727252707061}
+{"train_loss": 0.34727638959884644, "train_loss_bc": 0.06271197646856308, "train_loss_llm": 0.28456440567970276, "grad_norm": 0.4912543296813965, "global_step": 2582, "epoch": 10, "lr": 0.00999727252707061}
+{"train_loss": 0.2904983460903168, "train_loss_bc": 0.05744028463959694, "train_loss_llm": 0.23305806517601013, "grad_norm": 0.5194831490516663, "global_step": 2583, "epoch": 10, "lr": 0.00999727252707061}
+{"train_loss": 0.3702844977378845, "train_loss_bc": 0.07376968860626221, "train_loss_llm": 0.2965148091316223, "grad_norm": 0.5631183385848999, "global_step": 2584, "epoch": 10, "lr": 0.009997255072885743}
+{"train_loss": 0.33848661184310913, "train_loss_bc": 0.06255824863910675, "train_loss_llm": 0.2759283483028412, "grad_norm": 0.06724154949188232, "global_step": 2585, "epoch": 10, "lr": 0.009997255072885743}
+{"train_loss": 0.3444887399673462, "train_loss_bc": 0.05848390609025955, "train_loss_llm": 0.28600484132766724, "grad_norm": 0.19656997919082642, "global_step": 2586, "epoch": 10, "lr": 0.009997255072885743}
+{"train_loss": 0.3867991268634796, "train_loss_bc": 0.06876352429389954, "train_loss_llm": 0.3180356025695801, "grad_norm": 0.2893802225589752, "global_step": 2587, "epoch": 10, "lr": 0.009997255072885743}
+{"train_loss": 0.34008899331092834, "train_loss_bc": 0.06249895691871643, "train_loss_llm": 0.2775900363922119, "grad_norm": 0.4682156443595886, "global_step": 2588, "epoch": 10, "lr": 0.009997255072885743}
+{"train_loss": 0.34854409098625183, "train_loss_bc": 0.06810736656188965, "train_loss_llm": 0.2804367244243622, "grad_norm": 0.5303833484649658, "global_step": 2589, "epoch": 10, "lr": 0.009997255072885743}
+{"train_loss": 0.33686232566833496, "train_loss_bc": 0.05976666510105133, "train_loss_llm": 0.2770956754684448, "grad_norm": 0.6016151309013367, "global_step": 2590, "epoch": 10, "lr": 0.009997255072885743}
+{"train_loss": 0.4102312922477722, "train_loss_bc": 0.06960006058216095, "train_loss_llm": 0.34063124656677246, "grad_norm": 0.6740877628326416, "global_step": 2591, "epoch": 10, "lr": 0.009997255072885743}
+{"train_loss": 0.3267512619495392, "train_loss_bc": 0.06066787242889404, "train_loss_llm": 0.26608338952064514, "grad_norm": 0.7192500829696655, "global_step": 2592, "epoch": 10, "lr": 0.009997237563046057}
+{"train_loss": 0.3077367842197418, "train_loss_bc": 0.06399133801460266, "train_loss_llm": 0.24374544620513916, "grad_norm": 0.05932630971074104, "global_step": 2593, "epoch": 10, "lr": 0.009997237563046057}
+{"train_loss": 0.3885217308998108, "train_loss_bc": 0.0768919438123703, "train_loss_llm": 0.3116298019886017, "grad_norm": 0.15357030928134918, "global_step": 2594, "epoch": 10, "lr": 0.009997237563046057}
+{"train_loss": 0.4080783426761627, "train_loss_bc": 0.07793841511011124, "train_loss_llm": 0.3301399350166321, "grad_norm": 0.19221985340118408, "global_step": 2595, "epoch": 10, "lr": 0.009997237563046057}
+{"train_loss": 0.3675162196159363, "train_loss_bc": 0.06217105686664581, "train_loss_llm": 0.30534517765045166, "grad_norm": 0.271663099527359, "global_step": 2596, "epoch": 10, "lr": 0.009997237563046057}
+{"train_loss": 0.28952330350875854, "train_loss_bc": 0.04922226816415787, "train_loss_llm": 0.24030104279518127, "grad_norm": 0.37456443905830383, "global_step": 2597, "epoch": 10, "lr": 0.009997237563046057}
+{"train_loss": 0.35927271842956543, "train_loss_bc": 0.07279258966445923, "train_loss_llm": 0.2864801287651062, "grad_norm": 0.43282267451286316, "global_step": 2598, "epoch": 10, "lr": 0.009997237563046057}
+{"train_loss": 0.342176616191864, "train_loss_bc": 0.06541666388511658, "train_loss_llm": 0.27675995230674744, "grad_norm": 0.5572900176048279, "global_step": 2599, "epoch": 10, "lr": 0.009997237563046057}
+{"train_loss": 0.3853234052658081, "train_loss_bc": 0.08176495134830475, "train_loss_llm": 0.30355843901634216, "grad_norm": 0.6503573656082153, "global_step": 2600, "epoch": 10, "lr": 0.009997219997551748}
+{"train_loss": 0.3918619155883789, "train_loss_bc": 0.08155401051044464, "train_loss_llm": 0.31030791997909546, "grad_norm": 0.11225014925003052, "global_step": 2601, "epoch": 10, "lr": 0.009997219997551748}
+{"train_loss": 0.30386751890182495, "train_loss_bc": 0.0549158900976181, "train_loss_llm": 0.24895161390304565, "grad_norm": 0.14439783990383148, "global_step": 2602, "epoch": 10, "lr": 0.009997219997551748}
+{"train_loss": 0.3082222044467926, "train_loss_bc": 0.06228787079453468, "train_loss_llm": 0.24593433737754822, "grad_norm": 0.20527565479278564, "global_step": 2603, "epoch": 10, "lr": 0.009997219997551748}
+{"train_loss": 0.3675854206085205, "train_loss_bc": 0.07163627445697784, "train_loss_llm": 0.29594913125038147, "grad_norm": 0.2813042998313904, "global_step": 2604, "epoch": 10, "lr": 0.009997219997551748}
+{"train_loss": 0.405704140663147, "train_loss_bc": 0.07896032929420471, "train_loss_llm": 0.32674381136894226, "grad_norm": 0.2886802554130554, "global_step": 2605, "epoch": 10, "lr": 0.009997219997551748}
+{"train_loss": 0.3679719567298889, "train_loss_bc": 0.07657422125339508, "train_loss_llm": 0.29139772057533264, "grad_norm": 0.3644402325153351, "global_step": 2606, "epoch": 10, "lr": 0.009997219997551748}
+{"train_loss": 0.376654714345932, "train_loss_bc": 0.08819755911827087, "train_loss_llm": 0.28845715522766113, "grad_norm": 0.41547247767448425, "global_step": 2607, "epoch": 10, "lr": 0.009997219997551748}
+{"train_loss": 0.28750479221343994, "train_loss_bc": 0.06184287369251251, "train_loss_llm": 0.22566193342208862, "grad_norm": 0.43058863282203674, "global_step": 2608, "epoch": 10, "lr": 0.00999720237640301}
+{"train_loss": 0.3709542751312256, "train_loss_bc": 0.07286526262760162, "train_loss_llm": 0.29808899760246277, "grad_norm": 0.07527662068605423, "global_step": 2609, "epoch": 10, "lr": 0.00999720237640301}
+{"train_loss": 0.3865865170955658, "train_loss_bc": 0.06671930104494095, "train_loss_llm": 0.31986722350120544, "grad_norm": 0.15172553062438965, "global_step": 2610, "epoch": 10, "lr": 0.00999720237640301}
+{"train_loss": 0.3803916573524475, "train_loss_bc": 0.06347858160734177, "train_loss_llm": 0.31691306829452515, "grad_norm": 0.21622245013713837, "global_step": 2611, "epoch": 10, "lr": 0.00999720237640301}
+{"train_loss": 0.30875229835510254, "train_loss_bc": 0.06271399557590485, "train_loss_llm": 0.2460383176803589, "grad_norm": 0.25533220171928406, "global_step": 2612, "epoch": 10, "lr": 0.00999720237640301}
+{"train_loss": 0.33026623725891113, "train_loss_bc": 0.0680927112698555, "train_loss_llm": 0.26217353343963623, "grad_norm": 0.3009016215801239, "global_step": 2613, "epoch": 10, "lr": 0.00999720237640301}
+{"train_loss": 0.3722600042819977, "train_loss_bc": 0.06850386410951614, "train_loss_llm": 0.30375614762306213, "grad_norm": 0.38595205545425415, "global_step": 2614, "epoch": 10, "lr": 0.00999720237640301}
+{"train_loss": 0.3640442192554474, "train_loss_bc": 0.0750647783279419, "train_loss_llm": 0.2889794409275055, "grad_norm": 0.4439040720462799, "global_step": 2615, "epoch": 10, "lr": 0.00999720237640301}
+{"train_loss": 0.29294323921203613, "train_loss_bc": 0.06992409378290176, "train_loss_llm": 0.22301915287971497, "grad_norm": 0.5223711133003235, "global_step": 2616, "epoch": 10, "lr": 0.009997184699600042}
+{"train_loss": 0.353370350574245, "train_loss_bc": 0.06768568605184555, "train_loss_llm": 0.29726895689964294, "grad_norm": 0.05163443461060524, "global_step": 2617, "epoch": 10, "lr": 0.009997184699600042, "train/cumulative_reward": 2.0176491398458247, "train/mean_score": 0.2510920845592875, "train/success_rate": 0.0, "test/cumulative_reward": 1.4642892369548703, "test/mean_score": 0.19872457927535925, "test/success_rate": 0.0, "val_loss": 0.3381126821041107, "train_action_mse_error": 0.08337508141994476}
+{"train_loss": 0.3969942331314087, "train_loss_bc": 0.07596833258867264, "train_loss_llm": 0.32102590799331665, "grad_norm": 0.14317788183689117, "global_step": 2618, "epoch": 11, "lr": 0.009997184699600042}
+{"train_loss": 0.3235830068588257, "train_loss_bc": 0.05982761085033417, "train_loss_llm": 0.2637554109096527, "grad_norm": 0.19518744945526123, "global_step": 2619, "epoch": 11, "lr": 0.009997184699600042}
+{"train_loss": 0.38261473178863525, "train_loss_bc": 0.08478454500436783, "train_loss_llm": 0.297830194234848, "grad_norm": 0.3202575445175171, "global_step": 2620, "epoch": 11, "lr": 0.009997184699600042}
+{"train_loss": 0.2887970507144928, "train_loss_bc": 0.05246717482805252, "train_loss_llm": 0.23632988333702087, "grad_norm": 0.3351008892059326, "global_step": 2621, "epoch": 11, "lr": 0.009997184699600042}
+{"train_loss": 0.2814512550830841, "train_loss_bc": 0.058740198612213135, "train_loss_llm": 0.22271105647087097, "grad_norm": 0.4953071177005768, "global_step": 2622, "epoch": 11, "lr": 0.009997184699600042}
+{"train_loss": 0.3258754312992096, "train_loss_bc": 0.07444291561841965, "train_loss_llm": 0.25143250823020935, "grad_norm": 0.6082348227500916, "global_step": 2623, "epoch": 11, "lr": 0.009997184699600042}
+{"train_loss": 0.37490105628967285, "train_loss_bc": 0.05576805770397186, "train_loss_llm": 0.3191330134868622, "grad_norm": 0.6237955689430237, "global_step": 2624, "epoch": 11, "lr": 0.00999716696714304}
+{"train_loss": 0.34283626079559326, "train_loss_bc": 0.06991608440876007, "train_loss_llm": 0.2729201912879944, "grad_norm": 0.09801185876131058, "global_step": 2625, "epoch": 11, "lr": 0.00999716696714304}
+{"train_loss": 0.3962455987930298, "train_loss_bc": 0.07199752330780029, "train_loss_llm": 0.3242480754852295, "grad_norm": 0.20008404552936554, "global_step": 2626, "epoch": 11, "lr": 0.00999716696714304}
+{"train_loss": 0.34030529856681824, "train_loss_bc": 0.08045323938131332, "train_loss_llm": 0.2598520517349243, "grad_norm": 0.2972160577774048, "global_step": 2627, "epoch": 11, "lr": 0.00999716696714304}
+{"train_loss": 0.3539486527442932, "train_loss_bc": 0.07714533805847168, "train_loss_llm": 0.27680331468582153, "grad_norm": 0.37336641550064087, "global_step": 2628, "epoch": 11, "lr": 0.00999716696714304}
+{"train_loss": 0.4180057644844055, "train_loss_bc": 0.06710837781429291, "train_loss_llm": 0.3508974015712738, "grad_norm": 0.47146305441856384, "global_step": 2629, "epoch": 11, "lr": 0.00999716696714304}
+{"train_loss": 0.33439189195632935, "train_loss_bc": 0.07241067290306091, "train_loss_llm": 0.26198121905326843, "grad_norm": 0.5876526832580566, "global_step": 2630, "epoch": 11, "lr": 0.00999716696714304}
+{"train_loss": 0.2930907905101776, "train_loss_bc": 0.06294817477464676, "train_loss_llm": 0.23014262318611145, "grad_norm": 0.66302889585495, "global_step": 2631, "epoch": 11, "lr": 0.00999716696714304}
+{"train_loss": 0.30525684356689453, "train_loss_bc": 0.05700854957103729, "train_loss_llm": 0.24824827909469604, "grad_norm": 0.7565256953239441, "global_step": 2632, "epoch": 11, "lr": 0.009997149179032197}
+{"train_loss": 0.39221417903900146, "train_loss_bc": 0.0829877108335495, "train_loss_llm": 0.30922645330429077, "grad_norm": 0.062252227216959, "global_step": 2633, "epoch": 11, "lr": 0.009997149179032197}
+{"train_loss": 0.35673758387565613, "train_loss_bc": 0.07125958055257797, "train_loss_llm": 0.28547799587249756, "grad_norm": 0.1259697526693344, "global_step": 2634, "epoch": 11, "lr": 0.009997149179032197}
+{"train_loss": 0.3445684313774109, "train_loss_bc": 0.08266740292310715, "train_loss_llm": 0.26190102100372314, "grad_norm": 0.21494509279727936, "global_step": 2635, "epoch": 11, "lr": 0.009997149179032197}
+{"train_loss": 0.43560105562210083, "train_loss_bc": 0.09436751902103424, "train_loss_llm": 0.3412335216999054, "grad_norm": 0.2611934244632721, "global_step": 2636, "epoch": 11, "lr": 0.009997149179032197}
+{"train_loss": 0.39836549758911133, "train_loss_bc": 0.08331266045570374, "train_loss_llm": 0.3150528371334076, "grad_norm": 0.3290800452232361, "global_step": 2637, "epoch": 11, "lr": 0.009997149179032197}
+{"train_loss": 0.3567938804626465, "train_loss_bc": 0.06791689246892929, "train_loss_llm": 0.2888769805431366, "grad_norm": 0.4810461103916168, "global_step": 2638, "epoch": 11, "lr": 0.009997149179032197}
+{"train_loss": 0.3533308804035187, "train_loss_bc": 0.08189785480499268, "train_loss_llm": 0.271433025598526, "grad_norm": 0.5713730454444885, "global_step": 2639, "epoch": 11, "lr": 0.009997149179032197}
+{"train_loss": 0.3651939034461975, "train_loss_bc": 0.08257629722356796, "train_loss_llm": 0.28261759877204895, "grad_norm": 0.718949556350708, "global_step": 2640, "epoch": 11, "lr": 0.00999713133526772}
+{"train_loss": 0.2743477523326874, "train_loss_bc": 0.06191113218665123, "train_loss_llm": 0.21243661642074585, "grad_norm": 0.09258983284235, "global_step": 2641, "epoch": 11, "lr": 0.00999713133526772}
+{"train_loss": 0.3873148560523987, "train_loss_bc": 0.07555423676967621, "train_loss_llm": 0.3117606043815613, "grad_norm": 0.10520685464143753, "global_step": 2642, "epoch": 11, "lr": 0.00999713133526772}
+{"train_loss": 0.4203406572341919, "train_loss_bc": 0.09760047495365143, "train_loss_llm": 0.3227401673793793, "grad_norm": 0.15198199450969696, "global_step": 2643, "epoch": 11, "lr": 0.00999713133526772}
+{"train_loss": 0.3283536732196808, "train_loss_bc": 0.08540210872888565, "train_loss_llm": 0.24295157194137573, "grad_norm": 0.2210128903388977, "global_step": 2644, "epoch": 11, "lr": 0.00999713133526772}
+{"train_loss": 0.3613305389881134, "train_loss_bc": 0.06925221532583237, "train_loss_llm": 0.29207831621170044, "grad_norm": 0.3303922414779663, "global_step": 2645, "epoch": 11, "lr": 0.00999713133526772}
+{"train_loss": 0.33891767263412476, "train_loss_bc": 0.06775043904781342, "train_loss_llm": 0.27116721868515015, "grad_norm": 0.412198930978775, "global_step": 2646, "epoch": 11, "lr": 0.00999713133526772}
+{"train_loss": 0.34655439853668213, "train_loss_bc": 0.06379085034132004, "train_loss_llm": 0.2827635407447815, "grad_norm": 0.5412580966949463, "global_step": 2647, "epoch": 11, "lr": 0.00999713133526772}
+{"train_loss": 0.30803462862968445, "train_loss_bc": 0.05829751491546631, "train_loss_llm": 0.24973711371421814, "grad_norm": 0.6433919668197632, "global_step": 2648, "epoch": 11, "lr": 0.0099971134358498}
+{"train_loss": 0.32362955808639526, "train_loss_bc": 0.07300274074077606, "train_loss_llm": 0.250626802444458, "grad_norm": 0.13140414655208588, "global_step": 2649, "epoch": 11, "lr": 0.0099971134358498}
+{"train_loss": 0.3117165267467499, "train_loss_bc": 0.060571081936359406, "train_loss_llm": 0.25114545226097107, "grad_norm": 0.17451538145542145, "global_step": 2650, "epoch": 11, "lr": 0.0099971134358498}
+{"train_loss": 0.34434592723846436, "train_loss_bc": 0.08426978439092636, "train_loss_llm": 0.2600761353969574, "grad_norm": 0.25718218088150024, "global_step": 2651, "epoch": 11, "lr": 0.0099971134358498}
+{"train_loss": 0.3570694923400879, "train_loss_bc": 0.07665403187274933, "train_loss_llm": 0.28041544556617737, "grad_norm": 0.18655413389205933, "global_step": 2652, "epoch": 11, "lr": 0.0099971134358498}
+{"train_loss": 0.3769094944000244, "train_loss_bc": 0.07857499271631241, "train_loss_llm": 0.2983345091342926, "grad_norm": 0.25000235438346863, "global_step": 2653, "epoch": 11, "lr": 0.0099971134358498}
+{"train_loss": 0.3226701319217682, "train_loss_bc": 0.07681626081466675, "train_loss_llm": 0.24585387110710144, "grad_norm": 0.2959825098514557, "global_step": 2654, "epoch": 11, "lr": 0.0099971134358498}
+{"train_loss": 0.33143413066864014, "train_loss_bc": 0.0783674567937851, "train_loss_llm": 0.25306665897369385, "grad_norm": 0.3673529028892517, "global_step": 2655, "epoch": 11, "lr": 0.0099971134358498}
+{"train_loss": 0.36335432529449463, "train_loss_bc": 0.07894906401634216, "train_loss_llm": 0.28440526127815247, "grad_norm": 0.4537571966648102, "global_step": 2656, "epoch": 11, "lr": 0.009997095480778637}
+{"train_loss": 0.31601327657699585, "train_loss_bc": 0.06079740449786186, "train_loss_llm": 0.2552158832550049, "grad_norm": 0.13455399870872498, "global_step": 2657, "epoch": 11, "lr": 0.009997095480778637}
+{"train_loss": 0.31913086771965027, "train_loss_bc": 0.06305938959121704, "train_loss_llm": 0.2560714781284332, "grad_norm": 0.10738339275121689, "global_step": 2658, "epoch": 11, "lr": 0.009997095480778637}
+{"train_loss": 0.2855570614337921, "train_loss_bc": 0.058711402118206024, "train_loss_llm": 0.2268456518650055, "grad_norm": 0.15382058918476105, "global_step": 2659, "epoch": 11, "lr": 0.009997095480778637}
+{"train_loss": 0.3743564784526825, "train_loss_bc": 0.05797308683395386, "train_loss_llm": 0.31638339161872864, "grad_norm": 0.16407416760921478, "global_step": 2660, "epoch": 11, "lr": 0.009997095480778637}
+{"train_loss": 0.3535670042037964, "train_loss_bc": 0.06944157183170319, "train_loss_llm": 0.2841254472732544, "grad_norm": 0.14576831459999084, "global_step": 2661, "epoch": 11, "lr": 0.009997095480778637}
+{"train_loss": 0.32283467054367065, "train_loss_bc": 0.07788579165935516, "train_loss_llm": 0.2449488639831543, "grad_norm": 0.15982091426849365, "global_step": 2662, "epoch": 11, "lr": 0.009997095480778637}
+{"train_loss": 0.33314767479896545, "train_loss_bc": 0.06733844429254532, "train_loss_llm": 0.26580923795700073, "grad_norm": 0.227852001786232, "global_step": 2663, "epoch": 11, "lr": 0.009997095480778637}
+{"train_loss": 0.3740466237068176, "train_loss_bc": 0.08461595326662064, "train_loss_llm": 0.2894306778907776, "grad_norm": 0.27072983980178833, "global_step": 2664, "epoch": 11, "lr": 0.009997077470054435}
+{"train_loss": 0.36339157819747925, "train_loss_bc": 0.07171116769313812, "train_loss_llm": 0.2916804254055023, "grad_norm": 0.03836476057767868, "global_step": 2665, "epoch": 11, "lr": 0.009997077470054435}
+{"train_loss": 0.3720797896385193, "train_loss_bc": 0.059313878417015076, "train_loss_llm": 0.3127659261226654, "grad_norm": 0.09899246692657471, "global_step": 2666, "epoch": 11, "lr": 0.009997077470054435}
+{"train_loss": 0.30773088335990906, "train_loss_bc": 0.0538407638669014, "train_loss_llm": 0.25389012694358826, "grad_norm": 0.19495588541030884, "global_step": 2667, "epoch": 11, "lr": 0.009997077470054435}
+{"train_loss": 0.28741389513015747, "train_loss_bc": 0.05433270335197449, "train_loss_llm": 0.23308119177818298, "grad_norm": 0.19208994507789612, "global_step": 2668, "epoch": 11, "lr": 0.009997077470054435}
+{"train_loss": 0.3610195517539978, "train_loss_bc": 0.06507192552089691, "train_loss_llm": 0.2959476113319397, "grad_norm": 0.2489340752363205, "global_step": 2669, "epoch": 11, "lr": 0.009997077470054435}
+{"train_loss": 0.38173025846481323, "train_loss_bc": 0.07479925453662872, "train_loss_llm": 0.3069309890270233, "grad_norm": 0.2792942225933075, "global_step": 2670, "epoch": 11, "lr": 0.009997077470054435}
+{"train_loss": 0.2974097728729248, "train_loss_bc": 0.053367435932159424, "train_loss_llm": 0.24404233694076538, "grad_norm": 0.38223063945770264, "global_step": 2671, "epoch": 11, "lr": 0.009997077470054435}
+{"train_loss": 0.37567901611328125, "train_loss_bc": 0.07277552783489227, "train_loss_llm": 0.30290350317955017, "grad_norm": 0.495976984500885, "global_step": 2672, "epoch": 11, "lr": 0.009997059403677393}
+{"train_loss": 0.3975508511066437, "train_loss_bc": 0.056812554597854614, "train_loss_llm": 0.34073829650878906, "grad_norm": 0.08001452684402466, "global_step": 2673, "epoch": 11, "lr": 0.009997059403677393}
+{"train_loss": 0.37612053751945496, "train_loss_bc": 0.06860003620386124, "train_loss_llm": 0.3075205087661743, "grad_norm": 0.1922682374715805, "global_step": 2674, "epoch": 11, "lr": 0.009997059403677393}
+{"train_loss": 0.34346622228622437, "train_loss_bc": 0.0653667002916336, "train_loss_llm": 0.27809953689575195, "grad_norm": 0.26995933055877686, "global_step": 2675, "epoch": 11, "lr": 0.009997059403677393}
+{"train_loss": 0.32196664810180664, "train_loss_bc": 0.048711203038692474, "train_loss_llm": 0.27325543761253357, "grad_norm": 0.3474441170692444, "global_step": 2676, "epoch": 11, "lr": 0.009997059403677393}
+{"train_loss": 0.34267282485961914, "train_loss_bc": 0.06417699158191681, "train_loss_llm": 0.2784958481788635, "grad_norm": 0.37796059250831604, "global_step": 2677, "epoch": 11, "lr": 0.009997059403677393}
+{"train_loss": 0.27914315462112427, "train_loss_bc": 0.061698637902736664, "train_loss_llm": 0.217444509267807, "grad_norm": 0.45403891801834106, "global_step": 2678, "epoch": 11, "lr": 0.009997059403677393}
+{"train_loss": 0.3616073727607727, "train_loss_bc": 0.06880423426628113, "train_loss_llm": 0.2928031384944916, "grad_norm": 0.5071911215782166, "global_step": 2679, "epoch": 11, "lr": 0.009997059403677393}
+{"train_loss": 0.3992246389389038, "train_loss_bc": 0.052645400166511536, "train_loss_llm": 0.34657925367355347, "grad_norm": 0.6045374274253845, "global_step": 2680, "epoch": 11, "lr": 0.00999704128164771}
+{"train_loss": 0.3660171627998352, "train_loss_bc": 0.07374963164329529, "train_loss_llm": 0.2922675311565399, "grad_norm": 0.09017672389745712, "global_step": 2681, "epoch": 11, "lr": 0.00999704128164771}
+{"train_loss": 0.3712085485458374, "train_loss_bc": 0.06147380918264389, "train_loss_llm": 0.3097347319126129, "grad_norm": 0.1514894813299179, "global_step": 2682, "epoch": 11, "lr": 0.00999704128164771}
+{"train_loss": 0.35109731554985046, "train_loss_bc": 0.06341495364904404, "train_loss_llm": 0.28768235445022583, "grad_norm": 0.2325054407119751, "global_step": 2683, "epoch": 11, "lr": 0.00999704128164771}
+{"train_loss": 0.314426988363266, "train_loss_bc": 0.05575307458639145, "train_loss_llm": 0.25867390632629395, "grad_norm": 0.32153841853141785, "global_step": 2684, "epoch": 11, "lr": 0.00999704128164771}
+{"train_loss": 0.3044041395187378, "train_loss_bc": 0.04990391805768013, "train_loss_llm": 0.25450021028518677, "grad_norm": 0.4148235619068146, "global_step": 2685, "epoch": 11, "lr": 0.00999704128164771}
+{"train_loss": 0.3570796251296997, "train_loss_bc": 0.07511671632528305, "train_loss_llm": 0.28196290135383606, "grad_norm": 0.5179058909416199, "global_step": 2686, "epoch": 11, "lr": 0.00999704128164771}
+{"train_loss": 0.36375367641448975, "train_loss_bc": 0.07392986118793488, "train_loss_llm": 0.28982383012771606, "grad_norm": 0.5628335475921631, "global_step": 2687, "epoch": 11, "lr": 0.00999704128164771}
+{"train_loss": 0.3504709005355835, "train_loss_bc": 0.06601856648921967, "train_loss_llm": 0.28445231914520264, "grad_norm": 0.6093239188194275, "global_step": 2688, "epoch": 11, "lr": 0.009997023103965592}
+{"train_loss": 0.4192284941673279, "train_loss_bc": 0.0733632817864418, "train_loss_llm": 0.3458652198314667, "grad_norm": 0.10916012525558472, "global_step": 2689, "epoch": 11, "lr": 0.009997023103965592}
+{"train_loss": 0.33377575874328613, "train_loss_bc": 0.05636044591665268, "train_loss_llm": 0.27741530537605286, "grad_norm": 0.14732417464256287, "global_step": 2690, "epoch": 11, "lr": 0.009997023103965592}
+{"train_loss": 0.3301047682762146, "train_loss_bc": 0.05687393248081207, "train_loss_llm": 0.27323082089424133, "grad_norm": 0.18810687959194183, "global_step": 2691, "epoch": 11, "lr": 0.009997023103965592}
+{"train_loss": 0.3491746783256531, "train_loss_bc": 0.07003545761108398, "train_loss_llm": 0.2791392207145691, "grad_norm": 0.287566602230072, "global_step": 2692, "epoch": 11, "lr": 0.009997023103965592}
+{"train_loss": 0.3124837875366211, "train_loss_bc": 0.06413732469081879, "train_loss_llm": 0.2483464777469635, "grad_norm": 0.4130261540412903, "global_step": 2693, "epoch": 11, "lr": 0.009997023103965592}
+{"train_loss": 0.34293216466903687, "train_loss_bc": 0.0649351179599762, "train_loss_llm": 0.27799704670906067, "grad_norm": 0.5257501006126404, "global_step": 2694, "epoch": 11, "lr": 0.009997023103965592}
+{"train_loss": 0.3147600293159485, "train_loss_bc": 0.05968193709850311, "train_loss_llm": 0.25507810711860657, "grad_norm": 0.5045022964477539, "global_step": 2695, "epoch": 11, "lr": 0.009997023103965592}
+{"train_loss": 0.3314242959022522, "train_loss_bc": 0.06086396798491478, "train_loss_llm": 0.2705603241920471, "grad_norm": 0.6211115717887878, "global_step": 2696, "epoch": 11, "lr": 0.009997004870631238}
+{"train_loss": 0.3137899339199066, "train_loss_bc": 0.051125477999448776, "train_loss_llm": 0.26266446709632874, "grad_norm": 0.11297841370105743, "global_step": 2697, "epoch": 11, "lr": 0.009997004870631238}
+{"train_loss": 0.3991764187812805, "train_loss_bc": 0.07100248336791992, "train_loss_llm": 0.3281739354133606, "grad_norm": 0.1290532797574997, "global_step": 2698, "epoch": 11, "lr": 0.009997004870631238}
+{"train_loss": 0.3382869064807892, "train_loss_bc": 0.06610625982284546, "train_loss_llm": 0.2721806466579437, "grad_norm": 0.231878861784935, "global_step": 2699, "epoch": 11, "lr": 0.009997004870631238}
+{"train_loss": 0.3319319188594818, "train_loss_bc": 0.06666475534439087, "train_loss_llm": 0.26526716351509094, "grad_norm": 0.3675262928009033, "global_step": 2700, "epoch": 11, "lr": 0.009997004870631238}
+{"train_loss": 0.3308933973312378, "train_loss_bc": 0.059424400329589844, "train_loss_llm": 0.27146899700164795, "grad_norm": 0.38061538338661194, "global_step": 2701, "epoch": 11, "lr": 0.009997004870631238}
+{"train_loss": 0.3508544862270355, "train_loss_bc": 0.0750059261918068, "train_loss_llm": 0.2758485674858093, "grad_norm": 0.484773725271225, "global_step": 2702, "epoch": 11, "lr": 0.009997004870631238}
+{"train_loss": 0.29028475284576416, "train_loss_bc": 0.05653586983680725, "train_loss_llm": 0.2337488830089569, "grad_norm": 0.6181318759918213, "global_step": 2703, "epoch": 11, "lr": 0.009997004870631238}
+{"train_loss": 0.3056334853172302, "train_loss_bc": 0.05447515845298767, "train_loss_llm": 0.25115832686424255, "grad_norm": 0.7587828636169434, "global_step": 2704, "epoch": 11, "lr": 0.009996986581644851}
+{"train_loss": 0.3343070447444916, "train_loss_bc": 0.07558084279298782, "train_loss_llm": 0.25872620940208435, "grad_norm": 0.09094658493995667, "global_step": 2705, "epoch": 11, "lr": 0.009996986581644851}
+{"train_loss": 0.34956854581832886, "train_loss_bc": 0.06998895108699799, "train_loss_llm": 0.2795795798301697, "grad_norm": 0.17266690731048584, "global_step": 2706, "epoch": 11, "lr": 0.009996986581644851}
+{"train_loss": 0.3317927122116089, "train_loss_bc": 0.06921054422855377, "train_loss_llm": 0.2625821530818939, "grad_norm": 0.24710166454315186, "global_step": 2707, "epoch": 11, "lr": 0.009996986581644851}
+{"train_loss": 0.32277464866638184, "train_loss_bc": 0.05402404069900513, "train_loss_llm": 0.2687506079673767, "grad_norm": 0.2871435880661011, "global_step": 2708, "epoch": 11, "lr": 0.009996986581644851}
+{"train_loss": 0.32977181673049927, "train_loss_bc": 0.07071568071842194, "train_loss_llm": 0.25905612111091614, "grad_norm": 0.41579392552375793, "global_step": 2709, "epoch": 11, "lr": 0.009996986581644851}
+{"train_loss": 0.33841225504875183, "train_loss_bc": 0.06664437055587769, "train_loss_llm": 0.27176788449287415, "grad_norm": 0.5050110220909119, "global_step": 2710, "epoch": 11, "lr": 0.009996986581644851}
+{"train_loss": 0.3841915428638458, "train_loss_bc": 0.06995522230863571, "train_loss_llm": 0.3142363131046295, "grad_norm": 0.515326738357544, "global_step": 2711, "epoch": 11, "lr": 0.009996986581644851}
+{"train_loss": 0.3793427050113678, "train_loss_bc": 0.07316220551729202, "train_loss_llm": 0.30618050694465637, "grad_norm": 0.5879392027854919, "global_step": 2712, "epoch": 11, "lr": 0.009996968237006637}
+{"train_loss": 0.4066751003265381, "train_loss_bc": 0.07130087912082672, "train_loss_llm": 0.33537420630455017, "grad_norm": 0.07186145335435867, "global_step": 2713, "epoch": 11, "lr": 0.009996968237006637}
+{"train_loss": 0.34852513670921326, "train_loss_bc": 0.07758790254592896, "train_loss_llm": 0.2709372341632843, "grad_norm": 0.11310886591672897, "global_step": 2714, "epoch": 11, "lr": 0.009996968237006637}
+{"train_loss": 0.34576845169067383, "train_loss_bc": 0.07728393375873566, "train_loss_llm": 0.26848453283309937, "grad_norm": 0.16393306851387024, "global_step": 2715, "epoch": 11, "lr": 0.009996968237006637}
+{"train_loss": 0.37454110383987427, "train_loss_bc": 0.08206237852573395, "train_loss_llm": 0.2924787402153015, "grad_norm": 0.31703490018844604, "global_step": 2716, "epoch": 11, "lr": 0.009996968237006637}
+{"train_loss": 0.2882978320121765, "train_loss_bc": 0.05334411561489105, "train_loss_llm": 0.23495373129844666, "grad_norm": 0.43112483620643616, "global_step": 2717, "epoch": 11, "lr": 0.009996968237006637}
+{"train_loss": 0.32656607031822205, "train_loss_bc": 0.060113031417131424, "train_loss_llm": 0.2664530277252197, "grad_norm": 0.5166171789169312, "global_step": 2718, "epoch": 11, "lr": 0.009996968237006637}
+{"train_loss": 0.40294089913368225, "train_loss_bc": 0.07526665180921555, "train_loss_llm": 0.3276742398738861, "grad_norm": 0.5795332193374634, "global_step": 2719, "epoch": 11, "lr": 0.009996968237006637}
+{"train_loss": 0.3571186065673828, "train_loss_bc": 0.08305872976779938, "train_loss_llm": 0.27405989170074463, "grad_norm": 0.5915583372116089, "global_step": 2720, "epoch": 11, "lr": 0.009996949836716798}
+{"train_loss": 0.29980120062828064, "train_loss_bc": 0.06304264068603516, "train_loss_llm": 0.23675855994224548, "grad_norm": 0.04558778181672096, "global_step": 2721, "epoch": 11, "lr": 0.009996949836716798}
+{"train_loss": 0.3898961544036865, "train_loss_bc": 0.06673164665699005, "train_loss_llm": 0.32316452264785767, "grad_norm": 0.12890224158763885, "global_step": 2722, "epoch": 11, "lr": 0.009996949836716798}
+{"train_loss": 0.3465709090232849, "train_loss_bc": 0.06898573040962219, "train_loss_llm": 0.2775851786136627, "grad_norm": 0.16801638901233673, "global_step": 2723, "epoch": 11, "lr": 0.009996949836716798}
+{"train_loss": 0.3271254897117615, "train_loss_bc": 0.07223191112279892, "train_loss_llm": 0.25489357113838196, "grad_norm": 0.23655138909816742, "global_step": 2724, "epoch": 11, "lr": 0.009996949836716798}
+{"train_loss": 0.359884649515152, "train_loss_bc": 0.07492492347955704, "train_loss_llm": 0.28495973348617554, "grad_norm": 0.2792172431945801, "global_step": 2725, "epoch": 11, "lr": 0.009996949836716798}
+{"train_loss": 0.3042425811290741, "train_loss_bc": 0.05580626800656319, "train_loss_llm": 0.24843630194664001, "grad_norm": 0.30021244287490845, "global_step": 2726, "epoch": 11, "lr": 0.009996949836716798}
+{"train_loss": 0.34368520975112915, "train_loss_bc": 0.07167603075504303, "train_loss_llm": 0.2720091938972473, "grad_norm": 0.3837486505508423, "global_step": 2727, "epoch": 11, "lr": 0.009996949836716798}
+{"train_loss": 0.29182517528533936, "train_loss_bc": 0.0665629655122757, "train_loss_llm": 0.22526222467422485, "grad_norm": 0.40827229619026184, "global_step": 2728, "epoch": 11, "lr": 0.009996931380775542}
+{"train_loss": 0.3924454152584076, "train_loss_bc": 0.06885764747858047, "train_loss_llm": 0.3235877752304077, "grad_norm": 0.15706376731395721, "global_step": 2729, "epoch": 11, "lr": 0.009996931380775542}
+{"train_loss": 0.3126726448535919, "train_loss_bc": 0.07035860419273376, "train_loss_llm": 0.24231404066085815, "grad_norm": 0.2922246754169464, "global_step": 2730, "epoch": 11, "lr": 0.009996931380775542}
+{"train_loss": 0.28197813034057617, "train_loss_bc": 0.06692885607481003, "train_loss_llm": 0.21504926681518555, "grad_norm": 0.2601446807384491, "global_step": 2731, "epoch": 11, "lr": 0.009996931380775542}
+{"train_loss": 0.3733507990837097, "train_loss_bc": 0.07766468822956085, "train_loss_llm": 0.29568609595298767, "grad_norm": 0.2953242361545563, "global_step": 2732, "epoch": 11, "lr": 0.009996931380775542}
+{"train_loss": 0.37279653549194336, "train_loss_bc": 0.08170835673809052, "train_loss_llm": 0.29108819365501404, "grad_norm": 0.3926243782043457, "global_step": 2733, "epoch": 11, "lr": 0.009996931380775542}
+{"train_loss": 0.3773704469203949, "train_loss_bc": 0.08536506444215775, "train_loss_llm": 0.29200538992881775, "grad_norm": 0.42441633343696594, "global_step": 2734, "epoch": 11, "lr": 0.009996931380775542}
+{"train_loss": 0.3371403217315674, "train_loss_bc": 0.06748002022504807, "train_loss_llm": 0.2696602940559387, "grad_norm": 0.4582213759422302, "global_step": 2735, "epoch": 11, "lr": 0.009996931380775542}
+{"train_loss": 0.36494672298431396, "train_loss_bc": 0.07717832177877426, "train_loss_llm": 0.2877683937549591, "grad_norm": 0.6248148679733276, "global_step": 2736, "epoch": 11, "lr": 0.00999691286918307}
+{"train_loss": 0.3442918658256531, "train_loss_bc": 0.0756971687078476, "train_loss_llm": 0.2685947120189667, "grad_norm": 0.16625243425369263, "global_step": 2737, "epoch": 11, "lr": 0.00999691286918307}
+{"train_loss": 0.36787843704223633, "train_loss_bc": 0.07314953953027725, "train_loss_llm": 0.2947289049625397, "grad_norm": 0.3121199905872345, "global_step": 2738, "epoch": 11, "lr": 0.00999691286918307}
+{"train_loss": 0.3287442624568939, "train_loss_bc": 0.0684240460395813, "train_loss_llm": 0.2603202164173126, "grad_norm": 0.39526066184043884, "global_step": 2739, "epoch": 11, "lr": 0.00999691286918307}
+{"train_loss": 0.31898510456085205, "train_loss_bc": 0.06653676927089691, "train_loss_llm": 0.25244835019111633, "grad_norm": 0.4484030306339264, "global_step": 2740, "epoch": 11, "lr": 0.00999691286918307}
+{"train_loss": 0.3239717483520508, "train_loss_bc": 0.07600562274456024, "train_loss_llm": 0.24796614050865173, "grad_norm": 0.470777690410614, "global_step": 2741, "epoch": 11, "lr": 0.00999691286918307}
+{"train_loss": 0.31378495693206787, "train_loss_bc": 0.058184560388326645, "train_loss_llm": 0.2556003928184509, "grad_norm": 0.6194630265235901, "global_step": 2742, "epoch": 11, "lr": 0.00999691286918307}
+{"train_loss": 0.31799471378326416, "train_loss_bc": 0.05785546451807022, "train_loss_llm": 0.26013925671577454, "grad_norm": 0.7617639303207397, "global_step": 2743, "epoch": 11, "lr": 0.00999691286918307}
+{"train_loss": 0.35980600118637085, "train_loss_bc": 0.08844839036464691, "train_loss_llm": 0.27135762572288513, "grad_norm": 0.838102400302887, "global_step": 2744, "epoch": 11, "lr": 0.009996894301939592}
+{"train_loss": 0.4012279212474823, "train_loss_bc": 0.08310336619615555, "train_loss_llm": 0.31812456250190735, "grad_norm": 0.21108408272266388, "global_step": 2745, "epoch": 11, "lr": 0.009996894301939592}
+{"train_loss": 0.35873913764953613, "train_loss_bc": 0.07163376361131668, "train_loss_llm": 0.28710538148880005, "grad_norm": 0.38683149218559265, "global_step": 2746, "epoch": 11, "lr": 0.009996894301939592}
+{"train_loss": 0.3252200186252594, "train_loss_bc": 0.061017487198114395, "train_loss_llm": 0.2642025351524353, "grad_norm": 0.44957104325294495, "global_step": 2747, "epoch": 11, "lr": 0.009996894301939592}
+{"train_loss": 0.2865721583366394, "train_loss_bc": 0.07216833531856537, "train_loss_llm": 0.21440383791923523, "grad_norm": 0.4868032932281494, "global_step": 2748, "epoch": 11, "lr": 0.009996894301939592}
+{"train_loss": 0.33294999599456787, "train_loss_bc": 0.06334754824638367, "train_loss_llm": 0.2696024477481842, "grad_norm": 0.5936172008514404, "global_step": 2749, "epoch": 11, "lr": 0.009996894301939592}
+{"train_loss": 0.3754262626171112, "train_loss_bc": 0.07445710897445679, "train_loss_llm": 0.3009691536426544, "grad_norm": 0.6652662754058838, "global_step": 2750, "epoch": 11, "lr": 0.009996894301939592}
+{"train_loss": 0.2965508699417114, "train_loss_bc": 0.06850318610668182, "train_loss_llm": 0.2280476689338684, "grad_norm": 0.7464697957038879, "global_step": 2751, "epoch": 11, "lr": 0.009996894301939592}
+{"train_loss": 0.35435324907302856, "train_loss_bc": 0.0748450830578804, "train_loss_llm": 0.27950817346572876, "grad_norm": 0.8233879804611206, "global_step": 2752, "epoch": 11, "lr": 0.009996875679045314}
+{"train_loss": 0.34849485754966736, "train_loss_bc": 0.06152699142694473, "train_loss_llm": 0.2869678735733032, "grad_norm": 0.1222381442785263, "global_step": 2753, "epoch": 11, "lr": 0.009996875679045314}
+{"train_loss": 0.29574742913246155, "train_loss_bc": 0.07562451809644699, "train_loss_llm": 0.22012290358543396, "grad_norm": 0.23954275250434875, "global_step": 2754, "epoch": 11, "lr": 0.009996875679045314}
+{"train_loss": 0.31807249784469604, "train_loss_bc": 0.06583066284656525, "train_loss_llm": 0.2522418200969696, "grad_norm": 0.2909080386161804, "global_step": 2755, "epoch": 11, "lr": 0.009996875679045314}
+{"train_loss": 0.3385359048843384, "train_loss_bc": 0.07014244794845581, "train_loss_llm": 0.26839345693588257, "grad_norm": 0.3401547074317932, "global_step": 2756, "epoch": 11, "lr": 0.009996875679045314}
+{"train_loss": 0.3472312092781067, "train_loss_bc": 0.07889583706855774, "train_loss_llm": 0.26833537220954895, "grad_norm": 0.46139800548553467, "global_step": 2757, "epoch": 11, "lr": 0.009996875679045314}
+{"train_loss": 0.3069140315055847, "train_loss_bc": 0.07173110544681549, "train_loss_llm": 0.23518294095993042, "grad_norm": 0.5038658380508423, "global_step": 2758, "epoch": 11, "lr": 0.009996875679045314}
+{"train_loss": 0.3212572932243347, "train_loss_bc": 0.05880739167332649, "train_loss_llm": 0.26244989037513733, "grad_norm": 0.5711096525192261, "global_step": 2759, "epoch": 11, "lr": 0.009996875679045314}
+{"train_loss": 0.2929561138153076, "train_loss_bc": 0.07207735627889633, "train_loss_llm": 0.2208787500858307, "grad_norm": 0.6867232918739319, "global_step": 2760, "epoch": 11, "lr": 0.009996857000500443}
+{"train_loss": 0.38325953483581543, "train_loss_bc": 0.08199599385261536, "train_loss_llm": 0.3012635409832001, "grad_norm": 0.040401097387075424, "global_step": 2761, "epoch": 11, "lr": 0.009996857000500443}
+{"train_loss": 0.3625487983226776, "train_loss_bc": 0.07239717245101929, "train_loss_llm": 0.2901516258716583, "grad_norm": 0.1051442101597786, "global_step": 2762, "epoch": 11, "lr": 0.009996857000500443}
+{"train_loss": 0.3909097909927368, "train_loss_bc": 0.05773017555475235, "train_loss_llm": 0.33317962288856506, "grad_norm": 0.12697549164295197, "global_step": 2763, "epoch": 11, "lr": 0.009996857000500443}
+{"train_loss": 0.31667184829711914, "train_loss_bc": 0.058828286826610565, "train_loss_llm": 0.257843554019928, "grad_norm": 0.18410955369472504, "global_step": 2764, "epoch": 11, "lr": 0.009996857000500443}
+{"train_loss": 0.3252297639846802, "train_loss_bc": 0.04963760823011398, "train_loss_llm": 0.2755921483039856, "grad_norm": 0.19792082905769348, "global_step": 2765, "epoch": 11, "lr": 0.009996857000500443}
+{"train_loss": 0.3493109345436096, "train_loss_bc": 0.06292980909347534, "train_loss_llm": 0.2863811254501343, "grad_norm": 0.20936721563339233, "global_step": 2766, "epoch": 11, "lr": 0.009996857000500443}
+{"train_loss": 0.4422808587551117, "train_loss_bc": 0.06416071206331253, "train_loss_llm": 0.37812015414237976, "grad_norm": 0.2849380075931549, "global_step": 2767, "epoch": 11, "lr": 0.009996857000500443}
+{"train_loss": 0.2796177566051483, "train_loss_bc": 0.05860074609518051, "train_loss_llm": 0.2210170030593872, "grad_norm": 0.2946035861968994, "global_step": 2768, "epoch": 11, "lr": 0.009996838266305185}
+{"train_loss": 0.3809966444969177, "train_loss_bc": 0.05970887839794159, "train_loss_llm": 0.32128778100013733, "grad_norm": 0.11166740953922272, "global_step": 2769, "epoch": 11, "lr": 0.009996838266305185}
+{"train_loss": 0.32982438802719116, "train_loss_bc": 0.0633905678987503, "train_loss_llm": 0.26643380522727966, "grad_norm": 0.13608506321907043, "global_step": 2770, "epoch": 11, "lr": 0.009996838266305185}
+{"train_loss": 0.3451260030269623, "train_loss_bc": 0.06933137774467468, "train_loss_llm": 0.2757946252822876, "grad_norm": 0.18221484124660492, "global_step": 2771, "epoch": 11, "lr": 0.009996838266305185}
+{"train_loss": 0.37416279315948486, "train_loss_bc": 0.05829687416553497, "train_loss_llm": 0.3158659338951111, "grad_norm": 0.2436102032661438, "global_step": 2772, "epoch": 11, "lr": 0.009996838266305185}
+{"train_loss": 0.40204596519470215, "train_loss_bc": 0.07022124528884888, "train_loss_llm": 0.33182471990585327, "grad_norm": 0.24364006519317627, "global_step": 2773, "epoch": 11, "lr": 0.009996838266305185}
+{"train_loss": 0.29339051246643066, "train_loss_bc": 0.06531917303800583, "train_loss_llm": 0.22807133197784424, "grad_norm": 0.23393934965133667, "global_step": 2774, "epoch": 11, "lr": 0.009996838266305185}
+{"train_loss": 0.3624686896800995, "train_loss_bc": 0.06841141730546951, "train_loss_llm": 0.29405727982521057, "grad_norm": 0.27598705887794495, "global_step": 2775, "epoch": 11, "lr": 0.009996838266305185}
+{"train_loss": 0.3363902270793915, "train_loss_bc": 0.06088777258992195, "train_loss_llm": 0.27550244331359863, "grad_norm": 0.32589420676231384, "global_step": 2776, "epoch": 11, "lr": 0.009996819476459752}
+{"train_loss": 0.3650472164154053, "train_loss_bc": 0.06300856173038483, "train_loss_llm": 0.30203863978385925, "grad_norm": 0.08611419051885605, "global_step": 2777, "epoch": 11, "lr": 0.009996819476459752}
+{"train_loss": 0.3139075040817261, "train_loss_bc": 0.06482745707035065, "train_loss_llm": 0.24908003211021423, "grad_norm": 0.12685541808605194, "global_step": 2778, "epoch": 11, "lr": 0.009996819476459752}
+{"train_loss": 0.3613668978214264, "train_loss_bc": 0.05835330858826637, "train_loss_llm": 0.3030135929584503, "grad_norm": 0.18131105601787567, "global_step": 2779, "epoch": 11, "lr": 0.009996819476459752}
+{"train_loss": 0.4321061372756958, "train_loss_bc": 0.0676024779677391, "train_loss_llm": 0.3645036518573761, "grad_norm": 0.2639344334602356, "global_step": 2780, "epoch": 11, "lr": 0.009996819476459752}
+{"train_loss": 0.3554748296737671, "train_loss_bc": 0.06543049961328506, "train_loss_llm": 0.2900443375110626, "grad_norm": 0.35613662004470825, "global_step": 2781, "epoch": 11, "lr": 0.009996819476459752}
+{"train_loss": 0.37543320655822754, "train_loss_bc": 0.0613529235124588, "train_loss_llm": 0.31408026814460754, "grad_norm": 0.4611281752586365, "global_step": 2782, "epoch": 11, "lr": 0.009996819476459752}
+{"train_loss": 0.329030305147171, "train_loss_bc": 0.06426939368247986, "train_loss_llm": 0.26476091146469116, "grad_norm": 0.546495795249939, "global_step": 2783, "epoch": 11, "lr": 0.009996819476459752}
+{"train_loss": 0.34905195236206055, "train_loss_bc": 0.060698844492435455, "train_loss_llm": 0.2883531153202057, "grad_norm": 0.6292555928230286, "global_step": 2784, "epoch": 11, "lr": 0.009996800630964352}
+{"train_loss": 0.37033334374427795, "train_loss_bc": 0.06670261174440384, "train_loss_llm": 0.3036307394504547, "grad_norm": 0.0755792111158371, "global_step": 2785, "epoch": 11, "lr": 0.009996800630964352}
+{"train_loss": 0.3522852659225464, "train_loss_bc": 0.05721975490450859, "train_loss_llm": 0.2950655221939087, "grad_norm": 0.1540002077817917, "global_step": 2786, "epoch": 11, "lr": 0.009996800630964352}
+{"train_loss": 0.33713382482528687, "train_loss_bc": 0.0636480301618576, "train_loss_llm": 0.27348580956459045, "grad_norm": 0.19017702341079712, "global_step": 2787, "epoch": 11, "lr": 0.009996800630964352}
+{"train_loss": 0.3400563597679138, "train_loss_bc": 0.056658945977687836, "train_loss_llm": 0.2833974063396454, "grad_norm": 0.27154746651649475, "global_step": 2788, "epoch": 11, "lr": 0.009996800630964352}
+{"train_loss": 0.3677423596382141, "train_loss_bc": 0.05869254842400551, "train_loss_llm": 0.3090498149394989, "grad_norm": 0.3143373727798462, "global_step": 2789, "epoch": 11, "lr": 0.009996800630964352}
+{"train_loss": 0.3678044080734253, "train_loss_bc": 0.07169340550899506, "train_loss_llm": 0.29611101746559143, "grad_norm": 0.37592482566833496, "global_step": 2790, "epoch": 11, "lr": 0.009996800630964352}
+{"train_loss": 0.38230177760124207, "train_loss_bc": 0.08279848843812943, "train_loss_llm": 0.29950329661369324, "grad_norm": 0.42411306500434875, "global_step": 2791, "epoch": 11, "lr": 0.009996800630964352}
+{"train_loss": 0.3939947485923767, "train_loss_bc": 0.07135916501283646, "train_loss_llm": 0.32263559103012085, "grad_norm": 0.46846240758895874, "global_step": 2792, "epoch": 11, "lr": 0.009996781729819194}
+{"train_loss": 0.32709962129592896, "train_loss_bc": 0.06198126822710037, "train_loss_llm": 0.2651183605194092, "grad_norm": 0.1142127737402916, "global_step": 2793, "epoch": 11, "lr": 0.009996781729819194}
+{"train_loss": 0.4137047529220581, "train_loss_bc": 0.06049095839262009, "train_loss_llm": 0.3532137870788574, "grad_norm": 0.2222072333097458, "global_step": 2794, "epoch": 11, "lr": 0.009996781729819194}
+{"train_loss": 0.3596149981021881, "train_loss_bc": 0.0622301921248436, "train_loss_llm": 0.2973847985267639, "grad_norm": 0.3055562973022461, "global_step": 2795, "epoch": 11, "lr": 0.009996781729819194}
+{"train_loss": 0.26511335372924805, "train_loss_bc": 0.05463765561580658, "train_loss_llm": 0.21047571301460266, "grad_norm": 0.36880823969841003, "global_step": 2796, "epoch": 11, "lr": 0.009996781729819194}
+{"train_loss": 0.3610924482345581, "train_loss_bc": 0.06426478922367096, "train_loss_llm": 0.29682764410972595, "grad_norm": 0.40333402156829834, "global_step": 2797, "epoch": 11, "lr": 0.009996781729819194}
+{"train_loss": 0.3742862641811371, "train_loss_bc": 0.06138608604669571, "train_loss_llm": 0.312900185585022, "grad_norm": 0.5518434643745422, "global_step": 2798, "epoch": 11, "lr": 0.009996781729819194}
+{"train_loss": 0.40485861897468567, "train_loss_bc": 0.07465080171823502, "train_loss_llm": 0.33020782470703125, "grad_norm": 0.5345631241798401, "global_step": 2799, "epoch": 11, "lr": 0.009996781729819194}
+{"train_loss": 0.3424261510372162, "train_loss_bc": 0.06841438263654709, "train_loss_llm": 0.2740117609500885, "grad_norm": 0.5927016139030457, "global_step": 2800, "epoch": 11, "lr": 0.009996762773024491}
+{"train_loss": 0.3248372972011566, "train_loss_bc": 0.06867626309394836, "train_loss_llm": 0.25616103410720825, "grad_norm": 0.08868857473134995, "global_step": 2801, "epoch": 11, "lr": 0.009996762773024491}
+{"train_loss": 0.3539164662361145, "train_loss_bc": 0.07263673841953278, "train_loss_llm": 0.28127971291542053, "grad_norm": 0.09729614853858948, "global_step": 2802, "epoch": 11, "lr": 0.009996762773024491}
+{"train_loss": 0.35041144490242004, "train_loss_bc": 0.06385388970375061, "train_loss_llm": 0.28655755519866943, "grad_norm": 0.1828470230102539, "global_step": 2803, "epoch": 11, "lr": 0.009996762773024491}
+{"train_loss": 0.3565221130847931, "train_loss_bc": 0.07296968251466751, "train_loss_llm": 0.2835524380207062, "grad_norm": 0.1719575673341751, "global_step": 2804, "epoch": 11, "lr": 0.009996762773024491}
+{"train_loss": 0.31535711884498596, "train_loss_bc": 0.061701465398073196, "train_loss_llm": 0.25365564227104187, "grad_norm": 0.24285703897476196, "global_step": 2805, "epoch": 11, "lr": 0.009996762773024491}
+{"train_loss": 0.3459148705005646, "train_loss_bc": 0.06879641860723495, "train_loss_llm": 0.277118444442749, "grad_norm": 0.27922776341438293, "global_step": 2806, "epoch": 11, "lr": 0.009996762773024491}
+{"train_loss": 0.3131297528743744, "train_loss_bc": 0.06126296892762184, "train_loss_llm": 0.25186678767204285, "grad_norm": 0.452442467212677, "global_step": 2807, "epoch": 11, "lr": 0.009996762773024491}
+{"train_loss": 0.3096831440925598, "train_loss_bc": 0.07395420968532562, "train_loss_llm": 0.235728919506073, "grad_norm": 0.5238564610481262, "global_step": 2808, "epoch": 11, "lr": 0.009996743760580448}
+{"train_loss": 0.34798532724380493, "train_loss_bc": 0.07587183266878128, "train_loss_llm": 0.27211350202560425, "grad_norm": 0.03352482616901398, "global_step": 2809, "epoch": 11, "lr": 0.009996743760580448}
+{"train_loss": 0.3094031810760498, "train_loss_bc": 0.06139146536588669, "train_loss_llm": 0.24801170825958252, "grad_norm": 0.13732972741127014, "global_step": 2810, "epoch": 11, "lr": 0.009996743760580448}
+{"train_loss": 0.29822492599487305, "train_loss_bc": 0.06199447810649872, "train_loss_llm": 0.23623046278953552, "grad_norm": 0.20071382820606232, "global_step": 2811, "epoch": 11, "lr": 0.009996743760580448}
+{"train_loss": 0.3758130371570587, "train_loss_bc": 0.06512690335512161, "train_loss_llm": 0.3106861412525177, "grad_norm": 0.30567479133605957, "global_step": 2812, "epoch": 11, "lr": 0.009996743760580448}
+{"train_loss": 0.33493658900260925, "train_loss_bc": 0.080889493227005, "train_loss_llm": 0.25404709577560425, "grad_norm": 0.31232351064682007, "global_step": 2813, "epoch": 11, "lr": 0.009996743760580448}
+{"train_loss": 0.33027011156082153, "train_loss_bc": 0.06440359354019165, "train_loss_llm": 0.2658665180206299, "grad_norm": 0.34440821409225464, "global_step": 2814, "epoch": 11, "lr": 0.009996743760580448}
+{"train_loss": 0.34859147667884827, "train_loss_bc": 0.07116537541151047, "train_loss_llm": 0.2774260938167572, "grad_norm": 0.39471864700317383, "global_step": 2815, "epoch": 11, "lr": 0.009996743760580448}
+{"train_loss": 0.3558775782585144, "train_loss_bc": 0.07568498700857162, "train_loss_llm": 0.2801925837993622, "grad_norm": 0.3910125494003296, "global_step": 2816, "epoch": 11, "lr": 0.009996724692487286}
+{"train_loss": 0.32131409645080566, "train_loss_bc": 0.08157843351364136, "train_loss_llm": 0.2397356629371643, "grad_norm": 0.055095843970775604, "global_step": 2817, "epoch": 11, "lr": 0.009996724692487286}
+{"train_loss": 0.32012057304382324, "train_loss_bc": 0.0780087485909462, "train_loss_llm": 0.24211183190345764, "grad_norm": 0.13797970116138458, "global_step": 2818, "epoch": 11, "lr": 0.009996724692487286}
+{"train_loss": 0.31088247895240784, "train_loss_bc": 0.062239207327365875, "train_loss_llm": 0.24864327907562256, "grad_norm": 0.2631951570510864, "global_step": 2819, "epoch": 11, "lr": 0.009996724692487286}
+{"train_loss": 0.3278707265853882, "train_loss_bc": 0.06039668619632721, "train_loss_llm": 0.2674740254878998, "grad_norm": 0.29108431935310364, "global_step": 2820, "epoch": 11, "lr": 0.009996724692487286}
+{"train_loss": 0.3914421796798706, "train_loss_bc": 0.07969595491886139, "train_loss_llm": 0.311746209859848, "grad_norm": 0.2741551995277405, "global_step": 2821, "epoch": 11, "lr": 0.009996724692487286}
+{"train_loss": 0.29856494069099426, "train_loss_bc": 0.06014563888311386, "train_loss_llm": 0.2384192943572998, "grad_norm": 0.3277268707752228, "global_step": 2822, "epoch": 11, "lr": 0.009996724692487286}
+{"train_loss": 0.2963240146636963, "train_loss_bc": 0.06250648200511932, "train_loss_llm": 0.23381751775741577, "grad_norm": 0.36474499106407166, "global_step": 2823, "epoch": 11, "lr": 0.009996724692487286}
+{"train_loss": 0.28211504220962524, "train_loss_bc": 0.054771315306425095, "train_loss_llm": 0.22734373807907104, "grad_norm": 0.4161570966243744, "global_step": 2824, "epoch": 11, "lr": 0.00999670556874521}
+{"train_loss": 0.27072831988334656, "train_loss_bc": 0.06203966215252876, "train_loss_llm": 0.2086886465549469, "grad_norm": 0.05494502931833267, "global_step": 2825, "epoch": 11, "lr": 0.00999670556874521}
+{"train_loss": 0.33931007981300354, "train_loss_bc": 0.0840199664235115, "train_loss_llm": 0.25529012084007263, "grad_norm": 0.13351468741893768, "global_step": 2826, "epoch": 11, "lr": 0.00999670556874521}
+{"train_loss": 0.2920134961605072, "train_loss_bc": 0.060258593410253525, "train_loss_llm": 0.23175489902496338, "grad_norm": 0.19716066122055054, "global_step": 2827, "epoch": 11, "lr": 0.00999670556874521}
+{"train_loss": 0.3219175934791565, "train_loss_bc": 0.08267034590244293, "train_loss_llm": 0.23924726247787476, "grad_norm": 0.27141061425209045, "global_step": 2828, "epoch": 11, "lr": 0.00999670556874521}
+{"train_loss": 0.3594888150691986, "train_loss_bc": 0.07986082881689072, "train_loss_llm": 0.2796279788017273, "grad_norm": 0.3525979518890381, "global_step": 2829, "epoch": 11, "lr": 0.00999670556874521}
+{"train_loss": 0.31023502349853516, "train_loss_bc": 0.06933553516864777, "train_loss_llm": 0.24089950323104858, "grad_norm": 0.42406266927719116, "global_step": 2830, "epoch": 11, "lr": 0.00999670556874521}
+{"train_loss": 0.31610584259033203, "train_loss_bc": 0.06453827768564224, "train_loss_llm": 0.2515675723552704, "grad_norm": 0.48225560784339905, "global_step": 2831, "epoch": 11, "lr": 0.00999670556874521}
+{"train_loss": 0.3034760355949402, "train_loss_bc": 0.06773050129413605, "train_loss_llm": 0.23574554920196533, "grad_norm": 0.5795939564704895, "global_step": 2832, "epoch": 11, "lr": 0.009996686389354435}
+{"train_loss": 0.3385820984840393, "train_loss_bc": 0.08567026257514954, "train_loss_llm": 0.25291183590888977, "grad_norm": 0.06285200268030167, "global_step": 2833, "epoch": 11, "lr": 0.009996686389354435}
+{"train_loss": 0.320274293422699, "train_loss_bc": 0.05312716215848923, "train_loss_llm": 0.26714712381362915, "grad_norm": 0.1798233687877655, "global_step": 2834, "epoch": 11, "lr": 0.009996686389354435}
+{"train_loss": 0.29662805795669556, "train_loss_bc": 0.06540681421756744, "train_loss_llm": 0.23122122883796692, "grad_norm": 0.2578154504299164, "global_step": 2835, "epoch": 11, "lr": 0.009996686389354435}
+{"train_loss": 0.3542226254940033, "train_loss_bc": 0.0637308657169342, "train_loss_llm": 0.2904917597770691, "grad_norm": 0.28206416964530945, "global_step": 2836, "epoch": 11, "lr": 0.009996686389354435}
+{"train_loss": 0.2809373140335083, "train_loss_bc": 0.07621391117572784, "train_loss_llm": 0.20472341775894165, "grad_norm": 0.3346822261810303, "global_step": 2837, "epoch": 11, "lr": 0.009996686389354435}
+{"train_loss": 0.39599108695983887, "train_loss_bc": 0.08785171061754227, "train_loss_llm": 0.3081393837928772, "grad_norm": 0.3390836715698242, "global_step": 2838, "epoch": 11, "lr": 0.009996686389354435}
+{"train_loss": 0.29459846019744873, "train_loss_bc": 0.05568040534853935, "train_loss_llm": 0.23891806602478027, "grad_norm": 0.4534403383731842, "global_step": 2839, "epoch": 11, "lr": 0.009996686389354435}
+{"train_loss": 0.2915036976337433, "train_loss_bc": 0.06475277990102768, "train_loss_llm": 0.226750910282135, "grad_norm": 0.7278244495391846, "global_step": 2840, "epoch": 11, "lr": 0.009996667154315176}
+{"train_loss": 0.33184483647346497, "train_loss_bc": 0.0807800367474556, "train_loss_llm": 0.25106480717658997, "grad_norm": 0.09551937878131866, "global_step": 2841, "epoch": 11, "lr": 0.009996667154315176}
+{"train_loss": 0.3087817430496216, "train_loss_bc": 0.05770228058099747, "train_loss_llm": 0.2510794699192047, "grad_norm": 0.20547357201576233, "global_step": 2842, "epoch": 11, "lr": 0.009996667154315176}
+{"train_loss": 0.34174102544784546, "train_loss_bc": 0.06859554350376129, "train_loss_llm": 0.27314549684524536, "grad_norm": 0.24928514659404755, "global_step": 2843, "epoch": 11, "lr": 0.009996667154315176}
+{"train_loss": 0.3488712012767792, "train_loss_bc": 0.06562629342079163, "train_loss_llm": 0.28324490785598755, "grad_norm": 0.2822261154651642, "global_step": 2844, "epoch": 11, "lr": 0.009996667154315176}
+{"train_loss": 0.32758715748786926, "train_loss_bc": 0.06863752007484436, "train_loss_llm": 0.2589496374130249, "grad_norm": 0.3448728919029236, "global_step": 2845, "epoch": 11, "lr": 0.009996667154315176}
+{"train_loss": 0.3422228693962097, "train_loss_bc": 0.07671882212162018, "train_loss_llm": 0.26550406217575073, "grad_norm": 0.3584318161010742, "global_step": 2846, "epoch": 11, "lr": 0.009996667154315176}
+{"train_loss": 0.3436669111251831, "train_loss_bc": 0.06923820078372955, "train_loss_llm": 0.27442869544029236, "grad_norm": 0.39075154066085815, "global_step": 2847, "epoch": 11, "lr": 0.009996667154315176}
+{"train_loss": 0.33379802107810974, "train_loss_bc": 0.06601297110319138, "train_loss_llm": 0.26778504252433777, "grad_norm": 0.444812148809433, "global_step": 2848, "epoch": 11, "lr": 0.009996647863627648}
+{"train_loss": 0.26764366030693054, "train_loss_bc": 0.061043135821819305, "train_loss_llm": 0.20660051703453064, "grad_norm": 0.11313661932945251, "global_step": 2849, "epoch": 11, "lr": 0.009996647863627648}
+{"train_loss": 0.2967146635055542, "train_loss_bc": 0.05332207679748535, "train_loss_llm": 0.24339258670806885, "grad_norm": 0.15899498760700226, "global_step": 2850, "epoch": 11, "lr": 0.009996647863627648}
+{"train_loss": 0.37011009454727173, "train_loss_bc": 0.07090667635202408, "train_loss_llm": 0.29920342564582825, "grad_norm": 0.22820769250392914, "global_step": 2851, "epoch": 11, "lr": 0.009996647863627648}
+{"train_loss": 0.29474279284477234, "train_loss_bc": 0.06919506192207336, "train_loss_llm": 0.22554773092269897, "grad_norm": 0.2609103322029114, "global_step": 2852, "epoch": 11, "lr": 0.009996647863627648}
+{"train_loss": 0.3320956826210022, "train_loss_bc": 0.0671691745519638, "train_loss_llm": 0.2649265229701996, "grad_norm": 0.2480502426624298, "global_step": 2853, "epoch": 11, "lr": 0.009996647863627648}
+{"train_loss": 0.38168951869010925, "train_loss_bc": 0.07624848932027817, "train_loss_llm": 0.3054410219192505, "grad_norm": 0.31296566128730774, "global_step": 2854, "epoch": 11, "lr": 0.009996647863627648}
+{"train_loss": 0.3419677701567401, "train_loss_bc": 0.07612639665603638, "train_loss_llm": 0.22015631198883057, "grad_norm": 0.4442185163497925, "global_step": 2855, "epoch": 11, "lr": 0.009996647863627648, "val_loss": 0.32961544394493103}
+{"train_loss": 0.40838950872421265, "train_loss_bc": 0.0908164530992508, "train_loss_llm": 0.31757307052612305, "grad_norm": 0.46221724152565, "global_step": 2856, "epoch": 12, "lr": 0.009996628517292062}
+{"train_loss": 0.31054210662841797, "train_loss_bc": 0.055545710027217865, "train_loss_llm": 0.2549963891506195, "grad_norm": 0.22736358642578125, "global_step": 2857, "epoch": 12, "lr": 0.009996628517292062}
+{"train_loss": 0.36153852939605713, "train_loss_bc": 0.06460605561733246, "train_loss_llm": 0.29693248867988586, "grad_norm": 0.23929794132709503, "global_step": 2858, "epoch": 12, "lr": 0.009996628517292062}
+{"train_loss": 0.3647260069847107, "train_loss_bc": 0.058945074677467346, "train_loss_llm": 0.30578091740608215, "grad_norm": 0.4315843880176544, "global_step": 2859, "epoch": 12, "lr": 0.009996628517292062}
+{"train_loss": 0.24629870057106018, "train_loss_bc": 0.04695025831460953, "train_loss_llm": 0.19934844970703125, "grad_norm": 0.5431888103485107, "global_step": 2860, "epoch": 12, "lr": 0.009996628517292062}
+{"train_loss": 0.3604740500450134, "train_loss_bc": 0.05159320682287216, "train_loss_llm": 0.30888083577156067, "grad_norm": 0.8131347894668579, "global_step": 2861, "epoch": 12, "lr": 0.009996628517292062}
+{"train_loss": 0.2881847321987152, "train_loss_bc": 0.06994426250457764, "train_loss_llm": 0.21824046969413757, "grad_norm": 0.8451345562934875, "global_step": 2862, "epoch": 12, "lr": 0.009996628517292062}
+{"train_loss": 0.3622012138366699, "train_loss_bc": 0.06399993598461151, "train_loss_llm": 0.2982012927532196, "grad_norm": 1.0188897848129272, "global_step": 2863, "epoch": 12, "lr": 0.009996628517292062}
+{"train_loss": 0.31228604912757874, "train_loss_bc": 0.05639227479696274, "train_loss_llm": 0.2558937668800354, "grad_norm": 0.9767652750015259, "global_step": 2864, "epoch": 12, "lr": 0.009996609115308634}
+{"train_loss": 0.3647175431251526, "train_loss_bc": 0.0660715252161026, "train_loss_llm": 0.2986460328102112, "grad_norm": 0.07871286571025848, "global_step": 2865, "epoch": 12, "lr": 0.009996609115308634}
+{"train_loss": 0.24918736517429352, "train_loss_bc": 0.05507974699139595, "train_loss_llm": 0.19410762190818787, "grad_norm": 0.19817081093788147, "global_step": 2866, "epoch": 12, "lr": 0.009996609115308634}
+{"train_loss": 0.2930980920791626, "train_loss_bc": 0.06585128605365753, "train_loss_llm": 0.22724682092666626, "grad_norm": 0.17228370904922485, "global_step": 2867, "epoch": 12, "lr": 0.009996609115308634}
+{"train_loss": 0.3144669234752655, "train_loss_bc": 0.05004998669028282, "train_loss_llm": 0.2644169330596924, "grad_norm": 0.21102274954319, "global_step": 2868, "epoch": 12, "lr": 0.009996609115308634}
+{"train_loss": 0.32974910736083984, "train_loss_bc": 0.055381014943122864, "train_loss_llm": 0.2743680775165558, "grad_norm": 0.26251259446144104, "global_step": 2869, "epoch": 12, "lr": 0.009996609115308634}
+{"train_loss": 0.32074955105781555, "train_loss_bc": 0.06811720132827759, "train_loss_llm": 0.25263234972953796, "grad_norm": 0.3125004172325134, "global_step": 2870, "epoch": 12, "lr": 0.009996609115308634}
+{"train_loss": 0.43669962882995605, "train_loss_bc": 0.07330213487148285, "train_loss_llm": 0.3633975088596344, "grad_norm": 0.3380751609802246, "global_step": 2871, "epoch": 12, "lr": 0.009996609115308634}
+{"train_loss": 0.32049328088760376, "train_loss_bc": 0.0494866818189621, "train_loss_llm": 0.27100661396980286, "grad_norm": 0.40027400851249695, "global_step": 2872, "epoch": 12, "lr": 0.009996589657677584}
+{"train_loss": 0.3282877206802368, "train_loss_bc": 0.06326384842395782, "train_loss_llm": 0.2650238871574402, "grad_norm": 0.0977926254272461, "global_step": 2873, "epoch": 12, "lr": 0.009996589657677584}
+{"train_loss": 0.35715892910957336, "train_loss_bc": 0.07760090380907059, "train_loss_llm": 0.2795580327510834, "grad_norm": 0.17610037326812744, "global_step": 2874, "epoch": 12, "lr": 0.009996589657677584}
+{"train_loss": 0.32324671745300293, "train_loss_bc": 0.06664461642503738, "train_loss_llm": 0.25660210847854614, "grad_norm": 0.19177021086215973, "global_step": 2875, "epoch": 12, "lr": 0.009996589657677584}
+{"train_loss": 0.36052656173706055, "train_loss_bc": 0.06821736693382263, "train_loss_llm": 0.2923091948032379, "grad_norm": 0.1409141719341278, "global_step": 2876, "epoch": 12, "lr": 0.009996589657677584}
+{"train_loss": 0.3750060796737671, "train_loss_bc": 0.06207956373691559, "train_loss_llm": 0.3129265010356903, "grad_norm": 0.23541265726089478, "global_step": 2877, "epoch": 12, "lr": 0.009996589657677584}
+{"train_loss": 0.32568931579589844, "train_loss_bc": 0.07194879651069641, "train_loss_llm": 0.253740519285202, "grad_norm": 0.25437864661216736, "global_step": 2878, "epoch": 12, "lr": 0.009996589657677584}
+{"train_loss": 0.3005189895629883, "train_loss_bc": 0.05011635273694992, "train_loss_llm": 0.25040262937545776, "grad_norm": 0.2658950388431549, "global_step": 2879, "epoch": 12, "lr": 0.009996589657677584}
+{"train_loss": 0.36774110794067383, "train_loss_bc": 0.06459502875804901, "train_loss_llm": 0.3031460642814636, "grad_norm": 0.32504087686538696, "global_step": 2880, "epoch": 12, "lr": 0.009996570144399126}
+{"train_loss": 0.3413330614566803, "train_loss_bc": 0.08645623922348022, "train_loss_llm": 0.2548768222332001, "grad_norm": 0.052076734602451324, "global_step": 2881, "epoch": 12, "lr": 0.009996570144399126}
+{"train_loss": 0.3645533621311188, "train_loss_bc": 0.07617783546447754, "train_loss_llm": 0.28837552666664124, "grad_norm": 0.12739019095897675, "global_step": 2882, "epoch": 12, "lr": 0.009996570144399126}
+{"train_loss": 0.33530089259147644, "train_loss_bc": 0.05998248606920242, "train_loss_llm": 0.2753184139728546, "grad_norm": 0.2418162077665329, "global_step": 2883, "epoch": 12, "lr": 0.009996570144399126}
+{"train_loss": 0.3566766679286957, "train_loss_bc": 0.07125932723283768, "train_loss_llm": 0.2854173481464386, "grad_norm": 0.2658572494983673, "global_step": 2884, "epoch": 12, "lr": 0.009996570144399126}
+{"train_loss": 0.32398751378059387, "train_loss_bc": 0.07026714831590652, "train_loss_llm": 0.25372037291526794, "grad_norm": 0.3181171417236328, "global_step": 2885, "epoch": 12, "lr": 0.009996570144399126}
+{"train_loss": 0.275787353515625, "train_loss_bc": 0.04694758728146553, "train_loss_llm": 0.22883975505828857, "grad_norm": 0.42361903190612793, "global_step": 2886, "epoch": 12, "lr": 0.009996570144399126}
+{"train_loss": 0.3951694965362549, "train_loss_bc": 0.06898204237222672, "train_loss_llm": 0.32618746161460876, "grad_norm": 0.48107314109802246, "global_step": 2887, "epoch": 12, "lr": 0.009996570144399126}
+{"train_loss": 0.3489529490470886, "train_loss_bc": 0.06449022889137268, "train_loss_llm": 0.28446272015571594, "grad_norm": 0.5491050481796265, "global_step": 2888, "epoch": 12, "lr": 0.009996550575473478}
+{"train_loss": 0.32092148065567017, "train_loss_bc": 0.06266443431377411, "train_loss_llm": 0.25825706124305725, "grad_norm": 0.09794574975967407, "global_step": 2889, "epoch": 12, "lr": 0.009996550575473478}
+{"train_loss": 0.3292578160762787, "train_loss_bc": 0.061013009399175644, "train_loss_llm": 0.26824480295181274, "grad_norm": 0.2788161039352417, "global_step": 2890, "epoch": 12, "lr": 0.009996550575473478}
+{"train_loss": 0.32474204897880554, "train_loss_bc": 0.06316547840833664, "train_loss_llm": 0.2615765631198883, "grad_norm": 0.33491671085357666, "global_step": 2891, "epoch": 12, "lr": 0.009996550575473478}
+{"train_loss": 0.34368816018104553, "train_loss_bc": 0.08017793297767639, "train_loss_llm": 0.26351022720336914, "grad_norm": 0.3912493884563446, "global_step": 2892, "epoch": 12, "lr": 0.009996550575473478}
+{"train_loss": 0.3680386245250702, "train_loss_bc": 0.07455555349588394, "train_loss_llm": 0.29348307847976685, "grad_norm": 0.45736852288246155, "global_step": 2893, "epoch": 12, "lr": 0.009996550575473478}
+{"train_loss": 0.36594250798225403, "train_loss_bc": 0.07832702994346619, "train_loss_llm": 0.28761547803878784, "grad_norm": 0.5669286251068115, "global_step": 2894, "epoch": 12, "lr": 0.009996550575473478}
+{"train_loss": 0.3282737135887146, "train_loss_bc": 0.06194954365491867, "train_loss_llm": 0.26632416248321533, "grad_norm": 0.7432724237442017, "global_step": 2895, "epoch": 12, "lr": 0.009996550575473478}
+{"train_loss": 0.43083620071411133, "train_loss_bc": 0.07090987265110016, "train_loss_llm": 0.35992631316185, "grad_norm": 0.7510389685630798, "global_step": 2896, "epoch": 12, "lr": 0.009996530950900856}
+{"train_loss": 0.309407114982605, "train_loss_bc": 0.07041207700967789, "train_loss_llm": 0.2389950454235077, "grad_norm": 0.13195550441741943, "global_step": 2897, "epoch": 12, "lr": 0.009996530950900856}
+{"train_loss": 0.3738836646080017, "train_loss_bc": 0.06446626037359238, "train_loss_llm": 0.30941739678382874, "grad_norm": 0.18133635818958282, "global_step": 2898, "epoch": 12, "lr": 0.009996530950900856}
+{"train_loss": 0.39832603931427, "train_loss_bc": 0.057361945509910583, "train_loss_llm": 0.34096407890319824, "grad_norm": 0.22758902609348297, "global_step": 2899, "epoch": 12, "lr": 0.009996530950900856}
+{"train_loss": 0.3590448498725891, "train_loss_bc": 0.07643401622772217, "train_loss_llm": 0.28261083364486694, "grad_norm": 0.2986389398574829, "global_step": 2900, "epoch": 12, "lr": 0.009996530950900856}
+{"train_loss": 0.38137754797935486, "train_loss_bc": 0.07573208212852478, "train_loss_llm": 0.3056454658508301, "grad_norm": 0.3901194632053375, "global_step": 2901, "epoch": 12, "lr": 0.009996530950900856}
+{"train_loss": 0.30585888028144836, "train_loss_bc": 0.06533411145210266, "train_loss_llm": 0.2405247688293457, "grad_norm": 0.43330785632133484, "global_step": 2902, "epoch": 12, "lr": 0.009996530950900856}
+{"train_loss": 0.3364923596382141, "train_loss_bc": 0.06240735948085785, "train_loss_llm": 0.27408501505851746, "grad_norm": 0.5353999137878418, "global_step": 2903, "epoch": 12, "lr": 0.009996530950900856}
+{"train_loss": 0.31151697039604187, "train_loss_bc": 0.06305395811796188, "train_loss_llm": 0.2484630048274994, "grad_norm": 0.6000635027885437, "global_step": 2904, "epoch": 12, "lr": 0.00999651127068148}
+{"train_loss": 0.359714150428772, "train_loss_bc": 0.06977833807468414, "train_loss_llm": 0.28993579745292664, "grad_norm": 0.0941125750541687, "global_step": 2905, "epoch": 12, "lr": 0.00999651127068148}
+{"train_loss": 0.2864135801792145, "train_loss_bc": 0.051497966051101685, "train_loss_llm": 0.2349156141281128, "grad_norm": 0.14359696209430695, "global_step": 2906, "epoch": 12, "lr": 0.00999651127068148}
+{"train_loss": 0.35688668489456177, "train_loss_bc": 0.06891512870788574, "train_loss_llm": 0.287971556186676, "grad_norm": 0.06961584836244583, "global_step": 2907, "epoch": 12, "lr": 0.00999651127068148}
+{"train_loss": 0.34672480821609497, "train_loss_bc": 0.056544676423072815, "train_loss_llm": 0.29018011689186096, "grad_norm": 0.08959481120109558, "global_step": 2908, "epoch": 12, "lr": 0.00999651127068148}
+{"train_loss": 0.39104288816452026, "train_loss_bc": 0.06513559073209763, "train_loss_llm": 0.32590728998184204, "grad_norm": 0.11365941911935806, "global_step": 2909, "epoch": 12, "lr": 0.00999651127068148}
+{"train_loss": 0.27400627732276917, "train_loss_bc": 0.04507456347346306, "train_loss_llm": 0.228931725025177, "grad_norm": 0.12207940220832825, "global_step": 2910, "epoch": 12, "lr": 0.00999651127068148}
+{"train_loss": 0.3807215988636017, "train_loss_bc": 0.06730091571807861, "train_loss_llm": 0.31342068314552307, "grad_norm": 0.14710268378257751, "global_step": 2911, "epoch": 12, "lr": 0.00999651127068148}
+{"train_loss": 0.33669254183769226, "train_loss_bc": 0.06942199915647507, "train_loss_llm": 0.2672705352306366, "grad_norm": 0.16038163006305695, "global_step": 2912, "epoch": 12, "lr": 0.009996491534815572}
+{"train_loss": 0.33413809537887573, "train_loss_bc": 0.06684909760951996, "train_loss_llm": 0.2672889828681946, "grad_norm": 0.20823721587657928, "global_step": 2913, "epoch": 12, "lr": 0.009996491534815572}
+{"train_loss": 0.2895749509334564, "train_loss_bc": 0.05815774202346802, "train_loss_llm": 0.2314172089099884, "grad_norm": 0.32428646087646484, "global_step": 2914, "epoch": 12, "lr": 0.009996491534815572}
+{"train_loss": 0.30825111269950867, "train_loss_bc": 0.05958735942840576, "train_loss_llm": 0.2486637532711029, "grad_norm": 0.411327600479126, "global_step": 2915, "epoch": 12, "lr": 0.009996491534815572}
+{"train_loss": 0.3427621126174927, "train_loss_bc": 0.0558895617723465, "train_loss_llm": 0.286872535943985, "grad_norm": 0.4621131718158722, "global_step": 2916, "epoch": 12, "lr": 0.009996491534815572}
+{"train_loss": 0.37453600764274597, "train_loss_bc": 0.06889017671346664, "train_loss_llm": 0.30564582347869873, "grad_norm": 0.556247353553772, "global_step": 2917, "epoch": 12, "lr": 0.009996491534815572}
+{"train_loss": 0.35326865315437317, "train_loss_bc": 0.06014805659651756, "train_loss_llm": 0.2931205928325653, "grad_norm": 0.8238852620124817, "global_step": 2918, "epoch": 12, "lr": 0.009996491534815572}
+{"train_loss": 0.33290404081344604, "train_loss_bc": 0.07976977527141571, "train_loss_llm": 0.25313425064086914, "grad_norm": 0.8372777700424194, "global_step": 2919, "epoch": 12, "lr": 0.009996491534815572}
+{"train_loss": 0.3645328879356384, "train_loss_bc": 0.06725487858057022, "train_loss_llm": 0.2972780168056488, "grad_norm": 1.0355219841003418, "global_step": 2920, "epoch": 12, "lr": 0.009996471743303348}
+{"train_loss": 0.3809944987297058, "train_loss_bc": 0.06912702322006226, "train_loss_llm": 0.31186747550964355, "grad_norm": 0.2887571156024933, "global_step": 2921, "epoch": 12, "lr": 0.009996471743303348}
+{"train_loss": 0.3154296875, "train_loss_bc": 0.044573403894901276, "train_loss_llm": 0.2708562910556793, "grad_norm": 0.6369520425796509, "global_step": 2922, "epoch": 12, "lr": 0.009996471743303348}
+{"train_loss": 0.37870141863822937, "train_loss_bc": 0.06268009543418884, "train_loss_llm": 0.3160213232040405, "grad_norm": 0.7146450281143188, "global_step": 2923, "epoch": 12, "lr": 0.009996471743303348}
+{"train_loss": 0.40431445837020874, "train_loss_bc": 0.06439214199781418, "train_loss_llm": 0.33992230892181396, "grad_norm": 0.7849476933479309, "global_step": 2924, "epoch": 12, "lr": 0.009996471743303348}
+{"train_loss": 0.37814193964004517, "train_loss_bc": 0.07853354513645172, "train_loss_llm": 0.29960837960243225, "grad_norm": 0.9170799851417542, "global_step": 2925, "epoch": 12, "lr": 0.009996471743303348}
+{"train_loss": 0.3307856321334839, "train_loss_bc": 0.06853123009204865, "train_loss_llm": 0.26225441694259644, "grad_norm": 1.0662800073623657, "global_step": 2926, "epoch": 12, "lr": 0.009996471743303348}
+{"train_loss": 0.3148217797279358, "train_loss_bc": 0.07593737542629242, "train_loss_llm": 0.23888441920280457, "grad_norm": 1.2058165073394775, "global_step": 2927, "epoch": 12, "lr": 0.009996471743303348}
+{"train_loss": 0.4055422246456146, "train_loss_bc": 0.05606183409690857, "train_loss_llm": 0.34948039054870605, "grad_norm": 1.292936086654663, "global_step": 2928, "epoch": 12, "lr": 0.00999645189614503}
+{"train_loss": 0.31969311833381653, "train_loss_bc": 0.06993565708398819, "train_loss_llm": 0.24975746870040894, "grad_norm": 0.07446906715631485, "global_step": 2929, "epoch": 12, "lr": 0.00999645189614503}
+{"train_loss": 0.3477141261100769, "train_loss_bc": 0.07125028222799301, "train_loss_llm": 0.2764638364315033, "grad_norm": 0.17403188347816467, "global_step": 2930, "epoch": 12, "lr": 0.00999645189614503}
+{"train_loss": 0.3310999274253845, "train_loss_bc": 0.07690167427062988, "train_loss_llm": 0.25419825315475464, "grad_norm": 0.19584119319915771, "global_step": 2931, "epoch": 12, "lr": 0.00999645189614503}
+{"train_loss": 0.294840008020401, "train_loss_bc": 0.058218955993652344, "train_loss_llm": 0.23662105202674866, "grad_norm": 0.1885836124420166, "global_step": 2932, "epoch": 12, "lr": 0.00999645189614503}
+{"train_loss": 0.39714789390563965, "train_loss_bc": 0.09039057791233063, "train_loss_llm": 0.3067573308944702, "grad_norm": 0.23571620881557465, "global_step": 2933, "epoch": 12, "lr": 0.00999645189614503}
+{"train_loss": 0.3549536466598511, "train_loss_bc": 0.07609175145626068, "train_loss_llm": 0.2788618803024292, "grad_norm": 0.28273314237594604, "global_step": 2934, "epoch": 12, "lr": 0.00999645189614503}
+{"train_loss": 0.33833497762680054, "train_loss_bc": 0.06436718255281448, "train_loss_llm": 0.27396780252456665, "grad_norm": 0.2512112557888031, "global_step": 2935, "epoch": 12, "lr": 0.00999645189614503}
+{"train_loss": 0.302916944026947, "train_loss_bc": 0.05706002563238144, "train_loss_llm": 0.24585691094398499, "grad_norm": 0.2584315836429596, "global_step": 2936, "epoch": 12, "lr": 0.009996431993340835}
+{"train_loss": 0.37263044714927673, "train_loss_bc": 0.09181797504425049, "train_loss_llm": 0.28081247210502625, "grad_norm": 0.06836243718862534, "global_step": 2937, "epoch": 12, "lr": 0.009996431993340835}
+{"train_loss": 0.3334085941314697, "train_loss_bc": 0.061217039823532104, "train_loss_llm": 0.2721915543079376, "grad_norm": 0.14659923315048218, "global_step": 2938, "epoch": 12, "lr": 0.009996431993340835}
+{"train_loss": 0.35475218296051025, "train_loss_bc": 0.07919462025165558, "train_loss_llm": 0.27555757761001587, "grad_norm": 0.21865755319595337, "global_step": 2939, "epoch": 12, "lr": 0.009996431993340835}
+{"train_loss": 0.3450724482536316, "train_loss_bc": 0.06423462927341461, "train_loss_llm": 0.2808378040790558, "grad_norm": 0.4415588974952698, "global_step": 2940, "epoch": 12, "lr": 0.009996431993340835}
+{"train_loss": 0.3717690110206604, "train_loss_bc": 0.0804433673620224, "train_loss_llm": 0.2913256585597992, "grad_norm": 0.5142141580581665, "global_step": 2941, "epoch": 12, "lr": 0.009996431993340835}
+{"train_loss": 0.34344884753227234, "train_loss_bc": 0.07319667190313339, "train_loss_llm": 0.27025216817855835, "grad_norm": 0.6911402940750122, "global_step": 2942, "epoch": 12, "lr": 0.009996431993340835}
+{"train_loss": 0.399952232837677, "train_loss_bc": 0.07617096602916718, "train_loss_llm": 0.32378125190734863, "grad_norm": 0.8281341195106506, "global_step": 2943, "epoch": 12, "lr": 0.009996431993340835}
+{"train_loss": 0.2988665699958801, "train_loss_bc": 0.059302687644958496, "train_loss_llm": 0.23956388235092163, "grad_norm": 0.8244001865386963, "global_step": 2944, "epoch": 12, "lr": 0.00999641203489099}
+{"train_loss": 0.36572474241256714, "train_loss_bc": 0.07416214048862457, "train_loss_llm": 0.29156258702278137, "grad_norm": 0.10663090646266937, "global_step": 2945, "epoch": 12, "lr": 0.00999641203489099}
+{"train_loss": 0.3307710886001587, "train_loss_bc": 0.0604584664106369, "train_loss_llm": 0.270312637090683, "grad_norm": 0.1803782433271408, "global_step": 2946, "epoch": 12, "lr": 0.00999641203489099}
+{"train_loss": 0.4007452130317688, "train_loss_bc": 0.07463490962982178, "train_loss_llm": 0.326110303401947, "grad_norm": 0.2443724274635315, "global_step": 2947, "epoch": 12, "lr": 0.00999641203489099}
+{"train_loss": 0.31467345356941223, "train_loss_bc": 0.06333515793085098, "train_loss_llm": 0.25133830308914185, "grad_norm": 0.38054436445236206, "global_step": 2948, "epoch": 12, "lr": 0.00999641203489099}
+{"train_loss": 0.3492017090320587, "train_loss_bc": 0.07374883443117142, "train_loss_llm": 0.2754528820514679, "grad_norm": 0.46889930963516235, "global_step": 2949, "epoch": 12, "lr": 0.00999641203489099}
+{"train_loss": 0.3397378623485565, "train_loss_bc": 0.06262224912643433, "train_loss_llm": 0.2771156132221222, "grad_norm": 0.5113975405693054, "global_step": 2950, "epoch": 12, "lr": 0.00999641203489099}
+{"train_loss": 0.31891632080078125, "train_loss_bc": 0.06821779906749725, "train_loss_llm": 0.2506985366344452, "grad_norm": 0.5663581490516663, "global_step": 2951, "epoch": 12, "lr": 0.00999641203489099}
+{"train_loss": 0.3481404781341553, "train_loss_bc": 0.08051260560750961, "train_loss_llm": 0.26762786507606506, "grad_norm": 0.597805380821228, "global_step": 2952, "epoch": 12, "lr": 0.009996392020795717}
+{"train_loss": 0.3564784526824951, "train_loss_bc": 0.07314179837703705, "train_loss_llm": 0.28333666920661926, "grad_norm": 0.12327264249324799, "global_step": 2953, "epoch": 12, "lr": 0.009996392020795717}
+{"train_loss": 0.3127586841583252, "train_loss_bc": 0.06210455298423767, "train_loss_llm": 0.2506541311740875, "grad_norm": 0.18254390358924866, "global_step": 2954, "epoch": 12, "lr": 0.009996392020795717}
+{"train_loss": 0.3733234107494354, "train_loss_bc": 0.07526341080665588, "train_loss_llm": 0.29805999994277954, "grad_norm": 0.2419438362121582, "global_step": 2955, "epoch": 12, "lr": 0.009996392020795717}
+{"train_loss": 0.3171544075012207, "train_loss_bc": 0.07447907328605652, "train_loss_llm": 0.24267533421516418, "grad_norm": 0.37422502040863037, "global_step": 2956, "epoch": 12, "lr": 0.009996392020795717}
+{"train_loss": 0.32392096519470215, "train_loss_bc": 0.05449087917804718, "train_loss_llm": 0.26943010091781616, "grad_norm": 0.41515398025512695, "global_step": 2957, "epoch": 12, "lr": 0.009996392020795717}
+{"train_loss": 0.2760268747806549, "train_loss_bc": 0.06979743391275406, "train_loss_llm": 0.20622944831848145, "grad_norm": 0.48757609724998474, "global_step": 2958, "epoch": 12, "lr": 0.009996392020795717}
+{"train_loss": 0.3252430856227875, "train_loss_bc": 0.05931439250707626, "train_loss_llm": 0.2659286856651306, "grad_norm": 0.5534440279006958, "global_step": 2959, "epoch": 12, "lr": 0.009996392020795717}
+{"train_loss": 0.34292441606521606, "train_loss_bc": 0.08381466567516327, "train_loss_llm": 0.2591097354888916, "grad_norm": 0.62358158826828, "global_step": 2960, "epoch": 12, "lr": 0.009996371951055238}
+{"train_loss": 0.3041929304599762, "train_loss_bc": 0.07401439547538757, "train_loss_llm": 0.23017853498458862, "grad_norm": 0.07632916420698166, "global_step": 2961, "epoch": 12, "lr": 0.009996371951055238}
+{"train_loss": 0.29729020595550537, "train_loss_bc": 0.07328660786151886, "train_loss_llm": 0.22400358319282532, "grad_norm": 0.056626059114933014, "global_step": 2962, "epoch": 12, "lr": 0.009996371951055238}
+{"train_loss": 0.29584404826164246, "train_loss_bc": 0.05691247433423996, "train_loss_llm": 0.2389315664768219, "grad_norm": 0.13653641939163208, "global_step": 2963, "epoch": 12, "lr": 0.009996371951055238}
+{"train_loss": 0.3416021168231964, "train_loss_bc": 0.08281722664833069, "train_loss_llm": 0.2587848901748657, "grad_norm": 0.16434182226657867, "global_step": 2964, "epoch": 12, "lr": 0.009996371951055238}
+{"train_loss": 0.33317092061042786, "train_loss_bc": 0.060647498816251755, "train_loss_llm": 0.272523432970047, "grad_norm": 0.1881687343120575, "global_step": 2965, "epoch": 12, "lr": 0.009996371951055238}
+{"train_loss": 0.3304118514060974, "train_loss_bc": 0.07371244579553604, "train_loss_llm": 0.25669941306114197, "grad_norm": 0.20087502896785736, "global_step": 2966, "epoch": 12, "lr": 0.009996371951055238}
+{"train_loss": 0.3110603094100952, "train_loss_bc": 0.06979306042194366, "train_loss_llm": 0.24126723408699036, "grad_norm": 0.23480185866355896, "global_step": 2967, "epoch": 12, "lr": 0.009996371951055238}
+{"train_loss": 0.32504940032958984, "train_loss_bc": 0.05719222128391266, "train_loss_llm": 0.267857164144516, "grad_norm": 0.422763854265213, "global_step": 2968, "epoch": 12, "lr": 0.009996351825669776}
+{"train_loss": 0.3152492344379425, "train_loss_bc": 0.05156712606549263, "train_loss_llm": 0.263682097196579, "grad_norm": 0.06453441083431244, "global_step": 2969, "epoch": 12, "lr": 0.009996351825669776}
+{"train_loss": 0.2835592031478882, "train_loss_bc": 0.04580056667327881, "train_loss_llm": 0.23775863647460938, "grad_norm": 0.2069370448589325, "global_step": 2970, "epoch": 12, "lr": 0.009996351825669776}
+{"train_loss": 0.389411985874176, "train_loss_bc": 0.07103599607944489, "train_loss_llm": 0.31837600469589233, "grad_norm": 0.20871597528457642, "global_step": 2971, "epoch": 12, "lr": 0.009996351825669776}
+{"train_loss": 0.31936222314834595, "train_loss_bc": 0.057002607733011246, "train_loss_llm": 0.262359619140625, "grad_norm": 0.25260311365127563, "global_step": 2972, "epoch": 12, "lr": 0.009996351825669776}
+{"train_loss": 0.4487917125225067, "train_loss_bc": 0.07642850279808044, "train_loss_llm": 0.37236320972442627, "grad_norm": 0.3035472631454468, "global_step": 2973, "epoch": 12, "lr": 0.009996351825669776}
+{"train_loss": 0.33804693818092346, "train_loss_bc": 0.07207358628511429, "train_loss_llm": 0.26597335934638977, "grad_norm": 0.3518395721912384, "global_step": 2974, "epoch": 12, "lr": 0.009996351825669776}
+{"train_loss": 0.26254770159721375, "train_loss_bc": 0.06359056383371353, "train_loss_llm": 0.1989571452140808, "grad_norm": 0.32405874133110046, "global_step": 2975, "epoch": 12, "lr": 0.009996351825669776}
+{"train_loss": 0.2806193232536316, "train_loss_bc": 0.06044819951057434, "train_loss_llm": 0.22017112374305725, "grad_norm": 0.3200435936450958, "global_step": 2976, "epoch": 12, "lr": 0.009996331644639554}
+{"train_loss": 0.26850956678390503, "train_loss_bc": 0.04979376122355461, "train_loss_llm": 0.2187158167362213, "grad_norm": 0.1101289615035057, "global_step": 2977, "epoch": 12, "lr": 0.009996331644639554}
+{"train_loss": 0.3436354994773865, "train_loss_bc": 0.08154565095901489, "train_loss_llm": 0.2620898485183716, "grad_norm": 0.14393644034862518, "global_step": 2978, "epoch": 12, "lr": 0.009996331644639554}
+{"train_loss": 0.3346172869205475, "train_loss_bc": 0.06029645353555679, "train_loss_llm": 0.2743208408355713, "grad_norm": 0.21229806542396545, "global_step": 2979, "epoch": 12, "lr": 0.009996331644639554}
+{"train_loss": 0.3089452087879181, "train_loss_bc": 0.05110631138086319, "train_loss_llm": 0.2578389048576355, "grad_norm": 0.26150041818618774, "global_step": 2980, "epoch": 12, "lr": 0.009996331644639554}
+{"train_loss": 0.378337025642395, "train_loss_bc": 0.07195353507995605, "train_loss_llm": 0.30638349056243896, "grad_norm": 0.2832097113132477, "global_step": 2981, "epoch": 12, "lr": 0.009996331644639554}
+{"train_loss": 0.30434584617614746, "train_loss_bc": 0.06598307192325592, "train_loss_llm": 0.23836275935173035, "grad_norm": 0.296773761510849, "global_step": 2982, "epoch": 12, "lr": 0.009996331644639554}
+{"train_loss": 0.377971351146698, "train_loss_bc": 0.07491949945688248, "train_loss_llm": 0.3030518591403961, "grad_norm": 0.2852453887462616, "global_step": 2983, "epoch": 12, "lr": 0.009996331644639554}
+{"train_loss": 0.33806467056274414, "train_loss_bc": 0.0679156631231308, "train_loss_llm": 0.27014902234077454, "grad_norm": 0.30495646595954895, "global_step": 2984, "epoch": 12, "lr": 0.009996311407964798}
+{"train_loss": 0.2676924467086792, "train_loss_bc": 0.0477420836687088, "train_loss_llm": 0.2199503481388092, "grad_norm": 0.10996636003255844, "global_step": 2985, "epoch": 12, "lr": 0.009996311407964798}
+{"train_loss": 0.34311944246292114, "train_loss_bc": 0.07456332445144653, "train_loss_llm": 0.2685561180114746, "grad_norm": 0.13816548883914948, "global_step": 2986, "epoch": 12, "lr": 0.009996311407964798}
+{"train_loss": 0.3811684250831604, "train_loss_bc": 0.0736391544342041, "train_loss_llm": 0.3075292706489563, "grad_norm": 0.20201566815376282, "global_step": 2987, "epoch": 12, "lr": 0.009996311407964798}
+{"train_loss": 0.35710883140563965, "train_loss_bc": 0.07466842234134674, "train_loss_llm": 0.2824404239654541, "grad_norm": 0.23937737941741943, "global_step": 2988, "epoch": 12, "lr": 0.009996311407964798}
+{"train_loss": 0.40389636158943176, "train_loss_bc": 0.059585653245449066, "train_loss_llm": 0.3443107008934021, "grad_norm": 0.3023744225502014, "global_step": 2989, "epoch": 12, "lr": 0.009996311407964798}
+{"train_loss": 0.33414965867996216, "train_loss_bc": 0.07824274897575378, "train_loss_llm": 0.2559069097042084, "grad_norm": 0.3157520592212677, "global_step": 2990, "epoch": 12, "lr": 0.009996311407964798}
+{"train_loss": 0.285554438829422, "train_loss_bc": 0.06616261601448059, "train_loss_llm": 0.2193918228149414, "grad_norm": 0.3821505904197693, "global_step": 2991, "epoch": 12, "lr": 0.009996311407964798}
+{"train_loss": 0.3430851101875305, "train_loss_bc": 0.06399302184581757, "train_loss_llm": 0.27909210324287415, "grad_norm": 0.47018328309059143, "global_step": 2992, "epoch": 12, "lr": 0.009996291115645732}
+{"train_loss": 0.3253798186779022, "train_loss_bc": 0.060811858624219894, "train_loss_llm": 0.2645679712295532, "grad_norm": 0.06254751235246658, "global_step": 2993, "epoch": 12, "lr": 0.009996291115645732}
+{"train_loss": 0.3583889305591583, "train_loss_bc": 0.05589873343706131, "train_loss_llm": 0.3024902045726776, "grad_norm": 0.16969075798988342, "global_step": 2994, "epoch": 12, "lr": 0.009996291115645732}
+{"train_loss": 0.30168044567108154, "train_loss_bc": 0.053553082048892975, "train_loss_llm": 0.24812737107276917, "grad_norm": 0.20391447842121124, "global_step": 2995, "epoch": 12, "lr": 0.009996291115645732}
+{"train_loss": 0.37174999713897705, "train_loss_bc": 0.06827449798583984, "train_loss_llm": 0.3034754991531372, "grad_norm": 0.32358410954475403, "global_step": 2996, "epoch": 12, "lr": 0.009996291115645732}
+{"train_loss": 0.31015801429748535, "train_loss_bc": 0.04872538894414902, "train_loss_llm": 0.26143261790275574, "grad_norm": 0.34488385915756226, "global_step": 2997, "epoch": 12, "lr": 0.009996291115645732}
+{"train_loss": 0.3887733817100525, "train_loss_bc": 0.0804484412074089, "train_loss_llm": 0.308324933052063, "grad_norm": 0.34240081906318665, "global_step": 2998, "epoch": 12, "lr": 0.009996291115645732}
+{"train_loss": 0.3749038279056549, "train_loss_bc": 0.0581674799323082, "train_loss_llm": 0.3167363405227661, "grad_norm": 0.4548337161540985, "global_step": 2999, "epoch": 12, "lr": 0.009996291115645732}
+{"train_loss": 0.3556309640407562, "train_loss_bc": 0.05778565630316734, "train_loss_llm": 0.2978453040122986, "grad_norm": 0.5210241079330444, "global_step": 3000, "epoch": 12, "lr": 0.009996270767682584}
+{"train_loss": 0.37753385305404663, "train_loss_bc": 0.06705345213413239, "train_loss_llm": 0.31048041582107544, "grad_norm": 0.09245379269123077, "global_step": 3001, "epoch": 12, "lr": 0.009996270767682584}
+{"train_loss": 0.3175937533378601, "train_loss_bc": 0.05449291318655014, "train_loss_llm": 0.26310083270072937, "grad_norm": 0.2073267549276352, "global_step": 3002, "epoch": 12, "lr": 0.009996270767682584}
+{"train_loss": 0.3155573606491089, "train_loss_bc": 0.05489185452461243, "train_loss_llm": 0.26066550612449646, "grad_norm": 0.3204483687877655, "global_step": 3003, "epoch": 12, "lr": 0.009996270767682584}
+{"train_loss": 0.372445672750473, "train_loss_bc": 0.08204689621925354, "train_loss_llm": 0.2903987765312195, "grad_norm": 0.33228054642677307, "global_step": 3004, "epoch": 12, "lr": 0.009996270767682584}
+{"train_loss": 0.3588864803314209, "train_loss_bc": 0.05935410410165787, "train_loss_llm": 0.29953238368034363, "grad_norm": 0.32674822211265564, "global_step": 3005, "epoch": 12, "lr": 0.009996270767682584}
+{"train_loss": 0.34991902112960815, "train_loss_bc": 0.06691567599773407, "train_loss_llm": 0.2830033302307129, "grad_norm": 0.3642246425151825, "global_step": 3006, "epoch": 12, "lr": 0.009996270767682584}
+{"train_loss": 0.32437074184417725, "train_loss_bc": 0.05714897811412811, "train_loss_llm": 0.26722174882888794, "grad_norm": 0.41858571767807007, "global_step": 3007, "epoch": 12, "lr": 0.009996270767682584}
+{"train_loss": 0.23911777138710022, "train_loss_bc": 0.04859066754579544, "train_loss_llm": 0.19052711129188538, "grad_norm": 0.4689088761806488, "global_step": 3008, "epoch": 12, "lr": 0.00999625036407558}
+{"train_loss": 0.37400567531585693, "train_loss_bc": 0.061904922127723694, "train_loss_llm": 0.31210076808929443, "grad_norm": 0.05109299719333649, "global_step": 3009, "epoch": 12, "lr": 0.00999625036407558}
+{"train_loss": 0.31895768642425537, "train_loss_bc": 0.07334575057029724, "train_loss_llm": 0.24561193585395813, "grad_norm": 0.06711652129888535, "global_step": 3010, "epoch": 12, "lr": 0.00999625036407558}
+{"train_loss": 0.34637364745140076, "train_loss_bc": 0.06748038530349731, "train_loss_llm": 0.27889326214790344, "grad_norm": 0.08189892768859863, "global_step": 3011, "epoch": 12, "lr": 0.00999625036407558}
+{"train_loss": 0.3763943910598755, "train_loss_bc": 0.07832585275173187, "train_loss_llm": 0.2980685532093048, "grad_norm": 0.11446131020784378, "global_step": 3012, "epoch": 12, "lr": 0.00999625036407558}
+{"train_loss": 0.32055366039276123, "train_loss_bc": 0.05185879021883011, "train_loss_llm": 0.2686948776245117, "grad_norm": 0.12661303579807281, "global_step": 3013, "epoch": 12, "lr": 0.00999625036407558}
+{"train_loss": 0.41727155447006226, "train_loss_bc": 0.059367045760154724, "train_loss_llm": 0.3579045236110687, "grad_norm": 0.15773643553256989, "global_step": 3014, "epoch": 12, "lr": 0.00999625036407558}
+{"train_loss": 0.37908506393432617, "train_loss_bc": 0.06510534137487411, "train_loss_llm": 0.31397971510887146, "grad_norm": 0.21484045684337616, "global_step": 3015, "epoch": 12, "lr": 0.00999625036407558}
+{"train_loss": 0.29562175273895264, "train_loss_bc": 0.06274913251399994, "train_loss_llm": 0.2328726351261139, "grad_norm": 0.25824689865112305, "global_step": 3016, "epoch": 12, "lr": 0.009996229904824946}
+{"train_loss": 0.34719404578208923, "train_loss_bc": 0.06987646222114563, "train_loss_llm": 0.2773175835609436, "grad_norm": 0.10134322941303253, "global_step": 3017, "epoch": 12, "lr": 0.009996229904824946}
+{"train_loss": 0.2653212249279022, "train_loss_bc": 0.06265803426504135, "train_loss_llm": 0.20266318321228027, "grad_norm": 0.17561812698841095, "global_step": 3018, "epoch": 12, "lr": 0.009996229904824946}
+{"train_loss": 0.3952137529850006, "train_loss_bc": 0.08659850805997849, "train_loss_llm": 0.30861523747444153, "grad_norm": 0.24971890449523926, "global_step": 3019, "epoch": 12, "lr": 0.009996229904824946}
+{"train_loss": 0.3193574845790863, "train_loss_bc": 0.06826865673065186, "train_loss_llm": 0.25108882784843445, "grad_norm": 0.32429569959640503, "global_step": 3020, "epoch": 12, "lr": 0.009996229904824946}
+{"train_loss": 0.3295142352581024, "train_loss_bc": 0.07269871234893799, "train_loss_llm": 0.25681552290916443, "grad_norm": 0.41575390100479126, "global_step": 3021, "epoch": 12, "lr": 0.009996229904824946}
+{"train_loss": 0.3523116707801819, "train_loss_bc": 0.06971435993909836, "train_loss_llm": 0.28259730339050293, "grad_norm": 0.5053572058677673, "global_step": 3022, "epoch": 12, "lr": 0.009996229904824946}
+{"train_loss": 0.34801924228668213, "train_loss_bc": 0.06031419336795807, "train_loss_llm": 0.28770506381988525, "grad_norm": 0.6319376826286316, "global_step": 3023, "epoch": 12, "lr": 0.009996229904824946}
+{"train_loss": 0.30646616220474243, "train_loss_bc": 0.06455868482589722, "train_loss_llm": 0.24190747737884521, "grad_norm": 0.6940008401870728, "global_step": 3024, "epoch": 12, "lr": 0.009996209389930913}
+{"train_loss": 0.35919177532196045, "train_loss_bc": 0.0722319558262825, "train_loss_llm": 0.28695982694625854, "grad_norm": 0.12851925194263458, "global_step": 3025, "epoch": 12, "lr": 0.009996209389930913}
+{"train_loss": 0.3809598684310913, "train_loss_bc": 0.08847594261169434, "train_loss_llm": 0.292483925819397, "grad_norm": 0.18960583209991455, "global_step": 3026, "epoch": 12, "lr": 0.009996209389930913}
+{"train_loss": 0.3628920316696167, "train_loss_bc": 0.07177327573299408, "train_loss_llm": 0.2911187708377838, "grad_norm": 0.27039584517478943, "global_step": 3027, "epoch": 12, "lr": 0.009996209389930913}
+{"train_loss": 0.3270673155784607, "train_loss_bc": 0.06662113964557648, "train_loss_llm": 0.260446161031723, "grad_norm": 0.32850292325019836, "global_step": 3028, "epoch": 12, "lr": 0.009996209389930913}
+{"train_loss": 0.3392701745033264, "train_loss_bc": 0.061244770884513855, "train_loss_llm": 0.27802541851997375, "grad_norm": 0.43172499537467957, "global_step": 3029, "epoch": 12, "lr": 0.009996209389930913}
+{"train_loss": 0.3005143404006958, "train_loss_bc": 0.06614512205123901, "train_loss_llm": 0.2343692183494568, "grad_norm": 0.5213603973388672, "global_step": 3030, "epoch": 12, "lr": 0.009996209389930913}
+{"train_loss": 0.34883102774620056, "train_loss_bc": 0.07283759117126465, "train_loss_llm": 0.2759934365749359, "grad_norm": 0.5598747134208679, "global_step": 3031, "epoch": 12, "lr": 0.009996209389930913}
+{"train_loss": 0.3252934515476227, "train_loss_bc": 0.06815064698457718, "train_loss_llm": 0.2571428120136261, "grad_norm": 0.6457154154777527, "global_step": 3032, "epoch": 12, "lr": 0.009996188819393707}
+{"train_loss": 0.35050949454307556, "train_loss_bc": 0.08428219705820084, "train_loss_llm": 0.2662273049354553, "grad_norm": 0.08853958547115326, "global_step": 3033, "epoch": 12, "lr": 0.009996188819393707}
+{"train_loss": 0.27996766567230225, "train_loss_bc": 0.06601391732692719, "train_loss_llm": 0.21395373344421387, "grad_norm": 0.1734415739774704, "global_step": 3034, "epoch": 12, "lr": 0.009996188819393707}
+{"train_loss": 0.30221644043922424, "train_loss_bc": 0.0536545030772686, "train_loss_llm": 0.24856194853782654, "grad_norm": 0.21394480764865875, "global_step": 3035, "epoch": 12, "lr": 0.009996188819393707}
+{"train_loss": 0.39936065673828125, "train_loss_bc": 0.06778910011053085, "train_loss_llm": 0.3315715491771698, "grad_norm": 0.29510968923568726, "global_step": 3036, "epoch": 12, "lr": 0.009996188819393707}
+{"train_loss": 0.3177464008331299, "train_loss_bc": 0.08281813561916351, "train_loss_llm": 0.23492825031280518, "grad_norm": 0.32196852564811707, "global_step": 3037, "epoch": 12, "lr": 0.009996188819393707}
+{"train_loss": 0.3372170031070709, "train_loss_bc": 0.08618021011352539, "train_loss_llm": 0.25103679299354553, "grad_norm": 0.36995524168014526, "global_step": 3038, "epoch": 12, "lr": 0.009996188819393707}
+{"train_loss": 0.38571929931640625, "train_loss_bc": 0.08572079241275787, "train_loss_llm": 0.29999852180480957, "grad_norm": 0.43199947476387024, "global_step": 3039, "epoch": 12, "lr": 0.009996188819393707}
+{"train_loss": 0.3046450912952423, "train_loss_bc": 0.06752417236566544, "train_loss_llm": 0.23712092638015747, "grad_norm": 0.5615494847297668, "global_step": 3040, "epoch": 12, "lr": 0.009996168193213558}
+{"train_loss": 0.3004932105541229, "train_loss_bc": 0.06154491752386093, "train_loss_llm": 0.2389482855796814, "grad_norm": 0.08409257233142853, "global_step": 3041, "epoch": 12, "lr": 0.009996168193213558}
+{"train_loss": 0.279709130525589, "train_loss_bc": 0.05646037310361862, "train_loss_llm": 0.22324874997138977, "grad_norm": 0.15882784128189087, "global_step": 3042, "epoch": 12, "lr": 0.009996168193213558}
+{"train_loss": 0.353316068649292, "train_loss_bc": 0.06319661438465118, "train_loss_llm": 0.290119469165802, "grad_norm": 0.16773036122322083, "global_step": 3043, "epoch": 12, "lr": 0.009996168193213558}
+{"train_loss": 0.37591779232025146, "train_loss_bc": 0.09412384033203125, "train_loss_llm": 0.2817939519882202, "grad_norm": 0.20556344091892242, "global_step": 3044, "epoch": 12, "lr": 0.009996168193213558}
+{"train_loss": 0.3439731001853943, "train_loss_bc": 0.0803954005241394, "train_loss_llm": 0.2635776996612549, "grad_norm": 0.23085802793502808, "global_step": 3045, "epoch": 12, "lr": 0.009996168193213558}
+{"train_loss": 0.3579188287258148, "train_loss_bc": 0.08458007127046585, "train_loss_llm": 0.27333876490592957, "grad_norm": 0.25611263513565063, "global_step": 3046, "epoch": 12, "lr": 0.009996168193213558}
+{"train_loss": 0.36074554920196533, "train_loss_bc": 0.08568687736988068, "train_loss_llm": 0.27505865693092346, "grad_norm": 0.2740159332752228, "global_step": 3047, "epoch": 12, "lr": 0.009996168193213558}
+{"train_loss": 0.34700724482536316, "train_loss_bc": 0.08827158808708191, "train_loss_llm": 0.25873565673828125, "grad_norm": 0.2547560930252075, "global_step": 3048, "epoch": 12, "lr": 0.009996147511390694}
+{"train_loss": 0.3284069895744324, "train_loss_bc": 0.0680428147315979, "train_loss_llm": 0.2603641748428345, "grad_norm": 0.061986226588487625, "global_step": 3049, "epoch": 12, "lr": 0.009996147511390694}
+{"train_loss": 0.3850235641002655, "train_loss_bc": 0.06306327134370804, "train_loss_llm": 0.32196030020713806, "grad_norm": 0.1426558494567871, "global_step": 3050, "epoch": 12, "lr": 0.009996147511390694}
+{"train_loss": 0.31940820813179016, "train_loss_bc": 0.06895572692155838, "train_loss_llm": 0.2504524886608124, "grad_norm": 0.1698734015226364, "global_step": 3051, "epoch": 12, "lr": 0.009996147511390694}
+{"train_loss": 0.31740903854370117, "train_loss_bc": 0.06189504265785217, "train_loss_llm": 0.255513995885849, "grad_norm": 0.1862417757511139, "global_step": 3052, "epoch": 12, "lr": 0.009996147511390694}
+{"train_loss": 0.3862159848213196, "train_loss_bc": 0.07376381009817123, "train_loss_llm": 0.31245216727256775, "grad_norm": 0.2576330006122589, "global_step": 3053, "epoch": 12, "lr": 0.009996147511390694}
+{"train_loss": 0.3345455527305603, "train_loss_bc": 0.07334999740123749, "train_loss_llm": 0.261195570230484, "grad_norm": 0.30370327830314636, "global_step": 3054, "epoch": 12, "lr": 0.009996147511390694}
+{"train_loss": 0.32773804664611816, "train_loss_bc": 0.07334683835506439, "train_loss_llm": 0.2543911933898926, "grad_norm": 0.34393444657325745, "global_step": 3055, "epoch": 12, "lr": 0.009996147511390694}
+{"train_loss": 0.31351420283317566, "train_loss_bc": 0.052005499601364136, "train_loss_llm": 0.2615087032318115, "grad_norm": 0.4494415819644928, "global_step": 3056, "epoch": 12, "lr": 0.009996126773925347}
+{"train_loss": 0.3887971043586731, "train_loss_bc": 0.07455949485301971, "train_loss_llm": 0.3142376244068146, "grad_norm": 0.06372074037790298, "global_step": 3057, "epoch": 12, "lr": 0.009996126773925347}
+{"train_loss": 0.40195268392562866, "train_loss_bc": 0.06490187346935272, "train_loss_llm": 0.33705082535743713, "grad_norm": 0.14671093225479126, "global_step": 3058, "epoch": 12, "lr": 0.009996126773925347}
+{"train_loss": 0.36567986011505127, "train_loss_bc": 0.07366545498371124, "train_loss_llm": 0.2920144200325012, "grad_norm": 0.24413876235485077, "global_step": 3059, "epoch": 12, "lr": 0.009996126773925347}
+{"train_loss": 0.3856761157512665, "train_loss_bc": 0.07704535871744156, "train_loss_llm": 0.3086307644844055, "grad_norm": 0.2920804023742676, "global_step": 3060, "epoch": 12, "lr": 0.009996126773925347}
+{"train_loss": 0.30572524666786194, "train_loss_bc": 0.06200297921895981, "train_loss_llm": 0.24372225999832153, "grad_norm": 0.2995299696922302, "global_step": 3061, "epoch": 12, "lr": 0.009996126773925347}
+{"train_loss": 0.3729143440723419, "train_loss_bc": 0.06827371567487717, "train_loss_llm": 0.30464062094688416, "grad_norm": 0.30091413855552673, "global_step": 3062, "epoch": 12, "lr": 0.009996126773925347}
+{"train_loss": 0.35722461342811584, "train_loss_bc": 0.08170659095048904, "train_loss_llm": 0.2755180299282074, "grad_norm": 0.2709006071090698, "global_step": 3063, "epoch": 12, "lr": 0.009996126773925347}
+{"train_loss": 0.3856171667575836, "train_loss_bc": 0.070352703332901, "train_loss_llm": 0.3152644634246826, "grad_norm": 0.20295865833759308, "global_step": 3064, "epoch": 12, "lr": 0.009996105980817746}
+{"train_loss": 0.4159468114376068, "train_loss_bc": 0.0738537609577179, "train_loss_llm": 0.3420930504798889, "grad_norm": 0.09455200284719467, "global_step": 3065, "epoch": 12, "lr": 0.009996105980817746}
+{"train_loss": 0.31278786063194275, "train_loss_bc": 0.061194755136966705, "train_loss_llm": 0.25159311294555664, "grad_norm": 0.22311292588710785, "global_step": 3066, "epoch": 12, "lr": 0.009996105980817746}
+{"train_loss": 0.33850613236427307, "train_loss_bc": 0.06317394971847534, "train_loss_llm": 0.27533218264579773, "grad_norm": 0.3134460151195526, "global_step": 3067, "epoch": 12, "lr": 0.009996105980817746}
+{"train_loss": 0.3703005015850067, "train_loss_bc": 0.06792598962783813, "train_loss_llm": 0.3023745119571686, "grad_norm": 0.35300689935684204, "global_step": 3068, "epoch": 12, "lr": 0.009996105980817746}
+{"train_loss": 0.3715837895870209, "train_loss_bc": 0.06379994004964828, "train_loss_llm": 0.307783842086792, "grad_norm": 0.371654212474823, "global_step": 3069, "epoch": 12, "lr": 0.009996105980817746}
+{"train_loss": 0.2877626121044159, "train_loss_bc": 0.05854170769453049, "train_loss_llm": 0.2292208969593048, "grad_norm": 0.42378729581832886, "global_step": 3070, "epoch": 12, "lr": 0.009996105980817746}
+{"train_loss": 0.3001932203769684, "train_loss_bc": 0.047107428312301636, "train_loss_llm": 0.25308579206466675, "grad_norm": 0.44891074299812317, "global_step": 3071, "epoch": 12, "lr": 0.009996105980817746}
+{"train_loss": 0.35643112659454346, "train_loss_bc": 0.05087833106517792, "train_loss_llm": 0.30555278062820435, "grad_norm": 0.49116548895835876, "global_step": 3072, "epoch": 12, "lr": 0.009996085132068127}
+{"train_loss": 0.27409565448760986, "train_loss_bc": 0.05624579265713692, "train_loss_llm": 0.21784985065460205, "grad_norm": 0.2302268147468567, "global_step": 3073, "epoch": 12, "lr": 0.009996085132068127}
+{"train_loss": 0.295035183429718, "train_loss_bc": 0.06451939791440964, "train_loss_llm": 0.23051577806472778, "grad_norm": 0.24048824608325958, "global_step": 3074, "epoch": 12, "lr": 0.009996085132068127}
+{"train_loss": 0.4177968204021454, "train_loss_bc": 0.08219542354345322, "train_loss_llm": 0.3356013894081116, "grad_norm": 0.2753989100456238, "global_step": 3075, "epoch": 12, "lr": 0.009996085132068127}
+{"train_loss": 0.2861385643482208, "train_loss_bc": 0.06084771826863289, "train_loss_llm": 0.22529083490371704, "grad_norm": 0.291900098323822, "global_step": 3076, "epoch": 12, "lr": 0.009996085132068127}
+{"train_loss": 0.2857660949230194, "train_loss_bc": 0.05986570194363594, "train_loss_llm": 0.22590038180351257, "grad_norm": 0.3143666684627533, "global_step": 3077, "epoch": 12, "lr": 0.009996085132068127}
+{"train_loss": 0.31645429134368896, "train_loss_bc": 0.07745683193206787, "train_loss_llm": 0.2389974594116211, "grad_norm": 0.3658040463924408, "global_step": 3078, "epoch": 12, "lr": 0.009996085132068127}
+{"train_loss": 0.3407435417175293, "train_loss_bc": 0.06773874163627625, "train_loss_llm": 0.27300480008125305, "grad_norm": 0.4379330575466156, "global_step": 3079, "epoch": 12, "lr": 0.009996085132068127}
+{"train_loss": 0.3365632891654968, "train_loss_bc": 0.06263332813978195, "train_loss_llm": 0.2739299535751343, "grad_norm": 0.5069330334663391, "global_step": 3080, "epoch": 12, "lr": 0.009996064227676717}
+{"train_loss": 0.34965282678604126, "train_loss_bc": 0.07107681035995483, "train_loss_llm": 0.2785760164260864, "grad_norm": 0.10238488763570786, "global_step": 3081, "epoch": 12, "lr": 0.009996064227676717}
+{"train_loss": 0.3161095976829529, "train_loss_bc": 0.07171653211116791, "train_loss_llm": 0.24439308047294617, "grad_norm": 0.10766390711069107, "global_step": 3082, "epoch": 12, "lr": 0.009996064227676717}
+{"train_loss": 0.3642016351222992, "train_loss_bc": 0.06321955472230911, "train_loss_llm": 0.3009820878505707, "grad_norm": 0.16571472585201263, "global_step": 3083, "epoch": 12, "lr": 0.009996064227676717}
+{"train_loss": 0.3465892970561981, "train_loss_bc": 0.06914827227592468, "train_loss_llm": 0.27744102478027344, "grad_norm": 0.26645541191101074, "global_step": 3084, "epoch": 12, "lr": 0.009996064227676717}
+{"train_loss": 0.32102906703948975, "train_loss_bc": 0.06387080252170563, "train_loss_llm": 0.2571582496166229, "grad_norm": 0.2609996199607849, "global_step": 3085, "epoch": 12, "lr": 0.009996064227676717}
+{"train_loss": 0.35887548327445984, "train_loss_bc": 0.07117830961942673, "train_loss_llm": 0.2876971662044525, "grad_norm": 0.4322405159473419, "global_step": 3086, "epoch": 12, "lr": 0.009996064227676717}
+{"train_loss": 0.3377590477466583, "train_loss_bc": 0.07998044043779373, "train_loss_llm": 0.2577786147594452, "grad_norm": 0.4072566032409668, "global_step": 3087, "epoch": 12, "lr": 0.009996064227676717}
+{"train_loss": 0.31927797198295593, "train_loss_bc": 0.06861498206853867, "train_loss_llm": 0.25066298246383667, "grad_norm": 0.49374333024024963, "global_step": 3088, "epoch": 12, "lr": 0.00999604326764375}
+{"train_loss": 0.3525770902633667, "train_loss_bc": 0.06641115248203278, "train_loss_llm": 0.28616592288017273, "grad_norm": 0.04686623811721802, "global_step": 3089, "epoch": 12, "lr": 0.00999604326764375}
+{"train_loss": 0.29118168354034424, "train_loss_bc": 0.06569438427686691, "train_loss_llm": 0.22548729181289673, "grad_norm": 0.09985916316509247, "global_step": 3090, "epoch": 12, "lr": 0.00999604326764375}
+{"train_loss": 0.39568138122558594, "train_loss_bc": 0.07624144107103348, "train_loss_llm": 0.31943994760513306, "grad_norm": 0.23161642253398895, "global_step": 3091, "epoch": 12, "lr": 0.00999604326764375}
+{"train_loss": 0.33141306042671204, "train_loss_bc": 0.07988291233778, "train_loss_llm": 0.25153014063835144, "grad_norm": 0.2867295742034912, "global_step": 3092, "epoch": 12, "lr": 0.00999604326764375}
+{"train_loss": 0.34026309140339617, "train_loss_bc": 0.0729871615767479, "train_loss_llm": 0.2680894434452057, "grad_norm": 0.37513089179992676, "global_step": 3093, "epoch": 12, "lr": 0.00999604326764375, "val_loss": 0.32738593220710754}
+{"train_loss": 0.346956729888916, "train_loss_bc": 0.0880051702260971, "train_loss_llm": 0.2589515447616577, "grad_norm": 0.37010350823402405, "global_step": 3094, "epoch": 13, "lr": 0.00999604326764375}
+{"train_loss": 0.3918454051017761, "train_loss_bc": 0.08425609767436981, "train_loss_llm": 0.3075893223285675, "grad_norm": 0.42231181263923645, "global_step": 3095, "epoch": 13, "lr": 0.00999604326764375}
+{"train_loss": 0.2976114749908447, "train_loss_bc": 0.0713581070303917, "train_loss_llm": 0.22625336050987244, "grad_norm": 0.5238133668899536, "global_step": 3096, "epoch": 13, "lr": 0.009996022251969463}
+{"train_loss": 0.384999543428421, "train_loss_bc": 0.0726463720202446, "train_loss_llm": 0.3123531639575958, "grad_norm": 0.11451077461242676, "global_step": 3097, "epoch": 13, "lr": 0.009996022251969463}
+{"train_loss": 0.34248632192611694, "train_loss_bc": 0.06996980309486389, "train_loss_llm": 0.27251651883125305, "grad_norm": 0.1370692402124405, "global_step": 3098, "epoch": 13, "lr": 0.009996022251969463}
+{"train_loss": 0.43212276697158813, "train_loss_bc": 0.07840941846370697, "train_loss_llm": 0.35371333360671997, "grad_norm": 0.14448904991149902, "global_step": 3099, "epoch": 13, "lr": 0.009996022251969463}
+{"train_loss": 0.3231234550476074, "train_loss_bc": 0.06013044714927673, "train_loss_llm": 0.2629930078983307, "grad_norm": 0.15492719411849976, "global_step": 3100, "epoch": 13, "lr": 0.009996022251969463}
+{"train_loss": 0.35504961013793945, "train_loss_bc": 0.08370522409677505, "train_loss_llm": 0.271344393491745, "grad_norm": 0.17232249677181244, "global_step": 3101, "epoch": 13, "lr": 0.009996022251969463}
+{"train_loss": 0.2765509784221649, "train_loss_bc": 0.05633125826716423, "train_loss_llm": 0.22021973133087158, "grad_norm": 0.17243915796279907, "global_step": 3102, "epoch": 13, "lr": 0.009996022251969463}
+{"train_loss": 0.360952764749527, "train_loss_bc": 0.07661229372024536, "train_loss_llm": 0.2843404710292816, "grad_norm": 0.19750621914863586, "global_step": 3103, "epoch": 13, "lr": 0.009996022251969463}
+{"train_loss": 0.30659404397010803, "train_loss_bc": 0.07663675397634506, "train_loss_llm": 0.22995728254318237, "grad_norm": 0.2457258254289627, "global_step": 3104, "epoch": 13, "lr": 0.009996001180654088}
+{"train_loss": 0.36628925800323486, "train_loss_bc": 0.07110276073217392, "train_loss_llm": 0.29518648982048035, "grad_norm": 0.07390699535608292, "global_step": 3105, "epoch": 13, "lr": 0.009996001180654088}
+{"train_loss": 0.3181435763835907, "train_loss_bc": 0.05715309828519821, "train_loss_llm": 0.2609904706478119, "grad_norm": 0.1641579121351242, "global_step": 3106, "epoch": 13, "lr": 0.009996001180654088}
+{"train_loss": 0.2645857632160187, "train_loss_bc": 0.05745192989706993, "train_loss_llm": 0.20713382959365845, "grad_norm": 0.1776873618364334, "global_step": 3107, "epoch": 13, "lr": 0.009996001180654088}
+{"train_loss": 0.3618329167366028, "train_loss_bc": 0.05281723663210869, "train_loss_llm": 0.309015691280365, "grad_norm": 0.21034955978393555, "global_step": 3108, "epoch": 13, "lr": 0.009996001180654088}
+{"train_loss": 0.3711325526237488, "train_loss_bc": 0.06548544019460678, "train_loss_llm": 0.3056471049785614, "grad_norm": 0.29448458552360535, "global_step": 3109, "epoch": 13, "lr": 0.009996001180654088}
+{"train_loss": 0.3469252288341522, "train_loss_bc": 0.06312909722328186, "train_loss_llm": 0.28379613161087036, "grad_norm": 0.3186218738555908, "global_step": 3110, "epoch": 13, "lr": 0.009996001180654088}
+{"train_loss": 0.33644020557403564, "train_loss_bc": 0.06353548169136047, "train_loss_llm": 0.27290472388267517, "grad_norm": 0.33428213000297546, "global_step": 3111, "epoch": 13, "lr": 0.009996001180654088}
+{"train_loss": 0.34604784846305847, "train_loss_bc": 0.07141555100679398, "train_loss_llm": 0.2746323049068451, "grad_norm": 0.3770585060119629, "global_step": 3112, "epoch": 13, "lr": 0.009995980053697857}
+{"train_loss": 0.3285406827926636, "train_loss_bc": 0.06486731767654419, "train_loss_llm": 0.2636733651161194, "grad_norm": 0.07351924479007721, "global_step": 3113, "epoch": 13, "lr": 0.009995980053697857}
+{"train_loss": 0.31603389978408813, "train_loss_bc": 0.04860304296016693, "train_loss_llm": 0.26743084192276, "grad_norm": 0.14709524810314178, "global_step": 3114, "epoch": 13, "lr": 0.009995980053697857}
+{"train_loss": 0.3455251455307007, "train_loss_bc": 0.0688670426607132, "train_loss_llm": 0.2766580879688263, "grad_norm": 0.2802216410636902, "global_step": 3115, "epoch": 13, "lr": 0.009995980053697857}
+{"train_loss": 0.30446624755859375, "train_loss_bc": 0.057564400136470795, "train_loss_llm": 0.24690183997154236, "grad_norm": 0.2838588356971741, "global_step": 3116, "epoch": 13, "lr": 0.009995980053697857}
+{"train_loss": 0.29803019762039185, "train_loss_bc": 0.05649236589670181, "train_loss_llm": 0.24153783917427063, "grad_norm": 0.3771175444126129, "global_step": 3117, "epoch": 13, "lr": 0.009995980053697857}
+{"train_loss": 0.3671344518661499, "train_loss_bc": 0.06699238717556, "train_loss_llm": 0.3001420497894287, "grad_norm": 0.41832709312438965, "global_step": 3118, "epoch": 13, "lr": 0.009995980053697857}
+{"train_loss": 0.3326925039291382, "train_loss_bc": 0.06752254068851471, "train_loss_llm": 0.2651699483394623, "grad_norm": 0.44260361790657043, "global_step": 3119, "epoch": 13, "lr": 0.009995980053697857}
+{"train_loss": 0.3259032368659973, "train_loss_bc": 0.06164435297250748, "train_loss_llm": 0.26425889134407043, "grad_norm": 0.5221682190895081, "global_step": 3120, "epoch": 13, "lr": 0.00999595887110101}
+{"train_loss": 0.26413220167160034, "train_loss_bc": 0.05311933159828186, "train_loss_llm": 0.21101287007331848, "grad_norm": 0.059847142547369, "global_step": 3121, "epoch": 13, "lr": 0.00999595887110101}
+{"train_loss": 0.27082207798957825, "train_loss_bc": 0.048747994005680084, "train_loss_llm": 0.22207409143447876, "grad_norm": 0.14383240044116974, "global_step": 3122, "epoch": 13, "lr": 0.00999595887110101}
+{"train_loss": 0.30758994817733765, "train_loss_bc": 0.04876856505870819, "train_loss_llm": 0.25882136821746826, "grad_norm": 0.3140723705291748, "global_step": 3123, "epoch": 13, "lr": 0.00999595887110101}
+{"train_loss": 0.3611215054988861, "train_loss_bc": 0.07624268531799316, "train_loss_llm": 0.28487882018089294, "grad_norm": 0.33250340819358826, "global_step": 3124, "epoch": 13, "lr": 0.00999595887110101}
+{"train_loss": 0.3661586046218872, "train_loss_bc": 0.07307838648557663, "train_loss_llm": 0.29308021068573, "grad_norm": 0.3217675983905792, "global_step": 3125, "epoch": 13, "lr": 0.00999595887110101}
+{"train_loss": 0.44053560495376587, "train_loss_bc": 0.06846089661121368, "train_loss_llm": 0.372074693441391, "grad_norm": 0.35507869720458984, "global_step": 3126, "epoch": 13, "lr": 0.00999595887110101}
+{"train_loss": 0.3802865147590637, "train_loss_bc": 0.0650901049375534, "train_loss_llm": 0.3151963949203491, "grad_norm": 0.4200323224067688, "global_step": 3127, "epoch": 13, "lr": 0.00999595887110101}
+{"train_loss": 0.3148253262042999, "train_loss_bc": 0.07325014472007751, "train_loss_llm": 0.2415751814842224, "grad_norm": 0.4143733084201813, "global_step": 3128, "epoch": 13, "lr": 0.009995937632863779}
+{"train_loss": 0.37732183933258057, "train_loss_bc": 0.06588130444288254, "train_loss_llm": 0.31144052743911743, "grad_norm": 0.1660991758108139, "global_step": 3129, "epoch": 13, "lr": 0.009995937632863779}
+{"train_loss": 0.3542505204677582, "train_loss_bc": 0.07029277086257935, "train_loss_llm": 0.28395774960517883, "grad_norm": 0.10133431851863861, "global_step": 3130, "epoch": 13, "lr": 0.009995937632863779}
+{"train_loss": 0.34065431356430054, "train_loss_bc": 0.06303822994232178, "train_loss_llm": 0.27761608362197876, "grad_norm": 0.19829201698303223, "global_step": 3131, "epoch": 13, "lr": 0.009995937632863779}
+{"train_loss": 0.36659103631973267, "train_loss_bc": 0.06308445334434509, "train_loss_llm": 0.3035065829753876, "grad_norm": 0.21703463792800903, "global_step": 3132, "epoch": 13, "lr": 0.009995937632863779}
+{"train_loss": 0.3338198661804199, "train_loss_bc": 0.060790278017520905, "train_loss_llm": 0.2730295956134796, "grad_norm": 0.3805558681488037, "global_step": 3133, "epoch": 13, "lr": 0.009995937632863779}
+{"train_loss": 0.3633505702018738, "train_loss_bc": 0.07419230043888092, "train_loss_llm": 0.28915825486183167, "grad_norm": 0.39633017778396606, "global_step": 3134, "epoch": 13, "lr": 0.009995937632863779}
+{"train_loss": 0.26149502396583557, "train_loss_bc": 0.04768265038728714, "train_loss_llm": 0.21381238102912903, "grad_norm": 0.488322377204895, "global_step": 3135, "epoch": 13, "lr": 0.009995937632863779}
+{"train_loss": 0.295775830745697, "train_loss_bc": 0.06621381640434265, "train_loss_llm": 0.22956201434135437, "grad_norm": 0.44005194306373596, "global_step": 3136, "epoch": 13, "lr": 0.009995916338986402}
+{"train_loss": 0.2592886984348297, "train_loss_bc": 0.04697626829147339, "train_loss_llm": 0.21231243014335632, "grad_norm": 0.11923447996377945, "global_step": 3137, "epoch": 13, "lr": 0.009995916338986402}
+{"train_loss": 0.3306085169315338, "train_loss_bc": 0.06755999475717545, "train_loss_llm": 0.26304852962493896, "grad_norm": 0.07805034518241882, "global_step": 3138, "epoch": 13, "lr": 0.009995916338986402}
+{"train_loss": 0.35328927636146545, "train_loss_bc": 0.0635441243648529, "train_loss_llm": 0.28974515199661255, "grad_norm": 0.1260594129562378, "global_step": 3139, "epoch": 13, "lr": 0.009995916338986402}
+{"train_loss": 0.3697156608104706, "train_loss_bc": 0.0693875178694725, "train_loss_llm": 0.3003281354904175, "grad_norm": 0.11280461400747299, "global_step": 3140, "epoch": 13, "lr": 0.009995916338986402}
+{"train_loss": 0.34669819474220276, "train_loss_bc": 0.0772559642791748, "train_loss_llm": 0.26944223046302795, "grad_norm": 0.09840734302997589, "global_step": 3141, "epoch": 13, "lr": 0.009995916338986402}
+{"train_loss": 0.29638469219207764, "train_loss_bc": 0.06833186745643616, "train_loss_llm": 0.22805282473564148, "grad_norm": 0.1240122839808464, "global_step": 3142, "epoch": 13, "lr": 0.009995916338986402}
+{"train_loss": 0.3949962556362152, "train_loss_bc": 0.07980537414550781, "train_loss_llm": 0.3151908814907074, "grad_norm": 0.15765489637851715, "global_step": 3143, "epoch": 13, "lr": 0.009995916338986402}
+{"train_loss": 0.3521997928619385, "train_loss_bc": 0.05820612609386444, "train_loss_llm": 0.29399368166923523, "grad_norm": 0.1970536857843399, "global_step": 3144, "epoch": 13, "lr": 0.009995894989469116}
+{"train_loss": 0.31974154710769653, "train_loss_bc": 0.0589866004884243, "train_loss_llm": 0.26075494289398193, "grad_norm": 0.12010025233030319, "global_step": 3145, "epoch": 13, "lr": 0.009995894989469116}
+{"train_loss": 0.27050408720970154, "train_loss_bc": 0.05334381386637688, "train_loss_llm": 0.21716028451919556, "grad_norm": 0.18276239931583405, "global_step": 3146, "epoch": 13, "lr": 0.009995894989469116}
+{"train_loss": 0.3040320873260498, "train_loss_bc": 0.06615722924470901, "train_loss_llm": 0.2378748655319214, "grad_norm": 0.2278285026550293, "global_step": 3147, "epoch": 13, "lr": 0.009995894989469116}
+{"train_loss": 0.28912806510925293, "train_loss_bc": 0.046749189496040344, "train_loss_llm": 0.2423788607120514, "grad_norm": 0.2630644142627716, "global_step": 3148, "epoch": 13, "lr": 0.009995894989469116}
+{"train_loss": 0.294082373380661, "train_loss_bc": 0.046608779579401016, "train_loss_llm": 0.2474735975265503, "grad_norm": 0.29313111305236816, "global_step": 3149, "epoch": 13, "lr": 0.009995894989469116}
+{"train_loss": 0.32051753997802734, "train_loss_bc": 0.05375589057803154, "train_loss_llm": 0.2667616605758667, "grad_norm": 0.36649852991104126, "global_step": 3150, "epoch": 13, "lr": 0.009995894989469116}
+{"train_loss": 0.36892029643058777, "train_loss_bc": 0.06539738178253174, "train_loss_llm": 0.30352291464805603, "grad_norm": 0.4705958664417267, "global_step": 3151, "epoch": 13, "lr": 0.009995894989469116}
+{"train_loss": 0.2630130350589752, "train_loss_bc": 0.05627163499593735, "train_loss_llm": 0.20674139261245728, "grad_norm": 0.5576378107070923, "global_step": 3152, "epoch": 13, "lr": 0.009995873584312158}
+{"train_loss": 0.2488287091255188, "train_loss_bc": 0.047918468713760376, "train_loss_llm": 0.20091024041175842, "grad_norm": 0.10341228544712067, "global_step": 3153, "epoch": 13, "lr": 0.009995873584312158}
+{"train_loss": 0.22840261459350586, "train_loss_bc": 0.05696604400873184, "train_loss_llm": 0.17143657803535461, "grad_norm": 0.1274205595254898, "global_step": 3154, "epoch": 13, "lr": 0.009995873584312158}
+{"train_loss": 0.30951470136642456, "train_loss_bc": 0.0699748694896698, "train_loss_llm": 0.23953983187675476, "grad_norm": 0.14089517295360565, "global_step": 3155, "epoch": 13, "lr": 0.009995873584312158}
+{"train_loss": 0.3516852855682373, "train_loss_bc": 0.05755855143070221, "train_loss_llm": 0.2941267192363739, "grad_norm": 0.12852483987808228, "global_step": 3156, "epoch": 13, "lr": 0.009995873584312158}
+{"train_loss": 0.2970134913921356, "train_loss_bc": 0.06194191053509712, "train_loss_llm": 0.2350715696811676, "grad_norm": 0.15605004131793976, "global_step": 3157, "epoch": 13, "lr": 0.009995873584312158}
+{"train_loss": 0.33462896943092346, "train_loss_bc": 0.062019236385822296, "train_loss_llm": 0.27260974049568176, "grad_norm": 0.17492009699344635, "global_step": 3158, "epoch": 13, "lr": 0.009995873584312158}
+{"train_loss": 0.30407440662384033, "train_loss_bc": 0.05946877598762512, "train_loss_llm": 0.2446056306362152, "grad_norm": 0.20814822614192963, "global_step": 3159, "epoch": 13, "lr": 0.009995873584312158}
+{"train_loss": 0.3794550895690918, "train_loss_bc": 0.08213745057582855, "train_loss_llm": 0.29731762409210205, "grad_norm": 0.21051621437072754, "global_step": 3160, "epoch": 13, "lr": 0.00999585212351577}
+{"train_loss": 0.385310560464859, "train_loss_bc": 0.07769113779067993, "train_loss_llm": 0.3076194226741791, "grad_norm": 0.06338772177696228, "global_step": 3161, "epoch": 13, "lr": 0.00999585212351577}
+{"train_loss": 0.3990575075149536, "train_loss_bc": 0.07810254395008087, "train_loss_llm": 0.32095497846603394, "grad_norm": 0.061717696487903595, "global_step": 3162, "epoch": 13, "lr": 0.00999585212351577}
+{"train_loss": 0.3550577163696289, "train_loss_bc": 0.06901262700557709, "train_loss_llm": 0.2860450744628906, "grad_norm": 0.1087111383676529, "global_step": 3163, "epoch": 13, "lr": 0.00999585212351577}
+{"train_loss": 0.3496374189853668, "train_loss_bc": 0.07173389196395874, "train_loss_llm": 0.2779035270214081, "grad_norm": 0.17956912517547607, "global_step": 3164, "epoch": 13, "lr": 0.00999585212351577}
+{"train_loss": 0.36022239923477173, "train_loss_bc": 0.08076595515012741, "train_loss_llm": 0.2794564366340637, "grad_norm": 0.22283311188220978, "global_step": 3165, "epoch": 13, "lr": 0.00999585212351577}
+{"train_loss": 0.36848437786102295, "train_loss_bc": 0.0721568614244461, "train_loss_llm": 0.29632750153541565, "grad_norm": 0.25488775968551636, "global_step": 3166, "epoch": 13, "lr": 0.00999585212351577}
+{"train_loss": 0.3332591652870178, "train_loss_bc": 0.07924427092075348, "train_loss_llm": 0.25401487946510315, "grad_norm": 0.3314151167869568, "global_step": 3167, "epoch": 13, "lr": 0.00999585212351577}
+{"train_loss": 0.3458828032016754, "train_loss_bc": 0.07120486348867416, "train_loss_llm": 0.27467793226242065, "grad_norm": 0.3520168662071228, "global_step": 3168, "epoch": 13, "lr": 0.009995830607080185}
+{"train_loss": 0.29529696702957153, "train_loss_bc": 0.06348336488008499, "train_loss_llm": 0.23181360960006714, "grad_norm": 0.04806528612971306, "global_step": 3169, "epoch": 13, "lr": 0.009995830607080185}
+{"train_loss": 0.30538663268089294, "train_loss_bc": 0.062177013605833054, "train_loss_llm": 0.2432096302509308, "grad_norm": 0.1267123520374298, "global_step": 3170, "epoch": 13, "lr": 0.009995830607080185}
+{"train_loss": 0.3269312381744385, "train_loss_bc": 0.06065766513347626, "train_loss_llm": 0.266273558139801, "grad_norm": 0.15483948588371277, "global_step": 3171, "epoch": 13, "lr": 0.009995830607080185}
+{"train_loss": 0.3948427438735962, "train_loss_bc": 0.0874449759721756, "train_loss_llm": 0.3073977828025818, "grad_norm": 0.15704812109470367, "global_step": 3172, "epoch": 13, "lr": 0.009995830607080185}
+{"train_loss": 0.36869215965270996, "train_loss_bc": 0.06384338438510895, "train_loss_llm": 0.3048487901687622, "grad_norm": 0.24215812981128693, "global_step": 3173, "epoch": 13, "lr": 0.009995830607080185}
+{"train_loss": 0.3103427290916443, "train_loss_bc": 0.07096414268016815, "train_loss_llm": 0.23937857151031494, "grad_norm": 0.2375471591949463, "global_step": 3174, "epoch": 13, "lr": 0.009995830607080185}
+{"train_loss": 0.3364962041378021, "train_loss_bc": 0.07758170366287231, "train_loss_llm": 0.2589145004749298, "grad_norm": 0.22849933803081512, "global_step": 3175, "epoch": 13, "lr": 0.009995830607080185}
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/train.log b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..edeb460fe469c4eaa4abdf99a046f93427d26690
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/train.log
@@ -0,0 +1,8 @@
+[2026-01-21 13:23:22,551][numexpr.utils][INFO] - Note: detected 112 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+[2026-01-21 13:23:22,552][numexpr.utils][INFO] - Note: NumExpr detected 112 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
+[2026-01-21 13:23:22,552][numexpr.utils][INFO] - NumExpr defaulting to 16 threads.
+[2026-01-21 13:23:29,123][datasets][INFO] - PyTorch version 2.2.2 available.
+[2026-01-21 13:23:29,124][datasets][INFO] - TensorFlow version 2.15.1 available.
+[2026-01-21 13:23:29,124][datasets][INFO] - JAX version 0.4.30 available.
+[2026-01-21 13:23:37,746][absl][INFO] - MUJOCO_GL=osmesa, attempting to import specified OpenGL backend.
+[2026-01-21 13:23:37,756][absl][INFO] - MuJoCo library version is: 2.3.7
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/debug-internal.log b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..61a68096ff39514ec73df80d9e0b0b07163fc0c8
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2026-01-21T13:23:38.753171891+08:00","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2026-01-21T13:23:38.753181838+08:00","level":"INFO","msg":"created symlink","path":"/work/u1131674/LLM-BC/data/outputs/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/logs/debug-core.log"}
+{"time":"2026-01-21T13:23:38.869624659+08:00","level":"INFO","msg":"created new stream","id":"qrt50pak"}
+{"time":"2026-01-21T13:23:38.86965279+08:00","level":"INFO","msg":"stream: started","id":"qrt50pak"}
+{"time":"2026-01-21T13:23:38.869674992+08:00","level":"INFO","msg":"sender: started","stream_id":"qrt50pak"}
+{"time":"2026-01-21T13:23:38.869668588+08:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"qrt50pak"}}
+{"time":"2026-01-21T13:23:38.869681957+08:00","level":"INFO","msg":"handler: started","stream_id":{"value":"qrt50pak"}}
+{"time":"2026-01-21T13:23:39.592170431+08:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/debug.log b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..893f9998e8ca3a1c045af0b08a16b33b7ebad56e
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/debug.log
@@ -0,0 +1,26 @@
+2026-01-21 13:23:38,748 INFO    MainThread:3386836 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_setup.py:_flush():79] Configure stats pid to 3386836
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_setup.py:_flush():79] Loading settings from /home/u1131674/.config/wandb/settings
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_setup.py:_flush():79] Loading settings from /work/u1131674/LLM-BC/wandb/settings
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/work/u1131674/LLM-BC/train.py', 'program': '/work/u1131674/LLM-BC/./train.py'}
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_setup.py:_flush():79] Applying login settings: {}
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_init.py:_log_setup():533] Logging user logs to /work/u1131674/LLM-BC/data/outputs/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/logs/debug.log
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_init.py:_log_setup():534] Logging internal logs to /work/u1131674/LLM-BC/data/outputs/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/logs/debug-internal.log
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_init.py:init():619] calling init triggers
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llmbc_lowdim', '_target_': 'llmbc.workspace.train_llmbc_lowdim_workspace.TrainLLMBCLowdimWorkspace', 'obs_dim': 9, 'action_dim': 4, 'task_name': 'box-close-v2', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llmbc_lowdim_policy.LLMBCLowdimPolicy', 'model': {'_target_': 'llmbc.model.policy.policy_mlp.PolicyMLP', 'input_size': 9, 'hidden_size': [256, 256], 'output_size': 4, 'activation': 'relu', 'n_obs_steps': 1, 'n_action_steps': 1}, 'obs_dim': 9, 'action_dim': 4, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'box-close-v2', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2026.01.21/13.23.20_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 9, 'action_dim': 4, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_bc_weight': 1.0, 'loss_llm_weight': 1.0, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'normalize_llm_loss': True}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.01, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 42, 'debug': False, 'resume': False, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 10, 'num_epochs': 1001, 'gradient_accumulate_every': 8, 'grad_norm_clip': 0.5, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'sample_max_batch': 128, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'box-close-v2-training', 'resume': True, 'mode': 'online', 'name': '2026.01.21-13.23.20_train_llmbc_lowdim_box-close-v2', 'tags': ['train_llmbc_lowdim', 'box-close-v2', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2', 'wandb_name_base': '2026.01.21-13.23.20_train_llmbc_lowdim_box-close-v2'}, 'task': {'name': 'box-close-v2', 'obs_dim': 9, 'action_dim': 4, 'env_runner': {'_target_': 'llmbc.env_runner.metaworld_lowdim_runner.MetaworldLowdimRunner', 'env_name': 'llf-metaworld-box-close-v2', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 30, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.9}, 'dataset': {'_target_': 'llmbc.dataset.metaworld_lowdim_dataset.MetaworldLowdimDataset', 'data_path': 'datasets/box-close-v2.pt', 'data_path2': 'datasets/box-close-v2.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.1, 'dummy_normalizer': True}, 'instructor': {'_target_': 'llmbc.translator.instructor.metaworld_instructor.box_close_v2_instructor.BoxCloseV2Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2026.01.21/13.23.20_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_init.py:init():669] starting backend
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_init.py:init():673] sending inform_init request
+2026-01-21 13:23:38,751 INFO    MainThread:3386836 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2026-01-21 13:23:38,751 INFO    MainThread:3386836 [wandb_init.py:init():686] backend started and connected
+2026-01-21 13:23:38,761 INFO    MainThread:3386836 [wandb_init.py:init():781] updated telemetry
+2026-01-21 13:23:38,821 INFO    MainThread:3386836 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2026-01-21 13:23:39,587 INFO    MainThread:3386836 [wandb_init.py:init():867] starting run threads in backend
+2026-01-21 13:23:40,138 INFO    MainThread:3386836 [wandb_run.py:_console_start():2451] atexit reg
+2026-01-21 13:23:40,138 INFO    MainThread:3386836 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2026-01-21 13:23:40,138 INFO    MainThread:3386836 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2026-01-21 13:23:40,138 INFO    MainThread:3386836 [wandb_run.py:_redirect():2389] Redirects installed.
+2026-01-21 13:23:40,141 INFO    MainThread:3386836 [wandb_init.py:init():911] run started, returning control to user process
+2026-01-21 13:23:40,141 INFO    MainThread:3386836 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/work/u1131674/LLM-BC/data/outputs/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2'}
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/files/output.log b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..ba7b4831a970fa736950cf5f93852c424b6d55fb
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/files/output.log
@@ -0,0 +1,3 @@
+Eval MetaworldLowdimRunner 1/6:   0%|          | 0/30 [00:00<?, ?it/s]/work/u1131674/LLM-BC/llmbc/common/llfbench_util.py:39: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:275.)
+  obs = torch.tensor(obs, dtype=torch.float32).unsqueeze(dim=0).to(device)
+                                                                                                  
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/files/requirements.txt b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..f07fb3b63f6171592bfb40896c50e7c4e8ebe927
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/files/requirements.txt
@@ -0,0 +1,857 @@
+rpds-py==0.27.1
+typeguard==4.4.4
+flatbuffers==25.12.19
+toppra==0.6.3
+sympy==1.14.0
+tiktoken==0.8.0
+nvidia-cuda-cupti-cu12==12.1.105
+arm_pytorch_utilities==0.4.3
+pynndescent==0.6.0
+multidict==6.7.0
+fonttools==4.60.2
+numexpr==2.10.1
+cmudict==1.0.13
+PyOpenGL-accelerate==3.1.10
+gmpy2==2.2.1
+peft==0.14.0
+metaworld==2.0.0
+nvidia-cufft-cu12==11.0.2.54
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+pexpect==4.9.0
+protobuf==4.25.8
+typing_extensions==4.15.0
+mujoco==2.3.7
+tokenizers==0.21.0
+pytorch-kinematics==0.7.5
+sniffio==1.3.1
+aiofiles==25.1.0
+mplib==0.1.1
+wcwidth==0.2.14
+Pygments==2.19.1
+anyio==4.12.1
+tensorflow-estimator==2.15.0
+filelock==3.17.0
+numpy==1.23.5
+attrs==25.4.0
+Markdown==3.9
+fsspec==2024.3.1
+libclang==18.1.1
+umap-learn==0.5.9.post2
+dill==0.3.8
+narwhals==2.15.0
+tensorboard==2.15.2
+dacite==1.9.2
+termcolor==3.1.0
+llmbc==0.0.0
+python-multipart==0.0.20
+exceptiongroup==1.3.1
+sapien==3.0.0b1
+pygame==2.6.1
+nvidia-curand-cu12==10.3.2.106
+evaluate==0.4.3
+msgpack==1.1.1
+tensorflow-probability==0.23.0
+diffusers==0.31.0
+certifi==2025.10.5
+d4rl==1.1
+pydub==0.25.1
+annotated-doc==0.0.4
+gitdb==4.0.12
+gradio_client==0.2.9
+Shapely==1.8.4
+mani_skill==3.0.0b20
+tensorflow-io-gcs-filesystem==0.37.1
+fasteners==0.20
+hjson==3.1.0
+ninja==1.13.0
+stack-data==0.6.3
+pyarrow==21.0.0
+networkx==3.2.1
+nvidia-cusparse-cu12==12.1.0.106
+pyparsing==3.3.1
+timm==1.0.22
+typing-inspection==0.4.2
+openai==2.8.1
+pybullet==3.2.6
+hydra-core==1.2.0
+gradio==3.36.1
+tensorflow==2.15.1
+asttokens==3.0.1
+importlib-metadata==5.2.0
+astunparse==1.6.3
+tifffile==2024.8.30
+annotated-types==0.7.0
+Bottleneck==1.4.2
+accelerate==1.0.1
+pytz==2025.2
+urllib3==2.5.0
+frozenlist==1.8.0
+sentry-sdk==2.50.0
+jsonschema==4.25.1
+tyro==0.9.1
+Farama-Notifications==0.0.4
+ffmpy==1.0.0
+httpx==0.28.1
+pymunk==6.2.1
+shtab==1.7.2
+glfw==2.0.0
+hf-xet==1.1.8
+omegaconf==2.2.1
+blobfile==3.0.0
+decorator==5.2.1
+cffi==1.17.1
+matplotlib-inline==0.2.1
+eval_type_backport==0.2.2
+torchaudio==2.2.2
+colorama==0.4.6
+click==8.1.8
+Cython==0.29.37
+orjson==3.11.5
+gym_bandits==0.0.2
+traitlets==5.14.3
+docker-pycreds==0.4.0
+multiprocess==0.70.15
+zipp==3.21.0
+antlr4-python3-runtime==4.9.3
+uc-micro-py==1.0.3
+mpmath==1.3.0
+idna==3.11
+aiodns==3.5.0
+charset-normalizer==3.4.4
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-cuda-nvrtc-cu12==12.1.105
+seaborn==0.13.2
+pyarrow-hotfix==0.7
+pillow==11.3.0
+pyautogen==0.1.0
+requests==2.32.0
+MarkupSafe==3.0.2
+websockets==15.0.1
+nvidia-nccl-cu12==2.19.3
+pure_eval==0.2.3
+parso==0.8.5
+huggingface-hub==0.26.2
+syllables==1.0.9
+tf-agents==0.19.0
+six==1.17.0
+referencing==0.36.2
+ptyprocess==0.7.0
+platformdirs==4.4.0
+fastapi==0.128.0
+stable-baselines3==2.2.1
+av==10.0.0
+diskcache==5.6.3
+pynvml==13.0.1
+pytorch-seed==0.2.0
+zarr==2.12.0
+mdurl==0.1.2
+docstring-parser==0.16
+packaging==25.0
+numcodecs==0.12.1
+opt_einsum==3.4.0
+markdown-it-py==2.2.0
+nvidia-cuda-runtime-cu12==12.1.105
+PyWavelets==1.6.0
+datasets==2.19.0
+contourpy==1.3.0
+aiohappyeyeballs==2.6.1
+jaxlib==0.4.30
+ImageIO==2.37.2
+wandb==0.18.6
+jiter==0.12.0
+gymnasium==0.29.1
+pycryptodomex==3.23.0
+google-pasta==0.2.0
+ipython==8.18.1
+threadpoolctl==3.6.0
+py-cpuinfo==9.0.0
+bitsandbytes==0.45.0
+xxhash==3.5.0
+google-auth-oauthlib==1.2.4
+rsa==4.9.1
+rouge_score==0.1.2
+dm-control==1.0.14
+oauthlib==3.3.1
+pandas==2.3.3
+tenacity==9.1.2
+asciitree==0.3.3
+scipy==1.13.1
+jedi==0.19.2
+gast==0.7.0
+google-auth==2.47.0
+transforms3d==0.4.2
+kiwisolver==1.4.7
+matplotlib==3.7.5
+aiohttp==3.12.15
+pip==23.3.2
+imageio-ffmpeg==0.6.0
+deepspeed==0.16.1
+yarl==1.18.0
+nvidia-nvtx-cu12==12.1.105
+llfbench==0.1.0
+wheel==0.45.1
+PySocks==1.7.1
+ml-dtypes==0.3.2
+PyYAML==6.0.2
+fast_kinematics==0.2.2
+gin-config==0.5.0
+setproctitle==1.3.7
+safetensors==0.5.3
+torchvision==0.17.2
+semantic-version==2.10.0
+PyOpenGL==3.1.10
+nltk==3.9.2
+lxml==6.0.2
+pydantic==2.12.5
+tqdm==4.67.1
+keras==2.15.0
+parse==1.19.1
+linkify-it-py==2.0.3
+dm-tree==0.1.8
+requests-oauthlib==2.0.0
+scikit-learn==1.6.1
+altair==6.0.0
+Werkzeug==3.1.5
+sentencepiece==0.2.0
+uvicorn==0.39.0
+cycler==0.12.1
+transformers==4.47.1
+uvloop==0.22.1
+mkl_random==1.2.8
+GitPython==3.1.46
+regex==2025.9.1
+jax==0.4.30
+llvmlite==0.39.1
+pyasn1_modules==0.4.2
+nvidia-cudnn-cu12==8.9.2.26
+pydantic_core==2.41.5
+google-genai==1.47.0
+propcache==0.3.1
+pycares==4.10.0
+pyperclip==1.11.0
+pyasn1==0.6.2
+async-timeout==5.0.1
+psutil==7.0.0
+gym==0.23.1
+dm-env==1.6
+Jinja2==3.1.6
+sentence-transformers==3.2.1
+einops==0.4.1
+triton==2.2.0
+grpcio==1.76.0
+labmaze==1.0.6
+nvidia-ml-py==13.590.44
+brotlicffi==1.0.9.2
+smmap==5.0.2
+cloudpickle==3.1.2
+setuptools==80.9.0
+starlette==0.49.3
+prompt_toolkit==3.0.52
+wrapt==1.14.2
+h5py==3.14.0
+scikit-image==0.19.3
+joblib==1.5.3
+opencv-python==4.11.0.86
+rich==14.2.0
+trl==0.11.4
+gym-notices==0.1.0
+trimesh==4.11.1
+mdit-py-plugins==0.3.3
+distro==1.9.0
+executing==2.2.1
+mkl-service==2.4.0
+nvidia-cusolver-cu12==11.4.5.107
+FLAML==2.3.6
+mujoco-py==2.1.2.14
+h11==0.16.0
+highway-env==1.9.1
+httpcore==1.0.9
+tensorboard-data-server==0.7.2
+tzdata==2025.3
+absl-py==2.3.1
+jsonschema-specifications==2025.9.1
+numba==0.56.4
+tabulate==0.9.0
+importlib-resources==5.13.0
+pycparser==2.23
+mkl_fft==1.3.11
+torch==2.2.2
+nvidia-cublas-cu12==12.1.3.1
+rpds-py==0.27.1
+typeguard==4.4.4
+flatbuffers==25.12.19
+toppra==0.6.3
+sympy==1.14.0
+tiktoken==0.8.0
+nvidia-cuda-cupti-cu12==12.1.105
+arm_pytorch_utilities==0.4.3
+pynndescent==0.6.0
+multidict==6.7.0
+fonttools==4.60.2
+numexpr==2.10.1
+cmudict==1.0.13
+PyOpenGL-accelerate==3.1.10
+gmpy2==2.2.1
+peft==0.14.0
+metaworld==2.0.0
+nvidia-cufft-cu12==11.0.2.54
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+pexpect==4.9.0
+protobuf==4.25.8
+typing_extensions==4.15.0
+mujoco==2.3.7
+tokenizers==0.21.0
+pytorch-kinematics==0.7.5
+sniffio==1.3.1
+aiofiles==25.1.0
+mplib==0.1.1
+wcwidth==0.2.14
+Pygments==2.19.1
+anyio==4.12.1
+tensorflow-estimator==2.15.0
+filelock==3.17.0
+numpy==1.23.5
+attrs==25.4.0
+Markdown==3.9
+fsspec==2024.3.1
+libclang==18.1.1
+umap-learn==0.5.9.post2
+dill==0.3.8
+narwhals==2.15.0
+tensorboard==2.15.2
+dacite==1.9.2
+termcolor==3.1.0
+llmbc==0.0.0
+python-multipart==0.0.20
+exceptiongroup==1.3.1
+sapien==3.0.0b1
+pygame==2.6.1
+nvidia-curand-cu12==10.3.2.106
+evaluate==0.4.3
+msgpack==1.1.1
+tensorflow-probability==0.23.0
+diffusers==0.31.0
+certifi==2025.10.5
+d4rl==1.1
+pydub==0.25.1
+annotated-doc==0.0.4
+gitdb==4.0.12
+gradio_client==0.2.9
+Shapely==1.8.4
+mani_skill==3.0.0b20
+tensorflow-io-gcs-filesystem==0.37.1
+fasteners==0.20
+hjson==3.1.0
+ninja==1.13.0
+stack-data==0.6.3
+pyarrow==21.0.0
+networkx==3.2.1
+nvidia-cusparse-cu12==12.1.0.106
+pyparsing==3.3.1
+timm==1.0.22
+typing-inspection==0.4.2
+openai==2.8.1
+pybullet==3.2.6
+hydra-core==1.2.0
+gradio==3.36.1
+tensorflow==2.15.1
+asttokens==3.0.1
+importlib-metadata==5.2.0
+astunparse==1.6.3
+tifffile==2024.8.30
+annotated-types==0.7.0
+Bottleneck==1.4.2
+accelerate==1.0.1
+pytz==2025.2
+urllib3==2.5.0
+frozenlist==1.8.0
+sentry-sdk==2.50.0
+jsonschema==4.25.1
+tyro==0.9.1
+Farama-Notifications==0.0.4
+ffmpy==1.0.0
+httpx==0.28.1
+pymunk==6.2.1
+shtab==1.7.2
+glfw==2.0.0
+hf-xet==1.1.8
+omegaconf==2.2.1
+blobfile==3.0.0
+decorator==5.2.1
+cffi==1.17.1
+matplotlib-inline==0.2.1
+eval_type_backport==0.2.2
+torchaudio==2.2.2
+colorama==0.4.6
+click==8.1.8
+Cython==0.29.37
+orjson==3.11.5
+gym_bandits==0.0.2
+traitlets==5.14.3
+docker-pycreds==0.4.0
+multiprocess==0.70.15
+zipp==3.21.0
+antlr4-python3-runtime==4.9.3
+uc-micro-py==1.0.3
+mpmath==1.3.0
+idna==3.11
+aiodns==3.5.0
+charset-normalizer==3.4.4
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-cuda-nvrtc-cu12==12.1.105
+seaborn==0.13.2
+pyarrow-hotfix==0.7
+pillow==11.3.0
+pyautogen==0.1.0
+requests==2.32.0
+MarkupSafe==3.0.2
+websockets==15.0.1
+nvidia-nccl-cu12==2.19.3
+pure_eval==0.2.3
+parso==0.8.5
+huggingface-hub==0.26.2
+syllables==1.0.9
+tf-agents==0.19.0
+six==1.17.0
+referencing==0.36.2
+ptyprocess==0.7.0
+platformdirs==4.4.0
+fastapi==0.128.0
+stable-baselines3==2.2.1
+av==10.0.0
+diskcache==5.6.3
+pynvml==13.0.1
+pytorch-seed==0.2.0
+zarr==2.12.0
+mdurl==0.1.2
+docstring-parser==0.16
+packaging==25.0
+numcodecs==0.12.1
+opt_einsum==3.4.0
+markdown-it-py==2.2.0
+nvidia-cuda-runtime-cu12==12.1.105
+PyWavelets==1.6.0
+datasets==2.19.0
+contourpy==1.3.0
+aiohappyeyeballs==2.6.1
+jaxlib==0.4.30
+ImageIO==2.37.2
+wandb==0.18.6
+jiter==0.12.0
+gymnasium==0.29.1
+pycryptodomex==3.23.0
+google-pasta==0.2.0
+ipython==8.18.1
+threadpoolctl==3.6.0
+py-cpuinfo==9.0.0
+bitsandbytes==0.45.0
+xxhash==3.5.0
+google-auth-oauthlib==1.2.4
+rsa==4.9.1
+rouge_score==0.1.2
+dm-control==1.0.14
+oauthlib==3.3.1
+pandas==2.3.3
+tenacity==9.1.2
+asciitree==0.3.3
+scipy==1.13.1
+jedi==0.19.2
+gast==0.7.0
+google-auth==2.47.0
+transforms3d==0.4.2
+kiwisolver==1.4.7
+matplotlib==3.7.5
+aiohttp==3.12.15
+pip==23.3.2
+imageio-ffmpeg==0.6.0
+deepspeed==0.16.1
+yarl==1.18.0
+nvidia-nvtx-cu12==12.1.105
+llfbench==0.1.0
+wheel==0.45.1
+PySocks==1.7.1
+ml-dtypes==0.3.2
+PyYAML==6.0.2
+fast_kinematics==0.2.2
+gin-config==0.5.0
+setproctitle==1.3.7
+safetensors==0.5.3
+torchvision==0.17.2
+semantic-version==2.10.0
+PyOpenGL==3.1.10
+nltk==3.9.2
+lxml==6.0.2
+pydantic==2.12.5
+tqdm==4.67.1
+keras==2.15.0
+parse==1.19.1
+linkify-it-py==2.0.3
+dm-tree==0.1.8
+requests-oauthlib==2.0.0
+scikit-learn==1.6.1
+altair==6.0.0
+Werkzeug==3.1.5
+sentencepiece==0.2.0
+uvicorn==0.39.0
+cycler==0.12.1
+transformers==4.47.1
+uvloop==0.22.1
+mkl_random==1.2.8
+GitPython==3.1.46
+regex==2025.9.1
+jax==0.4.30
+llvmlite==0.39.1
+pyasn1_modules==0.4.2
+nvidia-cudnn-cu12==8.9.2.26
+pydantic_core==2.41.5
+google-genai==1.47.0
+propcache==0.3.1
+pycares==4.10.0
+pyperclip==1.11.0
+pyasn1==0.6.2
+async-timeout==5.0.1
+psutil==7.0.0
+gym==0.23.1
+dm-env==1.6
+Jinja2==3.1.6
+sentence-transformers==3.2.1
+einops==0.4.1
+triton==2.2.0
+grpcio==1.76.0
+labmaze==1.0.6
+nvidia-ml-py==13.590.44
+brotlicffi==1.0.9.2
+smmap==5.0.2
+cloudpickle==3.1.2
+setuptools==80.9.0
+starlette==0.49.3
+prompt_toolkit==3.0.52
+wrapt==1.14.2
+h5py==3.14.0
+scikit-image==0.19.3
+joblib==1.5.3
+opencv-python==4.11.0.86
+rich==14.2.0
+trl==0.11.4
+gym-notices==0.1.0
+trimesh==4.11.1
+mdit-py-plugins==0.3.3
+distro==1.9.0
+executing==2.2.1
+mkl-service==2.4.0
+nvidia-cusolver-cu12==11.4.5.107
+FLAML==2.3.6
+mujoco-py==2.1.2.14
+h11==0.16.0
+highway-env==1.9.1
+httpcore==1.0.9
+tensorboard-data-server==0.7.2
+tzdata==2025.3
+absl-py==2.3.1
+jsonschema-specifications==2025.9.1
+numba==0.56.4
+tabulate==0.9.0
+importlib-resources==5.13.0
+pycparser==2.23
+mkl_fft==1.3.11
+torch==2.2.2
+nvidia-cublas-cu12==12.1.3.1
+llmbc==0.0.0
+rpds-py==0.27.1
+typeguard==4.4.4
+flatbuffers==25.12.19
+toppra==0.6.3
+sympy==1.14.0
+tiktoken==0.8.0
+nvidia-cuda-cupti-cu12==12.1.105
+arm_pytorch_utilities==0.4.3
+pynndescent==0.6.0
+multidict==6.7.0
+fonttools==4.60.2
+numexpr==2.10.1
+cmudict==1.0.13
+PyOpenGL-accelerate==3.1.10
+gmpy2==2.2.1
+peft==0.14.0
+metaworld==2.0.0
+nvidia-cufft-cu12==11.0.2.54
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+pexpect==4.9.0
+protobuf==4.25.8
+typing_extensions==4.15.0
+mujoco==2.3.7
+tokenizers==0.21.0
+pytorch-kinematics==0.7.5
+sniffio==1.3.1
+aiofiles==25.1.0
+mplib==0.1.1
+wcwidth==0.2.14
+Pygments==2.19.1
+anyio==4.12.1
+tensorflow-estimator==2.15.0
+filelock==3.17.0
+numpy==1.23.5
+attrs==25.4.0
+Markdown==3.9
+fsspec==2024.3.1
+libclang==18.1.1
+umap-learn==0.5.9.post2
+dill==0.3.8
+narwhals==2.15.0
+tensorboard==2.15.2
+dacite==1.9.2
+termcolor==3.1.0
+llmbc==0.0.0
+python-multipart==0.0.20
+exceptiongroup==1.3.1
+sapien==3.0.0b1
+pygame==2.6.1
+nvidia-curand-cu12==10.3.2.106
+evaluate==0.4.3
+msgpack==1.1.1
+tensorflow-probability==0.23.0
+diffusers==0.31.0
+certifi==2025.10.5
+d4rl==1.1
+pydub==0.25.1
+annotated-doc==0.0.4
+gitdb==4.0.12
+gradio_client==0.2.9
+Shapely==1.8.4
+mani_skill==3.0.0b20
+tensorflow-io-gcs-filesystem==0.37.1
+fasteners==0.20
+hjson==3.1.0
+ninja==1.13.0
+stack-data==0.6.3
+pyarrow==21.0.0
+networkx==3.2.1
+nvidia-cusparse-cu12==12.1.0.106
+pyparsing==3.3.1
+timm==1.0.22
+typing-inspection==0.4.2
+openai==2.8.1
+pybullet==3.2.6
+hydra-core==1.2.0
+gradio==3.36.1
+tensorflow==2.15.1
+asttokens==3.0.1
+importlib-metadata==5.2.0
+astunparse==1.6.3
+tifffile==2024.8.30
+annotated-types==0.7.0
+Bottleneck==1.4.2
+accelerate==1.0.1
+pytz==2025.2
+urllib3==2.5.0
+frozenlist==1.8.0
+sentry-sdk==2.50.0
+jsonschema==4.25.1
+tyro==0.9.1
+Farama-Notifications==0.0.4
+ffmpy==1.0.0
+httpx==0.28.1
+pymunk==6.2.1
+shtab==1.7.2
+glfw==2.0.0
+hf-xet==1.1.8
+omegaconf==2.2.1
+blobfile==3.0.0
+decorator==5.2.1
+cffi==1.17.1
+matplotlib-inline==0.2.1
+eval_type_backport==0.2.2
+torchaudio==2.2.2
+colorama==0.4.6
+click==8.1.8
+Cython==0.29.37
+orjson==3.11.5
+gym_bandits==0.0.2
+traitlets==5.14.3
+docker-pycreds==0.4.0
+multiprocess==0.70.15
+zipp==3.21.0
+antlr4-python3-runtime==4.9.3
+uc-micro-py==1.0.3
+mpmath==1.3.0
+idna==3.11
+aiodns==3.5.0
+charset-normalizer==3.4.4
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-cuda-nvrtc-cu12==12.1.105
+seaborn==0.13.2
+pyarrow-hotfix==0.7
+pillow==11.3.0
+pyautogen==0.1.0
+requests==2.32.0
+MarkupSafe==3.0.2
+websockets==15.0.1
+nvidia-nccl-cu12==2.19.3
+pure_eval==0.2.3
+parso==0.8.5
+huggingface-hub==0.26.2
+syllables==1.0.9
+tf-agents==0.19.0
+six==1.17.0
+referencing==0.36.2
+ptyprocess==0.7.0
+platformdirs==4.4.0
+fastapi==0.128.0
+stable-baselines3==2.2.1
+av==10.0.0
+diskcache==5.6.3
+pynvml==13.0.1
+pytorch-seed==0.2.0
+zarr==2.12.0
+mdurl==0.1.2
+docstring-parser==0.16
+packaging==25.0
+numcodecs==0.12.1
+opt_einsum==3.4.0
+markdown-it-py==2.2.0
+nvidia-cuda-runtime-cu12==12.1.105
+PyWavelets==1.6.0
+datasets==2.19.0
+contourpy==1.3.0
+aiohappyeyeballs==2.6.1
+jaxlib==0.4.30
+ImageIO==2.37.2
+wandb==0.18.6
+jiter==0.12.0
+gymnasium==0.29.1
+pycryptodomex==3.23.0
+google-pasta==0.2.0
+ipython==8.18.1
+threadpoolctl==3.6.0
+py-cpuinfo==9.0.0
+bitsandbytes==0.45.0
+xxhash==3.5.0
+google-auth-oauthlib==1.2.4
+rsa==4.9.1
+rouge_score==0.1.2
+dm-control==1.0.14
+oauthlib==3.3.1
+pandas==2.3.3
+tenacity==9.1.2
+asciitree==0.3.3
+scipy==1.13.1
+jedi==0.19.2
+gast==0.7.0
+google-auth==2.47.0
+transforms3d==0.4.2
+kiwisolver==1.4.7
+matplotlib==3.7.5
+aiohttp==3.12.15
+pip==23.3.2
+imageio-ffmpeg==0.6.0
+deepspeed==0.16.1
+yarl==1.18.0
+nvidia-nvtx-cu12==12.1.105
+llfbench==0.1.0
+wheel==0.45.1
+PySocks==1.7.1
+ml-dtypes==0.3.2
+PyYAML==6.0.2
+fast_kinematics==0.2.2
+gin-config==0.5.0
+setproctitle==1.3.7
+safetensors==0.5.3
+torchvision==0.17.2
+semantic-version==2.10.0
+PyOpenGL==3.1.10
+nltk==3.9.2
+lxml==6.0.2
+pydantic==2.12.5
+tqdm==4.67.1
+keras==2.15.0
+parse==1.19.1
+linkify-it-py==2.0.3
+dm-tree==0.1.8
+requests-oauthlib==2.0.0
+scikit-learn==1.6.1
+altair==6.0.0
+Werkzeug==3.1.5
+sentencepiece==0.2.0
+uvicorn==0.39.0
+cycler==0.12.1
+transformers==4.47.1
+uvloop==0.22.1
+mkl_random==1.2.8
+GitPython==3.1.46
+regex==2025.9.1
+jax==0.4.30
+llvmlite==0.39.1
+pyasn1_modules==0.4.2
+nvidia-cudnn-cu12==8.9.2.26
+pydantic_core==2.41.5
+google-genai==1.47.0
+propcache==0.3.1
+pycares==4.10.0
+pyperclip==1.11.0
+pyasn1==0.6.2
+async-timeout==5.0.1
+psutil==7.0.0
+gym==0.23.1
+dm-env==1.6
+Jinja2==3.1.6
+sentence-transformers==3.2.1
+einops==0.4.1
+triton==2.2.0
+grpcio==1.76.0
+labmaze==1.0.6
+nvidia-ml-py==13.590.44
+brotlicffi==1.0.9.2
+smmap==5.0.2
+cloudpickle==3.1.2
+setuptools==80.9.0
+starlette==0.49.3
+prompt_toolkit==3.0.52
+wrapt==1.14.2
+h5py==3.14.0
+scikit-image==0.19.3
+joblib==1.5.3
+opencv-python==4.11.0.86
+rich==14.2.0
+trl==0.11.4
+gym-notices==0.1.0
+trimesh==4.11.1
+mdit-py-plugins==0.3.3
+distro==1.9.0
+executing==2.2.1
+mkl-service==2.4.0
+nvidia-cusolver-cu12==11.4.5.107
+FLAML==2.3.6
+mujoco-py==2.1.2.14
+h11==0.16.0
+highway-env==1.9.1
+httpcore==1.0.9
+tensorboard-data-server==0.7.2
+tzdata==2025.3
+absl-py==2.3.1
+jsonschema-specifications==2025.9.1
+numba==0.56.4
+tabulate==0.9.0
+importlib-resources==5.13.0
+pycparser==2.23
+mkl_fft==1.3.11
+torch==2.2.2
+nvidia-cublas-cu12==12.1.3.1
+zipp==3.19.2
+jaraco.text==3.12.1
+jaraco.context==5.3.0
+importlib_metadata==8.0.0
+typeguard==4.3.0
+inflect==7.3.1
+more-itertools==10.3.0
+wheel==0.45.1
+packaging==24.2
+backports.tarfile==1.2.0
+autocommand==2.2.2
+jaraco.collections==5.1.0
+tomli==2.0.1
+platformdirs==4.2.2
+jaraco.functools==4.0.1
+typing_extensions==4.12.2
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/files/wandb-metadata.json b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..179bca12e24d0920e4a2b0677b6bbfdb1455c850
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/files/wandb-metadata.json
@@ -0,0 +1,108 @@
+{
+  "os": "Linux-4.18.0-513.24.1.el8_9.x86_64-x86_64-with-glibc2.28",
+  "python": "3.9.25",
+  "startedAt": "2026-01-21T05:23:38.751480Z",
+  "args": [
+    "--config-path",
+    "./config/main_table",
+    "--config-name",
+    "llmbc_box-close-v2.yaml",
+    "policy.loss_llm_weight=1.0",
+    "training.seed=42"
+  ],
+  "program": "/work/u1131674/LLM-BC/./train.py",
+  "codePath": "train.py",
+  "git": {
+    "remote": "https://github.com/CHYang25/LLM-BC.git",
+    "commit": "1d2e1f5818e116390426ef596d075fc0cf1b0081"
+  },
+  "email": "chris920325@gmail.com",
+  "root": "/work/u1131674/LLM-BC/data/outputs/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2",
+  "host": "hgpn20",
+  "username": "u1131674",
+  "executable": "/home/u1131674/.conda/envs/llm-bc/bin/python3",
+  "codePathLocal": "train.py",
+  "cpu_count": 112,
+  "cpu_count_logical": 112,
+  "gpu": "NVIDIA H100 80GB HBM3",
+  "gpu_count": 1,
+  "disk": {
+    "/": {
+      "total": "1918024196096",
+      "used": "295892602880"
+    }
+  },
+  "memory": {
+    "total": "2163676991488"
+  },
+  "cpu": {
+    "count": 112,
+    "countLogical": 112
+  },
+  "gpu_nvidia": [
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    }
+  ],
+  "slurm": {
+    "cluster_name": "hpc",
+    "conf": "/etc/slurm/slurm.conf",
+    "cpu_bind": "quiet,mask_cpu:0x00000000F0000F00000000000000",
+    "cpu_bind_list": "0x00000000F0000F00000000000000",
+    "cpu_bind_type": "mask_cpu:",
+    "cpu_bind_verbose": "quiet",
+    "cpus_on_node": "8",
+    "cpus_per_task": "8",
+    "distribution": "cyclic,pack",
+    "gpus_on_node": "1",
+    "gpus_per_node": "1",
+    "gtids": "0",
+    "job_account": "mst114558",
+    "job_cpus_per_node": "8",
+    "job_end_time": "1769145798",
+    "job_gid": "106773",
+    "job_group": "MST114558",
+    "job_id": "99328",
+    "job_name": "python3",
+    "job_nodelist": "hgpn20",
+    "job_num_nodes": "1",
+    "job_partition": "normal",
+    "job_qos": "normal",
+    "job_start_time": "1768972998",
+    "job_uid": "41408",
+    "job_user": "u1131674",
+    "jobid": "99328",
+    "launch_node_ipaddr": "172.21.101.1",
+    "localid": "0",
+    "mem_per_node": "204800",
+    "nnodes": "1",
+    "nodeid": "0",
+    "nodelist": "hgpn20",
+    "nprocs": "1",
+    "ntasks": "1",
+    "prio_process": "0",
+    "procid": "0",
+    "srun_comm_host": "172.21.101.1",
+    "srun_comm_port": "42001",
+    "step_gpus": "4",
+    "step_id": "0",
+    "step_launcher_port": "42001",
+    "step_nodelist": "hgpn20",
+    "step_num_nodes": "1",
+    "step_num_tasks": "1",
+    "step_tasks_per_node": "1",
+    "stepid": "0",
+    "submit_dir": "/work/u1131674/LLM-BC",
+    "submit_host": "cbi-lgn01",
+    "task_pid": "3386836",
+    "tasks_per_node": "1",
+    "topology_addr": "ibsw1.hgpn20",
+    "topology_addr_pattern": "switch.node",
+    "tres_per_task": "cpu:8",
+    "umask": "0022"
+  },
+  "cudaVersion": "12.4"
+}
\ No newline at end of file
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/logs/debug-core.log b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..f7a615f18b425b008cad4626667ba26a5d3a105f
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/logs/debug-core.log
@@ -0,0 +1,7 @@
+{"time":"2026-01-21T13:23:38.126643482+08:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmp4dog8n1a/port-3386836.txt","pid":3386836,"debug":false,"disable-analytics":false}
+{"time":"2026-01-21T13:23:38.126667225+08:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2026-01-21T13:23:38.127043895+08:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":3386836}
+{"time":"2026-01-21T13:23:38.12703605+08:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":38549,"Zone":""}}
+{"time":"2026-01-21T13:23:38.320455305+08:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:44084"}
+{"time":"2026-01-21T13:23:38.752031621+08:00","level":"INFO","msg":"handleInformInit: received","streamId":"qrt50pak","id":"127.0.0.1:44084"}
+{"time":"2026-01-21T13:23:38.869657269+08:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"qrt50pak","id":"127.0.0.1:44084"}
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/logs/debug-internal.log b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..61a68096ff39514ec73df80d9e0b0b07163fc0c8
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2026-01-21T13:23:38.753171891+08:00","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2026-01-21T13:23:38.753181838+08:00","level":"INFO","msg":"created symlink","path":"/work/u1131674/LLM-BC/data/outputs/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/logs/debug-core.log"}
+{"time":"2026-01-21T13:23:38.869624659+08:00","level":"INFO","msg":"created new stream","id":"qrt50pak"}
+{"time":"2026-01-21T13:23:38.86965279+08:00","level":"INFO","msg":"stream: started","id":"qrt50pak"}
+{"time":"2026-01-21T13:23:38.869674992+08:00","level":"INFO","msg":"sender: started","stream_id":"qrt50pak"}
+{"time":"2026-01-21T13:23:38.869668588+08:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"qrt50pak"}}
+{"time":"2026-01-21T13:23:38.869681957+08:00","level":"INFO","msg":"handler: started","stream_id":{"value":"qrt50pak"}}
+{"time":"2026-01-21T13:23:39.592170431+08:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/logs/debug.log b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..893f9998e8ca3a1c045af0b08a16b33b7ebad56e
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/logs/debug.log
@@ -0,0 +1,26 @@
+2026-01-21 13:23:38,748 INFO    MainThread:3386836 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_setup.py:_flush():79] Configure stats pid to 3386836
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_setup.py:_flush():79] Loading settings from /home/u1131674/.config/wandb/settings
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_setup.py:_flush():79] Loading settings from /work/u1131674/LLM-BC/wandb/settings
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/work/u1131674/LLM-BC/train.py', 'program': '/work/u1131674/LLM-BC/./train.py'}
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_setup.py:_flush():79] Applying login settings: {}
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_init.py:_log_setup():533] Logging user logs to /work/u1131674/LLM-BC/data/outputs/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/logs/debug.log
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_init.py:_log_setup():534] Logging internal logs to /work/u1131674/LLM-BC/data/outputs/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/logs/debug-internal.log
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_init.py:init():619] calling init triggers
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llmbc_lowdim', '_target_': 'llmbc.workspace.train_llmbc_lowdim_workspace.TrainLLMBCLowdimWorkspace', 'obs_dim': 9, 'action_dim': 4, 'task_name': 'box-close-v2', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llmbc_lowdim_policy.LLMBCLowdimPolicy', 'model': {'_target_': 'llmbc.model.policy.policy_mlp.PolicyMLP', 'input_size': 9, 'hidden_size': [256, 256], 'output_size': 4, 'activation': 'relu', 'n_obs_steps': 1, 'n_action_steps': 1}, 'obs_dim': 9, 'action_dim': 4, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'box-close-v2', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2026.01.21/13.23.20_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 9, 'action_dim': 4, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_bc_weight': 1.0, 'loss_llm_weight': 1.0, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'normalize_llm_loss': True}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.01, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 42, 'debug': False, 'resume': False, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 10, 'num_epochs': 1001, 'gradient_accumulate_every': 8, 'grad_norm_clip': 0.5, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'sample_max_batch': 128, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'box-close-v2-training', 'resume': True, 'mode': 'online', 'name': '2026.01.21-13.23.20_train_llmbc_lowdim_box-close-v2', 'tags': ['train_llmbc_lowdim', 'box-close-v2', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2', 'wandb_name_base': '2026.01.21-13.23.20_train_llmbc_lowdim_box-close-v2'}, 'task': {'name': 'box-close-v2', 'obs_dim': 9, 'action_dim': 4, 'env_runner': {'_target_': 'llmbc.env_runner.metaworld_lowdim_runner.MetaworldLowdimRunner', 'env_name': 'llf-metaworld-box-close-v2', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 30, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.9}, 'dataset': {'_target_': 'llmbc.dataset.metaworld_lowdim_dataset.MetaworldLowdimDataset', 'data_path': 'datasets/box-close-v2.pt', 'data_path2': 'datasets/box-close-v2.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.1, 'dummy_normalizer': True}, 'instructor': {'_target_': 'llmbc.translator.instructor.metaworld_instructor.box_close_v2_instructor.BoxCloseV2Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2026.01.21/13.23.20_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_init.py:init():669] starting backend
+2026-01-21 13:23:38,749 INFO    MainThread:3386836 [wandb_init.py:init():673] sending inform_init request
+2026-01-21 13:23:38,751 INFO    MainThread:3386836 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2026-01-21 13:23:38,751 INFO    MainThread:3386836 [wandb_init.py:init():686] backend started and connected
+2026-01-21 13:23:38,761 INFO    MainThread:3386836 [wandb_init.py:init():781] updated telemetry
+2026-01-21 13:23:38,821 INFO    MainThread:3386836 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2026-01-21 13:23:39,587 INFO    MainThread:3386836 [wandb_init.py:init():867] starting run threads in backend
+2026-01-21 13:23:40,138 INFO    MainThread:3386836 [wandb_run.py:_console_start():2451] atexit reg
+2026-01-21 13:23:40,138 INFO    MainThread:3386836 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2026-01-21 13:23:40,138 INFO    MainThread:3386836 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2026-01-21 13:23:40,138 INFO    MainThread:3386836 [wandb_run.py:_redirect():2389] Redirects installed.
+2026-01-21 13:23:40,141 INFO    MainThread:3386836 [wandb_init.py:init():911] run started, returning control to user process
+2026-01-21 13:23:40,141 INFO    MainThread:3386836 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/work/u1131674/LLM-BC/data/outputs/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2'}
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/run-qrt50pak.wandb b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/run-qrt50pak.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..f5cb666f8f3f840d1ff4c819e8176c15b984d48d
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132338-qrt50pak/run-qrt50pak.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8a1c4d8eb97c043def8939ff6de1174db2bf35d0d62f2c479ed2e931ec40bd22
+size 2490368
diff --git a/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/wandb-resume.json b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/wandb-resume.json
new file mode 100644
index 0000000000000000000000000000000000000000..1fa7dbd2be1016f983402a9f1a4fcfcdf924569e
--- /dev/null
+++ b/2026.01.21/13.23.20_train_llmbc_lowdim_box-close-v2/wandb/wandb-resume.json
@@ -0,0 +1 @@
+{"run_id": "qrt50pak"}
\ No newline at end of file
diff --git a/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..dbac0a589bc64027ecc46856f6f9281c71b1f489
--- /dev/null
+++ b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/.hydra/config.yaml
@@ -0,0 +1,163 @@
+name: train_llmbc_lowdim
+_target_: llmbc.workspace.train_llmbc_lowdim_workspace.TrainLLMBCLowdimWorkspace
+obs_dim: ${task.obs_dim}
+action_dim: ${task.action_dim}
+task_name: ${task.name}
+exp_name: default
+model_name: ${llm.name}
+horizon: 1
+n_obs_steps: 1
+n_action_steps: 1
+n_latency_steps: 0
+past_action_visible: false
+llm_orig_expert_feedback: true
+llm_do_sample: false
+policy:
+  _target_: llmbc.policy.llmbc_lowdim_policy.LLMBCLowdimPolicy
+  model:
+    _target_: llmbc.model.policy.policy_mlp.PolicyMLP
+    input_size: ${eval:'${n_obs_steps}*${obs_dim}'}
+    hidden_size:
+    - 256
+    - 256
+    output_size: ${eval:'${n_action_steps}*${action_dim}'}
+    activation: relu
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+  obs_dim: ${obs_dim}
+  action_dim: ${action_dim}
+  llm_discriminator:
+    _target_: llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator
+    task_id: ${task_name}
+    llm_translator:
+      _target_: llmbc.translator.llm_translator.LLMTranslator
+      cfg: ${llm}
+      obs_dim: ${task.obs_dim}
+      action_dim: ${task.action_dim}
+      horizon: ${horizon}
+      n_obs_steps: ${n_obs_steps}
+      n_action_steps: ${n_action_steps}
+  loss_bc_weight: 1.0
+  loss_llm_weight: 0.1
+  horizon: ${horizon}
+  n_obs_steps: ${n_obs_steps}
+  n_action_steps: ${n_action_steps}
+  normalize_llm_loss: true
+dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+val_dataloader:
+  batch_size: 16
+  num_workers: 0
+  shuffle: true
+  pin_memory: false
+  persistent_workers: false
+optimizer:
+  _target_: torch.optim.AdamW
+  lr: 0.01
+  betas:
+  - 0.95
+  - 0.999
+  eps: 1.0e-08
+  weight_decay: 1.0e-06
+training:
+  device: cuda:0
+  seed: 42
+  debug: false
+  resume: false
+  lr_scheduler: cosine
+  lr_warmup_steps: 10
+  num_epochs: 1001
+  gradient_accumulate_every: 8
+  grad_norm_clip: 0.5
+  rollout_every: 5
+  checkpoint_every: 5
+  val_every: 1
+  sample_every: 5
+  sample_max_batch: 128
+  max_train_steps: null
+  max_val_steps: null
+  tqdm_interval_sec: 1.0
+logging:
+  project: ${task.name}-training
+  resume: true
+  mode: online
+  name: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+  tags:
+  - ${name}
+  - ${task_name}
+  - ${exp_name}
+  id: null
+  group: null
+checkpoint:
+  topk:
+    monitor_key: test_success_rate
+    mode: max
+    k: 5
+    format_str: epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt
+  save_last_ckpt: true
+  save_last_snapshot: false
+multi_run:
+  run_dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  wandb_name_base: ${now:%Y.%m.%d-%H.%M.%S}_${name}_${task_name}
+task:
+  name: box-close-v2
+  obs_dim: 9
+  action_dim: 4
+  env_runner:
+    _target_: llmbc.env_runner.metaworld_lowdim_runner.MetaworldLowdimRunner
+    env_name: llf-metaworld-box-close-v2
+    n_train: 10
+    n_test: 50
+    n_envs: 10
+    max_steps: 30
+    n_obs_steps: ${n_obs_steps}
+    n_action_steps: ${n_action_steps}
+    instruction_type: b
+    feedback_type:
+    - hp
+    - hn
+    - fp
+    visual: false
+    discount: 0.9
+  dataset:
+    _target_: llmbc.dataset.metaworld_lowdim_dataset.MetaworldLowdimDataset
+    data_path: datasets/box-close-v2.pt
+    data_path2: datasets/box-close-v2.pt
+    horizon: ${horizon}
+    pad_before: ${eval:'${n_obs_steps}-1'}
+    pad_after: ${eval:'${n_action_steps}-1'}
+    obs_eef_target: true
+    use_manual_normalizer: false
+    val_ratio: 0.1
+    dummy_normalizer: true
+  instructor:
+    _target_: llmbc.translator.instructor.metaworld_instructor.box_close_v2_instructor.BoxCloseV2Instructor
+llm:
+  name: HuggingFaceTB/SmolLM2-135M-Instruct
+  model_name: SmolLM2-135M-Instruct
+  config_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig
+  causal_lm_target: llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM
+  use_quantization: false
+  use_joint_mlp_projector: true
+  llm_mode: ete-finetuned
+  finetune_mode: orig
+  checkpoint: data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890
+  max_length: 100
+  lora_config:
+    r: 32
+    lora_alpha: 64
+    lora_dropout: 0.05
+    bias: none
+    task_type: CAUSAL_LM
+  prompter:
+    _target_: llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter
+    use_joint_mlp_projector: true
+  hydra:
+    job:
+      override_dirname: ${model_name}
+    run:
+      dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${model_name}
diff --git a/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..a1ca0079a7254e195b69c41ed43ee9b07881e7db
--- /dev/null
+++ b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/.hydra/hydra.yaml
@@ -0,0 +1,156 @@
+hydra:
+  run:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+  sweep:
+    dir: data/outputs/${now:%Y.%m.%d}/${now:%H.%M.%S}_${name}_${task_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+
+      Use --hydra-help to view Hydra specific help
+
+      '
+    template: '${hydra.help.header}
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (group=option)
+
+
+      $APP_CONFIG_GROUPS
+
+
+      == Config ==
+
+      Override anything in the config (foo.bar=value)
+
+
+      $CONFIG
+
+
+      ${hydra.help.footer}
+
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+
+      See https://hydra.cc for more info.
+
+
+      == Flags ==
+
+      $FLAGS_HELP
+
+
+      == Configuration groups ==
+
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+
+
+      $HYDRA_CONFIG_GROUPS
+
+
+      Use ''--cfg hydra'' to Show the Hydra config.
+
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - policy.loss_llm_weight=1.0e-1
+    - training.seed=42
+  job:
+    name: train
+    chdir: null
+    override_dirname: policy.loss_llm_weight=1.0e-1,training.seed=42
+    id: ???
+    num: ???
+    config_name: llmbc_box-close-v2.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.2.0
+    version_base: '1.2'
+    cwd: /work/u1131674/LLM-BC
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /work/u1131674/LLM-BC/config/main_table
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /work/u1131674/LLM-BC/data/outputs/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2
+    choices:
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false
diff --git a/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..67a7e30da86d28b6a14e22c042fd78a69ac1a880
--- /dev/null
+++ b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/.hydra/overrides.yaml
@@ -0,0 +1,2 @@
+- policy.loss_llm_weight=1.0e-1
+- training.seed=42
diff --git a/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/checkpoints/epoch=0000-test_success_rate=0.000.ckpt b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/checkpoints/epoch=0000-test_success_rate=0.000.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..e5ca2a66f9b7f75d14088140b5f7b105f042e965
--- /dev/null
+++ b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/checkpoints/epoch=0000-test_success_rate=0.000.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3439ef68102700ec40f0438e2b7f27750b850168bd4268cd725c94fba72101b3
+size 864520
diff --git a/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/checkpoints/epoch=0005-test_success_rate=0.000.ckpt b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/checkpoints/epoch=0005-test_success_rate=0.000.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..5397c21676cf6fb4597750e3cdf559a23b84fb6a
--- /dev/null
+++ b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/checkpoints/epoch=0005-test_success_rate=0.000.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:14287e72212b09e69e9edc5db06260d7ac0d1f7e45817fc6d36a57049da41ae7
+size 864520
diff --git a/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/checkpoints/latest.ckpt b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/checkpoints/latest.ckpt
new file mode 100644
index 0000000000000000000000000000000000000000..5397c21676cf6fb4597750e3cdf559a23b84fb6a
--- /dev/null
+++ b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/checkpoints/latest.ckpt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:14287e72212b09e69e9edc5db06260d7ac0d1f7e45817fc6d36a57049da41ae7
+size 864520
diff --git a/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/logs.json.txt b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/logs.json.txt
new file mode 100644
index 0000000000000000000000000000000000000000..f0e7a5bfcc7fc0ba7ec814a2e3211ce085ddbb2b
--- /dev/null
+++ b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/logs.json.txt
@@ -0,0 +1,1631 @@
+{"train_loss": 0.30988776683807373, "train_loss_bc": 0.25195011496543884, "train_loss_llm": 0.5793765187263489, "grad_norm": 0.1281764656305313, "global_step": 0, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.3290100395679474, "train_loss_bc": 0.27264082431793213, "train_loss_llm": 0.563692033290863, "grad_norm": 0.13883189857006073, "global_step": 1, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.3420577943325043, "train_loss_bc": 0.28621771931648254, "train_loss_llm": 0.5584008693695068, "grad_norm": 0.27248579263687134, "global_step": 2, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.3481009900569916, "train_loss_bc": 0.2865779399871826, "train_loss_llm": 0.6152305006980896, "grad_norm": 0.41058191657066345, "global_step": 3, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.33395206928253174, "train_loss_bc": 0.2797144949436188, "train_loss_llm": 0.5423757433891296, "grad_norm": 0.547749400138855, "global_step": 4, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.3694860637187958, "train_loss_bc": 0.31439733505249023, "train_loss_llm": 0.5508872866630554, "grad_norm": 0.698337972164154, "global_step": 5, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.3302598297595978, "train_loss_bc": 0.27196407318115234, "train_loss_llm": 0.5829575061798096, "grad_norm": 0.8375023603439331, "global_step": 6, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.28458172082901, "train_loss_bc": 0.22543349862098694, "train_loss_llm": 0.5914822816848755, "grad_norm": 0.9605591893196106, "global_step": 7, "epoch": 0, "lr": 0.001}
+{"train_loss": 0.2558588981628418, "train_loss_bc": 0.2028963267803192, "train_loss_llm": 0.5296257734298706, "grad_norm": 1.073313593864441, "global_step": 8, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.26098817586898804, "train_loss_bc": 0.20035767555236816, "train_loss_llm": 0.6063050031661987, "grad_norm": 0.12147575616836548, "global_step": 9, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.26756131649017334, "train_loss_bc": 0.21158765256404877, "train_loss_llm": 0.5597366094589233, "grad_norm": 0.23321937024593353, "global_step": 10, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.25541067123413086, "train_loss_bc": 0.20695656538009644, "train_loss_llm": 0.4845409095287323, "grad_norm": 0.35002630949020386, "global_step": 11, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.32000958919525146, "train_loss_bc": 0.25710636377334595, "train_loss_llm": 0.6290323734283447, "grad_norm": 0.47891268134117126, "global_step": 12, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.2978475093841553, "train_loss_bc": 0.2384633868932724, "train_loss_llm": 0.5938410758972168, "grad_norm": 0.606002151966095, "global_step": 13, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.3317919075489044, "train_loss_bc": 0.27130886912345886, "train_loss_llm": 0.6048303246498108, "grad_norm": 0.7452545166015625, "global_step": 14, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.2984723150730133, "train_loss_bc": 0.24327576160430908, "train_loss_llm": 0.5519655346870422, "grad_norm": 0.8736485242843628, "global_step": 15, "epoch": 0, "lr": 0.002}
+{"train_loss": 0.2540336549282074, "train_loss_bc": 0.20384004712104797, "train_loss_llm": 0.5019360184669495, "grad_norm": 0.9886288642883301, "global_step": 16, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.22274599969387054, "train_loss_bc": 0.16463086009025574, "train_loss_llm": 0.5811514258384705, "grad_norm": 0.12068338692188263, "global_step": 17, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.19932964444160461, "train_loss_bc": 0.14359405636787415, "train_loss_llm": 0.5573558807373047, "grad_norm": 0.22626715898513794, "global_step": 18, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.14322541654109955, "train_loss_bc": 0.0923902839422226, "train_loss_llm": 0.5083513259887695, "grad_norm": 0.31236493587493896, "global_step": 19, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.2027251273393631, "train_loss_bc": 0.14142845571041107, "train_loss_llm": 0.6129667162895203, "grad_norm": 0.4212949573993683, "global_step": 20, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.18206378817558289, "train_loss_bc": 0.12628033757209778, "train_loss_llm": 0.5578345060348511, "grad_norm": 0.5228706002235413, "global_step": 21, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.21294701099395752, "train_loss_bc": 0.15911920368671417, "train_loss_llm": 0.5382781028747559, "grad_norm": 0.6390181183815002, "global_step": 22, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.21602994203567505, "train_loss_bc": 0.15486356616020203, "train_loss_llm": 0.6116636991500854, "grad_norm": 0.7576360702514648, "global_step": 23, "epoch": 0, "lr": 0.003}
+{"train_loss": 0.15261340141296387, "train_loss_bc": 0.09898101538419724, "train_loss_llm": 0.5363239049911499, "grad_norm": 0.8472774624824524, "global_step": 24, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.09853888303041458, "train_loss_bc": 0.041740890592336655, "train_loss_llm": 0.5679799318313599, "grad_norm": 0.05482470244169235, "global_step": 25, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.10174697637557983, "train_loss_bc": 0.049142129719257355, "train_loss_llm": 0.5260484218597412, "grad_norm": 0.11804589629173279, "global_step": 26, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.08052210509777069, "train_loss_bc": 0.03408597782254219, "train_loss_llm": 0.464361310005188, "grad_norm": 0.21572279930114746, "global_step": 27, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.10238917171955109, "train_loss_bc": 0.047289494425058365, "train_loss_llm": 0.550996720790863, "grad_norm": 0.22894695401191711, "global_step": 28, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.08441630750894547, "train_loss_bc": 0.0377366803586483, "train_loss_llm": 0.46679627895355225, "grad_norm": 0.3519541025161743, "global_step": 29, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.11801409721374512, "train_loss_bc": 0.06555696576833725, "train_loss_llm": 0.5245712995529175, "grad_norm": 0.45181936025619507, "global_step": 30, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.09962986409664154, "train_loss_bc": 0.051212944090366364, "train_loss_llm": 0.48416921496391296, "grad_norm": 0.5484516620635986, "global_step": 31, "epoch": 0, "lr": 0.004}
+{"train_loss": 0.10448110103607178, "train_loss_bc": 0.05522552505135536, "train_loss_llm": 0.49255573749542236, "grad_norm": 0.65410315990448, "global_step": 32, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.12413783371448517, "train_loss_bc": 0.05426253005862236, "train_loss_llm": 0.6987529993057251, "grad_norm": 0.12387888878583908, "global_step": 33, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.11487708985805511, "train_loss_bc": 0.04773281514644623, "train_loss_llm": 0.6714427471160889, "grad_norm": 0.27088722586631775, "global_step": 34, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.126292422413826, "train_loss_bc": 0.059363897889852524, "train_loss_llm": 0.6692851781845093, "grad_norm": 0.39837411046028137, "global_step": 35, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.1178615391254425, "train_loss_bc": 0.05451018735766411, "train_loss_llm": 0.6335134506225586, "grad_norm": 0.5717584490776062, "global_step": 36, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.09785785526037216, "train_loss_bc": 0.032179877161979675, "train_loss_llm": 0.6567797660827637, "grad_norm": 0.7007007598876953, "global_step": 37, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.13968606293201447, "train_loss_bc": 0.060502782464027405, "train_loss_llm": 0.7918328046798706, "grad_norm": 0.903886616230011, "global_step": 38, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.10400550812482834, "train_loss_bc": 0.044743917882442474, "train_loss_llm": 0.5926159024238586, "grad_norm": 1.0406748056411743, "global_step": 39, "epoch": 0, "lr": 0.005}
+{"train_loss": 0.10949854552745819, "train_loss_bc": 0.03625156730413437, "train_loss_llm": 0.7324697971343994, "grad_norm": 1.1405867338180542, "global_step": 40, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.23718425631523132, "train_loss_bc": 0.1835935115814209, "train_loss_llm": 0.535907506942749, "grad_norm": 0.22850482165813446, "global_step": 41, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.20425289869308472, "train_loss_bc": 0.14604423940181732, "train_loss_llm": 0.5820866227149963, "grad_norm": 0.40697526931762695, "global_step": 42, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.19545869529247284, "train_loss_bc": 0.13832418620586395, "train_loss_llm": 0.5713450908660889, "grad_norm": 0.5851249098777771, "global_step": 43, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.2145458310842514, "train_loss_bc": 0.1569926142692566, "train_loss_llm": 0.5755321979522705, "grad_norm": 0.7634975910186768, "global_step": 44, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.23199565708637238, "train_loss_bc": 0.1787414699792862, "train_loss_llm": 0.532541811466217, "grad_norm": 0.988132655620575, "global_step": 45, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.19213293492794037, "train_loss_bc": 0.1395917534828186, "train_loss_llm": 0.5254117846488953, "grad_norm": 1.1792607307434082, "global_step": 46, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.23227347433567047, "train_loss_bc": 0.17139491438865662, "train_loss_llm": 0.6087856292724609, "grad_norm": 1.4041690826416016, "global_step": 47, "epoch": 0, "lr": 0.006}
+{"train_loss": 0.24349090456962585, "train_loss_bc": 0.18455368280410767, "train_loss_llm": 0.5893722772598267, "grad_norm": 1.6325113773345947, "global_step": 48, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.40348517894744873, "train_loss_bc": 0.343403697013855, "train_loss_llm": 0.600814938545227, "grad_norm": 0.3648652732372284, "global_step": 49, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.24358922243118286, "train_loss_bc": 0.20769616961479187, "train_loss_llm": 0.3589305579662323, "grad_norm": 0.6633464694023132, "global_step": 50, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.2792479395866394, "train_loss_bc": 0.24017789959907532, "train_loss_llm": 0.39070039987564087, "grad_norm": 0.9816585183143616, "global_step": 51, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.4223394989967346, "train_loss_bc": 0.36418670415878296, "train_loss_llm": 0.581527829170227, "grad_norm": 1.3461236953735352, "global_step": 52, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.33254578709602356, "train_loss_bc": 0.2885696291923523, "train_loss_llm": 0.43976151943206787, "grad_norm": 1.6965503692626953, "global_step": 53, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.26442965865135193, "train_loss_bc": 0.22627677023410797, "train_loss_llm": 0.3815290033817291, "grad_norm": 1.9908045530319214, "global_step": 54, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.3542459309101105, "train_loss_bc": 0.3110874593257904, "train_loss_llm": 0.43158483505249023, "grad_norm": 2.354058265686035, "global_step": 55, "epoch": 0, "lr": 0.006999999999999999}
+{"train_loss": 0.3318997323513031, "train_loss_bc": 0.28736382722854614, "train_loss_llm": 0.4453590214252472, "grad_norm": 2.671434164047241, "global_step": 56, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.3824632465839386, "train_loss_bc": 0.32512107491493225, "train_loss_llm": 0.5734215974807739, "grad_norm": 0.35764843225479126, "global_step": 57, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.36146268248558044, "train_loss_bc": 0.30388641357421875, "train_loss_llm": 0.5757626295089722, "grad_norm": 0.6984142065048218, "global_step": 58, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.3303685784339905, "train_loss_bc": 0.280788779258728, "train_loss_llm": 0.4957978427410126, "grad_norm": 1.0265007019042969, "global_step": 59, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.3185162842273712, "train_loss_bc": 0.26240089535713196, "train_loss_llm": 0.5611539483070374, "grad_norm": 1.3130003213882446, "global_step": 60, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.36117592453956604, "train_loss_bc": 0.31271880865097046, "train_loss_llm": 0.48457109928131104, "grad_norm": 1.6527023315429688, "global_step": 61, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.32516971230506897, "train_loss_bc": 0.26284822821617126, "train_loss_llm": 0.6232149600982666, "grad_norm": 1.9546350240707397, "global_step": 62, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.28039538860321045, "train_loss_bc": 0.2192724198102951, "train_loss_llm": 0.6112297773361206, "grad_norm": 2.218892812728882, "global_step": 63, "epoch": 0, "lr": 0.008}
+{"train_loss": 0.3770911395549774, "train_loss_bc": 0.32337287068367004, "train_loss_llm": 0.5371828079223633, "grad_norm": 2.566882371902466, "global_step": 64, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.2630131244659424, "train_loss_bc": 0.18261821568012238, "train_loss_llm": 0.8039490580558777, "grad_norm": 0.2667515277862549, "global_step": 65, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.26585447788238525, "train_loss_bc": 0.18699489533901215, "train_loss_llm": 0.7885959148406982, "grad_norm": 0.5498352646827698, "global_step": 66, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.26111242175102234, "train_loss_bc": 0.17753659188747406, "train_loss_llm": 0.8357583284378052, "grad_norm": 0.8108565807342529, "global_step": 67, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.37241554260253906, "train_loss_bc": 0.2965269088745117, "train_loss_llm": 0.7588863372802734, "grad_norm": 1.1523221731185913, "global_step": 68, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.24317790567874908, "train_loss_bc": 0.1725945919752121, "train_loss_llm": 0.7058331370353699, "grad_norm": 1.4291397333145142, "global_step": 69, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.2527623772621155, "train_loss_bc": 0.18680372834205627, "train_loss_llm": 0.6595863103866577, "grad_norm": 1.7139180898666382, "global_step": 70, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.3115045726299286, "train_loss_bc": 0.21483568847179413, "train_loss_llm": 0.966688871383667, "grad_norm": 2.0355472564697266, "global_step": 71, "epoch": 0, "lr": 0.009000000000000001}
+{"train_loss": 0.28823739290237427, "train_loss_bc": 0.2099241316318512, "train_loss_llm": 0.7831324338912964, "grad_norm": 2.341282367706299, "global_step": 72, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.16081318259239197, "train_loss_bc": 0.09294518083333969, "train_loss_llm": 0.6786799430847168, "grad_norm": 0.19560296833515167, "global_step": 73, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.17451830208301544, "train_loss_bc": 0.11087077856063843, "train_loss_llm": 0.6364752054214478, "grad_norm": 0.35469532012939453, "global_step": 74, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.15702801942825317, "train_loss_bc": 0.09343273192644119, "train_loss_llm": 0.6359528303146362, "grad_norm": 0.5447608828544617, "global_step": 75, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.15153688192367554, "train_loss_bc": 0.08873355388641357, "train_loss_llm": 0.6280332803726196, "grad_norm": 0.6971567869186401, "global_step": 76, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.19673088192939758, "train_loss_bc": 0.12643159925937653, "train_loss_llm": 0.702992856502533, "grad_norm": 0.9014286398887634, "global_step": 77, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.13272134959697723, "train_loss_bc": 0.06754941493272781, "train_loss_llm": 0.651719331741333, "grad_norm": 1.036697506904602, "global_step": 78, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.19027695059776306, "train_loss_bc": 0.11346503347158432, "train_loss_llm": 0.7681191563606262, "grad_norm": 1.2236578464508057, "global_step": 79, "epoch": 0, "lr": 0.01}
+{"train_loss": 0.133253812789917, "train_loss_bc": 0.07144336402416229, "train_loss_llm": 0.6181045174598694, "grad_norm": 1.3590999841690063, "global_step": 80, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.1199505627155304, "train_loss_bc": 0.03756210580468178, "train_loss_llm": 0.8238844871520996, "grad_norm": 0.08310327678918839, "global_step": 81, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.11959131807088852, "train_loss_bc": 0.03774889558553696, "train_loss_llm": 0.8184242248535156, "grad_norm": 0.16490519046783447, "global_step": 82, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.11005774885416031, "train_loss_bc": 0.03605267405509949, "train_loss_llm": 0.740050733089447, "grad_norm": 0.2369736284017563, "global_step": 83, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.10715116560459137, "train_loss_bc": 0.03486143425107002, "train_loss_llm": 0.7228972911834717, "grad_norm": 0.2979622185230255, "global_step": 84, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.11215542256832123, "train_loss_bc": 0.04665178433060646, "train_loss_llm": 0.6550363302230835, "grad_norm": 0.3907909095287323, "global_step": 85, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.11080711334943771, "train_loss_bc": 0.04544095695018768, "train_loss_llm": 0.6536615490913391, "grad_norm": 0.4633300304412842, "global_step": 86, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.11399513483047485, "train_loss_bc": 0.03929811343550682, "train_loss_llm": 0.7469701766967773, "grad_norm": 0.5689288377761841, "global_step": 87, "epoch": 0, "lr": 0.009999999972157305}
+{"train_loss": 0.11091391742229462, "train_loss_bc": 0.03799470514059067, "train_loss_llm": 0.7291921377182007, "grad_norm": 0.6381514072418213, "global_step": 88, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.12332314252853394, "train_loss_bc": 0.06715165078639984, "train_loss_llm": 0.5617149472236633, "grad_norm": 0.09968772530555725, "global_step": 89, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.11712965369224548, "train_loss_bc": 0.05434684827923775, "train_loss_llm": 0.6278280019760132, "grad_norm": 0.1845989227294922, "global_step": 90, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.09976547211408615, "train_loss_bc": 0.04808478057384491, "train_loss_llm": 0.5168069005012512, "grad_norm": 0.27232301235198975, "global_step": 91, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.12355750799179077, "train_loss_bc": 0.06205715239048004, "train_loss_llm": 0.6150035858154297, "grad_norm": 0.36612799763679504, "global_step": 92, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.10500527173280716, "train_loss_bc": 0.05489492043852806, "train_loss_llm": 0.5011035203933716, "grad_norm": 0.4603094160556793, "global_step": 93, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.1039448231458664, "train_loss_bc": 0.046448998153209686, "train_loss_llm": 0.5749582052230835, "grad_norm": 0.5316232442855835, "global_step": 94, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.09427738189697266, "train_loss_bc": 0.03930231183767319, "train_loss_llm": 0.5497506856918335, "grad_norm": 0.6026599407196045, "global_step": 95, "epoch": 0, "lr": 0.009999999888629223}
+{"train_loss": 0.11517974734306335, "train_loss_bc": 0.05711644887924194, "train_loss_llm": 0.5806329250335693, "grad_norm": 0.6908637881278992, "global_step": 96, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.14299695193767548, "train_loss_bc": 0.09275034070014954, "train_loss_llm": 0.5024661421775818, "grad_norm": 0.13973604142665863, "global_step": 97, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.14395461976528168, "train_loss_bc": 0.0887598991394043, "train_loss_llm": 0.5519472360610962, "grad_norm": 0.26300135254859924, "global_step": 98, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.14504240453243256, "train_loss_bc": 0.09046861529350281, "train_loss_llm": 0.5457379221916199, "grad_norm": 0.40385138988494873, "global_step": 99, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.12574352324008942, "train_loss_bc": 0.07805037498474121, "train_loss_llm": 0.4769314229488373, "grad_norm": 0.49668070673942566, "global_step": 100, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.1497489959001541, "train_loss_bc": 0.0983826071023941, "train_loss_llm": 0.5136638879776001, "grad_norm": 0.623312771320343, "global_step": 101, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.13293680548667908, "train_loss_bc": 0.08072517812252045, "train_loss_llm": 0.5221161842346191, "grad_norm": 0.7633324265480042, "global_step": 102, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.11897557973861694, "train_loss_bc": 0.0680559054017067, "train_loss_llm": 0.5091967582702637, "grad_norm": 0.9255960583686829, "global_step": 103, "epoch": 0, "lr": 0.00999999974941575}
+{"train_loss": 0.10109081864356995, "train_loss_bc": 0.056126080453395844, "train_loss_llm": 0.4496473968029022, "grad_norm": 1.0463886260986328, "global_step": 104, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.17474260926246643, "train_loss_bc": 0.09675435721874237, "train_loss_llm": 0.7798824310302734, "grad_norm": 0.1501954346895218, "global_step": 105, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.18710613250732422, "train_loss_bc": 0.11401377618312836, "train_loss_llm": 0.730923593044281, "grad_norm": 0.27884289622306824, "global_step": 106, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.18890389800071716, "train_loss_bc": 0.11227793246507645, "train_loss_llm": 0.7662595510482788, "grad_norm": 0.4277828335762024, "global_step": 107, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.1676044911146164, "train_loss_bc": 0.09685290604829788, "train_loss_llm": 0.7075158357620239, "grad_norm": 0.5632902383804321, "global_step": 108, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.1419989913702011, "train_loss_bc": 0.08392032235860825, "train_loss_llm": 0.5807866454124451, "grad_norm": 0.6790818572044373, "global_step": 109, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.1469622701406479, "train_loss_bc": 0.08881968259811401, "train_loss_llm": 0.5814259052276611, "grad_norm": 0.7950735688209534, "global_step": 110, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.15912364423274994, "train_loss_bc": 0.09039034694433212, "train_loss_llm": 0.6873329877853394, "grad_norm": 0.95503169298172, "global_step": 111, "epoch": 0, "lr": 0.009999999554516895}
+{"train_loss": 0.17456959187984467, "train_loss_bc": 0.10081697255373001, "train_loss_llm": 0.7375261783599854, "grad_norm": 1.0649269819259644, "global_step": 112, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.19727730751037598, "train_loss_bc": 0.11632345616817474, "train_loss_llm": 0.8095385432243347, "grad_norm": 0.11780624091625214, "global_step": 113, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.17215842008590698, "train_loss_bc": 0.10761462897062302, "train_loss_llm": 0.6454378366470337, "grad_norm": 0.23287563025951385, "global_step": 114, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.1713487207889557, "train_loss_bc": 0.09186939895153046, "train_loss_llm": 0.7947933077812195, "grad_norm": 0.336968332529068, "global_step": 115, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.16092745959758759, "train_loss_bc": 0.09485086053609848, "train_loss_llm": 0.6607660055160522, "grad_norm": 0.44487372040748596, "global_step": 116, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.19480761885643005, "train_loss_bc": 0.11858457326889038, "train_loss_llm": 0.7622305154800415, "grad_norm": 0.5719859004020691, "global_step": 117, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.17738795280456543, "train_loss_bc": 0.1044575423002243, "train_loss_llm": 0.7293041944503784, "grad_norm": 0.6904003620147705, "global_step": 118, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.17859046161174774, "train_loss_bc": 0.10926619172096252, "train_loss_llm": 0.6932426691055298, "grad_norm": 0.8025168776512146, "global_step": 119, "epoch": 0, "lr": 0.009999999303932654}
+{"train_loss": 0.14897656440734863, "train_loss_bc": 0.07442545890808105, "train_loss_llm": 0.7455109357833862, "grad_norm": 0.8957657814025879, "global_step": 120, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.13336093723773956, "train_loss_bc": 0.07574412226676941, "train_loss_llm": 0.5761681795120239, "grad_norm": 0.0927182212471962, "global_step": 121, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.15794843435287476, "train_loss_bc": 0.09068843722343445, "train_loss_llm": 0.6725999712944031, "grad_norm": 0.19610370695590973, "global_step": 122, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.17372804880142212, "train_loss_bc": 0.10203583538532257, "train_loss_llm": 0.7169221043586731, "grad_norm": 0.32717594504356384, "global_step": 123, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.153974711894989, "train_loss_bc": 0.09029947221279144, "train_loss_llm": 0.6367523670196533, "grad_norm": 0.44343385100364685, "global_step": 124, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.13930538296699524, "train_loss_bc": 0.07311734557151794, "train_loss_llm": 0.6618802547454834, "grad_norm": 0.5397819876670837, "global_step": 125, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.16635151207447052, "train_loss_bc": 0.10183270275592804, "train_loss_llm": 0.6451880931854248, "grad_norm": 0.6600236296653748, "global_step": 126, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.15213605761528015, "train_loss_bc": 0.08575135469436646, "train_loss_llm": 0.6638469696044922, "grad_norm": 0.7769452929496765, "global_step": 127, "epoch": 0, "lr": 0.009999998997663032}
+{"train_loss": 0.15462541580200195, "train_loss_bc": 0.08767673373222351, "train_loss_llm": 0.6694868803024292, "grad_norm": 0.874330461025238, "global_step": 128, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.10858333110809326, "train_loss_bc": 0.058316294103860855, "train_loss_llm": 0.502670407295227, "grad_norm": 0.07131119817495346, "global_step": 129, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.10548441112041473, "train_loss_bc": 0.053221993148326874, "train_loss_llm": 0.522624135017395, "grad_norm": 0.13504941761493683, "global_step": 130, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.14366814494132996, "train_loss_bc": 0.08547984808683395, "train_loss_llm": 0.5818830132484436, "grad_norm": 0.22774675488471985, "global_step": 131, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.10503857582807541, "train_loss_bc": 0.054800644516944885, "train_loss_llm": 0.502379298210144, "grad_norm": 0.2999369502067566, "global_step": 132, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.11876563727855682, "train_loss_bc": 0.06108715385198593, "train_loss_llm": 0.5767847895622253, "grad_norm": 0.3857506215572357, "global_step": 133, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.1349407136440277, "train_loss_bc": 0.06838482618331909, "train_loss_llm": 0.665558934211731, "grad_norm": 0.47783952951431274, "global_step": 134, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.10697862505912781, "train_loss_bc": 0.04886705428361893, "train_loss_llm": 0.58111572265625, "grad_norm": 0.5477063059806824, "global_step": 135, "epoch": 0, "lr": 0.009999998635708033}
+{"train_loss": 0.11797286570072174, "train_loss_bc": 0.05220620706677437, "train_loss_llm": 0.6576666235923767, "grad_norm": 0.6169098019599915, "global_step": 136, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.09659293293952942, "train_loss_bc": 0.042097385972738266, "train_loss_llm": 0.5449554324150085, "grad_norm": 0.06878505647182465, "global_step": 137, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.10374412685632706, "train_loss_bc": 0.04929918050765991, "train_loss_llm": 0.5444494485855103, "grad_norm": 0.152901753783226, "global_step": 138, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.10557298362255096, "train_loss_bc": 0.05254766345024109, "train_loss_llm": 0.5302531719207764, "grad_norm": 0.22006696462631226, "global_step": 139, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.08448788523674011, "train_loss_bc": 0.031774915754795074, "train_loss_llm": 0.5271296501159668, "grad_norm": 0.26794466376304626, "global_step": 140, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.094333216547966, "train_loss_bc": 0.03807433694601059, "train_loss_llm": 0.5625888109207153, "grad_norm": 0.31371966004371643, "global_step": 141, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.10363557934761047, "train_loss_bc": 0.045778173953294754, "train_loss_llm": 0.5785740613937378, "grad_norm": 0.3813273310661316, "global_step": 142, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.10445539653301239, "train_loss_bc": 0.0545482374727726, "train_loss_llm": 0.4990715980529785, "grad_norm": 0.4720749855041504, "global_step": 143, "epoch": 0, "lr": 0.009999998218067659}
+{"train_loss": 0.09922246634960175, "train_loss_bc": 0.043632522225379944, "train_loss_llm": 0.5558993816375732, "grad_norm": 0.5285733342170715, "global_step": 144, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.08265377581119537, "train_loss_bc": 0.0328625924885273, "train_loss_llm": 0.49791181087493896, "grad_norm": 0.061216481029987335, "global_step": 145, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.0820857435464859, "train_loss_bc": 0.02849769964814186, "train_loss_llm": 0.5358803868293762, "grad_norm": 0.1037190854549408, "global_step": 146, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.07791228592395782, "train_loss_bc": 0.029987551271915436, "train_loss_llm": 0.4792473018169403, "grad_norm": 0.15023037791252136, "global_step": 147, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.08449860662221909, "train_loss_bc": 0.03421573340892792, "train_loss_llm": 0.5028287172317505, "grad_norm": 0.1905602216720581, "global_step": 148, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.09108704328536987, "train_loss_bc": 0.04039198160171509, "train_loss_llm": 0.5069506168365479, "grad_norm": 0.2579878866672516, "global_step": 149, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.08394932746887207, "train_loss_bc": 0.034332334995269775, "train_loss_llm": 0.49616995453834534, "grad_norm": 0.3211575746536255, "global_step": 150, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.07802191376686096, "train_loss_bc": 0.025465305894613266, "train_loss_llm": 0.525566041469574, "grad_norm": 0.3778078854084015, "global_step": 151, "epoch": 0, "lr": 0.009999997744741916}
+{"train_loss": 0.08864028751850128, "train_loss_bc": 0.03603292256593704, "train_loss_llm": 0.526073694229126, "grad_norm": 0.43188586831092834, "global_step": 152, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.0829916000366211, "train_loss_bc": 0.028583545237779617, "train_loss_llm": 0.5440805554389954, "grad_norm": 0.052868399769067764, "global_step": 153, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.08993449062108994, "train_loss_bc": 0.030593272298574448, "train_loss_llm": 0.5934121608734131, "grad_norm": 0.11820221692323685, "global_step": 154, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.08131124824285507, "train_loss_bc": 0.02444992959499359, "train_loss_llm": 0.5686131715774536, "grad_norm": 0.16767020523548126, "global_step": 155, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.08134594559669495, "train_loss_bc": 0.024815386161208153, "train_loss_llm": 0.5653055906295776, "grad_norm": 0.20664376020431519, "global_step": 156, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.0879603922367096, "train_loss_bc": 0.02559727057814598, "train_loss_llm": 0.6236311793327332, "grad_norm": 0.26060357689857483, "global_step": 157, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.08935263752937317, "train_loss_bc": 0.03327171877026558, "train_loss_llm": 0.5608091354370117, "grad_norm": 0.31268230080604553, "global_step": 158, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.09696022421121597, "train_loss_bc": 0.03114195726811886, "train_loss_llm": 0.6581826210021973, "grad_norm": 0.370599627494812, "global_step": 159, "epoch": 0, "lr": 0.00999999721573081}
+{"train_loss": 0.08994150161743164, "train_loss_bc": 0.029750362038612366, "train_loss_llm": 0.6019114255905151, "grad_norm": 0.4266645312309265, "global_step": 160, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.10504665970802307, "train_loss_bc": 0.03797497600317001, "train_loss_llm": 0.6707168221473694, "grad_norm": 0.09604155272245407, "global_step": 161, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.09716004133224487, "train_loss_bc": 0.030487433075904846, "train_loss_llm": 0.6667260527610779, "grad_norm": 0.1960364431142807, "global_step": 162, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.09647263586521149, "train_loss_bc": 0.03137173503637314, "train_loss_llm": 0.6510089635848999, "grad_norm": 0.28955140709877014, "global_step": 163, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.08236321061849594, "train_loss_bc": 0.0201217383146286, "train_loss_llm": 0.6224147081375122, "grad_norm": 0.36737924814224243, "global_step": 164, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.09858278930187225, "train_loss_bc": 0.03293304517865181, "train_loss_llm": 0.6564974784851074, "grad_norm": 0.4027846157550812, "global_step": 165, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.1031205803155899, "train_loss_bc": 0.04275296628475189, "train_loss_llm": 0.6036761403083801, "grad_norm": 0.520272433757782, "global_step": 166, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.09790229052305222, "train_loss_bc": 0.027533620595932007, "train_loss_llm": 0.7036867141723633, "grad_norm": 0.6286941766738892, "global_step": 167, "epoch": 0, "lr": 0.009999996631034345}
+{"train_loss": 0.1025843396782875, "train_loss_bc": 0.03047892451286316, "train_loss_llm": 0.7210541367530823, "grad_norm": 0.693526566028595, "global_step": 168, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.11645351350307465, "train_loss_bc": 0.05042685195803642, "train_loss_llm": 0.660266637802124, "grad_norm": 0.1250060498714447, "global_step": 169, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.11633872985839844, "train_loss_bc": 0.04175781086087227, "train_loss_llm": 0.7458091378211975, "grad_norm": 0.26812925934791565, "global_step": 170, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.10157178342342377, "train_loss_bc": 0.03799416124820709, "train_loss_llm": 0.6357762217521667, "grad_norm": 0.397793710231781, "global_step": 171, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.1219007819890976, "train_loss_bc": 0.038257770240306854, "train_loss_llm": 0.8364300727844238, "grad_norm": 0.5483253598213196, "global_step": 172, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.09895311295986176, "train_loss_bc": 0.03742705285549164, "train_loss_llm": 0.6152605414390564, "grad_norm": 0.6892821788787842, "global_step": 173, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.11679849028587341, "train_loss_bc": 0.04298940300941467, "train_loss_llm": 0.7380908727645874, "grad_norm": 0.7595056295394897, "global_step": 174, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.13082122802734375, "train_loss_bc": 0.0568496435880661, "train_loss_llm": 0.7397157549858093, "grad_norm": 0.9049650430679321, "global_step": 175, "epoch": 0, "lr": 0.00999999599065253}
+{"train_loss": 0.09825730323791504, "train_loss_bc": 0.03603523597121239, "train_loss_llm": 0.6222206354141235, "grad_norm": 0.9468348026275635, "global_step": 176, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.12322530895471573, "train_loss_bc": 0.05549665540456772, "train_loss_llm": 0.6772865056991577, "grad_norm": 0.13103413581848145, "global_step": 177, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.11205505579710007, "train_loss_bc": 0.0415179505944252, "train_loss_llm": 0.7053710222244263, "grad_norm": 0.22295524179935455, "global_step": 178, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.12543310225009918, "train_loss_bc": 0.051905225962400436, "train_loss_llm": 0.7352787256240845, "grad_norm": 0.32111167907714844, "global_step": 179, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.11746858805418015, "train_loss_bc": 0.04414919763803482, "train_loss_llm": 0.7331938743591309, "grad_norm": 0.440586656332016, "global_step": 180, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.10892884433269501, "train_loss_bc": 0.03769244998693466, "train_loss_llm": 0.7123639583587646, "grad_norm": 0.5934631824493408, "global_step": 181, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.1060628816485405, "train_loss_bc": 0.045234695076942444, "train_loss_llm": 0.6082818508148193, "grad_norm": 0.6939869523048401, "global_step": 182, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.10158699750900269, "train_loss_bc": 0.03918711096048355, "train_loss_llm": 0.6239988803863525, "grad_norm": 0.7968789935112, "global_step": 183, "epoch": 0, "lr": 0.009999995294585371}
+{"train_loss": 0.10639582574367523, "train_loss_bc": 0.03840377926826477, "train_loss_llm": 0.6799204349517822, "grad_norm": 0.9301856756210327, "global_step": 184, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.0832342654466629, "train_loss_bc": 0.03335604816675186, "train_loss_llm": 0.4987821578979492, "grad_norm": 0.09617143124341965, "global_step": 185, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.08488499373197556, "train_loss_bc": 0.032570574432611465, "train_loss_llm": 0.5231441855430603, "grad_norm": 0.16982494294643402, "global_step": 186, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.08283601701259613, "train_loss_bc": 0.03640207275748253, "train_loss_llm": 0.4643394649028778, "grad_norm": 0.2505243420600891, "global_step": 187, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.10492438077926636, "train_loss_bc": 0.05069129914045334, "train_loss_llm": 0.5423308610916138, "grad_norm": 0.3958006203174591, "global_step": 188, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.08055061101913452, "train_loss_bc": 0.02585071325302124, "train_loss_llm": 0.5469989776611328, "grad_norm": 0.5065022706985474, "global_step": 189, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.09224910289049149, "train_loss_bc": 0.04269344359636307, "train_loss_llm": 0.4955565929412842, "grad_norm": 0.5423905849456787, "global_step": 190, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.06796862185001373, "train_loss_bc": 0.023494932800531387, "train_loss_llm": 0.44473689794540405, "grad_norm": 0.6373863816261292, "global_step": 191, "epoch": 0, "lr": 0.009999994542832874}
+{"train_loss": 0.07881176471710205, "train_loss_bc": 0.033790223300457, "train_loss_llm": 0.4502154588699341, "grad_norm": 0.7513827085494995, "global_step": 192, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.06574853509664536, "train_loss_bc": 0.025274677202105522, "train_loss_llm": 0.4047386050224304, "grad_norm": 0.0691082626581192, "global_step": 193, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.06924116611480713, "train_loss_bc": 0.022725427523255348, "train_loss_llm": 0.4651573598384857, "grad_norm": 0.1813051402568817, "global_step": 194, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.09011801332235336, "train_loss_bc": 0.03160355985164642, "train_loss_llm": 0.5851445198059082, "grad_norm": 0.25087064504623413, "global_step": 195, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.08307765424251556, "train_loss_bc": 0.030595462769269943, "train_loss_llm": 0.524821937084198, "grad_norm": 0.4047369360923767, "global_step": 196, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.08252023160457611, "train_loss_bc": 0.035396769642829895, "train_loss_llm": 0.47123464941978455, "grad_norm": 0.5207599997520447, "global_step": 197, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.07517410069704056, "train_loss_bc": 0.02731279283761978, "train_loss_llm": 0.47861307859420776, "grad_norm": 0.6036221981048584, "global_step": 198, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.0723377913236618, "train_loss_bc": 0.021391915157437325, "train_loss_llm": 0.5094587802886963, "grad_norm": 0.6923587918281555, "global_step": 199, "epoch": 0, "lr": 0.009999993735395049}
+{"train_loss": 0.07650509476661682, "train_loss_bc": 0.02545890584588051, "train_loss_llm": 0.5104619264602661, "grad_norm": 0.7286520004272461, "global_step": 200, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.08020828664302826, "train_loss_bc": 0.021892666816711426, "train_loss_llm": 0.5831562280654907, "grad_norm": 0.0522177517414093, "global_step": 201, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.06917239725589752, "train_loss_bc": 0.022438794374465942, "train_loss_llm": 0.4673359990119934, "grad_norm": 0.11076272279024124, "global_step": 202, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.06255260109901428, "train_loss_bc": 0.0189968254417181, "train_loss_llm": 0.4355577528476715, "grad_norm": 0.16282573342323303, "global_step": 203, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.07198403775691986, "train_loss_bc": 0.01934845745563507, "train_loss_llm": 0.5263557434082031, "grad_norm": 0.21107478439807892, "global_step": 204, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.06969749182462692, "train_loss_bc": 0.02152591198682785, "train_loss_llm": 0.4817157983779907, "grad_norm": 0.22327247262001038, "global_step": 205, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.06344336271286011, "train_loss_bc": 0.016734279692173004, "train_loss_llm": 0.46709078550338745, "grad_norm": 0.2584833800792694, "global_step": 206, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.06285605579614639, "train_loss_bc": 0.018797507509589195, "train_loss_llm": 0.44058549404144287, "grad_norm": 0.2693708539009094, "global_step": 207, "epoch": 0, "lr": 0.009999992872271905}
+{"train_loss": 0.055933743715286255, "train_loss_bc": 0.015301037579774857, "train_loss_llm": 0.4063270390033722, "grad_norm": 0.3253103196620941, "global_step": 208, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.06675118952989578, "train_loss_bc": 0.021046804264187813, "train_loss_llm": 0.4570438265800476, "grad_norm": 0.05233167111873627, "global_step": 209, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.07314397394657135, "train_loss_bc": 0.021524950861930847, "train_loss_llm": 0.5161901712417603, "grad_norm": 0.10782892256975174, "global_step": 210, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.06773225963115692, "train_loss_bc": 0.018718693405389786, "train_loss_llm": 0.49013569951057434, "grad_norm": 0.12701845169067383, "global_step": 211, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.06705436110496521, "train_loss_bc": 0.02479669079184532, "train_loss_llm": 0.4225766658782959, "grad_norm": 0.20918311178684235, "global_step": 212, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.07137533277273178, "train_loss_bc": 0.019740764051675797, "train_loss_llm": 0.5163456797599792, "grad_norm": 0.26856866478919983, "global_step": 213, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.07186073809862137, "train_loss_bc": 0.01902320794761181, "train_loss_llm": 0.5283752679824829, "grad_norm": 0.33535119891166687, "global_step": 214, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.06562033295631409, "train_loss_bc": 0.021443534642457962, "train_loss_llm": 0.44176793098449707, "grad_norm": 0.42067626118659973, "global_step": 215, "epoch": 0, "lr": 0.009999991953463454}
+{"train_loss": 0.0760100930929184, "train_loss_bc": 0.019368425011634827, "train_loss_llm": 0.5664166212081909, "grad_norm": 0.4922132194042206, "global_step": 216, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.07239726930856705, "train_loss_bc": 0.02454109862446785, "train_loss_llm": 0.4785616993904114, "grad_norm": 0.04113122075796127, "global_step": 217, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.07676675915718079, "train_loss_bc": 0.036202698945999146, "train_loss_llm": 0.405640572309494, "grad_norm": 0.11748752743005753, "global_step": 218, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.07293953001499176, "train_loss_bc": 0.028895892202854156, "train_loss_llm": 0.4404364228248596, "grad_norm": 0.18450944125652313, "global_step": 219, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.08112125098705292, "train_loss_bc": 0.0272782314568758, "train_loss_llm": 0.5384302139282227, "grad_norm": 0.1937311589717865, "global_step": 220, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.060739025473594666, "train_loss_bc": 0.025430502369999886, "train_loss_llm": 0.3530851900577545, "grad_norm": 0.28697481751441956, "global_step": 221, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.0778099000453949, "train_loss_bc": 0.03068915382027626, "train_loss_llm": 0.4712074100971222, "grad_norm": 0.3839500844478607, "global_step": 222, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.07632099092006683, "train_loss_bc": 0.032435644418001175, "train_loss_llm": 0.43885350227355957, "grad_norm": 0.42506226897239685, "global_step": 223, "epoch": 0, "lr": 0.0099999909789697}
+{"train_loss": 0.0728105902671814, "train_loss_bc": 0.026607386767864227, "train_loss_llm": 0.4620319902896881, "grad_norm": 0.462995320558548, "global_step": 224, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.08815997838973999, "train_loss_bc": 0.03426513820886612, "train_loss_llm": 0.5389483571052551, "grad_norm": 0.10554534941911697, "global_step": 225, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.08856459707021713, "train_loss_bc": 0.02812081202864647, "train_loss_llm": 0.6044378280639648, "grad_norm": 0.1530577838420868, "global_step": 226, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.0791427344083786, "train_loss_bc": 0.0297783724963665, "train_loss_llm": 0.4936436414718628, "grad_norm": 0.17267921566963196, "global_step": 227, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.07912047207355499, "train_loss_bc": 0.029247496277093887, "train_loss_llm": 0.49872973561286926, "grad_norm": 0.22428402304649353, "global_step": 228, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.08132319152355194, "train_loss_bc": 0.03265554457902908, "train_loss_llm": 0.4866764545440674, "grad_norm": 0.2741837203502655, "global_step": 229, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.07687179744243622, "train_loss_bc": 0.02009078860282898, "train_loss_llm": 0.56781005859375, "grad_norm": 0.3197016716003418, "global_step": 230, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.07492468506097794, "train_loss_bc": 0.029530266299843788, "train_loss_llm": 0.4539441764354706, "grad_norm": 0.38127005100250244, "global_step": 231, "epoch": 0, "lr": 0.00999998994879066}
+{"train_loss": 0.08331350982189178, "train_loss_bc": 0.0343690849840641, "train_loss_llm": 0.48944422602653503, "grad_norm": 0.37807270884513855, "global_step": 232, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.08783825486898422, "train_loss_bc": 0.031406745314598083, "train_loss_llm": 0.5643150806427002, "grad_norm": 0.1140715554356575, "global_step": 233, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.08081714063882828, "train_loss_bc": 0.023990202695131302, "train_loss_llm": 0.5682693719863892, "grad_norm": 0.19882597029209137, "global_step": 234, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.08093968778848648, "train_loss_bc": 0.029501833021640778, "train_loss_llm": 0.514378547668457, "grad_norm": 0.3449898362159729, "global_step": 235, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.07811589539051056, "train_loss_bc": 0.029132328927516937, "train_loss_llm": 0.48983561992645264, "grad_norm": 0.44393157958984375, "global_step": 236, "epoch": 0, "lr": 0.009999988862926341}
+{"train_loss": 0.1498942030202441, "train_loss_bc": 0.031303297728300095, "train_loss_llm": 0.5941766500473022, "grad_norm": 0.5672013759613037, "global_step": 237, "epoch": 0, "lr": 0.009999988862926341, "train/cumulative_reward": 4.555948915112563, "train/mean_score": 0.6765311057981721, "train/success_rate": 0.0, "test/cumulative_reward": 5.247079581452091, "test/mean_score": 0.7442375281917798, "test/success_rate": 0.0, "val_loss": 0.08360057324171066, "train_action_mse_error": 0.022774038836359978}
+{"train_loss": 0.08262816071510315, "train_loss_bc": 0.028341494500637054, "train_loss_llm": 0.5428667068481445, "grad_norm": 0.612468957901001, "global_step": 238, "epoch": 1, "lr": 0.009999988862926341}
+{"train_loss": 0.08695926517248154, "train_loss_bc": 0.02817912958562374, "train_loss_llm": 0.5878013372421265, "grad_norm": 0.6490259766578674, "global_step": 239, "epoch": 1, "lr": 0.009999988862926341}
+{"train_loss": 0.07002482563257217, "train_loss_bc": 0.02421216294169426, "train_loss_llm": 0.45812663435935974, "grad_norm": 0.7555153965950012, "global_step": 240, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.07919090986251831, "train_loss_bc": 0.0215454064309597, "train_loss_llm": 0.5764550566673279, "grad_norm": 0.07093168795108795, "global_step": 241, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.06735122203826904, "train_loss_bc": 0.018616020679473877, "train_loss_llm": 0.48735204339027405, "grad_norm": 0.1310245394706726, "global_step": 242, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.06784149259328842, "train_loss_bc": 0.021357661113142967, "train_loss_llm": 0.46483832597732544, "grad_norm": 0.2179720401763916, "global_step": 243, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.0707608312368393, "train_loss_bc": 0.022061925381422043, "train_loss_llm": 0.4869890809059143, "grad_norm": 0.26957544684410095, "global_step": 244, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.07117784023284912, "train_loss_bc": 0.01870974898338318, "train_loss_llm": 0.5246809124946594, "grad_norm": 0.37972694635391235, "global_step": 245, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.07379139959812164, "train_loss_bc": 0.023365981876850128, "train_loss_llm": 0.5042542219161987, "grad_norm": 0.47635790705680847, "global_step": 246, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.0745944008231163, "train_loss_bc": 0.019475266337394714, "train_loss_llm": 0.5511913299560547, "grad_norm": 0.5308228731155396, "global_step": 247, "epoch": 1, "lr": 0.009999987721376759}
+{"train_loss": 0.08274957537651062, "train_loss_bc": 0.02373286336660385, "train_loss_llm": 0.5901671648025513, "grad_norm": 0.5674628019332886, "global_step": 248, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.05845313519239426, "train_loss_bc": 0.014647753909230232, "train_loss_llm": 0.43805378675460815, "grad_norm": 0.04848601296544075, "global_step": 249, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.05716525763273239, "train_loss_bc": 0.014825036749243736, "train_loss_llm": 0.42340222001075745, "grad_norm": 0.1652206927537918, "global_step": 250, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.06578376889228821, "train_loss_bc": 0.016680210828781128, "train_loss_llm": 0.4910356104373932, "grad_norm": 0.15148162841796875, "global_step": 251, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.07252334803342819, "train_loss_bc": 0.013715126551687717, "train_loss_llm": 0.5880821943283081, "grad_norm": 0.13979887962341309, "global_step": 252, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.05263550579547882, "train_loss_bc": 0.014886056073009968, "train_loss_llm": 0.3774944841861725, "grad_norm": 0.14676116406917572, "global_step": 253, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.058500245213508606, "train_loss_bc": 0.01682884991168976, "train_loss_llm": 0.4167139530181885, "grad_norm": 0.21659861505031586, "global_step": 254, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.05979356914758682, "train_loss_bc": 0.014843381941318512, "train_loss_llm": 0.4495018720626831, "grad_norm": 0.2701280117034912, "global_step": 255, "epoch": 1, "lr": 0.009999986524141925}
+{"train_loss": 0.0767042338848114, "train_loss_bc": 0.016358304768800735, "train_loss_llm": 0.6034592390060425, "grad_norm": 0.38505637645721436, "global_step": 256, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.06721469759941101, "train_loss_bc": 0.012735611759126186, "train_loss_llm": 0.5447908639907837, "grad_norm": 0.10215964913368225, "global_step": 257, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.05856194347143173, "train_loss_bc": 0.010458340868353844, "train_loss_llm": 0.4810360074043274, "grad_norm": 0.14422480762004852, "global_step": 258, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.06328606605529785, "train_loss_bc": 0.011917557567358017, "train_loss_llm": 0.5136851072311401, "grad_norm": 0.1972251832485199, "global_step": 259, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.07060693204402924, "train_loss_bc": 0.016677148640155792, "train_loss_llm": 0.539297878742218, "grad_norm": 0.21255819499492645, "global_step": 260, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.07437436282634735, "train_loss_bc": 0.01785365864634514, "train_loss_llm": 0.5652070045471191, "grad_norm": 0.18052472174167633, "global_step": 261, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.06706290692090988, "train_loss_bc": 0.012910320423543453, "train_loss_llm": 0.5415258407592773, "grad_norm": 0.1984790861606598, "global_step": 262, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.06766418367624283, "train_loss_bc": 0.022325651720166206, "train_loss_llm": 0.4533853232860565, "grad_norm": 0.27813494205474854, "global_step": 263, "epoch": 1, "lr": 0.00999998527122185}
+{"train_loss": 0.07418420910835266, "train_loss_bc": 0.018787503242492676, "train_loss_llm": 0.5539670586585999, "grad_norm": 0.324875146150589, "global_step": 264, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.06580822169780731, "train_loss_bc": 0.017553381621837616, "train_loss_llm": 0.48254838585853577, "grad_norm": 0.08375275880098343, "global_step": 265, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.07089099287986755, "train_loss_bc": 0.01926335319876671, "train_loss_llm": 0.5162763595581055, "grad_norm": 0.15466690063476562, "global_step": 266, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.07482254505157471, "train_loss_bc": 0.013458548113703728, "train_loss_llm": 0.6136399507522583, "grad_norm": 0.1880013346672058, "global_step": 267, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.0666000247001648, "train_loss_bc": 0.018458664417266846, "train_loss_llm": 0.4814135730266571, "grad_norm": 0.23595598340034485, "global_step": 268, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.06727901846170425, "train_loss_bc": 0.01884699985384941, "train_loss_llm": 0.48432019352912903, "grad_norm": 0.30920740962028503, "global_step": 269, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.05692397058010101, "train_loss_bc": 0.013399742543697357, "train_loss_llm": 0.43524226546287537, "grad_norm": 0.3360959589481354, "global_step": 270, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.06294398009777069, "train_loss_bc": 0.016444826498627663, "train_loss_llm": 0.4649915397167206, "grad_norm": 0.3625951409339905, "global_step": 271, "epoch": 1, "lr": 0.009999983962616553}
+{"train_loss": 0.07088907063007355, "train_loss_bc": 0.018088864162564278, "train_loss_llm": 0.5280020236968994, "grad_norm": 0.4394550621509552, "global_step": 272, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.06330247223377228, "train_loss_bc": 0.021488819271326065, "train_loss_llm": 0.4181365370750427, "grad_norm": 0.048478852957487106, "global_step": 273, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.05937502533197403, "train_loss_bc": 0.014406517148017883, "train_loss_llm": 0.44968506693840027, "grad_norm": 0.07841911166906357, "global_step": 274, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.062124256044626236, "train_loss_bc": 0.019773010164499283, "train_loss_llm": 0.42351245880126953, "grad_norm": 0.1246022954583168, "global_step": 275, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.06108787655830383, "train_loss_bc": 0.02495712786912918, "train_loss_llm": 0.3613074719905853, "grad_norm": 0.20695899426937103, "global_step": 276, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.07665760815143585, "train_loss_bc": 0.031461168080568314, "train_loss_llm": 0.45196443796157837, "grad_norm": 0.24233725666999817, "global_step": 277, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.06853757053613663, "train_loss_bc": 0.018619606271386147, "train_loss_llm": 0.4991796016693115, "grad_norm": 0.2723832130432129, "global_step": 278, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.07096967846155167, "train_loss_bc": 0.02395530603826046, "train_loss_llm": 0.47014373540878296, "grad_norm": 0.29648667573928833, "global_step": 279, "epoch": 1, "lr": 0.009999982598326042}
+{"train_loss": 0.06657043844461441, "train_loss_bc": 0.020251132547855377, "train_loss_llm": 0.46319305896759033, "grad_norm": 0.3223232924938202, "global_step": 280, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.06801728904247284, "train_loss_bc": 0.019138095900416374, "train_loss_llm": 0.48879191279411316, "grad_norm": 0.05816897749900818, "global_step": 281, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.0673486515879631, "train_loss_bc": 0.023986365646123886, "train_loss_llm": 0.4336228668689728, "grad_norm": 0.10632556676864624, "global_step": 282, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.07600105553865433, "train_loss_bc": 0.0246410071849823, "train_loss_llm": 0.5136004686355591, "grad_norm": 0.16575226187705994, "global_step": 283, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.08444923907518387, "train_loss_bc": 0.03233286738395691, "train_loss_llm": 0.5211637020111084, "grad_norm": 0.2197095900774002, "global_step": 284, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.07825172692537308, "train_loss_bc": 0.029677174985408783, "train_loss_llm": 0.48574551939964294, "grad_norm": 0.2871396541595459, "global_step": 285, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.06337859481573105, "train_loss_bc": 0.019644364714622498, "train_loss_llm": 0.4373422861099243, "grad_norm": 0.3378359377384186, "global_step": 286, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.08237620443105698, "train_loss_bc": 0.025315336883068085, "train_loss_llm": 0.5706086754798889, "grad_norm": 0.4001227915287018, "global_step": 287, "epoch": 1, "lr": 0.00999998117835034}
+{"train_loss": 0.08240199089050293, "train_loss_bc": 0.0313652865588665, "train_loss_llm": 0.5103670358657837, "grad_norm": 0.4696228802204132, "global_step": 288, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.07986713200807571, "train_loss_bc": 0.024849234148859978, "train_loss_llm": 0.5501790046691895, "grad_norm": 0.056446198374032974, "global_step": 289, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.07197439670562744, "train_loss_bc": 0.026321783661842346, "train_loss_llm": 0.45652616024017334, "grad_norm": 0.11423391848802567, "global_step": 290, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.07701484858989716, "train_loss_bc": 0.029617590829730034, "train_loss_llm": 0.4739725589752197, "grad_norm": 0.17343206703662872, "global_step": 291, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.08139938861131668, "train_loss_bc": 0.02503299154341221, "train_loss_llm": 0.5636639595031738, "grad_norm": 0.2305842638015747, "global_step": 292, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.0725044459104538, "train_loss_bc": 0.024196477606892586, "train_loss_llm": 0.4830796718597412, "grad_norm": 0.28158828616142273, "global_step": 293, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.07206552475690842, "train_loss_bc": 0.021980825811624527, "train_loss_llm": 0.5008469820022583, "grad_norm": 0.3380528390407562, "global_step": 294, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.07161392271518707, "train_loss_bc": 0.02481662482023239, "train_loss_llm": 0.467972993850708, "grad_norm": 0.4115365147590637, "global_step": 295, "epoch": 1, "lr": 0.009999979702689454}
+{"train_loss": 0.07460087537765503, "train_loss_bc": 0.022148247808218002, "train_loss_llm": 0.5245262384414673, "grad_norm": 0.48345130681991577, "global_step": 296, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.06593906879425049, "train_loss_bc": 0.01880006305873394, "train_loss_llm": 0.471390038728714, "grad_norm": 0.0416376031935215, "global_step": 297, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.06867025047540665, "train_loss_bc": 0.019796479493379593, "train_loss_llm": 0.48873770236968994, "grad_norm": 0.08470003306865692, "global_step": 298, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.06929975003004074, "train_loss_bc": 0.020547419786453247, "train_loss_llm": 0.48752328753471375, "grad_norm": 0.133017435669899, "global_step": 299, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.06226982921361923, "train_loss_bc": 0.01753755286335945, "train_loss_llm": 0.4473227560520172, "grad_norm": 0.19536124169826508, "global_step": 300, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.06978163123130798, "train_loss_bc": 0.020170079544186592, "train_loss_llm": 0.496115505695343, "grad_norm": 0.246367409825325, "global_step": 301, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.06833923608064651, "train_loss_bc": 0.024576809257268906, "train_loss_llm": 0.4376242458820343, "grad_norm": 0.29786062240600586, "global_step": 302, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.07125844806432724, "train_loss_bc": 0.018949709832668304, "train_loss_llm": 0.5230873823165894, "grad_norm": 0.3394615948200226, "global_step": 303, "epoch": 1, "lr": 0.00999997817134341}
+{"train_loss": 0.06648293137550354, "train_loss_bc": 0.02110370621085167, "train_loss_llm": 0.4537922739982605, "grad_norm": 0.3813791871070862, "global_step": 304, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.06027660518884659, "train_loss_bc": 0.015400616452097893, "train_loss_llm": 0.44875991344451904, "grad_norm": 0.04804741591215134, "global_step": 305, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.05896424502134323, "train_loss_bc": 0.016614997759461403, "train_loss_llm": 0.4234924614429474, "grad_norm": 0.08539845794439316, "global_step": 306, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.05902421474456787, "train_loss_bc": 0.01687208190560341, "train_loss_llm": 0.4215213358402252, "grad_norm": 0.11323512345552444, "global_step": 307, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.06166333705186844, "train_loss_bc": 0.015019144862890244, "train_loss_llm": 0.46644192934036255, "grad_norm": 0.12275383621454239, "global_step": 308, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.06114544719457626, "train_loss_bc": 0.014772111549973488, "train_loss_llm": 0.4637333154678345, "grad_norm": 0.13446317613124847, "global_step": 309, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.06296147406101227, "train_loss_bc": 0.019046600908041, "train_loss_llm": 0.4391486942768097, "grad_norm": 0.16436633467674255, "global_step": 310, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.06146691367030144, "train_loss_bc": 0.014685094356536865, "train_loss_llm": 0.46781817078590393, "grad_norm": 0.2124612182378769, "global_step": 311, "epoch": 1, "lr": 0.009999976584312217}
+{"train_loss": 0.056094516068696976, "train_loss_bc": 0.015827178955078125, "train_loss_llm": 0.4026733636856079, "grad_norm": 0.2738921046257019, "global_step": 312, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.06156506389379501, "train_loss_bc": 0.015033484436571598, "train_loss_llm": 0.4653157889842987, "grad_norm": 0.020119668915867805, "global_step": 313, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.06191975250840187, "train_loss_bc": 0.015803001821041107, "train_loss_llm": 0.46116751432418823, "grad_norm": 0.04977644234895706, "global_step": 314, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.066299669444561, "train_loss_bc": 0.018161999061703682, "train_loss_llm": 0.4813767075538635, "grad_norm": 0.093187615275383, "global_step": 315, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.056932561099529266, "train_loss_bc": 0.015208257362246513, "train_loss_llm": 0.41724300384521484, "grad_norm": 0.15569846332073212, "global_step": 316, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.06350821256637573, "train_loss_bc": 0.017137723043560982, "train_loss_llm": 0.4637048840522766, "grad_norm": 0.19054342806339264, "global_step": 317, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.055983126163482666, "train_loss_bc": 0.017216315492987633, "train_loss_llm": 0.3876681327819824, "grad_norm": 0.23550766706466675, "global_step": 318, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.06255902349948883, "train_loss_bc": 0.01618468202650547, "train_loss_llm": 0.4637434184551239, "grad_norm": 0.21298907697200775, "global_step": 319, "epoch": 1, "lr": 0.009999974941595897}
+{"train_loss": 0.05383376404643059, "train_loss_bc": 0.014441817067563534, "train_loss_llm": 0.393919438123703, "grad_norm": 0.26476889848709106, "global_step": 320, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.06257815659046173, "train_loss_bc": 0.018285514786839485, "train_loss_llm": 0.44292640686035156, "grad_norm": 0.07380004972219467, "global_step": 321, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.052749257534742355, "train_loss_bc": 0.015377726405858994, "train_loss_llm": 0.3737153112888336, "grad_norm": 0.06363977491855621, "global_step": 322, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.06588204205036163, "train_loss_bc": 0.01622990146279335, "train_loss_llm": 0.4965214431285858, "grad_norm": 0.1775706261396408, "global_step": 323, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.06387466192245483, "train_loss_bc": 0.015019884333014488, "train_loss_llm": 0.48854780197143555, "grad_norm": 0.23098401725292206, "global_step": 324, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.07456723600625992, "train_loss_bc": 0.015499580651521683, "train_loss_llm": 0.5906765460968018, "grad_norm": 0.3068521320819855, "global_step": 325, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.062170036137104034, "train_loss_bc": 0.0179708581417799, "train_loss_llm": 0.44199174642562866, "grad_norm": 0.3444131016731262, "global_step": 326, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.05827938765287399, "train_loss_bc": 0.014115018770098686, "train_loss_llm": 0.4416436553001404, "grad_norm": 0.3976789712905884, "global_step": 327, "epoch": 1, "lr": 0.009999973243194467}
+{"train_loss": 0.06878302991390228, "train_loss_bc": 0.013347376137971878, "train_loss_llm": 0.554356575012207, "grad_norm": 0.45860424637794495, "global_step": 328, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.06256970018148422, "train_loss_bc": 0.01501130498945713, "train_loss_llm": 0.47558391094207764, "grad_norm": 0.06750985980033875, "global_step": 329, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.06075429916381836, "train_loss_bc": 0.016385406255722046, "train_loss_llm": 0.44368892908096313, "grad_norm": 0.10041344165802002, "global_step": 330, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.06485889852046967, "train_loss_bc": 0.01564098708331585, "train_loss_llm": 0.49217912554740906, "grad_norm": 0.13579487800598145, "global_step": 331, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.07460260391235352, "train_loss_bc": 0.015023279003798962, "train_loss_llm": 0.5957932472229004, "grad_norm": 0.19197532534599304, "global_step": 332, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.06055259704589844, "train_loss_bc": 0.013784486800432205, "train_loss_llm": 0.46768108010292053, "grad_norm": 0.22401176393032074, "global_step": 333, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.06194610148668289, "train_loss_bc": 0.01575181446969509, "train_loss_llm": 0.4619428515434265, "grad_norm": 0.19038592278957367, "global_step": 334, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.06289884448051453, "train_loss_bc": 0.015774374827742577, "train_loss_llm": 0.4712446928024292, "grad_norm": 0.22084376215934753, "global_step": 335, "epoch": 1, "lr": 0.009999971489107947}
+{"train_loss": 0.06722390651702881, "train_loss_bc": 0.015675779432058334, "train_loss_llm": 0.5154812335968018, "grad_norm": 0.2471097707748413, "global_step": 336, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.06211002543568611, "train_loss_bc": 0.015499509871006012, "train_loss_llm": 0.4661051332950592, "grad_norm": 0.14641501009464264, "global_step": 337, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.06372406333684921, "train_loss_bc": 0.013164374977350235, "train_loss_llm": 0.5055968761444092, "grad_norm": 0.1329980492591858, "global_step": 338, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.06939277052879333, "train_loss_bc": 0.01576545648276806, "train_loss_llm": 0.5362731218338013, "grad_norm": 0.16219370067119598, "global_step": 339, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.0647675022482872, "train_loss_bc": 0.011556154116988182, "train_loss_llm": 0.5321134924888611, "grad_norm": 0.22231543064117432, "global_step": 340, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.06726224720478058, "train_loss_bc": 0.016161100938916206, "train_loss_llm": 0.5110114812850952, "grad_norm": 0.19737955927848816, "global_step": 341, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.062027253210544586, "train_loss_bc": 0.01231534592807293, "train_loss_llm": 0.4971190392971039, "grad_norm": 0.18799562752246857, "global_step": 342, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.0601944699883461, "train_loss_bc": 0.016717534512281418, "train_loss_llm": 0.4347693622112274, "grad_norm": 0.1960008442401886, "global_step": 343, "epoch": 1, "lr": 0.009999969679336354}
+{"train_loss": 0.06361497938632965, "train_loss_bc": 0.013719741255044937, "train_loss_llm": 0.49895238876342773, "grad_norm": 0.21344326436519623, "global_step": 344, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.0641988217830658, "train_loss_bc": 0.014944154769182205, "train_loss_llm": 0.49254661798477173, "grad_norm": 0.12010179460048676, "global_step": 345, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.07145891338586807, "train_loss_bc": 0.01689506322145462, "train_loss_llm": 0.5456385016441345, "grad_norm": 0.19020719826221466, "global_step": 346, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.06113191321492195, "train_loss_bc": 0.015173700638115406, "train_loss_llm": 0.45958212018013, "grad_norm": 0.13974405825138092, "global_step": 347, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.0627441480755806, "train_loss_bc": 0.016869645565748215, "train_loss_llm": 0.4587450325489044, "grad_norm": 0.1404249370098114, "global_step": 348, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.06812505424022675, "train_loss_bc": 0.016690343618392944, "train_loss_llm": 0.5143470764160156, "grad_norm": 0.24984174966812134, "global_step": 349, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.05457993596792221, "train_loss_bc": 0.014525091275572777, "train_loss_llm": 0.40054842829704285, "grad_norm": 0.28442248702049255, "global_step": 350, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.06128934770822525, "train_loss_bc": 0.0155430743470788, "train_loss_llm": 0.45746272802352905, "grad_norm": 0.3580796718597412, "global_step": 351, "epoch": 1, "lr": 0.00999996781387971}
+{"train_loss": 0.06342466920614243, "train_loss_bc": 0.012529907748103142, "train_loss_llm": 0.5089476108551025, "grad_norm": 0.34715306758880615, "global_step": 352, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.06609036028385162, "train_loss_bc": 0.013212606310844421, "train_loss_llm": 0.5287774801254272, "grad_norm": 0.07232800871133804, "global_step": 353, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.07099601626396179, "train_loss_bc": 0.013180531561374664, "train_loss_llm": 0.5781548023223877, "grad_norm": 0.10770467668771744, "global_step": 354, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.0692325308918953, "train_loss_bc": 0.01674146205186844, "train_loss_llm": 0.5249106884002686, "grad_norm": 0.12257998436689377, "global_step": 355, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.06003385782241821, "train_loss_bc": 0.014382618479430676, "train_loss_llm": 0.4565123915672302, "grad_norm": 0.2598826289176941, "global_step": 356, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.06595609337091446, "train_loss_bc": 0.016466783359646797, "train_loss_llm": 0.49489307403564453, "grad_norm": 0.24488197267055511, "global_step": 357, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.07220586389303207, "train_loss_bc": 0.017468497157096863, "train_loss_llm": 0.5473736524581909, "grad_norm": 0.3018333315849304, "global_step": 358, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.06368587911128998, "train_loss_bc": 0.011674826964735985, "train_loss_llm": 0.5201104879379272, "grad_norm": 0.2973235249519348, "global_step": 359, "epoch": 1, "lr": 0.009999965892738036}
+{"train_loss": 0.06260543316602707, "train_loss_bc": 0.011945857666432858, "train_loss_llm": 0.5065957903862, "grad_norm": 0.4168854355812073, "global_step": 360, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.05629996955394745, "train_loss_bc": 0.010256992653012276, "train_loss_llm": 0.4604297876358032, "grad_norm": 0.05665309354662895, "global_step": 361, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.058108504861593246, "train_loss_bc": 0.012857872061431408, "train_loss_llm": 0.45250630378723145, "grad_norm": 0.10825678706169128, "global_step": 362, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.06411269307136536, "train_loss_bc": 0.01167292334139347, "train_loss_llm": 0.5243976712226868, "grad_norm": 0.0439402312040329, "global_step": 363, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.07003485411405563, "train_loss_bc": 0.015361139550805092, "train_loss_llm": 0.5467371344566345, "grad_norm": 0.07846149802207947, "global_step": 364, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.060465503484010696, "train_loss_bc": 0.014581892639398575, "train_loss_llm": 0.4588361084461212, "grad_norm": 0.05520876497030258, "global_step": 365, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.08153314888477325, "train_loss_bc": 0.017582248896360397, "train_loss_llm": 0.6395089626312256, "grad_norm": 0.08495103567838669, "global_step": 366, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.06655631959438324, "train_loss_bc": 0.014894436113536358, "train_loss_llm": 0.5166188478469849, "grad_norm": 0.14155541360378265, "global_step": 367, "epoch": 1, "lr": 0.009999963915911353}
+{"train_loss": 0.058624811470508575, "train_loss_bc": 0.010767502710223198, "train_loss_llm": 0.4785730540752411, "grad_norm": 0.1970575451850891, "global_step": 368, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.06775793433189392, "train_loss_bc": 0.012423615902662277, "train_loss_llm": 0.5533431768417358, "grad_norm": 0.03269463777542114, "global_step": 369, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.06369191408157349, "train_loss_bc": 0.011726127937436104, "train_loss_llm": 0.5196578502655029, "grad_norm": 0.03350992500782013, "global_step": 370, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.0652555450797081, "train_loss_bc": 0.015109098516404629, "train_loss_llm": 0.5014644861221313, "grad_norm": 0.040189895778894424, "global_step": 371, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.06034395098686218, "train_loss_bc": 0.011744996532797813, "train_loss_llm": 0.485989511013031, "grad_norm": 0.05394284427165985, "global_step": 372, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.05484557896852493, "train_loss_bc": 0.008462904021143913, "train_loss_llm": 0.4638267159461975, "grad_norm": 0.10596901923418045, "global_step": 373, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.06407827138900757, "train_loss_bc": 0.012351901270449162, "train_loss_llm": 0.5172637104988098, "grad_norm": 0.18238918483257294, "global_step": 374, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.06487388163805008, "train_loss_bc": 0.015576048754155636, "train_loss_llm": 0.49297836422920227, "grad_norm": 0.29366037249565125, "global_step": 375, "epoch": 1, "lr": 0.009999961883399683}
+{"train_loss": 0.05371522158384323, "train_loss_bc": 0.010752016678452492, "train_loss_llm": 0.4296320378780365, "grad_norm": 0.3180752098560333, "global_step": 376, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.0583810955286026, "train_loss_bc": 0.011350259184837341, "train_loss_llm": 0.4703083634376526, "grad_norm": 0.02335914969444275, "global_step": 377, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.05641692131757736, "train_loss_bc": 0.012046867050230503, "train_loss_llm": 0.44370055198669434, "grad_norm": 0.07221177965402603, "global_step": 378, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.06578198820352554, "train_loss_bc": 0.014249742962419987, "train_loss_llm": 0.5153224468231201, "grad_norm": 0.10887373983860016, "global_step": 379, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.05001761019229889, "train_loss_bc": 0.010351615026593208, "train_loss_llm": 0.3966599106788635, "grad_norm": 0.1952422559261322, "global_step": 380, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.06360319256782532, "train_loss_bc": 0.013313114643096924, "train_loss_llm": 0.5029007792472839, "grad_norm": 0.26011624932289124, "global_step": 381, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.061600230634212494, "train_loss_bc": 0.016600392758846283, "train_loss_llm": 0.4499983787536621, "grad_norm": 0.24526822566986084, "global_step": 382, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.057838521897792816, "train_loss_bc": 0.011637791991233826, "train_loss_llm": 0.4620072841644287, "grad_norm": 0.2647804021835327, "global_step": 383, "epoch": 1, "lr": 0.009999959795203048}
+{"train_loss": 0.06670626252889633, "train_loss_bc": 0.015114834532141685, "train_loss_llm": 0.515914261341095, "grad_norm": 0.25041162967681885, "global_step": 384, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.0642092227935791, "train_loss_bc": 0.011360563337802887, "train_loss_llm": 0.5284866094589233, "grad_norm": 0.10077434033155441, "global_step": 385, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.06226549297571182, "train_loss_bc": 0.012068795040249825, "train_loss_llm": 0.5019669532775879, "grad_norm": 0.20640259981155396, "global_step": 386, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.05770018324255943, "train_loss_bc": 0.013318348675966263, "train_loss_llm": 0.4438183307647705, "grad_norm": 0.3195245563983917, "global_step": 387, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.0652475655078888, "train_loss_bc": 0.012831410393118858, "train_loss_llm": 0.5241615772247314, "grad_norm": 0.41774284839630127, "global_step": 388, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.054435983300209045, "train_loss_bc": 0.010520939715206623, "train_loss_llm": 0.43915045261383057, "grad_norm": 0.4212711453437805, "global_step": 389, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.05573578178882599, "train_loss_bc": 0.009278099983930588, "train_loss_llm": 0.4645768105983734, "grad_norm": 0.41056662797927856, "global_step": 390, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.06448788940906525, "train_loss_bc": 0.014893016777932644, "train_loss_llm": 0.4959487020969391, "grad_norm": 0.6123613715171814, "global_step": 391, "epoch": 1, "lr": 0.009999957651321473}
+{"train_loss": 0.05164746940135956, "train_loss_bc": 0.009104151278734207, "train_loss_llm": 0.4254331886768341, "grad_norm": 0.6687743663787842, "global_step": 392, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.07240618765354156, "train_loss_bc": 0.01869523897767067, "train_loss_llm": 0.5371094942092896, "grad_norm": 0.2488766461610794, "global_step": 393, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.04885018244385719, "train_loss_bc": 0.01110856980085373, "train_loss_llm": 0.37741613388061523, "grad_norm": 0.24485056102275848, "global_step": 394, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.05294344201683998, "train_loss_bc": 0.010544806718826294, "train_loss_llm": 0.4239863455295563, "grad_norm": 0.3540486991405487, "global_step": 395, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.07010626792907715, "train_loss_bc": 0.019867774099111557, "train_loss_llm": 0.5023849010467529, "grad_norm": 0.4113467037677765, "global_step": 396, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.051208898425102234, "train_loss_bc": 0.007383102551102638, "train_loss_llm": 0.43825793266296387, "grad_norm": 0.5050749182701111, "global_step": 397, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.054556626826524734, "train_loss_bc": 0.00982654094696045, "train_loss_llm": 0.44730085134506226, "grad_norm": 0.5256304740905762, "global_step": 398, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.04899913817644119, "train_loss_bc": 0.009247824549674988, "train_loss_llm": 0.39751312136650085, "grad_norm": 0.5731342434883118, "global_step": 399, "epoch": 1, "lr": 0.00999995545175498}
+{"train_loss": 0.047667063772678375, "train_loss_bc": 0.012713003903627396, "train_loss_llm": 0.3495405912399292, "grad_norm": 0.6628545522689819, "global_step": 400, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.06939809024333954, "train_loss_bc": 0.01883246749639511, "train_loss_llm": 0.5056562423706055, "grad_norm": 0.03166968747973442, "global_step": 401, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.0442759208381176, "train_loss_bc": 0.008162420243024826, "train_loss_llm": 0.36113500595092773, "grad_norm": 0.0610293447971344, "global_step": 402, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.05547141283750534, "train_loss_bc": 0.010737190954387188, "train_loss_llm": 0.4473422169685364, "grad_norm": 0.11021947860717773, "global_step": 403, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.055840201675891876, "train_loss_bc": 0.01282372698187828, "train_loss_llm": 0.43016475439071655, "grad_norm": 0.15100498497486115, "global_step": 404, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.059168294072151184, "train_loss_bc": 0.014480238780379295, "train_loss_llm": 0.4468805193901062, "grad_norm": 0.17914587259292603, "global_step": 405, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.07076865434646606, "train_loss_bc": 0.0166829414665699, "train_loss_llm": 0.5408570766448975, "grad_norm": 0.22142809629440308, "global_step": 406, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.056925296783447266, "train_loss_bc": 0.006809494458138943, "train_loss_llm": 0.5011579990386963, "grad_norm": 0.24995006620883942, "global_step": 407, "epoch": 1, "lr": 0.009999953196503595}
+{"train_loss": 0.06578855961561203, "train_loss_bc": 0.016249842941761017, "train_loss_llm": 0.49538716673851013, "grad_norm": 0.33266785740852356, "global_step": 408, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.051788851618766785, "train_loss_bc": 0.010938962921500206, "train_loss_llm": 0.4084989130496979, "grad_norm": 0.05283152312040329, "global_step": 409, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.054954491555690765, "train_loss_bc": 0.013921650126576424, "train_loss_llm": 0.4103284180164337, "grad_norm": 0.101932592689991, "global_step": 410, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.05158771574497223, "train_loss_bc": 0.009146910160779953, "train_loss_llm": 0.42440804839134216, "grad_norm": 0.1286185383796692, "global_step": 411, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.05919817090034485, "train_loss_bc": 0.01180930994451046, "train_loss_llm": 0.473888635635376, "grad_norm": 0.182143434882164, "global_step": 412, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.0647742822766304, "train_loss_bc": 0.014062085188925266, "train_loss_llm": 0.5071219205856323, "grad_norm": 0.20914709568023682, "global_step": 413, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.05755462497472763, "train_loss_bc": 0.011898323893547058, "train_loss_llm": 0.45656299591064453, "grad_norm": 0.23499341309070587, "global_step": 414, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.0507919117808342, "train_loss_bc": 0.011903082951903343, "train_loss_llm": 0.38888829946517944, "grad_norm": 0.29143714904785156, "global_step": 415, "epoch": 1, "lr": 0.009999950885567342}
+{"train_loss": 0.06325818598270416, "train_loss_bc": 0.017488103359937668, "train_loss_llm": 0.45770081877708435, "grad_norm": 0.3137108087539673, "global_step": 416, "epoch": 1, "lr": 0.009999948518946245}
+{"train_loss": 0.06953898072242737, "train_loss_bc": 0.021703418344259262, "train_loss_llm": 0.47835561633110046, "grad_norm": 0.056985657662153244, "global_step": 417, "epoch": 1, "lr": 0.009999948518946245}
+{"train_loss": 0.07163369655609131, "train_loss_bc": 0.022802095860242844, "train_loss_llm": 0.48831596970558167, "grad_norm": 0.0715690553188324, "global_step": 418, "epoch": 1, "lr": 0.009999948518946245}
+{"train_loss": 0.06550854444503784, "train_loss_bc": 0.02255328558385372, "train_loss_llm": 0.4295525550842285, "grad_norm": 0.10972612351179123, "global_step": 419, "epoch": 1, "lr": 0.009999948518946245}
+{"train_loss": 0.051339201629161835, "train_loss_bc": 0.008628388866782188, "train_loss_llm": 0.42710810899734497, "grad_norm": 0.19562850892543793, "global_step": 420, "epoch": 1, "lr": 0.009999948518946245}
+{"train_loss": 0.07086174190044403, "train_loss_bc": 0.018005572259426117, "train_loss_llm": 0.5285617113113403, "grad_norm": 0.19283752143383026, "global_step": 421, "epoch": 1, "lr": 0.009999948518946245}
+{"train_loss": 0.0648547038435936, "train_loss_bc": 0.01996515691280365, "train_loss_llm": 0.4488954544067383, "grad_norm": 0.2305336743593216, "global_step": 422, "epoch": 1, "lr": 0.009999948518946245}
+{"train_loss": 0.07853010296821594, "train_loss_bc": 0.02374846115708351, "train_loss_llm": 0.5478163957595825, "grad_norm": 0.2851337790489197, "global_step": 423, "epoch": 1, "lr": 0.009999948518946245}
+{"train_loss": 0.0626988336443901, "train_loss_bc": 0.016120431944727898, "train_loss_llm": 0.4657839834690094, "grad_norm": 0.3326399624347687, "global_step": 424, "epoch": 1, "lr": 0.009999946096640335}
+{"train_loss": 0.054460424929857254, "train_loss_bc": 0.01330886036157608, "train_loss_llm": 0.41151562333106995, "grad_norm": 0.039040207862854004, "global_step": 425, "epoch": 1, "lr": 0.009999946096640335}
+{"train_loss": 0.07775597274303436, "train_loss_bc": 0.024233199656009674, "train_loss_llm": 0.5352277159690857, "grad_norm": 0.048743702471256256, "global_step": 426, "epoch": 1, "lr": 0.009999946096640335}
+{"train_loss": 0.05681220442056656, "train_loss_bc": 0.015425304882228374, "train_loss_llm": 0.4138689637184143, "grad_norm": 0.061143092811107635, "global_step": 427, "epoch": 1, "lr": 0.009999946096640335}
+{"train_loss": 0.0532289557158947, "train_loss_bc": 0.015264569781720638, "train_loss_llm": 0.37964385747909546, "grad_norm": 0.08232767134904861, "global_step": 428, "epoch": 1, "lr": 0.009999946096640335}
+{"train_loss": 0.0665263757109642, "train_loss_bc": 0.015879377722740173, "train_loss_llm": 0.5064699649810791, "grad_norm": 0.09882384538650513, "global_step": 429, "epoch": 1, "lr": 0.009999946096640335}
+{"train_loss": 0.05734687298536301, "train_loss_bc": 0.013869162648916245, "train_loss_llm": 0.43477708101272583, "grad_norm": 0.10304528474807739, "global_step": 430, "epoch": 1, "lr": 0.009999946096640335}
+{"train_loss": 0.04686576500535011, "train_loss_bc": 0.00915518868714571, "train_loss_llm": 0.3771057724952698, "grad_norm": 0.13207273185253143, "global_step": 431, "epoch": 1, "lr": 0.009999946096640335}
+{"train_loss": 0.06812023371458054, "train_loss_bc": 0.016268933191895485, "train_loss_llm": 0.5185129642486572, "grad_norm": 0.12316343188285828, "global_step": 432, "epoch": 1, "lr": 0.009999943618649636}
+{"train_loss": 0.05155196413397789, "train_loss_bc": 0.010265383869409561, "train_loss_llm": 0.4128657877445221, "grad_norm": 0.038817428052425385, "global_step": 433, "epoch": 1, "lr": 0.009999943618649636}
+{"train_loss": 0.05230451375246048, "train_loss_bc": 0.013935373164713383, "train_loss_llm": 0.3836914002895355, "grad_norm": 0.10048875212669373, "global_step": 434, "epoch": 1, "lr": 0.009999943618649636}
+{"train_loss": 0.05624343827366829, "train_loss_bc": 0.011513147503137589, "train_loss_llm": 0.447302907705307, "grad_norm": 0.06495562940835953, "global_step": 435, "epoch": 1, "lr": 0.009999943618649636}
+{"train_loss": 0.05913235619664192, "train_loss_bc": 0.01437398698180914, "train_loss_llm": 0.4475836753845215, "grad_norm": 0.14979921281337738, "global_step": 436, "epoch": 1, "lr": 0.009999943618649636}
+{"train_loss": 0.04997813329100609, "train_loss_bc": 0.010911565274000168, "train_loss_llm": 0.3906656801700592, "grad_norm": 0.18169406056404114, "global_step": 437, "epoch": 1, "lr": 0.009999943618649636}
+{"train_loss": 0.05191645398736, "train_loss_bc": 0.0098748579621315, "train_loss_llm": 0.4204159379005432, "grad_norm": 0.1927499771118164, "global_step": 438, "epoch": 1, "lr": 0.009999943618649636}
+{"train_loss": 0.06116681545972824, "train_loss_bc": 0.011216425336897373, "train_loss_llm": 0.4995039105415344, "grad_norm": 0.2059544175863266, "global_step": 439, "epoch": 1, "lr": 0.009999943618649636}
+{"train_loss": 0.051845185458660126, "train_loss_bc": 0.01300345454365015, "train_loss_llm": 0.3884173035621643, "grad_norm": 0.2236555516719818, "global_step": 440, "epoch": 1, "lr": 0.009999941084974175}
+{"train_loss": 0.06334888190031052, "train_loss_bc": 0.012703495100140572, "train_loss_llm": 0.5064538717269897, "grad_norm": 0.026628518477082253, "global_step": 441, "epoch": 1, "lr": 0.009999941084974175}
+{"train_loss": 0.05073994770646095, "train_loss_bc": 0.009695851244032383, "train_loss_llm": 0.41044098138809204, "grad_norm": 0.04647026211023331, "global_step": 442, "epoch": 1, "lr": 0.009999941084974175}
+{"train_loss": 0.05150151997804642, "train_loss_bc": 0.011134510859847069, "train_loss_llm": 0.4036701023578644, "grad_norm": 0.07578478753566742, "global_step": 443, "epoch": 1, "lr": 0.009999941084974175}
+{"train_loss": 0.05152390897274017, "train_loss_bc": 0.012600069865584373, "train_loss_llm": 0.3892384171485901, "grad_norm": 0.08928979933261871, "global_step": 444, "epoch": 1, "lr": 0.009999941084974175}
+{"train_loss": 0.056203145533800125, "train_loss_bc": 0.01371211837977171, "train_loss_llm": 0.4249102473258972, "grad_norm": 0.15021909773349762, "global_step": 445, "epoch": 1, "lr": 0.009999941084974175}
+{"train_loss": 0.06482244282960892, "train_loss_bc": 0.013716397807002068, "train_loss_llm": 0.5110604166984558, "grad_norm": 0.21197453141212463, "global_step": 446, "epoch": 1, "lr": 0.009999941084974175}
+{"train_loss": 0.05031795799732208, "train_loss_bc": 0.011990563943982124, "train_loss_llm": 0.3832739591598511, "grad_norm": 0.21481186151504517, "global_step": 447, "epoch": 1, "lr": 0.009999941084974175}
+{"train_loss": 0.049210600554943085, "train_loss_bc": 0.011071540415287018, "train_loss_llm": 0.38139060139656067, "grad_norm": 0.25867533683776855, "global_step": 448, "epoch": 1, "lr": 0.009999938495613982}
+{"train_loss": 0.05008658394217491, "train_loss_bc": 0.010133162140846252, "train_loss_llm": 0.3995341956615448, "grad_norm": 0.036110032349824905, "global_step": 449, "epoch": 1, "lr": 0.009999938495613982}
+{"train_loss": 0.04695308208465576, "train_loss_bc": 0.01041186973452568, "train_loss_llm": 0.3654121160507202, "grad_norm": 0.12143802642822266, "global_step": 450, "epoch": 1, "lr": 0.009999938495613982}
+{"train_loss": 0.05506189167499542, "train_loss_bc": 0.010979494079947472, "train_loss_llm": 0.4408239424228668, "grad_norm": 0.1059030145406723, "global_step": 451, "epoch": 1, "lr": 0.009999938495613982}
+{"train_loss": 0.055124979466199875, "train_loss_bc": 0.010141581296920776, "train_loss_llm": 0.4498339593410492, "grad_norm": 0.12465351819992065, "global_step": 452, "epoch": 1, "lr": 0.009999938495613982}
+{"train_loss": 0.05408347398042679, "train_loss_bc": 0.012221184559166431, "train_loss_llm": 0.4186229109764099, "grad_norm": 0.15126638114452362, "global_step": 453, "epoch": 1, "lr": 0.009999938495613982}
+{"train_loss": 0.057155542075634, "train_loss_bc": 0.011392277665436268, "train_loss_llm": 0.4576326608657837, "grad_norm": 0.14082375168800354, "global_step": 454, "epoch": 1, "lr": 0.009999938495613982}
+{"train_loss": 0.056303247809410095, "train_loss_bc": 0.013707790523767471, "train_loss_llm": 0.42595455050468445, "grad_norm": 0.14609847962856293, "global_step": 455, "epoch": 1, "lr": 0.009999938495613982}
+{"train_loss": 0.06427949666976929, "train_loss_bc": 0.013373857364058495, "train_loss_llm": 0.5090563893318176, "grad_norm": 0.1478351503610611, "global_step": 456, "epoch": 1, "lr": 0.009999935850569084}
+{"train_loss": 0.05413491651415825, "train_loss_bc": 0.009607392363250256, "train_loss_llm": 0.445275217294693, "grad_norm": 0.03340199589729309, "global_step": 457, "epoch": 1, "lr": 0.009999935850569084}
+{"train_loss": 0.04998409375548363, "train_loss_bc": 0.01091119647026062, "train_loss_llm": 0.39072898030281067, "grad_norm": 0.035530440509319305, "global_step": 458, "epoch": 1, "lr": 0.009999935850569084}
+{"train_loss": 0.04761037230491638, "train_loss_bc": 0.011284925043582916, "train_loss_llm": 0.36325445771217346, "grad_norm": 0.041838400065898895, "global_step": 459, "epoch": 1, "lr": 0.009999935850569084}
+{"train_loss": 0.06173349544405937, "train_loss_bc": 0.011404100805521011, "train_loss_llm": 0.5032939314842224, "grad_norm": 0.09307803958654404, "global_step": 460, "epoch": 1, "lr": 0.009999935850569084}
+{"train_loss": 0.05105416104197502, "train_loss_bc": 0.011013383977115154, "train_loss_llm": 0.4004077613353729, "grad_norm": 0.10746312141418457, "global_step": 461, "epoch": 1, "lr": 0.009999935850569084}
+{"train_loss": 0.049086034297943115, "train_loss_bc": 0.01193426363170147, "train_loss_llm": 0.37151771783828735, "grad_norm": 0.12248794734477997, "global_step": 462, "epoch": 1, "lr": 0.009999935850569084}
+{"train_loss": 0.0599837452173233, "train_loss_bc": 0.010715456679463387, "train_loss_llm": 0.49268287420272827, "grad_norm": 0.1323290765285492, "global_step": 463, "epoch": 1, "lr": 0.009999935850569084}
+{"train_loss": 0.05092458426952362, "train_loss_bc": 0.013832124881446362, "train_loss_llm": 0.37092456221580505, "grad_norm": 0.19181062281131744, "global_step": 464, "epoch": 1, "lr": 0.009999933149839513}
+{"train_loss": 0.058684252202510834, "train_loss_bc": 0.013607364147901535, "train_loss_llm": 0.4507688879966736, "grad_norm": 0.10374001413583755, "global_step": 465, "epoch": 1, "lr": 0.009999933149839513}
+{"train_loss": 0.05192995443940163, "train_loss_bc": 0.010411303490400314, "train_loss_llm": 0.41518649458885193, "grad_norm": 0.0969921350479126, "global_step": 466, "epoch": 1, "lr": 0.009999933149839513}
+{"train_loss": 0.06498011946678162, "train_loss_bc": 0.014779992401599884, "train_loss_llm": 0.5020012855529785, "grad_norm": 0.15115566551685333, "global_step": 467, "epoch": 1, "lr": 0.009999933149839513}
+{"train_loss": 0.06263235211372375, "train_loss_bc": 0.015789983794093132, "train_loss_llm": 0.4684236943721771, "grad_norm": 0.13624463975429535, "global_step": 468, "epoch": 1, "lr": 0.009999933149839513}
+{"train_loss": 0.05959009379148483, "train_loss_bc": 0.01179688610136509, "train_loss_llm": 0.4779320955276489, "grad_norm": 0.1718040257692337, "global_step": 469, "epoch": 1, "lr": 0.009999933149839513}
+{"train_loss": 0.051976755261421204, "train_loss_bc": 0.011647301726043224, "train_loss_llm": 0.40329450368881226, "grad_norm": 0.21742279827594757, "global_step": 470, "epoch": 1, "lr": 0.009999933149839513}
+{"train_loss": 0.0738920196890831, "train_loss_bc": 0.014758570119738579, "train_loss_llm": 0.5913344621658325, "grad_norm": 0.3112807869911194, "global_step": 471, "epoch": 1, "lr": 0.009999933149839513}
+{"train_loss": 0.05647503212094307, "train_loss_bc": 0.012584816664457321, "train_loss_llm": 0.4389021396636963, "grad_norm": 0.3547532856464386, "global_step": 472, "epoch": 1, "lr": 0.009999930393425296}
+{"train_loss": 0.04328922554850578, "train_loss_bc": 0.009679525159299374, "train_loss_llm": 0.33609700202941895, "grad_norm": 0.024270640686154366, "global_step": 473, "epoch": 1, "lr": 0.009999930393425296}
+{"train_loss": 0.04865862429141998, "train_loss_bc": 0.009892989881336689, "train_loss_llm": 0.3876563608646393, "grad_norm": 0.03922176733613014, "global_step": 474, "epoch": 1, "lr": 0.009999930393425296}
+{"train_loss": 0.06277958176904867, "train_loss_bc": 0.009975417517125607, "train_loss_llm": 0.4233674108982086, "grad_norm": 0.07813788950443268, "global_step": 475, "epoch": 1, "lr": 0.009999930393425296, "val_loss": 0.053405240178108215}
+{"train_loss": 0.0492318719625473, "train_loss_bc": 0.010172860696911812, "train_loss_llm": 0.390590101480484, "grad_norm": 0.12039017677307129, "global_step": 476, "epoch": 2, "lr": 0.009999930393425296}
+{"train_loss": 0.044698525220155716, "train_loss_bc": 0.008787214756011963, "train_loss_llm": 0.35911309719085693, "grad_norm": 0.13596926629543304, "global_step": 477, "epoch": 2, "lr": 0.009999930393425296}
+{"train_loss": 0.05288602411746979, "train_loss_bc": 0.01314244233071804, "train_loss_llm": 0.3974358141422272, "grad_norm": 0.19270628690719604, "global_step": 478, "epoch": 2, "lr": 0.009999930393425296}
+{"train_loss": 0.05146906524896622, "train_loss_bc": 0.012010324746370316, "train_loss_llm": 0.3945873975753784, "grad_norm": 0.20707005262374878, "global_step": 479, "epoch": 2, "lr": 0.009999930393425296}
+{"train_loss": 0.06783397495746613, "train_loss_bc": 0.011908244341611862, "train_loss_llm": 0.5592572689056396, "grad_norm": 0.2676650285720825, "global_step": 480, "epoch": 2, "lr": 0.009999927581326467}
+{"train_loss": 0.048720747232437134, "train_loss_bc": 0.008557112887501717, "train_loss_llm": 0.40163636207580566, "grad_norm": 0.034626320004463196, "global_step": 481, "epoch": 2, "lr": 0.009999927581326467}
+{"train_loss": 0.051950372755527496, "train_loss_bc": 0.01129939779639244, "train_loss_llm": 0.40650975704193115, "grad_norm": 0.12958921492099762, "global_step": 482, "epoch": 2, "lr": 0.009999927581326467}
+{"train_loss": 0.07123257219791412, "train_loss_bc": 0.016217947006225586, "train_loss_llm": 0.5501462817192078, "grad_norm": 0.10430239140987396, "global_step": 483, "epoch": 2, "lr": 0.009999927581326467}
+{"train_loss": 0.040222473442554474, "train_loss_bc": 0.00826569925993681, "train_loss_llm": 0.3195677399635315, "grad_norm": 0.21765659749507904, "global_step": 484, "epoch": 2, "lr": 0.009999927581326467}
+{"train_loss": 0.03968638926744461, "train_loss_bc": 0.010727344080805779, "train_loss_llm": 0.289590448141098, "grad_norm": 0.1820891797542572, "global_step": 485, "epoch": 2, "lr": 0.009999927581326467}
+{"train_loss": 0.06701432168483734, "train_loss_bc": 0.01232138928025961, "train_loss_llm": 0.5469293594360352, "grad_norm": 0.16671815514564514, "global_step": 486, "epoch": 2, "lr": 0.009999927581326467}
+{"train_loss": 0.04645206779241562, "train_loss_bc": 0.008307486772537231, "train_loss_llm": 0.3814457952976227, "grad_norm": 0.16891765594482422, "global_step": 487, "epoch": 2, "lr": 0.009999927581326467}
+{"train_loss": 0.050437524914741516, "train_loss_bc": 0.009626157581806183, "train_loss_llm": 0.40811365842819214, "grad_norm": 0.20143550634384155, "global_step": 488, "epoch": 2, "lr": 0.009999924713543057}
+{"train_loss": 0.050428301095962524, "train_loss_bc": 0.010688217356801033, "train_loss_llm": 0.39740079641342163, "grad_norm": 0.05808281898498535, "global_step": 489, "epoch": 2, "lr": 0.009999924713543057}
+{"train_loss": 0.04515249654650688, "train_loss_bc": 0.007102786097675562, "train_loss_llm": 0.3804970681667328, "grad_norm": 0.12714682519435883, "global_step": 490, "epoch": 2, "lr": 0.009999924713543057}
+{"train_loss": 0.05059061199426651, "train_loss_bc": 0.009148797020316124, "train_loss_llm": 0.41441816091537476, "grad_norm": 0.11771316081285477, "global_step": 491, "epoch": 2, "lr": 0.009999924713543057}
+{"train_loss": 0.06969845294952393, "train_loss_bc": 0.014369186013936996, "train_loss_llm": 0.5532926917076111, "grad_norm": 0.17209628224372864, "global_step": 492, "epoch": 2, "lr": 0.009999924713543057}
+{"train_loss": 0.0465359091758728, "train_loss_bc": 0.008178167045116425, "train_loss_llm": 0.3835774064064026, "grad_norm": 0.21925446391105652, "global_step": 493, "epoch": 2, "lr": 0.009999924713543057}
+{"train_loss": 0.05340658500790596, "train_loss_bc": 0.00920342281460762, "train_loss_llm": 0.4420316219329834, "grad_norm": 0.26551365852355957, "global_step": 494, "epoch": 2, "lr": 0.009999924713543057}
+{"train_loss": 0.051843371242284775, "train_loss_bc": 0.009671312756836414, "train_loss_llm": 0.42172059416770935, "grad_norm": 0.2826744019985199, "global_step": 495, "epoch": 2, "lr": 0.009999924713543057}
+{"train_loss": 0.05490683764219284, "train_loss_bc": 0.01130194403231144, "train_loss_llm": 0.4360489547252655, "grad_norm": 0.3147476613521576, "global_step": 496, "epoch": 2, "lr": 0.009999921790075092}
+{"train_loss": 0.04740069434046745, "train_loss_bc": 0.011575676500797272, "train_loss_llm": 0.3582501709461212, "grad_norm": 0.1484007090330124, "global_step": 497, "epoch": 2, "lr": 0.009999921790075092}
+{"train_loss": 0.051715169101953506, "train_loss_bc": 0.008852265775203705, "train_loss_llm": 0.4286290109157562, "grad_norm": 0.1900520622730255, "global_step": 498, "epoch": 2, "lr": 0.009999921790075092}
+{"train_loss": 0.04261929541826248, "train_loss_bc": 0.008340589702129364, "train_loss_llm": 0.3427870571613312, "grad_norm": 0.20538322627544403, "global_step": 499, "epoch": 2, "lr": 0.009999921790075092}
+{"train_loss": 0.051785074174404144, "train_loss_bc": 0.009012507274746895, "train_loss_llm": 0.4277256429195404, "grad_norm": 0.27617770433425903, "global_step": 500, "epoch": 2, "lr": 0.009999921790075092}
+{"train_loss": 0.05064905434846878, "train_loss_bc": 0.013011700473725796, "train_loss_llm": 0.3763735294342041, "grad_norm": 0.28044119477272034, "global_step": 501, "epoch": 2, "lr": 0.009999921790075092}
+{"train_loss": 0.04934904724359512, "train_loss_bc": 0.00913210678845644, "train_loss_llm": 0.402169406414032, "grad_norm": 0.3029746413230896, "global_step": 502, "epoch": 2, "lr": 0.009999921790075092}
+{"train_loss": 0.04610805585980415, "train_loss_bc": 0.010009040124714375, "train_loss_llm": 0.36099016666412354, "grad_norm": 0.33987805247306824, "global_step": 503, "epoch": 2, "lr": 0.009999921790075092}
+{"train_loss": 0.0512736439704895, "train_loss_bc": 0.010661248117685318, "train_loss_llm": 0.40612393617630005, "grad_norm": 0.38900190591812134, "global_step": 504, "epoch": 2, "lr": 0.009999918810922612}
+{"train_loss": 0.0605771504342556, "train_loss_bc": 0.009189623408019543, "train_loss_llm": 0.5138752460479736, "grad_norm": 0.06701726466417313, "global_step": 505, "epoch": 2, "lr": 0.009999918810922612}
+{"train_loss": 0.04637761414051056, "train_loss_bc": 0.00873609259724617, "train_loss_llm": 0.3764151930809021, "grad_norm": 0.12728746235370636, "global_step": 506, "epoch": 2, "lr": 0.009999918810922612}
+{"train_loss": 0.04178248345851898, "train_loss_bc": 0.008937230333685875, "train_loss_llm": 0.3284524977207184, "grad_norm": 0.20192080736160278, "global_step": 507, "epoch": 2, "lr": 0.009999918810922612}
+{"train_loss": 0.05016903579235077, "train_loss_bc": 0.010666115209460258, "train_loss_llm": 0.3950291872024536, "grad_norm": 0.20176315307617188, "global_step": 508, "epoch": 2, "lr": 0.009999918810922612}
+{"train_loss": 0.0524115264415741, "train_loss_bc": 0.010393856093287468, "train_loss_llm": 0.4201766848564148, "grad_norm": 0.20735150575637817, "global_step": 509, "epoch": 2, "lr": 0.009999918810922612}
+{"train_loss": 0.056109435856342316, "train_loss_bc": 0.014531934633851051, "train_loss_llm": 0.41577503085136414, "grad_norm": 0.2886935770511627, "global_step": 510, "epoch": 2, "lr": 0.009999918810922612}
+{"train_loss": 0.054384540766477585, "train_loss_bc": 0.0091453418135643, "train_loss_llm": 0.45239198207855225, "grad_norm": 0.3418649733066559, "global_step": 511, "epoch": 2, "lr": 0.009999918810922612}
+{"train_loss": 0.05469432845711708, "train_loss_bc": 0.009077969938516617, "train_loss_llm": 0.45616358518600464, "grad_norm": 0.39489227533340454, "global_step": 512, "epoch": 2, "lr": 0.009999915776085647}
+{"train_loss": 0.05121064558625221, "train_loss_bc": 0.008754781447350979, "train_loss_llm": 0.4245586097240448, "grad_norm": 0.028109148144721985, "global_step": 513, "epoch": 2, "lr": 0.009999915776085647}
+{"train_loss": 0.04936225712299347, "train_loss_bc": 0.009268192574381828, "train_loss_llm": 0.4009406268596649, "grad_norm": 0.08783693611621857, "global_step": 514, "epoch": 2, "lr": 0.009999915776085647}
+{"train_loss": 0.060141198337078094, "train_loss_bc": 0.014280853793025017, "train_loss_llm": 0.45860347151756287, "grad_norm": 0.11089415848255157, "global_step": 515, "epoch": 2, "lr": 0.009999915776085647}
+{"train_loss": 0.05864505469799042, "train_loss_bc": 0.010408185422420502, "train_loss_llm": 0.48236867785453796, "grad_norm": 0.18135806918144226, "global_step": 516, "epoch": 2, "lr": 0.009999915776085647}
+{"train_loss": 0.044729314744472504, "train_loss_bc": 0.009677449241280556, "train_loss_llm": 0.3505186140537262, "grad_norm": 0.20782025158405304, "global_step": 517, "epoch": 2, "lr": 0.009999915776085647}
+{"train_loss": 0.04500737413764, "train_loss_bc": 0.009864915162324905, "train_loss_llm": 0.35142457485198975, "grad_norm": 0.26852166652679443, "global_step": 518, "epoch": 2, "lr": 0.009999915776085647}
+{"train_loss": 0.05323847755789757, "train_loss_bc": 0.010874241590499878, "train_loss_llm": 0.4236423671245575, "grad_norm": 0.2937318980693817, "global_step": 519, "epoch": 2, "lr": 0.009999915776085647}
+{"train_loss": 0.05665450543165207, "train_loss_bc": 0.010917937383055687, "train_loss_llm": 0.45736566185951233, "grad_norm": 0.33450809121131897, "global_step": 520, "epoch": 2, "lr": 0.009999912685564232}
+{"train_loss": 0.05719313770532608, "train_loss_bc": 0.012764466926455498, "train_loss_llm": 0.4442867338657379, "grad_norm": 0.050059977918863297, "global_step": 521, "epoch": 2, "lr": 0.009999912685564232}
+{"train_loss": 0.05734380707144737, "train_loss_bc": 0.011656283400952816, "train_loss_llm": 0.4568752348423004, "grad_norm": 0.0945812314748764, "global_step": 522, "epoch": 2, "lr": 0.009999912685564232}
+{"train_loss": 0.045447781682014465, "train_loss_bc": 0.008681999519467354, "train_loss_llm": 0.3676578104496002, "grad_norm": 0.16149066388607025, "global_step": 523, "epoch": 2, "lr": 0.009999912685564232}
+{"train_loss": 0.04557681456208229, "train_loss_bc": 0.01282017957419157, "train_loss_llm": 0.32756632566452026, "grad_norm": 0.20022787153720856, "global_step": 524, "epoch": 2, "lr": 0.009999912685564232}
+{"train_loss": 0.038783952593803406, "train_loss_bc": 0.007605863735079765, "train_loss_llm": 0.3117808699607849, "grad_norm": 0.2410992532968521, "global_step": 525, "epoch": 2, "lr": 0.009999912685564232}
+{"train_loss": 0.0492924228310585, "train_loss_bc": 0.009458701126277447, "train_loss_llm": 0.398337185382843, "grad_norm": 0.3048098683357239, "global_step": 526, "epoch": 2, "lr": 0.009999912685564232}
+{"train_loss": 0.04941946268081665, "train_loss_bc": 0.009173741564154625, "train_loss_llm": 0.40245720744132996, "grad_norm": 0.34560471773147583, "global_step": 527, "epoch": 2, "lr": 0.009999912685564232}
+{"train_loss": 0.05012742802500725, "train_loss_bc": 0.010976694524288177, "train_loss_llm": 0.3915073275566101, "grad_norm": 0.4043630361557007, "global_step": 528, "epoch": 2, "lr": 0.009999909539358398}
+{"train_loss": 0.04370405524969101, "train_loss_bc": 0.011144662275910378, "train_loss_llm": 0.3255939185619354, "grad_norm": 0.0896739512681961, "global_step": 529, "epoch": 2, "lr": 0.009999909539358398}
+{"train_loss": 0.05512824282050133, "train_loss_bc": 0.008274272084236145, "train_loss_llm": 0.46853968501091003, "grad_norm": 0.12547482550144196, "global_step": 530, "epoch": 2, "lr": 0.009999909539358398}
+{"train_loss": 0.05801014602184296, "train_loss_bc": 0.010485023260116577, "train_loss_llm": 0.4752512276172638, "grad_norm": 0.18631917238235474, "global_step": 531, "epoch": 2, "lr": 0.009999909539358398}
+{"train_loss": 0.05545005947351456, "train_loss_bc": 0.010999586433172226, "train_loss_llm": 0.4445047378540039, "grad_norm": 0.210208922624588, "global_step": 532, "epoch": 2, "lr": 0.009999909539358398}
+{"train_loss": 0.044536080211400986, "train_loss_bc": 0.006647090427577496, "train_loss_llm": 0.37888988852500916, "grad_norm": 0.24952279031276703, "global_step": 533, "epoch": 2, "lr": 0.009999909539358398}
+{"train_loss": 0.0484456866979599, "train_loss_bc": 0.010856909677386284, "train_loss_llm": 0.37588778138160706, "grad_norm": 0.3362947404384613, "global_step": 534, "epoch": 2, "lr": 0.009999909539358398}
+{"train_loss": 0.059264712035655975, "train_loss_bc": 0.009652309119701385, "train_loss_llm": 0.4961240291595459, "grad_norm": 0.359232634305954, "global_step": 535, "epoch": 2, "lr": 0.009999909539358398}
+{"train_loss": 0.04487624019384384, "train_loss_bc": 0.008056494407355785, "train_loss_llm": 0.3681974411010742, "grad_norm": 0.3983200490474701, "global_step": 536, "epoch": 2, "lr": 0.009999906337468185}
+{"train_loss": 0.04908129572868347, "train_loss_bc": 0.008970115333795547, "train_loss_llm": 0.40111181139945984, "grad_norm": 0.07361539453268051, "global_step": 537, "epoch": 2, "lr": 0.009999906337468185}
+{"train_loss": 0.05794214457273483, "train_loss_bc": 0.013296550139784813, "train_loss_llm": 0.4464559555053711, "grad_norm": 0.1766163408756256, "global_step": 538, "epoch": 2, "lr": 0.009999906337468185}
+{"train_loss": 0.05603089556097984, "train_loss_bc": 0.010408098809421062, "train_loss_llm": 0.45622795820236206, "grad_norm": 0.19599533081054688, "global_step": 539, "epoch": 2, "lr": 0.009999906337468185}
+{"train_loss": 0.06445445120334625, "train_loss_bc": 0.013313628733158112, "train_loss_llm": 0.5114082098007202, "grad_norm": 0.21610493957996368, "global_step": 540, "epoch": 2, "lr": 0.009999906337468185}
+{"train_loss": 0.04790069907903671, "train_loss_bc": 0.009966118261218071, "train_loss_llm": 0.3793458342552185, "grad_norm": 0.29869869351387024, "global_step": 541, "epoch": 2, "lr": 0.009999906337468185}
+{"train_loss": 0.04393507540225983, "train_loss_bc": 0.010150274261832237, "train_loss_llm": 0.3378480076789856, "grad_norm": 0.33362096548080444, "global_step": 542, "epoch": 2, "lr": 0.009999906337468185}
+{"train_loss": 0.05236242711544037, "train_loss_bc": 0.0113290436565876, "train_loss_llm": 0.4103338122367859, "grad_norm": 0.35694411396980286, "global_step": 543, "epoch": 2, "lr": 0.009999906337468185}
+{"train_loss": 0.04973010718822479, "train_loss_bc": 0.00994761474430561, "train_loss_llm": 0.3978249132633209, "grad_norm": 0.3837744891643524, "global_step": 544, "epoch": 2, "lr": 0.009999903079893626}
+{"train_loss": 0.06505463272333145, "train_loss_bc": 0.009403863921761513, "train_loss_llm": 0.5565077066421509, "grad_norm": 0.15343523025512695, "global_step": 545, "epoch": 2, "lr": 0.009999903079893626}
+{"train_loss": 0.05135258287191391, "train_loss_bc": 0.011259492486715317, "train_loss_llm": 0.40093088150024414, "grad_norm": 0.11827293783426285, "global_step": 546, "epoch": 2, "lr": 0.009999903079893626}
+{"train_loss": 0.04432826116681099, "train_loss_bc": 0.007973448373377323, "train_loss_llm": 0.3635481297969818, "grad_norm": 0.20904755592346191, "global_step": 547, "epoch": 2, "lr": 0.009999903079893626}
+{"train_loss": 0.04834245890378952, "train_loss_bc": 0.008278733119368553, "train_loss_llm": 0.40063726902008057, "grad_norm": 0.29488614201545715, "global_step": 548, "epoch": 2, "lr": 0.009999903079893626}
+{"train_loss": 0.049682099372148514, "train_loss_bc": 0.00974349770694971, "train_loss_llm": 0.3993860185146332, "grad_norm": 0.3367421627044678, "global_step": 549, "epoch": 2, "lr": 0.009999903079893626}
+{"train_loss": 0.05299612507224083, "train_loss_bc": 0.007504197768867016, "train_loss_llm": 0.4549192488193512, "grad_norm": 0.3937389850616455, "global_step": 550, "epoch": 2, "lr": 0.009999903079893626}
+{"train_loss": 0.05413812771439552, "train_loss_bc": 0.013168089091777802, "train_loss_llm": 0.4097003936767578, "grad_norm": 0.5018990635871887, "global_step": 551, "epoch": 2, "lr": 0.009999903079893626}
+{"train_loss": 0.041829727590084076, "train_loss_bc": 0.007542203180491924, "train_loss_llm": 0.342875212430954, "grad_norm": 0.5612500309944153, "global_step": 552, "epoch": 2, "lr": 0.009999899766634755}
+{"train_loss": 0.04833190143108368, "train_loss_bc": 0.008078839629888535, "train_loss_llm": 0.40253061056137085, "grad_norm": 0.12255668640136719, "global_step": 553, "epoch": 2, "lr": 0.009999899766634755}
+{"train_loss": 0.05622297525405884, "train_loss_bc": 0.007680234499275684, "train_loss_llm": 0.4854274094104767, "grad_norm": 0.15335337817668915, "global_step": 554, "epoch": 2, "lr": 0.009999899766634755}
+{"train_loss": 0.04740285500884056, "train_loss_bc": 0.009740442968904972, "train_loss_llm": 0.37662410736083984, "grad_norm": 0.21869605779647827, "global_step": 555, "epoch": 2, "lr": 0.009999899766634755}
+{"train_loss": 0.05190958082675934, "train_loss_bc": 0.010565636679530144, "train_loss_llm": 0.41343945264816284, "grad_norm": 0.2336300015449524, "global_step": 556, "epoch": 2, "lr": 0.009999899766634755}
+{"train_loss": 0.04413209483027458, "train_loss_bc": 0.009332060813903809, "train_loss_llm": 0.34800031781196594, "grad_norm": 0.25400036573410034, "global_step": 557, "epoch": 2, "lr": 0.009999899766634755}
+{"train_loss": 0.05945989117026329, "train_loss_bc": 0.010903124697506428, "train_loss_llm": 0.4855676591396332, "grad_norm": 0.2291681468486786, "global_step": 558, "epoch": 2, "lr": 0.009999899766634755}
+{"train_loss": 0.047907546162605286, "train_loss_bc": 0.008214877918362617, "train_loss_llm": 0.3969266414642334, "grad_norm": 0.30762213468551636, "global_step": 559, "epoch": 2, "lr": 0.009999899766634755}
+{"train_loss": 0.045105382800102234, "train_loss_bc": 0.009107420220971107, "train_loss_llm": 0.35997962951660156, "grad_norm": 0.4139924645423889, "global_step": 560, "epoch": 2, "lr": 0.009999896397691615}
+{"train_loss": 0.048852868378162384, "train_loss_bc": 0.008487200364470482, "train_loss_llm": 0.40365666151046753, "grad_norm": 0.04488560929894447, "global_step": 561, "epoch": 2, "lr": 0.009999896397691615}
+{"train_loss": 0.040303997695446014, "train_loss_bc": 0.008403081446886063, "train_loss_llm": 0.3190091550350189, "grad_norm": 0.09275425225496292, "global_step": 562, "epoch": 2, "lr": 0.009999896397691615}
+{"train_loss": 0.04337875545024872, "train_loss_bc": 0.0064980643801391125, "train_loss_llm": 0.3688068985939026, "grad_norm": 0.1139485090970993, "global_step": 563, "epoch": 2, "lr": 0.009999896397691615}
+{"train_loss": 0.05116615444421768, "train_loss_bc": 0.00835466105490923, "train_loss_llm": 0.42811495065689087, "grad_norm": 0.12010794132947922, "global_step": 564, "epoch": 2, "lr": 0.009999896397691615}
+{"train_loss": 0.03991285711526871, "train_loss_bc": 0.009261827915906906, "train_loss_llm": 0.3065102994441986, "grad_norm": 0.10487150400876999, "global_step": 565, "epoch": 2, "lr": 0.009999896397691615}
+{"train_loss": 0.045439790934324265, "train_loss_bc": 0.00812049861997366, "train_loss_llm": 0.3731929063796997, "grad_norm": 0.1202489361166954, "global_step": 566, "epoch": 2, "lr": 0.009999896397691615}
+{"train_loss": 0.04330136999487877, "train_loss_bc": 0.005982383154332638, "train_loss_llm": 0.37318986654281616, "grad_norm": 0.18207786977291107, "global_step": 567, "epoch": 2, "lr": 0.009999896397691615}
+{"train_loss": 0.05397063493728638, "train_loss_bc": 0.007650687359273434, "train_loss_llm": 0.4631994664669037, "grad_norm": 0.18051856756210327, "global_step": 568, "epoch": 2, "lr": 0.009999892973064237}
+{"train_loss": 0.052286744117736816, "train_loss_bc": 0.008179007098078728, "train_loss_llm": 0.4410773515701294, "grad_norm": 0.17306101322174072, "global_step": 569, "epoch": 2, "lr": 0.009999892973064237}
+{"train_loss": 0.04811367392539978, "train_loss_bc": 0.009391119703650475, "train_loss_llm": 0.38722556829452515, "grad_norm": 0.15086562931537628, "global_step": 570, "epoch": 2, "lr": 0.009999892973064237}
+{"train_loss": 0.04552578181028366, "train_loss_bc": 0.009389812126755714, "train_loss_llm": 0.36135971546173096, "grad_norm": 0.2468998283147812, "global_step": 571, "epoch": 2, "lr": 0.009999892973064237}
+{"train_loss": 0.05219476670026779, "train_loss_bc": 0.011565744876861572, "train_loss_llm": 0.406290203332901, "grad_norm": 0.1981874704360962, "global_step": 572, "epoch": 2, "lr": 0.009999892973064237}
+{"train_loss": 0.05600070208311081, "train_loss_bc": 0.011234654113650322, "train_loss_llm": 0.44766050577163696, "grad_norm": 0.2405962347984314, "global_step": 573, "epoch": 2, "lr": 0.009999892973064237}
+{"train_loss": 0.04838317632675171, "train_loss_bc": 0.008577423170208931, "train_loss_llm": 0.3980575203895569, "grad_norm": 0.26453250646591187, "global_step": 574, "epoch": 2, "lr": 0.009999892973064237}
+{"train_loss": 0.04039368778467178, "train_loss_bc": 0.007993729785084724, "train_loss_llm": 0.3239995837211609, "grad_norm": 0.3302576243877411, "global_step": 575, "epoch": 2, "lr": 0.009999892973064237}
+{"train_loss": 0.04936687648296356, "train_loss_bc": 0.008636502549052238, "train_loss_llm": 0.40730375051498413, "grad_norm": 0.3067462146282196, "global_step": 576, "epoch": 2, "lr": 0.009999889492752663}
+{"train_loss": 0.05375594645738602, "train_loss_bc": 0.012149937450885773, "train_loss_llm": 0.41606009006500244, "grad_norm": 0.10632246732711792, "global_step": 577, "epoch": 2, "lr": 0.009999889492752663}
+{"train_loss": 0.051246993243694305, "train_loss_bc": 0.012922837398946285, "train_loss_llm": 0.38324153423309326, "grad_norm": 0.1707286238670349, "global_step": 578, "epoch": 2, "lr": 0.009999889492752663}
+{"train_loss": 0.04279841482639313, "train_loss_bc": 0.010282065719366074, "train_loss_llm": 0.32516348361968994, "grad_norm": 0.2347712516784668, "global_step": 579, "epoch": 2, "lr": 0.009999889492752663}
+{"train_loss": 0.055520690977573395, "train_loss_bc": 0.01046801172196865, "train_loss_llm": 0.45052677392959595, "grad_norm": 0.3059753179550171, "global_step": 580, "epoch": 2, "lr": 0.009999889492752663}
+{"train_loss": 0.0516660176217556, "train_loss_bc": 0.008011830039322376, "train_loss_llm": 0.436541885137558, "grad_norm": 0.45181921124458313, "global_step": 581, "epoch": 2, "lr": 0.009999889492752663}
+{"train_loss": 0.04672820493578911, "train_loss_bc": 0.007599824108183384, "train_loss_llm": 0.3912838101387024, "grad_norm": 0.4792860150337219, "global_step": 582, "epoch": 2, "lr": 0.009999889492752663}
+{"train_loss": 0.05452432483434677, "train_loss_bc": 0.00941603071987629, "train_loss_llm": 0.4510829448699951, "grad_norm": 0.5130130052566528, "global_step": 583, "epoch": 2, "lr": 0.009999889492752663}
+{"train_loss": 0.0463893860578537, "train_loss_bc": 0.01347401738166809, "train_loss_llm": 0.3291536867618561, "grad_norm": 0.562213122844696, "global_step": 584, "epoch": 2, "lr": 0.00999988595675693}
+{"train_loss": 0.042999304831027985, "train_loss_bc": 0.00650953920558095, "train_loss_llm": 0.36489763855934143, "grad_norm": 0.027703048661351204, "global_step": 585, "epoch": 2, "lr": 0.00999988595675693}
+{"train_loss": 0.06117424741387367, "train_loss_bc": 0.01071213185787201, "train_loss_llm": 0.504621148109436, "grad_norm": 0.12573976814746857, "global_step": 586, "epoch": 2, "lr": 0.00999988595675693}
+{"train_loss": 0.05833416432142258, "train_loss_bc": 0.010698841884732246, "train_loss_llm": 0.4763531982898712, "grad_norm": 0.10473093390464783, "global_step": 587, "epoch": 2, "lr": 0.00999988595675693}
+{"train_loss": 0.054850928485393524, "train_loss_bc": 0.011370329186320305, "train_loss_llm": 0.4348060190677643, "grad_norm": 0.15941698849201202, "global_step": 588, "epoch": 2, "lr": 0.00999988595675693}
+{"train_loss": 0.043540142476558685, "train_loss_bc": 0.008341187611222267, "train_loss_llm": 0.3519895374774933, "grad_norm": 0.24366983771324158, "global_step": 589, "epoch": 2, "lr": 0.00999988595675693}
+{"train_loss": 0.0581822469830513, "train_loss_bc": 0.008711052127182484, "train_loss_llm": 0.4947119653224945, "grad_norm": 0.2904532253742218, "global_step": 590, "epoch": 2, "lr": 0.00999988595675693}
+{"train_loss": 0.05261851102113724, "train_loss_bc": 0.01054435782134533, "train_loss_llm": 0.4207415282726288, "grad_norm": 0.3571270704269409, "global_step": 591, "epoch": 2, "lr": 0.00999988595675693}
+{"train_loss": 0.05248238891363144, "train_loss_bc": 0.012463058345019817, "train_loss_llm": 0.40019330382347107, "grad_norm": 0.38623476028442383, "global_step": 592, "epoch": 2, "lr": 0.00999988236507708}
+{"train_loss": 0.055356092751026154, "train_loss_bc": 0.009930022060871124, "train_loss_llm": 0.4542607069015503, "grad_norm": 0.09395621716976166, "global_step": 593, "epoch": 2, "lr": 0.00999988236507708}
+{"train_loss": 0.04883444309234619, "train_loss_bc": 0.009131887927651405, "train_loss_llm": 0.39702555537223816, "grad_norm": 0.14650750160217285, "global_step": 594, "epoch": 2, "lr": 0.00999988236507708}
+{"train_loss": 0.057135384529829025, "train_loss_bc": 0.011915369890630245, "train_loss_llm": 0.45220011472702026, "grad_norm": 0.19312334060668945, "global_step": 595, "epoch": 2, "lr": 0.00999988236507708}
+{"train_loss": 0.045608315616846085, "train_loss_bc": 0.011269789189100266, "train_loss_llm": 0.343385249376297, "grad_norm": 0.20249973237514496, "global_step": 596, "epoch": 2, "lr": 0.00999988236507708}
+{"train_loss": 0.04997950792312622, "train_loss_bc": 0.009546834975481033, "train_loss_llm": 0.40432673692703247, "grad_norm": 0.2858230173587799, "global_step": 597, "epoch": 2, "lr": 0.00999988236507708}
+{"train_loss": 0.03830570727586746, "train_loss_bc": 0.008210581727325916, "train_loss_llm": 0.3009512424468994, "grad_norm": 0.3553921580314636, "global_step": 598, "epoch": 2, "lr": 0.00999988236507708}
+{"train_loss": 0.05194132775068283, "train_loss_bc": 0.01531536877155304, "train_loss_llm": 0.3662595748901367, "grad_norm": 0.3854356110095978, "global_step": 599, "epoch": 2, "lr": 0.00999988236507708}
+{"train_loss": 0.04817579314112663, "train_loss_bc": 0.01035451889038086, "train_loss_llm": 0.37821274995803833, "grad_norm": 0.4629726707935333, "global_step": 600, "epoch": 2, "lr": 0.009999878717713151}
+{"train_loss": 0.04743364080786705, "train_loss_bc": 0.006668957881629467, "train_loss_llm": 0.4076468050479889, "grad_norm": 0.06628736108541489, "global_step": 601, "epoch": 2, "lr": 0.009999878717713151}
+{"train_loss": 0.04072519764304161, "train_loss_bc": 0.007729985751211643, "train_loss_llm": 0.3299521207809448, "grad_norm": 0.03818651661276817, "global_step": 602, "epoch": 2, "lr": 0.009999878717713151}
+{"train_loss": 0.04334287345409393, "train_loss_bc": 0.008106010034680367, "train_loss_llm": 0.3523685932159424, "grad_norm": 0.03678719699382782, "global_step": 603, "epoch": 2, "lr": 0.009999878717713151}
+{"train_loss": 0.05064118281006813, "train_loss_bc": 0.007051561493426561, "train_loss_llm": 0.43589621782302856, "grad_norm": 0.08529999852180481, "global_step": 604, "epoch": 2, "lr": 0.009999878717713151}
+{"train_loss": 0.04051864147186279, "train_loss_bc": 0.006355477496981621, "train_loss_llm": 0.3416316509246826, "grad_norm": 0.15899847447872162, "global_step": 605, "epoch": 2, "lr": 0.009999878717713151}
+{"train_loss": 0.053070612251758575, "train_loss_bc": 0.011693385429680347, "train_loss_llm": 0.41377225518226624, "grad_norm": 0.08654215186834335, "global_step": 606, "epoch": 2, "lr": 0.009999878717713151}
+{"train_loss": 0.0506218746304512, "train_loss_bc": 0.010180260986089706, "train_loss_llm": 0.40441611409187317, "grad_norm": 0.15248487889766693, "global_step": 607, "epoch": 2, "lr": 0.009999878717713151}
+{"train_loss": 0.042038675397634506, "train_loss_bc": 0.007396925240755081, "train_loss_llm": 0.34641748666763306, "grad_norm": 0.0893411785364151, "global_step": 608, "epoch": 2, "lr": 0.009999875014665182}
+{"train_loss": 0.04616419970989227, "train_loss_bc": 0.008594240993261337, "train_loss_llm": 0.37569957971572876, "grad_norm": 0.05888494476675987, "global_step": 609, "epoch": 2, "lr": 0.009999875014665182}
+{"train_loss": 0.04763902723789215, "train_loss_bc": 0.008436749689280987, "train_loss_llm": 0.3920227587223053, "grad_norm": 0.12378909438848495, "global_step": 610, "epoch": 2, "lr": 0.009999875014665182}
+{"train_loss": 0.0419444814324379, "train_loss_bc": 0.005692025646567345, "train_loss_llm": 0.3625245690345764, "grad_norm": 0.16811683773994446, "global_step": 611, "epoch": 2, "lr": 0.009999875014665182}
+{"train_loss": 0.04414857178926468, "train_loss_bc": 0.008454179391264915, "train_loss_llm": 0.35694393515586853, "grad_norm": 0.20843414962291718, "global_step": 612, "epoch": 2, "lr": 0.009999875014665182}
+{"train_loss": 0.057380370795726776, "train_loss_bc": 0.01499016024172306, "train_loss_llm": 0.42390206456184387, "grad_norm": 0.29955145716667175, "global_step": 613, "epoch": 2, "lr": 0.009999875014665182}
+{"train_loss": 0.04710167273879051, "train_loss_bc": 0.006941203493624926, "train_loss_llm": 0.40160468220710754, "grad_norm": 0.3781231641769409, "global_step": 614, "epoch": 2, "lr": 0.009999875014665182}
+{"train_loss": 0.05296647548675537, "train_loss_bc": 0.011350310407578945, "train_loss_llm": 0.4161616265773773, "grad_norm": 0.43678218126296997, "global_step": 615, "epoch": 2, "lr": 0.009999875014665182}
+{"train_loss": 0.044008247554302216, "train_loss_bc": 0.01084124855697155, "train_loss_llm": 0.33166995644569397, "grad_norm": 0.47886812686920166, "global_step": 616, "epoch": 2, "lr": 0.009999871255933218}
+{"train_loss": 0.04273269325494766, "train_loss_bc": 0.008232966996729374, "train_loss_llm": 0.34499725699424744, "grad_norm": 0.03707779943943024, "global_step": 617, "epoch": 2, "lr": 0.009999871255933218}
+{"train_loss": 0.046254962682724, "train_loss_bc": 0.008979308418929577, "train_loss_llm": 0.3727565109729767, "grad_norm": 0.09851782023906708, "global_step": 618, "epoch": 2, "lr": 0.009999871255933218}
+{"train_loss": 0.04498189687728882, "train_loss_bc": 0.005161868873983622, "train_loss_llm": 0.39820027351379395, "grad_norm": 0.13366276025772095, "global_step": 619, "epoch": 2, "lr": 0.009999871255933218}
+{"train_loss": 0.049933940172195435, "train_loss_bc": 0.006390742491930723, "train_loss_llm": 0.43543195724487305, "grad_norm": 0.19400180876255035, "global_step": 620, "epoch": 2, "lr": 0.009999871255933218}
+{"train_loss": 0.04698074609041214, "train_loss_bc": 0.00570854265242815, "train_loss_llm": 0.41272205114364624, "grad_norm": 0.22169391810894012, "global_step": 621, "epoch": 2, "lr": 0.009999871255933218}
+{"train_loss": 0.05203946307301521, "train_loss_bc": 0.011778324842453003, "train_loss_llm": 0.4026113748550415, "grad_norm": 0.2847179174423218, "global_step": 622, "epoch": 2, "lr": 0.009999871255933218}
+{"train_loss": 0.03534632921218872, "train_loss_bc": 0.007029746659100056, "train_loss_llm": 0.2831658124923706, "grad_norm": 0.32252609729766846, "global_step": 623, "epoch": 2, "lr": 0.009999871255933218}
+{"train_loss": 0.05083245038986206, "train_loss_bc": 0.008330986835062504, "train_loss_llm": 0.4250146448612213, "grad_norm": 0.3598419725894928, "global_step": 624, "epoch": 2, "lr": 0.0099998674415173}
+{"train_loss": 0.037763915956020355, "train_loss_bc": 0.006970906164497137, "train_loss_llm": 0.3079301118850708, "grad_norm": 0.03865386173129082, "global_step": 625, "epoch": 2, "lr": 0.0099998674415173}
+{"train_loss": 0.03567109256982803, "train_loss_bc": 0.009017279371619225, "train_loss_llm": 0.266538143157959, "grad_norm": 0.08511862903833389, "global_step": 626, "epoch": 2, "lr": 0.0099998674415173}
+{"train_loss": 0.049023572355508804, "train_loss_bc": 0.011176041327416897, "train_loss_llm": 0.3784753084182739, "grad_norm": 0.14863982796669006, "global_step": 627, "epoch": 2, "lr": 0.0099998674415173}
+{"train_loss": 0.03435814380645752, "train_loss_bc": 0.007827384397387505, "train_loss_llm": 0.26530760526657104, "grad_norm": 0.1744997203350067, "global_step": 628, "epoch": 2, "lr": 0.0099998674415173}
+{"train_loss": 0.04648137837648392, "train_loss_bc": 0.01043999195098877, "train_loss_llm": 0.3604138493537903, "grad_norm": 0.2377949357032776, "global_step": 629, "epoch": 2, "lr": 0.0099998674415173}
+{"train_loss": 0.04180796444416046, "train_loss_bc": 0.008510971441864967, "train_loss_llm": 0.33296993374824524, "grad_norm": 0.2848038077354431, "global_step": 630, "epoch": 2, "lr": 0.0099998674415173}
+{"train_loss": 0.048062656074762344, "train_loss_bc": 0.00747224036604166, "train_loss_llm": 0.4059041440486908, "grad_norm": 0.2935445010662079, "global_step": 631, "epoch": 2, "lr": 0.0099998674415173}
+{"train_loss": 0.040617186576128006, "train_loss_bc": 0.00923046376556158, "train_loss_llm": 0.3138672113418579, "grad_norm": 0.32670658826828003, "global_step": 632, "epoch": 2, "lr": 0.009999863571417465}
+{"train_loss": 0.04370822757482529, "train_loss_bc": 0.011068166233599186, "train_loss_llm": 0.32640060782432556, "grad_norm": 0.042358461767435074, "global_step": 633, "epoch": 2, "lr": 0.009999863571417465}
+{"train_loss": 0.040919527411460876, "train_loss_bc": 0.008706837892532349, "train_loss_llm": 0.3221268951892853, "grad_norm": 0.08000726997852325, "global_step": 634, "epoch": 2, "lr": 0.009999863571417465}
+{"train_loss": 0.04656881466507912, "train_loss_bc": 0.014344238676130772, "train_loss_llm": 0.3222457766532898, "grad_norm": 0.14281176030635834, "global_step": 635, "epoch": 2, "lr": 0.009999863571417465}
+{"train_loss": 0.0443793460726738, "train_loss_bc": 0.007639695890247822, "train_loss_llm": 0.3673965036869049, "grad_norm": 0.19885209202766418, "global_step": 636, "epoch": 2, "lr": 0.009999863571417465}
+{"train_loss": 0.04552678018808365, "train_loss_bc": 0.00883996021002531, "train_loss_llm": 0.36686816811561584, "grad_norm": 0.26235586404800415, "global_step": 637, "epoch": 2, "lr": 0.009999863571417465}
+{"train_loss": 0.04511314630508423, "train_loss_bc": 0.008846180513501167, "train_loss_llm": 0.3626696765422821, "grad_norm": 0.3094366490840912, "global_step": 638, "epoch": 2, "lr": 0.009999863571417465}
+{"train_loss": 0.04173959791660309, "train_loss_bc": 0.009138396009802818, "train_loss_llm": 0.32601198554039, "grad_norm": 0.32314908504486084, "global_step": 639, "epoch": 2, "lr": 0.009999863571417465}
+{"train_loss": 0.04372773319482803, "train_loss_bc": 0.010028663091361523, "train_loss_llm": 0.33699068427085876, "grad_norm": 0.3625084161758423, "global_step": 640, "epoch": 2, "lr": 0.009999859645633765}
+{"train_loss": 0.044790755957365036, "train_loss_bc": 0.00712181581184268, "train_loss_llm": 0.3766893744468689, "grad_norm": 0.058644529432058334, "global_step": 641, "epoch": 2, "lr": 0.009999859645633765}
+{"train_loss": 0.04059416800737381, "train_loss_bc": 0.009556787088513374, "train_loss_llm": 0.31037378311157227, "grad_norm": 0.11183386296033859, "global_step": 642, "epoch": 2, "lr": 0.009999859645633765}
+{"train_loss": 0.04869821295142174, "train_loss_bc": 0.006707358174026012, "train_loss_llm": 0.4199085235595703, "grad_norm": 0.19388680160045624, "global_step": 643, "epoch": 2, "lr": 0.009999859645633765}
+{"train_loss": 0.04477826505899429, "train_loss_bc": 0.010254992172122002, "train_loss_llm": 0.34523269534111023, "grad_norm": 0.23679210245609283, "global_step": 644, "epoch": 2, "lr": 0.009999859645633765}
+{"train_loss": 0.041282158344984055, "train_loss_bc": 0.008654697798192501, "train_loss_llm": 0.3262746036052704, "grad_norm": 0.26026076078414917, "global_step": 645, "epoch": 2, "lr": 0.009999859645633765}
+{"train_loss": 0.05992455035448074, "train_loss_bc": 0.01653219386935234, "train_loss_llm": 0.43392354249954224, "grad_norm": 0.32284262776374817, "global_step": 646, "epoch": 2, "lr": 0.009999859645633765}
+{"train_loss": 0.04466881975531578, "train_loss_bc": 0.007239773869514465, "train_loss_llm": 0.37429043650627136, "grad_norm": 0.35295340418815613, "global_step": 647, "epoch": 2, "lr": 0.009999859645633765}
+{"train_loss": 0.06311549246311188, "train_loss_bc": 0.009245209395885468, "train_loss_llm": 0.5387028455734253, "grad_norm": 0.4346774220466614, "global_step": 648, "epoch": 2, "lr": 0.009999855664166236}
+{"train_loss": 0.03292311355471611, "train_loss_bc": 0.006582255475223064, "train_loss_llm": 0.2634085714817047, "grad_norm": 0.08390145003795624, "global_step": 649, "epoch": 2, "lr": 0.009999855664166236}
+{"train_loss": 0.03857256472110748, "train_loss_bc": 0.008592361584305763, "train_loss_llm": 0.2998020350933075, "grad_norm": 0.040085189044475555, "global_step": 650, "epoch": 2, "lr": 0.009999855664166236}
+{"train_loss": 0.031562287360429764, "train_loss_bc": 0.0073743173852562904, "train_loss_llm": 0.24187970161437988, "grad_norm": 0.03741756081581116, "global_step": 651, "epoch": 2, "lr": 0.009999855664166236}
+{"train_loss": 0.05097892880439758, "train_loss_bc": 0.00791951734572649, "train_loss_llm": 0.4305941164493561, "grad_norm": 0.04369847849011421, "global_step": 652, "epoch": 2, "lr": 0.009999855664166236}
+{"train_loss": 0.05316292494535446, "train_loss_bc": 0.014554405584931374, "train_loss_llm": 0.3860852122306824, "grad_norm": 0.0896497443318367, "global_step": 653, "epoch": 2, "lr": 0.009999855664166236}
+{"train_loss": 0.05013953521847725, "train_loss_bc": 0.009357786737382412, "train_loss_llm": 0.40781745314598083, "grad_norm": 0.1464991569519043, "global_step": 654, "epoch": 2, "lr": 0.009999855664166236}
+{"train_loss": 0.04284360259771347, "train_loss_bc": 0.0067046526819467545, "train_loss_llm": 0.3613894581794739, "grad_norm": 0.17221812903881073, "global_step": 655, "epoch": 2, "lr": 0.009999855664166236}
+{"train_loss": 0.04381485655903816, "train_loss_bc": 0.009458865039050579, "train_loss_llm": 0.3435598909854889, "grad_norm": 0.22416715323925018, "global_step": 656, "epoch": 2, "lr": 0.009999851627014927}
+{"train_loss": 0.0497284010052681, "train_loss_bc": 0.010982640087604523, "train_loss_llm": 0.38745760917663574, "grad_norm": 0.07564424723386765, "global_step": 657, "epoch": 2, "lr": 0.009999851627014927}
+{"train_loss": 0.04093799367547035, "train_loss_bc": 0.010173365473747253, "train_loss_llm": 0.3076462745666504, "grad_norm": 0.17124103009700775, "global_step": 658, "epoch": 2, "lr": 0.009999851627014927}
+{"train_loss": 0.045319363474845886, "train_loss_bc": 0.005520001985132694, "train_loss_llm": 0.39799362421035767, "grad_norm": 0.1839446872472763, "global_step": 659, "epoch": 2, "lr": 0.009999851627014927}
+{"train_loss": 0.03956406190991402, "train_loss_bc": 0.006393652409315109, "train_loss_llm": 0.3317040801048279, "grad_norm": 0.2503832280635834, "global_step": 660, "epoch": 2, "lr": 0.009999851627014927}
+{"train_loss": 0.0398496612906456, "train_loss_bc": 0.011899390257894993, "train_loss_llm": 0.2795026898384094, "grad_norm": 0.3360082507133484, "global_step": 661, "epoch": 2, "lr": 0.009999851627014927}
+{"train_loss": 0.04445450007915497, "train_loss_bc": 0.0067937662824988365, "train_loss_llm": 0.37660732865333557, "grad_norm": 0.42461416125297546, "global_step": 662, "epoch": 2, "lr": 0.009999851627014927}
+{"train_loss": 0.0377676896750927, "train_loss_bc": 0.006482469849288464, "train_loss_llm": 0.3128521740436554, "grad_norm": 0.37442418932914734, "global_step": 663, "epoch": 2, "lr": 0.009999851627014927}
+{"train_loss": 0.03452911972999573, "train_loss_bc": 0.00934898853302002, "train_loss_llm": 0.2518013119697571, "grad_norm": 0.41703492403030396, "global_step": 664, "epoch": 2, "lr": 0.009999847534179882}
+{"train_loss": 0.033576466143131256, "train_loss_bc": 0.007771027274429798, "train_loss_llm": 0.25805437564849854, "grad_norm": 0.06939588487148285, "global_step": 665, "epoch": 2, "lr": 0.009999847534179882}
+{"train_loss": 0.045365191996097565, "train_loss_bc": 0.008763736113905907, "train_loss_llm": 0.3660145401954651, "grad_norm": 0.080940842628479, "global_step": 666, "epoch": 2, "lr": 0.009999847534179882}
+{"train_loss": 0.0404682457447052, "train_loss_bc": 0.009838370606303215, "train_loss_llm": 0.30629876255989075, "grad_norm": 0.09735126793384552, "global_step": 667, "epoch": 2, "lr": 0.009999847534179882}
+{"train_loss": 0.03606923669576645, "train_loss_bc": 0.007338657043874264, "train_loss_llm": 0.2873058021068573, "grad_norm": 0.12813769280910492, "global_step": 668, "epoch": 2, "lr": 0.009999847534179882}
+{"train_loss": 0.03553721308708191, "train_loss_bc": 0.009636960923671722, "train_loss_llm": 0.25900253653526306, "grad_norm": 0.17844519019126892, "global_step": 669, "epoch": 2, "lr": 0.009999847534179882}
+{"train_loss": 0.041806574910879135, "train_loss_bc": 0.006747853010892868, "train_loss_llm": 0.35058721899986267, "grad_norm": 0.2504599392414093, "global_step": 670, "epoch": 2, "lr": 0.009999847534179882}
+{"train_loss": 0.045715704560279846, "train_loss_bc": 0.009397265501320362, "train_loss_llm": 0.36318439245224, "grad_norm": 0.30613529682159424, "global_step": 671, "epoch": 2, "lr": 0.009999847534179882}
+{"train_loss": 0.0341135710477829, "train_loss_bc": 0.007134184241294861, "train_loss_llm": 0.26979386806488037, "grad_norm": 0.33702731132507324, "global_step": 672, "epoch": 2, "lr": 0.009999843385661145}
+{"train_loss": 0.04276179149746895, "train_loss_bc": 0.008308601565659046, "train_loss_llm": 0.3445318937301636, "grad_norm": 0.032067153602838516, "global_step": 673, "epoch": 2, "lr": 0.009999843385661145}
+{"train_loss": 0.04818732663989067, "train_loss_bc": 0.01175136398524046, "train_loss_llm": 0.36435961723327637, "grad_norm": 0.04096025228500366, "global_step": 674, "epoch": 2, "lr": 0.009999843385661145}
+{"train_loss": 0.03668135404586792, "train_loss_bc": 0.008837766945362091, "train_loss_llm": 0.2784358561038971, "grad_norm": 0.06755310297012329, "global_step": 675, "epoch": 2, "lr": 0.009999843385661145}
+{"train_loss": 0.033414870500564575, "train_loss_bc": 0.00833490863442421, "train_loss_llm": 0.25079959630966187, "grad_norm": 0.07786577194929123, "global_step": 676, "epoch": 2, "lr": 0.009999843385661145}
+{"train_loss": 0.028728995472192764, "train_loss_bc": 0.006723558530211449, "train_loss_llm": 0.22005435824394226, "grad_norm": 0.07858232408761978, "global_step": 677, "epoch": 2, "lr": 0.009999843385661145}
+{"train_loss": 0.04319401830434799, "train_loss_bc": 0.014423953369259834, "train_loss_llm": 0.2877006232738495, "grad_norm": 0.13291437923908234, "global_step": 678, "epoch": 2, "lr": 0.009999843385661145}
+{"train_loss": 0.03824801370501518, "train_loss_bc": 0.009366534650325775, "train_loss_llm": 0.2888147830963135, "grad_norm": 0.1619294136762619, "global_step": 679, "epoch": 2, "lr": 0.009999843385661145}
+{"train_loss": 0.044946812093257904, "train_loss_bc": 0.00894244946539402, "train_loss_llm": 0.36004364490509033, "grad_norm": 0.2347322404384613, "global_step": 680, "epoch": 2, "lr": 0.009999839181458763}
+{"train_loss": 0.043133124709129333, "train_loss_bc": 0.010445024818181992, "train_loss_llm": 0.3268809914588928, "grad_norm": 0.07535126805305481, "global_step": 681, "epoch": 2, "lr": 0.009999839181458763}
+{"train_loss": 0.04743080213665962, "train_loss_bc": 0.00954606756567955, "train_loss_llm": 0.3788473308086395, "grad_norm": 0.1392369568347931, "global_step": 682, "epoch": 2, "lr": 0.009999839181458763}
+{"train_loss": 0.043675631284713745, "train_loss_bc": 0.00914709735661745, "train_loss_llm": 0.3452853560447693, "grad_norm": 0.24490100145339966, "global_step": 683, "epoch": 2, "lr": 0.009999839181458763}
+{"train_loss": 0.04608745872974396, "train_loss_bc": 0.008806094527244568, "train_loss_llm": 0.3728136420249939, "grad_norm": 0.2951945960521698, "global_step": 684, "epoch": 2, "lr": 0.009999839181458763}
+{"train_loss": 0.0452159158885479, "train_loss_bc": 0.009487721137702465, "train_loss_llm": 0.3572819232940674, "grad_norm": 0.40731313824653625, "global_step": 685, "epoch": 2, "lr": 0.009999839181458763}
+{"train_loss": 0.05216448754072189, "train_loss_bc": 0.010225588455796242, "train_loss_llm": 0.41938894987106323, "grad_norm": 0.4321762025356293, "global_step": 686, "epoch": 2, "lr": 0.009999839181458763}
+{"train_loss": 0.04396286979317665, "train_loss_bc": 0.010547183454036713, "train_loss_llm": 0.33415687084198, "grad_norm": 0.48009228706359863, "global_step": 687, "epoch": 2, "lr": 0.009999839181458763}
+{"train_loss": 0.036518894135951996, "train_loss_bc": 0.009972621686756611, "train_loss_llm": 0.265462726354599, "grad_norm": 0.5254318118095398, "global_step": 688, "epoch": 2, "lr": 0.009999834921572784}
+{"train_loss": 0.039862796664237976, "train_loss_bc": 0.009706458076834679, "train_loss_llm": 0.3015633821487427, "grad_norm": 0.06477323174476624, "global_step": 689, "epoch": 2, "lr": 0.009999834921572784}
+{"train_loss": 0.04252701997756958, "train_loss_bc": 0.014091413468122482, "train_loss_llm": 0.28435608744621277, "grad_norm": 0.0963248535990715, "global_step": 690, "epoch": 2, "lr": 0.009999834921572784}
+{"train_loss": 0.03552428260445595, "train_loss_bc": 0.009152510203421116, "train_loss_llm": 0.2637177109718323, "grad_norm": 0.21705731749534607, "global_step": 691, "epoch": 2, "lr": 0.009999834921572784}
+{"train_loss": 0.04497559368610382, "train_loss_bc": 0.015943605452775955, "train_loss_llm": 0.29031988978385925, "grad_norm": 0.2638206481933594, "global_step": 692, "epoch": 2, "lr": 0.009999834921572784}
+{"train_loss": 0.04622811824083328, "train_loss_bc": 0.010939587838947773, "train_loss_llm": 0.35288530588150024, "grad_norm": 0.3900229036808014, "global_step": 693, "epoch": 2, "lr": 0.009999834921572784}
+{"train_loss": 0.0348232239484787, "train_loss_bc": 0.009327352978289127, "train_loss_llm": 0.2549586892127991, "grad_norm": 0.45575958490371704, "global_step": 694, "epoch": 2, "lr": 0.009999834921572784}
+{"train_loss": 0.04378145560622215, "train_loss_bc": 0.009261425584554672, "train_loss_llm": 0.3452003002166748, "grad_norm": 0.556834876537323, "global_step": 695, "epoch": 2, "lr": 0.009999834921572784}
+{"train_loss": 0.05341557785868645, "train_loss_bc": 0.007866295985877514, "train_loss_llm": 0.4554927945137024, "grad_norm": 0.6411869525909424, "global_step": 696, "epoch": 2, "lr": 0.009999830606003256}
+{"train_loss": 0.03904346004128456, "train_loss_bc": 0.008943998254835606, "train_loss_llm": 0.3009946048259735, "grad_norm": 0.14112646877765656, "global_step": 697, "epoch": 2, "lr": 0.009999830606003256}
+{"train_loss": 0.03614439815282822, "train_loss_bc": 0.007177658379077911, "train_loss_llm": 0.28966736793518066, "grad_norm": 0.2301071584224701, "global_step": 698, "epoch": 2, "lr": 0.009999830606003256}
+{"train_loss": 0.029086744412779808, "train_loss_bc": 0.007324360776692629, "train_loss_llm": 0.21762382984161377, "grad_norm": 0.2488967925310135, "global_step": 699, "epoch": 2, "lr": 0.009999830606003256}
+{"train_loss": 0.04740932583808899, "train_loss_bc": 0.00906768161803484, "train_loss_llm": 0.38341644406318665, "grad_norm": 0.32801467180252075, "global_step": 700, "epoch": 2, "lr": 0.009999830606003256}
+{"train_loss": 0.04844066500663757, "train_loss_bc": 0.007732727099210024, "train_loss_llm": 0.4070793688297272, "grad_norm": 0.36532697081565857, "global_step": 701, "epoch": 2, "lr": 0.009999830606003256}
+{"train_loss": 0.031838901340961456, "train_loss_bc": 0.00837363675236702, "train_loss_llm": 0.23465263843536377, "grad_norm": 0.4696304500102997, "global_step": 702, "epoch": 2, "lr": 0.009999830606003256}
+{"train_loss": 0.03567831218242645, "train_loss_bc": 0.011757228523492813, "train_loss_llm": 0.2392108142375946, "grad_norm": 0.4640235900878906, "global_step": 703, "epoch": 2, "lr": 0.009999830606003256}
+{"train_loss": 0.039258286356925964, "train_loss_bc": 0.007329761981964111, "train_loss_llm": 0.31928524374961853, "grad_norm": 0.4168296456336975, "global_step": 704, "epoch": 2, "lr": 0.009999826234750223}
+{"train_loss": 0.05850604921579361, "train_loss_bc": 0.01258368045091629, "train_loss_llm": 0.4592236876487732, "grad_norm": 0.1724705845117569, "global_step": 705, "epoch": 2, "lr": 0.009999826234750223}
+{"train_loss": 0.03728199750185013, "train_loss_bc": 0.00878467783331871, "train_loss_llm": 0.2849732041358948, "grad_norm": 0.28751856088638306, "global_step": 706, "epoch": 2, "lr": 0.009999826234750223}
+{"train_loss": 0.04503098130226135, "train_loss_bc": 0.009199713356792927, "train_loss_llm": 0.3583126664161682, "grad_norm": 0.45091524720191956, "global_step": 707, "epoch": 2, "lr": 0.009999826234750223}
+{"train_loss": 0.04499579221010208, "train_loss_bc": 0.009928980842232704, "train_loss_llm": 0.35066813230514526, "grad_norm": 0.5307226777076721, "global_step": 708, "epoch": 2, "lr": 0.009999826234750223}
+{"train_loss": 0.046028982847929, "train_loss_bc": 0.008385871537029743, "train_loss_llm": 0.37643110752105713, "grad_norm": 0.6450600028038025, "global_step": 709, "epoch": 2, "lr": 0.009999826234750223}
+{"train_loss": 0.03804386407136917, "train_loss_bc": 0.008022532798349857, "train_loss_llm": 0.3002133071422577, "grad_norm": 0.6858111619949341, "global_step": 710, "epoch": 2, "lr": 0.009999826234750223}
+{"train_loss": 0.039628054946660995, "train_loss_bc": 0.0068964180536568165, "train_loss_llm": 0.32731637358665466, "grad_norm": 0.8172292113304138, "global_step": 711, "epoch": 2, "lr": 0.009999826234750223}
+{"train_loss": 0.04379674792289734, "train_loss_bc": 0.008272357285022736, "train_loss_llm": 0.35524389147758484, "grad_norm": 0.9071067571640015, "global_step": 712, "epoch": 2, "lr": 0.009999821807813739}
+{"train_loss": 0.04729459203873612, "train_loss_bc": 0.013046452775597572, "train_loss_llm": 0.426257461309433, "grad_norm": 0.16233834624290466, "global_step": 713, "epoch": 2, "lr": 0.009999821807813739, "val_loss": 0.04296109452843666}
+{"train_loss": 0.041462454944849014, "train_loss_bc": 0.007259991951286793, "train_loss_llm": 0.34202462434768677, "grad_norm": 0.2238088846206665, "global_step": 714, "epoch": 3, "lr": 0.009999821807813739}
+{"train_loss": 0.0418805330991745, "train_loss_bc": 0.008596068248152733, "train_loss_llm": 0.33284464478492737, "grad_norm": 0.2677483558654785, "global_step": 715, "epoch": 3, "lr": 0.009999821807813739}
+{"train_loss": 0.04050707072019577, "train_loss_bc": 0.008408823981881142, "train_loss_llm": 0.3209824562072754, "grad_norm": 0.27263733744621277, "global_step": 716, "epoch": 3, "lr": 0.009999821807813739}
+{"train_loss": 0.04781746119260788, "train_loss_bc": 0.01299416832625866, "train_loss_llm": 0.3482329249382019, "grad_norm": 0.3821609914302826, "global_step": 717, "epoch": 3, "lr": 0.009999821807813739}
+{"train_loss": 0.04684113711118698, "train_loss_bc": 0.007706536911427975, "train_loss_llm": 0.3913459777832031, "grad_norm": 0.5708178877830505, "global_step": 718, "epoch": 3, "lr": 0.009999821807813739}
+{"train_loss": 0.055701419711112976, "train_loss_bc": 0.014755895361304283, "train_loss_llm": 0.40945520997047424, "grad_norm": 0.6435907483100891, "global_step": 719, "epoch": 3, "lr": 0.009999821807813739}
+{"train_loss": 0.04234154894948006, "train_loss_bc": 0.007410373538732529, "train_loss_llm": 0.3493117392063141, "grad_norm": 0.7743513584136963, "global_step": 720, "epoch": 3, "lr": 0.009999817325193847}
+{"train_loss": 0.03182674199342728, "train_loss_bc": 0.007342474069446325, "train_loss_llm": 0.24484267830848694, "grad_norm": 0.06223190575838089, "global_step": 721, "epoch": 3, "lr": 0.009999817325193847}
+{"train_loss": 0.04087590053677559, "train_loss_bc": 0.012927547097206116, "train_loss_llm": 0.27948352694511414, "grad_norm": 0.12938404083251953, "global_step": 722, "epoch": 3, "lr": 0.009999817325193847}
+{"train_loss": 0.029438752681016922, "train_loss_bc": 0.007080798037350178, "train_loss_llm": 0.2235795557498932, "grad_norm": 0.20162507891654968, "global_step": 723, "epoch": 3, "lr": 0.009999817325193847}
+{"train_loss": 0.049971550703048706, "train_loss_bc": 0.010122274048626423, "train_loss_llm": 0.3984927833080292, "grad_norm": 0.24060311913490295, "global_step": 724, "epoch": 3, "lr": 0.009999817325193847}
+{"train_loss": 0.03128552809357643, "train_loss_bc": 0.010403999127447605, "train_loss_llm": 0.20881527662277222, "grad_norm": 0.33504006266593933, "global_step": 725, "epoch": 3, "lr": 0.009999817325193847}
+{"train_loss": 0.03999463841319084, "train_loss_bc": 0.009887857362627983, "train_loss_llm": 0.3010677993297577, "grad_norm": 0.3669814169406891, "global_step": 726, "epoch": 3, "lr": 0.009999817325193847}
+{"train_loss": 0.038789715617895126, "train_loss_bc": 0.008801580406725407, "train_loss_llm": 0.29988133907318115, "grad_norm": 0.40497496724128723, "global_step": 727, "epoch": 3, "lr": 0.009999817325193847}
+{"train_loss": 0.04174574464559555, "train_loss_bc": 0.008371963165700436, "train_loss_llm": 0.3337377905845642, "grad_norm": 0.5256921648979187, "global_step": 728, "epoch": 3, "lr": 0.009999812786890603}
+{"train_loss": 0.038980547338724136, "train_loss_bc": 0.009156394749879837, "train_loss_llm": 0.298241525888443, "grad_norm": 0.1443253755569458, "global_step": 729, "epoch": 3, "lr": 0.009999812786890603}
+{"train_loss": 0.036265816539525986, "train_loss_bc": 0.011785544455051422, "train_loss_llm": 0.24480271339416504, "grad_norm": 0.1689145416021347, "global_step": 730, "epoch": 3, "lr": 0.009999812786890603}
+{"train_loss": 0.04901784658432007, "train_loss_bc": 0.014343111775815487, "train_loss_llm": 0.34674733877182007, "grad_norm": 0.22168654203414917, "global_step": 731, "epoch": 3, "lr": 0.009999812786890603}
+{"train_loss": 0.030722569674253464, "train_loss_bc": 0.009067602455615997, "train_loss_llm": 0.21654966473579407, "grad_norm": 0.20580556988716125, "global_step": 732, "epoch": 3, "lr": 0.009999812786890603}
+{"train_loss": 0.03433734178543091, "train_loss_bc": 0.007822947576642036, "train_loss_llm": 0.2651439309120178, "grad_norm": 0.3144163489341736, "global_step": 733, "epoch": 3, "lr": 0.009999812786890603}
+{"train_loss": 0.03588324040174484, "train_loss_bc": 0.009877923876047134, "train_loss_llm": 0.26005318760871887, "grad_norm": 0.42094600200653076, "global_step": 734, "epoch": 3, "lr": 0.009999812786890603}
+{"train_loss": 0.03988856077194214, "train_loss_bc": 0.00814527552574873, "train_loss_llm": 0.31743285059928894, "grad_norm": 0.424162358045578, "global_step": 735, "epoch": 3, "lr": 0.009999812786890603}
+{"train_loss": 0.04020290449261665, "train_loss_bc": 0.012267297133803368, "train_loss_llm": 0.27935606241226196, "grad_norm": 0.4899683892726898, "global_step": 736, "epoch": 3, "lr": 0.009999808192904054}
+{"train_loss": 0.030590644106268883, "train_loss_bc": 0.009289965033531189, "train_loss_llm": 0.21300679445266724, "grad_norm": 0.0468117780983448, "global_step": 737, "epoch": 3, "lr": 0.009999808192904054}
+{"train_loss": 0.04792594164609909, "train_loss_bc": 0.017094749957323074, "train_loss_llm": 0.30831190943717957, "grad_norm": 0.06732918322086334, "global_step": 738, "epoch": 3, "lr": 0.009999808192904054}
+{"train_loss": 0.04400663822889328, "train_loss_bc": 0.013044899329543114, "train_loss_llm": 0.30961740016937256, "grad_norm": 0.15269604325294495, "global_step": 739, "epoch": 3, "lr": 0.009999808192904054}
+{"train_loss": 0.04498368501663208, "train_loss_bc": 0.012287264689803123, "train_loss_llm": 0.3269641697406769, "grad_norm": 0.22247035801410675, "global_step": 740, "epoch": 3, "lr": 0.009999808192904054}
+{"train_loss": 0.039088476449251175, "train_loss_bc": 0.007229956798255444, "train_loss_llm": 0.31858518719673157, "grad_norm": 0.2841782569885254, "global_step": 741, "epoch": 3, "lr": 0.009999808192904054}
+{"train_loss": 0.04128541797399521, "train_loss_bc": 0.011386558413505554, "train_loss_llm": 0.29898858070373535, "grad_norm": 0.36469918489456177, "global_step": 742, "epoch": 3, "lr": 0.009999808192904054}
+{"train_loss": 0.04320058226585388, "train_loss_bc": 0.012150095775723457, "train_loss_llm": 0.31050485372543335, "grad_norm": 0.42764773964881897, "global_step": 743, "epoch": 3, "lr": 0.009999808192904054}
+{"train_loss": 0.04610520973801613, "train_loss_bc": 0.016388867050409317, "train_loss_llm": 0.2971634268760681, "grad_norm": 0.5545867085456848, "global_step": 744, "epoch": 3, "lr": 0.009999803543234254}
+{"train_loss": 0.04294782876968384, "train_loss_bc": 0.016450271010398865, "train_loss_llm": 0.26497554779052734, "grad_norm": 0.10245516151189804, "global_step": 745, "epoch": 3, "lr": 0.009999803543234254}
+{"train_loss": 0.03772605210542679, "train_loss_bc": 0.011629156768321991, "train_loss_llm": 0.2609689235687256, "grad_norm": 0.20595432817935944, "global_step": 746, "epoch": 3, "lr": 0.009999803543234254}
+{"train_loss": 0.04322498291730881, "train_loss_bc": 0.01584026589989662, "train_loss_llm": 0.27384716272354126, "grad_norm": 0.3130209147930145, "global_step": 747, "epoch": 3, "lr": 0.009999803543234254}
+{"train_loss": 0.03808294236660004, "train_loss_bc": 0.011689286679029465, "train_loss_llm": 0.2639365792274475, "grad_norm": 0.4096170961856842, "global_step": 748, "epoch": 3, "lr": 0.009999803543234254}
+{"train_loss": 0.04503872990608215, "train_loss_bc": 0.0135976392775774, "train_loss_llm": 0.31441086530685425, "grad_norm": 0.49441713094711304, "global_step": 749, "epoch": 3, "lr": 0.009999803543234254}
+{"train_loss": 0.05168420821428299, "train_loss_bc": 0.012593220919370651, "train_loss_llm": 0.390909880399704, "grad_norm": 0.5022470951080322, "global_step": 750, "epoch": 3, "lr": 0.009999803543234254}
+{"train_loss": 0.03205381706357002, "train_loss_bc": 0.010249449871480465, "train_loss_llm": 0.21804365515708923, "grad_norm": 0.6269490718841553, "global_step": 751, "epoch": 3, "lr": 0.009999803543234254}
+{"train_loss": 0.04054751247167587, "train_loss_bc": 0.009915228933095932, "train_loss_llm": 0.3063228130340576, "grad_norm": 0.6532086730003357, "global_step": 752, "epoch": 3, "lr": 0.009999798837881253}
+{"train_loss": 0.036718398332595825, "train_loss_bc": 0.011081133037805557, "train_loss_llm": 0.2563726305961609, "grad_norm": 0.07258759438991547, "global_step": 753, "epoch": 3, "lr": 0.009999798837881253}
+{"train_loss": 0.03695174306631088, "train_loss_bc": 0.009114453569054604, "train_loss_llm": 0.2783728837966919, "grad_norm": 0.10735156387090683, "global_step": 754, "epoch": 3, "lr": 0.009999798837881253}
+{"train_loss": 0.032533466815948486, "train_loss_bc": 0.010471487417817116, "train_loss_llm": 0.22061976790428162, "grad_norm": 0.11738362908363342, "global_step": 755, "epoch": 3, "lr": 0.009999798837881253}
+{"train_loss": 0.0391918383538723, "train_loss_bc": 0.00966760702431202, "train_loss_llm": 0.2952423095703125, "grad_norm": 0.13729062676429749, "global_step": 756, "epoch": 3, "lr": 0.009999798837881253}
+{"train_loss": 0.04111585393548012, "train_loss_bc": 0.005240237805992365, "train_loss_llm": 0.3587561547756195, "grad_norm": 0.2542182505130768, "global_step": 757, "epoch": 3, "lr": 0.009999798837881253}
+{"train_loss": 0.04527253657579422, "train_loss_bc": 0.007471121847629547, "train_loss_llm": 0.37801414728164673, "grad_norm": 0.3679713010787964, "global_step": 758, "epoch": 3, "lr": 0.009999798837881253}
+{"train_loss": 0.040301866829395294, "train_loss_bc": 0.009992634877562523, "train_loss_llm": 0.3030923306941986, "grad_norm": 0.46317070722579956, "global_step": 759, "epoch": 3, "lr": 0.009999798837881253}
+{"train_loss": 0.03852004185318947, "train_loss_bc": 0.008443170227110386, "train_loss_llm": 0.3007687032222748, "grad_norm": 0.6556329727172852, "global_step": 760, "epoch": 3, "lr": 0.0099997940768451}
+{"train_loss": 0.029028138145804405, "train_loss_bc": 0.008228778839111328, "train_loss_llm": 0.20799359679222107, "grad_norm": 0.05111662298440933, "global_step": 761, "epoch": 3, "lr": 0.0099997940768451}
+{"train_loss": 0.03886735439300537, "train_loss_bc": 0.009802691638469696, "train_loss_llm": 0.29064664244651794, "grad_norm": 0.07826519757509232, "global_step": 762, "epoch": 3, "lr": 0.0099997940768451}
+{"train_loss": 0.048856016248464584, "train_loss_bc": 0.011557847261428833, "train_loss_llm": 0.3729816675186157, "grad_norm": 0.19284626841545105, "global_step": 763, "epoch": 3, "lr": 0.0099997940768451}
+{"train_loss": 0.038548510521650314, "train_loss_bc": 0.00832850020378828, "train_loss_llm": 0.3022001087665558, "grad_norm": 0.1974942982196808, "global_step": 764, "epoch": 3, "lr": 0.0099997940768451}
+{"train_loss": 0.03572383522987366, "train_loss_bc": 0.007764923851937056, "train_loss_llm": 0.27958911657333374, "grad_norm": 0.2226581573486328, "global_step": 765, "epoch": 3, "lr": 0.0099997940768451}
+{"train_loss": 0.03986266627907753, "train_loss_bc": 0.006953048519790173, "train_loss_llm": 0.3290961682796478, "grad_norm": 0.26965197920799255, "global_step": 766, "epoch": 3, "lr": 0.0099997940768451}
+{"train_loss": 0.04016527533531189, "train_loss_bc": 0.00947185792028904, "train_loss_llm": 0.3069341778755188, "grad_norm": 0.35099276900291443, "global_step": 767, "epoch": 3, "lr": 0.0099997940768451}
+{"train_loss": 0.033072568476200104, "train_loss_bc": 0.007793142460286617, "train_loss_llm": 0.2527942657470703, "grad_norm": 0.44750306010246277, "global_step": 768, "epoch": 3, "lr": 0.009999789260125855}
+{"train_loss": 0.03240371495485306, "train_loss_bc": 0.00659133680164814, "train_loss_llm": 0.2581237554550171, "grad_norm": 0.1283612698316574, "global_step": 769, "epoch": 3, "lr": 0.009999789260125855}
+{"train_loss": 0.03335339576005936, "train_loss_bc": 0.007496938109397888, "train_loss_llm": 0.2585645914077759, "grad_norm": 0.13201864063739777, "global_step": 770, "epoch": 3, "lr": 0.009999789260125855}
+{"train_loss": 0.032146330922842026, "train_loss_bc": 0.009016912430524826, "train_loss_llm": 0.231294184923172, "grad_norm": 0.165050208568573, "global_step": 771, "epoch": 3, "lr": 0.009999789260125855}
+{"train_loss": 0.03725563734769821, "train_loss_bc": 0.008059023879468441, "train_loss_llm": 0.29196614027023315, "grad_norm": 0.19366705417633057, "global_step": 772, "epoch": 3, "lr": 0.009999789260125855}
+{"train_loss": 0.0406622588634491, "train_loss_bc": 0.014158172532916069, "train_loss_llm": 0.26504087448120117, "grad_norm": 0.24680274724960327, "global_step": 773, "epoch": 3, "lr": 0.009999789260125855}
+{"train_loss": 0.03471003472805023, "train_loss_bc": 0.007372463587671518, "train_loss_llm": 0.2733757197856903, "grad_norm": 0.35647159814834595, "global_step": 774, "epoch": 3, "lr": 0.009999789260125855}
+{"train_loss": 0.03488733246922493, "train_loss_bc": 0.007796154357492924, "train_loss_llm": 0.2709117829799652, "grad_norm": 0.4004107713699341, "global_step": 775, "epoch": 3, "lr": 0.009999789260125855}
+{"train_loss": 0.03317363187670708, "train_loss_bc": 0.005900220945477486, "train_loss_llm": 0.2727341055870056, "grad_norm": 0.4990658462047577, "global_step": 776, "epoch": 3, "lr": 0.009999784387723568}
+{"train_loss": 0.034828800708055496, "train_loss_bc": 0.007045920472592115, "train_loss_llm": 0.27782881259918213, "grad_norm": 0.09907486289739609, "global_step": 777, "epoch": 3, "lr": 0.009999784387723568}
+{"train_loss": 0.051328182220458984, "train_loss_bc": 0.010569334030151367, "train_loss_llm": 0.40758848190307617, "grad_norm": 0.20048415660858154, "global_step": 778, "epoch": 3, "lr": 0.009999784387723568}
+{"train_loss": 0.03451485559344292, "train_loss_bc": 0.007694548927247524, "train_loss_llm": 0.26820307970046997, "grad_norm": 0.31298771500587463, "global_step": 779, "epoch": 3, "lr": 0.009999784387723568}
+{"train_loss": 0.03704201802611351, "train_loss_bc": 0.008181999437510967, "train_loss_llm": 0.2886001765727997, "grad_norm": 0.3506341576576233, "global_step": 780, "epoch": 3, "lr": 0.009999784387723568}
+{"train_loss": 0.0403045155107975, "train_loss_bc": 0.010822925716638565, "train_loss_llm": 0.29481589794158936, "grad_norm": 0.3380541205406189, "global_step": 781, "epoch": 3, "lr": 0.009999784387723568}
+{"train_loss": 0.03307786583900452, "train_loss_bc": 0.009874649345874786, "train_loss_llm": 0.2320321798324585, "grad_norm": 0.4667322039604187, "global_step": 782, "epoch": 3, "lr": 0.009999784387723568}
+{"train_loss": 0.04559226706624031, "train_loss_bc": 0.014445865526795387, "train_loss_llm": 0.31146401166915894, "grad_norm": 0.5664675831794739, "global_step": 783, "epoch": 3, "lr": 0.009999784387723568}
+{"train_loss": 0.04544221609830856, "train_loss_bc": 0.010515326634049416, "train_loss_llm": 0.34926891326904297, "grad_norm": 0.600499153137207, "global_step": 784, "epoch": 3, "lr": 0.009999779459638291}
+{"train_loss": 0.040927860885858536, "train_loss_bc": 0.00726535078138113, "train_loss_llm": 0.3366250991821289, "grad_norm": 0.12215027958154678, "global_step": 785, "epoch": 3, "lr": 0.009999779459638291}
+{"train_loss": 0.05435243993997574, "train_loss_bc": 0.014235374517738819, "train_loss_llm": 0.40117067098617554, "grad_norm": 0.2010360211133957, "global_step": 786, "epoch": 3, "lr": 0.009999779459638291}
+{"train_loss": 0.040803905576467514, "train_loss_bc": 0.008752565830945969, "train_loss_llm": 0.32051339745521545, "grad_norm": 0.36367517709732056, "global_step": 787, "epoch": 3, "lr": 0.009999779459638291}
+{"train_loss": 0.041856296360492706, "train_loss_bc": 0.010163260623812675, "train_loss_llm": 0.3169303238391876, "grad_norm": 0.4723148047924042, "global_step": 788, "epoch": 3, "lr": 0.009999779459638291}
+{"train_loss": 0.03823113441467285, "train_loss_bc": 0.010332033038139343, "train_loss_llm": 0.2789910137653351, "grad_norm": 0.5794399976730347, "global_step": 789, "epoch": 3, "lr": 0.009999779459638291}
+{"train_loss": 0.04031025618314743, "train_loss_bc": 0.007958488538861275, "train_loss_llm": 0.32351768016815186, "grad_norm": 0.6173757910728455, "global_step": 790, "epoch": 3, "lr": 0.009999779459638291}
+{"train_loss": 0.04462166875600815, "train_loss_bc": 0.013324192725121975, "train_loss_llm": 0.312974750995636, "grad_norm": 0.6514015197753906, "global_step": 791, "epoch": 3, "lr": 0.009999779459638291}
+{"train_loss": 0.03854196146130562, "train_loss_bc": 0.006779751740396023, "train_loss_llm": 0.3176220953464508, "grad_norm": 0.8157255053520203, "global_step": 792, "epoch": 3, "lr": 0.009999774475870084}
+{"train_loss": 0.040542472153902054, "train_loss_bc": 0.011971061117947102, "train_loss_llm": 0.28571411967277527, "grad_norm": 0.07030220329761505, "global_step": 793, "epoch": 3, "lr": 0.009999774475870084}
+{"train_loss": 0.03527788072824478, "train_loss_bc": 0.006973334588110447, "train_loss_llm": 0.2830454707145691, "grad_norm": 0.10745912045240402, "global_step": 794, "epoch": 3, "lr": 0.009999774475870084}
+{"train_loss": 0.0381576344370842, "train_loss_bc": 0.006771090440452099, "train_loss_llm": 0.31386542320251465, "grad_norm": 0.15531803667545319, "global_step": 795, "epoch": 3, "lr": 0.009999774475870084}
+{"train_loss": 0.045873574912548065, "train_loss_bc": 0.014112347736954689, "train_loss_llm": 0.3176122307777405, "grad_norm": 0.3232676386833191, "global_step": 796, "epoch": 3, "lr": 0.009999774475870084}
+{"train_loss": 0.035446833819150925, "train_loss_bc": 0.009156977757811546, "train_loss_llm": 0.2628985643386841, "grad_norm": 0.3716793656349182, "global_step": 797, "epoch": 3, "lr": 0.009999774475870084}
+{"train_loss": 0.037129297852516174, "train_loss_bc": 0.00934511050581932, "train_loss_llm": 0.2778418958187103, "grad_norm": 0.38156580924987793, "global_step": 798, "epoch": 3, "lr": 0.009999774475870084}
+{"train_loss": 0.04339871555566788, "train_loss_bc": 0.00992598570883274, "train_loss_llm": 0.33472728729248047, "grad_norm": 0.48975059390068054, "global_step": 799, "epoch": 3, "lr": 0.009999774475870084}
+{"train_loss": 0.04493553936481476, "train_loss_bc": 0.011030660942196846, "train_loss_llm": 0.3390487730503082, "grad_norm": 0.5623425245285034, "global_step": 800, "epoch": 3, "lr": 0.009999769436418997}
+{"train_loss": 0.038969844579696655, "train_loss_bc": 0.007201160304248333, "train_loss_llm": 0.3176868259906769, "grad_norm": 0.04505741223692894, "global_step": 801, "epoch": 3, "lr": 0.009999769436418997}
+{"train_loss": 0.030046138912439346, "train_loss_bc": 0.006555695086717606, "train_loss_llm": 0.2349044382572174, "grad_norm": 0.1190611943602562, "global_step": 802, "epoch": 3, "lr": 0.009999769436418997}
+{"train_loss": 0.04156659543514252, "train_loss_bc": 0.009113524109125137, "train_loss_llm": 0.3245307207107544, "grad_norm": 0.2991512715816498, "global_step": 803, "epoch": 3, "lr": 0.009999769436418997}
+{"train_loss": 0.03761555999517441, "train_loss_bc": 0.006711980793625116, "train_loss_llm": 0.3090357780456543, "grad_norm": 0.3974916338920593, "global_step": 804, "epoch": 3, "lr": 0.009999769436418997}
+{"train_loss": 0.036209702491760254, "train_loss_bc": 0.0079179797321558, "train_loss_llm": 0.28291723132133484, "grad_norm": 0.511547863483429, "global_step": 805, "epoch": 3, "lr": 0.009999769436418997}
+{"train_loss": 0.03350422531366348, "train_loss_bc": 0.009639420546591282, "train_loss_llm": 0.23864805698394775, "grad_norm": 0.5456069707870483, "global_step": 806, "epoch": 3, "lr": 0.009999769436418997}
+{"train_loss": 0.03366001695394516, "train_loss_bc": 0.008316200226545334, "train_loss_llm": 0.25343817472457886, "grad_norm": 0.6034722924232483, "global_step": 807, "epoch": 3, "lr": 0.009999769436418997}
+{"train_loss": 0.035173848271369934, "train_loss_bc": 0.009958857670426369, "train_loss_llm": 0.25214987993240356, "grad_norm": 0.6613490581512451, "global_step": 808, "epoch": 3, "lr": 0.009999764341285092}
+{"train_loss": 0.036915045231580734, "train_loss_bc": 0.005069117061793804, "train_loss_llm": 0.31845927238464355, "grad_norm": 0.10203706473112106, "global_step": 809, "epoch": 3, "lr": 0.009999764341285092}
+{"train_loss": 0.03072812780737877, "train_loss_bc": 0.007365542463958263, "train_loss_llm": 0.2336258590221405, "grad_norm": 0.16636709868907928, "global_step": 810, "epoch": 3, "lr": 0.009999764341285092}
+{"train_loss": 0.04280168563127518, "train_loss_bc": 0.007516937330365181, "train_loss_llm": 0.35284748673439026, "grad_norm": 0.26920366287231445, "global_step": 811, "epoch": 3, "lr": 0.009999764341285092}
+{"train_loss": 0.03031899407505989, "train_loss_bc": 0.006409516092389822, "train_loss_llm": 0.23909476399421692, "grad_norm": 0.23068182170391083, "global_step": 812, "epoch": 3, "lr": 0.009999764341285092}
+{"train_loss": 0.045149073004722595, "train_loss_bc": 0.007300874218344688, "train_loss_llm": 0.3784819543361664, "grad_norm": 0.37940385937690735, "global_step": 813, "epoch": 3, "lr": 0.009999764341285092}
+{"train_loss": 0.03657589480280876, "train_loss_bc": 0.0048954845406115055, "train_loss_llm": 0.31680408120155334, "grad_norm": 0.49318280816078186, "global_step": 814, "epoch": 3, "lr": 0.009999764341285092}
+{"train_loss": 0.03596045821905136, "train_loss_bc": 0.006476246751844883, "train_loss_llm": 0.29484209418296814, "grad_norm": 0.5490176677703857, "global_step": 815, "epoch": 3, "lr": 0.009999764341285092}
+{"train_loss": 0.028314221650362015, "train_loss_bc": 0.0070510790683329105, "train_loss_llm": 0.2126314342021942, "grad_norm": 0.6085326671600342, "global_step": 816, "epoch": 3, "lr": 0.009999759190468421}
+{"train_loss": 0.03195974603295326, "train_loss_bc": 0.008178754709661007, "train_loss_llm": 0.2378099262714386, "grad_norm": 0.06797591596841812, "global_step": 817, "epoch": 3, "lr": 0.009999759190468421}
+{"train_loss": 0.037514399737119675, "train_loss_bc": 0.008153964765369892, "train_loss_llm": 0.2936043441295624, "grad_norm": 0.16428567469120026, "global_step": 818, "epoch": 3, "lr": 0.009999759190468421}
+{"train_loss": 0.035214122384786606, "train_loss_bc": 0.005321972072124481, "train_loss_llm": 0.29892149567604065, "grad_norm": 0.3029218316078186, "global_step": 819, "epoch": 3, "lr": 0.009999759190468421}
+{"train_loss": 0.04094193875789642, "train_loss_bc": 0.011898639611899853, "train_loss_llm": 0.29043298959732056, "grad_norm": 0.35399526357650757, "global_step": 820, "epoch": 3, "lr": 0.009999759190468421}
+{"train_loss": 0.03881583362817764, "train_loss_bc": 0.011391405016183853, "train_loss_llm": 0.2742443084716797, "grad_norm": 0.37891021370887756, "global_step": 821, "epoch": 3, "lr": 0.009999759190468421}
+{"train_loss": 0.033344872295856476, "train_loss_bc": 0.007328428328037262, "train_loss_llm": 0.26016440987586975, "grad_norm": 0.4282025992870331, "global_step": 822, "epoch": 3, "lr": 0.009999759190468421}
+{"train_loss": 0.04613122716546059, "train_loss_bc": 0.010001263581216335, "train_loss_llm": 0.36129963397979736, "grad_norm": 0.4240557849407196, "global_step": 823, "epoch": 3, "lr": 0.009999759190468421}
+{"train_loss": 0.03957586735486984, "train_loss_bc": 0.0120153296738863, "train_loss_llm": 0.27560538053512573, "grad_norm": 0.47455519437789917, "global_step": 824, "epoch": 3, "lr": 0.009999753983969042}
+{"train_loss": 0.058355968445539474, "train_loss_bc": 0.01779256761074066, "train_loss_llm": 0.40563398599624634, "grad_norm": 0.14975538849830627, "global_step": 825, "epoch": 3, "lr": 0.009999753983969042}
+{"train_loss": 0.03066892921924591, "train_loss_bc": 0.00756408553570509, "train_loss_llm": 0.23104843497276306, "grad_norm": 0.22172629833221436, "global_step": 826, "epoch": 3, "lr": 0.009999753983969042}
+{"train_loss": 0.030578378587961197, "train_loss_bc": 0.006421233061701059, "train_loss_llm": 0.24157145619392395, "grad_norm": 0.2866917550563812, "global_step": 827, "epoch": 3, "lr": 0.009999753983969042}
+{"train_loss": 0.03213655576109886, "train_loss_bc": 0.007596549578011036, "train_loss_llm": 0.24540004134178162, "grad_norm": 0.43900978565216064, "global_step": 828, "epoch": 3, "lr": 0.009999753983969042}
+{"train_loss": 0.03930042311549187, "train_loss_bc": 0.005288155283778906, "train_loss_llm": 0.34012266993522644, "grad_norm": 0.615095317363739, "global_step": 829, "epoch": 3, "lr": 0.009999753983969042}
+{"train_loss": 0.03557311370968819, "train_loss_bc": 0.004544649738818407, "train_loss_llm": 0.3102846145629883, "grad_norm": 0.6709252595901489, "global_step": 830, "epoch": 3, "lr": 0.009999753983969042}
+{"train_loss": 0.03243017941713333, "train_loss_bc": 0.007366036996245384, "train_loss_llm": 0.25064143538475037, "grad_norm": 0.766399085521698, "global_step": 831, "epoch": 3, "lr": 0.009999753983969042}
+{"train_loss": 0.03826833888888359, "train_loss_bc": 0.00979534350335598, "train_loss_llm": 0.2847299575805664, "grad_norm": 0.8500294089317322, "global_step": 832, "epoch": 3, "lr": 0.009999748721787015}
+{"train_loss": 0.030963636934757233, "train_loss_bc": 0.00860595516860485, "train_loss_llm": 0.22357681393623352, "grad_norm": 0.07147712260484695, "global_step": 833, "epoch": 3, "lr": 0.009999748721787015}
+{"train_loss": 0.03831879794597626, "train_loss_bc": 0.008290870115160942, "train_loss_llm": 0.30027925968170166, "grad_norm": 0.07321322709321976, "global_step": 834, "epoch": 3, "lr": 0.009999748721787015}
+{"train_loss": 0.03220083564519882, "train_loss_bc": 0.008337920531630516, "train_loss_llm": 0.23862913250923157, "grad_norm": 0.12112171202898026, "global_step": 835, "epoch": 3, "lr": 0.009999748721787015}
+{"train_loss": 0.03794403001666069, "train_loss_bc": 0.005407366901636124, "train_loss_llm": 0.3253666162490845, "grad_norm": 0.24242602288722992, "global_step": 836, "epoch": 3, "lr": 0.009999748721787015}
+{"train_loss": 0.036087438464164734, "train_loss_bc": 0.009214729070663452, "train_loss_llm": 0.26872706413269043, "grad_norm": 0.3233209252357483, "global_step": 837, "epoch": 3, "lr": 0.009999748721787015}
+{"train_loss": 0.029804076999425888, "train_loss_bc": 0.005432047415524721, "train_loss_llm": 0.24372029304504395, "grad_norm": 0.39148855209350586, "global_step": 838, "epoch": 3, "lr": 0.009999748721787015}
+{"train_loss": 0.03300655633211136, "train_loss_bc": 0.008158600889146328, "train_loss_llm": 0.24847954511642456, "grad_norm": 0.4910777807235718, "global_step": 839, "epoch": 3, "lr": 0.009999748721787015}
+{"train_loss": 0.042056452482938766, "train_loss_bc": 0.005573970731347799, "train_loss_llm": 0.3648248314857483, "grad_norm": 0.586300790309906, "global_step": 840, "epoch": 3, "lr": 0.009999743403922397}
+{"train_loss": 0.03504608944058418, "train_loss_bc": 0.010176763869822025, "train_loss_llm": 0.24869325757026672, "grad_norm": 0.18966296315193176, "global_step": 841, "epoch": 3, "lr": 0.009999743403922397}
+{"train_loss": 0.032305389642715454, "train_loss_bc": 0.00883810967206955, "train_loss_llm": 0.23467281460762024, "grad_norm": 0.2316673994064331, "global_step": 842, "epoch": 3, "lr": 0.009999743403922397}
+{"train_loss": 0.03235737606883049, "train_loss_bc": 0.006456173025071621, "train_loss_llm": 0.25901201367378235, "grad_norm": 0.23854400217533112, "global_step": 843, "epoch": 3, "lr": 0.009999743403922397}
+{"train_loss": 0.03677770122885704, "train_loss_bc": 0.005620342679321766, "train_loss_llm": 0.3115735650062561, "grad_norm": 0.21327535808086395, "global_step": 844, "epoch": 3, "lr": 0.009999743403922397}
+{"train_loss": 0.02793058753013611, "train_loss_bc": 0.008275014348328114, "train_loss_llm": 0.1965557336807251, "grad_norm": 0.2955892086029053, "global_step": 845, "epoch": 3, "lr": 0.009999743403922397}
+{"train_loss": 0.03505495935678482, "train_loss_bc": 0.006427341140806675, "train_loss_llm": 0.2862761914730072, "grad_norm": 0.36100077629089355, "global_step": 846, "epoch": 3, "lr": 0.009999743403922397}
+{"train_loss": 0.03777014836668968, "train_loss_bc": 0.006664258427917957, "train_loss_llm": 0.311058908700943, "grad_norm": 0.36776190996170044, "global_step": 847, "epoch": 3, "lr": 0.009999743403922397}
+{"train_loss": 0.0396379753947258, "train_loss_bc": 0.00679228687658906, "train_loss_llm": 0.328456848859787, "grad_norm": 0.42512276768684387, "global_step": 848, "epoch": 3, "lr": 0.00999973803037525}
+{"train_loss": 0.04006904363632202, "train_loss_bc": 0.006484971381723881, "train_loss_llm": 0.33584073185920715, "grad_norm": 0.1147284209728241, "global_step": 849, "epoch": 3, "lr": 0.00999973803037525}
+{"train_loss": 0.038100481033325195, "train_loss_bc": 0.007552287075668573, "train_loss_llm": 0.3054819405078888, "grad_norm": 0.2409692406654358, "global_step": 850, "epoch": 3, "lr": 0.00999973803037525}
+{"train_loss": 0.03333762660622597, "train_loss_bc": 0.006572651211172342, "train_loss_llm": 0.26764973998069763, "grad_norm": 0.35239294171333313, "global_step": 851, "epoch": 3, "lr": 0.00999973803037525}
+{"train_loss": 0.03271443396806717, "train_loss_bc": 0.00786689855158329, "train_loss_llm": 0.2484753429889679, "grad_norm": 0.42065441608428955, "global_step": 852, "epoch": 3, "lr": 0.00999973803037525}
+{"train_loss": 0.03329592943191528, "train_loss_bc": 0.005131946876645088, "train_loss_llm": 0.28163981437683105, "grad_norm": 0.4378272593021393, "global_step": 853, "epoch": 3, "lr": 0.00999973803037525}
+{"train_loss": 0.03706309199333191, "train_loss_bc": 0.006675854790955782, "train_loss_llm": 0.30387237668037415, "grad_norm": 0.4981805682182312, "global_step": 854, "epoch": 3, "lr": 0.00999973803037525}
+{"train_loss": 0.032089803367853165, "train_loss_bc": 0.006250032223761082, "train_loss_llm": 0.2583976984024048, "grad_norm": 0.511533260345459, "global_step": 855, "epoch": 3, "lr": 0.00999973803037525}
+{"train_loss": 0.039826154708862305, "train_loss_bc": 0.008023478090763092, "train_loss_llm": 0.31802675127983093, "grad_norm": 0.5255860090255737, "global_step": 856, "epoch": 3, "lr": 0.00999973260114563}
+{"train_loss": 0.03894082456827164, "train_loss_bc": 0.007795471698045731, "train_loss_llm": 0.31145355105400085, "grad_norm": 0.09610623866319656, "global_step": 857, "epoch": 3, "lr": 0.00999973260114563}
+{"train_loss": 0.030494272708892822, "train_loss_bc": 0.00873598176985979, "train_loss_llm": 0.21758291125297546, "grad_norm": 0.08992715924978256, "global_step": 858, "epoch": 3, "lr": 0.00999973260114563}
+{"train_loss": 0.0433221273124218, "train_loss_bc": 0.005267313681542873, "train_loss_llm": 0.3805481195449829, "grad_norm": 0.1879543513059616, "global_step": 859, "epoch": 3, "lr": 0.00999973260114563}
+{"train_loss": 0.035148415714502335, "train_loss_bc": 0.009461654350161552, "train_loss_llm": 0.2568676173686981, "grad_norm": 0.20386983454227448, "global_step": 860, "epoch": 3, "lr": 0.00999973260114563}
+{"train_loss": 0.03638004884123802, "train_loss_bc": 0.005249880254268646, "train_loss_llm": 0.31130167841911316, "grad_norm": 0.26562321186065674, "global_step": 861, "epoch": 3, "lr": 0.00999973260114563}
+{"train_loss": 0.036977462470531464, "train_loss_bc": 0.007082149386405945, "train_loss_llm": 0.2989531457424164, "grad_norm": 0.2872186303138733, "global_step": 862, "epoch": 3, "lr": 0.00999973260114563}
+{"train_loss": 0.03413094952702522, "train_loss_bc": 0.007640668656677008, "train_loss_llm": 0.264902800321579, "grad_norm": 0.41925379633903503, "global_step": 863, "epoch": 3, "lr": 0.00999973260114563}
+{"train_loss": 0.029003767296671867, "train_loss_bc": 0.007574006915092468, "train_loss_llm": 0.2142975926399231, "grad_norm": 0.5457683801651001, "global_step": 864, "epoch": 3, "lr": 0.009999727116233599}
+{"train_loss": 0.035611964762210846, "train_loss_bc": 0.005993167404085398, "train_loss_llm": 0.29618796706199646, "grad_norm": 0.138291135430336, "global_step": 865, "epoch": 3, "lr": 0.009999727116233599}
+{"train_loss": 0.0336766354739666, "train_loss_bc": 0.006988673470914364, "train_loss_llm": 0.2668796181678772, "grad_norm": 0.2981431484222412, "global_step": 866, "epoch": 3, "lr": 0.009999727116233599}
+{"train_loss": 0.041651900857686996, "train_loss_bc": 0.0038784865755587816, "train_loss_llm": 0.37773415446281433, "grad_norm": 0.35570409893989563, "global_step": 867, "epoch": 3, "lr": 0.009999727116233599}
+{"train_loss": 0.03206249698996544, "train_loss_bc": 0.006537631619721651, "train_loss_llm": 0.25524863600730896, "grad_norm": 0.38297757506370544, "global_step": 868, "epoch": 3, "lr": 0.009999727116233599}
+{"train_loss": 0.0315057598054409, "train_loss_bc": 0.005464380607008934, "train_loss_llm": 0.26041379570961, "grad_norm": 0.48121577501296997, "global_step": 869, "epoch": 3, "lr": 0.009999727116233599}
+{"train_loss": 0.03344511240720749, "train_loss_bc": 0.00588637962937355, "train_loss_llm": 0.2755873203277588, "grad_norm": 0.5741618871688843, "global_step": 870, "epoch": 3, "lr": 0.009999727116233599}
+{"train_loss": 0.036661580204963684, "train_loss_bc": 0.006556183099746704, "train_loss_llm": 0.3010539710521698, "grad_norm": 0.5597561597824097, "global_step": 871, "epoch": 3, "lr": 0.009999727116233599}
+{"train_loss": 0.03245679661631584, "train_loss_bc": 0.005417827051132917, "train_loss_llm": 0.27038970589637756, "grad_norm": 0.6072439551353455, "global_step": 872, "epoch": 3, "lr": 0.009999721575639218}
+{"train_loss": 0.030125316232442856, "train_loss_bc": 0.00648768013343215, "train_loss_llm": 0.2363763451576233, "grad_norm": 0.03695770725607872, "global_step": 873, "epoch": 3, "lr": 0.009999721575639218}
+{"train_loss": 0.04080057889223099, "train_loss_bc": 0.005423163529485464, "train_loss_llm": 0.35377416014671326, "grad_norm": 0.07863206416368484, "global_step": 874, "epoch": 3, "lr": 0.009999721575639218}
+{"train_loss": 0.03549427166581154, "train_loss_bc": 0.006130880210548639, "train_loss_llm": 0.29363390803337097, "grad_norm": 0.12837176024913788, "global_step": 875, "epoch": 3, "lr": 0.009999721575639218}
+{"train_loss": 0.04610234871506691, "train_loss_bc": 0.00937317032366991, "train_loss_llm": 0.36729177832603455, "grad_norm": 0.273049920797348, "global_step": 876, "epoch": 3, "lr": 0.009999721575639218}
+{"train_loss": 0.04820099472999573, "train_loss_bc": 0.004788246937096119, "train_loss_llm": 0.43412747979164124, "grad_norm": 0.3254064917564392, "global_step": 877, "epoch": 3, "lr": 0.009999721575639218}
+{"train_loss": 0.03187374770641327, "train_loss_bc": 0.005749593488872051, "train_loss_llm": 0.26124152541160583, "grad_norm": 0.36432623863220215, "global_step": 878, "epoch": 3, "lr": 0.009999721575639218}
+{"train_loss": 0.03526120260357857, "train_loss_bc": 0.004671954084187746, "train_loss_llm": 0.3058924674987793, "grad_norm": 0.3581598103046417, "global_step": 879, "epoch": 3, "lr": 0.009999721575639218}
+{"train_loss": 0.040436308830976486, "train_loss_bc": 0.0052721151150763035, "train_loss_llm": 0.3516419231891632, "grad_norm": 0.49492451548576355, "global_step": 880, "epoch": 3, "lr": 0.009999715979362549}
+{"train_loss": 0.03226213902235031, "train_loss_bc": 0.005070658400654793, "train_loss_llm": 0.2719147801399231, "grad_norm": 0.09914953261613846, "global_step": 881, "epoch": 3, "lr": 0.009999715979362549}
+{"train_loss": 0.03547930717468262, "train_loss_bc": 0.005637697875499725, "train_loss_llm": 0.2984161078929901, "grad_norm": 0.07528921961784363, "global_step": 882, "epoch": 3, "lr": 0.009999715979362549}
+{"train_loss": 0.03431865945458412, "train_loss_bc": 0.0049911318346858025, "train_loss_llm": 0.29327526688575745, "grad_norm": 0.10888875275850296, "global_step": 883, "epoch": 3, "lr": 0.009999715979362549}
+{"train_loss": 0.03125345706939697, "train_loss_bc": 0.006598387844860554, "train_loss_llm": 0.24655067920684814, "grad_norm": 0.1625169813632965, "global_step": 884, "epoch": 3, "lr": 0.009999715979362549}
+{"train_loss": 0.031130941584706306, "train_loss_bc": 0.0060892184264957905, "train_loss_llm": 0.25041723251342773, "grad_norm": 0.1688292920589447, "global_step": 885, "epoch": 3, "lr": 0.009999715979362549}
+{"train_loss": 0.03347410261631012, "train_loss_bc": 0.006219157017767429, "train_loss_llm": 0.27254945039749146, "grad_norm": 0.23957957327365875, "global_step": 886, "epoch": 3, "lr": 0.009999715979362549}
+{"train_loss": 0.044279005378484726, "train_loss_bc": 0.012497604824602604, "train_loss_llm": 0.3178139925003052, "grad_norm": 0.26759666204452515, "global_step": 887, "epoch": 3, "lr": 0.009999715979362549}
+{"train_loss": 0.029606420546770096, "train_loss_bc": 0.0049226111732423306, "train_loss_llm": 0.24683809280395508, "grad_norm": 0.3271597921848297, "global_step": 888, "epoch": 3, "lr": 0.009999710327403655}
+{"train_loss": 0.030848924070596695, "train_loss_bc": 0.0041129328310489655, "train_loss_llm": 0.2673599123954773, "grad_norm": 0.03914638236165047, "global_step": 889, "epoch": 3, "lr": 0.009999710327403655}
+{"train_loss": 0.033031824976205826, "train_loss_bc": 0.004745905287563801, "train_loss_llm": 0.282859206199646, "grad_norm": 0.05769311636686325, "global_step": 890, "epoch": 3, "lr": 0.009999710327403655}
+{"train_loss": 0.029878072440624237, "train_loss_bc": 0.005176401697099209, "train_loss_llm": 0.24701669812202454, "grad_norm": 0.11649566888809204, "global_step": 891, "epoch": 3, "lr": 0.009999710327403655}
+{"train_loss": 0.031678758561611176, "train_loss_bc": 0.005731347948312759, "train_loss_llm": 0.25947412848472595, "grad_norm": 0.14180579781532288, "global_step": 892, "epoch": 3, "lr": 0.009999710327403655}
+{"train_loss": 0.030575085431337357, "train_loss_bc": 0.005887029692530632, "train_loss_llm": 0.24688056111335754, "grad_norm": 0.17890392243862152, "global_step": 893, "epoch": 3, "lr": 0.009999710327403655}
+{"train_loss": 0.037076979875564575, "train_loss_bc": 0.005571335554122925, "train_loss_llm": 0.3150564432144165, "grad_norm": 0.24487504363059998, "global_step": 894, "epoch": 3, "lr": 0.009999710327403655}
+{"train_loss": 0.028549065813422203, "train_loss_bc": 0.0064217220060527325, "train_loss_llm": 0.22127342224121094, "grad_norm": 0.2566877007484436, "global_step": 895, "epoch": 3, "lr": 0.009999710327403655}
+{"train_loss": 0.0313766673207283, "train_loss_bc": 0.006783489137887955, "train_loss_llm": 0.24593177437782288, "grad_norm": 0.28338736295700073, "global_step": 896, "epoch": 3, "lr": 0.009999704619762597}
+{"train_loss": 0.038260139524936676, "train_loss_bc": 0.0074907150119543076, "train_loss_llm": 0.3076942563056946, "grad_norm": 0.13029547035694122, "global_step": 897, "epoch": 3, "lr": 0.009999704619762597}
+{"train_loss": 0.03499807417392731, "train_loss_bc": 0.004917839542031288, "train_loss_llm": 0.3008023500442505, "grad_norm": 0.21307970583438873, "global_step": 898, "epoch": 3, "lr": 0.009999704619762597}
+{"train_loss": 0.02960890717804432, "train_loss_bc": 0.006384111940860748, "train_loss_llm": 0.2322479486465454, "grad_norm": 0.2498963624238968, "global_step": 899, "epoch": 3, "lr": 0.009999704619762597}
+{"train_loss": 0.04207020625472069, "train_loss_bc": 0.004151919391006231, "train_loss_llm": 0.3791828751564026, "grad_norm": 0.2592998147010803, "global_step": 900, "epoch": 3, "lr": 0.009999704619762597}
+{"train_loss": 0.03106340393424034, "train_loss_bc": 0.007239120081067085, "train_loss_llm": 0.23824283480644226, "grad_norm": 0.32159286737442017, "global_step": 901, "epoch": 3, "lr": 0.009999704619762597}
+{"train_loss": 0.041208572685718536, "train_loss_bc": 0.009066695347428322, "train_loss_llm": 0.32141873240470886, "grad_norm": 0.43562477827072144, "global_step": 902, "epoch": 3, "lr": 0.009999704619762597}
+{"train_loss": 0.03311574086546898, "train_loss_bc": 0.006356965284794569, "train_loss_llm": 0.2675877511501312, "grad_norm": 0.5321965217590332, "global_step": 903, "epoch": 3, "lr": 0.009999704619762597}
+{"train_loss": 0.04222928360104561, "train_loss_bc": 0.01576140895485878, "train_loss_llm": 0.2646787464618683, "grad_norm": 0.5958488583564758, "global_step": 904, "epoch": 3, "lr": 0.009999698856439442}
+{"train_loss": 0.03145882859826088, "train_loss_bc": 0.006310980301350355, "train_loss_llm": 0.25147849321365356, "grad_norm": 0.07272475212812424, "global_step": 905, "epoch": 3, "lr": 0.009999698856439442}
+{"train_loss": 0.03147433325648308, "train_loss_bc": 0.006644588429480791, "train_loss_llm": 0.24829742312431335, "grad_norm": 0.16373521089553833, "global_step": 906, "epoch": 3, "lr": 0.009999698856439442}
+{"train_loss": 0.03661976382136345, "train_loss_bc": 0.010292819701135159, "train_loss_llm": 0.26326945424079895, "grad_norm": 0.12798801064491272, "global_step": 907, "epoch": 3, "lr": 0.009999698856439442}
+{"train_loss": 0.03011510707437992, "train_loss_bc": 0.006615811958909035, "train_loss_llm": 0.23499295115470886, "grad_norm": 0.20618996024131775, "global_step": 908, "epoch": 3, "lr": 0.009999698856439442}
+{"train_loss": 0.03221958875656128, "train_loss_bc": 0.007054815534502268, "train_loss_llm": 0.2516477406024933, "grad_norm": 0.20629042387008667, "global_step": 909, "epoch": 3, "lr": 0.009999698856439442}
+{"train_loss": 0.02535533905029297, "train_loss_bc": 0.005918755196034908, "train_loss_llm": 0.19436582922935486, "grad_norm": 0.2819060683250427, "global_step": 910, "epoch": 3, "lr": 0.009999698856439442}
+{"train_loss": 0.03672441467642784, "train_loss_bc": 0.009885363280773163, "train_loss_llm": 0.2683905065059662, "grad_norm": 0.27283143997192383, "global_step": 911, "epoch": 3, "lr": 0.009999698856439442}
+{"train_loss": 0.030672723427414894, "train_loss_bc": 0.00864192470908165, "train_loss_llm": 0.22030797600746155, "grad_norm": 0.24800419807434082, "global_step": 912, "epoch": 3, "lr": 0.00999969303743425}
+{"train_loss": 0.03422735258936882, "train_loss_bc": 0.009206610731780529, "train_loss_llm": 0.25020742416381836, "grad_norm": 0.09070315957069397, "global_step": 913, "epoch": 3, "lr": 0.00999969303743425}
+{"train_loss": 0.03572862595319748, "train_loss_bc": 0.012138225138187408, "train_loss_llm": 0.23590397834777832, "grad_norm": 0.0698406994342804, "global_step": 914, "epoch": 3, "lr": 0.00999969303743425}
+{"train_loss": 0.032501399517059326, "train_loss_bc": 0.004712683614343405, "train_loss_llm": 0.27788716554641724, "grad_norm": 0.08545132726430893, "global_step": 915, "epoch": 3, "lr": 0.00999969303743425}
+{"train_loss": 0.03814593702554703, "train_loss_bc": 0.007925331592559814, "train_loss_llm": 0.3022060692310333, "grad_norm": 0.12771961092948914, "global_step": 916, "epoch": 3, "lr": 0.00999969303743425}
+{"train_loss": 0.0294148288667202, "train_loss_bc": 0.007604120299220085, "train_loss_llm": 0.21810707449913025, "grad_norm": 0.08727670460939407, "global_step": 917, "epoch": 3, "lr": 0.00999969303743425}
+{"train_loss": 0.030308470129966736, "train_loss_bc": 0.006939607672393322, "train_loss_llm": 0.233688622713089, "grad_norm": 0.1266336441040039, "global_step": 918, "epoch": 3, "lr": 0.00999969303743425}
+{"train_loss": 0.029819060117006302, "train_loss_bc": 0.007783067412674427, "train_loss_llm": 0.2203599214553833, "grad_norm": 0.201359361410141, "global_step": 919, "epoch": 3, "lr": 0.00999969303743425}
+{"train_loss": 0.034193262457847595, "train_loss_bc": 0.00655390415340662, "train_loss_llm": 0.2763935625553131, "grad_norm": 0.25078874826431274, "global_step": 920, "epoch": 3, "lr": 0.009999687162747087}
+{"train_loss": 0.03794637322425842, "train_loss_bc": 0.008656027726829052, "train_loss_llm": 0.29290345311164856, "grad_norm": 0.15347330272197723, "global_step": 921, "epoch": 3, "lr": 0.009999687162747087}
+{"train_loss": 0.030402423813939095, "train_loss_bc": 0.010563747957348824, "train_loss_llm": 0.1983867585659027, "grad_norm": 0.23122793436050415, "global_step": 922, "epoch": 3, "lr": 0.009999687162747087}
+{"train_loss": 0.035699523985385895, "train_loss_bc": 0.009496472775936127, "train_loss_llm": 0.2620304822921753, "grad_norm": 0.3372708559036255, "global_step": 923, "epoch": 3, "lr": 0.009999687162747087}
+{"train_loss": 0.03273237496614456, "train_loss_bc": 0.009266052395105362, "train_loss_llm": 0.2346632182598114, "grad_norm": 0.3674285411834717, "global_step": 924, "epoch": 3, "lr": 0.009999687162747087}
+{"train_loss": 0.02746644616127014, "train_loss_bc": 0.009913841262459755, "train_loss_llm": 0.17552605271339417, "grad_norm": 0.3616979420185089, "global_step": 925, "epoch": 3, "lr": 0.009999687162747087}
+{"train_loss": 0.02795117162168026, "train_loss_bc": 0.006510883569717407, "train_loss_llm": 0.21440288424491882, "grad_norm": 0.36710125207901, "global_step": 926, "epoch": 3, "lr": 0.009999687162747087}
+{"train_loss": 0.03721170127391815, "train_loss_bc": 0.010575734078884125, "train_loss_llm": 0.2663596570491791, "grad_norm": 0.42467987537384033, "global_step": 927, "epoch": 3, "lr": 0.009999687162747087}
+{"train_loss": 0.029480958357453346, "train_loss_bc": 0.006815830245614052, "train_loss_llm": 0.22665128111839294, "grad_norm": 0.48694345355033875, "global_step": 928, "epoch": 3, "lr": 0.009999681232378021}
+{"train_loss": 0.032228972762823105, "train_loss_bc": 0.008813663385808468, "train_loss_llm": 0.23415309190750122, "grad_norm": 0.11663787066936493, "global_step": 929, "epoch": 3, "lr": 0.009999681232378021}
+{"train_loss": 0.027063889428973198, "train_loss_bc": 0.006030221004039049, "train_loss_llm": 0.21033668518066406, "grad_norm": 0.12319473922252655, "global_step": 930, "epoch": 3, "lr": 0.009999681232378021}
+{"train_loss": 0.03403911739587784, "train_loss_bc": 0.009172962978482246, "train_loss_llm": 0.24866151809692383, "grad_norm": 0.14890532195568085, "global_step": 931, "epoch": 3, "lr": 0.009999681232378021}
+{"train_loss": 0.03014031983911991, "train_loss_bc": 0.006775286048650742, "train_loss_llm": 0.2336503267288208, "grad_norm": 0.175083726644516, "global_step": 932, "epoch": 3, "lr": 0.009999681232378021}
+{"train_loss": 0.037270888686180115, "train_loss_bc": 0.006943697575479746, "train_loss_llm": 0.3032718896865845, "grad_norm": 0.21361802518367767, "global_step": 933, "epoch": 3, "lr": 0.009999681232378021}
+{"train_loss": 0.02907363325357437, "train_loss_bc": 0.005797005258500576, "train_loss_llm": 0.2327662706375122, "grad_norm": 0.3338969945907593, "global_step": 934, "epoch": 3, "lr": 0.009999681232378021}
+{"train_loss": 0.03457222878932953, "train_loss_bc": 0.012506401166319847, "train_loss_llm": 0.22065827250480652, "grad_norm": 0.43561986088752747, "global_step": 935, "epoch": 3, "lr": 0.009999681232378021}
+{"train_loss": 0.03111991286277771, "train_loss_bc": 0.007845129817724228, "train_loss_llm": 0.23274782299995422, "grad_norm": 0.5275415778160095, "global_step": 936, "epoch": 3, "lr": 0.009999675246327116}
+{"train_loss": 0.024324718862771988, "train_loss_bc": 0.009490549564361572, "train_loss_llm": 0.14834168553352356, "grad_norm": 0.15110400319099426, "global_step": 937, "epoch": 3, "lr": 0.009999675246327116}
+{"train_loss": 0.03333251550793648, "train_loss_bc": 0.00879766047000885, "train_loss_llm": 0.24534854292869568, "grad_norm": 0.3027160167694092, "global_step": 938, "epoch": 3, "lr": 0.009999675246327116}
+{"train_loss": 0.031076019629836082, "train_loss_bc": 0.010462090373039246, "train_loss_llm": 0.20613929629325867, "grad_norm": 0.29610323905944824, "global_step": 939, "epoch": 3, "lr": 0.009999675246327116}
+{"train_loss": 0.028965089470148087, "train_loss_bc": 0.010655314661562443, "train_loss_llm": 0.1830977499485016, "grad_norm": 0.35252267122268677, "global_step": 940, "epoch": 3, "lr": 0.009999675246327116}
+{"train_loss": 0.029849885031580925, "train_loss_bc": 0.0056192572228610516, "train_loss_llm": 0.24230626225471497, "grad_norm": 0.25178810954093933, "global_step": 941, "epoch": 3, "lr": 0.009999675246327116}
+{"train_loss": 0.03363821282982826, "train_loss_bc": 0.009366601705551147, "train_loss_llm": 0.24271610379219055, "grad_norm": 0.36508679389953613, "global_step": 942, "epoch": 3, "lr": 0.009999675246327116}
+{"train_loss": 0.03211241215467453, "train_loss_bc": 0.009223246946930885, "train_loss_llm": 0.22889167070388794, "grad_norm": 0.5054395198822021, "global_step": 943, "epoch": 3, "lr": 0.009999675246327116}
+{"train_loss": 0.022671937942504883, "train_loss_bc": 0.009067597799003124, "train_loss_llm": 0.13604339957237244, "grad_norm": 0.5716280341148376, "global_step": 944, "epoch": 3, "lr": 0.009999669204594438}
+{"train_loss": 0.030747447162866592, "train_loss_bc": 0.009357152506709099, "train_loss_llm": 0.21390295028686523, "grad_norm": 0.05960216373205185, "global_step": 945, "epoch": 3, "lr": 0.009999669204594438}
+{"train_loss": 0.032495684921741486, "train_loss_bc": 0.005212248302996159, "train_loss_llm": 0.2728343605995178, "grad_norm": 0.08457046002149582, "global_step": 946, "epoch": 3, "lr": 0.009999669204594438}
+{"train_loss": 0.027030514553189278, "train_loss_bc": 0.0063616507686674595, "train_loss_llm": 0.20668864250183105, "grad_norm": 0.14198894798755646, "global_step": 947, "epoch": 3, "lr": 0.009999669204594438}
+{"train_loss": 0.032481975853443146, "train_loss_bc": 0.006804752163589001, "train_loss_llm": 0.2567722499370575, "grad_norm": 0.1915920227766037, "global_step": 948, "epoch": 3, "lr": 0.009999669204594438}
+{"train_loss": 0.03303243964910507, "train_loss_bc": 0.00730012496933341, "train_loss_llm": 0.25732314586639404, "grad_norm": 0.26003897190093994, "global_step": 949, "epoch": 3, "lr": 0.009999669204594438}
+{"train_loss": 0.0258856900036335, "train_loss_bc": 0.0076794372871518135, "train_loss_llm": 0.1820625364780426, "grad_norm": 0.261071115732193, "global_step": 950, "epoch": 3, "lr": 0.009999669204594438}
+{"train_loss": 0.03636479562445849, "train_loss_bc": 0.010300894267857075, "train_loss_llm": 0.18148043751716614, "grad_norm": 0.3524303734302521, "global_step": 951, "epoch": 3, "lr": 0.009999669204594438, "val_loss": 0.027145646512508392}
+{"train_loss": 0.027841690927743912, "train_loss_bc": 0.0048583499155938625, "train_loss_llm": 0.22983339428901672, "grad_norm": 0.46281978487968445, "global_step": 952, "epoch": 4, "lr": 0.009999663107180055}
+{"train_loss": 0.03275338560342789, "train_loss_bc": 0.0046164002269506454, "train_loss_llm": 0.2813698351383209, "grad_norm": 0.2164529412984848, "global_step": 953, "epoch": 4, "lr": 0.009999663107180055}
+{"train_loss": 0.03204694017767906, "train_loss_bc": 0.0062950910069048405, "train_loss_llm": 0.2575185000896454, "grad_norm": 0.2730615437030792, "global_step": 954, "epoch": 4, "lr": 0.009999663107180055}
+{"train_loss": 0.032971784472465515, "train_loss_bc": 0.008015034720301628, "train_loss_llm": 0.24956747889518738, "grad_norm": 0.47083091735839844, "global_step": 955, "epoch": 4, "lr": 0.009999663107180055}
+{"train_loss": 0.033739492297172546, "train_loss_bc": 0.006319461390376091, "train_loss_llm": 0.27420032024383545, "grad_norm": 0.5714814066886902, "global_step": 956, "epoch": 4, "lr": 0.009999663107180055}
+{"train_loss": 0.03671494126319885, "train_loss_bc": 0.007469870150089264, "train_loss_llm": 0.2924507260322571, "grad_norm": 0.8439902663230896, "global_step": 957, "epoch": 4, "lr": 0.009999663107180055}
+{"train_loss": 0.031250134110450745, "train_loss_bc": 0.005993771366775036, "train_loss_llm": 0.25256362557411194, "grad_norm": 1.0457634925842285, "global_step": 958, "epoch": 4, "lr": 0.009999663107180055}
+{"train_loss": 0.03125201538205147, "train_loss_bc": 0.007291128858923912, "train_loss_llm": 0.23960885405540466, "grad_norm": 1.260610580444336, "global_step": 959, "epoch": 4, "lr": 0.009999663107180055}
+{"train_loss": 0.029515599831938744, "train_loss_bc": 0.005969248712062836, "train_loss_llm": 0.23546350002288818, "grad_norm": 1.382486343383789, "global_step": 960, "epoch": 4, "lr": 0.009999656954084037}
+{"train_loss": 0.02468547597527504, "train_loss_bc": 0.0050781792961061, "train_loss_llm": 0.19607296586036682, "grad_norm": 0.06230796501040459, "global_step": 961, "epoch": 4, "lr": 0.009999656954084037}
+{"train_loss": 0.02788439206779003, "train_loss_bc": 0.00453044893220067, "train_loss_llm": 0.2335394322872162, "grad_norm": 0.13492043316364288, "global_step": 962, "epoch": 4, "lr": 0.009999656954084037}
+{"train_loss": 0.02147907018661499, "train_loss_bc": 0.005282941274344921, "train_loss_llm": 0.16196128726005554, "grad_norm": 0.12193529307842255, "global_step": 963, "epoch": 4, "lr": 0.009999656954084037}
+{"train_loss": 0.04028688371181488, "train_loss_bc": 0.005762012675404549, "train_loss_llm": 0.3452486991882324, "grad_norm": 0.1615751087665558, "global_step": 964, "epoch": 4, "lr": 0.009999656954084037}
+{"train_loss": 0.02609814703464508, "train_loss_bc": 0.007108449935913086, "train_loss_llm": 0.18989697098731995, "grad_norm": 0.14998118579387665, "global_step": 965, "epoch": 4, "lr": 0.009999656954084037}
+{"train_loss": 0.02902870811522007, "train_loss_bc": 0.005417634267359972, "train_loss_llm": 0.23611074686050415, "grad_norm": 0.24680472910404205, "global_step": 966, "epoch": 4, "lr": 0.009999656954084037}
+{"train_loss": 0.03256592899560928, "train_loss_bc": 0.0066495127975940704, "train_loss_llm": 0.2591641843318939, "grad_norm": 0.2875365614891052, "global_step": 967, "epoch": 4, "lr": 0.009999656954084037}
+{"train_loss": 0.04177890717983246, "train_loss_bc": 0.010989336296916008, "train_loss_llm": 0.3078957200050354, "grad_norm": 0.34066537022590637, "global_step": 968, "epoch": 4, "lr": 0.009999650745306449}
+{"train_loss": 0.031201092526316643, "train_loss_bc": 0.007289518136531115, "train_loss_llm": 0.23911574482917786, "grad_norm": 0.061997558921575546, "global_step": 969, "epoch": 4, "lr": 0.009999650745306449}
+{"train_loss": 0.024879060685634613, "train_loss_bc": 0.0068955207243561745, "train_loss_llm": 0.17983540892601013, "grad_norm": 0.1402473896741867, "global_step": 970, "epoch": 4, "lr": 0.009999650745306449}
+{"train_loss": 0.0281540360301733, "train_loss_bc": 0.011995276436209679, "train_loss_llm": 0.16158759593963623, "grad_norm": 0.22141993045806885, "global_step": 971, "epoch": 4, "lr": 0.009999650745306449}
+{"train_loss": 0.029403358697891235, "train_loss_bc": 0.0077343229204416275, "train_loss_llm": 0.21669036149978638, "grad_norm": 0.22037935256958008, "global_step": 972, "epoch": 4, "lr": 0.009999650745306449}
+{"train_loss": 0.030742494389414787, "train_loss_bc": 0.00739910127595067, "train_loss_llm": 0.23343393206596375, "grad_norm": 0.25252267718315125, "global_step": 973, "epoch": 4, "lr": 0.009999650745306449}
+{"train_loss": 0.02701559290289879, "train_loss_bc": 0.006740705110132694, "train_loss_llm": 0.2027488648891449, "grad_norm": 0.3485352694988251, "global_step": 974, "epoch": 4, "lr": 0.009999650745306449}
+{"train_loss": 0.025619149208068848, "train_loss_bc": 0.007593701593577862, "train_loss_llm": 0.18025445938110352, "grad_norm": 0.36864885687828064, "global_step": 975, "epoch": 4, "lr": 0.009999650745306449}
+{"train_loss": 0.029215149581432343, "train_loss_bc": 0.00749682541936636, "train_loss_llm": 0.21718323230743408, "grad_norm": 0.42205488681793213, "global_step": 976, "epoch": 4, "lr": 0.009999644480847362}
+{"train_loss": 0.027029480785131454, "train_loss_bc": 0.005364857614040375, "train_loss_llm": 0.2166462242603302, "grad_norm": 0.10225047916173935, "global_step": 977, "epoch": 4, "lr": 0.009999644480847362}
+{"train_loss": 0.0289299339056015, "train_loss_bc": 0.007123465184122324, "train_loss_llm": 0.21806469559669495, "grad_norm": 0.1856745183467865, "global_step": 978, "epoch": 4, "lr": 0.009999644480847362}
+{"train_loss": 0.045075055211782455, "train_loss_bc": 0.009543132968246937, "train_loss_llm": 0.35531923174858093, "grad_norm": 0.28084298968315125, "global_step": 979, "epoch": 4, "lr": 0.009999644480847362}
+{"train_loss": 0.034947142004966736, "train_loss_bc": 0.007353233173489571, "train_loss_llm": 0.27593907713890076, "grad_norm": 0.3454737663269043, "global_step": 980, "epoch": 4, "lr": 0.009999644480847362}
+{"train_loss": 0.028705522418022156, "train_loss_bc": 0.00528296735137701, "train_loss_llm": 0.2342255413532257, "grad_norm": 0.4685222804546356, "global_step": 981, "epoch": 4, "lr": 0.009999644480847362}
+{"train_loss": 0.02546193078160286, "train_loss_bc": 0.007715326733887196, "train_loss_llm": 0.1774660348892212, "grad_norm": 0.5163148641586304, "global_step": 982, "epoch": 4, "lr": 0.009999644480847362}
+{"train_loss": 0.02522937022149563, "train_loss_bc": 0.005149360746145248, "train_loss_llm": 0.2008000910282135, "grad_norm": 0.599575936794281, "global_step": 983, "epoch": 4, "lr": 0.009999644480847362}
+{"train_loss": 0.033251211047172546, "train_loss_bc": 0.007712892256677151, "train_loss_llm": 0.2553831934928894, "grad_norm": 0.6683198809623718, "global_step": 984, "epoch": 4, "lr": 0.009999638160706845}
+{"train_loss": 0.02802600897848606, "train_loss_bc": 0.006164947524666786, "train_loss_llm": 0.21861061453819275, "grad_norm": 0.11834575980901718, "global_step": 985, "epoch": 4, "lr": 0.009999638160706845}
+{"train_loss": 0.0312853567302227, "train_loss_bc": 0.007080654613673687, "train_loss_llm": 0.2420470118522644, "grad_norm": 0.21110263466835022, "global_step": 986, "epoch": 4, "lr": 0.009999638160706845}
+{"train_loss": 0.025966327637434006, "train_loss_bc": 0.007169393822550774, "train_loss_llm": 0.18796932697296143, "grad_norm": 0.2918483018875122, "global_step": 987, "epoch": 4, "lr": 0.009999638160706845}
+{"train_loss": 0.029830923303961754, "train_loss_bc": 0.009149419143795967, "train_loss_llm": 0.20681503415107727, "grad_norm": 0.34417885541915894, "global_step": 988, "epoch": 4, "lr": 0.009999638160706845}
+{"train_loss": 0.032589711248874664, "train_loss_bc": 0.00714675011113286, "train_loss_llm": 0.2544296085834503, "grad_norm": 0.41000327467918396, "global_step": 989, "epoch": 4, "lr": 0.009999638160706845}
+{"train_loss": 0.03154902905225754, "train_loss_bc": 0.007082024589180946, "train_loss_llm": 0.24467003345489502, "grad_norm": 0.48684656620025635, "global_step": 990, "epoch": 4, "lr": 0.009999638160706845}
+{"train_loss": 0.029433265328407288, "train_loss_bc": 0.006453504785895348, "train_loss_llm": 0.2297976016998291, "grad_norm": 0.5523844957351685, "global_step": 991, "epoch": 4, "lr": 0.009999638160706845}
+{"train_loss": 0.026760712265968323, "train_loss_bc": 0.006994294002652168, "train_loss_llm": 0.19766417145729065, "grad_norm": 0.6132140755653381, "global_step": 992, "epoch": 4, "lr": 0.00999963178488497}
+{"train_loss": 0.024409648030996323, "train_loss_bc": 0.005960418842732906, "train_loss_llm": 0.184492290019989, "grad_norm": 0.06400890648365021, "global_step": 993, "epoch": 4, "lr": 0.00999963178488497}
+{"train_loss": 0.018933136016130447, "train_loss_bc": 0.004755022004246712, "train_loss_llm": 0.14178115129470825, "grad_norm": 0.07530971616506577, "global_step": 994, "epoch": 4, "lr": 0.00999963178488497}
+{"train_loss": 0.03024270012974739, "train_loss_bc": 0.007350943051278591, "train_loss_llm": 0.22891756892204285, "grad_norm": 0.10783810913562775, "global_step": 995, "epoch": 4, "lr": 0.00999963178488497}
+{"train_loss": 0.029787085950374603, "train_loss_bc": 0.007608549669384956, "train_loss_llm": 0.22178536653518677, "grad_norm": 0.1483350694179535, "global_step": 996, "epoch": 4, "lr": 0.00999963178488497}
+{"train_loss": 0.027532916516065598, "train_loss_bc": 0.007064403500407934, "train_loss_llm": 0.20468512177467346, "grad_norm": 0.211039200425148, "global_step": 997, "epoch": 4, "lr": 0.00999963178488497}
+{"train_loss": 0.025346357375383377, "train_loss_bc": 0.007247720845043659, "train_loss_llm": 0.18098634481430054, "grad_norm": 0.2810097634792328, "global_step": 998, "epoch": 4, "lr": 0.00999963178488497}
+{"train_loss": 0.03156394511461258, "train_loss_bc": 0.007535426877439022, "train_loss_llm": 0.24028518795967102, "grad_norm": 0.32286596298217773, "global_step": 999, "epoch": 4, "lr": 0.00999963178488497}
+{"train_loss": 0.027733664959669113, "train_loss_bc": 0.012630880810320377, "train_loss_llm": 0.1510278284549713, "grad_norm": 0.31013938784599304, "global_step": 1000, "epoch": 4, "lr": 0.009999625353381806}
+{"train_loss": 0.03095146268606186, "train_loss_bc": 0.010898114182054996, "train_loss_llm": 0.20053347945213318, "grad_norm": 0.05641626939177513, "global_step": 1001, "epoch": 4, "lr": 0.009999625353381806}
+{"train_loss": 0.025538336485624313, "train_loss_bc": 0.005504426546394825, "train_loss_llm": 0.20033907890319824, "grad_norm": 0.10417813807725906, "global_step": 1002, "epoch": 4, "lr": 0.009999625353381806}
+{"train_loss": 0.02985910326242447, "train_loss_bc": 0.010588688775897026, "train_loss_llm": 0.19270414113998413, "grad_norm": 0.13027356564998627, "global_step": 1003, "epoch": 4, "lr": 0.009999625353381806}
+{"train_loss": 0.03237973526120186, "train_loss_bc": 0.007979994639754295, "train_loss_llm": 0.24399739503860474, "grad_norm": 0.1540662944316864, "global_step": 1004, "epoch": 4, "lr": 0.009999625353381806}
+{"train_loss": 0.02914290875196457, "train_loss_bc": 0.005286390893161297, "train_loss_llm": 0.23856517672538757, "grad_norm": 0.11889426410198212, "global_step": 1005, "epoch": 4, "lr": 0.009999625353381806}
+{"train_loss": 0.022488249465823174, "train_loss_bc": 0.006125831976532936, "train_loss_llm": 0.16362416744232178, "grad_norm": 0.15904423594474792, "global_step": 1006, "epoch": 4, "lr": 0.009999625353381806}
+{"train_loss": 0.030975129455327988, "train_loss_bc": 0.007126642391085625, "train_loss_llm": 0.23848485946655273, "grad_norm": 0.20089873671531677, "global_step": 1007, "epoch": 4, "lr": 0.009999625353381806}
+{"train_loss": 0.022381681948900223, "train_loss_bc": 0.0038162022829055786, "train_loss_llm": 0.18565478920936584, "grad_norm": 0.24919356405735016, "global_step": 1008, "epoch": 4, "lr": 0.009999618866197428}
+{"train_loss": 0.03836924955248833, "train_loss_bc": 0.008810551837086678, "train_loss_llm": 0.2955869734287262, "grad_norm": 0.18820293247699738, "global_step": 1009, "epoch": 4, "lr": 0.009999618866197428}
+{"train_loss": 0.02005617320537567, "train_loss_bc": 0.005760457366704941, "train_loss_llm": 0.1429571509361267, "grad_norm": 0.21604546904563904, "global_step": 1010, "epoch": 4, "lr": 0.009999618866197428}
+{"train_loss": 0.03261696547269821, "train_loss_bc": 0.003907991573214531, "train_loss_llm": 0.2870897352695465, "grad_norm": 0.22127430140972137, "global_step": 1011, "epoch": 4, "lr": 0.009999618866197428}
+{"train_loss": 0.03165567293763161, "train_loss_bc": 0.004990811925381422, "train_loss_llm": 0.26664862036705017, "grad_norm": 0.23383378982543945, "global_step": 1012, "epoch": 4, "lr": 0.009999618866197428}
+{"train_loss": 0.030284518375992775, "train_loss_bc": 0.006862174719572067, "train_loss_llm": 0.23422342538833618, "grad_norm": 0.3149716556072235, "global_step": 1013, "epoch": 4, "lr": 0.009999618866197428}
+{"train_loss": 0.02616874687373638, "train_loss_bc": 0.005701282527297735, "train_loss_llm": 0.204674631357193, "grad_norm": 0.24639782309532166, "global_step": 1014, "epoch": 4, "lr": 0.009999618866197428}
+{"train_loss": 0.030069749802350998, "train_loss_bc": 0.004839864559471607, "train_loss_llm": 0.25229886174201965, "grad_norm": 0.24843284487724304, "global_step": 1015, "epoch": 4, "lr": 0.009999618866197428}
+{"train_loss": 0.02454356476664543, "train_loss_bc": 0.0051872809417545795, "train_loss_llm": 0.1935628354549408, "grad_norm": 0.4071904718875885, "global_step": 1016, "epoch": 4, "lr": 0.009999612323331904}
+{"train_loss": 0.025146491825580597, "train_loss_bc": 0.008727140724658966, "train_loss_llm": 0.1641935110092163, "grad_norm": 0.054797764867544174, "global_step": 1017, "epoch": 4, "lr": 0.009999612323331904}
+{"train_loss": 0.02415393479168415, "train_loss_bc": 0.006531890481710434, "train_loss_llm": 0.17622044682502747, "grad_norm": 0.0977599248290062, "global_step": 1018, "epoch": 4, "lr": 0.009999612323331904}
+{"train_loss": 0.02435395121574402, "train_loss_bc": 0.007390002254396677, "train_loss_llm": 0.1696394979953766, "grad_norm": 0.08287147432565689, "global_step": 1019, "epoch": 4, "lr": 0.009999612323331904}
+{"train_loss": 0.024744022637605667, "train_loss_bc": 0.00801446009427309, "train_loss_llm": 0.16729560494422913, "grad_norm": 0.2125384360551834, "global_step": 1020, "epoch": 4, "lr": 0.009999612323331904}
+{"train_loss": 0.025065548717975616, "train_loss_bc": 0.0073654530569911, "train_loss_llm": 0.17700093984603882, "grad_norm": 0.27809756994247437, "global_step": 1021, "epoch": 4, "lr": 0.009999612323331904}
+{"train_loss": 0.02408602274954319, "train_loss_bc": 0.0047840215265750885, "train_loss_llm": 0.1930200159549713, "grad_norm": 0.26486554741859436, "global_step": 1022, "epoch": 4, "lr": 0.009999612323331904}
+{"train_loss": 0.03004434145987034, "train_loss_bc": 0.00902455672621727, "train_loss_llm": 0.2101978361606598, "grad_norm": 0.28459301590919495, "global_step": 1023, "epoch": 4, "lr": 0.009999612323331904}
+{"train_loss": 0.030046280473470688, "train_loss_bc": 0.008626689203083515, "train_loss_llm": 0.21419590711593628, "grad_norm": 0.3188168704509735, "global_step": 1024, "epoch": 4, "lr": 0.009999605724785308}
+{"train_loss": 0.029218262061476707, "train_loss_bc": 0.007277690339833498, "train_loss_llm": 0.21940571069717407, "grad_norm": 0.10872653126716614, "global_step": 1025, "epoch": 4, "lr": 0.009999605724785308}
+{"train_loss": 0.031498610973358154, "train_loss_bc": 0.007649017497897148, "train_loss_llm": 0.23849591612815857, "grad_norm": 0.13293029367923737, "global_step": 1026, "epoch": 4, "lr": 0.009999605724785308}
+{"train_loss": 0.02217104472219944, "train_loss_bc": 0.0070388237945735455, "train_loss_llm": 0.15132221579551697, "grad_norm": 0.2033335119485855, "global_step": 1027, "epoch": 4, "lr": 0.009999605724785308}
+{"train_loss": 0.022031284868717194, "train_loss_bc": 0.007402538321912289, "train_loss_llm": 0.1462874710559845, "grad_norm": 0.2709740102291107, "global_step": 1028, "epoch": 4, "lr": 0.009999605724785308}
+{"train_loss": 0.029890045523643494, "train_loss_bc": 0.01506655104458332, "train_loss_llm": 0.14823493361473083, "grad_norm": 0.35188210010528564, "global_step": 1029, "epoch": 4, "lr": 0.009999605724785308}
+{"train_loss": 0.03126861900091171, "train_loss_bc": 0.008627817966043949, "train_loss_llm": 0.2264080047607422, "grad_norm": 0.4595564603805542, "global_step": 1030, "epoch": 4, "lr": 0.009999605724785308}
+{"train_loss": 0.026869475841522217, "train_loss_bc": 0.00643391627818346, "train_loss_llm": 0.20435559749603271, "grad_norm": 0.5531034469604492, "global_step": 1031, "epoch": 4, "lr": 0.009999605724785308}
+{"train_loss": 0.031773146241903305, "train_loss_bc": 0.009644819423556328, "train_loss_llm": 0.22128325700759888, "grad_norm": 0.6496332883834839, "global_step": 1032, "epoch": 4, "lr": 0.009999599070557714}
+{"train_loss": 0.03495977073907852, "train_loss_bc": 0.0073435683734714985, "train_loss_llm": 0.2761620283126831, "grad_norm": 0.04995933920145035, "global_step": 1033, "epoch": 4, "lr": 0.009999599070557714}
+{"train_loss": 0.024478163570165634, "train_loss_bc": 0.008512849919497967, "train_loss_llm": 0.15965312719345093, "grad_norm": 0.11316396296024323, "global_step": 1034, "epoch": 4, "lr": 0.009999599070557714}
+{"train_loss": 0.027244655415415764, "train_loss_bc": 0.009150430560112, "train_loss_llm": 0.18094223737716675, "grad_norm": 0.14124949276447296, "global_step": 1035, "epoch": 4, "lr": 0.009999599070557714}
+{"train_loss": 0.022731143981218338, "train_loss_bc": 0.005174074787646532, "train_loss_llm": 0.17557069659233093, "grad_norm": 0.35221773386001587, "global_step": 1036, "epoch": 4, "lr": 0.009999599070557714}
+{"train_loss": 0.02954275533556938, "train_loss_bc": 0.010261338204145432, "train_loss_llm": 0.1928141713142395, "grad_norm": 0.4084194600582123, "global_step": 1037, "epoch": 4, "lr": 0.009999599070557714}
+{"train_loss": 0.027748137712478638, "train_loss_bc": 0.007869253866374493, "train_loss_llm": 0.1987888216972351, "grad_norm": 0.46738627552986145, "global_step": 1038, "epoch": 4, "lr": 0.009999599070557714}
+{"train_loss": 0.03081473708152771, "train_loss_bc": 0.007550898008048534, "train_loss_llm": 0.2326383888721466, "grad_norm": 0.5760955214500427, "global_step": 1039, "epoch": 4, "lr": 0.009999599070557714}
+{"train_loss": 0.02984911948442459, "train_loss_bc": 0.006076414603739977, "train_loss_llm": 0.23772704601287842, "grad_norm": 0.6677519679069519, "global_step": 1040, "epoch": 4, "lr": 0.009999592360649196}
+{"train_loss": 0.03149082511663437, "train_loss_bc": 0.006174871698021889, "train_loss_llm": 0.2531595528125763, "grad_norm": 0.041807059198617935, "global_step": 1041, "epoch": 4, "lr": 0.009999592360649196}
+{"train_loss": 0.02806726098060608, "train_loss_bc": 0.007340284064412117, "train_loss_llm": 0.20726975798606873, "grad_norm": 0.14918798208236694, "global_step": 1042, "epoch": 4, "lr": 0.009999592360649196}
+{"train_loss": 0.02248893678188324, "train_loss_bc": 0.006554781459271908, "train_loss_llm": 0.15934154391288757, "grad_norm": 0.142742320895195, "global_step": 1043, "epoch": 4, "lr": 0.009999592360649196}
+{"train_loss": 0.035377539694309235, "train_loss_bc": 0.00840095616877079, "train_loss_llm": 0.26976582407951355, "grad_norm": 0.175031840801239, "global_step": 1044, "epoch": 4, "lr": 0.009999592360649196}
+{"train_loss": 0.02426868863403797, "train_loss_bc": 0.007083397824317217, "train_loss_llm": 0.17185291647911072, "grad_norm": 0.23583821952342987, "global_step": 1045, "epoch": 4, "lr": 0.009999592360649196}
+{"train_loss": 0.0281686969101429, "train_loss_bc": 0.007914573885500431, "train_loss_llm": 0.20254123210906982, "grad_norm": 0.27272650599479675, "global_step": 1046, "epoch": 4, "lr": 0.009999592360649196}
+{"train_loss": 0.028683219105005264, "train_loss_bc": 0.00923258438706398, "train_loss_llm": 0.19450634717941284, "grad_norm": 0.3459843397140503, "global_step": 1047, "epoch": 4, "lr": 0.009999592360649196}
+{"train_loss": 0.019063537940382957, "train_loss_bc": 0.006041232030838728, "train_loss_llm": 0.13022306561470032, "grad_norm": 0.38786643743515015, "global_step": 1048, "epoch": 4, "lr": 0.009999585595059831}
+{"train_loss": 0.02500101551413536, "train_loss_bc": 0.0063935574144124985, "train_loss_llm": 0.18607458472251892, "grad_norm": 0.06943246722221375, "global_step": 1049, "epoch": 4, "lr": 0.009999585595059831}
+{"train_loss": 0.02780427783727646, "train_loss_bc": 0.004765260964632034, "train_loss_llm": 0.23039016127586365, "grad_norm": 0.21091774106025696, "global_step": 1050, "epoch": 4, "lr": 0.009999585595059831}
+{"train_loss": 0.028053585439920425, "train_loss_bc": 0.0043191080912947655, "train_loss_llm": 0.23734477162361145, "grad_norm": 0.3088167905807495, "global_step": 1051, "epoch": 4, "lr": 0.009999585595059831}
+{"train_loss": 0.031070686876773834, "train_loss_bc": 0.006603476591408253, "train_loss_llm": 0.24467208981513977, "grad_norm": 0.36184000968933105, "global_step": 1052, "epoch": 4, "lr": 0.009999585595059831}
+{"train_loss": 0.021251074969768524, "train_loss_bc": 0.004382970277220011, "train_loss_llm": 0.1686810553073883, "grad_norm": 0.5133244395256042, "global_step": 1053, "epoch": 4, "lr": 0.009999585595059831}
+{"train_loss": 0.025202013552188873, "train_loss_bc": 0.004700834397226572, "train_loss_llm": 0.205011785030365, "grad_norm": 0.6314575672149658, "global_step": 1054, "epoch": 4, "lr": 0.009999585595059831}
+{"train_loss": 0.022296858951449394, "train_loss_bc": 0.0049390122294425964, "train_loss_llm": 0.17357847094535828, "grad_norm": 0.6624610424041748, "global_step": 1055, "epoch": 4, "lr": 0.009999585595059831}
+{"train_loss": 0.025439666584134102, "train_loss_bc": 0.005412848200649023, "train_loss_llm": 0.20026817917823792, "grad_norm": 0.8153612613677979, "global_step": 1056, "epoch": 4, "lr": 0.009999578773789692}
+{"train_loss": 0.02520664781332016, "train_loss_bc": 0.006088423542678356, "train_loss_llm": 0.19118225574493408, "grad_norm": 0.1103399246931076, "global_step": 1057, "epoch": 4, "lr": 0.009999578773789692}
+{"train_loss": 0.019922349601984024, "train_loss_bc": 0.005404448136687279, "train_loss_llm": 0.14517900347709656, "grad_norm": 0.22345194220542908, "global_step": 1058, "epoch": 4, "lr": 0.009999578773789692}
+{"train_loss": 0.024997064843773842, "train_loss_bc": 0.00563148595392704, "train_loss_llm": 0.19365578889846802, "grad_norm": 0.3385345935821533, "global_step": 1059, "epoch": 4, "lr": 0.009999578773789692}
+{"train_loss": 0.02797684073448181, "train_loss_bc": 0.006502250675112009, "train_loss_llm": 0.2147459089756012, "grad_norm": 0.3911857604980469, "global_step": 1060, "epoch": 4, "lr": 0.009999578773789692}
+{"train_loss": 0.021934766322374344, "train_loss_bc": 0.00430847704410553, "train_loss_llm": 0.17626288533210754, "grad_norm": 0.4692798852920532, "global_step": 1061, "epoch": 4, "lr": 0.009999578773789692}
+{"train_loss": 0.018862996250391006, "train_loss_bc": 0.004196775611490011, "train_loss_llm": 0.14666220545768738, "grad_norm": 0.5987958908081055, "global_step": 1062, "epoch": 4, "lr": 0.009999578773789692}
+{"train_loss": 0.02506953477859497, "train_loss_bc": 0.004462272860109806, "train_loss_llm": 0.2060726284980774, "grad_norm": 0.6920002698898315, "global_step": 1063, "epoch": 4, "lr": 0.009999578773789692}
+{"train_loss": 0.023561052978038788, "train_loss_bc": 0.006563479080796242, "train_loss_llm": 0.16997572779655457, "grad_norm": 0.7291799187660217, "global_step": 1064, "epoch": 4, "lr": 0.009999571896838855}
+{"train_loss": 0.036454640328884125, "train_loss_bc": 0.008583059534430504, "train_loss_llm": 0.2787157893180847, "grad_norm": 0.04068170487880707, "global_step": 1065, "epoch": 4, "lr": 0.009999571896838855}
+{"train_loss": 0.017455007880926132, "train_loss_bc": 0.004609537310898304, "train_loss_llm": 0.12845471501350403, "grad_norm": 0.09805640578269958, "global_step": 1066, "epoch": 4, "lr": 0.009999571896838855}
+{"train_loss": 0.018731513991951942, "train_loss_bc": 0.0047578392550349236, "train_loss_llm": 0.13973674178123474, "grad_norm": 0.1422574371099472, "global_step": 1067, "epoch": 4, "lr": 0.009999571896838855}
+{"train_loss": 0.020350893959403038, "train_loss_bc": 0.006730988156050444, "train_loss_llm": 0.13619905710220337, "grad_norm": 0.1667850911617279, "global_step": 1068, "epoch": 4, "lr": 0.009999571896838855}
+{"train_loss": 0.024838723242282867, "train_loss_bc": 0.00648562703281641, "train_loss_llm": 0.18353095650672913, "grad_norm": 0.2955447733402252, "global_step": 1069, "epoch": 4, "lr": 0.009999571896838855}
+{"train_loss": 0.022099021822214127, "train_loss_bc": 0.0063071297481656075, "train_loss_llm": 0.15791893005371094, "grad_norm": 0.36895477771759033, "global_step": 1070, "epoch": 4, "lr": 0.009999571896838855}
+{"train_loss": 0.031651340425014496, "train_loss_bc": 0.006839536130428314, "train_loss_llm": 0.24811801314353943, "grad_norm": 0.45147621631622314, "global_step": 1071, "epoch": 4, "lr": 0.009999571896838855}
+{"train_loss": 0.030633103102445602, "train_loss_bc": 0.0073996493592858315, "train_loss_llm": 0.23233452439308167, "grad_norm": 0.5154620409011841, "global_step": 1072, "epoch": 4, "lr": 0.009999564964207395}
+{"train_loss": 0.021900448948144913, "train_loss_bc": 0.005965551361441612, "train_loss_llm": 0.1593489646911621, "grad_norm": 0.06625338643789291, "global_step": 1073, "epoch": 4, "lr": 0.009999564964207395}
+{"train_loss": 0.020470622926950455, "train_loss_bc": 0.0054923612624406815, "train_loss_llm": 0.14978262782096863, "grad_norm": 0.13106784224510193, "global_step": 1074, "epoch": 4, "lr": 0.009999564964207395}
+{"train_loss": 0.026021748781204224, "train_loss_bc": 0.005465543828904629, "train_loss_llm": 0.2055620551109314, "grad_norm": 0.16512586176395416, "global_step": 1075, "epoch": 4, "lr": 0.009999564964207395}
+{"train_loss": 0.019915074110031128, "train_loss_bc": 0.003680423367768526, "train_loss_llm": 0.1623465120792389, "grad_norm": 0.18482375144958496, "global_step": 1076, "epoch": 4, "lr": 0.009999564964207395}
+{"train_loss": 0.03034798428416252, "train_loss_bc": 0.009728668257594109, "train_loss_llm": 0.20619314908981323, "grad_norm": 0.1893635392189026, "global_step": 1077, "epoch": 4, "lr": 0.009999564964207395}
+{"train_loss": 0.018563833087682724, "train_loss_bc": 0.004305344074964523, "train_loss_llm": 0.142584890127182, "grad_norm": 0.27502119541168213, "global_step": 1078, "epoch": 4, "lr": 0.009999564964207395}
+{"train_loss": 0.02971767634153366, "train_loss_bc": 0.009103814139962196, "train_loss_llm": 0.20613861083984375, "grad_norm": 0.3504181206226349, "global_step": 1079, "epoch": 4, "lr": 0.009999564964207395}
+{"train_loss": 0.024858791381120682, "train_loss_bc": 0.0093673812225461, "train_loss_llm": 0.15491411089897156, "grad_norm": 0.3576798439025879, "global_step": 1080, "epoch": 4, "lr": 0.009999557975895393}
+{"train_loss": 0.021596670150756836, "train_loss_bc": 0.003494108561426401, "train_loss_llm": 0.18102562427520752, "grad_norm": 0.0747775062918663, "global_step": 1081, "epoch": 4, "lr": 0.009999557975895393}
+{"train_loss": 0.016305185854434967, "train_loss_bc": 0.005391486920416355, "train_loss_llm": 0.10913699865341187, "grad_norm": 0.04519687220454216, "global_step": 1082, "epoch": 4, "lr": 0.009999557975895393}
+{"train_loss": 0.018096838146448135, "train_loss_bc": 0.0055251168087124825, "train_loss_llm": 0.12571722269058228, "grad_norm": 0.060728371143341064, "global_step": 1083, "epoch": 4, "lr": 0.009999557975895393}
+{"train_loss": 0.021391499787569046, "train_loss_bc": 0.004993144888430834, "train_loss_llm": 0.163983553647995, "grad_norm": 0.1143936812877655, "global_step": 1084, "epoch": 4, "lr": 0.009999557975895393}
+{"train_loss": 0.019893299788236618, "train_loss_bc": 0.006565014831721783, "train_loss_llm": 0.1332828402519226, "grad_norm": 0.17369133234024048, "global_step": 1085, "epoch": 4, "lr": 0.009999557975895393}
+{"train_loss": 0.030824972316622734, "train_loss_bc": 0.010160118341445923, "train_loss_llm": 0.20664852857589722, "grad_norm": 0.3015434741973877, "global_step": 1086, "epoch": 4, "lr": 0.009999557975895393}
+{"train_loss": 0.023246679455041885, "train_loss_bc": 0.005017868243157864, "train_loss_llm": 0.18228811025619507, "grad_norm": 0.3013858199119568, "global_step": 1087, "epoch": 4, "lr": 0.009999557975895393}
+{"train_loss": 0.02295520529150963, "train_loss_bc": 0.006191783584654331, "train_loss_llm": 0.16763421893119812, "grad_norm": 0.3311323821544647, "global_step": 1088, "epoch": 4, "lr": 0.009999550931902926}
+{"train_loss": 0.03288288787007332, "train_loss_bc": 0.009648475795984268, "train_loss_llm": 0.2323441207408905, "grad_norm": 0.07069266587495804, "global_step": 1089, "epoch": 4, "lr": 0.009999550931902926}
+{"train_loss": 0.023449435830116272, "train_loss_bc": 0.004899343475699425, "train_loss_llm": 0.18550091981887817, "grad_norm": 0.20089761912822723, "global_step": 1090, "epoch": 4, "lr": 0.009999550931902926}
+{"train_loss": 0.02074218913912773, "train_loss_bc": 0.004314409103244543, "train_loss_llm": 0.1642777919769287, "grad_norm": 0.39103108644485474, "global_step": 1091, "epoch": 4, "lr": 0.009999550931902926}
+{"train_loss": 0.025541845709085464, "train_loss_bc": 0.008799602277576923, "train_loss_llm": 0.16742241382598877, "grad_norm": 0.49421611428260803, "global_step": 1092, "epoch": 4, "lr": 0.009999550931902926}
+{"train_loss": 0.02344672754406929, "train_loss_bc": 0.0058051105588674545, "train_loss_llm": 0.17641615867614746, "grad_norm": 0.5022051334381104, "global_step": 1093, "epoch": 4, "lr": 0.009999550931902926}
+{"train_loss": 0.020021146163344383, "train_loss_bc": 0.0041679199784994125, "train_loss_llm": 0.1585322618484497, "grad_norm": 0.5443022847175598, "global_step": 1094, "epoch": 4, "lr": 0.009999550931902926}
+{"train_loss": 0.02101026102900505, "train_loss_bc": 0.005914597772061825, "train_loss_llm": 0.1509566307067871, "grad_norm": 0.5831027030944824, "global_step": 1095, "epoch": 4, "lr": 0.009999550931902926}
+{"train_loss": 0.028097646310925484, "train_loss_bc": 0.00570235401391983, "train_loss_llm": 0.22395291924476624, "grad_norm": 0.7203677296638489, "global_step": 1096, "epoch": 4, "lr": 0.00999954383223007}
+{"train_loss": 0.02804146520793438, "train_loss_bc": 0.006466932129114866, "train_loss_llm": 0.21574532985687256, "grad_norm": 0.16246870160102844, "global_step": 1097, "epoch": 4, "lr": 0.00999954383223007}
+{"train_loss": 0.026838988065719604, "train_loss_bc": 0.0072473278269171715, "train_loss_llm": 0.19591659307479858, "grad_norm": 0.25620466470718384, "global_step": 1098, "epoch": 4, "lr": 0.00999954383223007}
+{"train_loss": 0.026861414313316345, "train_loss_bc": 0.005720079876482487, "train_loss_llm": 0.21141335368156433, "grad_norm": 0.4079356789588928, "global_step": 1099, "epoch": 4, "lr": 0.00999954383223007}
+{"train_loss": 0.023523002862930298, "train_loss_bc": 0.004904524423182011, "train_loss_llm": 0.18618479371070862, "grad_norm": 0.540420651435852, "global_step": 1100, "epoch": 4, "lr": 0.00999954383223007}
+{"train_loss": 0.028248410671949387, "train_loss_bc": 0.006707645952701569, "train_loss_llm": 0.21540763974189758, "grad_norm": 0.668582022190094, "global_step": 1101, "epoch": 4, "lr": 0.00999954383223007}
+{"train_loss": 0.03282751142978668, "train_loss_bc": 0.0065815020352602005, "train_loss_llm": 0.2624601125717163, "grad_norm": 0.7757611870765686, "global_step": 1102, "epoch": 4, "lr": 0.00999954383223007}
+{"train_loss": 0.025384996086359024, "train_loss_bc": 0.008098626509308815, "train_loss_llm": 0.1728636920452118, "grad_norm": 0.8862085938453674, "global_step": 1103, "epoch": 4, "lr": 0.00999954383223007}
+{"train_loss": 0.04477379098534584, "train_loss_bc": 0.013693218119442463, "train_loss_llm": 0.31080570816993713, "grad_norm": 1.0348668098449707, "global_step": 1104, "epoch": 4, "lr": 0.009999536676876905}
+{"train_loss": 0.02411438338458538, "train_loss_bc": 0.004023462068289518, "train_loss_llm": 0.20090919733047485, "grad_norm": 0.09384354948997498, "global_step": 1105, "epoch": 4, "lr": 0.009999536676876905}
+{"train_loss": 0.026590239256620407, "train_loss_bc": 0.006321168504655361, "train_loss_llm": 0.2026907205581665, "grad_norm": 0.2377833127975464, "global_step": 1106, "epoch": 4, "lr": 0.009999536676876905}
+{"train_loss": 0.033593982458114624, "train_loss_bc": 0.011896608397364616, "train_loss_llm": 0.21697372198104858, "grad_norm": 0.26955369114875793, "global_step": 1107, "epoch": 4, "lr": 0.009999536676876905}
+{"train_loss": 0.03554128110408783, "train_loss_bc": 0.008673371747136116, "train_loss_llm": 0.26867908239364624, "grad_norm": 0.39068010449409485, "global_step": 1108, "epoch": 4, "lr": 0.009999536676876905}
+{"train_loss": 0.02687652036547661, "train_loss_bc": 0.008486284874379635, "train_loss_llm": 0.18390235304832458, "grad_norm": 0.5440251231193542, "global_step": 1109, "epoch": 4, "lr": 0.009999536676876905}
+{"train_loss": 0.02620639279484749, "train_loss_bc": 0.007234534714370966, "train_loss_llm": 0.1897185742855072, "grad_norm": 0.6334505081176758, "global_step": 1110, "epoch": 4, "lr": 0.009999536676876905}
+{"train_loss": 0.02710643969476223, "train_loss_bc": 0.007030181586742401, "train_loss_llm": 0.2007625699043274, "grad_norm": 0.7331061959266663, "global_step": 1111, "epoch": 4, "lr": 0.009999536676876905}
+{"train_loss": 0.03122662380337715, "train_loss_bc": 0.008076057769358158, "train_loss_llm": 0.23150566220283508, "grad_norm": 0.8204926252365112, "global_step": 1112, "epoch": 4, "lr": 0.009999529465843511}
+{"train_loss": 0.019724592566490173, "train_loss_bc": 0.004969901405274868, "train_loss_llm": 0.1475469172000885, "grad_norm": 0.08135992288589478, "global_step": 1113, "epoch": 4, "lr": 0.009999529465843511}
+{"train_loss": 0.015506410971283913, "train_loss_bc": 0.00491702277213335, "train_loss_llm": 0.10589388012886047, "grad_norm": 0.13459965586662292, "global_step": 1114, "epoch": 4, "lr": 0.009999529465843511}
+{"train_loss": 0.027949973940849304, "train_loss_bc": 0.008796335197985172, "train_loss_llm": 0.19153639674186707, "grad_norm": 0.20000238716602325, "global_step": 1115, "epoch": 4, "lr": 0.009999529465843511}
+{"train_loss": 0.023442961275577545, "train_loss_bc": 0.006674492731690407, "train_loss_llm": 0.1676846742630005, "grad_norm": 0.2510627806186676, "global_step": 1116, "epoch": 4, "lr": 0.009999529465843511}
+{"train_loss": 0.02035190723836422, "train_loss_bc": 0.006412970367819071, "train_loss_llm": 0.13938936591148376, "grad_norm": 0.30032843351364136, "global_step": 1117, "epoch": 4, "lr": 0.009999529465843511}
+{"train_loss": 0.022820577025413513, "train_loss_bc": 0.007372867316007614, "train_loss_llm": 0.1544770896434784, "grad_norm": 0.3827148377895355, "global_step": 1118, "epoch": 4, "lr": 0.009999529465843511}
+{"train_loss": 0.01981109380722046, "train_loss_bc": 0.0048262570053339005, "train_loss_llm": 0.14984837174415588, "grad_norm": 0.43989187479019165, "global_step": 1119, "epoch": 4, "lr": 0.009999529465843511}
+{"train_loss": 0.021385716274380684, "train_loss_bc": 0.007306311745196581, "train_loss_llm": 0.140794038772583, "grad_norm": 0.5709956884384155, "global_step": 1120, "epoch": 4, "lr": 0.00999952219912997}
+{"train_loss": 0.022369861602783203, "train_loss_bc": 0.00494454987347126, "train_loss_llm": 0.17425310611724854, "grad_norm": 0.15262353420257568, "global_step": 1121, "epoch": 4, "lr": 0.00999952219912997}
+{"train_loss": 0.022495632991194725, "train_loss_bc": 0.005975380539894104, "train_loss_llm": 0.1652025282382965, "grad_norm": 0.26836544275283813, "global_step": 1122, "epoch": 4, "lr": 0.00999952219912997}
+{"train_loss": 0.024741927161812782, "train_loss_bc": 0.004691024776548147, "train_loss_llm": 0.20050901174545288, "grad_norm": 0.3492668569087982, "global_step": 1123, "epoch": 4, "lr": 0.00999952219912997}
+{"train_loss": 0.021995706483721733, "train_loss_bc": 0.005299464333802462, "train_loss_llm": 0.1669624149799347, "grad_norm": 0.44553446769714355, "global_step": 1124, "epoch": 4, "lr": 0.00999952219912997}
+{"train_loss": 0.023167168721556664, "train_loss_bc": 0.006267698481678963, "train_loss_llm": 0.1689946949481964, "grad_norm": 0.5199655294418335, "global_step": 1125, "epoch": 4, "lr": 0.00999952219912997}
+{"train_loss": 0.03359013423323631, "train_loss_bc": 0.006704057566821575, "train_loss_llm": 0.26886075735092163, "grad_norm": 0.7310213446617126, "global_step": 1126, "epoch": 4, "lr": 0.00999952219912997}
+{"train_loss": 0.033648621290922165, "train_loss_bc": 0.0122652817517519, "train_loss_llm": 0.21383339166641235, "grad_norm": 0.8676121234893799, "global_step": 1127, "epoch": 4, "lr": 0.00999952219912997}
+{"train_loss": 0.021452168002724648, "train_loss_bc": 0.005801767110824585, "train_loss_llm": 0.15650400519371033, "grad_norm": 1.0877177715301514, "global_step": 1128, "epoch": 4, "lr": 0.00999951487673636}
+{"train_loss": 0.032387055456638336, "train_loss_bc": 0.006030670367181301, "train_loss_llm": 0.2635638415813446, "grad_norm": 0.07566328346729279, "global_step": 1129, "epoch": 4, "lr": 0.00999951487673636}
+{"train_loss": 0.03950507193803787, "train_loss_bc": 0.010408753529191017, "train_loss_llm": 0.29096320271492004, "grad_norm": 0.1901712715625763, "global_step": 1130, "epoch": 4, "lr": 0.00999951487673636}
+{"train_loss": 0.04136836528778076, "train_loss_bc": 0.01596265658736229, "train_loss_llm": 0.2540570795536041, "grad_norm": 0.30474767088890076, "global_step": 1131, "epoch": 4, "lr": 0.00999951487673636}
+{"train_loss": 0.031478751450777054, "train_loss_bc": 0.007029776461422443, "train_loss_llm": 0.24448972940444946, "grad_norm": 0.34339234232902527, "global_step": 1132, "epoch": 4, "lr": 0.00999951487673636}
+{"train_loss": 0.03488733991980553, "train_loss_bc": 0.01405908353626728, "train_loss_llm": 0.20828256011009216, "grad_norm": 0.4465446472167969, "global_step": 1133, "epoch": 4, "lr": 0.00999951487673636}
+{"train_loss": 0.03159322217106819, "train_loss_bc": 0.006038093939423561, "train_loss_llm": 0.255551278591156, "grad_norm": 0.6136757135391235, "global_step": 1134, "epoch": 4, "lr": 0.00999951487673636}
+{"train_loss": 0.042436424642801285, "train_loss_bc": 0.00966966524720192, "train_loss_llm": 0.32766759395599365, "grad_norm": 0.7169814705848694, "global_step": 1135, "epoch": 4, "lr": 0.00999951487673636}
+{"train_loss": 0.03146597743034363, "train_loss_bc": 0.0058105383068323135, "train_loss_llm": 0.25655439496040344, "grad_norm": 0.7508198618888855, "global_step": 1136, "epoch": 4, "lr": 0.009999507498662765}
+{"train_loss": 0.02445543184876442, "train_loss_bc": 0.006919148378074169, "train_loss_llm": 0.17536282539367676, "grad_norm": 0.08158764988183975, "global_step": 1137, "epoch": 4, "lr": 0.009999507498662765}
+{"train_loss": 0.025845138356089592, "train_loss_bc": 0.00578470341861248, "train_loss_llm": 0.20060434937477112, "grad_norm": 0.20961003005504608, "global_step": 1138, "epoch": 4, "lr": 0.009999507498662765}
+{"train_loss": 0.02864973247051239, "train_loss_bc": 0.005015910603106022, "train_loss_llm": 0.23633822798728943, "grad_norm": 0.3788878917694092, "global_step": 1139, "epoch": 4, "lr": 0.009999507498662765}
+{"train_loss": 0.018834833055734634, "train_loss_bc": 0.005899278447031975, "train_loss_llm": 0.1293555498123169, "grad_norm": 0.4870581328868866, "global_step": 1140, "epoch": 4, "lr": 0.009999507498662765}
+{"train_loss": 0.02281416580080986, "train_loss_bc": 0.005671909544616938, "train_loss_llm": 0.1714225709438324, "grad_norm": 0.5686070919036865, "global_step": 1141, "epoch": 4, "lr": 0.009999507498662765}
+{"train_loss": 0.024720050394535065, "train_loss_bc": 0.0045392680913209915, "train_loss_llm": 0.20180782675743103, "grad_norm": 0.7137705683708191, "global_step": 1142, "epoch": 4, "lr": 0.009999507498662765}
+{"train_loss": 0.029561568051576614, "train_loss_bc": 0.005735126323997974, "train_loss_llm": 0.23826441168785095, "grad_norm": 0.8666343688964844, "global_step": 1143, "epoch": 4, "lr": 0.009999507498662765}
+{"train_loss": 0.023752562701702118, "train_loss_bc": 0.006523344665765762, "train_loss_llm": 0.17229217290878296, "grad_norm": 1.067635416984558, "global_step": 1144, "epoch": 4, "lr": 0.009999500064909265}
+{"train_loss": 0.02071480266749859, "train_loss_bc": 0.004644100088626146, "train_loss_llm": 0.160707026720047, "grad_norm": 0.1269546002149582, "global_step": 1145, "epoch": 4, "lr": 0.009999500064909265}
+{"train_loss": 0.019639698788523674, "train_loss_bc": 0.003343448508530855, "train_loss_llm": 0.16296249628067017, "grad_norm": 0.1864740401506424, "global_step": 1146, "epoch": 4, "lr": 0.009999500064909265}
+{"train_loss": 0.030291669070720673, "train_loss_bc": 0.006206789519637823, "train_loss_llm": 0.24084877967834473, "grad_norm": 0.20770327746868134, "global_step": 1147, "epoch": 4, "lr": 0.009999500064909265}
+{"train_loss": 0.016835974529385567, "train_loss_bc": 0.005415911786258221, "train_loss_llm": 0.11420062184333801, "grad_norm": 0.20501911640167236, "global_step": 1148, "epoch": 4, "lr": 0.009999500064909265}
+{"train_loss": 0.025899633765220642, "train_loss_bc": 0.006658234633505344, "train_loss_llm": 0.19241398572921753, "grad_norm": 0.3314042091369629, "global_step": 1149, "epoch": 4, "lr": 0.009999500064909265}
+{"train_loss": 0.015525776892900467, "train_loss_bc": 0.003108296077698469, "train_loss_llm": 0.1241748034954071, "grad_norm": 0.43714988231658936, "global_step": 1150, "epoch": 4, "lr": 0.009999500064909265}
+{"train_loss": 0.020272403955459595, "train_loss_bc": 0.0072152940556406975, "train_loss_llm": 0.13057109713554382, "grad_norm": 0.4769664704799652, "global_step": 1151, "epoch": 4, "lr": 0.009999500064909265}
+{"train_loss": 0.01890857145190239, "train_loss_bc": 0.0061156004667282104, "train_loss_llm": 0.1279297173023224, "grad_norm": 0.46446168422698975, "global_step": 1152, "epoch": 4, "lr": 0.009999492575475943}
+{"train_loss": 0.04204235225915909, "train_loss_bc": 0.007926670834422112, "train_loss_llm": 0.34115684032440186, "grad_norm": 0.3255661725997925, "global_step": 1153, "epoch": 4, "lr": 0.009999492575475943}
+{"train_loss": 0.03778500109910965, "train_loss_bc": 0.006933125201612711, "train_loss_llm": 0.30851873755455017, "grad_norm": 0.6095998287200928, "global_step": 1154, "epoch": 4, "lr": 0.009999492575475943}
+{"train_loss": 0.04051939398050308, "train_loss_bc": 0.006408748682588339, "train_loss_llm": 0.34110647439956665, "grad_norm": 0.7819658517837524, "global_step": 1155, "epoch": 4, "lr": 0.009999492575475943}
+{"train_loss": 0.030697867274284363, "train_loss_bc": 0.0033302856609225273, "train_loss_llm": 0.2736758291721344, "grad_norm": 1.0740694999694824, "global_step": 1156, "epoch": 4, "lr": 0.009999492575475943}
+{"train_loss": 0.039144791662693024, "train_loss_bc": 0.007974477484822273, "train_loss_llm": 0.3117031455039978, "grad_norm": 1.309144377708435, "global_step": 1157, "epoch": 4, "lr": 0.009999492575475943}
+{"train_loss": 0.030366716906428337, "train_loss_bc": 0.007943147793412209, "train_loss_llm": 0.2242356836795807, "grad_norm": 1.5127921104431152, "global_step": 1158, "epoch": 4, "lr": 0.009999492575475943}
+{"train_loss": 0.035753440111875534, "train_loss_bc": 0.006228582933545113, "train_loss_llm": 0.2952485680580139, "grad_norm": 1.8119611740112305, "global_step": 1159, "epoch": 4, "lr": 0.009999492575475943}
+{"train_loss": 0.05174904316663742, "train_loss_bc": 0.013744477182626724, "train_loss_llm": 0.38004565238952637, "grad_norm": 2.1010148525238037, "global_step": 1160, "epoch": 4, "lr": 0.009999485030362886}
+{"train_loss": 0.0507088303565979, "train_loss_bc": 0.012105291709303856, "train_loss_llm": 0.38603541254997253, "grad_norm": 0.19866901636123657, "global_step": 1161, "epoch": 4, "lr": 0.009999485030362886}
+{"train_loss": 0.049585748463869095, "train_loss_bc": 0.0122437858954072, "train_loss_llm": 0.3734196126461029, "grad_norm": 0.36030372977256775, "global_step": 1162, "epoch": 4, "lr": 0.009999485030362886}
+{"train_loss": 0.03993472456932068, "train_loss_bc": 0.004962733946740627, "train_loss_llm": 0.3497198820114136, "grad_norm": 0.6076175570487976, "global_step": 1163, "epoch": 4, "lr": 0.009999485030362886}
+{"train_loss": 0.03713706135749817, "train_loss_bc": 0.006628276780247688, "train_loss_llm": 0.3050878643989563, "grad_norm": 0.7849993705749512, "global_step": 1164, "epoch": 4, "lr": 0.009999485030362886}
+{"train_loss": 0.04461950808763504, "train_loss_bc": 0.007777499035000801, "train_loss_llm": 0.3684200942516327, "grad_norm": 1.0405012369155884, "global_step": 1165, "epoch": 4, "lr": 0.009999485030362886}
+{"train_loss": 0.04816620796918869, "train_loss_bc": 0.01362457126379013, "train_loss_llm": 0.3454163670539856, "grad_norm": 1.3008893728256226, "global_step": 1166, "epoch": 4, "lr": 0.009999485030362886}
+{"train_loss": 0.051552701741456985, "train_loss_bc": 0.01187913864850998, "train_loss_llm": 0.39673563838005066, "grad_norm": 1.4541553258895874, "global_step": 1167, "epoch": 4, "lr": 0.009999485030362886}
+{"train_loss": 0.04915693774819374, "train_loss_bc": 0.010118766687810421, "train_loss_llm": 0.39038169384002686, "grad_norm": 1.7242635488510132, "global_step": 1168, "epoch": 4, "lr": 0.009999477429570174}
+{"train_loss": 0.042912665754556656, "train_loss_bc": 0.008898112922906876, "train_loss_llm": 0.3401455283164978, "grad_norm": 0.2010161280632019, "global_step": 1169, "epoch": 4, "lr": 0.009999477429570174}
+{"train_loss": 0.04971015080809593, "train_loss_bc": 0.014168468303978443, "train_loss_llm": 0.35541683435440063, "grad_norm": 0.4639890193939209, "global_step": 1170, "epoch": 4, "lr": 0.009999477429570174}
+{"train_loss": 0.04765067249536514, "train_loss_bc": 0.014750111848115921, "train_loss_llm": 0.3290055990219116, "grad_norm": 0.6451442837715149, "global_step": 1171, "epoch": 4, "lr": 0.009999477429570174}
+{"train_loss": 0.03304114565253258, "train_loss_bc": 0.0054655419662594795, "train_loss_llm": 0.27575603127479553, "grad_norm": 0.8368134498596191, "global_step": 1172, "epoch": 4, "lr": 0.009999477429570174}
+{"train_loss": 0.03931381553411484, "train_loss_bc": 0.010240767151117325, "train_loss_llm": 0.29073047637939453, "grad_norm": 1.0249502658843994, "global_step": 1173, "epoch": 4, "lr": 0.009999477429570174}
+{"train_loss": 0.03537276014685631, "train_loss_bc": 0.008685572072863579, "train_loss_llm": 0.2668718695640564, "grad_norm": 1.1847296953201294, "global_step": 1174, "epoch": 4, "lr": 0.009999477429570174}
+{"train_loss": 0.04154413565993309, "train_loss_bc": 0.010940657928586006, "train_loss_llm": 0.30603477358818054, "grad_norm": 1.4243642091751099, "global_step": 1175, "epoch": 4, "lr": 0.009999477429570174}
+{"train_loss": 0.0359874963760376, "train_loss_bc": 0.010403089225292206, "train_loss_llm": 0.2558440864086151, "grad_norm": 1.5890235900878906, "global_step": 1176, "epoch": 4, "lr": 0.009999469773097893}
+{"train_loss": 0.031201638281345367, "train_loss_bc": 0.007408089004456997, "train_loss_llm": 0.23793548345565796, "grad_norm": 0.17223818600177765, "global_step": 1177, "epoch": 4, "lr": 0.009999469773097893}
+{"train_loss": 0.031173495575785637, "train_loss_bc": 0.004940966609865427, "train_loss_llm": 0.2623252868652344, "grad_norm": 0.28728654980659485, "global_step": 1178, "epoch": 4, "lr": 0.009999469773097893}
+{"train_loss": 0.03190207481384277, "train_loss_bc": 0.011832419782876968, "train_loss_llm": 0.20069655776023865, "grad_norm": 0.5033272504806519, "global_step": 1179, "epoch": 4, "lr": 0.009999469773097893}
+{"train_loss": 0.026973126456141472, "train_loss_bc": 0.009363362565636635, "train_loss_llm": 0.17609763145446777, "grad_norm": 0.6230782866477966, "global_step": 1180, "epoch": 4, "lr": 0.009999469773097893}
+{"train_loss": 0.031242528930306435, "train_loss_bc": 0.01003870740532875, "train_loss_llm": 0.21203821897506714, "grad_norm": 0.8118118643760681, "global_step": 1181, "epoch": 4, "lr": 0.009999469773097893}
+{"train_loss": 0.02761717140674591, "train_loss_bc": 0.006250866688787937, "train_loss_llm": 0.2136630415916443, "grad_norm": 1.0514129400253296, "global_step": 1182, "epoch": 4, "lr": 0.009999469773097893}
+{"train_loss": 0.03905900940299034, "train_loss_bc": 0.008924093097448349, "train_loss_llm": 0.3013491630554199, "grad_norm": 1.2683626413345337, "global_step": 1183, "epoch": 4, "lr": 0.009999469773097893}
+{"train_loss": 0.036658599972724915, "train_loss_bc": 0.008840147405862808, "train_loss_llm": 0.2781845033168793, "grad_norm": 1.552828311920166, "global_step": 1184, "epoch": 4, "lr": 0.009999462060946129}
+{"train_loss": 0.029416535049676895, "train_loss_bc": 0.0057985819876194, "train_loss_llm": 0.23617953062057495, "grad_norm": 0.1759817898273468, "global_step": 1185, "epoch": 4, "lr": 0.009999462060946129}
+{"train_loss": 0.030640248209238052, "train_loss_bc": 0.005461246706545353, "train_loss_llm": 0.25179001688957214, "grad_norm": 0.41540998220443726, "global_step": 1186, "epoch": 4, "lr": 0.009999462060946129}
+{"train_loss": 0.0379076711833477, "train_loss_bc": 0.005433824844658375, "train_loss_llm": 0.324738472700119, "grad_norm": 0.5099321603775024, "global_step": 1187, "epoch": 4, "lr": 0.009999462060946129}
+{"train_loss": 0.03320195525884628, "train_loss_bc": 0.003962330054491758, "train_loss_llm": 0.2923962473869324, "grad_norm": 0.6909392476081848, "global_step": 1188, "epoch": 4, "lr": 0.009999462060946129}
+{"train_loss": 0.02885213418386313, "train_loss_bc": 0.0049751088954508305, "train_loss_llm": 0.26604750752449036, "grad_norm": 0.8409671187400818, "global_step": 1189, "epoch": 4, "lr": 0.009999462060946129, "val_loss": 0.032720115035772324}
+{"train_loss": 0.039987802505493164, "train_loss_bc": 0.010462913662195206, "train_loss_llm": 0.2952488660812378, "grad_norm": 1.099624514579773, "global_step": 1190, "epoch": 5, "lr": 0.009999462060946129}
+{"train_loss": 0.03526324778795242, "train_loss_bc": 0.004485365003347397, "train_loss_llm": 0.30777883529663086, "grad_norm": 1.292111873626709, "global_step": 1191, "epoch": 5, "lr": 0.009999462060946129}
+{"train_loss": 0.041529007256031036, "train_loss_bc": 0.006383900996297598, "train_loss_llm": 0.3514510691165924, "grad_norm": 1.5402082204818726, "global_step": 1192, "epoch": 5, "lr": 0.009999454293114966}
+{"train_loss": 0.03801276907324791, "train_loss_bc": 0.005405619274824858, "train_loss_llm": 0.32607147097587585, "grad_norm": 0.1807740330696106, "global_step": 1193, "epoch": 5, "lr": 0.009999454293114966}
+{"train_loss": 0.04483697563409805, "train_loss_bc": 0.009398335590958595, "train_loss_llm": 0.35438641905784607, "grad_norm": 0.4822574853897095, "global_step": 1194, "epoch": 5, "lr": 0.009999454293114966}
+{"train_loss": 0.02965685725212097, "train_loss_bc": 0.0037274747155606747, "train_loss_llm": 0.2592938244342804, "grad_norm": 0.6059055924415588, "global_step": 1195, "epoch": 5, "lr": 0.009999454293114966}
+{"train_loss": 0.04008946567773819, "train_loss_bc": 0.008405780419707298, "train_loss_llm": 0.3168368339538574, "grad_norm": 0.7475098371505737, "global_step": 1196, "epoch": 5, "lr": 0.009999454293114966}
+{"train_loss": 0.03279581665992737, "train_loss_bc": 0.005342878866940737, "train_loss_llm": 0.274529367685318, "grad_norm": 0.8428614139556885, "global_step": 1197, "epoch": 5, "lr": 0.009999454293114966}
+{"train_loss": 0.040631793439388275, "train_loss_bc": 0.0047096144407987595, "train_loss_llm": 0.35922181606292725, "grad_norm": 0.9776171445846558, "global_step": 1198, "epoch": 5, "lr": 0.009999454293114966}
+{"train_loss": 0.031770359724760056, "train_loss_bc": 0.005301547236740589, "train_loss_llm": 0.264688104391098, "grad_norm": 1.122916340827942, "global_step": 1199, "epoch": 5, "lr": 0.009999454293114966}
+{"train_loss": 0.04045336693525314, "train_loss_bc": 0.0031711524352431297, "train_loss_llm": 0.3728221356868744, "grad_norm": 1.3597924709320068, "global_step": 1200, "epoch": 5, "lr": 0.009999446469604491}
+{"train_loss": 0.03158092498779297, "train_loss_bc": 0.0035114437341690063, "train_loss_llm": 0.2806948125362396, "grad_norm": 0.09750880300998688, "global_step": 1201, "epoch": 5, "lr": 0.009999446469604491}
+{"train_loss": 0.03948192298412323, "train_loss_bc": 0.010597549378871918, "train_loss_llm": 0.28884372115135193, "grad_norm": 0.1724696010351181, "global_step": 1202, "epoch": 5, "lr": 0.009999446469604491}
+{"train_loss": 0.04609864205121994, "train_loss_bc": 0.010236164554953575, "train_loss_llm": 0.35862475633621216, "grad_norm": 0.2962338328361511, "global_step": 1203, "epoch": 5, "lr": 0.009999446469604491}
+{"train_loss": 0.04005685821175575, "train_loss_bc": 0.006078517530113459, "train_loss_llm": 0.33978337049484253, "grad_norm": 0.4194207191467285, "global_step": 1204, "epoch": 5, "lr": 0.009999446469604491}
+{"train_loss": 0.033764809370040894, "train_loss_bc": 0.004333829041570425, "train_loss_llm": 0.2943097949028015, "grad_norm": 0.5078743696212769, "global_step": 1205, "epoch": 5, "lr": 0.009999446469604491}
+{"train_loss": 0.0350000225007534, "train_loss_bc": 0.0056137507781386375, "train_loss_llm": 0.2938627004623413, "grad_norm": 0.6252391934394836, "global_step": 1206, "epoch": 5, "lr": 0.009999446469604491}
+{"train_loss": 0.032648563385009766, "train_loss_bc": 0.00497031956911087, "train_loss_llm": 0.27678242325782776, "grad_norm": 0.7463944554328918, "global_step": 1207, "epoch": 5, "lr": 0.009999446469604491}
+{"train_loss": 0.029201852157711983, "train_loss_bc": 0.00469971401616931, "train_loss_llm": 0.24502137303352356, "grad_norm": 0.8556035161018372, "global_step": 1208, "epoch": 5, "lr": 0.009999438590414795}
+{"train_loss": 0.03775501251220703, "train_loss_bc": 0.004860986024141312, "train_loss_llm": 0.3289402425289154, "grad_norm": 0.21798215806484222, "global_step": 1209, "epoch": 5, "lr": 0.009999438590414795}
+{"train_loss": 0.02521849237382412, "train_loss_bc": 0.004850446712225676, "train_loss_llm": 0.20368045568466187, "grad_norm": 0.3769615590572357, "global_step": 1210, "epoch": 5, "lr": 0.009999438590414795}
+{"train_loss": 0.030709456652402878, "train_loss_bc": 0.002972795395180583, "train_loss_llm": 0.27736660838127136, "grad_norm": 0.5009255409240723, "global_step": 1211, "epoch": 5, "lr": 0.009999438590414795}
+{"train_loss": 0.0489407479763031, "train_loss_bc": 0.011407295241951942, "train_loss_llm": 0.3753345310688019, "grad_norm": 0.620208740234375, "global_step": 1212, "epoch": 5, "lr": 0.009999438590414795}
+{"train_loss": 0.03135502710938454, "train_loss_bc": 0.004957962781190872, "train_loss_llm": 0.26397064328193665, "grad_norm": 0.7277092933654785, "global_step": 1213, "epoch": 5, "lr": 0.009999438590414795}
+{"train_loss": 0.037096258252859116, "train_loss_bc": 0.005704783834517002, "train_loss_llm": 0.3139147460460663, "grad_norm": 0.8690889477729797, "global_step": 1214, "epoch": 5, "lr": 0.009999438590414795}
+{"train_loss": 0.03376263007521629, "train_loss_bc": 0.0037473244592547417, "train_loss_llm": 0.30015304684638977, "grad_norm": 1.0610692501068115, "global_step": 1215, "epoch": 5, "lr": 0.009999438590414795}
+{"train_loss": 0.03623184561729431, "train_loss_bc": 0.004086208529770374, "train_loss_llm": 0.3214563727378845, "grad_norm": 1.229219913482666, "global_step": 1216, "epoch": 5, "lr": 0.00999943065554596}
+{"train_loss": 0.025446685031056404, "train_loss_bc": 0.004004713613539934, "train_loss_llm": 0.21441972255706787, "grad_norm": 0.3001852333545685, "global_step": 1217, "epoch": 5, "lr": 0.00999943065554596}
+{"train_loss": 0.02297077886760235, "train_loss_bc": 0.0034393907990306616, "train_loss_llm": 0.19531387090682983, "grad_norm": 0.47136959433555603, "global_step": 1218, "epoch": 5, "lr": 0.00999943065554596}
+{"train_loss": 0.026912810280919075, "train_loss_bc": 0.005776990205049515, "train_loss_llm": 0.2113581895828247, "grad_norm": 0.6445295810699463, "global_step": 1219, "epoch": 5, "lr": 0.00999943065554596}
+{"train_loss": 0.019828611984848976, "train_loss_bc": 0.004377200733870268, "train_loss_llm": 0.1545141041278839, "grad_norm": 0.820744514465332, "global_step": 1220, "epoch": 5, "lr": 0.00999943065554596}
+{"train_loss": 0.019768543541431427, "train_loss_bc": 0.0047669000923633575, "train_loss_llm": 0.1500164270401001, "grad_norm": 0.9864441156387329, "global_step": 1221, "epoch": 5, "lr": 0.00999943065554596}
+{"train_loss": 0.0360615998506546, "train_loss_bc": 0.008862301707267761, "train_loss_llm": 0.271992951631546, "grad_norm": 1.1200008392333984, "global_step": 1222, "epoch": 5, "lr": 0.00999943065554596}
+{"train_loss": 0.030686089769005775, "train_loss_bc": 0.00606401264667511, "train_loss_llm": 0.24622076749801636, "grad_norm": 1.3015390634536743, "global_step": 1223, "epoch": 5, "lr": 0.00999943065554596}
+{"train_loss": 0.02302577905356884, "train_loss_bc": 0.005286691710352898, "train_loss_llm": 0.17739087343215942, "grad_norm": 1.412071943283081, "global_step": 1224, "epoch": 5, "lr": 0.009999422664998077}
+{"train_loss": 0.01923871599137783, "train_loss_bc": 0.005370347294956446, "train_loss_llm": 0.13868367671966553, "grad_norm": 0.1500861942768097, "global_step": 1225, "epoch": 5, "lr": 0.009999422664998077}
+{"train_loss": 0.024485301226377487, "train_loss_bc": 0.003841943573206663, "train_loss_llm": 0.20643356442451477, "grad_norm": 0.313965380191803, "global_step": 1226, "epoch": 5, "lr": 0.009999422664998077}
+{"train_loss": 0.02831609547138214, "train_loss_bc": 0.006194745190441608, "train_loss_llm": 0.22121348977088928, "grad_norm": 0.46714869141578674, "global_step": 1227, "epoch": 5, "lr": 0.009999422664998077}
+{"train_loss": 0.026351604610681534, "train_loss_bc": 0.006825254298746586, "train_loss_llm": 0.19526350498199463, "grad_norm": 0.6193544864654541, "global_step": 1228, "epoch": 5, "lr": 0.009999422664998077}
+{"train_loss": 0.018819138407707214, "train_loss_bc": 0.0074775428511202335, "train_loss_llm": 0.11341595649719238, "grad_norm": 0.8010642528533936, "global_step": 1229, "epoch": 5, "lr": 0.009999422664998077}
+{"train_loss": 0.02648533508181572, "train_loss_bc": 0.005319601856172085, "train_loss_llm": 0.2116573452949524, "grad_norm": 0.9652701020240784, "global_step": 1230, "epoch": 5, "lr": 0.009999422664998077}
+{"train_loss": 0.018861470744013786, "train_loss_bc": 0.00650639645755291, "train_loss_llm": 0.12355074286460876, "grad_norm": 1.1181279420852661, "global_step": 1231, "epoch": 5, "lr": 0.009999422664998077}
+{"train_loss": 0.01798095554113388, "train_loss_bc": 0.006327887997031212, "train_loss_llm": 0.11653068661689758, "grad_norm": 1.2740514278411865, "global_step": 1232, "epoch": 5, "lr": 0.009999414618771236}
+{"train_loss": 0.027662791311740875, "train_loss_bc": 0.007119441404938698, "train_loss_llm": 0.20543348789215088, "grad_norm": 0.1970447450876236, "global_step": 1233, "epoch": 5, "lr": 0.009999414618771236}
+{"train_loss": 0.03193367272615433, "train_loss_bc": 0.008723428472876549, "train_loss_llm": 0.23210245370864868, "grad_norm": 0.43224918842315674, "global_step": 1234, "epoch": 5, "lr": 0.009999414618771236}
+{"train_loss": 0.035857684910297394, "train_loss_bc": 0.014889094978570938, "train_loss_llm": 0.20968592166900635, "grad_norm": 0.5703449249267578, "global_step": 1235, "epoch": 5, "lr": 0.009999414618771236}
+{"train_loss": 0.02350746840238571, "train_loss_bc": 0.005285738036036491, "train_loss_llm": 0.1822172999382019, "grad_norm": 0.8217981457710266, "global_step": 1236, "epoch": 5, "lr": 0.009999414618771236}
+{"train_loss": 0.02959749661386013, "train_loss_bc": 0.007243023719638586, "train_loss_llm": 0.22354471683502197, "grad_norm": 1.045359492301941, "global_step": 1237, "epoch": 5, "lr": 0.009999414618771236}
+{"train_loss": 0.028084859251976013, "train_loss_bc": 0.006867778487503529, "train_loss_llm": 0.21217080950737, "grad_norm": 1.3166272640228271, "global_step": 1238, "epoch": 5, "lr": 0.009999414618771236}
+{"train_loss": 0.03964920714497566, "train_loss_bc": 0.007143404800444841, "train_loss_llm": 0.3250580132007599, "grad_norm": 1.5049806833267212, "global_step": 1239, "epoch": 5, "lr": 0.009999414618771236}
+{"train_loss": 0.03118625283241272, "train_loss_bc": 0.007718801498413086, "train_loss_llm": 0.23467451333999634, "grad_norm": 1.6848645210266113, "global_step": 1240, "epoch": 5, "lr": 0.009999406516865525}
+{"train_loss": 0.03435874730348587, "train_loss_bc": 0.008891062811017036, "train_loss_llm": 0.25467684864997864, "grad_norm": 0.15806376934051514, "global_step": 1241, "epoch": 5, "lr": 0.009999406516865525}
+{"train_loss": 0.03641226142644882, "train_loss_bc": 0.005654849112033844, "train_loss_llm": 0.3075741231441498, "grad_norm": 0.3713034689426422, "global_step": 1242, "epoch": 5, "lr": 0.009999406516865525}
+{"train_loss": 0.031271450221538544, "train_loss_bc": 0.008449682965874672, "train_loss_llm": 0.22821766138076782, "grad_norm": 0.5693515539169312, "global_step": 1243, "epoch": 5, "lr": 0.009999406516865525}
+{"train_loss": 0.04385475069284439, "train_loss_bc": 0.011099515482783318, "train_loss_llm": 0.32755231857299805, "grad_norm": 0.8098461627960205, "global_step": 1244, "epoch": 5, "lr": 0.009999406516865525}
+{"train_loss": 0.03448846563696861, "train_loss_bc": 0.007460564840584993, "train_loss_llm": 0.2702789902687073, "grad_norm": 0.9910891056060791, "global_step": 1245, "epoch": 5, "lr": 0.009999406516865525}
+{"train_loss": 0.03705819696187973, "train_loss_bc": 0.0071766991168260574, "train_loss_llm": 0.29881495237350464, "grad_norm": 1.2739038467407227, "global_step": 1246, "epoch": 5, "lr": 0.009999406516865525}
+{"train_loss": 0.04082366079092026, "train_loss_bc": 0.007315966300666332, "train_loss_llm": 0.3350769281387329, "grad_norm": 1.488221287727356, "global_step": 1247, "epoch": 5, "lr": 0.009999406516865525}
+{"train_loss": 0.03440310060977936, "train_loss_bc": 0.005619953386485577, "train_loss_llm": 0.28783145546913147, "grad_norm": 1.7111939191818237, "global_step": 1248, "epoch": 5, "lr": 0.009999398359281033}
+{"train_loss": 0.026290200650691986, "train_loss_bc": 0.006215252447873354, "train_loss_llm": 0.2007494866847992, "grad_norm": 0.15358495712280273, "global_step": 1249, "epoch": 5, "lr": 0.009999398359281033}
+{"train_loss": 0.027104655280709267, "train_loss_bc": 0.005681857466697693, "train_loss_llm": 0.21422797441482544, "grad_norm": 0.3132195472717285, "global_step": 1250, "epoch": 5, "lr": 0.009999398359281033}
+{"train_loss": 0.0294514037668705, "train_loss_bc": 0.00832499098032713, "train_loss_llm": 0.21126413345336914, "grad_norm": 0.43033817410469055, "global_step": 1251, "epoch": 5, "lr": 0.009999398359281033}
+{"train_loss": 0.033793289214372635, "train_loss_bc": 0.00917850248515606, "train_loss_llm": 0.24614787101745605, "grad_norm": 0.5850107669830322, "global_step": 1252, "epoch": 5, "lr": 0.009999398359281033}
+{"train_loss": 0.031336888670921326, "train_loss_bc": 0.0069069629535079, "train_loss_llm": 0.2442992627620697, "grad_norm": 0.8086172938346863, "global_step": 1253, "epoch": 5, "lr": 0.009999398359281033}
+{"train_loss": 0.021289361640810966, "train_loss_bc": 0.006578932050615549, "train_loss_llm": 0.14710429310798645, "grad_norm": 0.9913997054100037, "global_step": 1254, "epoch": 5, "lr": 0.009999398359281033}
+{"train_loss": 0.029362637549638748, "train_loss_bc": 0.006889541633427143, "train_loss_llm": 0.2247309684753418, "grad_norm": 1.1484944820404053, "global_step": 1255, "epoch": 5, "lr": 0.009999398359281033}
+{"train_loss": 0.029003430157899857, "train_loss_bc": 0.005311145447194576, "train_loss_llm": 0.23692286014556885, "grad_norm": 1.4097819328308105, "global_step": 1256, "epoch": 5, "lr": 0.009999390146017854}
+{"train_loss": 0.019151372835040092, "train_loss_bc": 0.00499518308788538, "train_loss_llm": 0.14156189560890198, "grad_norm": 0.086922787129879, "global_step": 1257, "epoch": 5, "lr": 0.009999390146017854}
+{"train_loss": 0.023248963057994843, "train_loss_bc": 0.00527923833578825, "train_loss_llm": 0.17969724535942078, "grad_norm": 0.21429795026779175, "global_step": 1258, "epoch": 5, "lr": 0.009999390146017854}
+{"train_loss": 0.018867818638682365, "train_loss_bc": 0.0054053314961493015, "train_loss_llm": 0.13462486863136292, "grad_norm": 0.26483389735221863, "global_step": 1259, "epoch": 5, "lr": 0.009999390146017854}
+{"train_loss": 0.018211133778095245, "train_loss_bc": 0.005735860206186771, "train_loss_llm": 0.12475273013114929, "grad_norm": 0.3256453275680542, "global_step": 1260, "epoch": 5, "lr": 0.009999390146017854}
+{"train_loss": 0.01873713731765747, "train_loss_bc": 0.005598865449428558, "train_loss_llm": 0.13138270378112793, "grad_norm": 0.40351635217666626, "global_step": 1261, "epoch": 5, "lr": 0.009999390146017854}
+{"train_loss": 0.029633810743689537, "train_loss_bc": 0.008766215294599533, "train_loss_llm": 0.20867595076560974, "grad_norm": 0.40130317211151123, "global_step": 1262, "epoch": 5, "lr": 0.009999390146017854}
+{"train_loss": 0.016247417777776718, "train_loss_bc": 0.004107488319277763, "train_loss_llm": 0.12139928340911865, "grad_norm": 0.45974504947662354, "global_step": 1263, "epoch": 5, "lr": 0.009999390146017854}
+{"train_loss": 0.022429699078202248, "train_loss_bc": 0.010103696957230568, "train_loss_llm": 0.1232600212097168, "grad_norm": 0.5322666168212891, "global_step": 1264, "epoch": 5, "lr": 0.009999381877076078}
+{"train_loss": 0.026013318449258804, "train_loss_bc": 0.005817648954689503, "train_loss_llm": 0.20195668935775757, "grad_norm": 0.18767774105072021, "global_step": 1265, "epoch": 5, "lr": 0.009999381877076078}
+{"train_loss": 0.02329271286725998, "train_loss_bc": 0.005921571049839258, "train_loss_llm": 0.17371141910552979, "grad_norm": 0.3585941195487976, "global_step": 1266, "epoch": 5, "lr": 0.009999381877076078}
+{"train_loss": 0.03504669666290283, "train_loss_bc": 0.009949719533324242, "train_loss_llm": 0.2509697675704956, "grad_norm": 0.4390263259410858, "global_step": 1267, "epoch": 5, "lr": 0.009999381877076078}
+{"train_loss": 0.022237468510866165, "train_loss_bc": 0.004949798807501793, "train_loss_llm": 0.17287668585777283, "grad_norm": 0.543903648853302, "global_step": 1268, "epoch": 5, "lr": 0.009999381877076078}
+{"train_loss": 0.026981711387634277, "train_loss_bc": 0.004994011018425226, "train_loss_llm": 0.21987700462341309, "grad_norm": 0.6583116054534912, "global_step": 1269, "epoch": 5, "lr": 0.009999381877076078}
+{"train_loss": 0.02763042226433754, "train_loss_bc": 0.004461861215531826, "train_loss_llm": 0.231685608625412, "grad_norm": 0.7743739485740662, "global_step": 1270, "epoch": 5, "lr": 0.009999381877076078}
+{"train_loss": 0.02358906902372837, "train_loss_bc": 0.004053379874676466, "train_loss_llm": 0.19535687565803528, "grad_norm": 0.9754935503005981, "global_step": 1271, "epoch": 5, "lr": 0.009999381877076078}
+{"train_loss": 0.029902610927820206, "train_loss_bc": 0.004559038206934929, "train_loss_llm": 0.25343573093414307, "grad_norm": 1.0847630500793457, "global_step": 1272, "epoch": 5, "lr": 0.009999373552455799}
+{"train_loss": 0.035681284964084625, "train_loss_bc": 0.006180159747600555, "train_loss_llm": 0.2950112223625183, "grad_norm": 0.14227432012557983, "global_step": 1273, "epoch": 5, "lr": 0.009999373552455799}
+{"train_loss": 0.04238218069076538, "train_loss_bc": 0.011922447010874748, "train_loss_llm": 0.30459731817245483, "grad_norm": 0.2459978461265564, "global_step": 1274, "epoch": 5, "lr": 0.009999373552455799}
+{"train_loss": 0.028226837515830994, "train_loss_bc": 0.005016745068132877, "train_loss_llm": 0.23210090398788452, "grad_norm": 0.2974753677845001, "global_step": 1275, "epoch": 5, "lr": 0.009999373552455799}
+{"train_loss": 0.03722034767270088, "train_loss_bc": 0.005806173197925091, "train_loss_llm": 0.31414172053337097, "grad_norm": 0.42852145433425903, "global_step": 1276, "epoch": 5, "lr": 0.009999373552455799}
+{"train_loss": 0.03279217705130577, "train_loss_bc": 0.004910601768642664, "train_loss_llm": 0.27881574630737305, "grad_norm": 0.6265029907226562, "global_step": 1277, "epoch": 5, "lr": 0.009999373552455799}
+{"train_loss": 0.03662689030170441, "train_loss_bc": 0.0068233804777264595, "train_loss_llm": 0.2980350852012634, "grad_norm": 0.7237832546234131, "global_step": 1278, "epoch": 5, "lr": 0.009999373552455799}
+{"train_loss": 0.033308640122413635, "train_loss_bc": 0.004305226728320122, "train_loss_llm": 0.29003411531448364, "grad_norm": 0.8044102191925049, "global_step": 1279, "epoch": 5, "lr": 0.009999373552455799}
+{"train_loss": 0.03273708373308182, "train_loss_bc": 0.004861008375883102, "train_loss_llm": 0.27876073122024536, "grad_norm": 0.9040302038192749, "global_step": 1280, "epoch": 5, "lr": 0.009999365172157106}
+{"train_loss": 0.03797989338636398, "train_loss_bc": 0.005001466255635023, "train_loss_llm": 0.32978424429893494, "grad_norm": 0.08943890780210495, "global_step": 1281, "epoch": 5, "lr": 0.009999365172157106}
+{"train_loss": 0.04104970395565033, "train_loss_bc": 0.0045277755707502365, "train_loss_llm": 0.3652192950248718, "grad_norm": 0.20590455830097198, "global_step": 1282, "epoch": 5, "lr": 0.009999365172157106}
+{"train_loss": 0.04212839901447296, "train_loss_bc": 0.00937667302787304, "train_loss_llm": 0.3275172710418701, "grad_norm": 0.325160950422287, "global_step": 1283, "epoch": 5, "lr": 0.009999365172157106}
+{"train_loss": 0.03978563845157623, "train_loss_bc": 0.005418500863015652, "train_loss_llm": 0.34367135167121887, "grad_norm": 0.5466241240501404, "global_step": 1284, "epoch": 5, "lr": 0.009999365172157106}
+{"train_loss": 0.029622692614793777, "train_loss_bc": 0.005537574645131826, "train_loss_llm": 0.24085116386413574, "grad_norm": 0.7015382051467896, "global_step": 1285, "epoch": 5, "lr": 0.009999365172157106}
+{"train_loss": 0.032069239765405655, "train_loss_bc": 0.004683925770223141, "train_loss_llm": 0.2738531529903412, "grad_norm": 0.8729805946350098, "global_step": 1286, "epoch": 5, "lr": 0.009999365172157106}
+{"train_loss": 0.03608661890029907, "train_loss_bc": 0.0044111888855695724, "train_loss_llm": 0.3167542815208435, "grad_norm": 1.0284233093261719, "global_step": 1287, "epoch": 5, "lr": 0.009999365172157106}
+{"train_loss": 0.038495488464832306, "train_loss_bc": 0.008977798745036125, "train_loss_llm": 0.2951768934726715, "grad_norm": 1.1283001899719238, "global_step": 1288, "epoch": 5, "lr": 0.009999356736180095}
+{"train_loss": 0.03201882913708687, "train_loss_bc": 0.0052232639864087105, "train_loss_llm": 0.26795563101768494, "grad_norm": 0.050384923815727234, "global_step": 1289, "epoch": 5, "lr": 0.009999356736180095}
+{"train_loss": 0.032148830592632294, "train_loss_bc": 0.0057934364303946495, "train_loss_llm": 0.2635539472103119, "grad_norm": 0.1420617550611496, "global_step": 1290, "epoch": 5, "lr": 0.009999356736180095}
+{"train_loss": 0.032106444239616394, "train_loss_bc": 0.007836686447262764, "train_loss_llm": 0.2426975667476654, "grad_norm": 0.22800250351428986, "global_step": 1291, "epoch": 5, "lr": 0.009999356736180095}
+{"train_loss": 0.0386677011847496, "train_loss_bc": 0.006825457327067852, "train_loss_llm": 0.31842243671417236, "grad_norm": 0.2601236402988434, "global_step": 1292, "epoch": 5, "lr": 0.009999356736180095}
+{"train_loss": 0.03830568492412567, "train_loss_bc": 0.004780460149049759, "train_loss_llm": 0.3352522552013397, "grad_norm": 0.3695557713508606, "global_step": 1293, "epoch": 5, "lr": 0.009999356736180095}
+{"train_loss": 0.030918680131435394, "train_loss_bc": 0.008267635479569435, "train_loss_llm": 0.2265104353427887, "grad_norm": 0.46290019154548645, "global_step": 1294, "epoch": 5, "lr": 0.009999356736180095}
+{"train_loss": 0.026697330176830292, "train_loss_bc": 0.004178566858172417, "train_loss_llm": 0.22518762946128845, "grad_norm": 0.5319099426269531, "global_step": 1295, "epoch": 5, "lr": 0.009999356736180095}
+{"train_loss": 0.03274215757846832, "train_loss_bc": 0.009593038819730282, "train_loss_llm": 0.23149117827415466, "grad_norm": 0.5450854301452637, "global_step": 1296, "epoch": 5, "lr": 0.009999348244524859}
+{"train_loss": 0.021344898268580437, "train_loss_bc": 0.00426623597741127, "train_loss_llm": 0.17078661918640137, "grad_norm": 0.03772295266389847, "global_step": 1297, "epoch": 5, "lr": 0.009999348244524859}
+{"train_loss": 0.021881824359297752, "train_loss_bc": 0.003777554025873542, "train_loss_llm": 0.18104270100593567, "grad_norm": 0.080661840736866, "global_step": 1298, "epoch": 5, "lr": 0.009999348244524859}
+{"train_loss": 0.029822800308465958, "train_loss_bc": 0.008136828429996967, "train_loss_llm": 0.21685972809791565, "grad_norm": 0.10929129272699356, "global_step": 1299, "epoch": 5, "lr": 0.009999348244524859}
+{"train_loss": 0.030162084847688675, "train_loss_bc": 0.007195664569735527, "train_loss_llm": 0.22966420650482178, "grad_norm": 0.18929877877235413, "global_step": 1300, "epoch": 5, "lr": 0.009999348244524859}
+{"train_loss": 0.01631028950214386, "train_loss_bc": 0.00438343733549118, "train_loss_llm": 0.1192685067653656, "grad_norm": 0.2703772783279419, "global_step": 1301, "epoch": 5, "lr": 0.009999348244524859}
+{"train_loss": 0.024661041796207428, "train_loss_bc": 0.005296520888805389, "train_loss_llm": 0.19364520907402039, "grad_norm": 0.31474924087524414, "global_step": 1302, "epoch": 5, "lr": 0.009999348244524859}
+{"train_loss": 0.02884211391210556, "train_loss_bc": 0.0068630920723080635, "train_loss_llm": 0.21979022026062012, "grad_norm": 0.3829428255558014, "global_step": 1303, "epoch": 5, "lr": 0.009999348244524859}
+{"train_loss": 0.02053416147828102, "train_loss_bc": 0.0039044851437211037, "train_loss_llm": 0.16629675030708313, "grad_norm": 0.440907746553421, "global_step": 1304, "epoch": 5, "lr": 0.009999339697191491}
+{"train_loss": 0.029601655900478363, "train_loss_bc": 0.00715431896969676, "train_loss_llm": 0.22447335720062256, "grad_norm": 0.15478350222110748, "global_step": 1305, "epoch": 5, "lr": 0.009999339697191491}
+{"train_loss": 0.03149975836277008, "train_loss_bc": 0.008147208020091057, "train_loss_llm": 0.23352551460266113, "grad_norm": 0.3122544288635254, "global_step": 1306, "epoch": 5, "lr": 0.009999339697191491}
+{"train_loss": 0.031316205859184265, "train_loss_bc": 0.005153831094503403, "train_loss_llm": 0.261623740196228, "grad_norm": 0.4432735741138458, "global_step": 1307, "epoch": 5, "lr": 0.009999339697191491}
+{"train_loss": 0.030677203088998795, "train_loss_bc": 0.008688950911164284, "train_loss_llm": 0.2198825180530548, "grad_norm": 0.5671143531799316, "global_step": 1308, "epoch": 5, "lr": 0.009999339697191491}
+{"train_loss": 0.0339994952082634, "train_loss_bc": 0.007918871939182281, "train_loss_llm": 0.26080623269081116, "grad_norm": 0.7203132510185242, "global_step": 1309, "epoch": 5, "lr": 0.009999339697191491}
+{"train_loss": 0.0353744700551033, "train_loss_bc": 0.008528383448719978, "train_loss_llm": 0.26846083998680115, "grad_norm": 0.8783777952194214, "global_step": 1310, "epoch": 5, "lr": 0.009999339697191491}
+{"train_loss": 0.028563357889652252, "train_loss_bc": 0.005213386379182339, "train_loss_llm": 0.2334997057914734, "grad_norm": 1.0372552871704102, "global_step": 1311, "epoch": 5, "lr": 0.009999339697191491}
+{"train_loss": 0.036080747842788696, "train_loss_bc": 0.007939504459500313, "train_loss_llm": 0.2814124524593353, "grad_norm": 1.1689484119415283, "global_step": 1312, "epoch": 5, "lr": 0.009999331094180091}
+{"train_loss": 0.040937356650829315, "train_loss_bc": 0.008191537111997604, "train_loss_llm": 0.3274581730365753, "grad_norm": 0.07978926599025726, "global_step": 1313, "epoch": 5, "lr": 0.009999331094180091}
+{"train_loss": 0.04154514893889427, "train_loss_bc": 0.007184621877968311, "train_loss_llm": 0.34360527992248535, "grad_norm": 0.20348432660102844, "global_step": 1314, "epoch": 5, "lr": 0.009999331094180091}
+{"train_loss": 0.041614267975091934, "train_loss_bc": 0.009146168828010559, "train_loss_llm": 0.32468098402023315, "grad_norm": 0.3108157813549042, "global_step": 1315, "epoch": 5, "lr": 0.009999331094180091}
+{"train_loss": 0.044230371713638306, "train_loss_bc": 0.006698670797049999, "train_loss_llm": 0.3753170073032379, "grad_norm": 0.5104014873504639, "global_step": 1316, "epoch": 5, "lr": 0.009999331094180091}
+{"train_loss": 0.041134513914585114, "train_loss_bc": 0.008004838600754738, "train_loss_llm": 0.3312967121601105, "grad_norm": 0.610542893409729, "global_step": 1317, "epoch": 5, "lr": 0.009999331094180091}
+{"train_loss": 0.03855620324611664, "train_loss_bc": 0.008705612272024155, "train_loss_llm": 0.2985059320926666, "grad_norm": 0.7173484563827515, "global_step": 1318, "epoch": 5, "lr": 0.009999331094180091}
+{"train_loss": 0.03875930234789848, "train_loss_bc": 0.009072588756680489, "train_loss_llm": 0.29686713218688965, "grad_norm": 0.8704531788825989, "global_step": 1319, "epoch": 5, "lr": 0.009999331094180091}
+{"train_loss": 0.03969706594944, "train_loss_bc": 0.007421462330967188, "train_loss_llm": 0.3227560222148895, "grad_norm": 0.9562440514564514, "global_step": 1320, "epoch": 5, "lr": 0.009999322435490749}
+{"train_loss": 0.04187101870775223, "train_loss_bc": 0.006476038135588169, "train_loss_llm": 0.35394981503486633, "grad_norm": 0.10636015236377716, "global_step": 1321, "epoch": 5, "lr": 0.009999322435490749}
+{"train_loss": 0.038722969591617584, "train_loss_bc": 0.006137342192232609, "train_loss_llm": 0.3258562684059143, "grad_norm": 0.2517871558666229, "global_step": 1322, "epoch": 5, "lr": 0.009999322435490749}
+{"train_loss": 0.04054044932126999, "train_loss_bc": 0.0058525726199150085, "train_loss_llm": 0.3468787670135498, "grad_norm": 0.3910514712333679, "global_step": 1323, "epoch": 5, "lr": 0.009999322435490749}
+{"train_loss": 0.03286005184054375, "train_loss_bc": 0.006724990904331207, "train_loss_llm": 0.2613506019115448, "grad_norm": 0.4648049771785736, "global_step": 1324, "epoch": 5, "lr": 0.009999322435490749}
+{"train_loss": 0.03205426037311554, "train_loss_bc": 0.00788220763206482, "train_loss_llm": 0.24172049760818481, "grad_norm": 0.6216460466384888, "global_step": 1325, "epoch": 5, "lr": 0.009999322435490749}
+{"train_loss": 0.04274354502558708, "train_loss_bc": 0.005761003587394953, "train_loss_llm": 0.3698253929615021, "grad_norm": 0.8364785313606262, "global_step": 1326, "epoch": 5, "lr": 0.009999322435490749}
+{"train_loss": 0.035840049386024475, "train_loss_bc": 0.006448205094784498, "train_loss_llm": 0.2939184606075287, "grad_norm": 0.9544853568077087, "global_step": 1327, "epoch": 5, "lr": 0.009999322435490749}
+{"train_loss": 0.03598296269774437, "train_loss_bc": 0.006607261020690203, "train_loss_llm": 0.29375702142715454, "grad_norm": 1.1563622951507568, "global_step": 1328, "epoch": 5, "lr": 0.009999313721123566}
+{"train_loss": 0.03201228007674217, "train_loss_bc": 0.0056067826226353645, "train_loss_llm": 0.2640549838542938, "grad_norm": 0.11842130124568939, "global_step": 1329, "epoch": 5, "lr": 0.009999313721123566}
+{"train_loss": 0.02887294813990593, "train_loss_bc": 0.004797813016921282, "train_loss_llm": 0.24075135588645935, "grad_norm": 0.2237963080406189, "global_step": 1330, "epoch": 5, "lr": 0.009999313721123566}
+{"train_loss": 0.027872011065483093, "train_loss_bc": 0.005373436026275158, "train_loss_llm": 0.2249857485294342, "grad_norm": 0.3148801028728485, "global_step": 1331, "epoch": 5, "lr": 0.009999313721123566}
+{"train_loss": 0.03535326570272446, "train_loss_bc": 0.006886053830385208, "train_loss_llm": 0.2846721410751343, "grad_norm": 0.40255749225616455, "global_step": 1332, "epoch": 5, "lr": 0.009999313721123566}
+{"train_loss": 0.027928216382861137, "train_loss_bc": 0.005276693496853113, "train_loss_llm": 0.22651523351669312, "grad_norm": 0.4821324348449707, "global_step": 1333, "epoch": 5, "lr": 0.009999313721123566}
+{"train_loss": 0.02352391928434372, "train_loss_bc": 0.00528773944824934, "train_loss_llm": 0.18236178159713745, "grad_norm": 0.5521321296691895, "global_step": 1334, "epoch": 5, "lr": 0.009999313721123566}
+{"train_loss": 0.03194855898618698, "train_loss_bc": 0.0052515799179673195, "train_loss_llm": 0.2669697701931, "grad_norm": 0.6171219944953918, "global_step": 1335, "epoch": 5, "lr": 0.009999313721123566}
+{"train_loss": 0.026612237095832825, "train_loss_bc": 0.004417167045176029, "train_loss_llm": 0.2219507098197937, "grad_norm": 0.7044957280158997, "global_step": 1336, "epoch": 5, "lr": 0.009999304951078637}
+{"train_loss": 0.032543834298849106, "train_loss_bc": 0.0046743894927203655, "train_loss_llm": 0.2786944508552551, "grad_norm": 0.17462411522865295, "global_step": 1337, "epoch": 5, "lr": 0.009999304951078637}
+{"train_loss": 0.02436748892068863, "train_loss_bc": 0.004820728674530983, "train_loss_llm": 0.19546759128570557, "grad_norm": 0.4662378132343292, "global_step": 1338, "epoch": 5, "lr": 0.009999304951078637}
+{"train_loss": 0.025150801986455917, "train_loss_bc": 0.004563622176647186, "train_loss_llm": 0.2058717906475067, "grad_norm": 0.6989532113075256, "global_step": 1339, "epoch": 5, "lr": 0.009999304951078637}
+{"train_loss": 0.03346032276749611, "train_loss_bc": 0.006663589738309383, "train_loss_llm": 0.2679673135280609, "grad_norm": 0.8425758481025696, "global_step": 1340, "epoch": 5, "lr": 0.009999304951078637}
+{"train_loss": 0.020925691351294518, "train_loss_bc": 0.004302733112126589, "train_loss_llm": 0.16622957587242126, "grad_norm": 0.966742992401123, "global_step": 1341, "epoch": 5, "lr": 0.009999304951078637}
+{"train_loss": 0.029810773208737373, "train_loss_bc": 0.005080239847302437, "train_loss_llm": 0.24730533361434937, "grad_norm": 1.0716328620910645, "global_step": 1342, "epoch": 5, "lr": 0.009999304951078637}
+{"train_loss": 0.03022834286093712, "train_loss_bc": 0.005532394628971815, "train_loss_llm": 0.24695947766304016, "grad_norm": 1.1624802350997925, "global_step": 1343, "epoch": 5, "lr": 0.009999304951078637}
+{"train_loss": 0.022925451397895813, "train_loss_bc": 0.004346122499555349, "train_loss_llm": 0.18579328060150146, "grad_norm": 1.2962082624435425, "global_step": 1344, "epoch": 5, "lr": 0.009999296125356058}
+{"train_loss": 0.03819277137517929, "train_loss_bc": 0.005462026223540306, "train_loss_llm": 0.32730743288993835, "grad_norm": 0.14791522920131683, "global_step": 1345, "epoch": 5, "lr": 0.009999296125356058}
+{"train_loss": 0.04945753142237663, "train_loss_bc": 0.004693839233368635, "train_loss_llm": 0.4476369023323059, "grad_norm": 0.26362892985343933, "global_step": 1346, "epoch": 5, "lr": 0.009999296125356058}
+{"train_loss": 0.03648492321372032, "train_loss_bc": 0.005248121451586485, "train_loss_llm": 0.3123680353164673, "grad_norm": 0.515464723110199, "global_step": 1347, "epoch": 5, "lr": 0.009999296125356058}
+{"train_loss": 0.0324229970574379, "train_loss_bc": 0.005610374733805656, "train_loss_llm": 0.2681262195110321, "grad_norm": 0.5885137915611267, "global_step": 1348, "epoch": 5, "lr": 0.009999296125356058}
+{"train_loss": 0.031423456966876984, "train_loss_bc": 0.0061438484117388725, "train_loss_llm": 0.25279608368873596, "grad_norm": 0.798862099647522, "global_step": 1349, "epoch": 5, "lr": 0.009999296125356058}
+{"train_loss": 0.03340905159711838, "train_loss_bc": 0.005573630332946777, "train_loss_llm": 0.2783542275428772, "grad_norm": 0.9134316444396973, "global_step": 1350, "epoch": 5, "lr": 0.009999296125356058}
+{"train_loss": 0.040048230439424515, "train_loss_bc": 0.005836361087858677, "train_loss_llm": 0.3421187102794647, "grad_norm": 1.0752068758010864, "global_step": 1351, "epoch": 5, "lr": 0.009999296125356058}
+{"train_loss": 0.04007534310221672, "train_loss_bc": 0.004475156776607037, "train_loss_llm": 0.3560018539428711, "grad_norm": 1.1514354944229126, "global_step": 1352, "epoch": 5, "lr": 0.009999287243955933}
+{"train_loss": 0.0343693383038044, "train_loss_bc": 0.0062623219564557076, "train_loss_llm": 0.28107017278671265, "grad_norm": 0.1437705010175705, "global_step": 1353, "epoch": 5, "lr": 0.009999287243955933}
+{"train_loss": 0.03100442886352539, "train_loss_bc": 0.004784589633345604, "train_loss_llm": 0.26219838857650757, "grad_norm": 0.29039061069488525, "global_step": 1354, "epoch": 5, "lr": 0.009999287243955933}
+{"train_loss": 0.03213327005505562, "train_loss_bc": 0.005708648823201656, "train_loss_llm": 0.26424622535705566, "grad_norm": 0.38130977749824524, "global_step": 1355, "epoch": 5, "lr": 0.009999287243955933}
+{"train_loss": 0.03882324695587158, "train_loss_bc": 0.00559314526617527, "train_loss_llm": 0.3323010206222534, "grad_norm": 0.4806257486343384, "global_step": 1356, "epoch": 5, "lr": 0.009999287243955933}
+{"train_loss": 0.03337670862674713, "train_loss_bc": 0.005219180602580309, "train_loss_llm": 0.2815752625465393, "grad_norm": 0.551816999912262, "global_step": 1357, "epoch": 5, "lr": 0.009999287243955933}
+{"train_loss": 0.03854282945394516, "train_loss_bc": 0.005552230402827263, "train_loss_llm": 0.32990601658821106, "grad_norm": 0.6512685418128967, "global_step": 1358, "epoch": 5, "lr": 0.009999287243955933}
+{"train_loss": 0.03223691135644913, "train_loss_bc": 0.0037198085337877274, "train_loss_llm": 0.2851710319519043, "grad_norm": 0.7392336130142212, "global_step": 1359, "epoch": 5, "lr": 0.009999287243955933}
+{"train_loss": 0.03603465110063553, "train_loss_bc": 0.010081253945827484, "train_loss_llm": 0.25953397154808044, "grad_norm": 0.8546350598335266, "global_step": 1360, "epoch": 5, "lr": 0.009999278306878355}
+{"train_loss": 0.03669542819261551, "train_loss_bc": 0.004951986484229565, "train_loss_llm": 0.3174344003200531, "grad_norm": 0.14196884632110596, "global_step": 1361, "epoch": 5, "lr": 0.009999278306878355}
+{"train_loss": 0.03416923061013222, "train_loss_bc": 0.005255341064184904, "train_loss_llm": 0.28913888335227966, "grad_norm": 0.241456538438797, "global_step": 1362, "epoch": 5, "lr": 0.009999278306878355}
+{"train_loss": 0.032590318471193314, "train_loss_bc": 0.0052614654414355755, "train_loss_llm": 0.2732885181903839, "grad_norm": 0.2994210720062256, "global_step": 1363, "epoch": 5, "lr": 0.009999278306878355}
+{"train_loss": 0.030572257936000824, "train_loss_bc": 0.005097663961350918, "train_loss_llm": 0.2547459304332733, "grad_norm": 0.37231889367103577, "global_step": 1364, "epoch": 5, "lr": 0.009999278306878355}
+{"train_loss": 0.037479449063539505, "train_loss_bc": 0.006356115452945232, "train_loss_llm": 0.3112333416938782, "grad_norm": 0.4622352719306946, "global_step": 1365, "epoch": 5, "lr": 0.009999278306878355}
+{"train_loss": 0.030435288324952126, "train_loss_bc": 0.0035619179252535105, "train_loss_llm": 0.2687337100505829, "grad_norm": 0.5745127201080322, "global_step": 1366, "epoch": 5, "lr": 0.009999278306878355}
+{"train_loss": 0.03261817619204521, "train_loss_bc": 0.004800135735422373, "train_loss_llm": 0.27818039059638977, "grad_norm": 0.6981770396232605, "global_step": 1367, "epoch": 5, "lr": 0.009999278306878355}
+{"train_loss": 0.034081440418958664, "train_loss_bc": 0.007999126799404621, "train_loss_llm": 0.260823130607605, "grad_norm": 0.7933134436607361, "global_step": 1368, "epoch": 5, "lr": 0.009999269314123425}
+{"train_loss": 0.02940526232123375, "train_loss_bc": 0.006225588731467724, "train_loss_llm": 0.2317967414855957, "grad_norm": 0.13944348692893982, "global_step": 1369, "epoch": 5, "lr": 0.009999269314123425}
+{"train_loss": 0.03455251455307007, "train_loss_bc": 0.005786029621958733, "train_loss_llm": 0.28766483068466187, "grad_norm": 0.3798145055770874, "global_step": 1370, "epoch": 5, "lr": 0.009999269314123425}
+{"train_loss": 0.04107249155640602, "train_loss_bc": 0.010436156764626503, "train_loss_llm": 0.3063633441925049, "grad_norm": 0.613621175289154, "global_step": 1371, "epoch": 5, "lr": 0.009999269314123425}
+{"train_loss": 0.031212851405143738, "train_loss_bc": 0.0053704530000686646, "train_loss_llm": 0.25842398405075073, "grad_norm": 0.8441020250320435, "global_step": 1372, "epoch": 5, "lr": 0.009999269314123425}
+{"train_loss": 0.026923909783363342, "train_loss_bc": 0.006799319759011269, "train_loss_llm": 0.20124590396881104, "grad_norm": 0.9754118919372559, "global_step": 1373, "epoch": 5, "lr": 0.009999269314123425}
+{"train_loss": 0.029179925099015236, "train_loss_bc": 0.008159300312399864, "train_loss_llm": 0.21020624041557312, "grad_norm": 1.101925253868103, "global_step": 1374, "epoch": 5, "lr": 0.009999269314123425}
+{"train_loss": 0.038288481533527374, "train_loss_bc": 0.008231962099671364, "train_loss_llm": 0.3005652129650116, "grad_norm": 1.208227515220642, "global_step": 1375, "epoch": 5, "lr": 0.009999269314123425}
+{"train_loss": 0.03316696733236313, "train_loss_bc": 0.006503081880509853, "train_loss_llm": 0.266638845205307, "grad_norm": 1.3757604360580444, "global_step": 1376, "epoch": 5, "lr": 0.009999260265691243}
+{"train_loss": 0.03626193106174469, "train_loss_bc": 0.011066325008869171, "train_loss_llm": 0.2519560754299164, "grad_norm": 0.1809908002614975, "global_step": 1377, "epoch": 5, "lr": 0.009999260265691243}
+{"train_loss": 0.03674055263400078, "train_loss_bc": 0.010755371302366257, "train_loss_llm": 0.2598518133163452, "grad_norm": 0.3573317229747772, "global_step": 1378, "epoch": 5, "lr": 0.009999260265691243}
+{"train_loss": 0.037042468786239624, "train_loss_bc": 0.010090544819831848, "train_loss_llm": 0.26951923966407776, "grad_norm": 0.4936167299747467, "global_step": 1379, "epoch": 5, "lr": 0.009999260265691243}
+{"train_loss": 0.028780382126569748, "train_loss_bc": 0.00788198970258236, "train_loss_llm": 0.20898392796516418, "grad_norm": 0.5769370794296265, "global_step": 1380, "epoch": 5, "lr": 0.009999260265691243}
+{"train_loss": 0.02503586933016777, "train_loss_bc": 0.008532284758985043, "train_loss_llm": 0.16503584384918213, "grad_norm": 0.711597740650177, "global_step": 1381, "epoch": 5, "lr": 0.009999260265691243}
+{"train_loss": 0.04769134521484375, "train_loss_bc": 0.015854788944125175, "train_loss_llm": 0.31836557388305664, "grad_norm": 0.88791823387146, "global_step": 1382, "epoch": 5, "lr": 0.009999260265691243}
+{"train_loss": 0.03548281267285347, "train_loss_bc": 0.012764140032231808, "train_loss_llm": 0.22718670964241028, "grad_norm": 1.0467979907989502, "global_step": 1383, "epoch": 5, "lr": 0.009999260265691243}
+{"train_loss": 0.03729771077632904, "train_loss_bc": 0.014123866334557533, "train_loss_llm": 0.23173841834068298, "grad_norm": 1.2155681848526, "global_step": 1384, "epoch": 5, "lr": 0.009999251161581913}
+{"train_loss": 0.030887259170413017, "train_loss_bc": 0.006941343192011118, "train_loss_llm": 0.23945915699005127, "grad_norm": 0.06787724792957306, "global_step": 1385, "epoch": 5, "lr": 0.009999251161581913}
+{"train_loss": 0.040664464235305786, "train_loss_bc": 0.008448980748653412, "train_loss_llm": 0.32215481996536255, "grad_norm": 0.1268414556980133, "global_step": 1386, "epoch": 5, "lr": 0.009999251161581913}
+{"train_loss": 0.04171614348888397, "train_loss_bc": 0.007821436040103436, "train_loss_llm": 0.338947057723999, "grad_norm": 0.1990131437778473, "global_step": 1387, "epoch": 5, "lr": 0.009999251161581913}
+{"train_loss": 0.03978358209133148, "train_loss_bc": 0.010120952501893044, "train_loss_llm": 0.2966262996196747, "grad_norm": 0.28234708309173584, "global_step": 1388, "epoch": 5, "lr": 0.009999251161581913}
+{"train_loss": 0.028229638934135437, "train_loss_bc": 0.010347412899136543, "train_loss_llm": 0.17882224917411804, "grad_norm": 0.37428176403045654, "global_step": 1389, "epoch": 5, "lr": 0.009999251161581913}
+{"train_loss": 0.028499066829681396, "train_loss_bc": 0.007481770124286413, "train_loss_llm": 0.21017295122146606, "grad_norm": 0.41896161437034607, "global_step": 1390, "epoch": 5, "lr": 0.009999251161581913}
+{"train_loss": 0.039824143052101135, "train_loss_bc": 0.013618982397019863, "train_loss_llm": 0.26205161213874817, "grad_norm": 0.4802687168121338, "global_step": 1391, "epoch": 5, "lr": 0.009999251161581913}
+{"train_loss": 0.04070042073726654, "train_loss_bc": 0.0193815678358078, "train_loss_llm": 0.21318849921226501, "grad_norm": 0.5480840802192688, "global_step": 1392, "epoch": 5, "lr": 0.009999242001795533}
+{"train_loss": 0.04389017075300217, "train_loss_bc": 0.015035226941108704, "train_loss_llm": 0.28854942321777344, "grad_norm": 0.2295444905757904, "global_step": 1393, "epoch": 5, "lr": 0.009999242001795533}
+{"train_loss": 0.03622205927968025, "train_loss_bc": 0.009094451554119587, "train_loss_llm": 0.27127605676651, "grad_norm": 0.3797299265861511, "global_step": 1394, "epoch": 5, "lr": 0.009999242001795533}
+{"train_loss": 0.035829879343509674, "train_loss_bc": 0.009183339774608612, "train_loss_llm": 0.26646536588668823, "grad_norm": 0.4462945759296417, "global_step": 1395, "epoch": 5, "lr": 0.009999242001795533}
+{"train_loss": 0.03874406963586807, "train_loss_bc": 0.01055302657186985, "train_loss_llm": 0.28191041946411133, "grad_norm": 0.5898011922836304, "global_step": 1396, "epoch": 5, "lr": 0.009999242001795533}
+{"train_loss": 0.03495929017663002, "train_loss_bc": 0.008062642998993397, "train_loss_llm": 0.2689664661884308, "grad_norm": 0.6904608607292175, "global_step": 1397, "epoch": 5, "lr": 0.009999242001795533}
+{"train_loss": 0.03142569959163666, "train_loss_bc": 0.006545845419168472, "train_loss_llm": 0.24879854917526245, "grad_norm": 0.905317485332489, "global_step": 1398, "epoch": 5, "lr": 0.009999242001795533}
+{"train_loss": 0.04604537785053253, "train_loss_bc": 0.008401567116379738, "train_loss_llm": 0.37643808126449585, "grad_norm": 0.9969571232795715, "global_step": 1399, "epoch": 5, "lr": 0.009999242001795533}
+{"train_loss": 0.03219814971089363, "train_loss_bc": 0.011049372144043446, "train_loss_llm": 0.2114877700805664, "grad_norm": 1.1438814401626587, "global_step": 1400, "epoch": 5, "lr": 0.009999232786332204}
+{"train_loss": 0.03413103520870209, "train_loss_bc": 0.008203275501728058, "train_loss_llm": 0.2592775821685791, "grad_norm": 0.22828760743141174, "global_step": 1401, "epoch": 5, "lr": 0.009999232786332204}
+{"train_loss": 0.03176411613821983, "train_loss_bc": 0.006644852925091982, "train_loss_llm": 0.2511926293373108, "grad_norm": 0.3569351136684418, "global_step": 1402, "epoch": 5, "lr": 0.009999232786332204}
+{"train_loss": 0.03069990500807762, "train_loss_bc": 0.007847261615097523, "train_loss_llm": 0.22852644324302673, "grad_norm": 0.4557982087135315, "global_step": 1403, "epoch": 5, "lr": 0.009999232786332204}
+{"train_loss": 0.0309953261166811, "train_loss_bc": 0.003757718950510025, "train_loss_llm": 0.27237606048583984, "grad_norm": 0.6394559144973755, "global_step": 1404, "epoch": 5, "lr": 0.009999232786332204}
+{"train_loss": 0.03238685429096222, "train_loss_bc": 0.0072328876703977585, "train_loss_llm": 0.2515396475791931, "grad_norm": 0.7436942458152771, "global_step": 1405, "epoch": 5, "lr": 0.009999232786332204}
+{"train_loss": 0.02921445667743683, "train_loss_bc": 0.006490270607173443, "train_loss_llm": 0.22724184393882751, "grad_norm": 0.9183931350708008, "global_step": 1406, "epoch": 5, "lr": 0.009999232786332204}
+{"train_loss": 0.037105683237314224, "train_loss_bc": 0.009408777579665184, "train_loss_llm": 0.2769690454006195, "grad_norm": 0.9847593307495117, "global_step": 1407, "epoch": 5, "lr": 0.009999232786332204}
+{"train_loss": 0.029142653569579124, "train_loss_bc": 0.004531234968453646, "train_loss_llm": 0.24611419439315796, "grad_norm": 1.2115015983581543, "global_step": 1408, "epoch": 5, "lr": 0.009999223515192033}
+{"train_loss": 0.023448238149285316, "train_loss_bc": 0.0039449576288461685, "train_loss_llm": 0.19503280520439148, "grad_norm": 0.13709813356399536, "global_step": 1409, "epoch": 5, "lr": 0.009999223515192033}
+{"train_loss": 0.023178253322839737, "train_loss_bc": 0.00559019111096859, "train_loss_llm": 0.17588061094284058, "grad_norm": 0.2217748463153839, "global_step": 1410, "epoch": 5, "lr": 0.009999223515192033}
+{"train_loss": 0.024190116673707962, "train_loss_bc": 0.004240364767611027, "train_loss_llm": 0.1994975209236145, "grad_norm": 0.3668437600135803, "global_step": 1411, "epoch": 5, "lr": 0.009999223515192033}
+{"train_loss": 0.02061527408659458, "train_loss_bc": 0.0035296082496643066, "train_loss_llm": 0.17085665464401245, "grad_norm": 0.5007533431053162, "global_step": 1412, "epoch": 5, "lr": 0.009999223515192033}
+{"train_loss": 0.02226262353360653, "train_loss_bc": 0.003815493080765009, "train_loss_llm": 0.18447130918502808, "grad_norm": 0.599315881729126, "global_step": 1413, "epoch": 5, "lr": 0.009999223515192033}
+{"train_loss": 0.02321627549827099, "train_loss_bc": 0.0023890272714197636, "train_loss_llm": 0.20827248692512512, "grad_norm": 0.7869176864624023, "global_step": 1414, "epoch": 5, "lr": 0.009999223515192033}
+{"train_loss": 0.028150804340839386, "train_loss_bc": 0.004652830772101879, "train_loss_llm": 0.2349797487258911, "grad_norm": 0.8918460011482239, "global_step": 1415, "epoch": 5, "lr": 0.009999223515192033}
+{"train_loss": 0.01824117638170719, "train_loss_bc": 0.001923355390317738, "train_loss_llm": 0.1631782054901123, "grad_norm": 1.075838327407837, "global_step": 1416, "epoch": 5, "lr": 0.00999921418837512}
+{"train_loss": 0.02643403597176075, "train_loss_bc": 0.003794225165620446, "train_loss_llm": 0.22639811038970947, "grad_norm": 0.2603829503059387, "global_step": 1417, "epoch": 5, "lr": 0.00999921418837512}
+{"train_loss": 0.02176637575030327, "train_loss_bc": 0.0030003562569618225, "train_loss_llm": 0.18766018748283386, "grad_norm": 0.34176793694496155, "global_step": 1418, "epoch": 5, "lr": 0.00999921418837512}
+{"train_loss": 0.03736897185444832, "train_loss_bc": 0.009401398710906506, "train_loss_llm": 0.2796757221221924, "grad_norm": 0.4856659173965454, "global_step": 1419, "epoch": 5, "lr": 0.00999921418837512}
+{"train_loss": 0.0237446092069149, "train_loss_bc": 0.00393866840749979, "train_loss_llm": 0.19805940985679626, "grad_norm": 0.5459628701210022, "global_step": 1420, "epoch": 5, "lr": 0.00999921418837512}
+{"train_loss": 0.025990372523665428, "train_loss_bc": 0.0040215314365923405, "train_loss_llm": 0.21968841552734375, "grad_norm": 0.6799737215042114, "global_step": 1421, "epoch": 5, "lr": 0.00999921418837512}
+{"train_loss": 0.026149118319153786, "train_loss_bc": 0.005591627210378647, "train_loss_llm": 0.2055748999118805, "grad_norm": 0.8706770539283752, "global_step": 1422, "epoch": 5, "lr": 0.00999921418837512}
+{"train_loss": 0.02401631511747837, "train_loss_bc": 0.004283035174012184, "train_loss_llm": 0.19733279943466187, "grad_norm": 0.958439826965332, "global_step": 1423, "epoch": 5, "lr": 0.00999921418837512}
+{"train_loss": 0.024694668129086494, "train_loss_bc": 0.005624072626233101, "train_loss_llm": 0.19070595502853394, "grad_norm": 1.023452877998352, "global_step": 1424, "epoch": 5, "lr": 0.00999920480588157}
+{"train_loss": 0.030713535845279694, "train_loss_bc": 0.00484949816018343, "train_loss_llm": 0.2586403787136078, "grad_norm": 0.13976868987083435, "global_step": 1425, "epoch": 5, "lr": 0.00999920480588157}
+{"train_loss": 0.03549124300479889, "train_loss_bc": 0.005087861325591803, "train_loss_llm": 0.3040338158607483, "grad_norm": 0.2841067910194397, "global_step": 1426, "epoch": 5, "lr": 0.00999920480588157}
+{"train_loss": 0.0320316609934348, "train_loss_bc": 0.005781476851552725, "train_loss_llm": 0.289397269487381, "grad_norm": 0.4057545065879822, "global_step": 1427, "epoch": 5, "lr": 0.00999920480588157, "train/cumulative_reward": 2.85916735937982, "train/mean_score": 0.3326071312337765, "train/success_rate": 0.0, "test/cumulative_reward": 2.653123699960019, "test/mean_score": 0.31545005458992503, "test/success_rate": 0.0, "val_loss": 0.029683588072657585, "train_action_mse_error": 0.005276723299175501}
+{"train_loss": 0.02876264974474907, "train_loss_bc": 0.0063090575858950615, "train_loss_llm": 0.22453591227531433, "grad_norm": 0.49952825903892517, "global_step": 1428, "epoch": 6, "lr": 0.00999920480588157}
+{"train_loss": 0.02699483186006546, "train_loss_bc": 0.005450722761452198, "train_loss_llm": 0.21544107794761658, "grad_norm": 0.6307442784309387, "global_step": 1429, "epoch": 6, "lr": 0.00999920480588157}
+{"train_loss": 0.03324452042579651, "train_loss_bc": 0.0052039362490177155, "train_loss_llm": 0.28040581941604614, "grad_norm": 0.7247668504714966, "global_step": 1430, "epoch": 6, "lr": 0.00999920480588157}
+{"train_loss": 0.023229578509926796, "train_loss_bc": 0.004527723416686058, "train_loss_llm": 0.18701854348182678, "grad_norm": 0.819676399230957, "global_step": 1431, "epoch": 6, "lr": 0.00999920480588157}
+{"train_loss": 0.03147529065608978, "train_loss_bc": 0.0049812085926532745, "train_loss_llm": 0.2649408280849457, "grad_norm": 1.0296273231506348, "global_step": 1432, "epoch": 6, "lr": 0.009999195367711487}
+{"train_loss": 0.049512412399053574, "train_loss_bc": 0.01456160843372345, "train_loss_llm": 0.34950801730155945, "grad_norm": 0.2146378606557846, "global_step": 1433, "epoch": 6, "lr": 0.009999195367711487}
+{"train_loss": 0.037549667060375214, "train_loss_bc": 0.005156645551323891, "train_loss_llm": 0.3239302337169647, "grad_norm": 0.36275678873062134, "global_step": 1434, "epoch": 6, "lr": 0.009999195367711487}
+{"train_loss": 0.028048735111951828, "train_loss_bc": 0.005679494701325893, "train_loss_llm": 0.2236924171447754, "grad_norm": 0.5035267472267151, "global_step": 1435, "epoch": 6, "lr": 0.009999195367711487}
+{"train_loss": 0.028816640377044678, "train_loss_bc": 0.007068009115755558, "train_loss_llm": 0.21748632192611694, "grad_norm": 0.6417895555496216, "global_step": 1436, "epoch": 6, "lr": 0.009999195367711487}
+{"train_loss": 0.02730356529355049, "train_loss_bc": 0.004716326016932726, "train_loss_llm": 0.22587239742279053, "grad_norm": 0.7841302752494812, "global_step": 1437, "epoch": 6, "lr": 0.009999195367711487}
+{"train_loss": 0.026895122602581978, "train_loss_bc": 0.007347302045673132, "train_loss_llm": 0.19547820091247559, "grad_norm": 0.8642507791519165, "global_step": 1438, "epoch": 6, "lr": 0.009999195367711487}
+{"train_loss": 0.020903948694467545, "train_loss_bc": 0.008286096155643463, "train_loss_llm": 0.1261785328388214, "grad_norm": 0.9013529419898987, "global_step": 1439, "epoch": 6, "lr": 0.009999195367711487}
+{"train_loss": 0.025789562612771988, "train_loss_bc": 0.005733150988817215, "train_loss_llm": 0.20056411623954773, "grad_norm": 1.0383466482162476, "global_step": 1440, "epoch": 6, "lr": 0.009999185873864976}
+{"train_loss": 0.03863412141799927, "train_loss_bc": 0.005787258967757225, "train_loss_llm": 0.3284686505794525, "grad_norm": 0.0799059048295021, "global_step": 1441, "epoch": 6, "lr": 0.009999185873864976}
+{"train_loss": 0.0248777624219656, "train_loss_bc": 0.005629055202007294, "train_loss_llm": 0.19248706102371216, "grad_norm": 0.15063363313674927, "global_step": 1442, "epoch": 6, "lr": 0.009999185873864976}
+{"train_loss": 0.04050522297620773, "train_loss_bc": 0.014240315183997154, "train_loss_llm": 0.2626490592956543, "grad_norm": 0.2125435620546341, "global_step": 1443, "epoch": 6, "lr": 0.009999185873864976}
+{"train_loss": 0.028051242232322693, "train_loss_bc": 0.00468947971239686, "train_loss_llm": 0.2336176335811615, "grad_norm": 0.3087984621524811, "global_step": 1444, "epoch": 6, "lr": 0.009999185873864976}
+{"train_loss": 0.021347995847463608, "train_loss_bc": 0.005413634702563286, "train_loss_llm": 0.15934360027313232, "grad_norm": 0.3571413457393646, "global_step": 1445, "epoch": 6, "lr": 0.009999185873864976}
+{"train_loss": 0.023268574848771095, "train_loss_bc": 0.00673058582469821, "train_loss_llm": 0.16537988185882568, "grad_norm": 0.4389081299304962, "global_step": 1446, "epoch": 6, "lr": 0.009999185873864976}
+{"train_loss": 0.021590933203697205, "train_loss_bc": 0.005818367935717106, "train_loss_llm": 0.15772563219070435, "grad_norm": 0.5035545229911804, "global_step": 1447, "epoch": 6, "lr": 0.009999185873864976}
+{"train_loss": 0.04618687927722931, "train_loss_bc": 0.01766997016966343, "train_loss_llm": 0.2851690948009491, "grad_norm": 0.5447558164596558, "global_step": 1448, "epoch": 6, "lr": 0.009999176324342144}
+{"train_loss": 0.022932952269911766, "train_loss_bc": 0.0033340754453092813, "train_loss_llm": 0.19598877429962158, "grad_norm": 0.16181939840316772, "global_step": 1449, "epoch": 6, "lr": 0.009999176324342144}
+{"train_loss": 0.02274017035961151, "train_loss_bc": 0.0035289532970637083, "train_loss_llm": 0.19211217761039734, "grad_norm": 0.29186463356018066, "global_step": 1450, "epoch": 6, "lr": 0.009999176324342144}
+{"train_loss": 0.017817342653870583, "train_loss_bc": 0.004108130931854248, "train_loss_llm": 0.13709211349487305, "grad_norm": 0.417621374130249, "global_step": 1451, "epoch": 6, "lr": 0.009999176324342144}
+{"train_loss": 0.03239180147647858, "train_loss_bc": 0.009124621748924255, "train_loss_llm": 0.23267176747322083, "grad_norm": 0.6099196076393127, "global_step": 1452, "epoch": 6, "lr": 0.009999176324342144}
+{"train_loss": 0.024378905072808266, "train_loss_bc": 0.004252246115356684, "train_loss_llm": 0.2012665867805481, "grad_norm": 0.8487740159034729, "global_step": 1453, "epoch": 6, "lr": 0.009999176324342144}
+{"train_loss": 0.025099361315369606, "train_loss_bc": 0.00362679292447865, "train_loss_llm": 0.21472567319869995, "grad_norm": 1.0342705249786377, "global_step": 1454, "epoch": 6, "lr": 0.009999176324342144}
+{"train_loss": 0.028448067605495453, "train_loss_bc": 0.003975958563387394, "train_loss_llm": 0.24472108483314514, "grad_norm": 1.3051350116729736, "global_step": 1455, "epoch": 6, "lr": 0.009999176324342144}
+{"train_loss": 0.026029592379927635, "train_loss_bc": 0.002809858648106456, "train_loss_llm": 0.2321973443031311, "grad_norm": 1.5021212100982666, "global_step": 1456, "epoch": 6, "lr": 0.009999166719143096}
+{"train_loss": 0.027013350278139114, "train_loss_bc": 0.00577856320887804, "train_loss_llm": 0.2123478651046753, "grad_norm": 0.06948067247867584, "global_step": 1457, "epoch": 6, "lr": 0.009999166719143096}
+{"train_loss": 0.030206112191081047, "train_loss_bc": 0.007515890058130026, "train_loss_llm": 0.22690221667289734, "grad_norm": 0.20671379566192627, "global_step": 1458, "epoch": 6, "lr": 0.009999166719143096}
+{"train_loss": 0.02969394437968731, "train_loss_bc": 0.008131960406899452, "train_loss_llm": 0.21561983227729797, "grad_norm": 0.26910820603370667, "global_step": 1459, "epoch": 6, "lr": 0.009999166719143096}
+{"train_loss": 0.023637153208255768, "train_loss_bc": 0.0037865405902266502, "train_loss_llm": 0.19850611686706543, "grad_norm": 0.47391992807388306, "global_step": 1460, "epoch": 6, "lr": 0.009999166719143096}
+{"train_loss": 0.03430517017841339, "train_loss_bc": 0.005512945353984833, "train_loss_llm": 0.2879222333431244, "grad_norm": 0.6836780905723572, "global_step": 1461, "epoch": 6, "lr": 0.009999166719143096}
+{"train_loss": 0.028045712038874626, "train_loss_bc": 0.004195920657366514, "train_loss_llm": 0.23849791288375854, "grad_norm": 0.7846605181694031, "global_step": 1462, "epoch": 6, "lr": 0.009999166719143096}
+{"train_loss": 0.0321817472577095, "train_loss_bc": 0.006889411713927984, "train_loss_llm": 0.2529233694076538, "grad_norm": 0.8600821495056152, "global_step": 1463, "epoch": 6, "lr": 0.009999166719143096}
+{"train_loss": 0.03182443603873253, "train_loss_bc": 0.004629333503544331, "train_loss_llm": 0.27195101976394653, "grad_norm": 0.9413804411888123, "global_step": 1464, "epoch": 6, "lr": 0.009999157058267939}
+{"train_loss": 0.026084166020154953, "train_loss_bc": 0.006377570331096649, "train_loss_llm": 0.19706594944000244, "grad_norm": 0.124974824488163, "global_step": 1465, "epoch": 6, "lr": 0.009999157058267939}
+{"train_loss": 0.020622245967388153, "train_loss_bc": 0.00454918947070837, "train_loss_llm": 0.16073057055473328, "grad_norm": 0.2776415944099426, "global_step": 1466, "epoch": 6, "lr": 0.009999157058267939}
+{"train_loss": 0.034554921090602875, "train_loss_bc": 0.007529654540121555, "train_loss_llm": 0.27025267481803894, "grad_norm": 0.40995776653289795, "global_step": 1467, "epoch": 6, "lr": 0.009999157058267939}
+{"train_loss": 0.027989406138658524, "train_loss_bc": 0.004712793044745922, "train_loss_llm": 0.23276612162590027, "grad_norm": 0.5654934048652649, "global_step": 1468, "epoch": 6, "lr": 0.009999157058267939}
+{"train_loss": 0.026474010199308395, "train_loss_bc": 0.007512914482504129, "train_loss_llm": 0.18961095809936523, "grad_norm": 0.6048585176467896, "global_step": 1469, "epoch": 6, "lr": 0.009999157058267939}
+{"train_loss": 0.02624313347041607, "train_loss_bc": 0.00685851089656353, "train_loss_llm": 0.1938462257385254, "grad_norm": 0.7414900064468384, "global_step": 1470, "epoch": 6, "lr": 0.009999157058267939}
+{"train_loss": 0.0302550308406353, "train_loss_bc": 0.0053398627787828445, "train_loss_llm": 0.24915167689323425, "grad_norm": 0.8502386212348938, "global_step": 1471, "epoch": 6, "lr": 0.009999157058267939}
+{"train_loss": 0.030764784663915634, "train_loss_bc": 0.007366416044533253, "train_loss_llm": 0.23398366570472717, "grad_norm": 0.9924536943435669, "global_step": 1472, "epoch": 6, "lr": 0.009999147341716782}
+{"train_loss": 0.025953929871320724, "train_loss_bc": 0.006564476527273655, "train_loss_llm": 0.19389453530311584, "grad_norm": 0.11565007269382477, "global_step": 1473, "epoch": 6, "lr": 0.009999147341716782}
+{"train_loss": 0.023872192949056625, "train_loss_bc": 0.007079682312905788, "train_loss_llm": 0.16792508959770203, "grad_norm": 0.22628961503505707, "global_step": 1474, "epoch": 6, "lr": 0.009999147341716782}
+{"train_loss": 0.025134950876235962, "train_loss_bc": 0.005904686637222767, "train_loss_llm": 0.1923026442527771, "grad_norm": 0.2743682861328125, "global_step": 1475, "epoch": 6, "lr": 0.009999147341716782}
+{"train_loss": 0.031115876510739326, "train_loss_bc": 0.008529968559741974, "train_loss_llm": 0.22585907578468323, "grad_norm": 0.4072839617729187, "global_step": 1476, "epoch": 6, "lr": 0.009999147341716782}
+{"train_loss": 0.025153208523988724, "train_loss_bc": 0.0074123842641711235, "train_loss_llm": 0.17740824818611145, "grad_norm": 0.5189685225486755, "global_step": 1477, "epoch": 6, "lr": 0.009999147341716782}
+{"train_loss": 0.025684751570224762, "train_loss_bc": 0.007363143377006054, "train_loss_llm": 0.18321606516838074, "grad_norm": 0.6179079413414001, "global_step": 1478, "epoch": 6, "lr": 0.009999147341716782}
+{"train_loss": 0.030631696805357933, "train_loss_bc": 0.007343819364905357, "train_loss_llm": 0.23287877440452576, "grad_norm": 0.7235053181648254, "global_step": 1479, "epoch": 6, "lr": 0.009999147341716782}
+{"train_loss": 0.03314115107059479, "train_loss_bc": 0.006872282829135656, "train_loss_llm": 0.26268869638442993, "grad_norm": 0.8143828511238098, "global_step": 1480, "epoch": 6, "lr": 0.009999137569489731}
+{"train_loss": 0.019744835793972015, "train_loss_bc": 0.007777373306453228, "train_loss_llm": 0.11967462301254272, "grad_norm": 0.17474181950092316, "global_step": 1481, "epoch": 6, "lr": 0.009999137569489731}
+{"train_loss": 0.020802706480026245, "train_loss_bc": 0.007167976349592209, "train_loss_llm": 0.13634729385375977, "grad_norm": 0.22665883600711823, "global_step": 1482, "epoch": 6, "lr": 0.009999137569489731}
+{"train_loss": 0.017882119864225388, "train_loss_bc": 0.006757200695574284, "train_loss_llm": 0.111249178647995, "grad_norm": 0.35665687918663025, "global_step": 1483, "epoch": 6, "lr": 0.009999137569489731}
+{"train_loss": 0.015360690653324127, "train_loss_bc": 0.0046144830994307995, "train_loss_llm": 0.107462078332901, "grad_norm": 0.41216540336608887, "global_step": 1484, "epoch": 6, "lr": 0.009999137569489731}
+{"train_loss": 0.01862161047756672, "train_loss_bc": 0.004156420938670635, "train_loss_llm": 0.1446518898010254, "grad_norm": 0.48459556698799133, "global_step": 1485, "epoch": 6, "lr": 0.009999137569489731}
+{"train_loss": 0.029451260343194008, "train_loss_bc": 0.006204899400472641, "train_loss_llm": 0.23246359825134277, "grad_norm": 0.6076544523239136, "global_step": 1486, "epoch": 6, "lr": 0.009999137569489731}
+{"train_loss": 0.02057631127536297, "train_loss_bc": 0.005671377293765545, "train_loss_llm": 0.14904934167861938, "grad_norm": 0.7303235530853271, "global_step": 1487, "epoch": 6, "lr": 0.009999137569489731}
+{"train_loss": 0.01744226925075054, "train_loss_bc": 0.0052345828153193, "train_loss_llm": 0.12207686901092529, "grad_norm": 0.811316728591919, "global_step": 1488, "epoch": 6, "lr": 0.009999127741586896}
+{"train_loss": 0.03299468383193016, "train_loss_bc": 0.0062074121087789536, "train_loss_llm": 0.26787272095680237, "grad_norm": 0.10196986794471741, "global_step": 1489, "epoch": 6, "lr": 0.009999127741586896}
+{"train_loss": 0.031497541815042496, "train_loss_bc": 0.007203311659395695, "train_loss_llm": 0.24294230341911316, "grad_norm": 0.23074238002300262, "global_step": 1490, "epoch": 6, "lr": 0.009999127741586896}
+{"train_loss": 0.03778286278247833, "train_loss_bc": 0.012509718537330627, "train_loss_llm": 0.25273144245147705, "grad_norm": 0.28536173701286316, "global_step": 1491, "epoch": 6, "lr": 0.009999127741586896}
+{"train_loss": 0.02669263631105423, "train_loss_bc": 0.006090525072067976, "train_loss_llm": 0.20602110028266907, "grad_norm": 0.3508187234401703, "global_step": 1492, "epoch": 6, "lr": 0.009999127741586896}
+{"train_loss": 0.031461913138628006, "train_loss_bc": 0.005942977033555508, "train_loss_llm": 0.25518935918807983, "grad_norm": 0.4369741976261139, "global_step": 1493, "epoch": 6, "lr": 0.009999127741586896}
+{"train_loss": 0.02665291540324688, "train_loss_bc": 0.0053350613452494144, "train_loss_llm": 0.21317854523658752, "grad_norm": 0.5424606800079346, "global_step": 1494, "epoch": 6, "lr": 0.009999127741586896}
+{"train_loss": 0.032325226813554764, "train_loss_bc": 0.003856114810332656, "train_loss_llm": 0.28469112515449524, "grad_norm": 0.6507369875907898, "global_step": 1495, "epoch": 6, "lr": 0.009999127741586896}
+{"train_loss": 0.029722163453698158, "train_loss_bc": 0.005129452794790268, "train_loss_llm": 0.245927095413208, "grad_norm": 0.7752335667610168, "global_step": 1496, "epoch": 6, "lr": 0.009999117858008387}
+{"train_loss": 0.03124406188726425, "train_loss_bc": 0.005526466760784388, "train_loss_llm": 0.2571759521961212, "grad_norm": 0.09741614758968353, "global_step": 1497, "epoch": 6, "lr": 0.009999117858008387}
+{"train_loss": 0.03375059738755226, "train_loss_bc": 0.007318942807614803, "train_loss_llm": 0.26431652903556824, "grad_norm": 0.2404000610113144, "global_step": 1498, "epoch": 6, "lr": 0.009999117858008387}
+{"train_loss": 0.03573322296142578, "train_loss_bc": 0.0075894626788794994, "train_loss_llm": 0.28143760561943054, "grad_norm": 0.31348031759262085, "global_step": 1499, "epoch": 6, "lr": 0.009999117858008387}
+{"train_loss": 0.031920790672302246, "train_loss_bc": 0.00601596012711525, "train_loss_llm": 0.2590482831001282, "grad_norm": 0.3815337121486664, "global_step": 1500, "epoch": 6, "lr": 0.009999117858008387}
+{"train_loss": 0.029521813616156578, "train_loss_bc": 0.0038028513081371784, "train_loss_llm": 0.25718963146209717, "grad_norm": 0.4413859248161316, "global_step": 1501, "epoch": 6, "lr": 0.009999117858008387}
+{"train_loss": 0.03845977410674095, "train_loss_bc": 0.004134817980229855, "train_loss_llm": 0.34324952960014343, "grad_norm": 0.5685341954231262, "global_step": 1502, "epoch": 6, "lr": 0.009999117858008387}
+{"train_loss": 0.03228608891367912, "train_loss_bc": 0.008986255154013634, "train_loss_llm": 0.2329983413219452, "grad_norm": 0.6262806057929993, "global_step": 1503, "epoch": 6, "lr": 0.009999117858008387}
+{"train_loss": 0.028879430145025253, "train_loss_bc": 0.008221538737416267, "train_loss_llm": 0.20657891035079956, "grad_norm": 0.6936578154563904, "global_step": 1504, "epoch": 6, "lr": 0.009999107918754314}
+{"train_loss": 0.02387945167720318, "train_loss_bc": 0.005694590043276548, "train_loss_llm": 0.18184861540794373, "grad_norm": 0.11186067759990692, "global_step": 1505, "epoch": 6, "lr": 0.009999107918754314}
+{"train_loss": 0.020302779972553253, "train_loss_bc": 0.004716692492365837, "train_loss_llm": 0.15586087107658386, "grad_norm": 0.1567177176475525, "global_step": 1506, "epoch": 6, "lr": 0.009999107918754314}
+{"train_loss": 0.02329968474805355, "train_loss_bc": 0.0072966329753398895, "train_loss_llm": 0.1600305140018463, "grad_norm": 0.18625955283641815, "global_step": 1507, "epoch": 6, "lr": 0.009999107918754314}
+{"train_loss": 0.021525096148252487, "train_loss_bc": 0.005849993787705898, "train_loss_llm": 0.15675103664398193, "grad_norm": 0.3052147328853607, "global_step": 1508, "epoch": 6, "lr": 0.009999107918754314}
+{"train_loss": 0.025945797562599182, "train_loss_bc": 0.0036820629611611366, "train_loss_llm": 0.2226373553276062, "grad_norm": 0.4690048396587372, "global_step": 1509, "epoch": 6, "lr": 0.009999107918754314}
+{"train_loss": 0.029124196618795395, "train_loss_bc": 0.006122134625911713, "train_loss_llm": 0.23002061247825623, "grad_norm": 0.5822162628173828, "global_step": 1510, "epoch": 6, "lr": 0.009999107918754314}
+{"train_loss": 0.018207810819149017, "train_loss_bc": 0.0037877655122429132, "train_loss_llm": 0.14420044422149658, "grad_norm": 0.6805087327957153, "global_step": 1511, "epoch": 6, "lr": 0.009999107918754314}
+{"train_loss": 0.021983779966831207, "train_loss_bc": 0.003930316306650639, "train_loss_llm": 0.18053463101387024, "grad_norm": 0.761078417301178, "global_step": 1512, "epoch": 6, "lr": 0.009999097923824788}
+{"train_loss": 0.015464584343135357, "train_loss_bc": 0.005546237342059612, "train_loss_llm": 0.09918347001075745, "grad_norm": 0.05283213034272194, "global_step": 1513, "epoch": 6, "lr": 0.009999097923824788}
+{"train_loss": 0.01288445945829153, "train_loss_bc": 0.004836995154619217, "train_loss_llm": 0.08047464489936829, "grad_norm": 0.10631704330444336, "global_step": 1514, "epoch": 6, "lr": 0.009999097923824788}
+{"train_loss": 0.013223418965935707, "train_loss_bc": 0.004187026526778936, "train_loss_llm": 0.09036391973495483, "grad_norm": 0.14913314580917358, "global_step": 1515, "epoch": 6, "lr": 0.009999097923824788}
+{"train_loss": 0.018372470512986183, "train_loss_bc": 0.005103898234665394, "train_loss_llm": 0.13268572092056274, "grad_norm": 0.17054873704910278, "global_step": 1516, "epoch": 6, "lr": 0.009999097923824788}
+{"train_loss": 0.022483211010694504, "train_loss_bc": 0.006710120011121035, "train_loss_llm": 0.15773090720176697, "grad_norm": 0.2428894340991974, "global_step": 1517, "epoch": 6, "lr": 0.009999097923824788}
+{"train_loss": 0.020270030945539474, "train_loss_bc": 0.007532374933362007, "train_loss_llm": 0.12737655639648438, "grad_norm": 0.35393643379211426, "global_step": 1518, "epoch": 6, "lr": 0.009999097923824788}
+{"train_loss": 0.02031068131327629, "train_loss_bc": 0.006631236523389816, "train_loss_llm": 0.13679444789886475, "grad_norm": 0.41405096650123596, "global_step": 1519, "epoch": 6, "lr": 0.009999097923824788}
+{"train_loss": 0.01894344761967659, "train_loss_bc": 0.008664261549711227, "train_loss_llm": 0.10279184579849243, "grad_norm": 0.43108120560646057, "global_step": 1520, "epoch": 6, "lr": 0.009999087873219917}
+{"train_loss": 0.027163658291101456, "train_loss_bc": 0.006085443310439587, "train_loss_llm": 0.21078214049339294, "grad_norm": 0.19523201882839203, "global_step": 1521, "epoch": 6, "lr": 0.009999087873219917}
+{"train_loss": 0.022868245840072632, "train_loss_bc": 0.005047481041401625, "train_loss_llm": 0.1782076358795166, "grad_norm": 0.3678373098373413, "global_step": 1522, "epoch": 6, "lr": 0.009999087873219917}
+{"train_loss": 0.029011530801653862, "train_loss_bc": 0.008315332233905792, "train_loss_llm": 0.206961989402771, "grad_norm": 0.5634908676147461, "global_step": 1523, "epoch": 6, "lr": 0.009999087873219917}
+{"train_loss": 0.030126743018627167, "train_loss_bc": 0.006778338924050331, "train_loss_llm": 0.23348402976989746, "grad_norm": 0.8481053113937378, "global_step": 1524, "epoch": 6, "lr": 0.009999087873219917}
+{"train_loss": 0.03147853538393974, "train_loss_bc": 0.0061121294274926186, "train_loss_llm": 0.2536640465259552, "grad_norm": 0.9556190967559814, "global_step": 1525, "epoch": 6, "lr": 0.009999087873219917}
+{"train_loss": 0.04339924454689026, "train_loss_bc": 0.010230799205601215, "train_loss_llm": 0.3316844403743744, "grad_norm": 1.1561896800994873, "global_step": 1526, "epoch": 6, "lr": 0.009999087873219917}
+{"train_loss": 0.027931038290262222, "train_loss_bc": 0.007336122915148735, "train_loss_llm": 0.20594915747642517, "grad_norm": 1.3252896070480347, "global_step": 1527, "epoch": 6, "lr": 0.009999087873219917}
+{"train_loss": 0.03053763508796692, "train_loss_bc": 0.005524975247681141, "train_loss_llm": 0.25012660026550293, "grad_norm": 1.556809663772583, "global_step": 1528, "epoch": 6, "lr": 0.009999077766939818}
+{"train_loss": 0.04140803962945938, "train_loss_bc": 0.011436069384217262, "train_loss_llm": 0.2997196912765503, "grad_norm": 0.11730846762657166, "global_step": 1529, "epoch": 6, "lr": 0.009999077766939818}
+{"train_loss": 0.03322674706578255, "train_loss_bc": 0.005593632813543081, "train_loss_llm": 0.2763311266899109, "grad_norm": 0.27088662981987, "global_step": 1530, "epoch": 6, "lr": 0.009999077766939818}
+{"train_loss": 0.031873784959316254, "train_loss_bc": 0.006876426748931408, "train_loss_llm": 0.2499735951423645, "grad_norm": 0.4263129234313965, "global_step": 1531, "epoch": 6, "lr": 0.009999077766939818}
+{"train_loss": 0.025752127170562744, "train_loss_bc": 0.006882956251502037, "train_loss_llm": 0.18869170546531677, "grad_norm": 0.5359915494918823, "global_step": 1532, "epoch": 6, "lr": 0.009999077766939818}
+{"train_loss": 0.036576852202415466, "train_loss_bc": 0.006120189093053341, "train_loss_llm": 0.3045666217803955, "grad_norm": 0.6744341254234314, "global_step": 1533, "epoch": 6, "lr": 0.009999077766939818}
+{"train_loss": 0.03353596106171608, "train_loss_bc": 0.0060241008177399635, "train_loss_llm": 0.2751185894012451, "grad_norm": 0.7914673686027527, "global_step": 1534, "epoch": 6, "lr": 0.009999077766939818}
+{"train_loss": 0.032055921852588654, "train_loss_bc": 0.0045896293595433235, "train_loss_llm": 0.27466291189193726, "grad_norm": 0.9680130481719971, "global_step": 1535, "epoch": 6, "lr": 0.009999077766939818}
+{"train_loss": 0.036483604460954666, "train_loss_bc": 0.0055415211245417595, "train_loss_llm": 0.3094208240509033, "grad_norm": 1.1335076093673706, "global_step": 1536, "epoch": 6, "lr": 0.0099990676049846}
+{"train_loss": 0.03181612119078636, "train_loss_bc": 0.006206298712641001, "train_loss_llm": 0.256098210811615, "grad_norm": 0.07270384579896927, "global_step": 1537, "epoch": 6, "lr": 0.0099990676049846}
+{"train_loss": 0.03248134255409241, "train_loss_bc": 0.004769349470734596, "train_loss_llm": 0.277119904756546, "grad_norm": 0.1727459728717804, "global_step": 1538, "epoch": 6, "lr": 0.0099990676049846}
+{"train_loss": 0.028495559468865395, "train_loss_bc": 0.005735984072089195, "train_loss_llm": 0.2275957465171814, "grad_norm": 0.263871967792511, "global_step": 1539, "epoch": 6, "lr": 0.0099990676049846}
+{"train_loss": 0.030023949220776558, "train_loss_bc": 0.004755609203130007, "train_loss_llm": 0.2526834011077881, "grad_norm": 0.37772420048713684, "global_step": 1540, "epoch": 6, "lr": 0.0099990676049846}
+{"train_loss": 0.024644389748573303, "train_loss_bc": 0.005481270141899586, "train_loss_llm": 0.19163119792938232, "grad_norm": 0.4680768549442291, "global_step": 1541, "epoch": 6, "lr": 0.0099990676049846}
+{"train_loss": 0.024238266050815582, "train_loss_bc": 0.005881981458514929, "train_loss_llm": 0.18356284499168396, "grad_norm": 0.527355968952179, "global_step": 1542, "epoch": 6, "lr": 0.0099990676049846}
+{"train_loss": 0.031048737466335297, "train_loss_bc": 0.0064391279593110085, "train_loss_llm": 0.24609607458114624, "grad_norm": 0.6306213736534119, "global_step": 1543, "epoch": 6, "lr": 0.0099990676049846}
+{"train_loss": 0.035063955932855606, "train_loss_bc": 0.005923514254391193, "train_loss_llm": 0.2914043962955475, "grad_norm": 0.7355419397354126, "global_step": 1544, "epoch": 6, "lr": 0.009999057387354378}
+{"train_loss": 0.027687108144164085, "train_loss_bc": 0.005699848290532827, "train_loss_llm": 0.2198725938796997, "grad_norm": 0.10090988874435425, "global_step": 1545, "epoch": 6, "lr": 0.009999057387354378}
+{"train_loss": 0.028226414695382118, "train_loss_bc": 0.004015774000436068, "train_loss_llm": 0.24210640788078308, "grad_norm": 0.28619831800460815, "global_step": 1546, "epoch": 6, "lr": 0.009999057387354378}
+{"train_loss": 0.03370419889688492, "train_loss_bc": 0.00487668439745903, "train_loss_llm": 0.2882751524448395, "grad_norm": 0.5193857550621033, "global_step": 1547, "epoch": 6, "lr": 0.009999057387354378}
+{"train_loss": 0.020128373056650162, "train_loss_bc": 0.004924319218844175, "train_loss_llm": 0.1520405411720276, "grad_norm": 0.6887773871421814, "global_step": 1548, "epoch": 6, "lr": 0.009999057387354378}
+{"train_loss": 0.02559824287891388, "train_loss_bc": 0.005892678163945675, "train_loss_llm": 0.1970556378364563, "grad_norm": 0.8118118643760681, "global_step": 1549, "epoch": 6, "lr": 0.009999057387354378}
+{"train_loss": 0.03188361972570419, "train_loss_bc": 0.005690170451998711, "train_loss_llm": 0.2619344890117645, "grad_norm": 0.9415908455848694, "global_step": 1550, "epoch": 6, "lr": 0.009999057387354378}
+{"train_loss": 0.02767275646328926, "train_loss_bc": 0.006424693390727043, "train_loss_llm": 0.21248063445091248, "grad_norm": 1.0676329135894775, "global_step": 1551, "epoch": 6, "lr": 0.009999057387354378}
+{"train_loss": 0.03136828541755676, "train_loss_bc": 0.00782856810837984, "train_loss_llm": 0.23539716005325317, "grad_norm": 1.1927216053009033, "global_step": 1552, "epoch": 6, "lr": 0.009999047114049264}
+{"train_loss": 0.026768887415528297, "train_loss_bc": 0.0052314456552267075, "train_loss_llm": 0.2153744101524353, "grad_norm": 0.13739113509655, "global_step": 1553, "epoch": 6, "lr": 0.009999047114049264}
+{"train_loss": 0.022683022543787956, "train_loss_bc": 0.00480363704264164, "train_loss_llm": 0.17879384756088257, "grad_norm": 0.21784181892871857, "global_step": 1554, "epoch": 6, "lr": 0.009999047114049264}
+{"train_loss": 0.03183610364794731, "train_loss_bc": 0.011641668155789375, "train_loss_llm": 0.20194435119628906, "grad_norm": 0.3129834234714508, "global_step": 1555, "epoch": 6, "lr": 0.009999047114049264}
+{"train_loss": 0.026360098272562027, "train_loss_bc": 0.004706889390945435, "train_loss_llm": 0.21653208136558533, "grad_norm": 0.4238831698894501, "global_step": 1556, "epoch": 6, "lr": 0.009999047114049264}
+{"train_loss": 0.033066295087337494, "train_loss_bc": 0.0054596890695393085, "train_loss_llm": 0.2760660648345947, "grad_norm": 0.7103172540664673, "global_step": 1557, "epoch": 6, "lr": 0.009999047114049264}
+{"train_loss": 0.029223132878541946, "train_loss_bc": 0.011517522856593132, "train_loss_llm": 0.17705610394477844, "grad_norm": 0.811371386051178, "global_step": 1558, "epoch": 6, "lr": 0.009999047114049264}
+{"train_loss": 0.029364392161369324, "train_loss_bc": 0.005364978685975075, "train_loss_llm": 0.2399941384792328, "grad_norm": 0.9643488526344299, "global_step": 1559, "epoch": 6, "lr": 0.009999047114049264}
+{"train_loss": 0.03054298833012581, "train_loss_bc": 0.006712485570460558, "train_loss_llm": 0.23830503225326538, "grad_norm": 1.0477415323257446, "global_step": 1560, "epoch": 6, "lr": 0.009999036785069373}
+{"train_loss": 0.03194284066557884, "train_loss_bc": 0.004672967363148928, "train_loss_llm": 0.2726987302303314, "grad_norm": 0.1244194284081459, "global_step": 1561, "epoch": 6, "lr": 0.009999036785069373}
+{"train_loss": 0.029460646212100983, "train_loss_bc": 0.007554719224572182, "train_loss_llm": 0.21905925869941711, "grad_norm": 0.1752670705318451, "global_step": 1562, "epoch": 6, "lr": 0.009999036785069373}
+{"train_loss": 0.034754134714603424, "train_loss_bc": 0.01229288149625063, "train_loss_llm": 0.2246125340461731, "grad_norm": 0.272734671831131, "global_step": 1563, "epoch": 6, "lr": 0.009999036785069373}
+{"train_loss": 0.03185298666357994, "train_loss_bc": 0.004267982207238674, "train_loss_llm": 0.2758500576019287, "grad_norm": 0.38310062885284424, "global_step": 1564, "epoch": 6, "lr": 0.009999036785069373}
+{"train_loss": 0.023530395701527596, "train_loss_bc": 0.0041008759289979935, "train_loss_llm": 0.19429519772529602, "grad_norm": 0.4755116403102875, "global_step": 1565, "epoch": 6, "lr": 0.009999036785069373}
+{"train_loss": 0.024882245808839798, "train_loss_bc": 0.0048996866680681705, "train_loss_llm": 0.19982558488845825, "grad_norm": 0.591612696647644, "global_step": 1566, "epoch": 6, "lr": 0.009999036785069373}
+{"train_loss": 0.03432704880833626, "train_loss_bc": 0.004006984177976847, "train_loss_llm": 0.3032006323337555, "grad_norm": 0.7035738825798035, "global_step": 1567, "epoch": 6, "lr": 0.009999036785069373}
+{"train_loss": 0.027455132454633713, "train_loss_bc": 0.00491176825016737, "train_loss_llm": 0.22543364763259888, "grad_norm": 0.8877437114715576, "global_step": 1568, "epoch": 6, "lr": 0.00999902640041482}
+{"train_loss": 0.01778450980782509, "train_loss_bc": 0.003655819222331047, "train_loss_llm": 0.1412869095802307, "grad_norm": 0.08068782836198807, "global_step": 1569, "epoch": 6, "lr": 0.00999902640041482}
+{"train_loss": 0.023671047762036324, "train_loss_bc": 0.005885961931198835, "train_loss_llm": 0.1778508424758911, "grad_norm": 0.2306274175643921, "global_step": 1570, "epoch": 6, "lr": 0.00999902640041482}
+{"train_loss": 0.02336498349905014, "train_loss_bc": 0.004666260909289122, "train_loss_llm": 0.18698722124099731, "grad_norm": 0.3068319261074066, "global_step": 1571, "epoch": 6, "lr": 0.00999902640041482}
+{"train_loss": 0.025945445522665977, "train_loss_bc": 0.0037844148464500904, "train_loss_llm": 0.22161030769348145, "grad_norm": 0.40010273456573486, "global_step": 1572, "epoch": 6, "lr": 0.00999902640041482}
+{"train_loss": 0.022483695298433304, "train_loss_bc": 0.00597000028938055, "train_loss_llm": 0.16513696312904358, "grad_norm": 0.49221155047416687, "global_step": 1573, "epoch": 6, "lr": 0.00999902640041482}
+{"train_loss": 0.0309743694961071, "train_loss_bc": 0.003928990103304386, "train_loss_llm": 0.2704537808895111, "grad_norm": 0.6385653018951416, "global_step": 1574, "epoch": 6, "lr": 0.00999902640041482}
+{"train_loss": 0.023410797119140625, "train_loss_bc": 0.004181503318250179, "train_loss_llm": 0.1922929286956787, "grad_norm": 0.7440690398216248, "global_step": 1575, "epoch": 6, "lr": 0.00999902640041482}
+{"train_loss": 0.020420504733920097, "train_loss_bc": 0.005334417335689068, "train_loss_llm": 0.15086087584495544, "grad_norm": 0.7647855281829834, "global_step": 1576, "epoch": 6, "lr": 0.009999015960085724}
+{"train_loss": 0.037958644330501556, "train_loss_bc": 0.007680748589336872, "train_loss_llm": 0.302778959274292, "grad_norm": 0.22476066648960114, "global_step": 1577, "epoch": 6, "lr": 0.009999015960085724}
+{"train_loss": 0.030534883961081505, "train_loss_bc": 0.004648481961339712, "train_loss_llm": 0.25886401534080505, "grad_norm": 0.43010851740837097, "global_step": 1578, "epoch": 6, "lr": 0.009999015960085724}
+{"train_loss": 0.02734905667603016, "train_loss_bc": 0.005421899259090424, "train_loss_llm": 0.21927157044410706, "grad_norm": 0.5953987836837769, "global_step": 1579, "epoch": 6, "lr": 0.009999015960085724}
+{"train_loss": 0.024261586368083954, "train_loss_bc": 0.003684217343106866, "train_loss_llm": 0.20577368140220642, "grad_norm": 0.8612161874771118, "global_step": 1580, "epoch": 6, "lr": 0.009999015960085724}
+{"train_loss": 0.024004153907299042, "train_loss_bc": 0.004989960230886936, "train_loss_llm": 0.19014191627502441, "grad_norm": 1.0651624202728271, "global_step": 1581, "epoch": 6, "lr": 0.009999015960085724}
+{"train_loss": 0.02246047928929329, "train_loss_bc": 0.005139464978128672, "train_loss_llm": 0.17321014404296875, "grad_norm": 1.2075364589691162, "global_step": 1582, "epoch": 6, "lr": 0.009999015960085724}
+{"train_loss": 0.023551305755972862, "train_loss_bc": 0.00366435619071126, "train_loss_llm": 0.1988694965839386, "grad_norm": 1.4180282354354858, "global_step": 1583, "epoch": 6, "lr": 0.009999015960085724}
+{"train_loss": 0.026109974831342697, "train_loss_bc": 0.006562524475157261, "train_loss_llm": 0.1954745054244995, "grad_norm": 1.5459537506103516, "global_step": 1584, "epoch": 6, "lr": 0.009999005464082196}
+{"train_loss": 0.037225350737571716, "train_loss_bc": 0.009800506755709648, "train_loss_llm": 0.2742484509944916, "grad_norm": 0.1670929491519928, "global_step": 1585, "epoch": 6, "lr": 0.009999005464082196}
+{"train_loss": 0.02597658894956112, "train_loss_bc": 0.00455918163061142, "train_loss_llm": 0.2141740620136261, "grad_norm": 0.2957582175731659, "global_step": 1586, "epoch": 6, "lr": 0.009999005464082196}
+{"train_loss": 0.02849479392170906, "train_loss_bc": 0.007256071083247662, "train_loss_llm": 0.21238723397254944, "grad_norm": 0.40056613087654114, "global_step": 1587, "epoch": 6, "lr": 0.009999005464082196}
+{"train_loss": 0.03252096101641655, "train_loss_bc": 0.004527000710368156, "train_loss_llm": 0.27993959188461304, "grad_norm": 0.560232937335968, "global_step": 1588, "epoch": 6, "lr": 0.009999005464082196}
+{"train_loss": 0.02595669776201248, "train_loss_bc": 0.007715784013271332, "train_loss_llm": 0.1824091374874115, "grad_norm": 0.6616591811180115, "global_step": 1589, "epoch": 6, "lr": 0.009999005464082196}
+{"train_loss": 0.02624388039112091, "train_loss_bc": 0.004330301657319069, "train_loss_llm": 0.21913579106330872, "grad_norm": 0.8191702365875244, "global_step": 1590, "epoch": 6, "lr": 0.009999005464082196}
+{"train_loss": 0.022107932716608047, "train_loss_bc": 0.004798200912773609, "train_loss_llm": 0.17309731245040894, "grad_norm": 0.9233896136283875, "global_step": 1591, "epoch": 6, "lr": 0.009999005464082196}
+{"train_loss": 0.029431425034999847, "train_loss_bc": 0.006585412658751011, "train_loss_llm": 0.2284601330757141, "grad_norm": 1.062842845916748, "global_step": 1592, "epoch": 6, "lr": 0.009998994912404358}
+{"train_loss": 0.0337534137070179, "train_loss_bc": 0.011023733764886856, "train_loss_llm": 0.22729679942131042, "grad_norm": 0.18069906532764435, "global_step": 1593, "epoch": 6, "lr": 0.009998994912404358}
+{"train_loss": 0.02978404052555561, "train_loss_bc": 0.007130013313144445, "train_loss_llm": 0.22654026746749878, "grad_norm": 0.18154430389404297, "global_step": 1594, "epoch": 6, "lr": 0.009998994912404358}
+{"train_loss": 0.026155369356274605, "train_loss_bc": 0.0035653449594974518, "train_loss_llm": 0.22590023279190063, "grad_norm": 0.2333301454782486, "global_step": 1595, "epoch": 6, "lr": 0.009998994912404358}
+{"train_loss": 0.03347986191511154, "train_loss_bc": 0.008400613442063332, "train_loss_llm": 0.2507925033569336, "grad_norm": 0.3268721401691437, "global_step": 1596, "epoch": 6, "lr": 0.009998994912404358}
+{"train_loss": 0.0337010994553566, "train_loss_bc": 0.00905749574303627, "train_loss_llm": 0.24643602967262268, "grad_norm": 0.4752916097640991, "global_step": 1597, "epoch": 6, "lr": 0.009998994912404358}
+{"train_loss": 0.024593302980065346, "train_loss_bc": 0.007472858298569918, "train_loss_llm": 0.17120444774627686, "grad_norm": 0.5437787771224976, "global_step": 1598, "epoch": 6, "lr": 0.009998994912404358}
+{"train_loss": 0.038073644042015076, "train_loss_bc": 0.008437084034085274, "train_loss_llm": 0.2963655889034271, "grad_norm": 0.644096851348877, "global_step": 1599, "epoch": 6, "lr": 0.009998994912404358}
+{"train_loss": 0.028711499646306038, "train_loss_bc": 0.00518700061365962, "train_loss_llm": 0.2352449893951416, "grad_norm": 0.6265798807144165, "global_step": 1600, "epoch": 6, "lr": 0.009998984305052323}
+{"train_loss": 0.031212979927659035, "train_loss_bc": 0.006712242495268583, "train_loss_llm": 0.24500736594200134, "grad_norm": 0.22115705907344818, "global_step": 1601, "epoch": 6, "lr": 0.009998984305052323}
+{"train_loss": 0.032647088170051575, "train_loss_bc": 0.006311951205134392, "train_loss_llm": 0.26335135102272034, "grad_norm": 0.407306432723999, "global_step": 1602, "epoch": 6, "lr": 0.009998984305052323}
+{"train_loss": 0.036656491458415985, "train_loss_bc": 0.006612392608076334, "train_loss_llm": 0.3004409968852997, "grad_norm": 0.5576453804969788, "global_step": 1603, "epoch": 6, "lr": 0.009998984305052323}
+{"train_loss": 0.02508545108139515, "train_loss_bc": 0.00623383978381753, "train_loss_llm": 0.18851611018180847, "grad_norm": 0.7294556498527527, "global_step": 1604, "epoch": 6, "lr": 0.009998984305052323}
+{"train_loss": 0.02900633029639721, "train_loss_bc": 0.006779054645448923, "train_loss_llm": 0.22227275371551514, "grad_norm": 0.7908856868743896, "global_step": 1605, "epoch": 6, "lr": 0.009998984305052323}
+{"train_loss": 0.032575253397226334, "train_loss_bc": 0.0064678252674639225, "train_loss_llm": 0.2610742747783661, "grad_norm": 0.9106886386871338, "global_step": 1606, "epoch": 6, "lr": 0.009998984305052323}
+{"train_loss": 0.02870979905128479, "train_loss_bc": 0.006199725903570652, "train_loss_llm": 0.22510072588920593, "grad_norm": 1.0951145887374878, "global_step": 1607, "epoch": 6, "lr": 0.009998984305052323}
+{"train_loss": 0.028588348999619484, "train_loss_bc": 0.006643340457230806, "train_loss_llm": 0.21945008635520935, "grad_norm": 1.20938241481781, "global_step": 1608, "epoch": 6, "lr": 0.00999897364202621}
+{"train_loss": 0.04046953469514847, "train_loss_bc": 0.00945882499217987, "train_loss_llm": 0.3101070821285248, "grad_norm": 0.12463454902172089, "global_step": 1609, "epoch": 6, "lr": 0.00999897364202621}
+{"train_loss": 0.02725253254175186, "train_loss_bc": 0.0047339024022221565, "train_loss_llm": 0.225186288356781, "grad_norm": 0.224866583943367, "global_step": 1610, "epoch": 6, "lr": 0.00999897364202621}
+{"train_loss": 0.02496688812971115, "train_loss_bc": 0.005752653814852238, "train_loss_llm": 0.1921423375606537, "grad_norm": 0.31281617283821106, "global_step": 1611, "epoch": 6, "lr": 0.00999897364202621}
+{"train_loss": 0.0291306059807539, "train_loss_bc": 0.0037185936234891415, "train_loss_llm": 0.2541201114654541, "grad_norm": 0.48151782155036926, "global_step": 1612, "epoch": 6, "lr": 0.00999897364202621}
+{"train_loss": 0.024687832221388817, "train_loss_bc": 0.004377030301839113, "train_loss_llm": 0.203108012676239, "grad_norm": 0.7118339538574219, "global_step": 1613, "epoch": 6, "lr": 0.00999897364202621}
+{"train_loss": 0.03006935678422451, "train_loss_bc": 0.0056930058635771275, "train_loss_llm": 0.2437635064125061, "grad_norm": 0.7695094347000122, "global_step": 1614, "epoch": 6, "lr": 0.00999897364202621}
+{"train_loss": 0.024765804409980774, "train_loss_bc": 0.006354580633342266, "train_loss_llm": 0.18411225080490112, "grad_norm": 0.9029211401939392, "global_step": 1615, "epoch": 6, "lr": 0.00999897364202621}
+{"train_loss": 0.03238479420542717, "train_loss_bc": 0.003488076850771904, "train_loss_llm": 0.28896716237068176, "grad_norm": 1.0909298658370972, "global_step": 1616, "epoch": 6, "lr": 0.00999896292332614}
+{"train_loss": 0.020786020904779434, "train_loss_bc": 0.003966986201703548, "train_loss_llm": 0.16819033026695251, "grad_norm": 0.050736140459775925, "global_step": 1617, "epoch": 6, "lr": 0.00999896292332614}
+{"train_loss": 0.020730530843138695, "train_loss_bc": 0.003312180982902646, "train_loss_llm": 0.17418348789215088, "grad_norm": 0.1028846800327301, "global_step": 1618, "epoch": 6, "lr": 0.00999896292332614}
+{"train_loss": 0.015838641673326492, "train_loss_bc": 0.0028526366222649813, "train_loss_llm": 0.1298600435256958, "grad_norm": 0.1725258231163025, "global_step": 1619, "epoch": 6, "lr": 0.00999896292332614}
+{"train_loss": 0.025459520518779755, "train_loss_bc": 0.004645378328859806, "train_loss_llm": 0.20814141631126404, "grad_norm": 0.27720797061920166, "global_step": 1620, "epoch": 6, "lr": 0.00999896292332614}
+{"train_loss": 0.021981915459036827, "train_loss_bc": 0.008357342332601547, "train_loss_llm": 0.1362457275390625, "grad_norm": 0.3234039545059204, "global_step": 1621, "epoch": 6, "lr": 0.00999896292332614}
+{"train_loss": 0.025341782718896866, "train_loss_bc": 0.005585717968642712, "train_loss_llm": 0.1975606381893158, "grad_norm": 0.4000795781612396, "global_step": 1622, "epoch": 6, "lr": 0.00999896292332614}
+{"train_loss": 0.02110619843006134, "train_loss_bc": 0.0036036698147654533, "train_loss_llm": 0.17502528429031372, "grad_norm": 0.5010029673576355, "global_step": 1623, "epoch": 6, "lr": 0.00999896292332614}
+{"train_loss": 0.021571125835180283, "train_loss_bc": 0.004996693693101406, "train_loss_llm": 0.16574430465698242, "grad_norm": 0.5128525495529175, "global_step": 1624, "epoch": 6, "lr": 0.009998952148952231}
+{"train_loss": 0.024142907932400703, "train_loss_bc": 0.004893966484814882, "train_loss_llm": 0.1924894154071808, "grad_norm": 0.2886955738067627, "global_step": 1625, "epoch": 6, "lr": 0.009998952148952231}
+{"train_loss": 0.023479241877794266, "train_loss_bc": 0.0047437227331101894, "train_loss_llm": 0.1873551905155182, "grad_norm": 0.5079124569892883, "global_step": 1626, "epoch": 6, "lr": 0.009998952148952231}
+{"train_loss": 0.020918022841215134, "train_loss_bc": 0.003873152658343315, "train_loss_llm": 0.1704486906528473, "grad_norm": 0.6577025651931763, "global_step": 1627, "epoch": 6, "lr": 0.009998952148952231}
+{"train_loss": 0.022095300257205963, "train_loss_bc": 0.0026838425546884537, "train_loss_llm": 0.1941145658493042, "grad_norm": 0.8836537599563599, "global_step": 1628, "epoch": 6, "lr": 0.009998952148952231}
+{"train_loss": 0.024097947403788567, "train_loss_bc": 0.0027286566328257322, "train_loss_llm": 0.21369290351867676, "grad_norm": 1.0799767971038818, "global_step": 1629, "epoch": 6, "lr": 0.009998952148952231}
+{"train_loss": 0.03428267687559128, "train_loss_bc": 0.0097016217187047, "train_loss_llm": 0.24581053853034973, "grad_norm": 1.302314043045044, "global_step": 1630, "epoch": 6, "lr": 0.009998952148952231}
diff --git a/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/train.log b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/train.log
new file mode 100644
index 0000000000000000000000000000000000000000..5f11cb825048054fbfdf7a9e157e5ce18fb472b6
--- /dev/null
+++ b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/train.log
@@ -0,0 +1,8 @@
+[2026-01-21 13:27:32,737][numexpr.utils][INFO] - Note: detected 112 virtual cores but NumExpr set to maximum of 64, check "NUMEXPR_MAX_THREADS" environment variable.
+[2026-01-21 13:27:32,737][numexpr.utils][INFO] - Note: NumExpr detected 112 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
+[2026-01-21 13:27:32,737][numexpr.utils][INFO] - NumExpr defaulting to 16 threads.
+[2026-01-21 13:27:39,143][datasets][INFO] - PyTorch version 2.2.2 available.
+[2026-01-21 13:27:39,144][datasets][INFO] - TensorFlow version 2.15.1 available.
+[2026-01-21 13:27:39,145][datasets][INFO] - JAX version 0.4.30 available.
+[2026-01-21 13:27:47,555][absl][INFO] - MUJOCO_GL=osmesa, attempting to import specified OpenGL backend.
+[2026-01-21 13:27:47,565][absl][INFO] - MuJoCo library version is: 2.3.7
diff --git a/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/debug-internal.log b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..4beba5efb6579c3d9ea655b6790cd4a01c96e6d8
--- /dev/null
+++ b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2026-01-21T13:27:48.567887464+08:00","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2026-01-21T13:27:48.567900498+08:00","level":"INFO","msg":"created symlink","path":"/work/u1131674/LLM-BC/data/outputs/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/logs/debug-core.log"}
+{"time":"2026-01-21T13:27:48.684713019+08:00","level":"INFO","msg":"created new stream","id":"8pqnk39p"}
+{"time":"2026-01-21T13:27:48.6847461+08:00","level":"INFO","msg":"stream: started","id":"8pqnk39p"}
+{"time":"2026-01-21T13:27:48.684769968+08:00","level":"INFO","msg":"sender: started","stream_id":"8pqnk39p"}
+{"time":"2026-01-21T13:27:48.684769516+08:00","level":"INFO","msg":"handler: started","stream_id":{"value":"8pqnk39p"}}
+{"time":"2026-01-21T13:27:48.684761474+08:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"8pqnk39p"}}
+{"time":"2026-01-21T13:27:49.256794885+08:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/debug.log b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..88f7354fddd911496646c2dc2b5ffe8bd7ea7cbd
--- /dev/null
+++ b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/debug.log
@@ -0,0 +1,26 @@
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_setup.py:_flush():79] Configure stats pid to 1902230
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_setup.py:_flush():79] Loading settings from /home/u1131674/.config/wandb/settings
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_setup.py:_flush():79] Loading settings from /work/u1131674/LLM-BC/wandb/settings
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/work/u1131674/LLM-BC/train.py', 'program': '/work/u1131674/LLM-BC/./train.py'}
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_setup.py:_flush():79] Applying login settings: {}
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_init.py:_log_setup():533] Logging user logs to /work/u1131674/LLM-BC/data/outputs/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/logs/debug.log
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_init.py:_log_setup():534] Logging internal logs to /work/u1131674/LLM-BC/data/outputs/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/logs/debug-internal.log
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_init.py:init():619] calling init triggers
+2026-01-21 13:27:48,564 INFO    MainThread:1902230 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llmbc_lowdim', '_target_': 'llmbc.workspace.train_llmbc_lowdim_workspace.TrainLLMBCLowdimWorkspace', 'obs_dim': 9, 'action_dim': 4, 'task_name': 'box-close-v2', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llmbc_lowdim_policy.LLMBCLowdimPolicy', 'model': {'_target_': 'llmbc.model.policy.policy_mlp.PolicyMLP', 'input_size': 9, 'hidden_size': [256, 256], 'output_size': 4, 'activation': 'relu', 'n_obs_steps': 1, 'n_action_steps': 1}, 'obs_dim': 9, 'action_dim': 4, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'box-close-v2', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2026.01.21/13.27.30_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 9, 'action_dim': 4, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_bc_weight': 1.0, 'loss_llm_weight': 0.1, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'normalize_llm_loss': True}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.01, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 42, 'debug': False, 'resume': False, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 10, 'num_epochs': 1001, 'gradient_accumulate_every': 8, 'grad_norm_clip': 0.5, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'sample_max_batch': 128, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'box-close-v2-training', 'resume': True, 'mode': 'online', 'name': '2026.01.21-13.27.30_train_llmbc_lowdim_box-close-v2', 'tags': ['train_llmbc_lowdim', 'box-close-v2', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2', 'wandb_name_base': '2026.01.21-13.27.30_train_llmbc_lowdim_box-close-v2'}, 'task': {'name': 'box-close-v2', 'obs_dim': 9, 'action_dim': 4, 'env_runner': {'_target_': 'llmbc.env_runner.metaworld_lowdim_runner.MetaworldLowdimRunner', 'env_name': 'llf-metaworld-box-close-v2', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 30, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.9}, 'dataset': {'_target_': 'llmbc.dataset.metaworld_lowdim_dataset.MetaworldLowdimDataset', 'data_path': 'datasets/box-close-v2.pt', 'data_path2': 'datasets/box-close-v2.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.1, 'dummy_normalizer': True}, 'instructor': {'_target_': 'llmbc.translator.instructor.metaworld_instructor.box_close_v2_instructor.BoxCloseV2Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2026.01.21/13.27.30_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2026-01-21 13:27:48,564 INFO    MainThread:1902230 [wandb_init.py:init():669] starting backend
+2026-01-21 13:27:48,564 INFO    MainThread:1902230 [wandb_init.py:init():673] sending inform_init request
+2026-01-21 13:27:48,565 INFO    MainThread:1902230 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2026-01-21 13:27:48,565 INFO    MainThread:1902230 [wandb_init.py:init():686] backend started and connected
+2026-01-21 13:27:48,575 INFO    MainThread:1902230 [wandb_init.py:init():781] updated telemetry
+2026-01-21 13:27:48,636 INFO    MainThread:1902230 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2026-01-21 13:27:49,252 INFO    MainThread:1902230 [wandb_init.py:init():867] starting run threads in backend
+2026-01-21 13:27:49,782 INFO    MainThread:1902230 [wandb_run.py:_console_start():2451] atexit reg
+2026-01-21 13:27:49,782 INFO    MainThread:1902230 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2026-01-21 13:27:49,782 INFO    MainThread:1902230 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2026-01-21 13:27:49,782 INFO    MainThread:1902230 [wandb_run.py:_redirect():2389] Redirects installed.
+2026-01-21 13:27:49,785 INFO    MainThread:1902230 [wandb_init.py:init():911] run started, returning control to user process
+2026-01-21 13:27:49,785 INFO    MainThread:1902230 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/work/u1131674/LLM-BC/data/outputs/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2'}
diff --git a/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/files/output.log b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/files/output.log
new file mode 100644
index 0000000000000000000000000000000000000000..399396c2598e9ba010b4cb96065744486c85250d
--- /dev/null
+++ b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/files/output.log
@@ -0,0 +1,3 @@
+Eval MetaworldLowdimRunner 1/6:   0%|          | 0/30 [00:00<?, ?it/s]/work/u1131674/LLM-BC/llmbc/common/llfbench_util.py:39: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at ../torch/csrc/utils/tensor_new.cpp:275.)
+  obs = torch.tensor(obs, dtype=torch.float32).unsqueeze(dim=0).to(device)
+Training epoch 6:  84%|████████▍ | 200/238 [00:27<00:05,  7.36it/s, grad_norm=0.658, loss=0.0209] 
diff --git a/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/files/requirements.txt b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/files/requirements.txt
new file mode 100644
index 0000000000000000000000000000000000000000..f07fb3b63f6171592bfb40896c50e7c4e8ebe927
--- /dev/null
+++ b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/files/requirements.txt
@@ -0,0 +1,857 @@
+rpds-py==0.27.1
+typeguard==4.4.4
+flatbuffers==25.12.19
+toppra==0.6.3
+sympy==1.14.0
+tiktoken==0.8.0
+nvidia-cuda-cupti-cu12==12.1.105
+arm_pytorch_utilities==0.4.3
+pynndescent==0.6.0
+multidict==6.7.0
+fonttools==4.60.2
+numexpr==2.10.1
+cmudict==1.0.13
+PyOpenGL-accelerate==3.1.10
+gmpy2==2.2.1
+peft==0.14.0
+metaworld==2.0.0
+nvidia-cufft-cu12==11.0.2.54
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+pexpect==4.9.0
+protobuf==4.25.8
+typing_extensions==4.15.0
+mujoco==2.3.7
+tokenizers==0.21.0
+pytorch-kinematics==0.7.5
+sniffio==1.3.1
+aiofiles==25.1.0
+mplib==0.1.1
+wcwidth==0.2.14
+Pygments==2.19.1
+anyio==4.12.1
+tensorflow-estimator==2.15.0
+filelock==3.17.0
+numpy==1.23.5
+attrs==25.4.0
+Markdown==3.9
+fsspec==2024.3.1
+libclang==18.1.1
+umap-learn==0.5.9.post2
+dill==0.3.8
+narwhals==2.15.0
+tensorboard==2.15.2
+dacite==1.9.2
+termcolor==3.1.0
+llmbc==0.0.0
+python-multipart==0.0.20
+exceptiongroup==1.3.1
+sapien==3.0.0b1
+pygame==2.6.1
+nvidia-curand-cu12==10.3.2.106
+evaluate==0.4.3
+msgpack==1.1.1
+tensorflow-probability==0.23.0
+diffusers==0.31.0
+certifi==2025.10.5
+d4rl==1.1
+pydub==0.25.1
+annotated-doc==0.0.4
+gitdb==4.0.12
+gradio_client==0.2.9
+Shapely==1.8.4
+mani_skill==3.0.0b20
+tensorflow-io-gcs-filesystem==0.37.1
+fasteners==0.20
+hjson==3.1.0
+ninja==1.13.0
+stack-data==0.6.3
+pyarrow==21.0.0
+networkx==3.2.1
+nvidia-cusparse-cu12==12.1.0.106
+pyparsing==3.3.1
+timm==1.0.22
+typing-inspection==0.4.2
+openai==2.8.1
+pybullet==3.2.6
+hydra-core==1.2.0
+gradio==3.36.1
+tensorflow==2.15.1
+asttokens==3.0.1
+importlib-metadata==5.2.0
+astunparse==1.6.3
+tifffile==2024.8.30
+annotated-types==0.7.0
+Bottleneck==1.4.2
+accelerate==1.0.1
+pytz==2025.2
+urllib3==2.5.0
+frozenlist==1.8.0
+sentry-sdk==2.50.0
+jsonschema==4.25.1
+tyro==0.9.1
+Farama-Notifications==0.0.4
+ffmpy==1.0.0
+httpx==0.28.1
+pymunk==6.2.1
+shtab==1.7.2
+glfw==2.0.0
+hf-xet==1.1.8
+omegaconf==2.2.1
+blobfile==3.0.0
+decorator==5.2.1
+cffi==1.17.1
+matplotlib-inline==0.2.1
+eval_type_backport==0.2.2
+torchaudio==2.2.2
+colorama==0.4.6
+click==8.1.8
+Cython==0.29.37
+orjson==3.11.5
+gym_bandits==0.0.2
+traitlets==5.14.3
+docker-pycreds==0.4.0
+multiprocess==0.70.15
+zipp==3.21.0
+antlr4-python3-runtime==4.9.3
+uc-micro-py==1.0.3
+mpmath==1.3.0
+idna==3.11
+aiodns==3.5.0
+charset-normalizer==3.4.4
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-cuda-nvrtc-cu12==12.1.105
+seaborn==0.13.2
+pyarrow-hotfix==0.7
+pillow==11.3.0
+pyautogen==0.1.0
+requests==2.32.0
+MarkupSafe==3.0.2
+websockets==15.0.1
+nvidia-nccl-cu12==2.19.3
+pure_eval==0.2.3
+parso==0.8.5
+huggingface-hub==0.26.2
+syllables==1.0.9
+tf-agents==0.19.0
+six==1.17.0
+referencing==0.36.2
+ptyprocess==0.7.0
+platformdirs==4.4.0
+fastapi==0.128.0
+stable-baselines3==2.2.1
+av==10.0.0
+diskcache==5.6.3
+pynvml==13.0.1
+pytorch-seed==0.2.0
+zarr==2.12.0
+mdurl==0.1.2
+docstring-parser==0.16
+packaging==25.0
+numcodecs==0.12.1
+opt_einsum==3.4.0
+markdown-it-py==2.2.0
+nvidia-cuda-runtime-cu12==12.1.105
+PyWavelets==1.6.0
+datasets==2.19.0
+contourpy==1.3.0
+aiohappyeyeballs==2.6.1
+jaxlib==0.4.30
+ImageIO==2.37.2
+wandb==0.18.6
+jiter==0.12.0
+gymnasium==0.29.1
+pycryptodomex==3.23.0
+google-pasta==0.2.0
+ipython==8.18.1
+threadpoolctl==3.6.0
+py-cpuinfo==9.0.0
+bitsandbytes==0.45.0
+xxhash==3.5.0
+google-auth-oauthlib==1.2.4
+rsa==4.9.1
+rouge_score==0.1.2
+dm-control==1.0.14
+oauthlib==3.3.1
+pandas==2.3.3
+tenacity==9.1.2
+asciitree==0.3.3
+scipy==1.13.1
+jedi==0.19.2
+gast==0.7.0
+google-auth==2.47.0
+transforms3d==0.4.2
+kiwisolver==1.4.7
+matplotlib==3.7.5
+aiohttp==3.12.15
+pip==23.3.2
+imageio-ffmpeg==0.6.0
+deepspeed==0.16.1
+yarl==1.18.0
+nvidia-nvtx-cu12==12.1.105
+llfbench==0.1.0
+wheel==0.45.1
+PySocks==1.7.1
+ml-dtypes==0.3.2
+PyYAML==6.0.2
+fast_kinematics==0.2.2
+gin-config==0.5.0
+setproctitle==1.3.7
+safetensors==0.5.3
+torchvision==0.17.2
+semantic-version==2.10.0
+PyOpenGL==3.1.10
+nltk==3.9.2
+lxml==6.0.2
+pydantic==2.12.5
+tqdm==4.67.1
+keras==2.15.0
+parse==1.19.1
+linkify-it-py==2.0.3
+dm-tree==0.1.8
+requests-oauthlib==2.0.0
+scikit-learn==1.6.1
+altair==6.0.0
+Werkzeug==3.1.5
+sentencepiece==0.2.0
+uvicorn==0.39.0
+cycler==0.12.1
+transformers==4.47.1
+uvloop==0.22.1
+mkl_random==1.2.8
+GitPython==3.1.46
+regex==2025.9.1
+jax==0.4.30
+llvmlite==0.39.1
+pyasn1_modules==0.4.2
+nvidia-cudnn-cu12==8.9.2.26
+pydantic_core==2.41.5
+google-genai==1.47.0
+propcache==0.3.1
+pycares==4.10.0
+pyperclip==1.11.0
+pyasn1==0.6.2
+async-timeout==5.0.1
+psutil==7.0.0
+gym==0.23.1
+dm-env==1.6
+Jinja2==3.1.6
+sentence-transformers==3.2.1
+einops==0.4.1
+triton==2.2.0
+grpcio==1.76.0
+labmaze==1.0.6
+nvidia-ml-py==13.590.44
+brotlicffi==1.0.9.2
+smmap==5.0.2
+cloudpickle==3.1.2
+setuptools==80.9.0
+starlette==0.49.3
+prompt_toolkit==3.0.52
+wrapt==1.14.2
+h5py==3.14.0
+scikit-image==0.19.3
+joblib==1.5.3
+opencv-python==4.11.0.86
+rich==14.2.0
+trl==0.11.4
+gym-notices==0.1.0
+trimesh==4.11.1
+mdit-py-plugins==0.3.3
+distro==1.9.0
+executing==2.2.1
+mkl-service==2.4.0
+nvidia-cusolver-cu12==11.4.5.107
+FLAML==2.3.6
+mujoco-py==2.1.2.14
+h11==0.16.0
+highway-env==1.9.1
+httpcore==1.0.9
+tensorboard-data-server==0.7.2
+tzdata==2025.3
+absl-py==2.3.1
+jsonschema-specifications==2025.9.1
+numba==0.56.4
+tabulate==0.9.0
+importlib-resources==5.13.0
+pycparser==2.23
+mkl_fft==1.3.11
+torch==2.2.2
+nvidia-cublas-cu12==12.1.3.1
+rpds-py==0.27.1
+typeguard==4.4.4
+flatbuffers==25.12.19
+toppra==0.6.3
+sympy==1.14.0
+tiktoken==0.8.0
+nvidia-cuda-cupti-cu12==12.1.105
+arm_pytorch_utilities==0.4.3
+pynndescent==0.6.0
+multidict==6.7.0
+fonttools==4.60.2
+numexpr==2.10.1
+cmudict==1.0.13
+PyOpenGL-accelerate==3.1.10
+gmpy2==2.2.1
+peft==0.14.0
+metaworld==2.0.0
+nvidia-cufft-cu12==11.0.2.54
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+pexpect==4.9.0
+protobuf==4.25.8
+typing_extensions==4.15.0
+mujoco==2.3.7
+tokenizers==0.21.0
+pytorch-kinematics==0.7.5
+sniffio==1.3.1
+aiofiles==25.1.0
+mplib==0.1.1
+wcwidth==0.2.14
+Pygments==2.19.1
+anyio==4.12.1
+tensorflow-estimator==2.15.0
+filelock==3.17.0
+numpy==1.23.5
+attrs==25.4.0
+Markdown==3.9
+fsspec==2024.3.1
+libclang==18.1.1
+umap-learn==0.5.9.post2
+dill==0.3.8
+narwhals==2.15.0
+tensorboard==2.15.2
+dacite==1.9.2
+termcolor==3.1.0
+llmbc==0.0.0
+python-multipart==0.0.20
+exceptiongroup==1.3.1
+sapien==3.0.0b1
+pygame==2.6.1
+nvidia-curand-cu12==10.3.2.106
+evaluate==0.4.3
+msgpack==1.1.1
+tensorflow-probability==0.23.0
+diffusers==0.31.0
+certifi==2025.10.5
+d4rl==1.1
+pydub==0.25.1
+annotated-doc==0.0.4
+gitdb==4.0.12
+gradio_client==0.2.9
+Shapely==1.8.4
+mani_skill==3.0.0b20
+tensorflow-io-gcs-filesystem==0.37.1
+fasteners==0.20
+hjson==3.1.0
+ninja==1.13.0
+stack-data==0.6.3
+pyarrow==21.0.0
+networkx==3.2.1
+nvidia-cusparse-cu12==12.1.0.106
+pyparsing==3.3.1
+timm==1.0.22
+typing-inspection==0.4.2
+openai==2.8.1
+pybullet==3.2.6
+hydra-core==1.2.0
+gradio==3.36.1
+tensorflow==2.15.1
+asttokens==3.0.1
+importlib-metadata==5.2.0
+astunparse==1.6.3
+tifffile==2024.8.30
+annotated-types==0.7.0
+Bottleneck==1.4.2
+accelerate==1.0.1
+pytz==2025.2
+urllib3==2.5.0
+frozenlist==1.8.0
+sentry-sdk==2.50.0
+jsonschema==4.25.1
+tyro==0.9.1
+Farama-Notifications==0.0.4
+ffmpy==1.0.0
+httpx==0.28.1
+pymunk==6.2.1
+shtab==1.7.2
+glfw==2.0.0
+hf-xet==1.1.8
+omegaconf==2.2.1
+blobfile==3.0.0
+decorator==5.2.1
+cffi==1.17.1
+matplotlib-inline==0.2.1
+eval_type_backport==0.2.2
+torchaudio==2.2.2
+colorama==0.4.6
+click==8.1.8
+Cython==0.29.37
+orjson==3.11.5
+gym_bandits==0.0.2
+traitlets==5.14.3
+docker-pycreds==0.4.0
+multiprocess==0.70.15
+zipp==3.21.0
+antlr4-python3-runtime==4.9.3
+uc-micro-py==1.0.3
+mpmath==1.3.0
+idna==3.11
+aiodns==3.5.0
+charset-normalizer==3.4.4
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-cuda-nvrtc-cu12==12.1.105
+seaborn==0.13.2
+pyarrow-hotfix==0.7
+pillow==11.3.0
+pyautogen==0.1.0
+requests==2.32.0
+MarkupSafe==3.0.2
+websockets==15.0.1
+nvidia-nccl-cu12==2.19.3
+pure_eval==0.2.3
+parso==0.8.5
+huggingface-hub==0.26.2
+syllables==1.0.9
+tf-agents==0.19.0
+six==1.17.0
+referencing==0.36.2
+ptyprocess==0.7.0
+platformdirs==4.4.0
+fastapi==0.128.0
+stable-baselines3==2.2.1
+av==10.0.0
+diskcache==5.6.3
+pynvml==13.0.1
+pytorch-seed==0.2.0
+zarr==2.12.0
+mdurl==0.1.2
+docstring-parser==0.16
+packaging==25.0
+numcodecs==0.12.1
+opt_einsum==3.4.0
+markdown-it-py==2.2.0
+nvidia-cuda-runtime-cu12==12.1.105
+PyWavelets==1.6.0
+datasets==2.19.0
+contourpy==1.3.0
+aiohappyeyeballs==2.6.1
+jaxlib==0.4.30
+ImageIO==2.37.2
+wandb==0.18.6
+jiter==0.12.0
+gymnasium==0.29.1
+pycryptodomex==3.23.0
+google-pasta==0.2.0
+ipython==8.18.1
+threadpoolctl==3.6.0
+py-cpuinfo==9.0.0
+bitsandbytes==0.45.0
+xxhash==3.5.0
+google-auth-oauthlib==1.2.4
+rsa==4.9.1
+rouge_score==0.1.2
+dm-control==1.0.14
+oauthlib==3.3.1
+pandas==2.3.3
+tenacity==9.1.2
+asciitree==0.3.3
+scipy==1.13.1
+jedi==0.19.2
+gast==0.7.0
+google-auth==2.47.0
+transforms3d==0.4.2
+kiwisolver==1.4.7
+matplotlib==3.7.5
+aiohttp==3.12.15
+pip==23.3.2
+imageio-ffmpeg==0.6.0
+deepspeed==0.16.1
+yarl==1.18.0
+nvidia-nvtx-cu12==12.1.105
+llfbench==0.1.0
+wheel==0.45.1
+PySocks==1.7.1
+ml-dtypes==0.3.2
+PyYAML==6.0.2
+fast_kinematics==0.2.2
+gin-config==0.5.0
+setproctitle==1.3.7
+safetensors==0.5.3
+torchvision==0.17.2
+semantic-version==2.10.0
+PyOpenGL==3.1.10
+nltk==3.9.2
+lxml==6.0.2
+pydantic==2.12.5
+tqdm==4.67.1
+keras==2.15.0
+parse==1.19.1
+linkify-it-py==2.0.3
+dm-tree==0.1.8
+requests-oauthlib==2.0.0
+scikit-learn==1.6.1
+altair==6.0.0
+Werkzeug==3.1.5
+sentencepiece==0.2.0
+uvicorn==0.39.0
+cycler==0.12.1
+transformers==4.47.1
+uvloop==0.22.1
+mkl_random==1.2.8
+GitPython==3.1.46
+regex==2025.9.1
+jax==0.4.30
+llvmlite==0.39.1
+pyasn1_modules==0.4.2
+nvidia-cudnn-cu12==8.9.2.26
+pydantic_core==2.41.5
+google-genai==1.47.0
+propcache==0.3.1
+pycares==4.10.0
+pyperclip==1.11.0
+pyasn1==0.6.2
+async-timeout==5.0.1
+psutil==7.0.0
+gym==0.23.1
+dm-env==1.6
+Jinja2==3.1.6
+sentence-transformers==3.2.1
+einops==0.4.1
+triton==2.2.0
+grpcio==1.76.0
+labmaze==1.0.6
+nvidia-ml-py==13.590.44
+brotlicffi==1.0.9.2
+smmap==5.0.2
+cloudpickle==3.1.2
+setuptools==80.9.0
+starlette==0.49.3
+prompt_toolkit==3.0.52
+wrapt==1.14.2
+h5py==3.14.0
+scikit-image==0.19.3
+joblib==1.5.3
+opencv-python==4.11.0.86
+rich==14.2.0
+trl==0.11.4
+gym-notices==0.1.0
+trimesh==4.11.1
+mdit-py-plugins==0.3.3
+distro==1.9.0
+executing==2.2.1
+mkl-service==2.4.0
+nvidia-cusolver-cu12==11.4.5.107
+FLAML==2.3.6
+mujoco-py==2.1.2.14
+h11==0.16.0
+highway-env==1.9.1
+httpcore==1.0.9
+tensorboard-data-server==0.7.2
+tzdata==2025.3
+absl-py==2.3.1
+jsonschema-specifications==2025.9.1
+numba==0.56.4
+tabulate==0.9.0
+importlib-resources==5.13.0
+pycparser==2.23
+mkl_fft==1.3.11
+torch==2.2.2
+nvidia-cublas-cu12==12.1.3.1
+llmbc==0.0.0
+rpds-py==0.27.1
+typeguard==4.4.4
+flatbuffers==25.12.19
+toppra==0.6.3
+sympy==1.14.0
+tiktoken==0.8.0
+nvidia-cuda-cupti-cu12==12.1.105
+arm_pytorch_utilities==0.4.3
+pynndescent==0.6.0
+multidict==6.7.0
+fonttools==4.60.2
+numexpr==2.10.1
+cmudict==1.0.13
+PyOpenGL-accelerate==3.1.10
+gmpy2==2.2.1
+peft==0.14.0
+metaworld==2.0.0
+nvidia-cufft-cu12==11.0.2.54
+python-dateutil==2.9.0.post0
+aiosignal==1.4.0
+pexpect==4.9.0
+protobuf==4.25.8
+typing_extensions==4.15.0
+mujoco==2.3.7
+tokenizers==0.21.0
+pytorch-kinematics==0.7.5
+sniffio==1.3.1
+aiofiles==25.1.0
+mplib==0.1.1
+wcwidth==0.2.14
+Pygments==2.19.1
+anyio==4.12.1
+tensorflow-estimator==2.15.0
+filelock==3.17.0
+numpy==1.23.5
+attrs==25.4.0
+Markdown==3.9
+fsspec==2024.3.1
+libclang==18.1.1
+umap-learn==0.5.9.post2
+dill==0.3.8
+narwhals==2.15.0
+tensorboard==2.15.2
+dacite==1.9.2
+termcolor==3.1.0
+llmbc==0.0.0
+python-multipart==0.0.20
+exceptiongroup==1.3.1
+sapien==3.0.0b1
+pygame==2.6.1
+nvidia-curand-cu12==10.3.2.106
+evaluate==0.4.3
+msgpack==1.1.1
+tensorflow-probability==0.23.0
+diffusers==0.31.0
+certifi==2025.10.5
+d4rl==1.1
+pydub==0.25.1
+annotated-doc==0.0.4
+gitdb==4.0.12
+gradio_client==0.2.9
+Shapely==1.8.4
+mani_skill==3.0.0b20
+tensorflow-io-gcs-filesystem==0.37.1
+fasteners==0.20
+hjson==3.1.0
+ninja==1.13.0
+stack-data==0.6.3
+pyarrow==21.0.0
+networkx==3.2.1
+nvidia-cusparse-cu12==12.1.0.106
+pyparsing==3.3.1
+timm==1.0.22
+typing-inspection==0.4.2
+openai==2.8.1
+pybullet==3.2.6
+hydra-core==1.2.0
+gradio==3.36.1
+tensorflow==2.15.1
+asttokens==3.0.1
+importlib-metadata==5.2.0
+astunparse==1.6.3
+tifffile==2024.8.30
+annotated-types==0.7.0
+Bottleneck==1.4.2
+accelerate==1.0.1
+pytz==2025.2
+urllib3==2.5.0
+frozenlist==1.8.0
+sentry-sdk==2.50.0
+jsonschema==4.25.1
+tyro==0.9.1
+Farama-Notifications==0.0.4
+ffmpy==1.0.0
+httpx==0.28.1
+pymunk==6.2.1
+shtab==1.7.2
+glfw==2.0.0
+hf-xet==1.1.8
+omegaconf==2.2.1
+blobfile==3.0.0
+decorator==5.2.1
+cffi==1.17.1
+matplotlib-inline==0.2.1
+eval_type_backport==0.2.2
+torchaudio==2.2.2
+colorama==0.4.6
+click==8.1.8
+Cython==0.29.37
+orjson==3.11.5
+gym_bandits==0.0.2
+traitlets==5.14.3
+docker-pycreds==0.4.0
+multiprocess==0.70.15
+zipp==3.21.0
+antlr4-python3-runtime==4.9.3
+uc-micro-py==1.0.3
+mpmath==1.3.0
+idna==3.11
+aiodns==3.5.0
+charset-normalizer==3.4.4
+nvidia-nvjitlink-cu12==12.9.86
+nvidia-cuda-nvrtc-cu12==12.1.105
+seaborn==0.13.2
+pyarrow-hotfix==0.7
+pillow==11.3.0
+pyautogen==0.1.0
+requests==2.32.0
+MarkupSafe==3.0.2
+websockets==15.0.1
+nvidia-nccl-cu12==2.19.3
+pure_eval==0.2.3
+parso==0.8.5
+huggingface-hub==0.26.2
+syllables==1.0.9
+tf-agents==0.19.0
+six==1.17.0
+referencing==0.36.2
+ptyprocess==0.7.0
+platformdirs==4.4.0
+fastapi==0.128.0
+stable-baselines3==2.2.1
+av==10.0.0
+diskcache==5.6.3
+pynvml==13.0.1
+pytorch-seed==0.2.0
+zarr==2.12.0
+mdurl==0.1.2
+docstring-parser==0.16
+packaging==25.0
+numcodecs==0.12.1
+opt_einsum==3.4.0
+markdown-it-py==2.2.0
+nvidia-cuda-runtime-cu12==12.1.105
+PyWavelets==1.6.0
+datasets==2.19.0
+contourpy==1.3.0
+aiohappyeyeballs==2.6.1
+jaxlib==0.4.30
+ImageIO==2.37.2
+wandb==0.18.6
+jiter==0.12.0
+gymnasium==0.29.1
+pycryptodomex==3.23.0
+google-pasta==0.2.0
+ipython==8.18.1
+threadpoolctl==3.6.0
+py-cpuinfo==9.0.0
+bitsandbytes==0.45.0
+xxhash==3.5.0
+google-auth-oauthlib==1.2.4
+rsa==4.9.1
+rouge_score==0.1.2
+dm-control==1.0.14
+oauthlib==3.3.1
+pandas==2.3.3
+tenacity==9.1.2
+asciitree==0.3.3
+scipy==1.13.1
+jedi==0.19.2
+gast==0.7.0
+google-auth==2.47.0
+transforms3d==0.4.2
+kiwisolver==1.4.7
+matplotlib==3.7.5
+aiohttp==3.12.15
+pip==23.3.2
+imageio-ffmpeg==0.6.0
+deepspeed==0.16.1
+yarl==1.18.0
+nvidia-nvtx-cu12==12.1.105
+llfbench==0.1.0
+wheel==0.45.1
+PySocks==1.7.1
+ml-dtypes==0.3.2
+PyYAML==6.0.2
+fast_kinematics==0.2.2
+gin-config==0.5.0
+setproctitle==1.3.7
+safetensors==0.5.3
+torchvision==0.17.2
+semantic-version==2.10.0
+PyOpenGL==3.1.10
+nltk==3.9.2
+lxml==6.0.2
+pydantic==2.12.5
+tqdm==4.67.1
+keras==2.15.0
+parse==1.19.1
+linkify-it-py==2.0.3
+dm-tree==0.1.8
+requests-oauthlib==2.0.0
+scikit-learn==1.6.1
+altair==6.0.0
+Werkzeug==3.1.5
+sentencepiece==0.2.0
+uvicorn==0.39.0
+cycler==0.12.1
+transformers==4.47.1
+uvloop==0.22.1
+mkl_random==1.2.8
+GitPython==3.1.46
+regex==2025.9.1
+jax==0.4.30
+llvmlite==0.39.1
+pyasn1_modules==0.4.2
+nvidia-cudnn-cu12==8.9.2.26
+pydantic_core==2.41.5
+google-genai==1.47.0
+propcache==0.3.1
+pycares==4.10.0
+pyperclip==1.11.0
+pyasn1==0.6.2
+async-timeout==5.0.1
+psutil==7.0.0
+gym==0.23.1
+dm-env==1.6
+Jinja2==3.1.6
+sentence-transformers==3.2.1
+einops==0.4.1
+triton==2.2.0
+grpcio==1.76.0
+labmaze==1.0.6
+nvidia-ml-py==13.590.44
+brotlicffi==1.0.9.2
+smmap==5.0.2
+cloudpickle==3.1.2
+setuptools==80.9.0
+starlette==0.49.3
+prompt_toolkit==3.0.52
+wrapt==1.14.2
+h5py==3.14.0
+scikit-image==0.19.3
+joblib==1.5.3
+opencv-python==4.11.0.86
+rich==14.2.0
+trl==0.11.4
+gym-notices==0.1.0
+trimesh==4.11.1
+mdit-py-plugins==0.3.3
+distro==1.9.0
+executing==2.2.1
+mkl-service==2.4.0
+nvidia-cusolver-cu12==11.4.5.107
+FLAML==2.3.6
+mujoco-py==2.1.2.14
+h11==0.16.0
+highway-env==1.9.1
+httpcore==1.0.9
+tensorboard-data-server==0.7.2
+tzdata==2025.3
+absl-py==2.3.1
+jsonschema-specifications==2025.9.1
+numba==0.56.4
+tabulate==0.9.0
+importlib-resources==5.13.0
+pycparser==2.23
+mkl_fft==1.3.11
+torch==2.2.2
+nvidia-cublas-cu12==12.1.3.1
+zipp==3.19.2
+jaraco.text==3.12.1
+jaraco.context==5.3.0
+importlib_metadata==8.0.0
+typeguard==4.3.0
+inflect==7.3.1
+more-itertools==10.3.0
+wheel==0.45.1
+packaging==24.2
+backports.tarfile==1.2.0
+autocommand==2.2.2
+jaraco.collections==5.1.0
+tomli==2.0.1
+platformdirs==4.2.2
+jaraco.functools==4.0.1
+typing_extensions==4.12.2
diff --git a/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/files/wandb-metadata.json b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/files/wandb-metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..6fc599b7f9347b840480cff6d5cacf2e578974bc
--- /dev/null
+++ b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/files/wandb-metadata.json
@@ -0,0 +1,108 @@
+{
+  "os": "Linux-4.18.0-513.24.1.el8_9.x86_64-x86_64-with-glibc2.28",
+  "python": "3.9.25",
+  "startedAt": "2026-01-21T05:27:48.566009Z",
+  "args": [
+    "--config-path",
+    "./config/main_table",
+    "--config-name",
+    "llmbc_box-close-v2.yaml",
+    "policy.loss_llm_weight=1.0e-1",
+    "training.seed=42"
+  ],
+  "program": "/work/u1131674/LLM-BC/./train.py",
+  "codePath": "train.py",
+  "git": {
+    "remote": "https://github.com/CHYang25/LLM-BC.git",
+    "commit": "1d2e1f5818e116390426ef596d075fc0cf1b0081"
+  },
+  "email": "chris920325@gmail.com",
+  "root": "/work/u1131674/LLM-BC/data/outputs/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2",
+  "host": "hgpn02",
+  "username": "u1131674",
+  "executable": "/home/u1131674/.conda/envs/llm-bc/bin/python3",
+  "codePathLocal": "train.py",
+  "cpu_count": 112,
+  "cpu_count_logical": 112,
+  "gpu": "NVIDIA H100 80GB HBM3",
+  "gpu_count": 1,
+  "disk": {
+    "/": {
+      "total": "1918024196096",
+      "used": "276308881408"
+    }
+  },
+  "memory": {
+    "total": "2163622887424"
+  },
+  "cpu": {
+    "count": 112,
+    "countLogical": 112
+  },
+  "gpu_nvidia": [
+    {
+      "name": "NVIDIA H100 80GB HBM3",
+      "memoryTotal": "85520809984",
+      "cudaCores": 16896,
+      "architecture": "Hopper"
+    }
+  ],
+  "slurm": {
+    "cluster_name": "hpc",
+    "conf": "/etc/slurm/slurm.conf",
+    "cpu_bind": "quiet,mask_cpu:0x0000000000000000000000F0003C",
+    "cpu_bind_list": "0x0000000000000000000000F0003C",
+    "cpu_bind_type": "mask_cpu:",
+    "cpu_bind_verbose": "quiet",
+    "cpus_on_node": "8",
+    "cpus_per_task": "8",
+    "distribution": "cyclic,pack",
+    "gpus_on_node": "1",
+    "gpus_per_node": "1",
+    "gtids": "0",
+    "job_account": "mst114558",
+    "job_cpus_per_node": "8",
+    "job_end_time": "1769146048",
+    "job_gid": "106773",
+    "job_group": "MST114558",
+    "job_id": "99330",
+    "job_name": "python3",
+    "job_nodelist": "hgpn02",
+    "job_num_nodes": "1",
+    "job_partition": "normal",
+    "job_qos": "normal",
+    "job_start_time": "1768973248",
+    "job_uid": "41408",
+    "job_user": "u1131674",
+    "jobid": "99330",
+    "launch_node_ipaddr": "172.21.101.1",
+    "localid": "0",
+    "mem_per_node": "204800",
+    "nnodes": "1",
+    "nodeid": "0",
+    "nodelist": "hgpn02",
+    "nprocs": "1",
+    "ntasks": "1",
+    "prio_process": "0",
+    "procid": "0",
+    "srun_comm_host": "172.21.101.1",
+    "srun_comm_port": "40067",
+    "step_gpus": "1",
+    "step_id": "0",
+    "step_launcher_port": "40067",
+    "step_nodelist": "hgpn02",
+    "step_num_nodes": "1",
+    "step_num_tasks": "1",
+    "step_tasks_per_node": "1",
+    "stepid": "0",
+    "submit_dir": "/work/u1131674/LLM-BC",
+    "submit_host": "cbi-lgn01",
+    "task_pid": "1902230",
+    "tasks_per_node": "1",
+    "topology_addr": "ibsw1.hgpn02",
+    "topology_addr_pattern": "switch.node",
+    "tres_per_task": "cpu:8",
+    "umask": "0022"
+  },
+  "cudaVersion": "12.4"
+}
\ No newline at end of file
diff --git a/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/logs/debug-core.log b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/logs/debug-core.log
new file mode 100644
index 0000000000000000000000000000000000000000..55154aed413c84806cd96353294280e912aa8f7b
--- /dev/null
+++ b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/logs/debug-core.log
@@ -0,0 +1,7 @@
+{"time":"2026-01-21T13:27:47.955974071+08:00","level":"INFO","msg":"started logging, with flags","port-filename":"/tmp/tmpm6ted8x4/port-1902230.txt","pid":1902230,"debug":false,"disable-analytics":false}
+{"time":"2026-01-21T13:27:47.955997024+08:00","level":"INFO","msg":"FeatureState","shutdownOnParentExitEnabled":false}
+{"time":"2026-01-21T13:27:47.956346112+08:00","level":"INFO","msg":"Will exit if parent process dies.","ppid":1902230}
+{"time":"2026-01-21T13:27:47.956339221+08:00","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":39251,"Zone":""}}
+{"time":"2026-01-21T13:27:48.148980656+08:00","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:47050"}
+{"time":"2026-01-21T13:27:48.566562611+08:00","level":"INFO","msg":"handleInformInit: received","streamId":"8pqnk39p","id":"127.0.0.1:47050"}
+{"time":"2026-01-21T13:27:48.684751742+08:00","level":"INFO","msg":"handleInformInit: stream started","streamId":"8pqnk39p","id":"127.0.0.1:47050"}
diff --git a/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/logs/debug-internal.log b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/logs/debug-internal.log
new file mode 100644
index 0000000000000000000000000000000000000000..4beba5efb6579c3d9ea655b6790cd4a01c96e6d8
--- /dev/null
+++ b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/logs/debug-internal.log
@@ -0,0 +1,8 @@
+{"time":"2026-01-21T13:27:48.567887464+08:00","level":"INFO","msg":"using version","core version":"0.18.6"}
+{"time":"2026-01-21T13:27:48.567900498+08:00","level":"INFO","msg":"created symlink","path":"/work/u1131674/LLM-BC/data/outputs/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/logs/debug-core.log"}
+{"time":"2026-01-21T13:27:48.684713019+08:00","level":"INFO","msg":"created new stream","id":"8pqnk39p"}
+{"time":"2026-01-21T13:27:48.6847461+08:00","level":"INFO","msg":"stream: started","id":"8pqnk39p"}
+{"time":"2026-01-21T13:27:48.684769968+08:00","level":"INFO","msg":"sender: started","stream_id":"8pqnk39p"}
+{"time":"2026-01-21T13:27:48.684769516+08:00","level":"INFO","msg":"handler: started","stream_id":{"value":"8pqnk39p"}}
+{"time":"2026-01-21T13:27:48.684761474+08:00","level":"INFO","msg":"writer: Do: started","stream_id":{"value":"8pqnk39p"}}
+{"time":"2026-01-21T13:27:49.256794885+08:00","level":"INFO","msg":"Starting system monitor"}
diff --git a/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/logs/debug.log b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/logs/debug.log
new file mode 100644
index 0000000000000000000000000000000000000000..88f7354fddd911496646c2dc2b5ffe8bd7ea7cbd
--- /dev/null
+++ b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/logs/debug.log
@@ -0,0 +1,26 @@
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_setup.py:_flush():79] Current SDK version is 0.18.6
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_setup.py:_flush():79] Configure stats pid to 1902230
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_setup.py:_flush():79] Loading settings from /home/u1131674/.config/wandb/settings
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_setup.py:_flush():79] Loading settings from /work/u1131674/LLM-BC/wandb/settings
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_setup.py:_flush():79] Loading settings from environment variables: {}
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_setup.py:_flush():79] Applying setup settings: {'mode': 'online', '_disable_service': None}
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_setup.py:_flush():79] Inferring run settings from compute environment: {'program_relpath': 'train.py', 'program_abspath': '/work/u1131674/LLM-BC/train.py', 'program': '/work/u1131674/LLM-BC/./train.py'}
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_setup.py:_flush():79] Applying login settings: {}
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_init.py:_log_setup():533] Logging user logs to /work/u1131674/LLM-BC/data/outputs/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/logs/debug.log
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_init.py:_log_setup():534] Logging internal logs to /work/u1131674/LLM-BC/data/outputs/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/logs/debug-internal.log
+2026-01-21 13:27:48,563 INFO    MainThread:1902230 [wandb_init.py:init():619] calling init triggers
+2026-01-21 13:27:48,564 INFO    MainThread:1902230 [wandb_init.py:init():626] wandb.init called with sweep_config: {}
+config: {'name': 'train_llmbc_lowdim', '_target_': 'llmbc.workspace.train_llmbc_lowdim_workspace.TrainLLMBCLowdimWorkspace', 'obs_dim': 9, 'action_dim': 4, 'task_name': 'box-close-v2', 'exp_name': 'default', 'model_name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'n_latency_steps': 0, 'past_action_visible': False, 'llm_orig_expert_feedback': True, 'llm_do_sample': False, 'policy': {'_target_': 'llmbc.policy.llmbc_lowdim_policy.LLMBCLowdimPolicy', 'model': {'_target_': 'llmbc.model.policy.policy_mlp.PolicyMLP', 'input_size': 9, 'hidden_size': [256, 256], 'output_size': 4, 'activation': 'relu', 'n_obs_steps': 1, 'n_action_steps': 1}, 'obs_dim': 9, 'action_dim': 4, 'llm_discriminator': {'_target_': 'llmbc.discriminator.llm_ce_discriminator.LLMCEDiscriminator', 'task_id': 'box-close-v2', 'llm_translator': {'_target_': 'llmbc.translator.llm_translator.LLMTranslator', 'cfg': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2026.01.21/13.27.30_HuggingFaceTB/SmolLM2-135M-Instruct'}}}, 'obs_dim': 9, 'action_dim': 4, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1}}, 'loss_bc_weight': 1.0, 'loss_llm_weight': 0.1, 'horizon': 1, 'n_obs_steps': 1, 'n_action_steps': 1, 'normalize_llm_loss': True}, 'dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'val_dataloader': {'batch_size': 16, 'num_workers': 0, 'shuffle': True, 'pin_memory': False, 'persistent_workers': False}, 'optimizer': {'_target_': 'torch.optim.AdamW', 'lr': 0.01, 'betas': [0.95, 0.999], 'eps': 1e-08, 'weight_decay': 1e-06}, 'training': {'device': 'cuda:0', 'seed': 42, 'debug': False, 'resume': False, 'lr_scheduler': 'cosine', 'lr_warmup_steps': 10, 'num_epochs': 1001, 'gradient_accumulate_every': 8, 'grad_norm_clip': 0.5, 'rollout_every': 5, 'checkpoint_every': 5, 'val_every': 1, 'sample_every': 5, 'sample_max_batch': 128, 'max_train_steps': None, 'max_val_steps': None, 'tqdm_interval_sec': 1.0}, 'logging': {'project': 'box-close-v2-training', 'resume': True, 'mode': 'online', 'name': '2026.01.21-13.27.30_train_llmbc_lowdim_box-close-v2', 'tags': ['train_llmbc_lowdim', 'box-close-v2', 'default'], 'id': None, 'group': None}, 'checkpoint': {'topk': {'monitor_key': 'test_success_rate', 'mode': 'max', 'k': 5, 'format_str': 'epoch={epoch:04d}-test_success_rate={test_success_rate:.3f}.ckpt'}, 'save_last_ckpt': True, 'save_last_snapshot': False}, 'multi_run': {'run_dir': 'data/outputs/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2', 'wandb_name_base': '2026.01.21-13.27.30_train_llmbc_lowdim_box-close-v2'}, 'task': {'name': 'box-close-v2', 'obs_dim': 9, 'action_dim': 4, 'env_runner': {'_target_': 'llmbc.env_runner.metaworld_lowdim_runner.MetaworldLowdimRunner', 'env_name': 'llf-metaworld-box-close-v2', 'n_train': 10, 'n_test': 50, 'n_envs': 10, 'max_steps': 30, 'n_obs_steps': 1, 'n_action_steps': 1, 'instruction_type': 'b', 'feedback_type': ['hp', 'hn', 'fp'], 'visual': False, 'discount': 0.9}, 'dataset': {'_target_': 'llmbc.dataset.metaworld_lowdim_dataset.MetaworldLowdimDataset', 'data_path': 'datasets/box-close-v2.pt', 'data_path2': 'datasets/box-close-v2.pt', 'horizon': 1, 'pad_before': 0, 'pad_after': 0, 'obs_eef_target': True, 'use_manual_normalizer': False, 'val_ratio': 0.1, 'dummy_normalizer': True}, 'instructor': {'_target_': 'llmbc.translator.instructor.metaworld_instructor.box_close_v2_instructor.BoxCloseV2Instructor'}}, 'llm': {'name': 'HuggingFaceTB/SmolLM2-135M-Instruct', 'model_name': 'SmolLM2-135M-Instruct', 'config_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaConfig', 'causal_lm_target': 'llmbc.model.llm.llama_lowdim_model.LowdimLlamaForCausalLM', 'use_quantization': False, 'use_joint_mlp_projector': True, 'llm_mode': 'ete-finetuned', 'finetune_mode': 'orig', 'checkpoint': 'data/outputs/2025.09.25/22.49.29_train_llm_lowdim_box-close-v2/HuggingFaceTB/SmolLM2-135M-Instruct-finetuned-box-close-v2/checkpoint-5890', 'max_length': 100, 'lora_config': {'r': 32, 'lora_alpha': 64, 'lora_dropout': 0.05, 'bias': 'none', 'task_type': 'CAUSAL_LM'}, 'prompter': {'_target_': 'llmbc.translator.prompter.smollm2_prompter.SmolLM2Prompter', 'use_joint_mlp_projector': True}, 'hydra': {'job': {'override_dirname': 'HuggingFaceTB/SmolLM2-135M-Instruct'}, 'run': {'dir': 'data/outputs/2026.01.21/13.27.30_HuggingFaceTB/SmolLM2-135M-Instruct'}}}}
+2026-01-21 13:27:48,564 INFO    MainThread:1902230 [wandb_init.py:init():669] starting backend
+2026-01-21 13:27:48,564 INFO    MainThread:1902230 [wandb_init.py:init():673] sending inform_init request
+2026-01-21 13:27:48,565 INFO    MainThread:1902230 [backend.py:_multiprocessing_setup():104] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2026-01-21 13:27:48,565 INFO    MainThread:1902230 [wandb_init.py:init():686] backend started and connected
+2026-01-21 13:27:48,575 INFO    MainThread:1902230 [wandb_init.py:init():781] updated telemetry
+2026-01-21 13:27:48,636 INFO    MainThread:1902230 [wandb_init.py:init():814] communicating run to backend with 90.0 second timeout
+2026-01-21 13:27:49,252 INFO    MainThread:1902230 [wandb_init.py:init():867] starting run threads in backend
+2026-01-21 13:27:49,782 INFO    MainThread:1902230 [wandb_run.py:_console_start():2451] atexit reg
+2026-01-21 13:27:49,782 INFO    MainThread:1902230 [wandb_run.py:_redirect():2299] redirect: wrap_raw
+2026-01-21 13:27:49,782 INFO    MainThread:1902230 [wandb_run.py:_redirect():2364] Wrapping output streams.
+2026-01-21 13:27:49,782 INFO    MainThread:1902230 [wandb_run.py:_redirect():2389] Redirects installed.
+2026-01-21 13:27:49,785 INFO    MainThread:1902230 [wandb_init.py:init():911] run started, returning control to user process
+2026-01-21 13:27:49,785 INFO    MainThread:1902230 [wandb_run.py:_config_callback():1389] config_cb None None {'output_dir': '/work/u1131674/LLM-BC/data/outputs/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2'}
diff --git a/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/run-8pqnk39p.wandb b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/run-8pqnk39p.wandb
new file mode 100644
index 0000000000000000000000000000000000000000..b48bb4140cbcb127b49340a5d26dfa7f333c1d16
--- /dev/null
+++ b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/run-20260121_132748-8pqnk39p/run-8pqnk39p.wandb
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6a8dbe1ce43002d62b37ec7c3c783caa6bc83f24fca19bf39992f21603722351
+size 1277952
diff --git a/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/wandb-resume.json b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/wandb-resume.json
new file mode 100644
index 0000000000000000000000000000000000000000..1fca8c77f3db06684f5080fb4423c350109777d3
--- /dev/null
+++ b/2026.01.21/13.27.30_train_llmbc_lowdim_box-close-v2/wandb/wandb-resume.json
@@ -0,0 +1 @@
+{"run_id": "8pqnk39p"}
\ No newline at end of file