diff --git a/ckpts/qwen3-1.7b-whisper-260126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step5000/mp_rank_00_model_states.pt b/ckpts/qwen3-1.7b-whisper-260126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step5000/mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..e9fed876e342c23634654391f7036cef356cec9c
--- /dev/null
+++ b/ckpts/qwen3-1.7b-whisper-260126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step5000/mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:add229c9677d024a7cfe5c813eca04b92142d74e89a2a68bb3b7575092543bad
+size 10042805638
diff --git a/ckpts/qwen3-1.7b-whisper-260126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/latest b/ckpts/qwen3-1.7b-whisper-260126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/latest
new file mode 100644
index 0000000000000000000000000000000000000000..f805186fa43374540c3fa51dfd3cca9ac06e56a5
--- /dev/null
+++ b/ckpts/qwen3-1.7b-whisper-260126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/latest
@@ -0,0 +1 @@
+global_step5000
\ No newline at end of file
diff --git a/ckpts/qwen3-1.7b-whisper-260126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/zero_to_fp32.py b/ckpts/qwen3-1.7b-whisper-260126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/zero_to_fp32.py
new file mode 100644
index 0000000000000000000000000000000000000000..24cc342e78d1a006c782b3a4cd68d9ce786d8fd8
--- /dev/null
+++ b/ckpts/qwen3-1.7b-whisper-260126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/zero_to_fp32.py
@@ -0,0 +1,604 @@
+#!/usr/bin/env python
+
+# Copyright (c) Microsoft Corporation.
+# SPDX-License-Identifier: Apache-2.0
+
+# DeepSpeed Team
+
+# This script extracts fp32 consolidated weights from a zero 1, 2 and 3 DeepSpeed checkpoints. It gets
+# copied into the top level checkpoint dir, so the user can easily do the conversion at any point in
+# the future. Once extracted, the weights don't require DeepSpeed and can be used in any
+# application.
+#
+# example: python zero_to_fp32.py . pytorch_model.bin
+
+import argparse
+import torch
+import glob
+import math
+import os
+import re
+from collections import OrderedDict
+from dataclasses import dataclass
+
+# while this script doesn't use deepspeed to recover data, since the checkpoints are pickled with
+# DeepSpeed data structures it has to be available in the current python environment.
+from deepspeed.utils import logger
+from deepspeed.checkpoint.constants import (DS_VERSION, OPTIMIZER_STATE_DICT, SINGLE_PARTITION_OF_FP32_GROUPS,
+                                            FP32_FLAT_GROUPS, ZERO_STAGE, PARTITION_COUNT, PARAM_SHAPES, BUFFER_NAMES,
+                                            FROZEN_PARAM_SHAPES, FROZEN_PARAM_FRAGMENTS)
+
+
+@dataclass
+class zero_model_state:
+    buffers: dict()
+    param_shapes: dict()
+    shared_params: list
+    ds_version: int
+    frozen_param_shapes: dict()
+    frozen_param_fragments: dict()
+
+
+debug = 0
+
+# load to cpu
+device = torch.device('cpu')
+
+
+def atoi(text):
+    return int(text) if text.isdigit() else text
+
+
+def natural_keys(text):
+    '''
+    alist.sort(key=natural_keys) sorts in human order
+    http://nedbatchelder.com/blog/200712/human_sorting.html
+    (See Toothy's implementation in the comments)
+    '''
+    return [atoi(c) for c in re.split(r'(\d+)', text)]
+
+
+def get_model_state_file(checkpoint_dir, zero_stage):
+    if not os.path.isdir(checkpoint_dir):
+        raise FileNotFoundError(f"Directory '{checkpoint_dir}' doesn't exist")
+
+    # there should be only one file
+    if zero_stage <= 2:
+        file = os.path.join(checkpoint_dir, "mp_rank_00_model_states.pt")
+    elif zero_stage == 3:
+        file = os.path.join(checkpoint_dir, "zero_pp_rank_0_mp_rank_00_model_states.pt")
+
+    if not os.path.exists(file):
+        raise FileNotFoundError(f"can't find model states file at '{file}'")
+
+    return file
+
+
+def get_checkpoint_files(checkpoint_dir, glob_pattern):
+    # XXX: need to test that this simple glob rule works for multi-node setup too
+    ckpt_files = sorted(glob.glob(os.path.join(checkpoint_dir, glob_pattern)), key=natural_keys)
+
+    if len(ckpt_files) == 0:
+        raise FileNotFoundError(f"can't find {glob_pattern} files in directory '{checkpoint_dir}'")
+
+    return ckpt_files
+
+
+def get_optim_files(checkpoint_dir):
+    return get_checkpoint_files(checkpoint_dir, "*_optim_states.pt")
+
+
+def get_model_state_files(checkpoint_dir):
+    return get_checkpoint_files(checkpoint_dir, "*_model_states.pt")
+
+
+def parse_model_states(files):
+    zero_model_states = []
+    for file in files:
+        state_dict = torch.load(file, map_location=device)
+
+        if BUFFER_NAMES not in state_dict:
+            raise ValueError(f"{file} is not a model state checkpoint")
+        buffer_names = state_dict[BUFFER_NAMES]
+        if debug:
+            print("Found buffers:", buffer_names)
+
+        # recover just the buffers while restoring them to fp32 if they were saved in fp16
+        buffers = {k: v.float() for k, v in state_dict["module"].items() if k in buffer_names}
+        param_shapes = state_dict[PARAM_SHAPES]
+
+        # collect parameters that are included in param_shapes
+        param_names = []
+        for s in param_shapes:
+            for name in s.keys():
+                param_names.append(name)
+
+        # update with frozen parameters
+        frozen_param_shapes = state_dict.get(FROZEN_PARAM_SHAPES, None)
+        if frozen_param_shapes is not None:
+            if debug:
+                print(f"Found frozen_param_shapes: {frozen_param_shapes}")
+            param_names += list(frozen_param_shapes.keys())
+
+        # handle shared params
+        shared_params = [[k, v] for k, v in state_dict["shared_params"].items()]
+
+        ds_version = state_dict.get(DS_VERSION, None)
+
+        frozen_param_fragments = state_dict.get(FROZEN_PARAM_FRAGMENTS, None)
+
+        z_model_state = zero_model_state(buffers=buffers,
+                                         param_shapes=param_shapes,
+                                         shared_params=shared_params,
+                                         ds_version=ds_version,
+                                         frozen_param_shapes=frozen_param_shapes,
+                                         frozen_param_fragments=frozen_param_fragments)
+        zero_model_states.append(z_model_state)
+
+    return zero_model_states
+
+
+def parse_optim_states(files, ds_checkpoint_dir):
+
+    total_files = len(files)
+    state_dicts = []
+    for f in files:
+        state_dict = torch.load(f, map_location=device)
+        # immediately discard the potentially huge 2 optimizer states as we only care for fp32 master weights
+        # and also handle the case where it was already removed by another helper script
+        state_dict["optimizer_state_dict"].pop("optimizer_state_dict", None)
+        state_dicts.append(state_dict)
+
+    if not ZERO_STAGE in state_dicts[0][OPTIMIZER_STATE_DICT]:
+        raise ValueError(f"{files[0]} is not a zero checkpoint")
+    zero_stage = state_dicts[0][OPTIMIZER_STATE_DICT][ZERO_STAGE]
+    world_size = state_dicts[0][OPTIMIZER_STATE_DICT][PARTITION_COUNT]
+
+    # For ZeRO-2 each param group can have different partition_count as data parallelism for expert
+    # parameters can be different from data parallelism for non-expert parameters. So we can just
+    # use the max of the partition_count to get the dp world_size.
+
+    if type(world_size) is list:
+        world_size = max(world_size)
+
+    if world_size != total_files:
+        raise ValueError(
+            f"Expected {world_size} of '*_optim_states.pt' under '{ds_checkpoint_dir}' but found {total_files} files. "
+            "Possibly due to an overwrite of an old checkpoint, or a checkpoint didn't get saved by one or more processes."
+        )
+
+    # the groups are named differently in each stage
+    if zero_stage <= 2:
+        fp32_groups_key = SINGLE_PARTITION_OF_FP32_GROUPS
+    elif zero_stage == 3:
+        fp32_groups_key = FP32_FLAT_GROUPS
+    else:
+        raise ValueError(f"unknown zero stage {zero_stage}")
+
+    if zero_stage <= 2:
+        fp32_flat_groups = [state_dicts[i][OPTIMIZER_STATE_DICT][fp32_groups_key] for i in range(len(state_dicts))]
+    elif zero_stage == 3:
+        # if there is more than one param group, there will be multiple flattened tensors - one
+        # flattened tensor per group - for simplicity merge them into a single tensor
+        #
+        # XXX: could make the script more memory efficient for when there are multiple groups - it
+        # will require matching the sub-lists of param_shapes for each param group flattened tensor
+
+        fp32_flat_groups = [
+            torch.cat(state_dicts[i][OPTIMIZER_STATE_DICT][fp32_groups_key], 0) for i in range(len(state_dicts))
+        ]
+
+    return zero_stage, world_size, fp32_flat_groups
+
+
+def _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir, exclude_frozen_parameters):
+    """
+    Returns fp32 state_dict reconstructed from ds checkpoint
+
+    Args:
+        - ``ds_checkpoint_dir``: path to the deepspeed checkpoint folder (where the optimizer files are)
+
+    """
+    print(f"Processing zero checkpoint '{ds_checkpoint_dir}'")
+
+    optim_files = get_optim_files(ds_checkpoint_dir)
+    zero_stage, world_size, fp32_flat_groups = parse_optim_states(optim_files, ds_checkpoint_dir)
+    print(f"Detected checkpoint of type zero stage {zero_stage}, world_size: {world_size}")
+
+    model_files = get_model_state_files(ds_checkpoint_dir)
+
+    zero_model_states = parse_model_states(model_files)
+    print(f'Parsing checkpoint created by deepspeed=={zero_model_states[0].ds_version}')
+
+    if zero_stage <= 2:
+        return _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                                          exclude_frozen_parameters)
+    elif zero_stage == 3:
+        return _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                                          exclude_frozen_parameters)
+
+
+def _zero2_merge_frozen_params(state_dict, zero_model_states):
+    if zero_model_states[0].frozen_param_shapes is None or len(zero_model_states[0].frozen_param_shapes) == 0:
+        return
+
+    frozen_param_shapes = zero_model_states[0].frozen_param_shapes
+    frozen_param_fragments = zero_model_states[0].frozen_param_fragments
+
+    if debug:
+        num_elem = sum(s.numel() for s in frozen_param_shapes.values())
+        print(f'rank 0: {FROZEN_PARAM_SHAPES}.numel = {num_elem}')
+
+        wanted_params = len(frozen_param_shapes)
+        wanted_numel = sum(s.numel() for s in frozen_param_shapes.values())
+        avail_numel = sum([p.numel() for p in frozen_param_fragments.values()])
+        print(f'Frozen params: Have {avail_numel} numels to process.')
+        print(f'Frozen params: Need {wanted_numel} numels in {wanted_params} params')
+
+    total_params = 0
+    total_numel = 0
+    for name, shape in frozen_param_shapes.items():
+        total_params += 1
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+
+        state_dict[name] = frozen_param_fragments[name]
+
+        if debug:
+            print(f"{name} full shape: {shape} unpartitioned numel {unpartitioned_numel} ")
+
+    print(f"Reconstructed Frozen fp32 state dict with {total_params} params {total_numel} elements")
+
+
+def _has_callable(obj, fn):
+    attr = getattr(obj, fn, None)
+    return callable(attr)
+
+
+def _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states):
+    param_shapes = zero_model_states[0].param_shapes
+
+    # Reconstruction protocol:
+    #
+    # XXX: document this
+
+    if debug:
+        for i in range(world_size):
+            for j in range(len(fp32_flat_groups[0])):
+                print(f"{FP32_FLAT_GROUPS}[{i}][{j}].shape={fp32_flat_groups[i][j].shape}")
+
+    # XXX: memory usage doubles here (zero2)
+    num_param_groups = len(fp32_flat_groups[0])
+    merged_single_partition_of_fp32_groups = []
+    for i in range(num_param_groups):
+        merged_partitions = [sd[i] for sd in fp32_flat_groups]
+        full_single_fp32_vector = torch.cat(merged_partitions, 0)
+        merged_single_partition_of_fp32_groups.append(full_single_fp32_vector)
+    avail_numel = sum(
+        [full_single_fp32_vector.numel() for full_single_fp32_vector in merged_single_partition_of_fp32_groups])
+
+    if debug:
+        wanted_params = sum([len(shapes) for shapes in param_shapes])
+        wanted_numel = sum([sum(shape.numel() for shape in shapes.values()) for shapes in param_shapes])
+        # not asserting if there is a mismatch due to possible padding
+        print(f"Have {avail_numel} numels to process.")
+        print(f"Need {wanted_numel} numels in {wanted_params} params.")
+
+    # params
+    # XXX: for huge models that can't fit into the host's RAM we will have to recode this to support
+    # out-of-core computing solution
+    total_numel = 0
+    total_params = 0
+    for shapes, full_single_fp32_vector in zip(param_shapes, merged_single_partition_of_fp32_groups):
+        offset = 0
+        avail_numel = full_single_fp32_vector.numel()
+        for name, shape in shapes.items():
+
+            unpartitioned_numel = shape.numel() if _has_callable(shape, 'numel') else math.prod(shape)
+            total_numel += unpartitioned_numel
+            total_params += 1
+
+            if debug:
+                print(f"{name} full shape: {shape} unpartitioned numel {unpartitioned_numel} ")
+            state_dict[name] = full_single_fp32_vector.narrow(0, offset, unpartitioned_numel).view(shape)
+            offset += unpartitioned_numel
+
+        # Z2 started to align to 2*world_size to improve nccl performance. Therefore both offset and
+        # avail_numel can differ by anywhere between 0..2*world_size. Due to two unrelated complex
+        # paddings performed in the code it's almost impossible to predict the exact numbers w/o the
+        # live optimizer object, so we are checking that the numbers are within the right range
+        align_to = 2 * world_size
+
+        def zero2_align(x):
+            return align_to * math.ceil(x / align_to)
+
+        if debug:
+            print(f"original offset={offset}, avail_numel={avail_numel}")
+
+        offset = zero2_align(offset)
+        avail_numel = zero2_align(avail_numel)
+
+        if debug:
+            print(f"aligned  offset={offset}, avail_numel={avail_numel}")
+
+        # Sanity check
+        if offset != avail_numel:
+            raise ValueError(f"consumed {offset} numels out of {avail_numel} - something is wrong")
+
+    print(f"Reconstructed fp32 state dict with {total_params} params {total_numel} elements")
+
+
+def _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                               exclude_frozen_parameters):
+    state_dict = OrderedDict()
+
+    # buffers
+    buffers = zero_model_states[0].buffers
+    state_dict.update(buffers)
+    if debug:
+        print(f"added {len(buffers)} buffers")
+
+    if not exclude_frozen_parameters:
+        _zero2_merge_frozen_params(state_dict, zero_model_states)
+
+    _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
+
+    # recover shared parameters
+    for pair in zero_model_states[0].shared_params:
+        if pair[1] in state_dict:
+            state_dict[pair[0]] = state_dict[pair[1]]
+
+    return state_dict
+
+
+def zero3_partitioned_param_info(unpartitioned_numel, world_size):
+    remainder = unpartitioned_numel % world_size
+    padding_numel = (world_size - remainder) if remainder else 0
+    partitioned_numel = math.ceil(unpartitioned_numel / world_size)
+    return partitioned_numel, padding_numel
+
+
+def _zero3_merge_frozen_params(state_dict, world_size, zero_model_states):
+    if zero_model_states[0].frozen_param_shapes is None or len(zero_model_states[0].frozen_param_shapes) == 0:
+        return
+
+    if debug:
+        for i in range(world_size):
+            num_elem = sum(s.numel() for s in zero_model_states[i].frozen_param_fragments.values())
+            print(f'rank {i}: {FROZEN_PARAM_SHAPES}.numel = {num_elem}')
+
+        frozen_param_shapes = zero_model_states[0].frozen_param_shapes
+        wanted_params = len(frozen_param_shapes)
+        wanted_numel = sum(s.numel() for s in frozen_param_shapes.values())
+        avail_numel = sum([p.numel() for p in zero_model_states[0].frozen_param_fragments.values()]) * world_size
+        print(f'Frozen params: Have {avail_numel} numels to process.')
+        print(f'Frozen params: Need {wanted_numel} numels in {wanted_params} params')
+
+    total_params = 0
+    total_numel = 0
+    for name, shape in zero_model_states[0].frozen_param_shapes.items():
+        total_params += 1
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+
+        param_frags = tuple(model_state.frozen_param_fragments[name] for model_state in zero_model_states)
+        state_dict[name] = torch.cat(param_frags, 0).narrow(0, 0, unpartitioned_numel).view(shape)
+
+        partitioned_numel, partitioned_padding_numel = zero3_partitioned_param_info(unpartitioned_numel, world_size)
+
+        if debug:
+            print(
+                f"Frozen params: {total_params} {name} full shape: {shape} partition0 numel={partitioned_numel} partitioned_padding_numel={partitioned_padding_numel}"
+            )
+
+    print(f"Reconstructed Frozen fp32 state dict with {total_params} params {total_numel} elements")
+
+
+def _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states):
+    param_shapes = zero_model_states[0].param_shapes
+    avail_numel = fp32_flat_groups[0].numel() * world_size
+    # Reconstruction protocol: For zero3 we need to zip the partitions together at boundary of each
+    # param, re-consolidating each param, while dealing with padding if any
+
+    # merge list of dicts, preserving order
+    param_shapes = {k: v for d in param_shapes for k, v in d.items()}
+
+    if debug:
+        for i in range(world_size):
+            print(f"{FP32_FLAT_GROUPS}[{i}].shape={fp32_flat_groups[i].shape}")
+
+        wanted_params = len(param_shapes)
+        wanted_numel = sum(shape.numel() for shape in param_shapes.values())
+        # not asserting if there is a mismatch due to possible padding
+        avail_numel = fp32_flat_groups[0].numel() * world_size
+        print(f"Trainable params: Have {avail_numel} numels to process.")
+        print(f"Trainable params: Need {wanted_numel} numels in {wanted_params} params.")
+
+    # params
+    # XXX: for huge models that can't fit into the host's RAM we will have to recode this to support
+    # out-of-core computing solution
+    offset = 0
+    total_numel = 0
+    total_params = 0
+    for name, shape in param_shapes.items():
+
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+        total_params += 1
+
+        partitioned_numel, partitioned_padding_numel = zero3_partitioned_param_info(unpartitioned_numel, world_size)
+
+        if debug:
+            print(
+                f"Trainable params: {total_params} {name} full shape: {shape} partition0 numel={partitioned_numel} partitioned_padding_numel={partitioned_padding_numel}"
+            )
+
+        # XXX: memory usage doubles here
+        state_dict[name] = torch.cat(
+            tuple(fp32_flat_groups[i].narrow(0, offset, partitioned_numel) for i in range(world_size)),
+            0).narrow(0, 0, unpartitioned_numel).view(shape)
+        offset += partitioned_numel
+
+    offset *= world_size
+
+    # Sanity check
+    if offset != avail_numel:
+        raise ValueError(f"consumed {offset} numels out of {avail_numel} - something is wrong")
+
+    print(f"Reconstructed Trainable fp32 state dict with {total_params} params {total_numel} elements")
+
+
+def _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                               exclude_frozen_parameters):
+    state_dict = OrderedDict()
+
+    # buffers
+    buffers = zero_model_states[0].buffers
+    state_dict.update(buffers)
+    if debug:
+        print(f"added {len(buffers)} buffers")
+
+    if not exclude_frozen_parameters:
+        _zero3_merge_frozen_params(state_dict, world_size, zero_model_states)
+
+    _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
+
+    # recover shared parameters
+    for pair in zero_model_states[0].shared_params:
+        if pair[1] in state_dict:
+            state_dict[pair[0]] = state_dict[pair[1]]
+
+    return state_dict
+
+
+def get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag=None, exclude_frozen_parameters=False):
+    """
+    Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated state_dict that can be loaded with
+    ``load_state_dict()`` and used for training without DeepSpeed or shared with others, for example
+    via a model hub.
+
+    Args:
+        - ``checkpoint_dir``: path to the desired checkpoint folder
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in 'latest' file. e.g., ``global_step14``
+        - ``exclude_frozen_parameters``: exclude frozen parameters
+
+    Returns:
+        - pytorch ``state_dict``
+
+    Note: this approach may not work if your application doesn't have sufficient free CPU memory and
+    you may need to use the offline approach using the ``zero_to_fp32.py`` script that is saved with
+    the checkpoint.
+
+    A typical usage might be ::
+
+        from deepspeed.utils.zero_to_fp32 import get_fp32_state_dict_from_zero_checkpoint
+        # do the training and checkpoint saving
+        state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir) # already on cpu
+        model = model.cpu() # move to cpu
+        model.load_state_dict(state_dict)
+        # submit to model hub or save the model to share with others
+
+    In this example the ``model`` will no longer be usable in the deepspeed context of the same
+    application. i.e. you will need to re-initialize the deepspeed engine, since
+    ``model.load_state_dict(state_dict)`` will remove all the deepspeed magic from it.
+
+    If you want it all done for you, use ``load_state_dict_from_zero_checkpoint`` instead.
+
+    """
+    if tag is None:
+        latest_path = os.path.join(checkpoint_dir, 'latest')
+        if os.path.isfile(latest_path):
+            with open(latest_path, 'r') as fd:
+                tag = fd.read().strip()
+        else:
+            raise ValueError(f"Unable to find 'latest' file at {latest_path}")
+
+    ds_checkpoint_dir = os.path.join(checkpoint_dir, tag)
+
+    if not os.path.isdir(ds_checkpoint_dir):
+        raise FileNotFoundError(f"Directory '{ds_checkpoint_dir}' doesn't exist")
+
+    return _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir, exclude_frozen_parameters)
+
+
+def convert_zero_checkpoint_to_fp32_state_dict(checkpoint_dir, output_file, tag=None, exclude_frozen_parameters=False):
+    """
+    Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated ``state_dict`` file that can be
+    loaded with ``torch.load(file)`` + ``load_state_dict()`` and used for training without DeepSpeed.
+
+    Args:
+        - ``checkpoint_dir``: path to the desired checkpoint folder. (one that contains the tag-folder, like ``global_step14``)
+        - ``output_file``: path to the pytorch fp32 state_dict output file (e.g. path/pytorch_model.bin)
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in the file named ``latest`` in the checkpoint folder, e.g., ``global_step14``
+        - ``exclude_frozen_parameters``: exclude frozen parameters
+    """
+
+    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag, exclude_frozen_parameters)
+    print(f"Saving fp32 state dict to {output_file}")
+    torch.save(state_dict, output_file)
+
+
+def load_state_dict_from_zero_checkpoint(model, checkpoint_dir, tag=None):
+    """
+    1. Put the provided model to cpu
+    2. Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated ``state_dict``
+    3. Load it into the provided model
+
+    Args:
+        - ``model``: the model object to update
+        - ``checkpoint_dir``: path to the desired checkpoint folder. (one that contains the tag-folder, like ``global_step14``)
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in the file named ``latest`` in the checkpoint folder, e.g., ``global_step14``
+
+    Returns:
+        - ``model`: modified model
+
+    Make sure you have plenty of CPU memory available before you call this function. If you don't
+    have enough use the ``zero_to_fp32.py`` utility to do the conversion. You will find it
+    conveniently placed for you in the checkpoint folder.
+
+    A typical usage might be ::
+
+        from deepspeed.utils.zero_to_fp32 import load_state_dict_from_zero_checkpoint
+        model = load_state_dict_from_zero_checkpoint(trainer.model, checkpoint_dir)
+        # submit to model hub or save the model to share with others
+
+    Note, that once this was run, the ``model`` will no longer be usable in the deepspeed context
+    of the same application. i.e. you will need to re-initialize the deepspeed engine, since
+    ``model.load_state_dict(state_dict)`` will remove all the deepspeed magic from it.
+
+    """
+    logger.info(f"Extracting fp32 weights")
+    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag)
+
+    logger.info(f"Overwriting model with fp32 weights")
+    model = model.cpu()
+    model.load_state_dict(state_dict, strict=False)
+
+    return model
+
+
+if __name__ == "__main__":
+
+    parser = argparse.ArgumentParser()
+    parser.add_argument("checkpoint_dir",
+                        type=str,
+                        help="path to the desired checkpoint folder, e.g., path/checkpoint-12")
+    parser.add_argument(
+        "output_file",
+        type=str,
+        help="path to the pytorch fp32 state_dict output file (e.g. path/checkpoint-12/pytorch_model.bin)")
+    parser.add_argument("-t",
+                        "--tag",
+                        type=str,
+                        default=None,
+                        help="checkpoint tag used as a unique identifier for checkpoint. e.g., global_step1")
+    parser.add_argument("--exclude_frozen_parameters", action='store_true', help="exclude frozen parameters")
+    parser.add_argument("-d", "--debug", action='store_true', help="enable debug")
+    args = parser.parse_args()
+
+    debug = args.debug
+
+    convert_zero_checkpoint_to_fp32_state_dict(args.checkpoint_dir,
+                                               args.output_file,
+                                               tag=args.tag,
+                                               exclude_frozen_parameters=args.exclude_frozen_parameters)
diff --git a/ckpts/qwen3-1.7b-whisper-260126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/log.txt b/ckpts/qwen3-1.7b-whisper-260126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/log.txt
new file mode 100644
index 0000000000000000000000000000000000000000..dac4bc5539784f593827a5cb81096eef78629d65
--- /dev/null
+++ b/ckpts/qwen3-1.7b-whisper-260126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/log.txt
@@ -0,0 +1,27513 @@
+[2026-01-26 13:46:13,851] [INFO] [real_accelerator.py:191:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2026-01-26 13:46:15,346] [WARNING] [runner.py:202:fetch_hostfile] Unable to find hostfile, will proceed with training with local resources only.
+[2026-01-26 13:46:15,346] [INFO] [runner.py:568:main] cmd = /usr/bin/python -u -m deepspeed.launcher.launch --world_info=eyJsb2NhbGhvc3QiOiBbMCwgMSwgMiwgM119 --master_addr=127.0.0.1 --master_port=29500 --enable_each_rank_log=None pretrain_demo_qwenaudio.py --num_worker 16 --save_path /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B --save_steps 1000 --logging_steps 1 --eval_steps 4000001 --train_batch_size 56 --micro_train_batch_size 14 --micro_eval_batch_size 8 --model_path /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-1221_4x3000h_chunked_flylora_none_fixed/ckpts/global_step24000_hf_merged_lora --tokenizer_path /fs/nlp/common/plms/qwen-audio/qwen3-1.7b-chat-audio-whisper-v3-convproj --max_epochs 3 --max_len 1024 --zero_stage 2 --max_ckpt_num 5 --learning_rate 2e-5 --flash_attn --use_custom_qwen3 --dataset_config /fs/nlp/common_intern/meiyuxiang/uniscale_multimodal/scripts/myx/data_config/train_config_12x1000h_mls_lite1h.yaml --tensorboard-dir /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/tb_logs --n_mels 128 --audio_subsampling_scale 4 --packing_samples --seed 421 --freeze_llm --freeze_audio --lora_rank 32 --lora_alpha 64 --specaug_policy SM --post_audio_ratio 1 --gradient_checkpointing --load_checkpoint --bf16 --randomize_chunk_window --use_zipper_lora --use_lid_router --zipper_lora_num_languages 12 --zipper_lora_r 32 --trainable_A --zipper_lora_scope audio --use_soft_routing --init_B
+[2026-01-26 13:46:17,584] [INFO] [real_accelerator.py:191:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2026-01-26 13:46:18,879] [INFO] [launch.py:138:main] 0 NCCL_VERSION=2.19.3
+[2026-01-26 13:46:18,879] [INFO] [launch.py:138:main] 0 NCCL_SOCKET_IFNAME=eth1
+[2026-01-26 13:46:18,879] [INFO] [launch.py:138:main] 0 NCCL_CUMEM_HOST_ENABLE=0
+[2026-01-26 13:46:18,879] [INFO] [launch.py:138:main] 0 NCCL_IB_HCA=^=mlx5_4
+[2026-01-26 13:46:18,879] [INFO] [launch.py:145:main] WORLD INFO DICT: {'localhost': [0, 1, 2, 3]}
+[2026-01-26 13:46:18,879] [INFO] [launch.py:151:main] nnodes=1, num_local_procs=4, node_rank=0
+[2026-01-26 13:46:18,879] [INFO] [launch.py:162:main] global_rank_mapping=defaultdict(<class 'list'>, {'localhost': [0, 1, 2, 3]})
+[2026-01-26 13:46:18,879] [INFO] [launch.py:163:main] dist_world_size=4
+[2026-01-26 13:46:18,879] [INFO] [launch.py:165:main] Setting CUDA_VISIBLE_DEVICES=0,1,2,3
+[2026-01-26 13:46:18,880] [INFO] [launch.py:253:main] process 413693 spawned with command: ['/usr/bin/python', '-u', 'pretrain_demo_qwenaudio.py', '--local_rank=0', '--num_worker', '16', '--save_path', '/fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B', '--save_steps', '1000', '--logging_steps', '1', '--eval_steps', '4000001', '--train_batch_size', '56', '--micro_train_batch_size', '14', '--micro_eval_batch_size', '8', '--model_path', '/fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-1221_4x3000h_chunked_flylora_none_fixed/ckpts/global_step24000_hf_merged_lora', '--tokenizer_path', '/fs/nlp/common/plms/qwen-audio/qwen3-1.7b-chat-audio-whisper-v3-convproj', '--max_epochs', '3', '--max_len', '1024', '--zero_stage', '2', '--max_ckpt_num', '5', '--learning_rate', '2e-5', '--flash_attn', '--use_custom_qwen3', '--dataset_config', '/fs/nlp/common_intern/meiyuxiang/uniscale_multimodal/scripts/myx/data_config/train_config_12x1000h_mls_lite1h.yaml', '--tensorboard-dir', '/fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/tb_logs', '--n_mels', '128', '--audio_subsampling_scale', '4', '--packing_samples', '--seed', '421', '--freeze_llm', '--freeze_audio', '--lora_rank', '32', '--lora_alpha', '64', '--specaug_policy', 'SM', '--post_audio_ratio', '1', '--gradient_checkpointing', '--load_checkpoint', '--bf16', '--randomize_chunk_window', '--use_zipper_lora', '--use_lid_router', '--zipper_lora_num_languages', '12', '--zipper_lora_r', '32', '--trainable_A', '--zipper_lora_scope', 'audio', '--use_soft_routing', '--init_B']
+[2026-01-26 13:46:18,882] [INFO] [launch.py:253:main] process 413694 spawned with command: ['/usr/bin/python', '-u', 'pretrain_demo_qwenaudio.py', '--local_rank=1', '--num_worker', '16', '--save_path', '/fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B', '--save_steps', '1000', '--logging_steps', '1', '--eval_steps', '4000001', '--train_batch_size', '56', '--micro_train_batch_size', '14', '--micro_eval_batch_size', '8', '--model_path', '/fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-1221_4x3000h_chunked_flylora_none_fixed/ckpts/global_step24000_hf_merged_lora', '--tokenizer_path', '/fs/nlp/common/plms/qwen-audio/qwen3-1.7b-chat-audio-whisper-v3-convproj', '--max_epochs', '3', '--max_len', '1024', '--zero_stage', '2', '--max_ckpt_num', '5', '--learning_rate', '2e-5', '--flash_attn', '--use_custom_qwen3', '--dataset_config', '/fs/nlp/common_intern/meiyuxiang/uniscale_multimodal/scripts/myx/data_config/train_config_12x1000h_mls_lite1h.yaml', '--tensorboard-dir', '/fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/tb_logs', '--n_mels', '128', '--audio_subsampling_scale', '4', '--packing_samples', '--seed', '421', '--freeze_llm', '--freeze_audio', '--lora_rank', '32', '--lora_alpha', '64', '--specaug_policy', 'SM', '--post_audio_ratio', '1', '--gradient_checkpointing', '--load_checkpoint', '--bf16', '--randomize_chunk_window', '--use_zipper_lora', '--use_lid_router', '--zipper_lora_num_languages', '12', '--zipper_lora_r', '32', '--trainable_A', '--zipper_lora_scope', 'audio', '--use_soft_routing', '--init_B']
+[2026-01-26 13:46:18,882] [INFO] [launch.py:253:main] process 413695 spawned with command: ['/usr/bin/python', '-u', 'pretrain_demo_qwenaudio.py', '--local_rank=2', '--num_worker', '16', '--save_path', '/fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B', '--save_steps', '1000', '--logging_steps', '1', '--eval_steps', '4000001', '--train_batch_size', '56', '--micro_train_batch_size', '14', '--micro_eval_batch_size', '8', '--model_path', '/fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-1221_4x3000h_chunked_flylora_none_fixed/ckpts/global_step24000_hf_merged_lora', '--tokenizer_path', '/fs/nlp/common/plms/qwen-audio/qwen3-1.7b-chat-audio-whisper-v3-convproj', '--max_epochs', '3', '--max_len', '1024', '--zero_stage', '2', '--max_ckpt_num', '5', '--learning_rate', '2e-5', '--flash_attn', '--use_custom_qwen3', '--dataset_config', '/fs/nlp/common_intern/meiyuxiang/uniscale_multimodal/scripts/myx/data_config/train_config_12x1000h_mls_lite1h.yaml', '--tensorboard-dir', '/fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/tb_logs', '--n_mels', '128', '--audio_subsampling_scale', '4', '--packing_samples', '--seed', '421', '--freeze_llm', '--freeze_audio', '--lora_rank', '32', '--lora_alpha', '64', '--specaug_policy', 'SM', '--post_audio_ratio', '1', '--gradient_checkpointing', '--load_checkpoint', '--bf16', '--randomize_chunk_window', '--use_zipper_lora', '--use_lid_router', '--zipper_lora_num_languages', '12', '--zipper_lora_r', '32', '--trainable_A', '--zipper_lora_scope', 'audio', '--use_soft_routing', '--init_B']
+[2026-01-26 13:46:18,883] [INFO] [launch.py:253:main] process 413696 spawned with command: ['/usr/bin/python', '-u', 'pretrain_demo_qwenaudio.py', '--local_rank=3', '--num_worker', '16', '--save_path', '/fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B', '--save_steps', '1000', '--logging_steps', '1', '--eval_steps', '4000001', '--train_batch_size', '56', '--micro_train_batch_size', '14', '--micro_eval_batch_size', '8', '--model_path', '/fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-1221_4x3000h_chunked_flylora_none_fixed/ckpts/global_step24000_hf_merged_lora', '--tokenizer_path', '/fs/nlp/common/plms/qwen-audio/qwen3-1.7b-chat-audio-whisper-v3-convproj', '--max_epochs', '3', '--max_len', '1024', '--zero_stage', '2', '--max_ckpt_num', '5', '--learning_rate', '2e-5', '--flash_attn', '--use_custom_qwen3', '--dataset_config', '/fs/nlp/common_intern/meiyuxiang/uniscale_multimodal/scripts/myx/data_config/train_config_12x1000h_mls_lite1h.yaml', '--tensorboard-dir', '/fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/tb_logs', '--n_mels', '128', '--audio_subsampling_scale', '4', '--packing_samples', '--seed', '421', '--freeze_llm', '--freeze_audio', '--lora_rank', '32', '--lora_alpha', '64', '--specaug_policy', 'SM', '--post_audio_ratio', '1', '--gradient_checkpointing', '--load_checkpoint', '--bf16', '--randomize_chunk_window', '--use_zipper_lora', '--use_lid_router', '--zipper_lora_num_languages', '12', '--zipper_lora_r', '32', '--trainable_A', '--zipper_lora_scope', 'audio', '--use_soft_routing', '--init_B']
+[2026-01-26 13:46:23,367] [INFO] [real_accelerator.py:191:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2026-01-26 13:46:23,368] [INFO] [real_accelerator.py:191:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2026-01-26 13:46:23,370] [INFO] [real_accelerator.py:191:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2026-01-26 13:46:23,383] [INFO] [real_accelerator.py:191:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2026-01-26 13:46:23,793] [INFO] [comm.py:637:init_distributed] cdb=None
+[2026-01-26 13:46:23,793] [INFO] [comm.py:668:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+[2026-01-26 13:46:24,022] [INFO] [comm.py:637:init_distributed] cdb=None
+[2026-01-26 13:46:24,024] [INFO] [comm.py:637:init_distributed] cdb=None
+[W CUDAAllocatorConfig.h:28] Warning: expandable_segments not supported on this platform (function operator())
+[2026-01-26 13:46:24,024] [INFO] [comm.py:637:init_distributed] cdb=None
+[W CUDAAllocatorConfig.h:28] Warning: expandable_segments not supported on this platform (function operator())
+[W CUDAAllocatorConfig.h:28] Warning: expandable_segments not supported on this platform (function operator())
+[W CUDAAllocatorConfig.h:28] Warning: expandable_segments not supported on this platform (function operator())
+2026-01-26 13:46:24.546 | INFO     | model.unigpt_audio_models.tokenization_qwen_audio:__init__:147 - vocab_size: 155165, audio_start_id: 155163, audio_end_id: 155164, audio_pad_id: 151851.
+2026-01-26 13:46:24.552 | INFO     | model.unigpt_audio_models.tokenization_qwen_audio:__init__:147 - vocab_size: 155165, audio_start_id: 155163, audio_end_id: 155164, audio_pad_id: 151851.
+2026-01-26 13:46:24.552 | INFO     | model.unigpt_audio_models.tokenization_qwen_audio:__init__:147 - vocab_size: 155165, audio_start_id: 155163, audio_end_id: 155164, audio_pad_id: 151851.
+2026-01-26 13:46:24.558 | INFO     | model.unigpt_audio_models.tokenization_qwen_audio:__init__:147 - vocab_size: 155165, audio_start_id: 155163, audio_end_id: 155164, audio_pad_id: 151851.
+loading dataset com_voice_ar with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+loading dataset com_voice_ar with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+loading dataset com_voice_ar with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+loading dataset com_voice_ar with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]0it [00:00, ?it/s]0it [00:00, ?it/s]0it [00:00, ?it/s]3619it [00:00, 36187.36it/s]3516it [00:00, 35151.23it/s]3661it [00:00, 36596.25it/s]3634it [00:00, 36333.36it/s]6363it [00:00, 37982.38it/s]
+2026-01-26 13:46:24.759 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 41 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_ar_pack_new.jsonl
+0it [00:00, ?it/s]6363it [00:00, 37706.66it/s]6363it [00:00, 37618.16it/s]
+
+2026-01-26 13:46:24.760 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 41 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_ar_pack_new.jsonl
+2026-01-26 13:46:24.760 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 41 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_ar_pack_new.jsonl
+0it [00:00, ?it/s]0it [00:00, ?it/s]6363it [00:00, 37182.17it/s]
+2026-01-26 13:46:24.762 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 41 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_ar_pack_new.jsonl
+0it [00:00, ?it/s]4563it [00:00, 45623.84it/s]4567it [00:00, 45660.57it/s]4567it [00:00, 45666.34it/s]4619it [00:00, 46181.02it/s]6363it [00:00, 46501.23it/s]
+2026-01-26 13:46:24.897 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 6363 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_ar_pack_new.jsonl
+loading dataset mls_de with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]6363it [00:00, 46327.76it/s]
+6363it [00:00, 46288.71it/s]
+2026-01-26 13:46:24.899 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 6363 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_ar_pack_new.jsonl
+6363it [00:00, 46908.42it/s]
+2026-01-26 13:46:24.899 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 6363 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_ar_pack_new.jsonl
+loading dataset mls_de with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+loading dataset mls_de with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]0it [00:00, ?it/s]2026-01-26 13:46:24.899 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 6363 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_ar_pack_new.jsonl
+loading dataset mls_de with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]11886it [00:00, 118853.31it/s]11102it [00:00, 111006.61it/s]11110it [00:00, 111081.57it/s]12098it [00:00, 120974.92it/s]24594it [00:00, 123684.17it/s]23606it [00:00, 119256.69it/s]23621it [00:00, 119321.71it/s]24862it [00:00, 124889.60it/s]37794it [00:00, 127476.23it/s]36632it [00:00, 124277.19it/s]36652it [00:00, 124333.53it/s]37926it [00:00, 127508.24it/s]50542it [00:00, 126950.47it/s]49060it [00:00, 124182.04it/s]49086it [00:00, 124182.32it/s]50677it [00:00, 127454.64it/s]63327it [00:00, 127271.62it/s]61479it [00:00, 124029.66it/s]63423it [00:00, 127385.67it/s]61505it [00:00, 124041.17it/s]63529it [00:00, 126321.15it/s]
+63529it [00:00, 126733.60it/s]
+63529it [00:00, 123240.98it/s]63529it [00:00, 123256.09it/s]
+
+2026-01-26 13:46:25.424 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 32304 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_de_pack_new.jsonl
+2026-01-26 13:46:25.424 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 32304 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_de_pack_new.jsonl
+loading dataset mls_es with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+loading dataset mls_es with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]0it [00:00, ?it/s]2026-01-26 13:46:25.438 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 32304 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_de_pack_new.jsonl
+2026-01-26 13:46:25.438 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 32304 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_de_pack_new.jsonl
+loading dataset mls_es with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+loading dataset mls_es with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]0it [00:00, ?it/s]11520it [00:00, 115186.65it/s]11474it [00:00, 114723.70it/s]12201it [00:00, 122000.81it/s]12291it [00:00, 122903.08it/s]24570it [00:00, 124183.17it/s]24388it [00:00, 123196.88it/s]24846it [00:00, 124611.68it/s]24933it [00:00, 124963.29it/s]30551it [00:00, 121501.81it/s]
+30551it [00:00, 121269.99it/s]
+2026-01-26 13:46:25.688 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 33300 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_es_pack_new.jsonl
+0it [00:00, ?it/s]2026-01-26 13:46:25.689 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 33300 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_es_pack_new.jsonl
+0it [00:00, ?it/s]30551it [00:00, 122200.27it/s]30551it [00:00, 122533.19it/s]
+
+2026-01-26 13:46:25.700 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 33300 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_es_pack_new.jsonl
+2026-01-26 13:46:25.700 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 33300 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_es_pack_new.jsonl
+0it [00:00, ?it/s]0it [00:00, ?it/s]11204it [00:00, 112024.88it/s]11329it [00:00, 113283.36it/s]11029it [00:00, 110279.59it/s]11043it [00:00, 110406.68it/s]22741it [00:00, 113978.65it/s]22855it [00:00, 114442.27it/s]22323it [00:00, 111834.50it/s]22334it [00:00, 111871.00it/s]30551it [00:00, 114767.06it/s]30551it [00:00, 114325.74it/s]
+
+2026-01-26 13:46:25.957 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 30551 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_es_pack_new.jsonl
+2026-01-26 13:46:25.957 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 30551 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_es_pack_new.jsonl
+loading dataset mls_fr with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+loading dataset mls_fr with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]0it [00:00, ?it/s]30551it [00:00, 112788.04it/s]30551it [00:00, 112829.55it/s]
+
+2026-01-26 13:46:25.973 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 30551 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_es_pack_new.jsonl
+2026-01-26 13:46:25.973 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 30551 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_es_pack_new.jsonl
+loading dataset mls_fr with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+loading dataset mls_fr with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]0it [00:00, ?it/s]8478it [00:00, 84774.83it/s]8366it [00:00, 83644.13it/s]8967it [00:00, 89660.47it/s]8969it [00:00, 89684.95it/s]17073it [00:00, 85437.14it/s]16731it [00:00, 83539.50it/s]17934it [00:00, 87380.10it/s]17938it [00:00, 87390.84it/s]25971it [00:00, 87051.47it/s]25678it [00:00, 86240.63it/s]26730it [00:00, 87638.58it/s]26732it [00:00, 87634.71it/s]34959it [00:00, 88149.60it/s]34777it [00:00, 88096.19it/s]36216it [00:00, 86845.98it/s]
+35508it [00:00, 87692.17it/s]35531it [00:00, 87767.33it/s]36216it [00:00, 86113.09it/s]
+36216it [00:00, 87720.38it/s]
+36216it [00:00, 87680.03it/s]
+2026-01-26 13:46:26.397 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 33637 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_fr_pack_new.jsonl
+loading dataset mls_it with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]2026-01-26 13:46:26.401 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 33637 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_fr_pack_new.jsonl
+loading dataset mls_it with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]2026-01-26 13:46:26.409 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 33637 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_fr_pack_new.jsonl
+2026-01-26 13:46:26.409 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 33637 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_fr_pack_new.jsonl
+loading dataset mls_it with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+loading dataset mls_it with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]0it [00:00, ?it/s]8282it [00:00, 127937.57it/s]
+8282it [00:00, 120765.91it/s]
+2026-01-26 13:46:26.468 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 16564 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_it_pack_new.jsonl
+loading dataset com_voice_ja with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+2026-01-26 13:46:26.468 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 16564 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_it_pack_new.jsonl
+loading dataset com_voice_ja with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]0it [00:00, ?it/s]8282it [00:00, 134666.51it/s]
+8282it [00:00, 133684.41it/s]
+2026-01-26 13:46:26.472 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 16564 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_it_pack_new.jsonl
+loading dataset com_voice_ja with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+2026-01-26 13:46:26.472 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 16564 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/mls_it_pack_new.jsonl
+0it [00:00, ?it/s]loading dataset com_voice_ja with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]3970it [00:00, 39695.31it/s]3917it [00:00, 39161.63it/s]4074it [00:00, 40737.90it/s]4048it [00:00, 40470.10it/s]8315it [00:00, 41899.93it/s]8239it [00:00, 41538.88it/s]8394it [00:00, 42179.33it/s]8313it [00:00, 41749.24it/s]12565it [00:00, 42169.25it/s]12447it [00:00, 41780.94it/s]12639it [00:00, 42301.68it/s]12637it [00:00, 42429.08it/s]16796it [00:00, 42221.13it/s]16691it [00:00, 42039.32it/s]16870it [00:00, 42032.81it/s]16880it [00:00, 41982.72it/s]17319it [00:00, 41811.13it/s]
+2026-01-26 13:46:26.883 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 36 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_ja_pack_new.jsonl
+17319it [00:00, 41607.66it/s]
+2026-01-26 13:46:26.885 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 36 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_ja_pack_new.jsonl
+loading dataset com_voice_ko with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]17319it [00:00, 41840.25it/s]
+2026-01-26 13:46:26.887 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 36 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_ja_pack_new.jsonl
+17319it [00:00, 41793.57it/s]
+loading dataset com_voice_ko with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+2026-01-26 13:46:26.888 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 36 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_ja_pack_new.jsonl
+0it [00:00, ?it/s]loading dataset com_voice_ko with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]loading dataset com_voice_ko with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]235it [00:00, 34661.23it/s]
+235it [00:00, 27836.47it/s]235it [00:00, 46469.35it/s]
+
+235it [00:00, 55077.19it/s]
+2026-01-26 13:46:26.895 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 36 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_ko_pack_new.jsonl
+2026-01-26 13:46:26.895 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 36 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_ko_pack_new.jsonl
+loading dataset com_voice_pt with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>2026-01-26 13:46:26.895 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 36 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_ko_pack_new.jsonl
+
+2026-01-26 13:46:26.895 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 36 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_ko_pack_new.jsonl
+loading dataset com_voice_pt with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+loading dataset com_voice_pt with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+loading dataset com_voice_pt with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]0it [00:00, ?it/s]0it [00:00, ?it/s]0it [00:00, ?it/s]65it [00:00, 20424.76it/s]
+65it [00:00, 20449.28it/s]65it [00:00, 20218.76it/s]
+65it [00:00, 20257.82it/s]
+
+2026-01-26 13:46:26.899 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 22 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_pt_pack_new.jsonl
+2026-01-26 13:46:26.899 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 22 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_pt_pack_new.jsonl
+loading dataset msr86k_ru with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>2026-01-26 13:46:26.899 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 22 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_pt_pack_new.jsonl
+
+2026-01-26 13:46:26.899 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 22 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_pt_pack_new.jsonl
+loading dataset msr86k_ru with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+loading dataset msr86k_ru with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+loading dataset msr86k_ru with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]0it [00:00, ?it/s]0it [00:00, ?it/s]0it [00:00, ?it/s]3975it [00:00, 39742.74it/s]4049it [00:00, 40488.11it/s]3955it [00:00, 39535.99it/s]3990it [00:00, 39889.01it/s]8176it [00:00, 41070.82it/s]8234it [00:00, 41445.33it/s]8337it [00:00, 41887.46it/s]8177it [00:00, 41048.26it/s]12360it [00:00, 41420.08it/s]12531it [00:00, 42138.05it/s]12585it [00:00, 42155.36it/s]12359it [00:00, 41399.04it/s]16625it [00:00, 41903.04it/s]16625it [00:00, 41894.65it/s]16923it [00:00, 42838.28it/s]16926it [00:00, 42648.15it/s]20815it [00:00, 40471.68it/s]20816it [00:00, 40470.57it/s]21191it [00:00, 40897.13it/s]21207it [00:00, 41039.73it/s]24871it [00:00, 38980.50it/s]24872it [00:00, 38986.43it/s]25293it [00:00, 39479.25it/s]25324it [00:00, 39576.63it/s]28782it [00:00, 38122.52it/s]28784it [00:00, 38124.21it/s]29255it [00:00, 38652.69it/s]29297it [00:00, 38683.05it/s]32604it [00:00, 37372.98it/s]32606it [00:00, 37372.34it/s]33130it [00:00, 37824.30it/s]33176it [00:00, 37925.90it/s]36348it [00:00, 36884.84it/s]36350it [00:00, 36884.63it/s]36976it [00:00, 37401.79it/s]36920it [00:00, 37194.52it/s]40041it [00:01, 36758.34it/s]40043it [00:01, 36761.64it/s]40721it [00:01, 37241.62it/s]40644it [00:01, 36851.29it/s]43719it [00:01, 36688.30it/s]43722it [00:01, 36687.62it/s]44448it [00:01, 37210.43it/s]44332it [00:01, 36686.82it/s]47390it [00:01, 36601.40it/s]47393it [00:01, 36597.29it/s]48171it [00:01, 37097.69it/s]48018it [00:01, 36735.24it/s]51051it [00:01, 36519.04it/s]51054it [00:01, 36519.63it/s]51882it [00:01, 37003.01it/s]51693it [00:01, 36692.89it/s]54704it [00:01, 36500.16it/s]54707it [00:01, 36496.46it/s]55583it [00:01, 36909.58it/s]55363it [00:01, 36427.29it/s]58355it [00:01, 36304.58it/s]58357it [00:01, 36306.40it/s]59275it [00:01, 36711.02it/s]59007it [00:01, 36286.63it/s]61986it [00:01, 36271.23it/s]61988it [00:01, 36273.37it/s]62947it [00:01, 36620.07it/s]62636it [00:01, 36263.88it/s]65647it [00:01, 36371.78it/s]65650it [00:01, 36372.68it/s]66651it [00:01, 36743.30it/s]66338it [00:01, 36487.54it/s]69342it [00:01, 36543.36it/s]69346it [00:01, 36545.13it/s]70392it [00:01, 36939.32it/s]70097it [00:01, 36814.47it/s]73025it [00:01, 36627.56it/s]73028it [00:01, 36621.47it/s]74134it [00:01, 37081.72it/s]73834it [00:01, 36978.82it/s]76705it [00:02, 36678.72it/s]76711it [00:02, 36680.68it/s]77875it [00:02, 37177.33it/s]77590it [00:02, 37150.49it/s]80374it [00:02, 36644.35it/s]80380it [00:02, 36630.43it/s]81593it [00:02, 37021.97it/s]81306it [00:02, 37010.32it/s]84039it [00:02, 36522.79it/s]84044it [00:02, 36538.20it/s]85296it [00:02, 36944.80it/s]85008it [00:02, 36880.50it/s]85473it [00:02, 37853.04it/s]
+85473it [00:02, 37680.31it/s]
+85473it [00:02, 37381.14it/s]85473it [00:02, 37380.90it/s]
+
+2026-01-26 13:46:29.186 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 35898 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/msr86k_ru_pack_new.jsonl
+loading dataset com_voice_th with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+2026-01-26 13:46:29.196 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 35898 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/msr86k_ru_pack_new.jsonl
+loading dataset com_voice_th with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+2026-01-26 13:46:29.214 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 35898 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/msr86k_ru_pack_new.jsonl
+2026-01-26 13:46:29.215 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 35898 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/msr86k_ru_pack_new.jsonl
+loading dataset com_voice_th with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+loading dataset com_voice_th with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]0it [00:00, ?it/s]0it [00:00, ?it/s]0it [00:00, ?it/s]2876it [00:00, 28752.97it/s]3068it [00:00, 30672.94it/s]3014it [00:00, 30132.56it/s]3023it [00:00, 30216.70it/s]6267it [00:00, 31780.61it/s]6570it [00:00, 33228.88it/s]6400it [00:00, 32320.93it/s]6419it [00:00, 32414.26it/s]9805it [00:00, 33421.24it/s]10112it [00:00, 34224.12it/s]9872it [00:00, 33413.22it/s]9890it [00:00, 33457.83it/s]13559it [00:00, 35044.76it/s]13902it [00:00, 35670.81it/s]13564it [00:00, 34795.49it/s]13585it [00:00, 34833.02it/s]17398it [00:00, 35013.66it/s]17398it [00:00, 35702.35it/s]
+
+2026-01-26 13:46:29.724 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 34796 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_th_pack_new.jsonl
+2026-01-26 13:46:29.724 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 34796 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_th_pack_new.jsonl
+loading dataset msr86k_vi with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+loading dataset msr86k_vi with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]0it [00:00, ?it/s]17398it [00:00, 34921.10it/s]17398it [00:00, 34957.02it/s]
+
+2026-01-26 13:46:29.753 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 34796 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_th_pack_new.jsonl
+2026-01-26 13:46:29.753 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 34796 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/com_voice_th_pack_new.jsonl
+loading dataset msr86k_vi with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+loading dataset msr86k_vi with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]0it [00:00, ?it/s]3282it [00:00, 32816.51it/s]3276it [00:00, 32756.44it/s]3457it [00:00, 34559.16it/s]3433it [00:00, 34319.72it/s]6673it [00:00, 33465.54it/s]6681it [00:00, 33496.97it/s]6865it [00:00, 33677.40it/s]6913it [00:00, 33631.59it/s]10060it [00:00, 33649.31it/s]10079it [00:00, 33712.88it/s]10234it [00:00, 33642.08it/s]10278it [00:00, 33505.28it/s]13568it [00:00, 34211.84it/s]13570it [00:00, 34182.23it/s]13702it [00:00, 34048.21it/s]13700it [00:00, 33783.40it/s]17085it [00:00, 34553.33it/s]17088it [00:00, 34538.15it/s]17141it [00:00, 34166.48it/s]17118it [00:00, 33921.41it/s]20607it [00:00, 34776.15it/s]20674it [00:00, 34986.03it/s]20659it [00:00, 34505.60it/s]20646it [00:00, 34377.51it/s]24181it [00:00, 35090.17it/s]24260it [00:00, 35268.14it/s]24186it [00:00, 34750.75it/s]24170it [00:00, 34657.48it/s]27691it [00:00, 34248.08it/s]27787it [00:00, 34336.57it/s]27637it [00:00, 34064.12it/s]27662it [00:00, 33852.26it/s]31120it [00:00, 33179.70it/s]31226it [00:00, 33285.75it/s]31046it [00:00, 32889.66it/s]31053it [00:00, 32763.73it/s]34447it [00:01, 32591.98it/s]34564it [00:01, 32700.92it/s]34339it [00:01, 31748.87it/s]34344it [00:01, 31840.35it/s]37713it [00:01, 32215.01it/s]37841it [00:01, 32233.74it/s]37524it [00:01, 31551.97it/s]37539it [00:01, 31568.89it/s]40939it [00:01, 31795.44it/s]41069it [00:01, 31839.55it/s]40686it [00:01, 31293.65it/s]40703it [00:01, 31345.33it/s]44122it [00:01, 31657.65it/s]44256it [00:01, 31696.76it/s]43820it [00:01, 31275.87it/s]43842it [00:01, 31305.44it/s]47290it [00:01, 31569.80it/s]47428it [00:01, 31450.53it/s]46976it [00:01, 31116.88it/s]46951it [00:01, 31011.82it/s]50448it [00:01, 31339.04it/s]50574it [00:01, 31330.71it/s]50081it [00:01, 31093.39it/s]50090it [00:01, 31096.35it/s]53583it [00:01, 31162.02it/s]53708it [00:01, 31199.33it/s]53192it [00:01, 30951.73it/s]53201it [00:01, 30948.28it/s]56756it [00:01, 31327.72it/s]56872it [00:01, 31327.94it/s]56322it [00:01, 31052.38it/s]56331it [00:01, 31049.47it/s]59890it [00:01, 31175.68it/s]60006it [00:01, 31185.68it/s]59429it [00:01, 30961.33it/s]59437it [00:01, 30932.89it/s]63019it [00:01, 31208.89it/s]63125it [00:01, 31159.72it/s]62526it [00:01, 30940.17it/s]62534it [00:01, 30942.73it/s]66150it [00:02, 31232.99it/s]66242it [00:02, 31096.75it/s]65629it [00:02, 30920.66it/s]65621it [00:02, 30807.67it/s]69274it [00:02, 31063.34it/s]69377it [00:02, 31169.74it/s]68724it [00:02, 30926.37it/s]68754it [00:02, 30960.16it/s]72387it [00:02, 31082.00it/s]72495it [00:02, 31150.97it/s]71817it [00:02, 30854.49it/s]71851it [00:02, 30869.00it/s]75545it [00:02, 31227.85it/s]75628it [00:02, 31200.83it/s]74920it [00:02, 30904.94it/s]74957it [00:02, 30924.85it/s]78669it [00:02, 31178.67it/s]78749it [00:02, 31178.83it/s]78035it [00:02, 30974.63it/s]78068it [00:02, 30978.23it/s]81794it [00:02, 31199.08it/s]81871it [00:02, 31189.78it/s]81144it [00:02, 31008.73it/s]81177it [00:02, 31008.45it/s]84993it [00:02, 31197.55it/s]84915it [00:02, 31142.47it/s]84245it [00:02, 30953.77it/s]84278it [00:02, 30984.15it/s]88030it [00:02, 31139.27it/s]88113it [00:02, 31163.47it/s]87353it [00:02, 30988.37it/s]87377it [00:02, 30837.75it/s]91246it [00:02, 31211.37it/s]91167it [00:02, 31205.52it/s]90469it [00:02, 31038.85it/s]90516it [00:02, 31002.05it/s]94430it [00:02, 31396.46it/s]94360it [00:02, 31419.13it/s]93578it [00:02, 31053.52it/s]93640it [00:02, 31071.67it/s]97629it [00:03, 31572.13it/s]97566it [00:03, 31607.47it/s]96684it [00:03, 31033.96it/s]96751it [00:03, 31080.16it/s]100794it [00:03, 31592.07it/s]100727it [00:03, 31521.34it/s]99828it [00:03, 31155.11it/s]99895it [00:03, 31184.97it/s]103954it [00:03, 31589.85it/s]103897it [00:03, 31574.15it/s]102944it [00:03, 31100.29it/s]103014it [00:03, 31143.88it/s]107124it [00:03, 31620.58it/s]107081it [00:03, 31652.89it/s]106055it [00:03, 31072.30it/s]106129it [00:03, 31084.76it/s]110287it [00:03, 31561.38it/s]110261it [00:03, 31696.50it/s]109182it [00:03, 31131.04it/s]109238it [00:03, 31047.16it/s]113488it [00:03, 31694.15it/s]113483it [00:03, 31852.04it/s]112303it [00:03, 31154.26it/s]112394it [00:03, 31200.06it/s]116671it [00:03, 31733.48it/s]116669it [00:03, 31805.43it/s]115419it [00:03, 30912.59it/s]115515it [00:03, 30984.78it/s]119845it [00:03, 31657.24it/s]119850it [00:03, 31708.41it/s]118573it [00:03, 31098.84it/s]118649it [00:03, 31086.69it/s]123020it [00:03, 31684.56it/s]123047it [00:03, 31782.54it/s]121684it [00:03, 31037.47it/s]121758it [00:03, 31041.40it/s]126195it [00:03, 31702.63it/s]126227it [00:03, 31786.48it/s]124789it [00:03, 31018.03it/s]124863it [00:03, 31034.96it/s]129366it [00:04, 31686.15it/s]129406it [00:04, 31760.69it/s]127933it [00:04, 31143.65it/s]127967it [00:04, 31010.83it/s]132535it [00:04, 31529.78it/s]132583it [00:04, 31577.08it/s]131068it [00:04, 31203.02it/s]131119it [00:04, 31160.87it/s]135699it [00:04, 31559.36it/s]135742it [00:04, 31580.03it/s]134225it [00:04, 31312.54it/s]134299it [00:04, 31349.67it/s]138856it [00:04, 31545.86it/s]138901it [00:04, 31553.81it/s]137357it [00:04, 31216.03it/s]137435it [00:04, 31255.71it/s]141611it [00:04, 31924.16it/s]141611it [00:04, 31924.10it/s]
+
+2026-01-26 13:46:34.194 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 36252 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/msr86k_vi_pack_new.jsonl
+2026-01-26 13:46:34.194 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 36252 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/msr86k_vi_pack_new.jsonl
+140558it [00:04, 31452.50it/s]loading dataset librispeech_en with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+loading dataset librispeech_en with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+140640it [00:04, 31489.50it/s]141611it [00:04, 31561.07it/s]
+141611it [00:04, 31561.10it/s]
+2026-01-26 13:46:34.274 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 36252 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/msr86k_vi_pack_new.jsonl
+2026-01-26 13:46:34.274 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 36252 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/msr86k_vi_pack_new.jsonl
+0it [00:00, ?it/s]0it [00:00, ?it/s]loading dataset librispeech_en with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+loading dataset librispeech_en with <class 'data.qwen_audio_pretrain_dataset_pack.UniAudioPretrainPackedDataset'>
+0it [00:00, ?it/s]0it [00:00, ?it/s]6675it [00:00, 66741.79it/s]6642it [00:00, 66413.25it/s]7505it [00:00, 75037.91it/s]7246it [00:00, 72449.53it/s]21331it [00:00, 113682.75it/s]21440it [00:00, 114387.90it/s]30983it [00:00, 118837.81it/s]30983it [00:00, 119148.45it/s]
+
+2026-01-26 13:46:34.540 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 30983 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/librispeech_en_pack_new.jsonl
+2026-01-26 13:46:34.540 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 30983 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/librispeech_en_pack_new.jsonl
+21967it [00:00, 115960.21it/s]21970it [00:00, 116435.49it/s]30983it [00:00, 122554.49it/s]30983it [00:00, 122544.55it/s]
+
+2026-01-26 13:46:34.614 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 30983 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/librispeech_en_pack_new.jsonl
+2026-01-26 13:46:34.614 | INFO     | data.qwen_audio_pretrain_dataset_pack:load_meta_dicts:76 - loaded dataset of 30983 samples from /fs/nlp/common_intern/meiyuxiang/data_prepare/step3_pack_2048_scale_4_fixed_1212/librispeech_en_pack_new.jsonl
+AudioEncoderConfig(add_audio_bos_eos_token=True, audio_attn_implementation='flash_attention_2', audio_start_id=155163, avg_pool=True, is_causal=False, n_ctx=1500, n_head=20, n_layer=32, n_mels=128, n_state=1280, output_dim=2048, post_subsampling_scale=4, use_conformer_encoder=False, use_wav2vec2_encoder=False, wav2vec2_model_dim=None, wav2vec2_num_heads=None, wav2vec2_num_layers=None, wav2vec2_ffn_dim=None, use_conv_subsampling=True, use_chunk_encoder=True, chunk_n_window=400, conv_chunksize=500, chunk_n_window_candidates=[50, 100, 200, 400], randomize_chunk_window=True, chunk_level_router=False, num_moe_experts=8)
+AudioEncoderConfig(add_audio_bos_eos_token=True, audio_attn_implementation='flash_attention_2', audio_start_id=155163, avg_pool=True, is_causal=False, n_ctx=1500, n_head=20, n_layer=32, n_mels=128, n_state=1280, output_dim=2048, post_subsampling_scale=4, use_conformer_encoder=False, use_wav2vec2_encoder=False, wav2vec2_model_dim=None, wav2vec2_num_heads=None, wav2vec2_num_layers=None, wav2vec2_ffn_dim=None, use_conv_subsampling=True, use_chunk_encoder=True, chunk_n_window=400, conv_chunksize=500, chunk_n_window_candidates=[50, 100, 200, 400], randomize_chunk_window=True, chunk_level_router=False, num_moe_experts=8)
+AudioEncoderConfig(add_audio_bos_eos_token=True, audio_attn_implementation='flash_attention_2', audio_start_id=155163, avg_pool=True, is_causal=False, n_ctx=1500, n_head=20, n_layer=32, n_mels=128, n_state=1280, output_dim=2048, post_subsampling_scale=4, use_conformer_encoder=False, use_wav2vec2_encoder=False, wav2vec2_model_dim=None, wav2vec2_num_heads=None, wav2vec2_num_layers=None, wav2vec2_ffn_dim=None, use_conv_subsampling=True, use_chunk_encoder=True, chunk_n_window=400, conv_chunksize=500, chunk_n_window_candidates=[50, 100, 200, 400], randomize_chunk_window=True, chunk_level_router=False, num_moe_experts=8)
+AudioEncoderConfig(add_audio_bos_eos_token=True, audio_attn_implementation='flash_attention_2', audio_start_id=155163, avg_pool=True, is_causal=False, n_ctx=1500, n_head=20, n_layer=32, n_mels=128, n_state=1280, output_dim=2048, post_subsampling_scale=4, use_conformer_encoder=False, use_wav2vec2_encoder=False, wav2vec2_model_dim=None, wav2vec2_num_heads=None, wav2vec2_num_layers=None, wav2vec2_ffn_dim=None, use_conv_subsampling=True, use_chunk_encoder=True, chunk_n_window=400, conv_chunksize=500, chunk_n_window_candidates=[50, 100, 200, 400], randomize_chunk_window=True, chunk_level_router=False, num_moe_experts=8)
+2026-01-26 13:46:35.701 | INFO     | model.unigpt_audio_models.audio:__init__:639 - initializing AudioEncoder with audio_attn_implementation=flash_attention_2, is_causal=False
+2026-01-26 13:46:35.735 | INFO     | model.unigpt_audio_models.audio:__init__:639 - initializing AudioEncoder with audio_attn_implementation=flash_attention_2, is_causal=False
+2026-01-26 13:46:35.741 | INFO     | model.unigpt_audio_models.audio:__init__:639 - initializing AudioEncoder with audio_attn_implementation=flash_attention_2, is_causal=False
+2026-01-26 13:46:35.751 | INFO     | model.unigpt_audio_models.audio:__init__:639 - initializing AudioEncoder with audio_attn_implementation=flash_attention_2, is_causal=False
+Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  3.73it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  3.72it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  3.75it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  2.98it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  2.22it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  2.36it/s]
+Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  2.14it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  2.29it/s]
+Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  2.07it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  2.21it/s]
+2026-01-26 13:46:36.834 | INFO     | model.actor:__init__:272 - *******************************************************
+2026-01-26 13:46:36.834 | INFO     | model.actor:__init__:273 - Zipper LoRA target modules: 
+['key', 'mlp.0', 'mlp.2', 'out', 'query', 'value']
+2026-01-26 13:46:36.836 | INFO     | model.actor:__init__:288 - Successfully loaded 12 language embeddings from file.
+2026-01-26 13:46:36.842 | INFO     | model.actor:__init__:272 - *******************************************************
+2026-01-26 13:46:36.841 | INFO     | model.actor:__init__:272 - *******************************************************
+2026-01-26 13:46:36.842 | INFO     | model.actor:__init__:273 - Zipper LoRA target modules: 
+['key', 'mlp.0', 'mlp.2', 'out', 'query', 'value']
+2026-01-26 13:46:36.842 | INFO     | model.actor:__init__:273 - Zipper LoRA target modules: 
+['key', 'mlp.0', 'mlp.2', 'out', 'query', 'value']
+2026-01-26 13:46:36.844 | INFO     | model.actor:__init__:288 - Successfully loaded 12 language embeddings from file.
+2026-01-26 13:46:36.844 | INFO     | model.actor:__init__:288 - Successfully loaded 12 language embeddings from file.
+Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  1.91it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  2.01it/s]
+2026-01-26 13:46:36.973 | INFO     | model.actor:__init__:272 - *******************************************************
+2026-01-26 13:46:36.974 | INFO     | model.actor:__init__:273 - Zipper LoRA target modules: 
+['key', 'mlp.0', 'mlp.2', 'out', 'query', 'value']
+2026-01-26 13:46:36.976 | INFO     | model.actor:__init__:288 - Successfully loaded 12 language embeddings from file.
+2026-01-26 13:46:53.685 | INFO     | model.actor:__init__:365 - LoRA target modules: 
+['model.layers.0.mlp.down_proj', 'model.layers.0.mlp.gate_proj', 'model.layers.0.mlp.up_proj', 'model.layers.0.self_attn.k_proj', 'model.layers.0.self_attn.o_proj', 'model.layers.0.self_attn.q_proj', 'model.layers.0.self_attn.v_proj', 'model.layers.1.mlp.down_proj', 'model.layers.1.mlp.gate_proj', 'model.layers.1.mlp.up_proj', 'model.layers.1.self_attn.k_proj', 'model.layers.1.self_attn.o_proj', 'model.layers.1.self_attn.q_proj', 'model.layers.1.self_attn.v_proj', 'model.layers.10.mlp.down_proj', 'model.layers.10.mlp.gate_proj', 'model.layers.10.mlp.up_proj', 'model.layers.10.self_attn.k_proj', 'model.layers.10.self_attn.o_proj', 'model.layers.10.self_attn.q_proj', 'model.layers.10.self_attn.v_proj', 'model.layers.11.mlp.down_proj', 'model.layers.11.mlp.gate_proj', 'model.layers.11.mlp.up_proj', 'model.layers.11.self_attn.k_proj', 'model.layers.11.self_attn.o_proj', 'model.layers.11.self_attn.q_proj', 'model.layers.11.self_attn.v_proj', 'model.layers.12.mlp.down_proj', 'model.layers.12.mlp.gate_proj', 'model.layers.12.mlp.up_proj', 'model.layers.12.self_attn.k_proj', 'model.layers.12.self_attn.o_proj', 'model.layers.12.self_attn.q_proj', 'model.layers.12.self_attn.v_proj', 'model.layers.13.mlp.down_proj', 'model.layers.13.mlp.gate_proj', 'model.layers.13.mlp.up_proj', 'model.layers.13.self_attn.k_proj', 'model.layers.13.self_attn.o_proj', 'model.layers.13.self_attn.q_proj', 'model.layers.13.self_attn.v_proj', 'model.layers.14.mlp.down_proj', 'model.layers.14.mlp.gate_proj', 'model.layers.14.mlp.up_proj', 'model.layers.14.self_attn.k_proj', 'model.layers.14.self_attn.o_proj', 'model.layers.14.self_attn.q_proj', 'model.layers.14.self_attn.v_proj', 'model.layers.15.mlp.down_proj', 'model.layers.15.mlp.gate_proj', 'model.layers.15.mlp.up_proj', 'model.layers.15.self_attn.k_proj', 'model.layers.15.self_attn.o_proj', 'model.layers.15.self_attn.q_proj', 'model.layers.15.self_attn.v_proj', 'model.layers.16.mlp.down_proj', 'model.layers.16.mlp.gate_proj', 'model.layers.16.mlp.up_proj', 'model.layers.16.self_attn.k_proj', 'model.layers.16.self_attn.o_proj', 'model.layers.16.self_attn.q_proj', 'model.layers.16.self_attn.v_proj', 'model.layers.17.mlp.down_proj', 'model.layers.17.mlp.gate_proj', 'model.layers.17.mlp.up_proj', 'model.layers.17.self_attn.k_proj', 'model.layers.17.self_attn.o_proj', 'model.layers.17.self_attn.q_proj', 'model.layers.17.self_attn.v_proj', 'model.layers.18.mlp.down_proj', 'model.layers.18.mlp.gate_proj', 'model.layers.18.mlp.up_proj', 'model.layers.18.self_attn.k_proj', 'model.layers.18.self_attn.o_proj', 'model.layers.18.self_attn.q_proj', 'model.layers.18.self_attn.v_proj', 'model.layers.19.mlp.down_proj', 'model.layers.19.mlp.gate_proj', 'model.layers.19.mlp.up_proj', 'model.layers.19.self_attn.k_proj', 'model.layers.19.self_attn.o_proj', 'model.layers.19.self_attn.q_proj', 'model.layers.19.self_attn.v_proj', 'model.layers.2.mlp.down_proj', 'model.layers.2.mlp.gate_proj', 'model.layers.2.mlp.up_proj', 'model.layers.2.self_attn.k_proj', 'model.layers.2.self_attn.o_proj', 'model.layers.2.self_attn.q_proj', 'model.layers.2.self_attn.v_proj', 'model.layers.20.mlp.down_proj', 'model.layers.20.mlp.gate_proj', 'model.layers.20.mlp.up_proj', 'model.layers.20.self_attn.k_proj', 'model.layers.20.self_attn.o_proj', 'model.layers.20.self_attn.q_proj', 'model.layers.20.self_attn.v_proj', 'model.layers.21.mlp.down_proj', 'model.layers.21.mlp.gate_proj', 'model.layers.21.mlp.up_proj', 'model.layers.21.self_attn.k_proj', 'model.layers.21.self_attn.o_proj', 'model.layers.21.self_attn.q_proj', 'model.layers.21.self_attn.v_proj', 'model.layers.22.mlp.down_proj', 'model.layers.22.mlp.gate_proj', 'model.layers.22.mlp.up_proj', 'model.layers.22.self_attn.k_proj', 'model.layers.22.self_attn.o_proj', 'model.layers.22.self_attn.q_proj', 'model.layers.22.self_attn.v_proj', 'model.layers.23.mlp.down_proj', 'model.layers.23.mlp.gate_proj', 'model.layers.23.mlp.up_proj', 'model.layers.23.self_attn.k_proj', 'model.layers.23.self_attn.o_proj', 'model.layers.23.self_attn.q_proj', 'model.layers.23.self_attn.v_proj', 'model.layers.24.mlp.down_proj', 'model.layers.24.mlp.gate_proj', 'model.layers.24.mlp.up_proj', 'model.layers.24.self_attn.k_proj', 'model.layers.24.self_attn.o_proj', 'model.layers.24.self_attn.q_proj', 'model.layers.24.self_attn.v_proj', 'model.layers.25.mlp.down_proj', 'model.layers.25.mlp.gate_proj', 'model.layers.25.mlp.up_proj', 'model.layers.25.self_attn.k_proj', 'model.layers.25.self_attn.o_proj', 'model.layers.25.self_attn.q_proj', 'model.layers.25.self_attn.v_proj', 'model.layers.26.mlp.down_proj', 'model.layers.26.mlp.gate_proj', 'model.layers.26.mlp.up_proj', 'model.layers.26.self_attn.k_proj', 'model.layers.26.self_attn.o_proj', 'model.layers.26.self_attn.q_proj', 'model.layers.26.self_attn.v_proj', 'model.layers.27.mlp.down_proj', 'model.layers.27.mlp.gate_proj', 'model.layers.27.mlp.up_proj', 'model.layers.27.self_attn.k_proj', 'model.layers.27.self_attn.o_proj', 'model.layers.27.self_attn.q_proj', 'model.layers.27.self_attn.v_proj', 'model.layers.3.mlp.down_proj', 'model.layers.3.mlp.gate_proj', 'model.layers.3.mlp.up_proj', 'model.layers.3.self_attn.k_proj', 'model.layers.3.self_attn.o_proj', 'model.layers.3.self_attn.q_proj', 'model.layers.3.self_attn.v_proj', 'model.layers.4.mlp.down_proj', 'model.layers.4.mlp.gate_proj', 'model.layers.4.mlp.up_proj', 'model.layers.4.self_attn.k_proj', 'model.layers.4.self_attn.o_proj', 'model.layers.4.self_attn.q_proj', 'model.layers.4.self_attn.v_proj', 'model.layers.5.mlp.down_proj', 'model.layers.5.mlp.gate_proj', 'model.layers.5.mlp.up_proj', 'model.layers.5.self_attn.k_proj', 'model.layers.5.self_attn.o_proj', 'model.layers.5.self_attn.q_proj', 'model.layers.5.self_attn.v_proj', 'model.layers.6.mlp.down_proj', 'model.layers.6.mlp.gate_proj', 'model.layers.6.mlp.up_proj', 'model.layers.6.self_attn.k_proj', 'model.layers.6.self_attn.o_proj', 'model.layers.6.self_attn.q_proj', 'model.layers.6.self_attn.v_proj', 'model.layers.7.mlp.down_proj', 'model.layers.7.mlp.gate_proj', 'model.layers.7.mlp.up_proj', 'model.layers.7.self_attn.k_proj', 'model.layers.7.self_attn.o_proj', 'model.layers.7.self_attn.q_proj', 'model.layers.7.self_attn.v_proj', 'model.layers.8.mlp.down_proj', 'model.layers.8.mlp.gate_proj', 'model.layers.8.mlp.up_proj', 'model.layers.8.self_attn.k_proj', 'model.layers.8.self_attn.o_proj', 'model.layers.8.self_attn.q_proj', 'model.layers.8.self_attn.v_proj', 'model.layers.9.mlp.down_proj', 'model.layers.9.mlp.gate_proj', 'model.layers.9.mlp.up_proj', 'model.layers.9.self_attn.k_proj', 'model.layers.9.self_attn.o_proj', 'model.layers.9.self_attn.q_proj', 'model.layers.9.self_attn.v_proj']
+2026-01-26 13:46:54.073 | INFO     | model.actor:__init__:365 - LoRA target modules: 
+['model.layers.0.mlp.down_proj', 'model.layers.0.mlp.gate_proj', 'model.layers.0.mlp.up_proj', 'model.layers.0.self_attn.k_proj', 'model.layers.0.self_attn.o_proj', 'model.layers.0.self_attn.q_proj', 'model.layers.0.self_attn.v_proj', 'model.layers.1.mlp.down_proj', 'model.layers.1.mlp.gate_proj', 'model.layers.1.mlp.up_proj', 'model.layers.1.self_attn.k_proj', 'model.layers.1.self_attn.o_proj', 'model.layers.1.self_attn.q_proj', 'model.layers.1.self_attn.v_proj', 'model.layers.10.mlp.down_proj', 'model.layers.10.mlp.gate_proj', 'model.layers.10.mlp.up_proj', 'model.layers.10.self_attn.k_proj', 'model.layers.10.self_attn.o_proj', 'model.layers.10.self_attn.q_proj', 'model.layers.10.self_attn.v_proj', 'model.layers.11.mlp.down_proj', 'model.layers.11.mlp.gate_proj', 'model.layers.11.mlp.up_proj', 'model.layers.11.self_attn.k_proj', 'model.layers.11.self_attn.o_proj', 'model.layers.11.self_attn.q_proj', 'model.layers.11.self_attn.v_proj', 'model.layers.12.mlp.down_proj', 'model.layers.12.mlp.gate_proj', 'model.layers.12.mlp.up_proj', 'model.layers.12.self_attn.k_proj', 'model.layers.12.self_attn.o_proj', 'model.layers.12.self_attn.q_proj', 'model.layers.12.self_attn.v_proj', 'model.layers.13.mlp.down_proj', 'model.layers.13.mlp.gate_proj', 'model.layers.13.mlp.up_proj', 'model.layers.13.self_attn.k_proj', 'model.layers.13.self_attn.o_proj', 'model.layers.13.self_attn.q_proj', 'model.layers.13.self_attn.v_proj', 'model.layers.14.mlp.down_proj', 'model.layers.14.mlp.gate_proj', 'model.layers.14.mlp.up_proj', 'model.layers.14.self_attn.k_proj', 'model.layers.14.self_attn.o_proj', 'model.layers.14.self_attn.q_proj', 'model.layers.14.self_attn.v_proj', 'model.layers.15.mlp.down_proj', 'model.layers.15.mlp.gate_proj', 'model.layers.15.mlp.up_proj', 'model.layers.15.self_attn.k_proj', 'model.layers.15.self_attn.o_proj', 'model.layers.15.self_attn.q_proj', 'model.layers.15.self_attn.v_proj', 'model.layers.16.mlp.down_proj', 'model.layers.16.mlp.gate_proj', 'model.layers.16.mlp.up_proj', 'model.layers.16.self_attn.k_proj', 'model.layers.16.self_attn.o_proj', 'model.layers.16.self_attn.q_proj', 'model.layers.16.self_attn.v_proj', 'model.layers.17.mlp.down_proj', 'model.layers.17.mlp.gate_proj', 'model.layers.17.mlp.up_proj', 'model.layers.17.self_attn.k_proj', 'model.layers.17.self_attn.o_proj', 'model.layers.17.self_attn.q_proj', 'model.layers.17.self_attn.v_proj', 'model.layers.18.mlp.down_proj', 'model.layers.18.mlp.gate_proj', 'model.layers.18.mlp.up_proj', 'model.layers.18.self_attn.k_proj', 'model.layers.18.self_attn.o_proj', 'model.layers.18.self_attn.q_proj', 'model.layers.18.self_attn.v_proj', 'model.layers.19.mlp.down_proj', 'model.layers.19.mlp.gate_proj', 'model.layers.19.mlp.up_proj', 'model.layers.19.self_attn.k_proj', 'model.layers.19.self_attn.o_proj', 'model.layers.19.self_attn.q_proj', 'model.layers.19.self_attn.v_proj', 'model.layers.2.mlp.down_proj', 'model.layers.2.mlp.gate_proj', 'model.layers.2.mlp.up_proj', 'model.layers.2.self_attn.k_proj', 'model.layers.2.self_attn.o_proj', 'model.layers.2.self_attn.q_proj', 'model.layers.2.self_attn.v_proj', 'model.layers.20.mlp.down_proj', 'model.layers.20.mlp.gate_proj', 'model.layers.20.mlp.up_proj', 'model.layers.20.self_attn.k_proj', 'model.layers.20.self_attn.o_proj', 'model.layers.20.self_attn.q_proj', 'model.layers.20.self_attn.v_proj', 'model.layers.21.mlp.down_proj', 'model.layers.21.mlp.gate_proj', 'model.layers.21.mlp.up_proj', 'model.layers.21.self_attn.k_proj', 'model.layers.21.self_attn.o_proj', 'model.layers.21.self_attn.q_proj', 'model.layers.21.self_attn.v_proj', 'model.layers.22.mlp.down_proj', 'model.layers.22.mlp.gate_proj', 'model.layers.22.mlp.up_proj', 'model.layers.22.self_attn.k_proj', 'model.layers.22.self_attn.o_proj', 'model.layers.22.self_attn.q_proj', 'model.layers.22.self_attn.v_proj', 'model.layers.23.mlp.down_proj', 'model.layers.23.mlp.gate_proj', 'model.layers.23.mlp.up_proj', 'model.layers.23.self_attn.k_proj', 'model.layers.23.self_attn.o_proj', 'model.layers.23.self_attn.q_proj', 'model.layers.23.self_attn.v_proj', 'model.layers.24.mlp.down_proj', 'model.layers.24.mlp.gate_proj', 'model.layers.24.mlp.up_proj', 'model.layers.24.self_attn.k_proj', 'model.layers.24.self_attn.o_proj', 'model.layers.24.self_attn.q_proj', 'model.layers.24.self_attn.v_proj', 'model.layers.25.mlp.down_proj', 'model.layers.25.mlp.gate_proj', 'model.layers.25.mlp.up_proj', 'model.layers.25.self_attn.k_proj', 'model.layers.25.self_attn.o_proj', 'model.layers.25.self_attn.q_proj', 'model.layers.25.self_attn.v_proj', 'model.layers.26.mlp.down_proj', 'model.layers.26.mlp.gate_proj', 'model.layers.26.mlp.up_proj', 'model.layers.26.self_attn.k_proj', 'model.layers.26.self_attn.o_proj', 'model.layers.26.self_attn.q_proj', 'model.layers.26.self_attn.v_proj', 'model.layers.27.mlp.down_proj', 'model.layers.27.mlp.gate_proj', 'model.layers.27.mlp.up_proj', 'model.layers.27.self_attn.k_proj', 'model.layers.27.self_attn.o_proj', 'model.layers.27.self_attn.q_proj', 'model.layers.27.self_attn.v_proj', 'model.layers.3.mlp.down_proj', 'model.layers.3.mlp.gate_proj', 'model.layers.3.mlp.up_proj', 'model.layers.3.self_attn.k_proj', 'model.layers.3.self_attn.o_proj', 'model.layers.3.self_attn.q_proj', 'model.layers.3.self_attn.v_proj', 'model.layers.4.mlp.down_proj', 'model.layers.4.mlp.gate_proj', 'model.layers.4.mlp.up_proj', 'model.layers.4.self_attn.k_proj', 'model.layers.4.self_attn.o_proj', 'model.layers.4.self_attn.q_proj', 'model.layers.4.self_attn.v_proj', 'model.layers.5.mlp.down_proj', 'model.layers.5.mlp.gate_proj', 'model.layers.5.mlp.up_proj', 'model.layers.5.self_attn.k_proj', 'model.layers.5.self_attn.o_proj', 'model.layers.5.self_attn.q_proj', 'model.layers.5.self_attn.v_proj', 'model.layers.6.mlp.down_proj', 'model.layers.6.mlp.gate_proj', 'model.layers.6.mlp.up_proj', 'model.layers.6.self_attn.k_proj', 'model.layers.6.self_attn.o_proj', 'model.layers.6.self_attn.q_proj', 'model.layers.6.self_attn.v_proj', 'model.layers.7.mlp.down_proj', 'model.layers.7.mlp.gate_proj', 'model.layers.7.mlp.up_proj', 'model.layers.7.self_attn.k_proj', 'model.layers.7.self_attn.o_proj', 'model.layers.7.self_attn.q_proj', 'model.layers.7.self_attn.v_proj', 'model.layers.8.mlp.down_proj', 'model.layers.8.mlp.gate_proj', 'model.layers.8.mlp.up_proj', 'model.layers.8.self_attn.k_proj', 'model.layers.8.self_attn.o_proj', 'model.layers.8.self_attn.q_proj', 'model.layers.8.self_attn.v_proj', 'model.layers.9.mlp.down_proj', 'model.layers.9.mlp.gate_proj', 'model.layers.9.mlp.up_proj', 'model.layers.9.self_attn.k_proj', 'model.layers.9.self_attn.o_proj', 'model.layers.9.self_attn.q_proj', 'model.layers.9.self_attn.v_proj']
+2026-01-26 13:46:54.080 | INFO     | model.actor:__init__:365 - LoRA target modules: 
+['model.layers.0.mlp.down_proj', 'model.layers.0.mlp.gate_proj', 'model.layers.0.mlp.up_proj', 'model.layers.0.self_attn.k_proj', 'model.layers.0.self_attn.o_proj', 'model.layers.0.self_attn.q_proj', 'model.layers.0.self_attn.v_proj', 'model.layers.1.mlp.down_proj', 'model.layers.1.mlp.gate_proj', 'model.layers.1.mlp.up_proj', 'model.layers.1.self_attn.k_proj', 'model.layers.1.self_attn.o_proj', 'model.layers.1.self_attn.q_proj', 'model.layers.1.self_attn.v_proj', 'model.layers.10.mlp.down_proj', 'model.layers.10.mlp.gate_proj', 'model.layers.10.mlp.up_proj', 'model.layers.10.self_attn.k_proj', 'model.layers.10.self_attn.o_proj', 'model.layers.10.self_attn.q_proj', 'model.layers.10.self_attn.v_proj', 'model.layers.11.mlp.down_proj', 'model.layers.11.mlp.gate_proj', 'model.layers.11.mlp.up_proj', 'model.layers.11.self_attn.k_proj', 'model.layers.11.self_attn.o_proj', 'model.layers.11.self_attn.q_proj', 'model.layers.11.self_attn.v_proj', 'model.layers.12.mlp.down_proj', 'model.layers.12.mlp.gate_proj', 'model.layers.12.mlp.up_proj', 'model.layers.12.self_attn.k_proj', 'model.layers.12.self_attn.o_proj', 'model.layers.12.self_attn.q_proj', 'model.layers.12.self_attn.v_proj', 'model.layers.13.mlp.down_proj', 'model.layers.13.mlp.gate_proj', 'model.layers.13.mlp.up_proj', 'model.layers.13.self_attn.k_proj', 'model.layers.13.self_attn.o_proj', 'model.layers.13.self_attn.q_proj', 'model.layers.13.self_attn.v_proj', 'model.layers.14.mlp.down_proj', 'model.layers.14.mlp.gate_proj', 'model.layers.14.mlp.up_proj', 'model.layers.14.self_attn.k_proj', 'model.layers.14.self_attn.o_proj', 'model.layers.14.self_attn.q_proj', 'model.layers.14.self_attn.v_proj', 'model.layers.15.mlp.down_proj', 'model.layers.15.mlp.gate_proj', 'model.layers.15.mlp.up_proj', 'model.layers.15.self_attn.k_proj', 'model.layers.15.self_attn.o_proj', 'model.layers.15.self_attn.q_proj', 'model.layers.15.self_attn.v_proj', 'model.layers.16.mlp.down_proj', 'model.layers.16.mlp.gate_proj', 'model.layers.16.mlp.up_proj', 'model.layers.16.self_attn.k_proj', 'model.layers.16.self_attn.o_proj', 'model.layers.16.self_attn.q_proj', 'model.layers.16.self_attn.v_proj', 'model.layers.17.mlp.down_proj', 'model.layers.17.mlp.gate_proj', 'model.layers.17.mlp.up_proj', 'model.layers.17.self_attn.k_proj', 'model.layers.17.self_attn.o_proj', 'model.layers.17.self_attn.q_proj', 'model.layers.17.self_attn.v_proj', 'model.layers.18.mlp.down_proj', 'model.layers.18.mlp.gate_proj', 'model.layers.18.mlp.up_proj', 'model.layers.18.self_attn.k_proj', 'model.layers.18.self_attn.o_proj', 'model.layers.18.self_attn.q_proj', 'model.layers.18.self_attn.v_proj', 'model.layers.19.mlp.down_proj', 'model.layers.19.mlp.gate_proj', 'model.layers.19.mlp.up_proj', 'model.layers.19.self_attn.k_proj', 'model.layers.19.self_attn.o_proj', 'model.layers.19.self_attn.q_proj', 'model.layers.19.self_attn.v_proj', 'model.layers.2.mlp.down_proj', 'model.layers.2.mlp.gate_proj', 'model.layers.2.mlp.up_proj', 'model.layers.2.self_attn.k_proj', 'model.layers.2.self_attn.o_proj', 'model.layers.2.self_attn.q_proj', 'model.layers.2.self_attn.v_proj', 'model.layers.20.mlp.down_proj', 'model.layers.20.mlp.gate_proj', 'model.layers.20.mlp.up_proj', 'model.layers.20.self_attn.k_proj', 'model.layers.20.self_attn.o_proj', 'model.layers.20.self_attn.q_proj', 'model.layers.20.self_attn.v_proj', 'model.layers.21.mlp.down_proj', 'model.layers.21.mlp.gate_proj', 'model.layers.21.mlp.up_proj', 'model.layers.21.self_attn.k_proj', 'model.layers.21.self_attn.o_proj', 'model.layers.21.self_attn.q_proj', 'model.layers.21.self_attn.v_proj', 'model.layers.22.mlp.down_proj', 'model.layers.22.mlp.gate_proj', 'model.layers.22.mlp.up_proj', 'model.layers.22.self_attn.k_proj', 'model.layers.22.self_attn.o_proj', 'model.layers.22.self_attn.q_proj', 'model.layers.22.self_attn.v_proj', 'model.layers.23.mlp.down_proj', 'model.layers.23.mlp.gate_proj', 'model.layers.23.mlp.up_proj', 'model.layers.23.self_attn.k_proj', 'model.layers.23.self_attn.o_proj', 'model.layers.23.self_attn.q_proj', 'model.layers.23.self_attn.v_proj', 'model.layers.24.mlp.down_proj', 'model.layers.24.mlp.gate_proj', 'model.layers.24.mlp.up_proj', 'model.layers.24.self_attn.k_proj', 'model.layers.24.self_attn.o_proj', 'model.layers.24.self_attn.q_proj', 'model.layers.24.self_attn.v_proj', 'model.layers.25.mlp.down_proj', 'model.layers.25.mlp.gate_proj', 'model.layers.25.mlp.up_proj', 'model.layers.25.self_attn.k_proj', 'model.layers.25.self_attn.o_proj', 'model.layers.25.self_attn.q_proj', 'model.layers.25.self_attn.v_proj', 'model.layers.26.mlp.down_proj', 'model.layers.26.mlp.gate_proj', 'model.layers.26.mlp.up_proj', 'model.layers.26.self_attn.k_proj', 'model.layers.26.self_attn.o_proj', 'model.layers.26.self_attn.q_proj', 'model.layers.26.self_attn.v_proj', 'model.layers.27.mlp.down_proj', 'model.layers.27.mlp.gate_proj', 'model.layers.27.mlp.up_proj', 'model.layers.27.self_attn.k_proj', 'model.layers.27.self_attn.o_proj', 'model.layers.27.self_attn.q_proj', 'model.layers.27.self_attn.v_proj', 'model.layers.3.mlp.down_proj', 'model.layers.3.mlp.gate_proj', 'model.layers.3.mlp.up_proj', 'model.layers.3.self_attn.k_proj', 'model.layers.3.self_attn.o_proj', 'model.layers.3.self_attn.q_proj', 'model.layers.3.self_attn.v_proj', 'model.layers.4.mlp.down_proj', 'model.layers.4.mlp.gate_proj', 'model.layers.4.mlp.up_proj', 'model.layers.4.self_attn.k_proj', 'model.layers.4.self_attn.o_proj', 'model.layers.4.self_attn.q_proj', 'model.layers.4.self_attn.v_proj', 'model.layers.5.mlp.down_proj', 'model.layers.5.mlp.gate_proj', 'model.layers.5.mlp.up_proj', 'model.layers.5.self_attn.k_proj', 'model.layers.5.self_attn.o_proj', 'model.layers.5.self_attn.q_proj', 'model.layers.5.self_attn.v_proj', 'model.layers.6.mlp.down_proj', 'model.layers.6.mlp.gate_proj', 'model.layers.6.mlp.up_proj', 'model.layers.6.self_attn.k_proj', 'model.layers.6.self_attn.o_proj', 'model.layers.6.self_attn.q_proj', 'model.layers.6.self_attn.v_proj', 'model.layers.7.mlp.down_proj', 'model.layers.7.mlp.gate_proj', 'model.layers.7.mlp.up_proj', 'model.layers.7.self_attn.k_proj', 'model.layers.7.self_attn.o_proj', 'model.layers.7.self_attn.q_proj', 'model.layers.7.self_attn.v_proj', 'model.layers.8.mlp.down_proj', 'model.layers.8.mlp.gate_proj', 'model.layers.8.mlp.up_proj', 'model.layers.8.self_attn.k_proj', 'model.layers.8.self_attn.o_proj', 'model.layers.8.self_attn.q_proj', 'model.layers.8.self_attn.v_proj', 'model.layers.9.mlp.down_proj', 'model.layers.9.mlp.gate_proj', 'model.layers.9.mlp.up_proj', 'model.layers.9.self_attn.k_proj', 'model.layers.9.self_attn.o_proj', 'model.layers.9.self_attn.q_proj', 'model.layers.9.self_attn.v_proj']
+2026-01-26 13:46:54.295 | INFO     | model.actor:__init__:365 - LoRA target modules: 
+['model.layers.0.mlp.down_proj', 'model.layers.0.mlp.gate_proj', 'model.layers.0.mlp.up_proj', 'model.layers.0.self_attn.k_proj', 'model.layers.0.self_attn.o_proj', 'model.layers.0.self_attn.q_proj', 'model.layers.0.self_attn.v_proj', 'model.layers.1.mlp.down_proj', 'model.layers.1.mlp.gate_proj', 'model.layers.1.mlp.up_proj', 'model.layers.1.self_attn.k_proj', 'model.layers.1.self_attn.o_proj', 'model.layers.1.self_attn.q_proj', 'model.layers.1.self_attn.v_proj', 'model.layers.10.mlp.down_proj', 'model.layers.10.mlp.gate_proj', 'model.layers.10.mlp.up_proj', 'model.layers.10.self_attn.k_proj', 'model.layers.10.self_attn.o_proj', 'model.layers.10.self_attn.q_proj', 'model.layers.10.self_attn.v_proj', 'model.layers.11.mlp.down_proj', 'model.layers.11.mlp.gate_proj', 'model.layers.11.mlp.up_proj', 'model.layers.11.self_attn.k_proj', 'model.layers.11.self_attn.o_proj', 'model.layers.11.self_attn.q_proj', 'model.layers.11.self_attn.v_proj', 'model.layers.12.mlp.down_proj', 'model.layers.12.mlp.gate_proj', 'model.layers.12.mlp.up_proj', 'model.layers.12.self_attn.k_proj', 'model.layers.12.self_attn.o_proj', 'model.layers.12.self_attn.q_proj', 'model.layers.12.self_attn.v_proj', 'model.layers.13.mlp.down_proj', 'model.layers.13.mlp.gate_proj', 'model.layers.13.mlp.up_proj', 'model.layers.13.self_attn.k_proj', 'model.layers.13.self_attn.o_proj', 'model.layers.13.self_attn.q_proj', 'model.layers.13.self_attn.v_proj', 'model.layers.14.mlp.down_proj', 'model.layers.14.mlp.gate_proj', 'model.layers.14.mlp.up_proj', 'model.layers.14.self_attn.k_proj', 'model.layers.14.self_attn.o_proj', 'model.layers.14.self_attn.q_proj', 'model.layers.14.self_attn.v_proj', 'model.layers.15.mlp.down_proj', 'model.layers.15.mlp.gate_proj', 'model.layers.15.mlp.up_proj', 'model.layers.15.self_attn.k_proj', 'model.layers.15.self_attn.o_proj', 'model.layers.15.self_attn.q_proj', 'model.layers.15.self_attn.v_proj', 'model.layers.16.mlp.down_proj', 'model.layers.16.mlp.gate_proj', 'model.layers.16.mlp.up_proj', 'model.layers.16.self_attn.k_proj', 'model.layers.16.self_attn.o_proj', 'model.layers.16.self_attn.q_proj', 'model.layers.16.self_attn.v_proj', 'model.layers.17.mlp.down_proj', 'model.layers.17.mlp.gate_proj', 'model.layers.17.mlp.up_proj', 'model.layers.17.self_attn.k_proj', 'model.layers.17.self_attn.o_proj', 'model.layers.17.self_attn.q_proj', 'model.layers.17.self_attn.v_proj', 'model.layers.18.mlp.down_proj', 'model.layers.18.mlp.gate_proj', 'model.layers.18.mlp.up_proj', 'model.layers.18.self_attn.k_proj', 'model.layers.18.self_attn.o_proj', 'model.layers.18.self_attn.q_proj', 'model.layers.18.self_attn.v_proj', 'model.layers.19.mlp.down_proj', 'model.layers.19.mlp.gate_proj', 'model.layers.19.mlp.up_proj', 'model.layers.19.self_attn.k_proj', 'model.layers.19.self_attn.o_proj', 'model.layers.19.self_attn.q_proj', 'model.layers.19.self_attn.v_proj', 'model.layers.2.mlp.down_proj', 'model.layers.2.mlp.gate_proj', 'model.layers.2.mlp.up_proj', 'model.layers.2.self_attn.k_proj', 'model.layers.2.self_attn.o_proj', 'model.layers.2.self_attn.q_proj', 'model.layers.2.self_attn.v_proj', 'model.layers.20.mlp.down_proj', 'model.layers.20.mlp.gate_proj', 'model.layers.20.mlp.up_proj', 'model.layers.20.self_attn.k_proj', 'model.layers.20.self_attn.o_proj', 'model.layers.20.self_attn.q_proj', 'model.layers.20.self_attn.v_proj', 'model.layers.21.mlp.down_proj', 'model.layers.21.mlp.gate_proj', 'model.layers.21.mlp.up_proj', 'model.layers.21.self_attn.k_proj', 'model.layers.21.self_attn.o_proj', 'model.layers.21.self_attn.q_proj', 'model.layers.21.self_attn.v_proj', 'model.layers.22.mlp.down_proj', 'model.layers.22.mlp.gate_proj', 'model.layers.22.mlp.up_proj', 'model.layers.22.self_attn.k_proj', 'model.layers.22.self_attn.o_proj', 'model.layers.22.self_attn.q_proj', 'model.layers.22.self_attn.v_proj', 'model.layers.23.mlp.down_proj', 'model.layers.23.mlp.gate_proj', 'model.layers.23.mlp.up_proj', 'model.layers.23.self_attn.k_proj', 'model.layers.23.self_attn.o_proj', 'model.layers.23.self_attn.q_proj', 'model.layers.23.self_attn.v_proj', 'model.layers.24.mlp.down_proj', 'model.layers.24.mlp.gate_proj', 'model.layers.24.mlp.up_proj', 'model.layers.24.self_attn.k_proj', 'model.layers.24.self_attn.o_proj', 'model.layers.24.self_attn.q_proj', 'model.layers.24.self_attn.v_proj', 'model.layers.25.mlp.down_proj', 'model.layers.25.mlp.gate_proj', 'model.layers.25.mlp.up_proj', 'model.layers.25.self_attn.k_proj', 'model.layers.25.self_attn.o_proj', 'model.layers.25.self_attn.q_proj', 'model.layers.25.self_attn.v_proj', 'model.layers.26.mlp.down_proj', 'model.layers.26.mlp.gate_proj', 'model.layers.26.mlp.up_proj', 'model.layers.26.self_attn.k_proj', 'model.layers.26.self_attn.o_proj', 'model.layers.26.self_attn.q_proj', 'model.layers.26.self_attn.v_proj', 'model.layers.27.mlp.down_proj', 'model.layers.27.mlp.gate_proj', 'model.layers.27.mlp.up_proj', 'model.layers.27.self_attn.k_proj', 'model.layers.27.self_attn.o_proj', 'model.layers.27.self_attn.q_proj', 'model.layers.27.self_attn.v_proj', 'model.layers.3.mlp.down_proj', 'model.layers.3.mlp.gate_proj', 'model.layers.3.mlp.up_proj', 'model.layers.3.self_attn.k_proj', 'model.layers.3.self_attn.o_proj', 'model.layers.3.self_attn.q_proj', 'model.layers.3.self_attn.v_proj', 'model.layers.4.mlp.down_proj', 'model.layers.4.mlp.gate_proj', 'model.layers.4.mlp.up_proj', 'model.layers.4.self_attn.k_proj', 'model.layers.4.self_attn.o_proj', 'model.layers.4.self_attn.q_proj', 'model.layers.4.self_attn.v_proj', 'model.layers.5.mlp.down_proj', 'model.layers.5.mlp.gate_proj', 'model.layers.5.mlp.up_proj', 'model.layers.5.self_attn.k_proj', 'model.layers.5.self_attn.o_proj', 'model.layers.5.self_attn.q_proj', 'model.layers.5.self_attn.v_proj', 'model.layers.6.mlp.down_proj', 'model.layers.6.mlp.gate_proj', 'model.layers.6.mlp.up_proj', 'model.layers.6.self_attn.k_proj', 'model.layers.6.self_attn.o_proj', 'model.layers.6.self_attn.q_proj', 'model.layers.6.self_attn.v_proj', 'model.layers.7.mlp.down_proj', 'model.layers.7.mlp.gate_proj', 'model.layers.7.mlp.up_proj', 'model.layers.7.self_attn.k_proj', 'model.layers.7.self_attn.o_proj', 'model.layers.7.self_attn.q_proj', 'model.layers.7.self_attn.v_proj', 'model.layers.8.mlp.down_proj', 'model.layers.8.mlp.gate_proj', 'model.layers.8.mlp.up_proj', 'model.layers.8.self_attn.k_proj', 'model.layers.8.self_attn.o_proj', 'model.layers.8.self_attn.q_proj', 'model.layers.8.self_attn.v_proj', 'model.layers.9.mlp.down_proj', 'model.layers.9.mlp.gate_proj', 'model.layers.9.mlp.up_proj', 'model.layers.9.self_attn.k_proj', 'model.layers.9.self_attn.o_proj', 'model.layers.9.self_attn.q_proj', 'model.layers.9.self_attn.v_proj']
+2026-01-26 13:47:15.384 | INFO     | model.actor:__init__:380 - Loading Zipper LoRA B weights from /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0125_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix/ckpts/global_step5000/mp_rank_00_model_states.pt
+2026-01-26 13:47:15.547 | INFO     | model.actor:__init__:380 - Loading Zipper LoRA B weights from /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0125_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix/ckpts/global_step5000/mp_rank_00_model_states.pt
+2026-01-26 13:47:15.555 | INFO     | model.actor:__init__:380 - Loading Zipper LoRA B weights from /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0125_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix/ckpts/global_step5000/mp_rank_00_model_states.pt
+2026-01-26 13:47:15.563 | INFO     | model.actor:__init__:380 - Loading Zipper LoRA B weights from /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0125_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix/ckpts/global_step5000/mp_rank_00_model_states.pt
+2026-01-26 13:47:34.575 | INFO     | model.actor:__init__:394 - Loaded 384 Zipper LoRA B weights.
+2026-01-26 13:47:35.256 | INFO     | model.actor:__init__:394 - Loaded 384 Zipper LoRA B weights.
+2026-01-26 13:47:35.268 | INFO     | model.actor:__init__:394 - Loaded 384 Zipper LoRA B weights.
+2026-01-26 13:47:35.280 | INFO     | model.actor:__init__:394 - Loaded 384 Zipper LoRA B weights.
+Actor(
+  (model): PeftModelForCausalLM(
+    (base_model): LoraModel(
+      (model): Qwen3AudioForCausalLM(
+        (model): Qwen3AudioModel(
+          (embed_tokens): Embedding(155165, 2048)
+          (layers): ModuleList(
+            (0-27): 28 x Qwen3DecoderLayer(
+              (self_attn): Qwen3FlashAttention2(
+                (q_proj): lora.Linear(
+                  (base_layer): Linear(in_features=2048, out_features=2048, bias=False)
+                  (lora_dropout): ModuleDict(
+                    (default): Identity()
+                  )
+                  (lora_A): ModuleDict(
+                    (default): Linear(in_features=2048, out_features=32, bias=False)
+                  )
+                  (lora_B): ModuleDict(
+                    (default): Linear(in_features=32, out_features=2048, bias=False)
+                  )
+                  (lora_embedding_A): ParameterDict()
+                  (lora_embedding_B): ParameterDict()
+                )
+                (k_proj): lora.Linear(
+                  (base_layer): Linear(in_features=2048, out_features=1024, bias=False)
+                  (lora_dropout): ModuleDict(
+                    (default): Identity()
+                  )
+                  (lora_A): ModuleDict(
+                    (default): Linear(in_features=2048, out_features=32, bias=False)
+                  )
+                  (lora_B): ModuleDict(
+                    (default): Linear(in_features=32, out_features=1024, bias=False)
+                  )
+                  (lora_embedding_A): ParameterDict()
+                  (lora_embedding_B): ParameterDict()
+                )
+                (v_proj): lora.Linear(
+                  (base_layer): Linear(in_features=2048, out_features=1024, bias=False)
+                  (lora_dropout): ModuleDict(
+                    (default): Identity()
+                  )
+                  (lora_A): ModuleDict(
+                    (default): Linear(in_features=2048, out_features=32, bias=False)
+                  )
+                  (lora_B): ModuleDict(
+                    (default): Linear(in_features=32, out_features=1024, bias=False)
+                  )
+                  (lora_embedding_A): ParameterDict()
+                  (lora_embedding_B): ParameterDict()
+                )
+                (o_proj): lora.Linear(
+                  (base_layer): Linear(in_features=2048, out_features=2048, bias=False)
+                  (lora_dropout): ModuleDict(
+                    (default): Identity()
+                  )
+                  (lora_A): ModuleDict(
+                    (default): Linear(in_features=2048, out_features=32, bias=False)
+                  )
+                  (lora_B): ModuleDict(
+                    (default): Linear(in_features=32, out_features=2048, bias=False)
+                  )
+                  (lora_embedding_A): ParameterDict()
+                  (lora_embedding_B): ParameterDict()
+                )
+                (q_norm): Qwen3RMSNorm((128,), eps=1e-06)
+                (k_norm): Qwen3RMSNorm((128,), eps=1e-06)
+                (rotary_emb): Qwen3RotaryEmbedding()
+              )
+              (mlp): Qwen3MLP(
+                (gate_proj): lora.Linear(
+                  (base_layer): Linear(in_features=2048, out_features=6144, bias=False)
+                  (lora_dropout): ModuleDict(
+                    (default): Identity()
+                  )
+                  (lora_A): ModuleDict(
+                    (default): Linear(in_features=2048, out_features=32, bias=False)
+                  )
+                  (lora_B): ModuleDict(
+                    (default): Linear(in_features=32, out_features=6144, bias=False)
+                  )
+                  (lora_embedding_A): ParameterDict()
+                  (lora_embedding_B): ParameterDict()
+                )
+                (up_proj): lora.Linear(
+                  (base_layer): Linear(in_features=2048, out_features=6144, bias=False)
+                  (lora_dropout): ModuleDict(
+                    (default): Identity()
+                  )
+                  (lora_A): ModuleDict(
+                    (default): Linear(in_features=2048, out_features=32, bias=False)
+                  )
+                  (lora_B): ModuleDict(
+                    (default): Linear(in_features=32, out_features=6144, bias=False)
+                  )
+                  (lora_embedding_A): ParameterDict()
+                  (lora_embedding_B): ParameterDict()
+                )
+                (down_proj): lora.Linear(
+                  (base_layer): Linear(in_features=6144, out_features=2048, bias=False)
+                  (lora_dropout): ModuleDict(
+                    (default): Identity()
+                  )
+                  (lora_A): ModuleDict(
+                    (default): Linear(in_features=6144, out_features=32, bias=False)
+                  )
+                  (lora_B): ModuleDict(
+                    (default): Linear(in_features=32, out_features=2048, bias=False)
+                  )
+                  (lora_embedding_A): ParameterDict()
+                  (lora_embedding_B): ParameterDict()
+                )
+                (act_fn): SiLU()
+              )
+              (input_layernorm): Qwen3RMSNorm((2048,), eps=1e-06)
+              (post_attention_layernorm): Qwen3RMSNorm((2048,), eps=1e-06)
+            )
+          )
+          (norm): Qwen3RMSNorm((2048,), eps=1e-06)
+          (rotary_emb): Qwen3RotaryEmbedding()
+          (audio): AudioEncoderChunked(
+            (conv1): Conv1d(128, 1280, kernel_size=(3,), stride=(1,), padding=(1,))
+            (conv2): Conv1d(1280, 1280, kernel_size=(3,), stride=(2,), padding=(1,))
+            (blocks): ModuleList(
+              (0-31): 32 x AudioEncoderLayer(
+                (attn): Qwen2AudioFlashAttention2(
+                  (key): DynamicRankZipperLoRAAdapter(
+                    (base): Linear(in_features=1280, out_features=1280, bias=False)
+                    (lora): DynamicRankZipperLoRALinear(
+                      (router): ZipperRouter(
+                        (layernorm): LayerNorm((1280,), eps=1e-05, elementwise_affine=True)
+                        (projection): Linear(in_features=1280, out_features=32, bias=True)
+                      )
+                    )
+                  )
+                  (value): DynamicRankZipperLoRAAdapter(
+                    (base): Linear(in_features=1280, out_features=1280, bias=True)
+                    (lora): DynamicRankZipperLoRALinear(
+                      (router): ZipperRouter(
+                        (layernorm): LayerNorm((1280,), eps=1e-05, elementwise_affine=True)
+                        (projection): Linear(in_features=1280, out_features=32, bias=True)
+                      )
+                    )
+                  )
+                  (query): DynamicRankZipperLoRAAdapter(
+                    (base): Linear(in_features=1280, out_features=1280, bias=True)
+                    (lora): DynamicRankZipperLoRALinear(
+                      (router): ZipperRouter(
+                        (layernorm): LayerNorm((1280,), eps=1e-05, elementwise_affine=True)
+                        (projection): Linear(in_features=1280, out_features=32, bias=True)
+                      )
+                    )
+                  )
+                  (out): DynamicRankZipperLoRAAdapter(
+                    (base): Linear(in_features=1280, out_features=1280, bias=True)
+                    (lora): DynamicRankZipperLoRALinear(
+                      (router): ZipperRouter(
+                        (layernorm): LayerNorm((1280,), eps=1e-05, elementwise_affine=True)
+                        (projection): Linear(in_features=1280, out_features=32, bias=True)
+                      )
+                    )
+                  )
+                )
+                (attn_ln): LayerNorm((1280,), eps=1e-05, elementwise_affine=True)
+                (mlp): Sequential(
+                  (0): DynamicRankZipperLoRAAdapter(
+                    (base): Linear(in_features=1280, out_features=5120, bias=True)
+                    (lora): DynamicRankZipperLoRALinear(
+                      (router): ZipperRouter(
+                        (layernorm): LayerNorm((1280,), eps=1e-05, elementwise_affine=True)
+                        (projection): Linear(in_features=1280, out_features=32, bias=True)
+                      )
+                    )
+                  )
+                  (1): GELU(approximate='none')
+                  (2): DynamicRankZipperLoRAAdapter(
+                    (base): Linear(in_features=5120, out_features=1280, bias=True)
+                    (lora): DynamicRankZipperLoRALinear(
+                      (router): ZipperRouter(
+                        (layernorm): LayerNorm((1280,), eps=1e-05, elementwise_affine=True)
+                        (projection): Linear(in_features=1280, out_features=32, bias=True)
+                      )
+                    )
+                  )
+                )
+                (mlp_ln): LayerNorm((1280,), eps=1e-05, elementwise_affine=True)
+              )
+            )
+            (ln_post): LayerNorm((1280,), eps=1e-05, elementwise_affine=True)
+            (conv_proj): AudioEncoderProjector(
+              (gate_proj): Conv1d(1280, 5120, kernel_size=(4,), stride=(4,), bias=False)
+              (up_proj): Conv1d(1280, 5120, kernel_size=(4,), stride=(4,), bias=False)
+              (down_proj): Linear(in_features=5120, out_features=5120, bias=False)
+              (layer_norm): LayerNorm((5120,), eps=1e-05, elementwise_affine=True)
+              (proj_decoder): Linear(in_features=5120, out_features=1280, bias=True)
+            )
+            (avg_pooler): AvgPool1d(kernel_size=(2,), stride=(2,), padding=(0,))
+            (proj): Linear(in_features=1280, out_features=2048, bias=True)
+            (audio_bos_eos_token): Embedding(2, 2048)
+            (zipper_shared_embedding): Embedding(12, 1280)
+          )
+        )
+        (lm_head): Linear(in_features=2048, out_features=155165, bias=False)
+      )
+    )
+  )
+)
+freezing param: model.embed_tokens.weight
+freezing param: model.layers.0.self_attn.q_proj.base_layer.weight
+training param: model.layers.0.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.0.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.0.self_attn.k_proj.base_layer.weight
+training param: model.layers.0.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.0.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.0.self_attn.v_proj.base_layer.weight
+training param: model.layers.0.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.0.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.0.self_attn.o_proj.base_layer.weight
+training param: model.layers.0.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.0.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.0.self_attn.q_norm.weight
+freezing param: model.layers.0.self_attn.k_norm.weight
+freezing param: model.layers.0.mlp.gate_proj.base_layer.weight
+training param: model.layers.0.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.0.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.0.mlp.up_proj.base_layer.weight
+training param: model.layers.0.mlp.up_proj.lora_A.default.weight
+training param: model.layers.0.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.0.mlp.down_proj.base_layer.weight
+training param: model.layers.0.mlp.down_proj.lora_A.default.weight
+training param: model.layers.0.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.0.input_layernorm.weight
+freezing param: model.layers.0.post_attention_layernorm.weight
+freezing param: model.layers.1.self_attn.q_proj.base_layer.weight
+training param: model.layers.1.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.1.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.1.self_attn.k_proj.base_layer.weight
+training param: model.layers.1.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.1.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.1.self_attn.v_proj.base_layer.weight
+training param: model.layers.1.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.1.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.1.self_attn.o_proj.base_layer.weight
+training param: model.layers.1.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.1.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.1.self_attn.q_norm.weight
+freezing param: model.layers.1.self_attn.k_norm.weight
+freezing param: model.layers.1.mlp.gate_proj.base_layer.weight
+training param: model.layers.1.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.1.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.1.mlp.up_proj.base_layer.weight
+training param: model.layers.1.mlp.up_proj.lora_A.default.weight
+training param: model.layers.1.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.1.mlp.down_proj.base_layer.weight
+training param: model.layers.1.mlp.down_proj.lora_A.default.weight
+training param: model.layers.1.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.1.input_layernorm.weight
+freezing param: model.layers.1.post_attention_layernorm.weight
+freezing param: model.layers.2.self_attn.q_proj.base_layer.weight
+training param: model.layers.2.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.2.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.2.self_attn.k_proj.base_layer.weight
+training param: model.layers.2.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.2.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.2.self_attn.v_proj.base_layer.weight
+training param: model.layers.2.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.2.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.2.self_attn.o_proj.base_layer.weight
+training param: model.layers.2.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.2.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.2.self_attn.q_norm.weight
+freezing param: model.layers.2.self_attn.k_norm.weight
+freezing param: model.layers.2.mlp.gate_proj.base_layer.weight
+training param: model.layers.2.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.2.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.2.mlp.up_proj.base_layer.weight
+training param: model.layers.2.mlp.up_proj.lora_A.default.weight
+training param: model.layers.2.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.2.mlp.down_proj.base_layer.weight
+training param: model.layers.2.mlp.down_proj.lora_A.default.weight
+training param: model.layers.2.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.2.input_layernorm.weight
+freezing param: model.layers.2.post_attention_layernorm.weight
+freezing param: model.layers.3.self_attn.q_proj.base_layer.weight
+training param: model.layers.3.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.3.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.3.self_attn.k_proj.base_layer.weight
+training param: model.layers.3.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.3.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.3.self_attn.v_proj.base_layer.weight
+training param: model.layers.3.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.3.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.3.self_attn.o_proj.base_layer.weight
+training param: model.layers.3.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.3.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.3.self_attn.q_norm.weight
+freezing param: model.layers.3.self_attn.k_norm.weight
+freezing param: model.layers.3.mlp.gate_proj.base_layer.weight
+training param: model.layers.3.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.3.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.3.mlp.up_proj.base_layer.weight
+training param: model.layers.3.mlp.up_proj.lora_A.default.weight
+training param: model.layers.3.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.3.mlp.down_proj.base_layer.weight
+training param: model.layers.3.mlp.down_proj.lora_A.default.weight
+training param: model.layers.3.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.3.input_layernorm.weight
+freezing param: model.layers.3.post_attention_layernorm.weight
+freezing param: model.layers.4.self_attn.q_proj.base_layer.weight
+training param: model.layers.4.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.4.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.4.self_attn.k_proj.base_layer.weight
+training param: model.layers.4.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.4.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.4.self_attn.v_proj.base_layer.weight
+training param: model.layers.4.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.4.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.4.self_attn.o_proj.base_layer.weight
+training param: model.layers.4.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.4.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.4.self_attn.q_norm.weight
+freezing param: model.layers.4.self_attn.k_norm.weight
+freezing param: model.layers.4.mlp.gate_proj.base_layer.weight
+training param: model.layers.4.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.4.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.4.mlp.up_proj.base_layer.weight
+training param: model.layers.4.mlp.up_proj.lora_A.default.weight
+training param: model.layers.4.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.4.mlp.down_proj.base_layer.weight
+training param: model.layers.4.mlp.down_proj.lora_A.default.weight
+training param: model.layers.4.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.4.input_layernorm.weight
+freezing param: model.layers.4.post_attention_layernorm.weight
+freezing param: model.layers.5.self_attn.q_proj.base_layer.weight
+training param: model.layers.5.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.5.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.5.self_attn.k_proj.base_layer.weight
+training param: model.layers.5.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.5.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.5.self_attn.v_proj.base_layer.weight
+training param: model.layers.5.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.5.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.5.self_attn.o_proj.base_layer.weight
+training param: model.layers.5.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.5.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.5.self_attn.q_norm.weight
+freezing param: model.layers.5.self_attn.k_norm.weight
+freezing param: model.layers.5.mlp.gate_proj.base_layer.weight
+training param: model.layers.5.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.5.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.5.mlp.up_proj.base_layer.weight
+training param: model.layers.5.mlp.up_proj.lora_A.default.weight
+training param: model.layers.5.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.5.mlp.down_proj.base_layer.weight
+training param: model.layers.5.mlp.down_proj.lora_A.default.weight
+training param: model.layers.5.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.5.input_layernorm.weight
+freezing param: model.layers.5.post_attention_layernorm.weight
+freezing param: model.layers.6.self_attn.q_proj.base_layer.weight
+training param: model.layers.6.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.6.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.6.self_attn.k_proj.base_layer.weight
+training param: model.layers.6.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.6.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.6.self_attn.v_proj.base_layer.weight
+training param: model.layers.6.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.6.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.6.self_attn.o_proj.base_layer.weight
+training param: model.layers.6.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.6.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.6.self_attn.q_norm.weight
+freezing param: model.layers.6.self_attn.k_norm.weight
+freezing param: model.layers.6.mlp.gate_proj.base_layer.weight
+training param: model.layers.6.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.6.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.6.mlp.up_proj.base_layer.weight
+training param: model.layers.6.mlp.up_proj.lora_A.default.weight
+training param: model.layers.6.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.6.mlp.down_proj.base_layer.weight
+training param: model.layers.6.mlp.down_proj.lora_A.default.weight
+training param: model.layers.6.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.6.input_layernorm.weight
+freezing param: model.layers.6.post_attention_layernorm.weight
+freezing param: model.layers.7.self_attn.q_proj.base_layer.weight
+training param: model.layers.7.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.7.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.7.self_attn.k_proj.base_layer.weight
+training param: model.layers.7.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.7.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.7.self_attn.v_proj.base_layer.weight
+training param: model.layers.7.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.7.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.7.self_attn.o_proj.base_layer.weight
+training param: model.layers.7.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.7.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.7.self_attn.q_norm.weight
+freezing param: model.layers.7.self_attn.k_norm.weight
+freezing param: model.layers.7.mlp.gate_proj.base_layer.weight
+training param: model.layers.7.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.7.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.7.mlp.up_proj.base_layer.weight
+training param: model.layers.7.mlp.up_proj.lora_A.default.weight
+training param: model.layers.7.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.7.mlp.down_proj.base_layer.weight
+training param: model.layers.7.mlp.down_proj.lora_A.default.weight
+training param: model.layers.7.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.7.input_layernorm.weight
+freezing param: model.layers.7.post_attention_layernorm.weight
+freezing param: model.layers.8.self_attn.q_proj.base_layer.weight
+training param: model.layers.8.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.8.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.8.self_attn.k_proj.base_layer.weight
+training param: model.layers.8.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.8.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.8.self_attn.v_proj.base_layer.weight
+training param: model.layers.8.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.8.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.8.self_attn.o_proj.base_layer.weight
+training param: model.layers.8.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.8.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.8.self_attn.q_norm.weight
+freezing param: model.layers.8.self_attn.k_norm.weight
+freezing param: model.layers.8.mlp.gate_proj.base_layer.weight
+training param: model.layers.8.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.8.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.8.mlp.up_proj.base_layer.weight
+training param: model.layers.8.mlp.up_proj.lora_A.default.weight
+training param: model.layers.8.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.8.mlp.down_proj.base_layer.weight
+training param: model.layers.8.mlp.down_proj.lora_A.default.weight
+training param: model.layers.8.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.8.input_layernorm.weight
+freezing param: model.layers.8.post_attention_layernorm.weight
+freezing param: model.layers.9.self_attn.q_proj.base_layer.weight
+training param: model.layers.9.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.9.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.9.self_attn.k_proj.base_layer.weight
+training param: model.layers.9.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.9.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.9.self_attn.v_proj.base_layer.weight
+training param: model.layers.9.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.9.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.9.self_attn.o_proj.base_layer.weight
+training param: model.layers.9.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.9.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.9.self_attn.q_norm.weight
+freezing param: model.layers.9.self_attn.k_norm.weight
+freezing param: model.layers.9.mlp.gate_proj.base_layer.weight
+training param: model.layers.9.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.9.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.9.mlp.up_proj.base_layer.weight
+training param: model.layers.9.mlp.up_proj.lora_A.default.weight
+training param: model.layers.9.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.9.mlp.down_proj.base_layer.weight
+training param: model.layers.9.mlp.down_proj.lora_A.default.weight
+training param: model.layers.9.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.9.input_layernorm.weight
+freezing param: model.layers.9.post_attention_layernorm.weight
+freezing param: model.layers.10.self_attn.q_proj.base_layer.weight
+training param: model.layers.10.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.10.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.10.self_attn.k_proj.base_layer.weight
+training param: model.layers.10.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.10.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.10.self_attn.v_proj.base_layer.weight
+training param: model.layers.10.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.10.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.10.self_attn.o_proj.base_layer.weight
+training param: model.layers.10.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.10.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.10.self_attn.q_norm.weight
+freezing param: model.layers.10.self_attn.k_norm.weight
+freezing param: model.layers.10.mlp.gate_proj.base_layer.weight
+training param: model.layers.10.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.10.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.10.mlp.up_proj.base_layer.weight
+training param: model.layers.10.mlp.up_proj.lora_A.default.weight
+training param: model.layers.10.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.10.mlp.down_proj.base_layer.weight
+training param: model.layers.10.mlp.down_proj.lora_A.default.weight
+training param: model.layers.10.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.10.input_layernorm.weight
+freezing param: model.layers.10.post_attention_layernorm.weight
+freezing param: model.layers.11.self_attn.q_proj.base_layer.weight
+training param: model.layers.11.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.11.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.11.self_attn.k_proj.base_layer.weight
+training param: model.layers.11.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.11.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.11.self_attn.v_proj.base_layer.weight
+training param: model.layers.11.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.11.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.11.self_attn.o_proj.base_layer.weight
+training param: model.layers.11.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.11.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.11.self_attn.q_norm.weight
+freezing param: model.layers.11.self_attn.k_norm.weight
+freezing param: model.layers.11.mlp.gate_proj.base_layer.weight
+training param: model.layers.11.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.11.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.11.mlp.up_proj.base_layer.weight
+training param: model.layers.11.mlp.up_proj.lora_A.default.weight
+training param: model.layers.11.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.11.mlp.down_proj.base_layer.weight
+training param: model.layers.11.mlp.down_proj.lora_A.default.weight
+training param: model.layers.11.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.11.input_layernorm.weight
+freezing param: model.layers.11.post_attention_layernorm.weight
+freezing param: model.layers.12.self_attn.q_proj.base_layer.weight
+training param: model.layers.12.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.12.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.12.self_attn.k_proj.base_layer.weight
+training param: model.layers.12.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.12.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.12.self_attn.v_proj.base_layer.weight
+training param: model.layers.12.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.12.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.12.self_attn.o_proj.base_layer.weight
+training param: model.layers.12.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.12.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.12.self_attn.q_norm.weight
+freezing param: model.layers.12.self_attn.k_norm.weight
+freezing param: model.layers.12.mlp.gate_proj.base_layer.weight
+training param: model.layers.12.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.12.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.12.mlp.up_proj.base_layer.weight
+training param: model.layers.12.mlp.up_proj.lora_A.default.weight
+training param: model.layers.12.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.12.mlp.down_proj.base_layer.weight
+training param: model.layers.12.mlp.down_proj.lora_A.default.weight
+training param: model.layers.12.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.12.input_layernorm.weight
+freezing param: model.layers.12.post_attention_layernorm.weight
+freezing param: model.layers.13.self_attn.q_proj.base_layer.weight
+training param: model.layers.13.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.13.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.13.self_attn.k_proj.base_layer.weight
+training param: model.layers.13.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.13.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.13.self_attn.v_proj.base_layer.weight
+training param: model.layers.13.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.13.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.13.self_attn.o_proj.base_layer.weight
+training param: model.layers.13.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.13.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.13.self_attn.q_norm.weight
+freezing param: model.layers.13.self_attn.k_norm.weight
+freezing param: model.layers.13.mlp.gate_proj.base_layer.weight
+training param: model.layers.13.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.13.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.13.mlp.up_proj.base_layer.weight
+training param: model.layers.13.mlp.up_proj.lora_A.default.weight
+training param: model.layers.13.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.13.mlp.down_proj.base_layer.weight
+training param: model.layers.13.mlp.down_proj.lora_A.default.weight
+training param: model.layers.13.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.13.input_layernorm.weight
+freezing param: model.layers.13.post_attention_layernorm.weight
+freezing param: model.layers.14.self_attn.q_proj.base_layer.weight
+training param: model.layers.14.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.14.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.14.self_attn.k_proj.base_layer.weight
+training param: model.layers.14.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.14.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.14.self_attn.v_proj.base_layer.weight
+training param: model.layers.14.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.14.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.14.self_attn.o_proj.base_layer.weight
+training param: model.layers.14.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.14.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.14.self_attn.q_norm.weight
+freezing param: model.layers.14.self_attn.k_norm.weight
+freezing param: model.layers.14.mlp.gate_proj.base_layer.weight
+training param: model.layers.14.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.14.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.14.mlp.up_proj.base_layer.weight
+training param: model.layers.14.mlp.up_proj.lora_A.default.weight
+training param: model.layers.14.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.14.mlp.down_proj.base_layer.weight
+training param: model.layers.14.mlp.down_proj.lora_A.default.weight
+training param: model.layers.14.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.14.input_layernorm.weight
+freezing param: model.layers.14.post_attention_layernorm.weight
+freezing param: model.layers.15.self_attn.q_proj.base_layer.weight
+training param: model.layers.15.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.15.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.15.self_attn.k_proj.base_layer.weight
+training param: model.layers.15.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.15.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.15.self_attn.v_proj.base_layer.weight
+training param: model.layers.15.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.15.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.15.self_attn.o_proj.base_layer.weight
+training param: model.layers.15.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.15.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.15.self_attn.q_norm.weight
+freezing param: model.layers.15.self_attn.k_norm.weight
+freezing param: model.layers.15.mlp.gate_proj.base_layer.weight
+training param: model.layers.15.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.15.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.15.mlp.up_proj.base_layer.weight
+training param: model.layers.15.mlp.up_proj.lora_A.default.weight
+training param: model.layers.15.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.15.mlp.down_proj.base_layer.weight
+training param: model.layers.15.mlp.down_proj.lora_A.default.weight
+training param: model.layers.15.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.15.input_layernorm.weight
+freezing param: model.layers.15.post_attention_layernorm.weight
+freezing param: model.layers.16.self_attn.q_proj.base_layer.weight
+training param: model.layers.16.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.16.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.16.self_attn.k_proj.base_layer.weight
+training param: model.layers.16.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.16.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.16.self_attn.v_proj.base_layer.weight
+training param: model.layers.16.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.16.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.16.self_attn.o_proj.base_layer.weight
+training param: model.layers.16.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.16.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.16.self_attn.q_norm.weight
+freezing param: model.layers.16.self_attn.k_norm.weight
+freezing param: model.layers.16.mlp.gate_proj.base_layer.weight
+training param: model.layers.16.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.16.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.16.mlp.up_proj.base_layer.weight
+training param: model.layers.16.mlp.up_proj.lora_A.default.weight
+training param: model.layers.16.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.16.mlp.down_proj.base_layer.weight
+training param: model.layers.16.mlp.down_proj.lora_A.default.weight
+training param: model.layers.16.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.16.input_layernorm.weight
+freezing param: model.layers.16.post_attention_layernorm.weight
+freezing param: model.layers.17.self_attn.q_proj.base_layer.weight
+training param: model.layers.17.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.17.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.17.self_attn.k_proj.base_layer.weight
+training param: model.layers.17.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.17.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.17.self_attn.v_proj.base_layer.weight
+training param: model.layers.17.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.17.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.17.self_attn.o_proj.base_layer.weight
+training param: model.layers.17.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.17.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.17.self_attn.q_norm.weight
+freezing param: model.layers.17.self_attn.k_norm.weight
+freezing param: model.layers.17.mlp.gate_proj.base_layer.weight
+training param: model.layers.17.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.17.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.17.mlp.up_proj.base_layer.weight
+training param: model.layers.17.mlp.up_proj.lora_A.default.weight
+training param: model.layers.17.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.17.mlp.down_proj.base_layer.weight
+training param: model.layers.17.mlp.down_proj.lora_A.default.weight
+training param: model.layers.17.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.17.input_layernorm.weight
+freezing param: model.layers.17.post_attention_layernorm.weight
+freezing param: model.layers.18.self_attn.q_proj.base_layer.weight
+training param: model.layers.18.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.18.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.18.self_attn.k_proj.base_layer.weight
+training param: model.layers.18.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.18.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.18.self_attn.v_proj.base_layer.weight
+training param: model.layers.18.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.18.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.18.self_attn.o_proj.base_layer.weight
+training param: model.layers.18.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.18.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.18.self_attn.q_norm.weight
+freezing param: model.layers.18.self_attn.k_norm.weight
+freezing param: model.layers.18.mlp.gate_proj.base_layer.weight
+training param: model.layers.18.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.18.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.18.mlp.up_proj.base_layer.weight
+training param: model.layers.18.mlp.up_proj.lora_A.default.weight
+training param: model.layers.18.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.18.mlp.down_proj.base_layer.weight
+training param: model.layers.18.mlp.down_proj.lora_A.default.weight
+training param: model.layers.18.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.18.input_layernorm.weight
+freezing param: model.layers.18.post_attention_layernorm.weight
+freezing param: model.layers.19.self_attn.q_proj.base_layer.weight
+training param: model.layers.19.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.19.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.19.self_attn.k_proj.base_layer.weight
+training param: model.layers.19.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.19.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.19.self_attn.v_proj.base_layer.weight
+training param: model.layers.19.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.19.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.19.self_attn.o_proj.base_layer.weight
+training param: model.layers.19.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.19.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.19.self_attn.q_norm.weight
+freezing param: model.layers.19.self_attn.k_norm.weight
+freezing param: model.layers.19.mlp.gate_proj.base_layer.weight
+training param: model.layers.19.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.19.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.19.mlp.up_proj.base_layer.weight
+training param: model.layers.19.mlp.up_proj.lora_A.default.weight
+training param: model.layers.19.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.19.mlp.down_proj.base_layer.weight
+training param: model.layers.19.mlp.down_proj.lora_A.default.weight
+training param: model.layers.19.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.19.input_layernorm.weight
+freezing param: model.layers.19.post_attention_layernorm.weight
+freezing param: model.layers.20.self_attn.q_proj.base_layer.weight
+training param: model.layers.20.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.20.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.20.self_attn.k_proj.base_layer.weight
+training param: model.layers.20.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.20.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.20.self_attn.v_proj.base_layer.weight
+training param: model.layers.20.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.20.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.20.self_attn.o_proj.base_layer.weight
+training param: model.layers.20.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.20.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.20.self_attn.q_norm.weight
+freezing param: model.layers.20.self_attn.k_norm.weight
+freezing param: model.layers.20.mlp.gate_proj.base_layer.weight
+training param: model.layers.20.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.20.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.20.mlp.up_proj.base_layer.weight
+training param: model.layers.20.mlp.up_proj.lora_A.default.weight
+training param: model.layers.20.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.20.mlp.down_proj.base_layer.weight
+training param: model.layers.20.mlp.down_proj.lora_A.default.weight
+training param: model.layers.20.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.20.input_layernorm.weight
+freezing param: model.layers.20.post_attention_layernorm.weight
+freezing param: model.layers.21.self_attn.q_proj.base_layer.weight
+training param: model.layers.21.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.21.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.21.self_attn.k_proj.base_layer.weight
+training param: model.layers.21.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.21.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.21.self_attn.v_proj.base_layer.weight
+training param: model.layers.21.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.21.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.21.self_attn.o_proj.base_layer.weight
+training param: model.layers.21.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.21.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.21.self_attn.q_norm.weight
+freezing param: model.layers.21.self_attn.k_norm.weight
+freezing param: model.layers.21.mlp.gate_proj.base_layer.weight
+training param: model.layers.21.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.21.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.21.mlp.up_proj.base_layer.weight
+training param: model.layers.21.mlp.up_proj.lora_A.default.weight
+training param: model.layers.21.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.21.mlp.down_proj.base_layer.weight
+training param: model.layers.21.mlp.down_proj.lora_A.default.weight
+training param: model.layers.21.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.21.input_layernorm.weight
+freezing param: model.layers.21.post_attention_layernorm.weight
+freezing param: model.layers.22.self_attn.q_proj.base_layer.weight
+training param: model.layers.22.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.22.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.22.self_attn.k_proj.base_layer.weight
+training param: model.layers.22.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.22.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.22.self_attn.v_proj.base_layer.weight
+training param: model.layers.22.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.22.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.22.self_attn.o_proj.base_layer.weight
+training param: model.layers.22.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.22.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.22.self_attn.q_norm.weight
+freezing param: model.layers.22.self_attn.k_norm.weight
+freezing param: model.layers.22.mlp.gate_proj.base_layer.weight
+training param: model.layers.22.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.22.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.22.mlp.up_proj.base_layer.weight
+training param: model.layers.22.mlp.up_proj.lora_A.default.weight
+training param: model.layers.22.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.22.mlp.down_proj.base_layer.weight
+training param: model.layers.22.mlp.down_proj.lora_A.default.weight
+training param: model.layers.22.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.22.input_layernorm.weight
+freezing param: model.layers.22.post_attention_layernorm.weight
+freezing param: model.layers.23.self_attn.q_proj.base_layer.weight
+training param: model.layers.23.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.23.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.23.self_attn.k_proj.base_layer.weight
+training param: model.layers.23.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.23.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.23.self_attn.v_proj.base_layer.weight
+training param: model.layers.23.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.23.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.23.self_attn.o_proj.base_layer.weight
+training param: model.layers.23.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.23.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.23.self_attn.q_norm.weight
+freezing param: model.layers.23.self_attn.k_norm.weight
+freezing param: model.layers.23.mlp.gate_proj.base_layer.weight
+training param: model.layers.23.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.23.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.23.mlp.up_proj.base_layer.weight
+training param: model.layers.23.mlp.up_proj.lora_A.default.weight
+training param: model.layers.23.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.23.mlp.down_proj.base_layer.weight
+training param: model.layers.23.mlp.down_proj.lora_A.default.weight
+training param: model.layers.23.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.23.input_layernorm.weight
+freezing param: model.layers.23.post_attention_layernorm.weight
+freezing param: model.layers.24.self_attn.q_proj.base_layer.weight
+training param: model.layers.24.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.24.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.24.self_attn.k_proj.base_layer.weight
+training param: model.layers.24.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.24.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.24.self_attn.v_proj.base_layer.weight
+training param: model.layers.24.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.24.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.24.self_attn.o_proj.base_layer.weight
+training param: model.layers.24.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.24.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.24.self_attn.q_norm.weight
+freezing param: model.layers.24.self_attn.k_norm.weight
+freezing param: model.layers.24.mlp.gate_proj.base_layer.weight
+training param: model.layers.24.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.24.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.24.mlp.up_proj.base_layer.weight
+training param: model.layers.24.mlp.up_proj.lora_A.default.weight
+training param: model.layers.24.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.24.mlp.down_proj.base_layer.weight
+training param: model.layers.24.mlp.down_proj.lora_A.default.weight
+training param: model.layers.24.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.24.input_layernorm.weight
+freezing param: model.layers.24.post_attention_layernorm.weight
+freezing param: model.layers.25.self_attn.q_proj.base_layer.weight
+training param: model.layers.25.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.25.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.25.self_attn.k_proj.base_layer.weight
+training param: model.layers.25.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.25.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.25.self_attn.v_proj.base_layer.weight
+training param: model.layers.25.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.25.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.25.self_attn.o_proj.base_layer.weight
+training param: model.layers.25.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.25.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.25.self_attn.q_norm.weight
+freezing param: model.layers.25.self_attn.k_norm.weight
+freezing param: model.layers.25.mlp.gate_proj.base_layer.weight
+training param: model.layers.25.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.25.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.25.mlp.up_proj.base_layer.weight
+training param: model.layers.25.mlp.up_proj.lora_A.default.weight
+training param: model.layers.25.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.25.mlp.down_proj.base_layer.weight
+training param: model.layers.25.mlp.down_proj.lora_A.default.weight
+training param: model.layers.25.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.25.input_layernorm.weight
+freezing param: model.layers.25.post_attention_layernorm.weight
+freezing param: model.layers.26.self_attn.q_proj.base_layer.weight
+training param: model.layers.26.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.26.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.26.self_attn.k_proj.base_layer.weight
+training param: model.layers.26.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.26.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.26.self_attn.v_proj.base_layer.weight
+training param: model.layers.26.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.26.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.26.self_attn.o_proj.base_layer.weight
+training param: model.layers.26.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.26.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.26.self_attn.q_norm.weight
+freezing param: model.layers.26.self_attn.k_norm.weight
+freezing param: model.layers.26.mlp.gate_proj.base_layer.weight
+training param: model.layers.26.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.26.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.26.mlp.up_proj.base_layer.weight
+training param: model.layers.26.mlp.up_proj.lora_A.default.weight
+training param: model.layers.26.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.26.mlp.down_proj.base_layer.weight
+training param: model.layers.26.mlp.down_proj.lora_A.default.weight
+training param: model.layers.26.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.26.input_layernorm.weight
+freezing param: model.layers.26.post_attention_layernorm.weight
+freezing param: model.layers.27.self_attn.q_proj.base_layer.weight
+training param: model.layers.27.self_attn.q_proj.lora_A.default.weight
+training param: model.layers.27.self_attn.q_proj.lora_B.default.weight
+freezing param: model.layers.27.self_attn.k_proj.base_layer.weight
+training param: model.layers.27.self_attn.k_proj.lora_A.default.weight
+training param: model.layers.27.self_attn.k_proj.lora_B.default.weight
+freezing param: model.layers.27.self_attn.v_proj.base_layer.weight
+training param: model.layers.27.self_attn.v_proj.lora_A.default.weight
+training param: model.layers.27.self_attn.v_proj.lora_B.default.weight
+freezing param: model.layers.27.self_attn.o_proj.base_layer.weight
+training param: model.layers.27.self_attn.o_proj.lora_A.default.weight
+training param: model.layers.27.self_attn.o_proj.lora_B.default.weight
+freezing param: model.layers.27.self_attn.q_norm.weight
+freezing param: model.layers.27.self_attn.k_norm.weight
+freezing param: model.layers.27.mlp.gate_proj.base_layer.weight
+training param: model.layers.27.mlp.gate_proj.lora_A.default.weight
+training param: model.layers.27.mlp.gate_proj.lora_B.default.weight
+freezing param: model.layers.27.mlp.up_proj.base_layer.weight
+training param: model.layers.27.mlp.up_proj.lora_A.default.weight
+training param: model.layers.27.mlp.up_proj.lora_B.default.weight
+freezing param: model.layers.27.mlp.down_proj.base_layer.weight
+training param: model.layers.27.mlp.down_proj.lora_A.default.weight
+training param: model.layers.27.mlp.down_proj.lora_B.default.weight
+freezing param: model.layers.27.input_layernorm.weight
+freezing param: model.layers.27.post_attention_layernorm.weight
+freezing param: model.norm.weight
+freezing param: model.audio.conv1.weight
+freezing param: model.audio.conv1.bias
+freezing param: model.audio.conv2.weight
+freezing param: model.audio.conv2.bias
+freezing param: model.audio.blocks.0.attn.key.base.weight
+training param: model.audio.blocks.0.attn.key.lora.A
+training param: model.audio.blocks.0.attn.key.lora.B_shared
+training param: model.audio.blocks.0.attn.key.lora.B_specific
+training param: model.audio.blocks.0.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.0.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.0.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.0.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.0.attn.value.base.weight
+freezing param: model.audio.blocks.0.attn.value.base.bias
+training param: model.audio.blocks.0.attn.value.lora.A
+training param: model.audio.blocks.0.attn.value.lora.B_shared
+training param: model.audio.blocks.0.attn.value.lora.B_specific
+training param: model.audio.blocks.0.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.0.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.0.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.0.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.0.attn.query.base.weight
+freezing param: model.audio.blocks.0.attn.query.base.bias
+training param: model.audio.blocks.0.attn.query.lora.A
+training param: model.audio.blocks.0.attn.query.lora.B_shared
+training param: model.audio.blocks.0.attn.query.lora.B_specific
+training param: model.audio.blocks.0.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.0.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.0.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.0.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.0.attn.out.base.weight
+freezing param: model.audio.blocks.0.attn.out.base.bias
+training param: model.audio.blocks.0.attn.out.lora.A
+training param: model.audio.blocks.0.attn.out.lora.B_shared
+training param: model.audio.blocks.0.attn.out.lora.B_specific
+training param: model.audio.blocks.0.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.0.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.0.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.0.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.0.attn_ln.weight
+freezing param: model.audio.blocks.0.attn_ln.bias
+freezing param: model.audio.blocks.0.mlp.0.base.weight
+freezing param: model.audio.blocks.0.mlp.0.base.bias
+training param: model.audio.blocks.0.mlp.0.lora.A
+training param: model.audio.blocks.0.mlp.0.lora.B_shared
+training param: model.audio.blocks.0.mlp.0.lora.B_specific
+training param: model.audio.blocks.0.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.0.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.0.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.0.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.0.mlp.2.base.weight
+freezing param: model.audio.blocks.0.mlp.2.base.bias
+training param: model.audio.blocks.0.mlp.2.lora.A
+training param: model.audio.blocks.0.mlp.2.lora.B_shared
+training param: model.audio.blocks.0.mlp.2.lora.B_specific
+training param: model.audio.blocks.0.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.0.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.0.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.0.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.0.mlp_ln.weight
+freezing param: model.audio.blocks.0.mlp_ln.bias
+freezing param: model.audio.blocks.1.attn.key.base.weight
+training param: model.audio.blocks.1.attn.key.lora.A
+training param: model.audio.blocks.1.attn.key.lora.B_shared
+training param: model.audio.blocks.1.attn.key.lora.B_specific
+training param: model.audio.blocks.1.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.1.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.1.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.1.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.1.attn.value.base.weight
+freezing param: model.audio.blocks.1.attn.value.base.bias
+training param: model.audio.blocks.1.attn.value.lora.A
+training param: model.audio.blocks.1.attn.value.lora.B_shared
+training param: model.audio.blocks.1.attn.value.lora.B_specific
+training param: model.audio.blocks.1.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.1.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.1.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.1.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.1.attn.query.base.weight
+freezing param: model.audio.blocks.1.attn.query.base.bias
+training param: model.audio.blocks.1.attn.query.lora.A
+training param: model.audio.blocks.1.attn.query.lora.B_shared
+training param: model.audio.blocks.1.attn.query.lora.B_specific
+training param: model.audio.blocks.1.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.1.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.1.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.1.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.1.attn.out.base.weight
+freezing param: model.audio.blocks.1.attn.out.base.bias
+training param: model.audio.blocks.1.attn.out.lora.A
+training param: model.audio.blocks.1.attn.out.lora.B_shared
+training param: model.audio.blocks.1.attn.out.lora.B_specific
+training param: model.audio.blocks.1.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.1.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.1.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.1.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.1.attn_ln.weight
+freezing param: model.audio.blocks.1.attn_ln.bias
+freezing param: model.audio.blocks.1.mlp.0.base.weight
+freezing param: model.audio.blocks.1.mlp.0.base.bias
+training param: model.audio.blocks.1.mlp.0.lora.A
+training param: model.audio.blocks.1.mlp.0.lora.B_shared
+training param: model.audio.blocks.1.mlp.0.lora.B_specific
+training param: model.audio.blocks.1.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.1.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.1.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.1.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.1.mlp.2.base.weight
+freezing param: model.audio.blocks.1.mlp.2.base.bias
+training param: model.audio.blocks.1.mlp.2.lora.A
+training param: model.audio.blocks.1.mlp.2.lora.B_shared
+training param: model.audio.blocks.1.mlp.2.lora.B_specific
+training param: model.audio.blocks.1.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.1.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.1.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.1.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.1.mlp_ln.weight
+freezing param: model.audio.blocks.1.mlp_ln.bias
+freezing param: model.audio.blocks.2.attn.key.base.weight
+training param: model.audio.blocks.2.attn.key.lora.A
+training param: model.audio.blocks.2.attn.key.lora.B_shared
+training param: model.audio.blocks.2.attn.key.lora.B_specific
+training param: model.audio.blocks.2.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.2.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.2.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.2.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.2.attn.value.base.weight
+freezing param: model.audio.blocks.2.attn.value.base.bias
+training param: model.audio.blocks.2.attn.value.lora.A
+training param: model.audio.blocks.2.attn.value.lora.B_shared
+training param: model.audio.blocks.2.attn.value.lora.B_specific
+training param: model.audio.blocks.2.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.2.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.2.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.2.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.2.attn.query.base.weight
+freezing param: model.audio.blocks.2.attn.query.base.bias
+training param: model.audio.blocks.2.attn.query.lora.A
+training param: model.audio.blocks.2.attn.query.lora.B_shared
+training param: model.audio.blocks.2.attn.query.lora.B_specific
+training param: model.audio.blocks.2.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.2.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.2.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.2.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.2.attn.out.base.weight
+freezing param: model.audio.blocks.2.attn.out.base.bias
+training param: model.audio.blocks.2.attn.out.lora.A
+training param: model.audio.blocks.2.attn.out.lora.B_shared
+training param: model.audio.blocks.2.attn.out.lora.B_specific
+training param: model.audio.blocks.2.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.2.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.2.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.2.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.2.attn_ln.weight
+freezing param: model.audio.blocks.2.attn_ln.bias
+freezing param: model.audio.blocks.2.mlp.0.base.weight
+freezing param: model.audio.blocks.2.mlp.0.base.bias
+training param: model.audio.blocks.2.mlp.0.lora.A
+training param: model.audio.blocks.2.mlp.0.lora.B_shared
+training param: model.audio.blocks.2.mlp.0.lora.B_specific
+training param: model.audio.blocks.2.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.2.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.2.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.2.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.2.mlp.2.base.weight
+freezing param: model.audio.blocks.2.mlp.2.base.bias
+training param: model.audio.blocks.2.mlp.2.lora.A
+training param: model.audio.blocks.2.mlp.2.lora.B_shared
+training param: model.audio.blocks.2.mlp.2.lora.B_specific
+training param: model.audio.blocks.2.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.2.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.2.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.2.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.2.mlp_ln.weight
+freezing param: model.audio.blocks.2.mlp_ln.bias
+freezing param: model.audio.blocks.3.attn.key.base.weight
+training param: model.audio.blocks.3.attn.key.lora.A
+training param: model.audio.blocks.3.attn.key.lora.B_shared
+training param: model.audio.blocks.3.attn.key.lora.B_specific
+training param: model.audio.blocks.3.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.3.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.3.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.3.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.3.attn.value.base.weight
+freezing param: model.audio.blocks.3.attn.value.base.bias
+training param: model.audio.blocks.3.attn.value.lora.A
+training param: model.audio.blocks.3.attn.value.lora.B_shared
+training param: model.audio.blocks.3.attn.value.lora.B_specific
+training param: model.audio.blocks.3.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.3.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.3.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.3.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.3.attn.query.base.weight
+freezing param: model.audio.blocks.3.attn.query.base.bias
+training param: model.audio.blocks.3.attn.query.lora.A
+training param: model.audio.blocks.3.attn.query.lora.B_shared
+training param: model.audio.blocks.3.attn.query.lora.B_specific
+training param: model.audio.blocks.3.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.3.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.3.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.3.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.3.attn.out.base.weight
+freezing param: model.audio.blocks.3.attn.out.base.bias
+training param: model.audio.blocks.3.attn.out.lora.A
+training param: model.audio.blocks.3.attn.out.lora.B_shared
+training param: model.audio.blocks.3.attn.out.lora.B_specific
+training param: model.audio.blocks.3.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.3.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.3.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.3.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.3.attn_ln.weight
+freezing param: model.audio.blocks.3.attn_ln.bias
+freezing param: model.audio.blocks.3.mlp.0.base.weight
+freezing param: model.audio.blocks.3.mlp.0.base.bias
+training param: model.audio.blocks.3.mlp.0.lora.A
+training param: model.audio.blocks.3.mlp.0.lora.B_shared
+training param: model.audio.blocks.3.mlp.0.lora.B_specific
+training param: model.audio.blocks.3.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.3.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.3.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.3.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.3.mlp.2.base.weight
+freezing param: model.audio.blocks.3.mlp.2.base.bias
+training param: model.audio.blocks.3.mlp.2.lora.A
+training param: model.audio.blocks.3.mlp.2.lora.B_shared
+training param: model.audio.blocks.3.mlp.2.lora.B_specific
+training param: model.audio.blocks.3.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.3.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.3.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.3.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.3.mlp_ln.weight
+freezing param: model.audio.blocks.3.mlp_ln.bias
+freezing param: model.audio.blocks.4.attn.key.base.weight
+training param: model.audio.blocks.4.attn.key.lora.A
+training param: model.audio.blocks.4.attn.key.lora.B_shared
+training param: model.audio.blocks.4.attn.key.lora.B_specific
+training param: model.audio.blocks.4.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.4.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.4.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.4.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.4.attn.value.base.weight
+freezing param: model.audio.blocks.4.attn.value.base.bias
+training param: model.audio.blocks.4.attn.value.lora.A
+training param: model.audio.blocks.4.attn.value.lora.B_shared
+training param: model.audio.blocks.4.attn.value.lora.B_specific
+training param: model.audio.blocks.4.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.4.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.4.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.4.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.4.attn.query.base.weight
+freezing param: model.audio.blocks.4.attn.query.base.bias
+training param: model.audio.blocks.4.attn.query.lora.A
+training param: model.audio.blocks.4.attn.query.lora.B_shared
+training param: model.audio.blocks.4.attn.query.lora.B_specific
+training param: model.audio.blocks.4.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.4.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.4.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.4.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.4.attn.out.base.weight
+freezing param: model.audio.blocks.4.attn.out.base.bias
+training param: model.audio.blocks.4.attn.out.lora.A
+training param: model.audio.blocks.4.attn.out.lora.B_shared
+training param: model.audio.blocks.4.attn.out.lora.B_specific
+training param: model.audio.blocks.4.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.4.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.4.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.4.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.4.attn_ln.weight
+freezing param: model.audio.blocks.4.attn_ln.bias
+freezing param: model.audio.blocks.4.mlp.0.base.weight
+freezing param: model.audio.blocks.4.mlp.0.base.bias
+training param: model.audio.blocks.4.mlp.0.lora.A
+training param: model.audio.blocks.4.mlp.0.lora.B_shared
+training param: model.audio.blocks.4.mlp.0.lora.B_specific
+training param: model.audio.blocks.4.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.4.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.4.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.4.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.4.mlp.2.base.weight
+freezing param: model.audio.blocks.4.mlp.2.base.bias
+training param: model.audio.blocks.4.mlp.2.lora.A
+training param: model.audio.blocks.4.mlp.2.lora.B_shared
+training param: model.audio.blocks.4.mlp.2.lora.B_specific
+training param: model.audio.blocks.4.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.4.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.4.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.4.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.4.mlp_ln.weight
+freezing param: model.audio.blocks.4.mlp_ln.bias
+freezing param: model.audio.blocks.5.attn.key.base.weight
+training param: model.audio.blocks.5.attn.key.lora.A
+training param: model.audio.blocks.5.attn.key.lora.B_shared
+training param: model.audio.blocks.5.attn.key.lora.B_specific
+training param: model.audio.blocks.5.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.5.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.5.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.5.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.5.attn.value.base.weight
+freezing param: model.audio.blocks.5.attn.value.base.bias
+training param: model.audio.blocks.5.attn.value.lora.A
+training param: model.audio.blocks.5.attn.value.lora.B_shared
+training param: model.audio.blocks.5.attn.value.lora.B_specific
+training param: model.audio.blocks.5.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.5.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.5.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.5.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.5.attn.query.base.weight
+freezing param: model.audio.blocks.5.attn.query.base.bias
+training param: model.audio.blocks.5.attn.query.lora.A
+training param: model.audio.blocks.5.attn.query.lora.B_shared
+training param: model.audio.blocks.5.attn.query.lora.B_specific
+training param: model.audio.blocks.5.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.5.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.5.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.5.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.5.attn.out.base.weight
+freezing param: model.audio.blocks.5.attn.out.base.bias
+training param: model.audio.blocks.5.attn.out.lora.A
+training param: model.audio.blocks.5.attn.out.lora.B_shared
+training param: model.audio.blocks.5.attn.out.lora.B_specific
+training param: model.audio.blocks.5.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.5.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.5.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.5.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.5.attn_ln.weight
+freezing param: model.audio.blocks.5.attn_ln.bias
+freezing param: model.audio.blocks.5.mlp.0.base.weight
+freezing param: model.audio.blocks.5.mlp.0.base.bias
+training param: model.audio.blocks.5.mlp.0.lora.A
+training param: model.audio.blocks.5.mlp.0.lora.B_shared
+training param: model.audio.blocks.5.mlp.0.lora.B_specific
+training param: model.audio.blocks.5.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.5.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.5.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.5.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.5.mlp.2.base.weight
+freezing param: model.audio.blocks.5.mlp.2.base.bias
+training param: model.audio.blocks.5.mlp.2.lora.A
+training param: model.audio.blocks.5.mlp.2.lora.B_shared
+training param: model.audio.blocks.5.mlp.2.lora.B_specific
+training param: model.audio.blocks.5.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.5.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.5.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.5.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.5.mlp_ln.weight
+freezing param: model.audio.blocks.5.mlp_ln.bias
+freezing param: model.audio.blocks.6.attn.key.base.weight
+training param: model.audio.blocks.6.attn.key.lora.A
+training param: model.audio.blocks.6.attn.key.lora.B_shared
+training param: model.audio.blocks.6.attn.key.lora.B_specific
+training param: model.audio.blocks.6.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.6.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.6.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.6.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.6.attn.value.base.weight
+freezing param: model.audio.blocks.6.attn.value.base.bias
+training param: model.audio.blocks.6.attn.value.lora.A
+training param: model.audio.blocks.6.attn.value.lora.B_shared
+training param: model.audio.blocks.6.attn.value.lora.B_specific
+training param: model.audio.blocks.6.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.6.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.6.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.6.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.6.attn.query.base.weight
+freezing param: model.audio.blocks.6.attn.query.base.bias
+training param: model.audio.blocks.6.attn.query.lora.A
+training param: model.audio.blocks.6.attn.query.lora.B_shared
+training param: model.audio.blocks.6.attn.query.lora.B_specific
+training param: model.audio.blocks.6.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.6.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.6.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.6.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.6.attn.out.base.weight
+freezing param: model.audio.blocks.6.attn.out.base.bias
+training param: model.audio.blocks.6.attn.out.lora.A
+training param: model.audio.blocks.6.attn.out.lora.B_shared
+training param: model.audio.blocks.6.attn.out.lora.B_specific
+training param: model.audio.blocks.6.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.6.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.6.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.6.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.6.attn_ln.weight
+freezing param: model.audio.blocks.6.attn_ln.bias
+freezing param: model.audio.blocks.6.mlp.0.base.weight
+freezing param: model.audio.blocks.6.mlp.0.base.bias
+training param: model.audio.blocks.6.mlp.0.lora.A
+training param: model.audio.blocks.6.mlp.0.lora.B_shared
+training param: model.audio.blocks.6.mlp.0.lora.B_specific
+training param: model.audio.blocks.6.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.6.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.6.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.6.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.6.mlp.2.base.weight
+freezing param: model.audio.blocks.6.mlp.2.base.bias
+training param: model.audio.blocks.6.mlp.2.lora.A
+training param: model.audio.blocks.6.mlp.2.lora.B_shared
+training param: model.audio.blocks.6.mlp.2.lora.B_specific
+training param: model.audio.blocks.6.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.6.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.6.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.6.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.6.mlp_ln.weight
+freezing param: model.audio.blocks.6.mlp_ln.bias
+freezing param: model.audio.blocks.7.attn.key.base.weight
+training param: model.audio.blocks.7.attn.key.lora.A
+training param: model.audio.blocks.7.attn.key.lora.B_shared
+training param: model.audio.blocks.7.attn.key.lora.B_specific
+training param: model.audio.blocks.7.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.7.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.7.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.7.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.7.attn.value.base.weight
+freezing param: model.audio.blocks.7.attn.value.base.bias
+training param: model.audio.blocks.7.attn.value.lora.A
+training param: model.audio.blocks.7.attn.value.lora.B_shared
+training param: model.audio.blocks.7.attn.value.lora.B_specific
+training param: model.audio.blocks.7.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.7.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.7.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.7.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.7.attn.query.base.weight
+freezing param: model.audio.blocks.7.attn.query.base.bias
+training param: model.audio.blocks.7.attn.query.lora.A
+training param: model.audio.blocks.7.attn.query.lora.B_shared
+training param: model.audio.blocks.7.attn.query.lora.B_specific
+training param: model.audio.blocks.7.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.7.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.7.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.7.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.7.attn.out.base.weight
+freezing param: model.audio.blocks.7.attn.out.base.bias
+training param: model.audio.blocks.7.attn.out.lora.A
+training param: model.audio.blocks.7.attn.out.lora.B_shared
+training param: model.audio.blocks.7.attn.out.lora.B_specific
+training param: model.audio.blocks.7.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.7.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.7.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.7.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.7.attn_ln.weight
+freezing param: model.audio.blocks.7.attn_ln.bias
+freezing param: model.audio.blocks.7.mlp.0.base.weight
+freezing param: model.audio.blocks.7.mlp.0.base.bias
+training param: model.audio.blocks.7.mlp.0.lora.A
+training param: model.audio.blocks.7.mlp.0.lora.B_shared
+training param: model.audio.blocks.7.mlp.0.lora.B_specific
+training param: model.audio.blocks.7.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.7.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.7.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.7.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.7.mlp.2.base.weight
+freezing param: model.audio.blocks.7.mlp.2.base.bias
+training param: model.audio.blocks.7.mlp.2.lora.A
+training param: model.audio.blocks.7.mlp.2.lora.B_shared
+training param: model.audio.blocks.7.mlp.2.lora.B_specific
+training param: model.audio.blocks.7.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.7.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.7.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.7.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.7.mlp_ln.weight
+freezing param: model.audio.blocks.7.mlp_ln.bias
+freezing param: model.audio.blocks.8.attn.key.base.weight
+training param: model.audio.blocks.8.attn.key.lora.A
+training param: model.audio.blocks.8.attn.key.lora.B_shared
+training param: model.audio.blocks.8.attn.key.lora.B_specific
+training param: model.audio.blocks.8.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.8.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.8.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.8.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.8.attn.value.base.weight
+freezing param: model.audio.blocks.8.attn.value.base.bias
+training param: model.audio.blocks.8.attn.value.lora.A
+training param: model.audio.blocks.8.attn.value.lora.B_shared
+training param: model.audio.blocks.8.attn.value.lora.B_specific
+training param: model.audio.blocks.8.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.8.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.8.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.8.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.8.attn.query.base.weight
+freezing param: model.audio.blocks.8.attn.query.base.bias
+training param: model.audio.blocks.8.attn.query.lora.A
+training param: model.audio.blocks.8.attn.query.lora.B_shared
+training param: model.audio.blocks.8.attn.query.lora.B_specific
+training param: model.audio.blocks.8.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.8.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.8.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.8.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.8.attn.out.base.weight
+freezing param: model.audio.blocks.8.attn.out.base.bias
+training param: model.audio.blocks.8.attn.out.lora.A
+training param: model.audio.blocks.8.attn.out.lora.B_shared
+training param: model.audio.blocks.8.attn.out.lora.B_specific
+training param: model.audio.blocks.8.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.8.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.8.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.8.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.8.attn_ln.weight
+freezing param: model.audio.blocks.8.attn_ln.bias
+freezing param: model.audio.blocks.8.mlp.0.base.weight
+freezing param: model.audio.blocks.8.mlp.0.base.bias
+training param: model.audio.blocks.8.mlp.0.lora.A
+training param: model.audio.blocks.8.mlp.0.lora.B_shared
+training param: model.audio.blocks.8.mlp.0.lora.B_specific
+training param: model.audio.blocks.8.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.8.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.8.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.8.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.8.mlp.2.base.weight
+freezing param: model.audio.blocks.8.mlp.2.base.bias
+training param: model.audio.blocks.8.mlp.2.lora.A
+training param: model.audio.blocks.8.mlp.2.lora.B_shared
+training param: model.audio.blocks.8.mlp.2.lora.B_specific
+training param: model.audio.blocks.8.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.8.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.8.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.8.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.8.mlp_ln.weight
+freezing param: model.audio.blocks.8.mlp_ln.bias
+freezing param: model.audio.blocks.9.attn.key.base.weight
+training param: model.audio.blocks.9.attn.key.lora.A
+training param: model.audio.blocks.9.attn.key.lora.B_shared
+training param: model.audio.blocks.9.attn.key.lora.B_specific
+training param: model.audio.blocks.9.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.9.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.9.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.9.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.9.attn.value.base.weight
+freezing param: model.audio.blocks.9.attn.value.base.bias
+training param: model.audio.blocks.9.attn.value.lora.A
+training param: model.audio.blocks.9.attn.value.lora.B_shared
+training param: model.audio.blocks.9.attn.value.lora.B_specific
+training param: model.audio.blocks.9.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.9.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.9.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.9.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.9.attn.query.base.weight
+freezing param: model.audio.blocks.9.attn.query.base.bias
+training param: model.audio.blocks.9.attn.query.lora.A
+training param: model.audio.blocks.9.attn.query.lora.B_shared
+training param: model.audio.blocks.9.attn.query.lora.B_specific
+training param: model.audio.blocks.9.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.9.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.9.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.9.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.9.attn.out.base.weight
+freezing param: model.audio.blocks.9.attn.out.base.bias
+training param: model.audio.blocks.9.attn.out.lora.A
+training param: model.audio.blocks.9.attn.out.lora.B_shared
+training param: model.audio.blocks.9.attn.out.lora.B_specific
+training param: model.audio.blocks.9.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.9.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.9.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.9.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.9.attn_ln.weight
+freezing param: model.audio.blocks.9.attn_ln.bias
+freezing param: model.audio.blocks.9.mlp.0.base.weight
+freezing param: model.audio.blocks.9.mlp.0.base.bias
+training param: model.audio.blocks.9.mlp.0.lora.A
+training param: model.audio.blocks.9.mlp.0.lora.B_shared
+training param: model.audio.blocks.9.mlp.0.lora.B_specific
+training param: model.audio.blocks.9.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.9.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.9.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.9.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.9.mlp.2.base.weight
+freezing param: model.audio.blocks.9.mlp.2.base.bias
+training param: model.audio.blocks.9.mlp.2.lora.A
+training param: model.audio.blocks.9.mlp.2.lora.B_shared
+training param: model.audio.blocks.9.mlp.2.lora.B_specific
+training param: model.audio.blocks.9.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.9.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.9.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.9.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.9.mlp_ln.weight
+freezing param: model.audio.blocks.9.mlp_ln.bias
+freezing param: model.audio.blocks.10.attn.key.base.weight
+training param: model.audio.blocks.10.attn.key.lora.A
+training param: model.audio.blocks.10.attn.key.lora.B_shared
+training param: model.audio.blocks.10.attn.key.lora.B_specific
+training param: model.audio.blocks.10.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.10.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.10.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.10.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.10.attn.value.base.weight
+freezing param: model.audio.blocks.10.attn.value.base.bias
+training param: model.audio.blocks.10.attn.value.lora.A
+training param: model.audio.blocks.10.attn.value.lora.B_shared
+training param: model.audio.blocks.10.attn.value.lora.B_specific
+training param: model.audio.blocks.10.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.10.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.10.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.10.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.10.attn.query.base.weight
+freezing param: model.audio.blocks.10.attn.query.base.bias
+training param: model.audio.blocks.10.attn.query.lora.A
+training param: model.audio.blocks.10.attn.query.lora.B_shared
+training param: model.audio.blocks.10.attn.query.lora.B_specific
+training param: model.audio.blocks.10.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.10.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.10.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.10.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.10.attn.out.base.weight
+freezing param: model.audio.blocks.10.attn.out.base.bias
+training param: model.audio.blocks.10.attn.out.lora.A
+training param: model.audio.blocks.10.attn.out.lora.B_shared
+training param: model.audio.blocks.10.attn.out.lora.B_specific
+training param: model.audio.blocks.10.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.10.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.10.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.10.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.10.attn_ln.weight
+freezing param: model.audio.blocks.10.attn_ln.bias
+freezing param: model.audio.blocks.10.mlp.0.base.weight
+freezing param: model.audio.blocks.10.mlp.0.base.bias
+training param: model.audio.blocks.10.mlp.0.lora.A
+training param: model.audio.blocks.10.mlp.0.lora.B_shared
+training param: model.audio.blocks.10.mlp.0.lora.B_specific
+training param: model.audio.blocks.10.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.10.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.10.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.10.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.10.mlp.2.base.weight
+freezing param: model.audio.blocks.10.mlp.2.base.bias
+training param: model.audio.blocks.10.mlp.2.lora.A
+training param: model.audio.blocks.10.mlp.2.lora.B_shared
+training param: model.audio.blocks.10.mlp.2.lora.B_specific
+training param: model.audio.blocks.10.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.10.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.10.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.10.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.10.mlp_ln.weight
+freezing param: model.audio.blocks.10.mlp_ln.bias
+freezing param: model.audio.blocks.11.attn.key.base.weight
+training param: model.audio.blocks.11.attn.key.lora.A
+training param: model.audio.blocks.11.attn.key.lora.B_shared
+training param: model.audio.blocks.11.attn.key.lora.B_specific
+training param: model.audio.blocks.11.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.11.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.11.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.11.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.11.attn.value.base.weight
+freezing param: model.audio.blocks.11.attn.value.base.bias
+training param: model.audio.blocks.11.attn.value.lora.A
+training param: model.audio.blocks.11.attn.value.lora.B_shared
+training param: model.audio.blocks.11.attn.value.lora.B_specific
+training param: model.audio.blocks.11.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.11.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.11.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.11.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.11.attn.query.base.weight
+freezing param: model.audio.blocks.11.attn.query.base.bias
+training param: model.audio.blocks.11.attn.query.lora.A
+training param: model.audio.blocks.11.attn.query.lora.B_shared
+training param: model.audio.blocks.11.attn.query.lora.B_specific
+training param: model.audio.blocks.11.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.11.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.11.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.11.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.11.attn.out.base.weight
+freezing param: model.audio.blocks.11.attn.out.base.bias
+training param: model.audio.blocks.11.attn.out.lora.A
+training param: model.audio.blocks.11.attn.out.lora.B_shared
+training param: model.audio.blocks.11.attn.out.lora.B_specific
+training param: model.audio.blocks.11.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.11.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.11.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.11.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.11.attn_ln.weight
+freezing param: model.audio.blocks.11.attn_ln.bias
+freezing param: model.audio.blocks.11.mlp.0.base.weight
+freezing param: model.audio.blocks.11.mlp.0.base.bias
+training param: model.audio.blocks.11.mlp.0.lora.A
+training param: model.audio.blocks.11.mlp.0.lora.B_shared
+training param: model.audio.blocks.11.mlp.0.lora.B_specific
+training param: model.audio.blocks.11.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.11.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.11.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.11.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.11.mlp.2.base.weight
+freezing param: model.audio.blocks.11.mlp.2.base.bias
+training param: model.audio.blocks.11.mlp.2.lora.A
+training param: model.audio.blocks.11.mlp.2.lora.B_shared
+training param: model.audio.blocks.11.mlp.2.lora.B_specific
+training param: model.audio.blocks.11.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.11.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.11.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.11.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.11.mlp_ln.weight
+freezing param: model.audio.blocks.11.mlp_ln.bias
+freezing param: model.audio.blocks.12.attn.key.base.weight
+training param: model.audio.blocks.12.attn.key.lora.A
+training param: model.audio.blocks.12.attn.key.lora.B_shared
+training param: model.audio.blocks.12.attn.key.lora.B_specific
+training param: model.audio.blocks.12.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.12.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.12.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.12.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.12.attn.value.base.weight
+freezing param: model.audio.blocks.12.attn.value.base.bias
+training param: model.audio.blocks.12.attn.value.lora.A
+training param: model.audio.blocks.12.attn.value.lora.B_shared
+training param: model.audio.blocks.12.attn.value.lora.B_specific
+training param: model.audio.blocks.12.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.12.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.12.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.12.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.12.attn.query.base.weight
+freezing param: model.audio.blocks.12.attn.query.base.bias
+training param: model.audio.blocks.12.attn.query.lora.A
+training param: model.audio.blocks.12.attn.query.lora.B_shared
+training param: model.audio.blocks.12.attn.query.lora.B_specific
+training param: model.audio.blocks.12.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.12.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.12.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.12.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.12.attn.out.base.weight
+freezing param: model.audio.blocks.12.attn.out.base.bias
+training param: model.audio.blocks.12.attn.out.lora.A
+training param: model.audio.blocks.12.attn.out.lora.B_shared
+training param: model.audio.blocks.12.attn.out.lora.B_specific
+training param: model.audio.blocks.12.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.12.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.12.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.12.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.12.attn_ln.weight
+freezing param: model.audio.blocks.12.attn_ln.bias
+freezing param: model.audio.blocks.12.mlp.0.base.weight
+freezing param: model.audio.blocks.12.mlp.0.base.bias
+training param: model.audio.blocks.12.mlp.0.lora.A
+training param: model.audio.blocks.12.mlp.0.lora.B_shared
+training param: model.audio.blocks.12.mlp.0.lora.B_specific
+training param: model.audio.blocks.12.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.12.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.12.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.12.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.12.mlp.2.base.weight
+freezing param: model.audio.blocks.12.mlp.2.base.bias
+training param: model.audio.blocks.12.mlp.2.lora.A
+training param: model.audio.blocks.12.mlp.2.lora.B_shared
+training param: model.audio.blocks.12.mlp.2.lora.B_specific
+training param: model.audio.blocks.12.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.12.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.12.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.12.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.12.mlp_ln.weight
+freezing param: model.audio.blocks.12.mlp_ln.bias
+freezing param: model.audio.blocks.13.attn.key.base.weight
+training param: model.audio.blocks.13.attn.key.lora.A
+training param: model.audio.blocks.13.attn.key.lora.B_shared
+training param: model.audio.blocks.13.attn.key.lora.B_specific
+training param: model.audio.blocks.13.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.13.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.13.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.13.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.13.attn.value.base.weight
+freezing param: model.audio.blocks.13.attn.value.base.bias
+training param: model.audio.blocks.13.attn.value.lora.A
+training param: model.audio.blocks.13.attn.value.lora.B_shared
+training param: model.audio.blocks.13.attn.value.lora.B_specific
+training param: model.audio.blocks.13.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.13.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.13.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.13.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.13.attn.query.base.weight
+freezing param: model.audio.blocks.13.attn.query.base.bias
+training param: model.audio.blocks.13.attn.query.lora.A
+training param: model.audio.blocks.13.attn.query.lora.B_shared
+training param: model.audio.blocks.13.attn.query.lora.B_specific
+training param: model.audio.blocks.13.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.13.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.13.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.13.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.13.attn.out.base.weight
+freezing param: model.audio.blocks.13.attn.out.base.bias
+training param: model.audio.blocks.13.attn.out.lora.A
+training param: model.audio.blocks.13.attn.out.lora.B_shared
+training param: model.audio.blocks.13.attn.out.lora.B_specific
+training param: model.audio.blocks.13.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.13.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.13.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.13.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.13.attn_ln.weight
+freezing param: model.audio.blocks.13.attn_ln.bias
+freezing param: model.audio.blocks.13.mlp.0.base.weight
+freezing param: model.audio.blocks.13.mlp.0.base.bias
+training param: model.audio.blocks.13.mlp.0.lora.A
+training param: model.audio.blocks.13.mlp.0.lora.B_shared
+training param: model.audio.blocks.13.mlp.0.lora.B_specific
+training param: model.audio.blocks.13.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.13.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.13.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.13.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.13.mlp.2.base.weight
+freezing param: model.audio.blocks.13.mlp.2.base.bias
+training param: model.audio.blocks.13.mlp.2.lora.A
+training param: model.audio.blocks.13.mlp.2.lora.B_shared
+training param: model.audio.blocks.13.mlp.2.lora.B_specific
+training param: model.audio.blocks.13.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.13.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.13.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.13.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.13.mlp_ln.weight
+freezing param: model.audio.blocks.13.mlp_ln.bias
+freezing param: model.audio.blocks.14.attn.key.base.weight
+training param: model.audio.blocks.14.attn.key.lora.A
+training param: model.audio.blocks.14.attn.key.lora.B_shared
+training param: model.audio.blocks.14.attn.key.lora.B_specific
+training param: model.audio.blocks.14.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.14.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.14.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.14.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.14.attn.value.base.weight
+freezing param: model.audio.blocks.14.attn.value.base.bias
+training param: model.audio.blocks.14.attn.value.lora.A
+training param: model.audio.blocks.14.attn.value.lora.B_shared
+training param: model.audio.blocks.14.attn.value.lora.B_specific
+training param: model.audio.blocks.14.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.14.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.14.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.14.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.14.attn.query.base.weight
+freezing param: model.audio.blocks.14.attn.query.base.bias
+training param: model.audio.blocks.14.attn.query.lora.A
+training param: model.audio.blocks.14.attn.query.lora.B_shared
+training param: model.audio.blocks.14.attn.query.lora.B_specific
+training param: model.audio.blocks.14.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.14.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.14.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.14.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.14.attn.out.base.weight
+freezing param: model.audio.blocks.14.attn.out.base.bias
+training param: model.audio.blocks.14.attn.out.lora.A
+training param: model.audio.blocks.14.attn.out.lora.B_shared
+training param: model.audio.blocks.14.attn.out.lora.B_specific
+training param: model.audio.blocks.14.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.14.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.14.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.14.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.14.attn_ln.weight
+freezing param: model.audio.blocks.14.attn_ln.bias
+freezing param: model.audio.blocks.14.mlp.0.base.weight
+freezing param: model.audio.blocks.14.mlp.0.base.bias
+training param: model.audio.blocks.14.mlp.0.lora.A
+training param: model.audio.blocks.14.mlp.0.lora.B_shared
+training param: model.audio.blocks.14.mlp.0.lora.B_specific
+training param: model.audio.blocks.14.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.14.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.14.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.14.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.14.mlp.2.base.weight
+freezing param: model.audio.blocks.14.mlp.2.base.bias
+training param: model.audio.blocks.14.mlp.2.lora.A
+training param: model.audio.blocks.14.mlp.2.lora.B_shared
+training param: model.audio.blocks.14.mlp.2.lora.B_specific
+training param: model.audio.blocks.14.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.14.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.14.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.14.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.14.mlp_ln.weight
+freezing param: model.audio.blocks.14.mlp_ln.bias
+freezing param: model.audio.blocks.15.attn.key.base.weight
+training param: model.audio.blocks.15.attn.key.lora.A
+training param: model.audio.blocks.15.attn.key.lora.B_shared
+training param: model.audio.blocks.15.attn.key.lora.B_specific
+training param: model.audio.blocks.15.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.15.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.15.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.15.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.15.attn.value.base.weight
+freezing param: model.audio.blocks.15.attn.value.base.bias
+training param: model.audio.blocks.15.attn.value.lora.A
+training param: model.audio.blocks.15.attn.value.lora.B_shared
+training param: model.audio.blocks.15.attn.value.lora.B_specific
+training param: model.audio.blocks.15.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.15.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.15.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.15.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.15.attn.query.base.weight
+freezing param: model.audio.blocks.15.attn.query.base.bias
+training param: model.audio.blocks.15.attn.query.lora.A
+training param: model.audio.blocks.15.attn.query.lora.B_shared
+training param: model.audio.blocks.15.attn.query.lora.B_specific
+training param: model.audio.blocks.15.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.15.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.15.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.15.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.15.attn.out.base.weight
+freezing param: model.audio.blocks.15.attn.out.base.bias
+training param: model.audio.blocks.15.attn.out.lora.A
+training param: model.audio.blocks.15.attn.out.lora.B_shared
+training param: model.audio.blocks.15.attn.out.lora.B_specific
+training param: model.audio.blocks.15.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.15.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.15.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.15.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.15.attn_ln.weight
+freezing param: model.audio.blocks.15.attn_ln.bias
+freezing param: model.audio.blocks.15.mlp.0.base.weight
+freezing param: model.audio.blocks.15.mlp.0.base.bias
+training param: model.audio.blocks.15.mlp.0.lora.A
+training param: model.audio.blocks.15.mlp.0.lora.B_shared
+training param: model.audio.blocks.15.mlp.0.lora.B_specific
+training param: model.audio.blocks.15.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.15.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.15.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.15.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.15.mlp.2.base.weight
+freezing param: model.audio.blocks.15.mlp.2.base.bias
+training param: model.audio.blocks.15.mlp.2.lora.A
+training param: model.audio.blocks.15.mlp.2.lora.B_shared
+training param: model.audio.blocks.15.mlp.2.lora.B_specific
+training param: model.audio.blocks.15.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.15.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.15.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.15.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.15.mlp_ln.weight
+freezing param: model.audio.blocks.15.mlp_ln.bias
+freezing param: model.audio.blocks.16.attn.key.base.weight
+training param: model.audio.blocks.16.attn.key.lora.A
+training param: model.audio.blocks.16.attn.key.lora.B_shared
+training param: model.audio.blocks.16.attn.key.lora.B_specific
+training param: model.audio.blocks.16.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.16.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.16.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.16.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.16.attn.value.base.weight
+freezing param: model.audio.blocks.16.attn.value.base.bias
+training param: model.audio.blocks.16.attn.value.lora.A
+training param: model.audio.blocks.16.attn.value.lora.B_shared
+training param: model.audio.blocks.16.attn.value.lora.B_specific
+training param: model.audio.blocks.16.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.16.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.16.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.16.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.16.attn.query.base.weight
+freezing param: model.audio.blocks.16.attn.query.base.bias
+training param: model.audio.blocks.16.attn.query.lora.A
+training param: model.audio.blocks.16.attn.query.lora.B_shared
+training param: model.audio.blocks.16.attn.query.lora.B_specific
+training param: model.audio.blocks.16.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.16.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.16.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.16.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.16.attn.out.base.weight
+freezing param: model.audio.blocks.16.attn.out.base.bias
+training param: model.audio.blocks.16.attn.out.lora.A
+training param: model.audio.blocks.16.attn.out.lora.B_shared
+training param: model.audio.blocks.16.attn.out.lora.B_specific
+training param: model.audio.blocks.16.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.16.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.16.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.16.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.16.attn_ln.weight
+freezing param: model.audio.blocks.16.attn_ln.bias
+freezing param: model.audio.blocks.16.mlp.0.base.weight
+freezing param: model.audio.blocks.16.mlp.0.base.bias
+training param: model.audio.blocks.16.mlp.0.lora.A
+training param: model.audio.blocks.16.mlp.0.lora.B_shared
+training param: model.audio.blocks.16.mlp.0.lora.B_specific
+training param: model.audio.blocks.16.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.16.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.16.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.16.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.16.mlp.2.base.weight
+freezing param: model.audio.blocks.16.mlp.2.base.bias
+training param: model.audio.blocks.16.mlp.2.lora.A
+training param: model.audio.blocks.16.mlp.2.lora.B_shared
+training param: model.audio.blocks.16.mlp.2.lora.B_specific
+training param: model.audio.blocks.16.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.16.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.16.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.16.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.16.mlp_ln.weight
+freezing param: model.audio.blocks.16.mlp_ln.bias
+freezing param: model.audio.blocks.17.attn.key.base.weight
+training param: model.audio.blocks.17.attn.key.lora.A
+training param: model.audio.blocks.17.attn.key.lora.B_shared
+training param: model.audio.blocks.17.attn.key.lora.B_specific
+training param: model.audio.blocks.17.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.17.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.17.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.17.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.17.attn.value.base.weight
+freezing param: model.audio.blocks.17.attn.value.base.bias
+training param: model.audio.blocks.17.attn.value.lora.A
+training param: model.audio.blocks.17.attn.value.lora.B_shared
+training param: model.audio.blocks.17.attn.value.lora.B_specific
+training param: model.audio.blocks.17.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.17.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.17.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.17.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.17.attn.query.base.weight
+freezing param: model.audio.blocks.17.attn.query.base.bias
+training param: model.audio.blocks.17.attn.query.lora.A
+training param: model.audio.blocks.17.attn.query.lora.B_shared
+training param: model.audio.blocks.17.attn.query.lora.B_specific
+training param: model.audio.blocks.17.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.17.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.17.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.17.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.17.attn.out.base.weight
+freezing param: model.audio.blocks.17.attn.out.base.bias
+training param: model.audio.blocks.17.attn.out.lora.A
+training param: model.audio.blocks.17.attn.out.lora.B_shared
+training param: model.audio.blocks.17.attn.out.lora.B_specific
+training param: model.audio.blocks.17.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.17.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.17.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.17.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.17.attn_ln.weight
+freezing param: model.audio.blocks.17.attn_ln.bias
+freezing param: model.audio.blocks.17.mlp.0.base.weight
+freezing param: model.audio.blocks.17.mlp.0.base.bias
+training param: model.audio.blocks.17.mlp.0.lora.A
+training param: model.audio.blocks.17.mlp.0.lora.B_shared
+training param: model.audio.blocks.17.mlp.0.lora.B_specific
+training param: model.audio.blocks.17.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.17.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.17.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.17.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.17.mlp.2.base.weight
+freezing param: model.audio.blocks.17.mlp.2.base.bias
+training param: model.audio.blocks.17.mlp.2.lora.A
+training param: model.audio.blocks.17.mlp.2.lora.B_shared
+training param: model.audio.blocks.17.mlp.2.lora.B_specific
+training param: model.audio.blocks.17.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.17.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.17.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.17.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.17.mlp_ln.weight
+freezing param: model.audio.blocks.17.mlp_ln.bias
+freezing param: model.audio.blocks.18.attn.key.base.weight
+training param: model.audio.blocks.18.attn.key.lora.A
+training param: model.audio.blocks.18.attn.key.lora.B_shared
+training param: model.audio.blocks.18.attn.key.lora.B_specific
+training param: model.audio.blocks.18.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.18.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.18.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.18.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.18.attn.value.base.weight
+freezing param: model.audio.blocks.18.attn.value.base.bias
+training param: model.audio.blocks.18.attn.value.lora.A
+training param: model.audio.blocks.18.attn.value.lora.B_shared
+training param: model.audio.blocks.18.attn.value.lora.B_specific
+training param: model.audio.blocks.18.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.18.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.18.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.18.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.18.attn.query.base.weight
+freezing param: model.audio.blocks.18.attn.query.base.bias
+training param: model.audio.blocks.18.attn.query.lora.A
+training param: model.audio.blocks.18.attn.query.lora.B_shared
+training param: model.audio.blocks.18.attn.query.lora.B_specific
+training param: model.audio.blocks.18.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.18.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.18.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.18.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.18.attn.out.base.weight
+freezing param: model.audio.blocks.18.attn.out.base.bias
+training param: model.audio.blocks.18.attn.out.lora.A
+training param: model.audio.blocks.18.attn.out.lora.B_shared
+training param: model.audio.blocks.18.attn.out.lora.B_specific
+training param: model.audio.blocks.18.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.18.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.18.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.18.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.18.attn_ln.weight
+freezing param: model.audio.blocks.18.attn_ln.bias
+freezing param: model.audio.blocks.18.mlp.0.base.weight
+freezing param: model.audio.blocks.18.mlp.0.base.bias
+training param: model.audio.blocks.18.mlp.0.lora.A
+training param: model.audio.blocks.18.mlp.0.lora.B_shared
+training param: model.audio.blocks.18.mlp.0.lora.B_specific
+training param: model.audio.blocks.18.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.18.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.18.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.18.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.18.mlp.2.base.weight
+freezing param: model.audio.blocks.18.mlp.2.base.bias
+training param: model.audio.blocks.18.mlp.2.lora.A
+training param: model.audio.blocks.18.mlp.2.lora.B_shared
+training param: model.audio.blocks.18.mlp.2.lora.B_specific
+training param: model.audio.blocks.18.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.18.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.18.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.18.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.18.mlp_ln.weight
+freezing param: model.audio.blocks.18.mlp_ln.bias
+freezing param: model.audio.blocks.19.attn.key.base.weight
+training param: model.audio.blocks.19.attn.key.lora.A
+training param: model.audio.blocks.19.attn.key.lora.B_shared
+training param: model.audio.blocks.19.attn.key.lora.B_specific
+training param: model.audio.blocks.19.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.19.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.19.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.19.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.19.attn.value.base.weight
+freezing param: model.audio.blocks.19.attn.value.base.bias
+training param: model.audio.blocks.19.attn.value.lora.A
+training param: model.audio.blocks.19.attn.value.lora.B_shared
+training param: model.audio.blocks.19.attn.value.lora.B_specific
+training param: model.audio.blocks.19.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.19.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.19.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.19.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.19.attn.query.base.weight
+freezing param: model.audio.blocks.19.attn.query.base.bias
+training param: model.audio.blocks.19.attn.query.lora.A
+training param: model.audio.blocks.19.attn.query.lora.B_shared
+training param: model.audio.blocks.19.attn.query.lora.B_specific
+training param: model.audio.blocks.19.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.19.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.19.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.19.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.19.attn.out.base.weight
+freezing param: model.audio.blocks.19.attn.out.base.bias
+training param: model.audio.blocks.19.attn.out.lora.A
+training param: model.audio.blocks.19.attn.out.lora.B_shared
+training param: model.audio.blocks.19.attn.out.lora.B_specific
+training param: model.audio.blocks.19.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.19.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.19.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.19.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.19.attn_ln.weight
+freezing param: model.audio.blocks.19.attn_ln.bias
+freezing param: model.audio.blocks.19.mlp.0.base.weight
+freezing param: model.audio.blocks.19.mlp.0.base.bias
+training param: model.audio.blocks.19.mlp.0.lora.A
+training param: model.audio.blocks.19.mlp.0.lora.B_shared
+training param: model.audio.blocks.19.mlp.0.lora.B_specific
+training param: model.audio.blocks.19.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.19.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.19.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.19.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.19.mlp.2.base.weight
+freezing param: model.audio.blocks.19.mlp.2.base.bias
+training param: model.audio.blocks.19.mlp.2.lora.A
+training param: model.audio.blocks.19.mlp.2.lora.B_shared
+training param: model.audio.blocks.19.mlp.2.lora.B_specific
+training param: model.audio.blocks.19.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.19.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.19.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.19.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.19.mlp_ln.weight
+freezing param: model.audio.blocks.19.mlp_ln.bias
+freezing param: model.audio.blocks.20.attn.key.base.weight
+training param: model.audio.blocks.20.attn.key.lora.A
+training param: model.audio.blocks.20.attn.key.lora.B_shared
+training param: model.audio.blocks.20.attn.key.lora.B_specific
+training param: model.audio.blocks.20.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.20.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.20.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.20.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.20.attn.value.base.weight
+freezing param: model.audio.blocks.20.attn.value.base.bias
+training param: model.audio.blocks.20.attn.value.lora.A
+training param: model.audio.blocks.20.attn.value.lora.B_shared
+training param: model.audio.blocks.20.attn.value.lora.B_specific
+training param: model.audio.blocks.20.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.20.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.20.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.20.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.20.attn.query.base.weight
+freezing param: model.audio.blocks.20.attn.query.base.bias
+training param: model.audio.blocks.20.attn.query.lora.A
+training param: model.audio.blocks.20.attn.query.lora.B_shared
+training param: model.audio.blocks.20.attn.query.lora.B_specific
+training param: model.audio.blocks.20.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.20.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.20.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.20.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.20.attn.out.base.weight
+freezing param: model.audio.blocks.20.attn.out.base.bias
+training param: model.audio.blocks.20.attn.out.lora.A
+training param: model.audio.blocks.20.attn.out.lora.B_shared
+training param: model.audio.blocks.20.attn.out.lora.B_specific
+training param: model.audio.blocks.20.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.20.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.20.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.20.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.20.attn_ln.weight
+freezing param: model.audio.blocks.20.attn_ln.bias
+freezing param: model.audio.blocks.20.mlp.0.base.weight
+freezing param: model.audio.blocks.20.mlp.0.base.bias
+training param: model.audio.blocks.20.mlp.0.lora.A
+training param: model.audio.blocks.20.mlp.0.lora.B_shared
+training param: model.audio.blocks.20.mlp.0.lora.B_specific
+training param: model.audio.blocks.20.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.20.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.20.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.20.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.20.mlp.2.base.weight
+freezing param: model.audio.blocks.20.mlp.2.base.bias
+training param: model.audio.blocks.20.mlp.2.lora.A
+training param: model.audio.blocks.20.mlp.2.lora.B_shared
+training param: model.audio.blocks.20.mlp.2.lora.B_specific
+training param: model.audio.blocks.20.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.20.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.20.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.20.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.20.mlp_ln.weight
+freezing param: model.audio.blocks.20.mlp_ln.bias
+freezing param: model.audio.blocks.21.attn.key.base.weight
+training param: model.audio.blocks.21.attn.key.lora.A
+training param: model.audio.blocks.21.attn.key.lora.B_shared
+training param: model.audio.blocks.21.attn.key.lora.B_specific
+training param: model.audio.blocks.21.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.21.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.21.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.21.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.21.attn.value.base.weight
+freezing param: model.audio.blocks.21.attn.value.base.bias
+training param: model.audio.blocks.21.attn.value.lora.A
+training param: model.audio.blocks.21.attn.value.lora.B_shared
+training param: model.audio.blocks.21.attn.value.lora.B_specific
+training param: model.audio.blocks.21.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.21.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.21.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.21.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.21.attn.query.base.weight
+freezing param: model.audio.blocks.21.attn.query.base.bias
+training param: model.audio.blocks.21.attn.query.lora.A
+training param: model.audio.blocks.21.attn.query.lora.B_shared
+training param: model.audio.blocks.21.attn.query.lora.B_specific
+training param: model.audio.blocks.21.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.21.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.21.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.21.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.21.attn.out.base.weight
+freezing param: model.audio.blocks.21.attn.out.base.bias
+training param: model.audio.blocks.21.attn.out.lora.A
+training param: model.audio.blocks.21.attn.out.lora.B_shared
+training param: model.audio.blocks.21.attn.out.lora.B_specific
+training param: model.audio.blocks.21.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.21.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.21.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.21.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.21.attn_ln.weight
+freezing param: model.audio.blocks.21.attn_ln.bias
+freezing param: model.audio.blocks.21.mlp.0.base.weight
+freezing param: model.audio.blocks.21.mlp.0.base.bias
+training param: model.audio.blocks.21.mlp.0.lora.A
+training param: model.audio.blocks.21.mlp.0.lora.B_shared
+training param: model.audio.blocks.21.mlp.0.lora.B_specific
+training param: model.audio.blocks.21.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.21.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.21.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.21.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.21.mlp.2.base.weight
+freezing param: model.audio.blocks.21.mlp.2.base.bias
+training param: model.audio.blocks.21.mlp.2.lora.A
+training param: model.audio.blocks.21.mlp.2.lora.B_shared
+training param: model.audio.blocks.21.mlp.2.lora.B_specific
+training param: model.audio.blocks.21.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.21.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.21.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.21.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.21.mlp_ln.weight
+freezing param: model.audio.blocks.21.mlp_ln.bias
+freezing param: model.audio.blocks.22.attn.key.base.weight
+training param: model.audio.blocks.22.attn.key.lora.A
+training param: model.audio.blocks.22.attn.key.lora.B_shared
+training param: model.audio.blocks.22.attn.key.lora.B_specific
+training param: model.audio.blocks.22.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.22.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.22.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.22.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.22.attn.value.base.weight
+freezing param: model.audio.blocks.22.attn.value.base.bias
+training param: model.audio.blocks.22.attn.value.lora.A
+training param: model.audio.blocks.22.attn.value.lora.B_shared
+training param: model.audio.blocks.22.attn.value.lora.B_specific
+training param: model.audio.blocks.22.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.22.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.22.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.22.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.22.attn.query.base.weight
+freezing param: model.audio.blocks.22.attn.query.base.bias
+training param: model.audio.blocks.22.attn.query.lora.A
+training param: model.audio.blocks.22.attn.query.lora.B_shared
+training param: model.audio.blocks.22.attn.query.lora.B_specific
+training param: model.audio.blocks.22.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.22.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.22.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.22.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.22.attn.out.base.weight
+freezing param: model.audio.blocks.22.attn.out.base.bias
+training param: model.audio.blocks.22.attn.out.lora.A
+training param: model.audio.blocks.22.attn.out.lora.B_shared
+training param: model.audio.blocks.22.attn.out.lora.B_specific
+training param: model.audio.blocks.22.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.22.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.22.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.22.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.22.attn_ln.weight
+freezing param: model.audio.blocks.22.attn_ln.bias
+freezing param: model.audio.blocks.22.mlp.0.base.weight
+freezing param: model.audio.blocks.22.mlp.0.base.bias
+training param: model.audio.blocks.22.mlp.0.lora.A
+training param: model.audio.blocks.22.mlp.0.lora.B_shared
+training param: model.audio.blocks.22.mlp.0.lora.B_specific
+training param: model.audio.blocks.22.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.22.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.22.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.22.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.22.mlp.2.base.weight
+freezing param: model.audio.blocks.22.mlp.2.base.bias
+training param: model.audio.blocks.22.mlp.2.lora.A
+training param: model.audio.blocks.22.mlp.2.lora.B_shared
+training param: model.audio.blocks.22.mlp.2.lora.B_specific
+training param: model.audio.blocks.22.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.22.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.22.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.22.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.22.mlp_ln.weight
+freezing param: model.audio.blocks.22.mlp_ln.bias
+freezing param: model.audio.blocks.23.attn.key.base.weight
+training param: model.audio.blocks.23.attn.key.lora.A
+training param: model.audio.blocks.23.attn.key.lora.B_shared
+training param: model.audio.blocks.23.attn.key.lora.B_specific
+training param: model.audio.blocks.23.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.23.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.23.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.23.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.23.attn.value.base.weight
+freezing param: model.audio.blocks.23.attn.value.base.bias
+training param: model.audio.blocks.23.attn.value.lora.A
+training param: model.audio.blocks.23.attn.value.lora.B_shared
+training param: model.audio.blocks.23.attn.value.lora.B_specific
+training param: model.audio.blocks.23.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.23.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.23.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.23.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.23.attn.query.base.weight
+freezing param: model.audio.blocks.23.attn.query.base.bias
+training param: model.audio.blocks.23.attn.query.lora.A
+training param: model.audio.blocks.23.attn.query.lora.B_shared
+training param: model.audio.blocks.23.attn.query.lora.B_specific
+training param: model.audio.blocks.23.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.23.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.23.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.23.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.23.attn.out.base.weight
+freezing param: model.audio.blocks.23.attn.out.base.bias
+training param: model.audio.blocks.23.attn.out.lora.A
+training param: model.audio.blocks.23.attn.out.lora.B_shared
+training param: model.audio.blocks.23.attn.out.lora.B_specific
+training param: model.audio.blocks.23.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.23.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.23.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.23.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.23.attn_ln.weight
+freezing param: model.audio.blocks.23.attn_ln.bias
+freezing param: model.audio.blocks.23.mlp.0.base.weight
+freezing param: model.audio.blocks.23.mlp.0.base.bias
+training param: model.audio.blocks.23.mlp.0.lora.A
+training param: model.audio.blocks.23.mlp.0.lora.B_shared
+training param: model.audio.blocks.23.mlp.0.lora.B_specific
+training param: model.audio.blocks.23.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.23.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.23.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.23.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.23.mlp.2.base.weight
+freezing param: model.audio.blocks.23.mlp.2.base.bias
+training param: model.audio.blocks.23.mlp.2.lora.A
+training param: model.audio.blocks.23.mlp.2.lora.B_shared
+training param: model.audio.blocks.23.mlp.2.lora.B_specific
+training param: model.audio.blocks.23.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.23.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.23.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.23.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.23.mlp_ln.weight
+freezing param: model.audio.blocks.23.mlp_ln.bias
+freezing param: model.audio.blocks.24.attn.key.base.weight
+training param: model.audio.blocks.24.attn.key.lora.A
+training param: model.audio.blocks.24.attn.key.lora.B_shared
+training param: model.audio.blocks.24.attn.key.lora.B_specific
+training param: model.audio.blocks.24.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.24.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.24.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.24.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.24.attn.value.base.weight
+freezing param: model.audio.blocks.24.attn.value.base.bias
+training param: model.audio.blocks.24.attn.value.lora.A
+training param: model.audio.blocks.24.attn.value.lora.B_shared
+training param: model.audio.blocks.24.attn.value.lora.B_specific
+training param: model.audio.blocks.24.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.24.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.24.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.24.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.24.attn.query.base.weight
+freezing param: model.audio.blocks.24.attn.query.base.bias
+training param: model.audio.blocks.24.attn.query.lora.A
+training param: model.audio.blocks.24.attn.query.lora.B_shared
+training param: model.audio.blocks.24.attn.query.lora.B_specific
+training param: model.audio.blocks.24.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.24.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.24.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.24.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.24.attn.out.base.weight
+freezing param: model.audio.blocks.24.attn.out.base.bias
+training param: model.audio.blocks.24.attn.out.lora.A
+training param: model.audio.blocks.24.attn.out.lora.B_shared
+training param: model.audio.blocks.24.attn.out.lora.B_specific
+training param: model.audio.blocks.24.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.24.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.24.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.24.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.24.attn_ln.weight
+freezing param: model.audio.blocks.24.attn_ln.bias
+freezing param: model.audio.blocks.24.mlp.0.base.weight
+freezing param: model.audio.blocks.24.mlp.0.base.bias
+training param: model.audio.blocks.24.mlp.0.lora.A
+training param: model.audio.blocks.24.mlp.0.lora.B_shared
+training param: model.audio.blocks.24.mlp.0.lora.B_specific
+training param: model.audio.blocks.24.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.24.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.24.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.24.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.24.mlp.2.base.weight
+freezing param: model.audio.blocks.24.mlp.2.base.bias
+training param: model.audio.blocks.24.mlp.2.lora.A
+training param: model.audio.blocks.24.mlp.2.lora.B_shared
+training param: model.audio.blocks.24.mlp.2.lora.B_specific
+training param: model.audio.blocks.24.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.24.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.24.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.24.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.24.mlp_ln.weight
+freezing param: model.audio.blocks.24.mlp_ln.bias
+freezing param: model.audio.blocks.25.attn.key.base.weight
+training param: model.audio.blocks.25.attn.key.lora.A
+training param: model.audio.blocks.25.attn.key.lora.B_shared
+training param: model.audio.blocks.25.attn.key.lora.B_specific
+training param: model.audio.blocks.25.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.25.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.25.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.25.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.25.attn.value.base.weight
+freezing param: model.audio.blocks.25.attn.value.base.bias
+training param: model.audio.blocks.25.attn.value.lora.A
+training param: model.audio.blocks.25.attn.value.lora.B_shared
+training param: model.audio.blocks.25.attn.value.lora.B_specific
+training param: model.audio.blocks.25.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.25.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.25.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.25.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.25.attn.query.base.weight
+freezing param: model.audio.blocks.25.attn.query.base.bias
+training param: model.audio.blocks.25.attn.query.lora.A
+training param: model.audio.blocks.25.attn.query.lora.B_shared
+training param: model.audio.blocks.25.attn.query.lora.B_specific
+training param: model.audio.blocks.25.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.25.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.25.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.25.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.25.attn.out.base.weight
+freezing param: model.audio.blocks.25.attn.out.base.bias
+training param: model.audio.blocks.25.attn.out.lora.A
+training param: model.audio.blocks.25.attn.out.lora.B_shared
+training param: model.audio.blocks.25.attn.out.lora.B_specific
+training param: model.audio.blocks.25.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.25.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.25.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.25.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.25.attn_ln.weight
+freezing param: model.audio.blocks.25.attn_ln.bias
+freezing param: model.audio.blocks.25.mlp.0.base.weight
+freezing param: model.audio.blocks.25.mlp.0.base.bias
+training param: model.audio.blocks.25.mlp.0.lora.A
+training param: model.audio.blocks.25.mlp.0.lora.B_shared
+training param: model.audio.blocks.25.mlp.0.lora.B_specific
+training param: model.audio.blocks.25.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.25.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.25.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.25.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.25.mlp.2.base.weight
+freezing param: model.audio.blocks.25.mlp.2.base.bias
+training param: model.audio.blocks.25.mlp.2.lora.A
+training param: model.audio.blocks.25.mlp.2.lora.B_shared
+training param: model.audio.blocks.25.mlp.2.lora.B_specific
+training param: model.audio.blocks.25.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.25.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.25.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.25.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.25.mlp_ln.weight
+freezing param: model.audio.blocks.25.mlp_ln.bias
+freezing param: model.audio.blocks.26.attn.key.base.weight
+training param: model.audio.blocks.26.attn.key.lora.A
+training param: model.audio.blocks.26.attn.key.lora.B_shared
+training param: model.audio.blocks.26.attn.key.lora.B_specific
+training param: model.audio.blocks.26.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.26.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.26.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.26.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.26.attn.value.base.weight
+freezing param: model.audio.blocks.26.attn.value.base.bias
+training param: model.audio.blocks.26.attn.value.lora.A
+training param: model.audio.blocks.26.attn.value.lora.B_shared
+training param: model.audio.blocks.26.attn.value.lora.B_specific
+training param: model.audio.blocks.26.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.26.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.26.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.26.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.26.attn.query.base.weight
+freezing param: model.audio.blocks.26.attn.query.base.bias
+training param: model.audio.blocks.26.attn.query.lora.A
+training param: model.audio.blocks.26.attn.query.lora.B_shared
+training param: model.audio.blocks.26.attn.query.lora.B_specific
+training param: model.audio.blocks.26.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.26.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.26.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.26.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.26.attn.out.base.weight
+freezing param: model.audio.blocks.26.attn.out.base.bias
+training param: model.audio.blocks.26.attn.out.lora.A
+training param: model.audio.blocks.26.attn.out.lora.B_shared
+training param: model.audio.blocks.26.attn.out.lora.B_specific
+training param: model.audio.blocks.26.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.26.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.26.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.26.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.26.attn_ln.weight
+freezing param: model.audio.blocks.26.attn_ln.bias
+freezing param: model.audio.blocks.26.mlp.0.base.weight
+freezing param: model.audio.blocks.26.mlp.0.base.bias
+training param: model.audio.blocks.26.mlp.0.lora.A
+training param: model.audio.blocks.26.mlp.0.lora.B_shared
+training param: model.audio.blocks.26.mlp.0.lora.B_specific
+training param: model.audio.blocks.26.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.26.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.26.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.26.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.26.mlp.2.base.weight
+freezing param: model.audio.blocks.26.mlp.2.base.bias
+training param: model.audio.blocks.26.mlp.2.lora.A
+training param: model.audio.blocks.26.mlp.2.lora.B_shared
+training param: model.audio.blocks.26.mlp.2.lora.B_specific
+training param: model.audio.blocks.26.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.26.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.26.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.26.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.26.mlp_ln.weight
+freezing param: model.audio.blocks.26.mlp_ln.bias
+freezing param: model.audio.blocks.27.attn.key.base.weight
+training param: model.audio.blocks.27.attn.key.lora.A
+training param: model.audio.blocks.27.attn.key.lora.B_shared
+training param: model.audio.blocks.27.attn.key.lora.B_specific
+training param: model.audio.blocks.27.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.27.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.27.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.27.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.27.attn.value.base.weight
+freezing param: model.audio.blocks.27.attn.value.base.bias
+training param: model.audio.blocks.27.attn.value.lora.A
+training param: model.audio.blocks.27.attn.value.lora.B_shared
+training param: model.audio.blocks.27.attn.value.lora.B_specific
+training param: model.audio.blocks.27.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.27.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.27.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.27.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.27.attn.query.base.weight
+freezing param: model.audio.blocks.27.attn.query.base.bias
+training param: model.audio.blocks.27.attn.query.lora.A
+training param: model.audio.blocks.27.attn.query.lora.B_shared
+training param: model.audio.blocks.27.attn.query.lora.B_specific
+training param: model.audio.blocks.27.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.27.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.27.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.27.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.27.attn.out.base.weight
+freezing param: model.audio.blocks.27.attn.out.base.bias
+training param: model.audio.blocks.27.attn.out.lora.A
+training param: model.audio.blocks.27.attn.out.lora.B_shared
+training param: model.audio.blocks.27.attn.out.lora.B_specific
+training param: model.audio.blocks.27.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.27.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.27.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.27.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.27.attn_ln.weight
+freezing param: model.audio.blocks.27.attn_ln.bias
+freezing param: model.audio.blocks.27.mlp.0.base.weight
+freezing param: model.audio.blocks.27.mlp.0.base.bias
+training param: model.audio.blocks.27.mlp.0.lora.A
+training param: model.audio.blocks.27.mlp.0.lora.B_shared
+training param: model.audio.blocks.27.mlp.0.lora.B_specific
+training param: model.audio.blocks.27.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.27.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.27.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.27.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.27.mlp.2.base.weight
+freezing param: model.audio.blocks.27.mlp.2.base.bias
+training param: model.audio.blocks.27.mlp.2.lora.A
+training param: model.audio.blocks.27.mlp.2.lora.B_shared
+training param: model.audio.blocks.27.mlp.2.lora.B_specific
+training param: model.audio.blocks.27.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.27.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.27.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.27.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.27.mlp_ln.weight
+freezing param: model.audio.blocks.27.mlp_ln.bias
+freezing param: model.audio.blocks.28.attn.key.base.weight
+training param: model.audio.blocks.28.attn.key.lora.A
+training param: model.audio.blocks.28.attn.key.lora.B_shared
+training param: model.audio.blocks.28.attn.key.lora.B_specific
+training param: model.audio.blocks.28.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.28.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.28.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.28.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.28.attn.value.base.weight
+freezing param: model.audio.blocks.28.attn.value.base.bias
+training param: model.audio.blocks.28.attn.value.lora.A
+training param: model.audio.blocks.28.attn.value.lora.B_shared
+training param: model.audio.blocks.28.attn.value.lora.B_specific
+training param: model.audio.blocks.28.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.28.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.28.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.28.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.28.attn.query.base.weight
+freezing param: model.audio.blocks.28.attn.query.base.bias
+training param: model.audio.blocks.28.attn.query.lora.A
+training param: model.audio.blocks.28.attn.query.lora.B_shared
+training param: model.audio.blocks.28.attn.query.lora.B_specific
+training param: model.audio.blocks.28.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.28.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.28.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.28.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.28.attn.out.base.weight
+freezing param: model.audio.blocks.28.attn.out.base.bias
+training param: model.audio.blocks.28.attn.out.lora.A
+training param: model.audio.blocks.28.attn.out.lora.B_shared
+training param: model.audio.blocks.28.attn.out.lora.B_specific
+training param: model.audio.blocks.28.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.28.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.28.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.28.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.28.attn_ln.weight
+freezing param: model.audio.blocks.28.attn_ln.bias
+freezing param: model.audio.blocks.28.mlp.0.base.weight
+freezing param: model.audio.blocks.28.mlp.0.base.bias
+training param: model.audio.blocks.28.mlp.0.lora.A
+training param: model.audio.blocks.28.mlp.0.lora.B_shared
+training param: model.audio.blocks.28.mlp.0.lora.B_specific
+training param: model.audio.blocks.28.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.28.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.28.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.28.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.28.mlp.2.base.weight
+freezing param: model.audio.blocks.28.mlp.2.base.bias
+training param: model.audio.blocks.28.mlp.2.lora.A
+training param: model.audio.blocks.28.mlp.2.lora.B_shared
+training param: model.audio.blocks.28.mlp.2.lora.B_specific
+training param: model.audio.blocks.28.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.28.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.28.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.28.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.28.mlp_ln.weight
+freezing param: model.audio.blocks.28.mlp_ln.bias
+freezing param: model.audio.blocks.29.attn.key.base.weight
+training param: model.audio.blocks.29.attn.key.lora.A
+training param: model.audio.blocks.29.attn.key.lora.B_shared
+training param: model.audio.blocks.29.attn.key.lora.B_specific
+training param: model.audio.blocks.29.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.29.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.29.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.29.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.29.attn.value.base.weight
+freezing param: model.audio.blocks.29.attn.value.base.bias
+training param: model.audio.blocks.29.attn.value.lora.A
+training param: model.audio.blocks.29.attn.value.lora.B_shared
+training param: model.audio.blocks.29.attn.value.lora.B_specific
+training param: model.audio.blocks.29.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.29.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.29.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.29.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.29.attn.query.base.weight
+freezing param: model.audio.blocks.29.attn.query.base.bias
+training param: model.audio.blocks.29.attn.query.lora.A
+training param: model.audio.blocks.29.attn.query.lora.B_shared
+training param: model.audio.blocks.29.attn.query.lora.B_specific
+training param: model.audio.blocks.29.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.29.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.29.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.29.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.29.attn.out.base.weight
+freezing param: model.audio.blocks.29.attn.out.base.bias
+training param: model.audio.blocks.29.attn.out.lora.A
+training param: model.audio.blocks.29.attn.out.lora.B_shared
+training param: model.audio.blocks.29.attn.out.lora.B_specific
+training param: model.audio.blocks.29.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.29.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.29.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.29.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.29.attn_ln.weight
+freezing param: model.audio.blocks.29.attn_ln.bias
+freezing param: model.audio.blocks.29.mlp.0.base.weight
+freezing param: model.audio.blocks.29.mlp.0.base.bias
+training param: model.audio.blocks.29.mlp.0.lora.A
+training param: model.audio.blocks.29.mlp.0.lora.B_shared
+training param: model.audio.blocks.29.mlp.0.lora.B_specific
+training param: model.audio.blocks.29.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.29.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.29.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.29.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.29.mlp.2.base.weight
+freezing param: model.audio.blocks.29.mlp.2.base.bias
+training param: model.audio.blocks.29.mlp.2.lora.A
+training param: model.audio.blocks.29.mlp.2.lora.B_shared
+training param: model.audio.blocks.29.mlp.2.lora.B_specific
+training param: model.audio.blocks.29.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.29.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.29.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.29.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.29.mlp_ln.weight
+freezing param: model.audio.blocks.29.mlp_ln.bias
+freezing param: model.audio.blocks.30.attn.key.base.weight
+training param: model.audio.blocks.30.attn.key.lora.A
+training param: model.audio.blocks.30.attn.key.lora.B_shared
+training param: model.audio.blocks.30.attn.key.lora.B_specific
+training param: model.audio.blocks.30.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.30.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.30.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.30.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.30.attn.value.base.weight
+freezing param: model.audio.blocks.30.attn.value.base.bias
+training param: model.audio.blocks.30.attn.value.lora.A
+training param: model.audio.blocks.30.attn.value.lora.B_shared
+training param: model.audio.blocks.30.attn.value.lora.B_specific
+training param: model.audio.blocks.30.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.30.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.30.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.30.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.30.attn.query.base.weight
+freezing param: model.audio.blocks.30.attn.query.base.bias
+training param: model.audio.blocks.30.attn.query.lora.A
+training param: model.audio.blocks.30.attn.query.lora.B_shared
+training param: model.audio.blocks.30.attn.query.lora.B_specific
+training param: model.audio.blocks.30.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.30.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.30.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.30.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.30.attn.out.base.weight
+freezing param: model.audio.blocks.30.attn.out.base.bias
+training param: model.audio.blocks.30.attn.out.lora.A
+training param: model.audio.blocks.30.attn.out.lora.B_shared
+training param: model.audio.blocks.30.attn.out.lora.B_specific
+training param: model.audio.blocks.30.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.30.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.30.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.30.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.30.attn_ln.weight
+freezing param: model.audio.blocks.30.attn_ln.bias
+freezing param: model.audio.blocks.30.mlp.0.base.weight
+freezing param: model.audio.blocks.30.mlp.0.base.bias
+training param: model.audio.blocks.30.mlp.0.lora.A
+training param: model.audio.blocks.30.mlp.0.lora.B_shared
+training param: model.audio.blocks.30.mlp.0.lora.B_specific
+training param: model.audio.blocks.30.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.30.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.30.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.30.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.30.mlp.2.base.weight
+freezing param: model.audio.blocks.30.mlp.2.base.bias
+training param: model.audio.blocks.30.mlp.2.lora.A
+training param: model.audio.blocks.30.mlp.2.lora.B_shared
+training param: model.audio.blocks.30.mlp.2.lora.B_specific
+training param: model.audio.blocks.30.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.30.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.30.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.30.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.30.mlp_ln.weight
+freezing param: model.audio.blocks.30.mlp_ln.bias
+freezing param: model.audio.blocks.31.attn.key.base.weight
+training param: model.audio.blocks.31.attn.key.lora.A
+training param: model.audio.blocks.31.attn.key.lora.B_shared
+training param: model.audio.blocks.31.attn.key.lora.B_specific
+training param: model.audio.blocks.31.attn.key.lora.router.layernorm.weight
+training param: model.audio.blocks.31.attn.key.lora.router.layernorm.bias
+training param: model.audio.blocks.31.attn.key.lora.router.projection.weight
+training param: model.audio.blocks.31.attn.key.lora.router.projection.bias
+freezing param: model.audio.blocks.31.attn.value.base.weight
+freezing param: model.audio.blocks.31.attn.value.base.bias
+training param: model.audio.blocks.31.attn.value.lora.A
+training param: model.audio.blocks.31.attn.value.lora.B_shared
+training param: model.audio.blocks.31.attn.value.lora.B_specific
+training param: model.audio.blocks.31.attn.value.lora.router.layernorm.weight
+training param: model.audio.blocks.31.attn.value.lora.router.layernorm.bias
+training param: model.audio.blocks.31.attn.value.lora.router.projection.weight
+training param: model.audio.blocks.31.attn.value.lora.router.projection.bias
+freezing param: model.audio.blocks.31.attn.query.base.weight
+freezing param: model.audio.blocks.31.attn.query.base.bias
+training param: model.audio.blocks.31.attn.query.lora.A
+training param: model.audio.blocks.31.attn.query.lora.B_shared
+training param: model.audio.blocks.31.attn.query.lora.B_specific
+training param: model.audio.blocks.31.attn.query.lora.router.layernorm.weight
+training param: model.audio.blocks.31.attn.query.lora.router.layernorm.bias
+training param: model.audio.blocks.31.attn.query.lora.router.projection.weight
+training param: model.audio.blocks.31.attn.query.lora.router.projection.bias
+freezing param: model.audio.blocks.31.attn.out.base.weight
+freezing param: model.audio.blocks.31.attn.out.base.bias
+training param: model.audio.blocks.31.attn.out.lora.A
+training param: model.audio.blocks.31.attn.out.lora.B_shared
+training param: model.audio.blocks.31.attn.out.lora.B_specific
+training param: model.audio.blocks.31.attn.out.lora.router.layernorm.weight
+training param: model.audio.blocks.31.attn.out.lora.router.layernorm.bias
+training param: model.audio.blocks.31.attn.out.lora.router.projection.weight
+training param: model.audio.blocks.31.attn.out.lora.router.projection.bias
+freezing param: model.audio.blocks.31.attn_ln.weight
+freezing param: model.audio.blocks.31.attn_ln.bias
+freezing param: model.audio.blocks.31.mlp.0.base.weight
+freezing param: model.audio.blocks.31.mlp.0.base.bias
+training param: model.audio.blocks.31.mlp.0.lora.A
+training param: model.audio.blocks.31.mlp.0.lora.B_shared
+training param: model.audio.blocks.31.mlp.0.lora.B_specific
+training param: model.audio.blocks.31.mlp.0.lora.router.layernorm.weight
+training param: model.audio.blocks.31.mlp.0.lora.router.layernorm.bias
+training param: model.audio.blocks.31.mlp.0.lora.router.projection.weight
+training param: model.audio.blocks.31.mlp.0.lora.router.projection.bias
+freezing param: model.audio.blocks.31.mlp.2.base.weight
+freezing param: model.audio.blocks.31.mlp.2.base.bias
+training param: model.audio.blocks.31.mlp.2.lora.A
+training param: model.audio.blocks.31.mlp.2.lora.B_shared
+training param: model.audio.blocks.31.mlp.2.lora.B_specific
+training param: model.audio.blocks.31.mlp.2.lora.router.layernorm.weight
+training param: model.audio.blocks.31.mlp.2.lora.router.layernorm.bias
+training param: model.audio.blocks.31.mlp.2.lora.router.projection.weight
+training param: model.audio.blocks.31.mlp.2.lora.router.projection.bias
+freezing param: model.audio.blocks.31.mlp_ln.weight
+freezing param: model.audio.blocks.31.mlp_ln.bias
+training param: model.audio.ln_post.weight
+training param: model.audio.ln_post.bias
+training param: model.audio.conv_proj.gate_proj.weight
+training param: model.audio.conv_proj.up_proj.weight
+training param: model.audio.conv_proj.down_proj.weight
+training param: model.audio.conv_proj.layer_norm.weight
+training param: model.audio.conv_proj.layer_norm.bias
+training param: model.audio.conv_proj.proj_decoder.weight
+training param: model.audio.conv_proj.proj_decoder.bias
+training param: model.audio.proj.weight
+training param: model.audio.proj.bias
+training param: model.audio.audio_bos_eos_token.weight
+freezing param: model.audio.zipper_shared_embedding.weight
+param trainable: 296216320, frozen: 2362249728
+Using /root/.cache/torch_extensions/py310_cu121 as PyTorch extensions root...
+Detected CUDA files, patching ldflags
+Emitting ninja build file /root/.cache/torch_extensions/py310_cu121/fused_adam/build.ninja...
+/usr/local/lib/python3.10/dist-packages/torch/utils/cpp_extension.py:1967: UserWarning: TORCH_CUDA_ARCH_LIST is not set, all archs for visible cards are included for compilation. 
+If this is not desired, please set os.environ['TORCH_CUDA_ARCH_LIST'].
+  warnings.warn(
+Building extension module fused_adam...
+Using envvar MAX_JOBS (16) as the number of workers...
+Using /root/.cache/torch_extensions/py310_cu121 as PyTorch extensions root...
+ninja: no work to do.
+Loading extension module fused_adam...
+Time to load fused_adam op: 0.16380834579467773 seconds
+/usr/local/lib/python3.10/dist-packages/deepspeed/ops/adam/fused_adam.py:96: UserWarning: The torch.cuda.*DtypeTensor constructors are no longer recommended. It's best to use methods such as torch.tensor(data, dtype=*, device='cuda') to create tensors. (Triggered internally at ../torch/csrc/tensor/python_tensor.cpp:78.)
+  self._dummy_overflow_buf = get_accelerator().IntTensor([0])
+2026-01-26 13:47:35.869 | INFO     | __main__:train:255 - sample size: 4533
+Using /root/.cache/torch_extensions/py310_cu121 as PyTorch extensions root...
+Detected CUDA files, patching ldflags
+Emitting ninja build file /root/.cache/torch_extensions/py310_cu121/fused_adam/build.ninja...
+/usr/local/lib/python3.10/dist-packages/torch/utils/cpp_extension.py:1967: UserWarning: TORCH_CUDA_ARCH_LIST is not set, all archs for visible cards are included for compilation. 
+If this is not desired, please set os.environ['TORCH_CUDA_ARCH_LIST'].
+  warnings.warn(
+Building extension module fused_adam...
+Using envvar MAX_JOBS (16) as the number of workers...
+Using /root/.cache/torch_extensions/py310_cu121 as PyTorch extensions root...
+ninja: no work to do.
+Loading extension module fused_adam...
+Time to load fused_adam op: 0.19089150428771973 seconds
+/usr/local/lib/python3.10/dist-packages/deepspeed/ops/adam/fused_adam.py:96: UserWarning: The torch.cuda.*DtypeTensor constructors are no longer recommended. It's best to use methods such as torch.tensor(data, dtype=*, device='cuda') to create tensors. (Triggered internally at ../torch/csrc/tensor/python_tensor.cpp:78.)
+  self._dummy_overflow_buf = get_accelerator().IntTensor([0])
+2026-01-26 13:47:36.112 | INFO     | __main__:train:255 - sample size: 4533
+Loading extension module fused_adam...
+Time to load fused_adam op: 0.3017396926879883 seconds
+/usr/local/lib/python3.10/dist-packages/deepspeed/ops/adam/fused_adam.py:96: UserWarning: The torch.cuda.*DtypeTensor constructors are no longer recommended. It's best to use methods such as torch.tensor(data, dtype=*, device='cuda') to create tensors. (Triggered internally at ../torch/csrc/tensor/python_tensor.cpp:78.)
+  self._dummy_overflow_buf = get_accelerator().IntTensor([0])
+2026-01-26 13:47:36.131 | INFO     | __main__:train:255 - sample size: 4533
+Loading extension module fused_adam...
+Time to load fused_adam op: 0.10149526596069336 seconds
+/usr/local/lib/python3.10/dist-packages/deepspeed/ops/adam/fused_adam.py:96: UserWarning: The torch.cuda.*DtypeTensor constructors are no longer recommended. It's best to use methods such as torch.tensor(data, dtype=*, device='cuda') to create tensors. (Triggered internally at ../torch/csrc/tensor/python_tensor.cpp:78.)
+  self._dummy_overflow_buf = get_accelerator().IntTensor([0])
+2026-01-26 13:47:36.458 | INFO     | __main__:train:255 - sample size: 4533
+[2026-01-26 13:47:36,470] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed info: version=0.13.2, git-hash=unknown, git-branch=unknown
+[2026-01-26 13:47:36,470] [INFO] [comm.py:662:init_distributed] Distributed backend already initialized
+[2026-01-26 13:47:45,588] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed Flops Profiler Enabled: False
+[2026-01-26 13:47:45,598] [INFO] [logging.py:96:log_dist] [Rank 0] Using client Optimizer as basic optimizer
+[2026-01-26 13:47:45,598] [INFO] [logging.py:96:log_dist] [Rank 0] Removing param_group that has no 'params' in the basic Optimizer
+[2026-01-26 13:47:46,129] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed Basic Optimizer = FusedAdam
+[2026-01-26 13:47:46,129] [INFO] [utils.py:56:is_zero_supported_optimizer] Checking ZeRO support for optimizer=FusedAdam type=<class 'deepspeed.ops.adam.fused_adam.FusedAdam'>
+[2026-01-26 13:47:46,129] [INFO] [logging.py:96:log_dist] [Rank 0] Creating torch.bfloat16 ZeRO stage 2 optimizer
+[2026-01-26 13:47:46,129] [INFO] [stage_1_and_2.py:149:__init__] Reduce bucket size 500,000,000
+[2026-01-26 13:47:46,129] [INFO] [stage_1_and_2.py:150:__init__] Allgather bucket size 500,000,000
+[2026-01-26 13:47:46,129] [INFO] [stage_1_and_2.py:151:__init__] CPU Offload: False
+[2026-01-26 13:47:46,129] [INFO] [stage_1_and_2.py:152:__init__] Round robin gradient partitioning: False
+[2026-01-26 13:48:02,678] [INFO] [utils.py:800:see_memory_usage] Before initializing optimizer states
+[2026-01-26 13:48:02,679] [INFO] [utils.py:801:see_memory_usage] MA 5.23 GB         Max_MA 5.23 GB         CA 5.66 GB         Max_CA 6 GB 
+[2026-01-26 13:48:02,686] [INFO] [utils.py:808:see_memory_usage] CPU Virtual Memory:  used = 0.0 GB, percent = 0.0%
+[2026-01-26 13:48:03,008] [INFO] [utils.py:800:see_memory_usage] After initializing optimizer states
+[2026-01-26 13:48:03,009] [INFO] [utils.py:801:see_memory_usage] MA 5.23 GB         Max_MA 5.51 GB         CA 5.94 GB         Max_CA 6 GB 
+[2026-01-26 13:48:03,009] [INFO] [utils.py:808:see_memory_usage] CPU Virtual Memory:  used = 0.0 GB, percent = 0.0%
+[2026-01-26 13:48:03,010] [INFO] [stage_1_and_2.py:539:__init__] optimizer state initialized
+[2026-01-26 13:48:03,196] [INFO] [utils.py:800:see_memory_usage] After initializing ZeRO optimizer
+[2026-01-26 13:48:03,197] [INFO] [utils.py:801:see_memory_usage] MA 5.23 GB         Max_MA 5.23 GB         CA 5.94 GB         Max_CA 6 GB 
+[2026-01-26 13:48:03,197] [INFO] [utils.py:808:see_memory_usage] CPU Virtual Memory:  used = 0.0 GB, percent = 0.0%
+[2026-01-26 13:48:03,216] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed Final Optimizer = FusedAdam
+[2026-01-26 13:48:03,216] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed using client LR scheduler
+[2026-01-26 13:48:03,216] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed LR Scheduler = <torch.optim.lr_scheduler.LambdaLR object at 0x7fe298307c10>
+[2026-01-26 13:48:03,216] [INFO] [logging.py:96:log_dist] [Rank 0] step=0, skipped=0, lr=[0.0, 0.0], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 13:48:03,224] [INFO] [config.py:987:print] DeepSpeedEngine configuration:
+[2026-01-26 13:48:03,224] [INFO] [config.py:991:print]   activation_checkpointing_config  {
+    "partition_activations": false, 
+    "contiguous_memory_optimization": false, 
+    "cpu_checkpointing": false, 
+    "number_checkpoints": null, 
+    "synchronize_checkpoint_boundary": false, 
+    "profile": false
+}
+[2026-01-26 13:48:03,224] [INFO] [config.py:991:print]   aio_config ................... {'block_size': 1048576, 'queue_depth': 8, 'thread_count': 1, 'single_submit': False, 'overlap_events': True}
+[2026-01-26 13:48:03,224] [INFO] [config.py:991:print]   amp_enabled .................. False
+[2026-01-26 13:48:03,224] [INFO] [config.py:991:print]   amp_params ................... False
+[2026-01-26 13:48:03,225] [INFO] [config.py:991:print]   autotuning_config ............ {
+    "enabled": false, 
+    "start_step": null, 
+    "end_step": null, 
+    "metric_path": null, 
+    "arg_mappings": null, 
+    "metric": "throughput", 
+    "model_info": null, 
+    "results_dir": "autotuning_results", 
+    "exps_dir": "autotuning_exps", 
+    "overwrite": true, 
+    "fast": true, 
+    "start_profile_step": 3, 
+    "end_profile_step": 5, 
+    "tuner_type": "gridsearch", 
+    "tuner_early_stopping": 5, 
+    "tuner_num_trials": 50, 
+    "model_info_path": null, 
+    "mp_size": 1, 
+    "max_train_batch_size": null, 
+    "min_train_batch_size": 1, 
+    "max_train_micro_batch_size_per_gpu": 1.024000e+03, 
+    "min_train_micro_batch_size_per_gpu": 1, 
+    "num_tuning_micro_batch_sizes": 3
+}
+[2026-01-26 13:48:03,225] [INFO] [config.py:991:print]   bfloat16_enabled ............. True
+[2026-01-26 13:48:03,225] [INFO] [config.py:991:print]   checkpoint_parallel_write_pipeline  False
+[2026-01-26 13:48:03,225] [INFO] [config.py:991:print]   checkpoint_tag_validation_enabled  True
+[2026-01-26 13:48:03,225] [INFO] [config.py:991:print]   checkpoint_tag_validation_fail  False
+[2026-01-26 13:48:03,225] [INFO] [config.py:991:print]   comms_config ................. <deepspeed.comm.config.DeepSpeedCommsConfig object at 0x7fe29328b940>
+[2026-01-26 13:48:03,225] [INFO] [config.py:991:print]   communication_data_type ...... None
+[2026-01-26 13:48:03,225] [INFO] [config.py:991:print]   compile_config ............... enabled=False backend='inductor' kwargs={}
+[2026-01-26 13:48:03,225] [INFO] [config.py:991:print]   compression_config ........... {'weight_quantization': {'shared_parameters': {'enabled': False, 'quantizer_kernel': False, 'schedule_offset': 0, 'quantize_groups': 1, 'quantize_verbose': False, 'quantization_type': 'symmetric', 'quantize_weight_in_forward': False, 'rounding': 'nearest', 'fp16_mixed_quantize': False, 'quantize_change_ratio': 0.001}, 'different_groups': {}}, 'activation_quantization': {'shared_parameters': {'enabled': False, 'quantization_type': 'symmetric', 'range_calibration': 'dynamic', 'schedule_offset': 1000}, 'different_groups': {}}, 'sparse_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'row_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'head_pruning': {'shared_parameters': {'enabled': False, 'method': 'topk', 'schedule_offset': 1000}, 'different_groups': {}}, 'channel_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'layer_reduction': {'enabled': False}}
+[2026-01-26 13:48:03,225] [INFO] [config.py:991:print]   curriculum_enabled_legacy .... False
+[2026-01-26 13:48:03,225] [INFO] [config.py:991:print]   curriculum_params_legacy ..... False
+[2026-01-26 13:48:03,225] [INFO] [config.py:991:print]   data_efficiency_config ....... {'enabled': False, 'seed': 1234, 'data_sampling': {'enabled': False, 'num_epochs': 1000, 'num_workers': 0, 'curriculum_learning': {'enabled': False}}, 'data_routing': {'enabled': False, 'random_ltd': {'enabled': False, 'layer_token_lr_schedule': {'enabled': False}}}}
+[2026-01-26 13:48:03,225] [INFO] [config.py:991:print]   data_efficiency_enabled ...... False
+[2026-01-26 13:48:03,225] [INFO] [config.py:991:print]   dataloader_drop_last ......... False
+[2026-01-26 13:48:03,225] [INFO] [config.py:991:print]   disable_allgather ............ False
+[2026-01-26 13:48:03,225] [INFO] [config.py:991:print]   dump_state ................... False
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   dynamic_loss_scale_args ...... None
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   eigenvalue_enabled ........... False
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   eigenvalue_gas_boundary_resolution  1
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   eigenvalue_layer_name ........ bert.encoder.layer
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   eigenvalue_layer_num ......... 0
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   eigenvalue_max_iter .......... 100
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   eigenvalue_stability ......... 1e-06
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   eigenvalue_tol ............... 0.01
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   eigenvalue_verbose ........... False
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   elasticity_enabled ........... False
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   flops_profiler_config ........ {
+    "enabled": false, 
+    "recompute_fwd_factor": 0.0, 
+    "profile_step": 1, 
+    "module_depth": -1, 
+    "top_modules": 1, 
+    "detailed": true, 
+    "output_file": null
+}
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   fp16_auto_cast ............... None
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   fp16_enabled ................. False
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   fp16_master_weights_and_gradients  False
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   global_rank .................. 0
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   grad_accum_dtype ............. fp32
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   gradient_accumulation_steps .. 1
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   gradient_clipping ............ 1.0
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   gradient_predivide_factor .... 1.0
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   graph_harvesting ............. False
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   hybrid_engine ................ enabled=False max_out_tokens=512 inference_tp_size=1 release_inference_cache=False pin_parameters=True tp_gather_partition_size=8
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   initial_dynamic_scale ........ 1
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   load_universal_checkpoint .... False
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   loss_scale ................... 1.0
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   memory_breakdown ............. False
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   mics_hierarchial_params_gather  False
+[2026-01-26 13:48:03,226] [INFO] [config.py:991:print]   mics_shard_size .............. -1
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   monitor_config ............... tensorboard=TensorBoardConfig(enabled=False, output_path='', job_name='DeepSpeedJobName') wandb=WandbConfig(enabled=False, group=None, team=None, project='deepspeed') csv_monitor=CSVConfig(enabled=False, output_path='', job_name='DeepSpeedJobName') enabled=False
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   nebula_config ................ {
+    "enabled": false, 
+    "persistent_storage_path": null, 
+    "persistent_time_interval": 100, 
+    "num_of_version_in_retention": 2, 
+    "enable_nebula_load": true, 
+    "load_path": null
+}
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   optimizer_legacy_fusion ...... False
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   optimizer_name ............... None
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   optimizer_params ............. None
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   pipeline ..................... {'stages': 'auto', 'partition': 'best', 'seed_layers': False, 'activation_checkpoint_interval': 0, 'pipe_partitioned': True, 'grad_partitioned': True}
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   pld_enabled .................. False
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   pld_params ................... False
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   prescale_gradients ........... False
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   scheduler_name ............... None
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   scheduler_params ............. None
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   seq_parallel_communication_data_type  torch.float32
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   sparse_attention ............. None
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   sparse_gradients_enabled ..... False
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   steps_per_print .............. 100
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   train_batch_size ............. 56
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   train_micro_batch_size_per_gpu  14
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   use_data_before_expert_parallel_  False
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   use_node_local_storage ....... False
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   wall_clock_breakdown ......... False
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   weight_quantization_config ... None
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   world_size ................... 4
+[2026-01-26 13:48:03,227] [INFO] [config.py:991:print]   zero_allow_untested_optimizer  False
+[2026-01-26 13:48:03,228] [INFO] [config.py:991:print]   zero_config .................. stage=2 contiguous_gradients=True reduce_scatter=True reduce_bucket_size=500,000,000 use_multi_rank_bucket_allreduce=True allgather_partitions=True allgather_bucket_size=500,000,000 overlap_comm=False load_from_fp32_weights=True elastic_checkpoint=False offload_param=DeepSpeedZeroOffloadParamConfig(device='none', nvme_path=None, buffer_count=5, buffer_size=100,000,000, max_in_cpu=1,000,000,000, pin_memory=False) offload_optimizer=DeepSpeedZeroOffloadOptimizerConfig(device='none', nvme_path=None, buffer_count=4, pin_memory=True, pipeline=False, pipeline_read=False, pipeline_write=False, fast_init=False, ratio=1.0) sub_group_size=1,000,000,000 cpu_offload_param=None cpu_offload_use_pin_memory=None cpu_offload=None prefetch_bucket_size=50,000,000 param_persistence_threshold=100,000 model_persistence_threshold=sys.maxsize max_live_parameters=1,000,000,000 max_reuse_distance=1,000,000,000 gather_16bit_weights_on_model_save=False stage3_gather_fp16_weights_on_model_save=False ignore_unused_parameters=True legacy_stage1=False round_robin_gradients=False zero_hpz_partition_size=1 zero_quantized_weights=False zero_quantized_nontrainable_weights=False zero_quantized_gradients=False mics_shard_size=-1 mics_hierarchical_params_gather=False memory_efficient_linear=True pipeline_loading_checkpoint=False override_module_apply=True
+[2026-01-26 13:48:03,228] [INFO] [config.py:991:print]   zero_enabled ................. True
+[2026-01-26 13:48:03,228] [INFO] [config.py:991:print]   zero_force_ds_cpu_optimizer .. True
+[2026-01-26 13:48:03,228] [INFO] [config.py:991:print]   zero_optimization_stage ...... 2
+[2026-01-26 13:48:03,228] [INFO] [config.py:977:print_user_config]   json = {
+    "steps_per_print": 100, 
+    "zero_optimization": {
+        "stage": 2, 
+        "offload_param": {
+            "device": "none"
+        }, 
+        "offload_optimizer": {
+            "device": "none", 
+            "pin_memory": true
+        }, 
+        "sub_group_size": "auto", 
+        "stage3_max_live_parameters": "auto", 
+        "stage3_max_reuse_distance": "auto", 
+        "stage3_param_persistence_threshold": "auto", 
+        "stage3_prefetch_bucket_size": "auto", 
+        "reduce_bucket_size": "auto", 
+        "zero_hpz_partition_size": 1, 
+        "zero_quantized_weights": false, 
+        "zero_quantized_gradients": false
+    }, 
+    "bf16": {
+        "enabled": true
+    }, 
+    "gradient_clipping": 1.0, 
+    "prescale_gradients": false, 
+    "wall_clock_breakdown": false, 
+    "data_types": {
+        "grad_accum_dtype": "fp32"
+    }, 
+    "train_micro_batch_size_per_gpu": 14, 
+    "train_batch_size": 56
+}
+Load checkpoint:  /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B
+[2026-01-26 13:48:03,228] [WARNING] [engine.py:2740:load_checkpoint] Unable to find latest file at /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/latest, if trying to load latest checkpoint please ensure this file exists or pass an explicit checkpoint tag when loading a checkpoint.
+> setting tensorboard ...
+[2026-01-26 13:48:03,249] [WARNING] [engine.py:2740:load_checkpoint] Unable to find latest file at /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/latest, if trying to load latest checkpoint please ensure this file exists or pass an explicit checkpoint tag when loading a checkpoint.
+[2026-01-26 13:48:03,345] [WARNING] [engine.py:2740:load_checkpoint] Unable to find latest file at /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/latest, if trying to load latest checkpoint please ensure this file exists or pass an explicit checkpoint tag when loading a checkpoint.
+[2026-01-26 13:48:03,348] [WARNING] [engine.py:2740:load_checkpoint] Unable to find latest file at /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/latest, if trying to load latest checkpoint please ensure this file exists or pass an explicit checkpoint tag when loading a checkpoint.
+2026-01-26 13:48:03.416 | INFO     | trainer.unigpt_pretrain_trainer:fit:130 - [Zipper LoRA] Freeze B weights for 0 steps.
+Train epoch:   0%|          | 0/3 [00:00<?, ?it/s]
+Train step of epoch 0:   0%|          | 0/4533 [00:00<?, ?it/s][A2026-01-26 13:48:03.446 | INFO     | trainer.unigpt_pretrain_trainer:fit:130 - [Zipper LoRA] Freeze B weights for 0 steps.
+2026-01-26 13:48:03.613 | INFO     | trainer.unigpt_pretrain_trainer:fit:130 - [Zipper LoRA] Freeze B weights for 0 steps.
+2026-01-26 13:48:03.617 | INFO     | trainer.unigpt_pretrain_trainer:fit:130 - [Zipper LoRA] Freeze B weights for 0 steps.
+2026-01-26 13:48:13.256 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+2026-01-26 13:48:14.186 | INFO     | model.unigpt_audio_models.audio:forward:1010 - [LID FIX DEBUG V3] Adapters found: 192. Target LID found: True
+2026-01-26 13:48:14.187 | INFO     | model.unigpt_audio_models.audio:forward:1012 - [LID FIX DEBUG V3] LID shape: torch.Size([141])
+2026-01-26 13:48:14.188 | INFO     | model.unigpt_audio_models.audio:forward:1022 - [LID FIX DEBUG] Found 192 adapters. LID shape: torch.Size([141]), Batch: 141, Total Chunks: 264
+
+Train step of epoch 0:   0%|          | 0/4533 [00:28<?, ?it/s, gpt_loss=0.591, loss_mean=0.0591][A
+Train step of epoch 0:   0%|          | 1/4533 [00:28<36:06:37, 28.68s/it, gpt_loss=0.591, loss_mean=0.0591][A2026-01-26 13:48:32.986 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   0%|          | 1/4533 [00:37<36:06:37, 28.68s/it, gpt_loss=0.544, loss_mean=0.108] [A
+Train step of epoch 0:   0%|          | 2/4533 [00:37<21:38:16, 17.19s/it, gpt_loss=0.544, loss_mean=0.108][A2026-01-26 13:48:41.700 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   0%|          | 2/4533 [00:46<21:38:16, 17.19s/it, gpt_loss=0.584, loss_mean=0.155][A
+Train step of epoch 0:   0%|          | 3/4533 [00:46<16:37:01, 13.21s/it, gpt_loss=0.584, loss_mean=0.155][A2026-01-26 13:48:50.258 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   0%|          | 3/4533 [00:55<16:37:01, 13.21s/it, gpt_loss=0.444, loss_mean=0.184][A
+Train step of epoch 0:   0%|          | 4/4533 [00:55<14:44:26, 11.72s/it, gpt_loss=0.444, loss_mean=0.184][A2026-01-26 13:49:00.062 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   0%|          | 4/4533 [01:07<14:44:26, 11.72s/it, gpt_loss=0.848, loss_mean=0.25] [A
+Train step of epoch 0:   0%|          | 5/4533 [01:07<14:51:09, 11.81s/it, gpt_loss=0.848, loss_mean=0.25][A2026-01-26 13:49:11.886 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   0%|          | 5/4533 [01:16<14:51:09, 11.81s/it, gpt_loss=0.541, loss_mean=0.279][A
+Train step of epoch 0:   0%|          | 6/4533 [01:16<13:39:07, 10.86s/it, gpt_loss=0.541, loss_mean=0.279][A2026-01-26 13:49:20.951 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   0%|          | 6/4533 [01:26<13:39:07, 10.86s/it, gpt_loss=0.515, loss_mean=0.303][A
+Train step of epoch 0:   0%|          | 7/4533 [01:26<13:14:37, 10.53s/it, gpt_loss=0.515, loss_mean=0.303][A2026-01-26 13:49:30.763 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   0%|          | 7/4533 [01:36<13:14:37, 10.53s/it, gpt_loss=0.567, loss_mean=0.329][A
+Train step of epoch 0:   0%|          | 8/4533 [01:36<12:56:47, 10.30s/it, gpt_loss=0.567, loss_mean=0.329][A2026-01-26 13:49:40.301 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   0%|          | 8/4533 [01:45<12:56:47, 10.30s/it, gpt_loss=0.577, loss_mean=0.354][A
+Train step of epoch 0:   0%|          | 9/4533 [01:45<12:21:41,  9.84s/it, gpt_loss=0.577, loss_mean=0.354][A
+[LID Router Debug] Step: 10
+Batch Size: 14
+Audio Batch Size: 202
+LID Assignments: [3, 3, 5, 3, 0, 9, 1, 9, 1, 0, 3, 5, 1, 3]
+Active Experts in Batch: {0, 1, 3, 5, 9}
+2026-01-26 13:49:49.191 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   0%|          | 9/4533 [01:54<12:21:41,  9.84s/it, gpt_loss=0.492, loss_mean=0.368][A
+Train step of epoch 0:   0%|          | 10/4533 [01:54<12:13:11,  9.73s/it, gpt_loss=0.492, loss_mean=0.368][A2026-01-26 13:49:58.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   0%|          | 10/4533 [02:03<12:13:11,  9.73s/it, gpt_loss=0.47, loss_mean=0.378] [A
+Train step of epoch 0:   0%|          | 11/4533 [02:03<11:46:35,  9.38s/it, gpt_loss=0.47, loss_mean=0.378][A2026-01-26 13:50:07.076 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   0%|          | 11/4533 [02:12<11:46:35,  9.38s/it, gpt_loss=0.521, loss_mean=0.392][A
+Train step of epoch 0:   0%|          | 12/4533 [02:12<11:51:25,  9.44s/it, gpt_loss=0.521, loss_mean=0.392][A2026-01-26 13:50:16.696 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   0%|          | 12/4533 [02:22<11:51:25,  9.44s/it, gpt_loss=0.656, loss_mean=0.419][A
+Train step of epoch 0:   0%|          | 13/4533 [02:22<11:52:38,  9.46s/it, gpt_loss=0.656, loss_mean=0.419][A2026-01-26 13:50:26.558 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   0%|          | 13/4533 [02:34<11:52:38,  9.46s/it, gpt_loss=0.987, loss_mean=0.476][A
+Train step of epoch 0:   0%|          | 14/4533 [02:34<12:47:49, 10.19s/it, gpt_loss=0.987, loss_mean=0.476][A2026-01-26 13:50:37.962 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   0%|          | 14/4533 [02:42<12:47:49, 10.19s/it, gpt_loss=0.642, loss_mean=0.492][A
+Train step of epoch 0:   0%|          | 15/4533 [02:42<12:13:59,  9.75s/it, gpt_loss=0.642, loss_mean=0.492][A2026-01-26 13:50:47.186 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   0%|          | 15/4533 [02:51<12:13:59,  9.75s/it, gpt_loss=0.495, loss_mean=0.493][A
+Train step of epoch 0:   0%|          | 16/4533 [02:51<11:56:57,  9.52s/it, gpt_loss=0.495, loss_mean=0.493][A2026-01-26 13:50:56.161 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   0%|          | 16/4533 [03:00<11:56:57,  9.52s/it, gpt_loss=0.571, loss_mean=0.5]  [A
+Train step of epoch 0:   0%|          | 17/4533 [03:00<11:40:34,  9.31s/it, gpt_loss=0.571, loss_mean=0.5][A2026-01-26 13:51:04.887 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   0%|          | 17/4533 [03:09<11:40:34,  9.31s/it, gpt_loss=0.586, loss_mean=0.509][A
+Train step of epoch 0:   0%|          | 18/4533 [03:09<11:32:58,  9.21s/it, gpt_loss=0.586, loss_mean=0.509][A2026-01-26 13:51:13.586 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   0%|          | 18/4533 [03:18<11:32:58,  9.21s/it, gpt_loss=0.527, loss_mean=0.511][A
+Train step of epoch 0:   0%|          | 19/4533 [03:18<11:27:06,  9.13s/it, gpt_loss=0.527, loss_mean=0.511][A
+[LID Router Debug] Step: 20
+Batch Size: 14
+Audio Batch Size: 116
+LID Assignments: [4, 0, 2, 2, 0, 1, 2, 1, 2, 0, 5, 5, 9, 6]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-26 13:51:22.854 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   0%|          | 19/4533 [03:28<11:27:06,  9.13s/it, gpt_loss=0.495, loss_mean=0.509][A
+Train step of epoch 0:   0%|          | 20/4533 [03:28<11:46:14,  9.39s/it, gpt_loss=0.495, loss_mean=0.509][A2026-01-26 13:51:32.876 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   0%|          | 20/4533 [03:37<11:46:14,  9.39s/it, gpt_loss=0.547, loss_mean=0.513][A
+Train step of epoch 0:   0%|          | 21/4533 [03:37<11:33:57,  9.23s/it, gpt_loss=0.547, loss_mean=0.513][A2026-01-26 13:51:41.768 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   0%|          | 21/4533 [03:49<11:33:57,  9.23s/it, gpt_loss=0.765, loss_mean=0.538][A
+Train step of epoch 0:   0%|          | 22/4533 [03:49<12:35:21, 10.05s/it, gpt_loss=0.765, loss_mean=0.538][A2026-01-26 13:51:53.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   0%|          | 22/4533 [03:59<12:35:21, 10.05s/it, gpt_loss=0.574, loss_mean=0.542][A
+Train step of epoch 0:   1%|          | 23/4533 [03:59<12:29:55,  9.98s/it, gpt_loss=0.574, loss_mean=0.542][A2026-01-26 13:52:03.088 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   1%|          | 23/4533 [04:08<12:29:55,  9.98s/it, gpt_loss=0.538, loss_mean=0.541][A
+Train step of epoch 0:   1%|          | 24/4533 [04:08<12:19:09,  9.84s/it, gpt_loss=0.538, loss_mean=0.541][A2026-01-26 13:52:12.992 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   1%|          | 24/4533 [04:17<12:19:09,  9.84s/it, gpt_loss=0.544, loss_mean=0.542][A
+Train step of epoch 0:   1%|          | 25/4533 [04:17<12:03:35,  9.63s/it, gpt_loss=0.544, loss_mean=0.542][A2026-01-26 13:52:22.080 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   1%|          | 25/4533 [04:27<12:03:35,  9.63s/it, gpt_loss=0.584, loss_mean=0.546][A
+Train step of epoch 0:   1%|          | 26/4533 [04:27<12:03:59,  9.64s/it, gpt_loss=0.584, loss_mean=0.546][A2026-01-26 13:52:31.577 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   1%|          | 26/4533 [04:39<12:03:59,  9.64s/it, gpt_loss=0.771, loss_mean=0.568][A
+Train step of epoch 0:   1%|          | 27/4533 [04:39<12:49:33, 10.25s/it, gpt_loss=0.771, loss_mean=0.568][A2026-01-26 13:52:43.479 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   1%|          | 27/4533 [04:48<12:49:33, 10.25s/it, gpt_loss=0.414, loss_mean=0.553][A
+Train step of epoch 0:   1%|          | 28/4533 [04:48<12:18:05,  9.83s/it, gpt_loss=0.414, loss_mean=0.553][A2026-01-26 13:52:52.077 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   1%|          | 28/4533 [04:56<12:18:05,  9.83s/it, gpt_loss=0.587, loss_mean=0.556][A
+Train step of epoch 0:   1%|          | 29/4533 [04:56<11:50:30,  9.46s/it, gpt_loss=0.587, loss_mean=0.556][A
+[LID Router Debug] Step: 30
+Batch Size: 14
+Audio Batch Size: 142
+LID Assignments: [0, 5, 1, 5, 4, 3, 5, 0, 6, 6, 3, 2, 9, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 13:53:00.566 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   1%|          | 29/4533 [05:06<11:50:30,  9.46s/it, gpt_loss=0.549, loss_mean=0.556][A
+Train step of epoch 0:   1%|          | 30/4533 [05:06<11:48:19,  9.44s/it, gpt_loss=0.549, loss_mean=0.556][A2026-01-26 13:53:10.360 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   1%|          | 30/4533 [05:15<11:48:19,  9.44s/it, gpt_loss=0.478, loss_mean=0.548][A
+Train step of epoch 0:   1%|          | 31/4533 [05:15<11:40:34,  9.34s/it, gpt_loss=0.478, loss_mean=0.548][A2026-01-26 13:53:19.065 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   1%|          | 31/4533 [05:23<11:40:34,  9.34s/it, gpt_loss=0.458, loss_mean=0.539][A
+Train step of epoch 0:   1%|          | 32/4533 [05:23<11:24:28,  9.12s/it, gpt_loss=0.458, loss_mean=0.539][A2026-01-26 13:53:27.977 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   1%|          | 32/4533 [05:33<11:24:28,  9.12s/it, gpt_loss=0.533, loss_mean=0.538][A
+Train step of epoch 0:   1%|          | 33/4533 [05:33<11:36:33,  9.29s/it, gpt_loss=0.533, loss_mean=0.538][A2026-01-26 13:53:37.289 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   1%|          | 33/4533 [05:42<11:36:33,  9.29s/it, gpt_loss=0.513, loss_mean=0.536][A
+Train step of epoch 0:   1%|          | 34/4533 [05:42<11:18:47,  9.05s/it, gpt_loss=0.513, loss_mean=0.536][A2026-01-26 13:53:45.785 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   1%|          | 34/4533 [05:50<11:18:47,  9.05s/it, gpt_loss=0.45, loss_mean=0.527] [A
+Train step of epoch 0:   1%|          | 35/4533 [05:50<11:15:18,  9.01s/it, gpt_loss=0.45, loss_mean=0.527][A2026-01-26 13:53:54.877 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   1%|          | 35/4533 [06:02<11:15:18,  9.01s/it, gpt_loss=0.721, loss_mean=0.547][A
+Train step of epoch 0:   1%|          | 36/4533 [06:02<12:18:09,  9.85s/it, gpt_loss=0.721, loss_mean=0.547][A2026-01-26 13:54:06.971 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   1%|          | 36/4533 [06:12<12:18:09,  9.85s/it, gpt_loss=0.525, loss_mean=0.544][A
+Train step of epoch 0:   1%|          | 37/4533 [06:12<12:16:02,  9.82s/it, gpt_loss=0.525, loss_mean=0.544][A2026-01-26 13:54:16.492 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   1%|          | 37/4533 [06:21<12:16:02,  9.82s/it, gpt_loss=0.487, loss_mean=0.539][A
+Train step of epoch 0:   1%|          | 38/4533 [06:21<11:58:48,  9.59s/it, gpt_loss=0.487, loss_mean=0.539][A2026-01-26 13:54:25.462 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   1%|          | 38/4533 [06:30<11:58:48,  9.59s/it, gpt_loss=0.529, loss_mean=0.538][A
+Train step of epoch 0:   1%|          | 39/4533 [06:30<11:36:09,  9.29s/it, gpt_loss=0.529, loss_mean=0.538][A
+[LID Router Debug] Step: 40
+Batch Size: 14
+Audio Batch Size: 138
+LID Assignments: [9, 5, 2, 1, 3, 0, 6, 5, 1, 9, 2, 1, 9, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 13:54:34.283 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   1%|          | 39/4533 [06:38<11:36:09,  9.29s/it, gpt_loss=0.542, loss_mean=0.538][A
+Train step of epoch 0:   1%|          | 40/4533 [06:38<11:22:40,  9.12s/it, gpt_loss=0.542, loss_mean=0.538][A2026-01-26 13:54:42.579 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   1%|          | 40/4533 [06:48<11:22:40,  9.12s/it, gpt_loss=0.516, loss_mean=0.536][A
+Train step of epoch 0:   1%|          | 41/4533 [06:48<11:24:53,  9.15s/it, gpt_loss=0.516, loss_mean=0.536][A2026-01-26 13:54:52.095 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   1%|          | 41/4533 [06:56<11:24:53,  9.15s/it, gpt_loss=0.446, loss_mean=0.527][A
+Train step of epoch 0:   1%|          | 42/4533 [06:56<11:16:48,  9.04s/it, gpt_loss=0.446, loss_mean=0.527][A2026-01-26 13:55:01.073 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   1%|          | 42/4533 [07:08<11:16:48,  9.04s/it, gpt_loss=0.645, loss_mean=0.539][A
+Train step of epoch 0:   1%|          | 43/4533 [07:08<12:22:59,  9.93s/it, gpt_loss=0.645, loss_mean=0.539][A2026-01-26 13:55:12.974 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   1%|          | 43/4533 [07:20<12:22:59,  9.93s/it, gpt_loss=0.606, loss_mean=0.545][A
+Train step of epoch 0:   1%|          | 44/4533 [07:20<13:05:04, 10.49s/it, gpt_loss=0.606, loss_mean=0.545][A2026-01-26 13:55:24.775 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   1%|          | 44/4533 [07:30<13:05:04, 10.49s/it, gpt_loss=0.514, loss_mean=0.542][A
+Train step of epoch 0:   1%|          | 45/4533 [07:30<12:43:25, 10.21s/it, gpt_loss=0.514, loss_mean=0.542][A2026-01-26 13:55:33.863 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   1%|          | 45/4533 [07:42<12:43:25, 10.21s/it, gpt_loss=0.729, loss_mean=0.561][A
+Train step of epoch 0:   1%|          | 46/4533 [07:42<13:21:09, 10.71s/it, gpt_loss=0.729, loss_mean=0.561][A2026-01-26 13:55:46.151 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   1%|          | 46/4533 [07:53<13:21:09, 10.71s/it, gpt_loss=0.646, loss_mean=0.57] [A
+Train step of epoch 0:   1%|          | 47/4533 [07:53<13:46:47, 11.06s/it, gpt_loss=0.646, loss_mean=0.57][A2026-01-26 13:55:57.883 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   1%|          | 47/4533 [08:05<13:46:47, 11.06s/it, gpt_loss=0.614, loss_mean=0.574][A
+Train step of epoch 0:   1%|          | 48/4533 [08:05<13:58:35, 11.22s/it, gpt_loss=0.614, loss_mean=0.574][A2026-01-26 13:56:09.356 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   1%|          | 48/4533 [08:14<13:58:35, 11.22s/it, gpt_loss=0.597, loss_mean=0.576][A
+Train step of epoch 0:   1%|          | 49/4533 [08:14<13:12:33, 10.61s/it, gpt_loss=0.597, loss_mean=0.576][A
+[LID Router Debug] Step: 50
+Batch Size: 14
+Audio Batch Size: 155
+LID Assignments: [0, 4, 3, 2, 5, 1, 1, 2, 1, 3, 4, 3, 9, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 13:56:18.462 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   1%|          | 49/4533 [08:23<13:12:33, 10.61s/it, gpt_loss=0.519, loss_mean=0.57] [A
+Train step of epoch 0:   1%|          | 50/4533 [08:23<12:41:40, 10.19s/it, gpt_loss=0.519, loss_mean=0.57][A2026-01-26 13:56:28.190 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   1%|          | 50/4533 [08:33<12:41:40, 10.19s/it, gpt_loss=0.534, loss_mean=0.567][A
+Train step of epoch 0:   1%|          | 51/4533 [08:33<12:20:19,  9.91s/it, gpt_loss=0.534, loss_mean=0.567][A2026-01-26 13:56:37.396 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   1%|          | 51/4533 [08:45<12:20:19,  9.91s/it, gpt_loss=0.561, loss_mean=0.566][A
+Train step of epoch 0:   1%|          | 52/4533 [08:45<13:08:46, 10.56s/it, gpt_loss=0.561, loss_mean=0.566][A2026-01-26 13:56:49.582 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   1%|          | 52/4533 [08:57<13:08:46, 10.56s/it, gpt_loss=0.688, loss_mean=0.578][A
+Train step of epoch 0:   1%|          | 53/4533 [08:57<13:48:40, 11.10s/it, gpt_loss=0.688, loss_mean=0.578][A2026-01-26 13:57:01.678 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   1%|          | 53/4533 [09:09<13:48:40, 11.10s/it, gpt_loss=0.588, loss_mean=0.579][A
+Train step of epoch 0:   1%|          | 54/4533 [09:09<14:07:31, 11.35s/it, gpt_loss=0.588, loss_mean=0.579][A2026-01-26 13:57:13.863 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   1%|          | 54/4533 [09:18<14:07:31, 11.35s/it, gpt_loss=0.475, loss_mean=0.569][A
+Train step of epoch 0:   1%|          | 55/4533 [09:18<13:13:27, 10.63s/it, gpt_loss=0.475, loss_mean=0.569][A2026-01-26 13:57:22.572 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   1%|          | 55/4533 [09:27<13:13:27, 10.63s/it, gpt_loss=0.465, loss_mean=0.559][A
+Train step of epoch 0:   1%|          | 56/4533 [09:27<12:30:24, 10.06s/it, gpt_loss=0.465, loss_mean=0.559][A2026-01-26 13:57:31.477 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   1%|          | 56/4533 [09:39<12:30:24, 10.06s/it, gpt_loss=0.651, loss_mean=0.568][A
+Train step of epoch 0:   1%|▏         | 57/4533 [09:39<13:10:12, 10.59s/it, gpt_loss=0.651, loss_mean=0.568][A2026-01-26 13:57:43.075 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   1%|▏         | 57/4533 [09:50<13:10:12, 10.59s/it, gpt_loss=0.549, loss_mean=0.566][A
+Train step of epoch 0:   1%|▏         | 58/4533 [09:50<13:33:54, 10.91s/it, gpt_loss=0.549, loss_mean=0.566][A2026-01-26 13:57:54.584 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   1%|▏         | 58/4533 [09:59<13:33:54, 10.91s/it, gpt_loss=0.475, loss_mean=0.557][A
+Train step of epoch 0:   1%|▏         | 59/4533 [09:59<12:45:41, 10.27s/it, gpt_loss=0.475, loss_mean=0.557][A
+[LID Router Debug] Step: 60
+Batch Size: 14
+Audio Batch Size: 165
+LID Assignments: [0, 9, 1, 0, 1, 4, 6, 3, 3, 9, 1, 5, 3, 3]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6, 9}
+2026-01-26 13:58:03.759 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   1%|▏         | 59/4533 [10:08<12:45:41, 10.27s/it, gpt_loss=0.516, loss_mean=0.553][A
+Train step of epoch 0:   1%|▏         | 60/4533 [10:08<12:18:31,  9.91s/it, gpt_loss=0.516, loss_mean=0.553][A2026-01-26 13:58:12.680 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   1%|▏         | 60/4533 [10:18<12:18:31,  9.91s/it, gpt_loss=0.476, loss_mean=0.545][A
+Train step of epoch 0:   1%|▏         | 61/4533 [10:18<12:15:22,  9.87s/it, gpt_loss=0.476, loss_mean=0.545][A2026-01-26 13:58:22.572 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   1%|▏         | 61/4533 [10:27<12:15:22,  9.87s/it, gpt_loss=0.411, loss_mean=0.532][A
+Train step of epoch 0:   1%|▏         | 62/4533 [10:27<12:04:11,  9.72s/it, gpt_loss=0.411, loss_mean=0.532][A2026-01-26 13:58:31.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   1%|▏         | 62/4533 [10:37<12:04:11,  9.72s/it, gpt_loss=0.622, loss_mean=0.541][A
+Train step of epoch 0:   1%|▏         | 63/4533 [10:37<12:00:59,  9.68s/it, gpt_loss=0.622, loss_mean=0.541][A2026-01-26 13:58:41.381 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   1%|▏         | 63/4533 [10:46<12:00:59,  9.68s/it, gpt_loss=0.469, loss_mean=0.534][A
+Train step of epoch 0:   1%|▏         | 64/4533 [10:46<11:57:35,  9.63s/it, gpt_loss=0.469, loss_mean=0.534][A2026-01-26 13:58:50.874 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   1%|▏         | 64/4533 [10:55<11:57:35,  9.63s/it, gpt_loss=0.45, loss_mean=0.525] [A
+Train step of epoch 0:   1%|▏         | 65/4533 [10:55<11:37:05,  9.36s/it, gpt_loss=0.45, loss_mean=0.525][A2026-01-26 13:58:59.672 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   1%|▏         | 65/4533 [11:07<11:37:05,  9.36s/it, gpt_loss=0.593, loss_mean=0.532][A
+Train step of epoch 0:   1%|▏         | 66/4533 [11:07<12:33:39, 10.12s/it, gpt_loss=0.593, loss_mean=0.532][A2026-01-26 13:59:11.501 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   1%|▏         | 66/4533 [11:16<12:33:39, 10.12s/it, gpt_loss=0.42, loss_mean=0.521] [A
+Train step of epoch 0:   1%|▏         | 67/4533 [11:16<12:02:12,  9.70s/it, gpt_loss=0.42, loss_mean=0.521][A2026-01-26 13:59:20.206 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   1%|▏         | 67/4533 [11:25<12:02:12,  9.70s/it, gpt_loss=0.547, loss_mean=0.523][A
+Train step of epoch 0:   2%|▏         | 68/4533 [11:25<12:00:01,  9.68s/it, gpt_loss=0.547, loss_mean=0.523][A2026-01-26 13:59:29.970 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   2%|▏         | 68/4533 [11:37<12:00:01,  9.68s/it, gpt_loss=0.544, loss_mean=0.525][A
+Train step of epoch 0:   2%|▏         | 69/4533 [11:37<12:44:10, 10.27s/it, gpt_loss=0.544, loss_mean=0.525][A
+[LID Router Debug] Step: 70
+Batch Size: 14
+Audio Batch Size: 188
+LID Assignments: [1, 2, 3, 1, 1, 2, 4, 1, 1, 3, 3, 9, 3, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 9}
+2026-01-26 13:59:41.466 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   2%|▏         | 69/4533 [11:46<12:44:10, 10.27s/it, gpt_loss=0.426, loss_mean=0.515][A
+Train step of epoch 0:   2%|▏         | 70/4533 [11:46<12:24:24, 10.01s/it, gpt_loss=0.426, loss_mean=0.515][A2026-01-26 13:59:50.896 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   2%|▏         | 70/4533 [11:55<12:24:24, 10.01s/it, gpt_loss=0.438, loss_mean=0.508][A
+Train step of epoch 0:   2%|▏         | 71/4533 [11:55<11:57:26,  9.65s/it, gpt_loss=0.438, loss_mean=0.508][A2026-01-26 13:59:59.593 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   2%|▏         | 71/4533 [12:07<11:57:26,  9.65s/it, gpt_loss=0.579, loss_mean=0.515][A
+Train step of epoch 0:   2%|▏         | 72/4533 [12:07<12:43:12, 10.27s/it, gpt_loss=0.579, loss_mean=0.515][A2026-01-26 14:00:11.489 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   2%|▏         | 72/4533 [12:19<12:43:12, 10.27s/it, gpt_loss=0.645, loss_mean=0.528][A
+Train step of epoch 0:   2%|▏         | 73/4533 [12:19<13:21:51, 10.79s/it, gpt_loss=0.645, loss_mean=0.528][A2026-01-26 14:00:23.500 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   2%|▏         | 73/4533 [12:31<13:21:51, 10.79s/it, gpt_loss=0.601, loss_mean=0.535][A
+Train step of epoch 0:   2%|▏         | 74/4533 [12:31<13:44:50, 11.10s/it, gpt_loss=0.601, loss_mean=0.535][A2026-01-26 14:00:35.103 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   2%|▏         | 74/4533 [12:39<13:44:50, 11.10s/it, gpt_loss=0.427, loss_mean=0.524][A
+Train step of epoch 0:   2%|▏         | 75/4533 [12:39<12:47:07, 10.32s/it, gpt_loss=0.427, loss_mean=0.524][A2026-01-26 14:00:43.886 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   2%|▏         | 75/4533 [12:48<12:47:07, 10.32s/it, gpt_loss=0.414, loss_mean=0.513][A
+Train step of epoch 0:   2%|▏         | 76/4533 [12:48<12:20:57,  9.97s/it, gpt_loss=0.414, loss_mean=0.513][A2026-01-26 14:00:53.105 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   2%|▏         | 76/4533 [12:58<12:20:57,  9.97s/it, gpt_loss=0.523, loss_mean=0.514][A
+Train step of epoch 0:   2%|▏         | 77/4533 [12:58<12:17:17,  9.93s/it, gpt_loss=0.523, loss_mean=0.514][A2026-01-26 14:01:02.772 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   2%|▏         | 77/4533 [13:10<12:17:17,  9.93s/it, gpt_loss=0.503, loss_mean=0.513][A
+Train step of epoch 0:   2%|▏         | 78/4533 [13:10<13:00:11, 10.51s/it, gpt_loss=0.503, loss_mean=0.513][A2026-01-26 14:01:14.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   2%|▏         | 78/4533 [13:19<13:00:11, 10.51s/it, gpt_loss=0.322, loss_mean=0.494][A
+Train step of epoch 0:   2%|▏         | 79/4533 [13:19<12:23:11, 10.01s/it, gpt_loss=0.322, loss_mean=0.494][A
+[LID Router Debug] Step: 80
+Batch Size: 14
+Audio Batch Size: 182
+LID Assignments: [1, 2, 4, 5, 1, 2, 2, 3, 0, 1, 9, 0, 3, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 14:01:23.088 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   2%|▏         | 79/4533 [13:27<12:23:11, 10.01s/it, gpt_loss=0.371, loss_mean=0.482][A
+Train step of epoch 0:   2%|▏         | 80/4533 [13:27<11:49:41,  9.56s/it, gpt_loss=0.371, loss_mean=0.482][A2026-01-26 14:01:31.972 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   2%|▏         | 80/4533 [13:36<11:49:41,  9.56s/it, gpt_loss=0.438, loss_mean=0.477][A
+Train step of epoch 0:   2%|▏         | 81/4533 [13:36<11:34:16,  9.36s/it, gpt_loss=0.438, loss_mean=0.477][A2026-01-26 14:01:40.977 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   2%|▏         | 81/4533 [13:46<11:34:16,  9.36s/it, gpt_loss=0.379, loss_mean=0.467][A
+Train step of epoch 0:   2%|▏         | 82/4533 [13:46<11:44:35,  9.50s/it, gpt_loss=0.379, loss_mean=0.467][A2026-01-26 14:01:50.695 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   2%|▏         | 82/4533 [13:55<11:44:35,  9.50s/it, gpt_loss=0.433, loss_mean=0.464][A
+Train step of epoch 0:   2%|▏         | 83/4533 [13:55<11:28:02,  9.28s/it, gpt_loss=0.433, loss_mean=0.464][A2026-01-26 14:01:59.400 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   2%|▏         | 83/4533 [14:04<11:28:02,  9.28s/it, gpt_loss=0.5, loss_mean=0.468]  [A
+Train step of epoch 0:   2%|▏         | 84/4533 [14:04<11:16:00,  9.12s/it, gpt_loss=0.5, loss_mean=0.468][A2026-01-26 14:02:08.302 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   2%|▏         | 84/4533 [14:13<11:16:00,  9.12s/it, gpt_loss=0.351, loss_mean=0.456][A
+Train step of epoch 0:   2%|▏         | 85/4533 [14:13<11:15:45,  9.12s/it, gpt_loss=0.351, loss_mean=0.456][A2026-01-26 14:02:17.005 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   2%|▏         | 85/4533 [14:21<11:15:45,  9.12s/it, gpt_loss=0.572, loss_mean=0.468][A
+Train step of epoch 0:   2%|▏         | 86/4533 [14:21<11:02:14,  8.94s/it, gpt_loss=0.572, loss_mean=0.468][A2026-01-26 14:02:25.873 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   2%|▏         | 86/4533 [14:30<11:02:14,  8.94s/it, gpt_loss=0.398, loss_mean=0.461][A
+Train step of epoch 0:   2%|▏         | 87/4533 [14:30<10:56:42,  8.86s/it, gpt_loss=0.398, loss_mean=0.461][A2026-01-26 14:02:34.477 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   2%|▏         | 87/4533 [14:42<10:56:42,  8.86s/it, gpt_loss=0.574, loss_mean=0.472][A
+Train step of epoch 0:   2%|▏         | 88/4533 [14:42<12:01:10,  9.73s/it, gpt_loss=0.574, loss_mean=0.472][A2026-01-26 14:02:46.262 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   2%|▏         | 88/4533 [14:51<12:01:10,  9.73s/it, gpt_loss=0.492, loss_mean=0.474][A
+Train step of epoch 0:   2%|▏         | 89/4533 [14:51<11:54:23,  9.65s/it, gpt_loss=0.492, loss_mean=0.474][A
+[LID Router Debug] Step: 90
+Batch Size: 14
+Audio Batch Size: 195
+LID Assignments: [9, 2, 9, 9, 3, 6, 2, 6, 5, 3, 9, 2, 9, 3]
+Active Experts in Batch: {2, 3, 5, 6, 9}
+2026-01-26 14:02:55.478 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   2%|▏         | 89/4533 [15:00<11:54:23,  9.65s/it, gpt_loss=0.517, loss_mean=0.478][A
+Train step of epoch 0:   2%|▏         | 90/4533 [15:00<11:31:59,  9.34s/it, gpt_loss=0.517, loss_mean=0.478][A2026-01-26 14:03:04.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   2%|▏         | 90/4533 [15:12<11:31:59,  9.34s/it, gpt_loss=0.587, loss_mean=0.489][A
+Train step of epoch 0:   2%|▏         | 91/4533 [15:12<12:23:45, 10.05s/it, gpt_loss=0.587, loss_mean=0.489][A2026-01-26 14:03:16.187 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   2%|▏         | 91/4533 [15:20<12:23:45, 10.05s/it, gpt_loss=0.401, loss_mean=0.48] [A
+Train step of epoch 0:   2%|▏         | 92/4533 [15:20<11:56:11,  9.68s/it, gpt_loss=0.401, loss_mean=0.48][A2026-01-26 14:03:24.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   2%|▏         | 92/4533 [15:30<11:56:11,  9.68s/it, gpt_loss=0.458, loss_mean=0.478][A
+Train step of epoch 0:   2%|▏         | 93/4533 [15:30<11:57:07,  9.69s/it, gpt_loss=0.458, loss_mean=0.478][A2026-01-26 14:03:34.694 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   2%|▏         | 93/4533 [15:39<11:57:07,  9.69s/it, gpt_loss=0.355, loss_mean=0.466][A
+Train step of epoch 0:   2%|▏         | 94/4533 [15:39<11:45:20,  9.53s/it, gpt_loss=0.355, loss_mean=0.466][A2026-01-26 14:03:43.667 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   2%|▏         | 94/4533 [15:49<11:45:20,  9.53s/it, gpt_loss=0.388, loss_mean=0.458][A
+Train step of epoch 0:   2%|▏         | 95/4533 [15:49<11:49:31,  9.59s/it, gpt_loss=0.388, loss_mean=0.458][A2026-01-26 14:03:53.097 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   2%|▏         | 95/4533 [15:57<11:49:31,  9.59s/it, gpt_loss=0.399, loss_mean=0.452][A
+Train step of epoch 0:   2%|▏         | 96/4533 [15:57<11:19:25,  9.19s/it, gpt_loss=0.399, loss_mean=0.452][A2026-01-26 14:04:01.790 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   2%|▏         | 96/4533 [16:06<11:19:25,  9.19s/it, gpt_loss=0.353, loss_mean=0.442][A
+Train step of epoch 0:   2%|▏         | 97/4533 [16:06<11:21:06,  9.21s/it, gpt_loss=0.353, loss_mean=0.442][A2026-01-26 14:04:10.862 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   2%|▏         | 97/4533 [16:15<11:21:06,  9.21s/it, gpt_loss=0.482, loss_mean=0.446][A
+Train step of epoch 0:   2%|▏         | 98/4533 [16:15<11:08:08,  9.04s/it, gpt_loss=0.482, loss_mean=0.446][A2026-01-26 14:04:19.689 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   2%|▏         | 98/4533 [16:24<11:08:08,  9.04s/it, gpt_loss=0.395, loss_mean=0.441][A
+Train step of epoch 0:   2%|▏         | 99/4533 [16:24<11:04:30,  8.99s/it, gpt_loss=0.395, loss_mean=0.441][A
+[LID Router Debug] Step: 100
+Batch Size: 14
+Audio Batch Size: 136
+LID Assignments: [2, 9, 4, 0, 9, 5, 3, 1, 2, 0, 2, 2, 9, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 14:04:28.200 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+[2026-01-26 14:04:36,193] [INFO] [logging.py:96:log_dist] [Rank 0] step=100, skipped=0, lr=[1.4705882352941179e-05, 1.4705882352941179e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 14:04:36,193] [INFO] [timer.py:260:stop] epoch=0/micro_step=100/global_step=100, RunningAvgSamplesPerSec=5.760442931380686, CurrSamplesPerSec=6.767785493023446, MemAllocated=14.55GB, MaxMemAllocated=52.62GB
+
+Train step of epoch 0:   2%|▏         | 99/4533 [16:32<11:04:30,  8.99s/it, gpt_loss=0.464, loss_mean=0.443][A
+Train step of epoch 0:   2%|▏         | 100/4533 [16:32<10:48:53,  8.78s/it, gpt_loss=0.464, loss_mean=0.443][A2026-01-26 14:04:36.757 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   2%|▏         | 100/4533 [16:44<10:48:53,  8.78s/it, gpt_loss=0.543, loss_mean=0.453][A
+Train step of epoch 0:   2%|▏         | 101/4533 [16:44<11:54:39,  9.68s/it, gpt_loss=0.543, loss_mean=0.453][A2026-01-26 14:04:48.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   2%|▏         | 101/4533 [16:53<11:54:39,  9.68s/it, gpt_loss=0.345, loss_mean=0.442][A
+Train step of epoch 0:   2%|▏         | 102/4533 [16:53<11:32:39,  9.38s/it, gpt_loss=0.345, loss_mean=0.442][A2026-01-26 14:04:57.162 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   2%|▏         | 102/4533 [17:01<11:32:39,  9.38s/it, gpt_loss=0.389, loss_mean=0.437][A
+Train step of epoch 0:   2%|▏         | 103/4533 [17:01<11:19:05,  9.20s/it, gpt_loss=0.389, loss_mean=0.437][A2026-01-26 14:05:05.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   2%|▏         | 103/4533 [17:10<11:19:05,  9.20s/it, gpt_loss=0.418, loss_mean=0.435][A
+Train step of epoch 0:   2%|▏         | 104/4533 [17:10<11:04:27,  9.00s/it, gpt_loss=0.418, loss_mean=0.435][A2026-01-26 14:05:14.666 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   2%|▏         | 104/4533 [17:19<11:04:27,  9.00s/it, gpt_loss=0.47, loss_mean=0.439] [A
+Train step of epoch 0:   2%|▏         | 105/4533 [17:19<10:58:36,  8.92s/it, gpt_loss=0.47, loss_mean=0.439][A2026-01-26 14:05:23.366 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   2%|▏         | 105/4533 [17:28<10:58:36,  8.92s/it, gpt_loss=0.506, loss_mean=0.445][A
+Train step of epoch 0:   2%|▏         | 106/4533 [17:28<11:13:39,  9.13s/it, gpt_loss=0.506, loss_mean=0.445][A2026-01-26 14:05:32.783 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   2%|▏         | 106/4533 [17:37<11:13:39,  9.13s/it, gpt_loss=0.439, loss_mean=0.445][A
+Train step of epoch 0:   2%|▏         | 107/4533 [17:37<11:09:50,  9.08s/it, gpt_loss=0.439, loss_mean=0.445][A2026-01-26 14:05:41.966 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   2%|▏         | 107/4533 [17:46<11:09:50,  9.08s/it, gpt_loss=0.473, loss_mean=0.448][A
+Train step of epoch 0:   2%|▏         | 108/4533 [17:46<11:08:53,  9.07s/it, gpt_loss=0.473, loss_mean=0.448][A2026-01-26 14:05:50.985 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   2%|▏         | 108/4533 [17:55<11:08:53,  9.07s/it, gpt_loss=0.361, loss_mean=0.439][A
+Train step of epoch 0:   2%|▏         | 109/4533 [17:55<11:02:35,  8.99s/it, gpt_loss=0.361, loss_mean=0.439][A
+[LID Router Debug] Step: 110
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [9, 9, 5, 1, 2, 0, 4, 5, 4, 9, 5, 9, 9, 4]
+Active Experts in Batch: {0, 1, 2, 4, 5, 9}
+2026-01-26 14:05:59.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   2%|▏         | 109/4533 [18:04<11:02:35,  8.99s/it, gpt_loss=0.428, loss_mean=0.438][A
+Train step of epoch 0:   2%|▏         | 110/4533 [18:04<10:56:55,  8.91s/it, gpt_loss=0.428, loss_mean=0.438][A2026-01-26 14:06:08.567 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   2%|▏         | 110/4533 [18:13<10:56:55,  8.91s/it, gpt_loss=0.46, loss_mean=0.44]  [A
+Train step of epoch 0:   2%|▏         | 111/4533 [18:13<11:02:57,  9.00s/it, gpt_loss=0.46, loss_mean=0.44][A2026-01-26 14:06:17.772 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   2%|▏         | 111/4533 [18:22<11:02:57,  9.00s/it, gpt_loss=0.379, loss_mean=0.434][A
+Train step of epoch 0:   2%|▏         | 112/4533 [18:22<11:00:44,  8.97s/it, gpt_loss=0.379, loss_mean=0.434][A2026-01-26 14:06:26.559 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   2%|▏         | 112/4533 [18:31<11:00:44,  8.97s/it, gpt_loss=0.358, loss_mean=0.426][A
+Train step of epoch 0:   2%|▏         | 113/4533 [18:31<11:06:00,  9.04s/it, gpt_loss=0.358, loss_mean=0.426][A2026-01-26 14:06:35.666 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   2%|▏         | 113/4533 [18:40<11:06:00,  9.04s/it, gpt_loss=0.338, loss_mean=0.418][A
+Train step of epoch 0:   3%|▎         | 114/4533 [18:40<10:58:34,  8.94s/it, gpt_loss=0.338, loss_mean=0.418][A2026-01-26 14:06:44.577 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   3%|▎         | 114/4533 [18:49<10:58:34,  8.94s/it, gpt_loss=0.455, loss_mean=0.421][A
+Train step of epoch 0:   3%|▎         | 115/4533 [18:49<10:59:21,  8.95s/it, gpt_loss=0.455, loss_mean=0.421][A2026-01-26 14:06:53.372 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   3%|▎         | 115/4533 [18:58<10:59:21,  8.95s/it, gpt_loss=0.477, loss_mean=0.427][A
+Train step of epoch 0:   3%|▎         | 116/4533 [18:58<11:09:17,  9.09s/it, gpt_loss=0.477, loss_mean=0.427][A2026-01-26 14:07:02.964 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   3%|▎         | 116/4533 [19:08<11:09:17,  9.09s/it, gpt_loss=0.402, loss_mean=0.424][A
+Train step of epoch 0:   3%|▎         | 117/4533 [19:08<11:24:51,  9.31s/it, gpt_loss=0.402, loss_mean=0.424][A2026-01-26 14:07:12.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   3%|▎         | 117/4533 [19:20<11:24:51,  9.31s/it, gpt_loss=0.474, loss_mean=0.429][A
+Train step of epoch 0:   3%|▎         | 118/4533 [19:20<12:18:31, 10.04s/it, gpt_loss=0.474, loss_mean=0.429][A2026-01-26 14:07:24.581 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   3%|▎         | 118/4533 [19:30<12:18:31, 10.04s/it, gpt_loss=0.433, loss_mean=0.43] [A
+Train step of epoch 0:   3%|▎         | 119/4533 [19:30<12:14:41,  9.99s/it, gpt_loss=0.433, loss_mean=0.43][A
+[LID Router Debug] Step: 120
+Batch Size: 14
+Audio Batch Size: 139
+LID Assignments: [0, 6, 5, 1, 1, 1, 1, 2, 3, 0, 3, 5, 1, 0]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6}
+2026-01-26 14:07:34.390 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   3%|▎         | 119/4533 [19:42<12:14:41,  9.99s/it, gpt_loss=0.533, loss_mean=0.44][A
+Train step of epoch 0:   3%|▎         | 120/4533 [19:42<12:54:28, 10.53s/it, gpt_loss=0.533, loss_mean=0.44][A2026-01-26 14:07:46.257 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   3%|▎         | 120/4533 [19:51<12:54:28, 10.53s/it, gpt_loss=0.458, loss_mean=0.442][A
+Train step of epoch 0:   3%|▎         | 121/4533 [19:51<12:35:56, 10.28s/it, gpt_loss=0.458, loss_mean=0.442][A2026-01-26 14:07:55.890 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   3%|▎         | 121/4533 [20:00<12:35:56, 10.28s/it, gpt_loss=0.424, loss_mean=0.44] [A
+Train step of epoch 0:   3%|▎         | 122/4533 [20:00<12:08:47,  9.91s/it, gpt_loss=0.424, loss_mean=0.44][A2026-01-26 14:08:05.066 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   3%|▎         | 122/4533 [20:09<12:08:47,  9.91s/it, gpt_loss=0.411, loss_mean=0.437][A
+Train step of epoch 0:   3%|▎         | 123/4533 [20:09<11:49:16,  9.65s/it, gpt_loss=0.411, loss_mean=0.437][A2026-01-26 14:08:13.984 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   3%|▎         | 123/4533 [20:19<11:49:16,  9.65s/it, gpt_loss=0.477, loss_mean=0.441][A
+Train step of epoch 0:   3%|▎         | 124/4533 [20:19<11:49:11,  9.65s/it, gpt_loss=0.477, loss_mean=0.441][A2026-01-26 14:08:23.460 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   3%|▎         | 124/4533 [20:31<11:49:11,  9.65s/it, gpt_loss=0.462, loss_mean=0.443][A
+Train step of epoch 0:   3%|▎         | 125/4533 [20:31<12:36:52, 10.30s/it, gpt_loss=0.462, loss_mean=0.443][A2026-01-26 14:08:35.195 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   3%|▎         | 125/4533 [20:40<12:36:52, 10.30s/it, gpt_loss=0.4, loss_mean=0.439]  [A
+Train step of epoch 0:   3%|▎         | 126/4533 [20:40<12:16:46, 10.03s/it, gpt_loss=0.4, loss_mean=0.439][A2026-01-26 14:08:44.800 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   3%|▎         | 126/4533 [20:50<12:16:46, 10.03s/it, gpt_loss=0.432, loss_mean=0.438][A
+Train step of epoch 0:   3%|▎         | 127/4533 [20:50<12:07:13,  9.90s/it, gpt_loss=0.432, loss_mean=0.438][A2026-01-26 14:08:54.502 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   3%|▎         | 127/4533 [21:00<12:07:13,  9.90s/it, gpt_loss=0.474, loss_mean=0.442][A
+Train step of epoch 0:   3%|▎         | 128/4533 [21:00<12:03:20,  9.85s/it, gpt_loss=0.474, loss_mean=0.442][A2026-01-26 14:09:04.183 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   3%|▎         | 128/4533 [21:09<12:03:20,  9.85s/it, gpt_loss=0.399, loss_mean=0.437][A
+Train step of epoch 0:   3%|▎         | 129/4533 [21:09<11:43:45,  9.59s/it, gpt_loss=0.399, loss_mean=0.437][A
+[LID Router Debug] Step: 130
+Batch Size: 14
+Audio Batch Size: 158
+LID Assignments: [4, 3, 0, 9, 1, 2, 3, 9, 0, 4, 5, 4, 9, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 14:09:13.083 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   3%|▎         | 129/4533 [21:18<11:43:45,  9.59s/it, gpt_loss=0.446, loss_mean=0.438][A
+Train step of epoch 0:   3%|▎         | 130/4533 [21:18<11:41:14,  9.56s/it, gpt_loss=0.446, loss_mean=0.438][A2026-01-26 14:09:22.599 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   3%|▎         | 130/4533 [21:28<11:41:14,  9.56s/it, gpt_loss=0.447, loss_mean=0.439][A
+Train step of epoch 0:   3%|▎         | 131/4533 [21:28<11:43:38,  9.59s/it, gpt_loss=0.447, loss_mean=0.439][A2026-01-26 14:09:32.295 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   3%|▎         | 131/4533 [21:37<11:43:38,  9.59s/it, gpt_loss=0.372, loss_mean=0.432][A
+Train step of epoch 0:   3%|▎         | 132/4533 [21:37<11:47:15,  9.64s/it, gpt_loss=0.372, loss_mean=0.432][A2026-01-26 14:09:42.070 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   3%|▎         | 132/4533 [21:47<11:47:15,  9.64s/it, gpt_loss=0.438, loss_mean=0.433][A
+Train step of epoch 0:   3%|▎         | 133/4533 [21:47<11:36:31,  9.50s/it, gpt_loss=0.438, loss_mean=0.433][A2026-01-26 14:09:51.263 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   3%|▎         | 133/4533 [21:56<11:36:31,  9.50s/it, gpt_loss=0.335, loss_mean=0.423][A
+Train step of epoch 0:   3%|▎         | 134/4533 [21:56<11:26:10,  9.36s/it, gpt_loss=0.335, loss_mean=0.423][A2026-01-26 14:10:00.357 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   3%|▎         | 134/4533 [22:05<11:26:10,  9.36s/it, gpt_loss=0.444, loss_mean=0.425][A
+Train step of epoch 0:   3%|▎         | 135/4533 [22:05<11:27:00,  9.37s/it, gpt_loss=0.444, loss_mean=0.425][A2026-01-26 14:10:09.683 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   3%|▎         | 135/4533 [22:14<11:27:00,  9.37s/it, gpt_loss=0.317, loss_mean=0.415][A
+Train step of epoch 0:   3%|▎         | 136/4533 [22:14<11:17:14,  9.24s/it, gpt_loss=0.317, loss_mean=0.415][A2026-01-26 14:10:18.455 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   3%|▎         | 136/4533 [22:24<11:17:14,  9.24s/it, gpt_loss=0.437, loss_mean=0.417][A
+Train step of epoch 0:   3%|▎         | 137/4533 [22:24<11:25:38,  9.36s/it, gpt_loss=0.437, loss_mean=0.417][A2026-01-26 14:10:28.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   3%|▎         | 137/4533 [22:33<11:25:38,  9.36s/it, gpt_loss=0.359, loss_mean=0.411][A
+Train step of epoch 0:   3%|▎         | 138/4533 [22:33<11:17:22,  9.25s/it, gpt_loss=0.359, loss_mean=0.411][A2026-01-26 14:10:37.362 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   3%|▎         | 138/4533 [22:42<11:17:22,  9.25s/it, gpt_loss=0.378, loss_mean=0.408][A
+Train step of epoch 0:   3%|▎         | 139/4533 [22:42<11:11:04,  9.16s/it, gpt_loss=0.378, loss_mean=0.408][A
+[LID Router Debug] Step: 140
+Batch Size: 14
+Audio Batch Size: 170
+LID Assignments: [3, 3, 0, 2, 0, 0, 9, 6, 3, 6, 9, 4, 2, 5]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-26 14:10:46.205 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   3%|▎         | 139/4533 [22:51<11:11:04,  9.16s/it, gpt_loss=0.404, loss_mean=0.407][A
+Train step of epoch 0:   3%|▎         | 140/4533 [22:51<11:08:04,  9.12s/it, gpt_loss=0.404, loss_mean=0.407][A2026-01-26 14:10:55.067 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   3%|▎         | 140/4533 [23:00<11:08:04,  9.12s/it, gpt_loss=0.392, loss_mean=0.406][A
+Train step of epoch 0:   3%|▎         | 141/4533 [23:00<11:03:56,  9.07s/it, gpt_loss=0.392, loss_mean=0.406][A2026-01-26 14:11:03.870 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   3%|▎         | 141/4533 [23:08<11:03:56,  9.07s/it, gpt_loss=0.443, loss_mean=0.41] [A
+Train step of epoch 0:   3%|▎         | 142/4533 [23:08<10:53:58,  8.94s/it, gpt_loss=0.443, loss_mean=0.41][A2026-01-26 14:11:12.756 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   3%|▎         | 142/4533 [23:17<10:53:58,  8.94s/it, gpt_loss=0.419, loss_mean=0.411][A
+Train step of epoch 0:   3%|▎         | 143/4533 [23:17<10:55:34,  8.96s/it, gpt_loss=0.419, loss_mean=0.411][A2026-01-26 14:11:21.582 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   3%|▎         | 143/4533 [23:26<10:55:34,  8.96s/it, gpt_loss=0.345, loss_mean=0.404][A
+Train step of epoch 0:   3%|▎         | 144/4533 [23:26<10:55:13,  8.96s/it, gpt_loss=0.345, loss_mean=0.404][A2026-01-26 14:11:30.456 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   3%|▎         | 144/4533 [23:36<10:55:13,  8.96s/it, gpt_loss=0.437, loss_mean=0.407][A
+Train step of epoch 0:   3%|▎         | 145/4533 [23:36<11:09:19,  9.15s/it, gpt_loss=0.437, loss_mean=0.407][A2026-01-26 14:11:40.370 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   3%|▎         | 145/4533 [23:48<11:09:19,  9.15s/it, gpt_loss=0.509, loss_mean=0.417][A
+Train step of epoch 0:   3%|▎         | 146/4533 [23:48<12:08:38,  9.97s/it, gpt_loss=0.509, loss_mean=0.417][A2026-01-26 14:11:52.084 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   3%|▎         | 146/4533 [23:56<12:08:38,  9.97s/it, gpt_loss=0.329, loss_mean=0.409][A
+Train step of epoch 0:   3%|▎         | 147/4533 [23:56<11:41:33,  9.60s/it, gpt_loss=0.329, loss_mean=0.409][A2026-01-26 14:12:01.000 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   3%|▎         | 147/4533 [24:06<11:41:33,  9.60s/it, gpt_loss=0.436, loss_mean=0.411][A
+Train step of epoch 0:   3%|▎         | 148/4533 [24:06<11:43:28,  9.63s/it, gpt_loss=0.436, loss_mean=0.411][A2026-01-26 14:12:10.280 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   3%|▎         | 148/4533 [24:15<11:43:28,  9.63s/it, gpt_loss=0.393, loss_mean=0.41] [A
+Train step of epoch 0:   3%|▎         | 149/4533 [24:15<11:37:20,  9.54s/it, gpt_loss=0.393, loss_mean=0.41][A
+[LID Router Debug] Step: 150
+Batch Size: 14
+Audio Batch Size: 156
+LID Assignments: [4, 1, 2, 5, 2, 9, 9, 3, 3, 4, 9, 2, 2, 4]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-26 14:12:20.064 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   3%|▎         | 149/4533 [24:27<11:37:20,  9.54s/it, gpt_loss=0.509, loss_mean=0.419][A
+Train step of epoch 0:   3%|▎         | 150/4533 [24:27<12:27:57, 10.24s/it, gpt_loss=0.509, loss_mean=0.419][A2026-01-26 14:12:31.583 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   3%|▎         | 150/4533 [24:37<12:27:57, 10.24s/it, gpt_loss=0.375, loss_mean=0.415][A
+Train step of epoch 0:   3%|▎         | 151/4533 [24:37<12:10:13, 10.00s/it, gpt_loss=0.375, loss_mean=0.415][A2026-01-26 14:12:41.075 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   3%|▎         | 151/4533 [24:48<12:10:13, 10.00s/it, gpt_loss=0.453, loss_mean=0.419][A
+Train step of epoch 0:   3%|▎         | 152/4533 [24:48<12:44:35, 10.47s/it, gpt_loss=0.453, loss_mean=0.419][A2026-01-26 14:12:52.663 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   3%|▎         | 152/4533 [24:57<12:44:35, 10.47s/it, gpt_loss=0.324, loss_mean=0.409][A
+Train step of epoch 0:   3%|▎         | 153/4533 [24:57<12:07:13,  9.96s/it, gpt_loss=0.324, loss_mean=0.409][A2026-01-26 14:13:01.489 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   3%|▎         | 153/4533 [25:09<12:07:13,  9.96s/it, gpt_loss=0.437, loss_mean=0.412][A
+Train step of epoch 0:   3%|▎         | 154/4533 [25:09<12:42:17, 10.44s/it, gpt_loss=0.437, loss_mean=0.412][A2026-01-26 14:13:13.373 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   3%|▎         | 154/4533 [25:21<12:42:17, 10.44s/it, gpt_loss=0.481, loss_mean=0.419][A
+Train step of epoch 0:   3%|▎         | 155/4533 [25:21<13:19:37, 10.96s/it, gpt_loss=0.481, loss_mean=0.419][A2026-01-26 14:13:24.965 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   3%|▎         | 155/4533 [25:30<13:19:37, 10.96s/it, gpt_loss=0.458, loss_mean=0.423][A
+Train step of epoch 0:   3%|▎         | 156/4533 [25:30<12:39:36, 10.41s/it, gpt_loss=0.458, loss_mean=0.423][A2026-01-26 14:13:34.663 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   3%|▎         | 156/4533 [25:39<12:39:36, 10.41s/it, gpt_loss=0.371, loss_mean=0.418][A
+Train step of epoch 0:   3%|▎         | 157/4533 [25:39<12:12:56, 10.05s/it, gpt_loss=0.371, loss_mean=0.418][A2026-01-26 14:13:43.761 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   3%|▎         | 157/4533 [25:48<12:12:56, 10.05s/it, gpt_loss=0.369, loss_mean=0.413][A
+Train step of epoch 0:   3%|▎         | 158/4533 [25:48<11:50:01,  9.74s/it, gpt_loss=0.369, loss_mean=0.413][A2026-01-26 14:13:52.800 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   3%|▎         | 158/4533 [25:57<11:50:01,  9.74s/it, gpt_loss=0.421, loss_mean=0.414][A
+Train step of epoch 0:   4%|▎         | 159/4533 [25:57<11:37:35,  9.57s/it, gpt_loss=0.421, loss_mean=0.414][A
+[LID Router Debug] Step: 160
+Batch Size: 14
+Audio Batch Size: 146
+LID Assignments: [2, 2, 3, 9, 6, 5, 6, 4, 5, 9, 5, 1, 4, 3]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-26 14:14:01.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   4%|▎         | 159/4533 [26:09<11:37:35,  9.57s/it, gpt_loss=0.527, loss_mean=0.425][A
+Train step of epoch 0:   4%|▎         | 160/4533 [26:09<12:25:09, 10.22s/it, gpt_loss=0.527, loss_mean=0.425][A2026-01-26 14:14:13.473 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   4%|▎         | 160/4533 [26:18<12:25:09, 10.22s/it, gpt_loss=0.468, loss_mean=0.429][A
+Train step of epoch 0:   4%|▎         | 161/4533 [26:18<11:55:30,  9.82s/it, gpt_loss=0.468, loss_mean=0.429][A2026-01-26 14:14:22.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   4%|▎         | 161/4533 [26:27<11:55:30,  9.82s/it, gpt_loss=0.412, loss_mean=0.428][A
+Train step of epoch 0:   4%|▎         | 162/4533 [26:27<11:41:59,  9.64s/it, gpt_loss=0.412, loss_mean=0.428][A2026-01-26 14:14:31.800 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   4%|▎         | 162/4533 [26:39<11:41:59,  9.64s/it, gpt_loss=0.465, loss_mean=0.431][A
+Train step of epoch 0:   4%|▎         | 163/4533 [26:39<12:39:30, 10.43s/it, gpt_loss=0.465, loss_mean=0.431][A2026-01-26 14:14:44.161 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   4%|▎         | 163/4533 [26:51<12:39:30, 10.43s/it, gpt_loss=0.51, loss_mean=0.439] [A
+Train step of epoch 0:   4%|▎         | 164/4533 [26:51<13:13:09, 10.89s/it, gpt_loss=0.51, loss_mean=0.439][A2026-01-26 14:14:56.058 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   4%|▎         | 164/4533 [27:04<13:13:09, 10.89s/it, gpt_loss=0.418, loss_mean=0.437][A
+Train step of epoch 0:   4%|▎         | 165/4533 [27:04<13:41:49, 11.29s/it, gpt_loss=0.418, loss_mean=0.437][A2026-01-26 14:15:08.068 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   4%|▎         | 165/4533 [27:12<13:41:49, 11.29s/it, gpt_loss=0.352, loss_mean=0.429][A
+Train step of epoch 0:   4%|▎         | 166/4533 [27:12<12:42:50, 10.48s/it, gpt_loss=0.352, loss_mean=0.429][A2026-01-26 14:15:16.778 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   4%|▎         | 166/4533 [27:21<12:42:50, 10.48s/it, gpt_loss=0.413, loss_mean=0.427][A
+Train step of epoch 0:   4%|▎         | 167/4533 [27:21<12:06:21,  9.98s/it, gpt_loss=0.413, loss_mean=0.427][A2026-01-26 14:15:25.468 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   4%|▎         | 167/4533 [27:30<12:06:21,  9.98s/it, gpt_loss=0.495, loss_mean=0.434][A
+Train step of epoch 0:   4%|▎         | 168/4533 [27:30<11:54:10,  9.82s/it, gpt_loss=0.495, loss_mean=0.434][A2026-01-26 14:15:35.081 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   4%|▎         | 168/4533 [27:42<11:54:10,  9.82s/it, gpt_loss=0.501, loss_mean=0.44] [A
+Train step of epoch 0:   4%|▎         | 169/4533 [27:42<12:39:42, 10.45s/it, gpt_loss=0.501, loss_mean=0.44][A
+[LID Router Debug] Step: 170
+Batch Size: 14
+Audio Batch Size: 143
+LID Assignments: [1, 2, 4, 2, 0, 0, 2, 5, 3, 0, 0, 1, 3, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5}
+2026-01-26 14:15:46.791 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   4%|▎         | 169/4533 [27:52<12:39:42, 10.45s/it, gpt_loss=0.319, loss_mean=0.428][A
+Train step of epoch 0:   4%|▍         | 170/4533 [27:52<12:11:39, 10.06s/it, gpt_loss=0.319, loss_mean=0.428][A2026-01-26 14:15:56.077 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   4%|▍         | 170/4533 [28:04<12:11:39, 10.06s/it, gpt_loss=0.524, loss_mean=0.438][A
+Train step of epoch 0:   4%|▍         | 171/4533 [28:04<12:54:24, 10.65s/it, gpt_loss=0.524, loss_mean=0.438][A2026-01-26 14:16:07.981 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   4%|▍         | 171/4533 [28:15<12:54:24, 10.65s/it, gpt_loss=0.508, loss_mean=0.445][A
+Train step of epoch 0:   4%|▍         | 172/4533 [28:15<13:18:01, 10.98s/it, gpt_loss=0.508, loss_mean=0.445][A2026-01-26 14:16:19.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   4%|▍         | 172/4533 [28:27<13:18:01, 10.98s/it, gpt_loss=0.435, loss_mean=0.444][A
+Train step of epoch 0:   4%|▍         | 173/4533 [28:27<13:32:38, 11.18s/it, gpt_loss=0.435, loss_mean=0.444][A2026-01-26 14:16:31.569 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   4%|▍         | 173/4533 [28:36<13:32:38, 11.18s/it, gpt_loss=0.466, loss_mean=0.446][A
+Train step of epoch 0:   4%|▍         | 174/4533 [28:36<12:45:10, 10.53s/it, gpt_loss=0.466, loss_mean=0.446][A2026-01-26 14:16:40.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   4%|▍         | 174/4533 [28:48<12:45:10, 10.53s/it, gpt_loss=0.438, loss_mean=0.445][A
+Train step of epoch 0:   4%|▍         | 175/4533 [28:48<13:17:13, 10.98s/it, gpt_loss=0.438, loss_mean=0.445][A2026-01-26 14:16:52.289 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   4%|▍         | 175/4533 [28:57<13:17:13, 10.98s/it, gpt_loss=0.419, loss_mean=0.443][A
+Train step of epoch 0:   4%|▍         | 176/4533 [28:57<12:42:40, 10.50s/it, gpt_loss=0.419, loss_mean=0.443][A2026-01-26 14:17:01.998 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   4%|▍         | 176/4533 [29:09<12:42:40, 10.50s/it, gpt_loss=0.478, loss_mean=0.446][A
+Train step of epoch 0:   4%|▍         | 177/4533 [29:09<13:15:19, 10.95s/it, gpt_loss=0.478, loss_mean=0.446][A2026-01-26 14:17:13.693 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   4%|▍         | 177/4533 [29:21<13:15:19, 10.95s/it, gpt_loss=0.469, loss_mean=0.448][A
+Train step of epoch 0:   4%|▍         | 178/4533 [29:21<13:33:33, 11.21s/it, gpt_loss=0.469, loss_mean=0.448][A2026-01-26 14:17:25.869 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   4%|▍         | 178/4533 [29:33<13:33:33, 11.21s/it, gpt_loss=0.498, loss_mean=0.453][A
+Train step of epoch 0:   4%|▍         | 179/4533 [29:33<13:52:40, 11.47s/it, gpt_loss=0.498, loss_mean=0.453][A
+[LID Router Debug] Step: 180
+Batch Size: 14
+Audio Batch Size: 155
+LID Assignments: [0, 9, 1, 1, 0, 0, 6, 0, 2, 2, 5, 4, 3, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 14:17:37.461 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   4%|▍         | 179/4533 [29:45<13:52:40, 11.47s/it, gpt_loss=0.444, loss_mean=0.453][A
+Train step of epoch 0:   4%|▍         | 180/4533 [29:45<13:56:36, 11.53s/it, gpt_loss=0.444, loss_mean=0.453][A2026-01-26 14:17:49.482 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   4%|▍         | 180/4533 [29:57<13:56:36, 11.53s/it, gpt_loss=0.491, loss_mean=0.456][A
+Train step of epoch 0:   4%|▍         | 181/4533 [29:57<14:01:47, 11.61s/it, gpt_loss=0.491, loss_mean=0.456][A2026-01-26 14:18:01.190 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   4%|▍         | 181/4533 [30:06<14:01:47, 11.61s/it, gpt_loss=0.398, loss_mean=0.451][A
+Train step of epoch 0:   4%|▍         | 182/4533 [30:06<13:07:30, 10.86s/it, gpt_loss=0.398, loss_mean=0.451][A2026-01-26 14:18:10.380 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   4%|▍         | 182/4533 [30:15<13:07:30, 10.86s/it, gpt_loss=0.355, loss_mean=0.441][A
+Train step of epoch 0:   4%|▍         | 183/4533 [30:15<12:38:50, 10.47s/it, gpt_loss=0.355, loss_mean=0.441][A2026-01-26 14:18:20.090 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   4%|▍         | 183/4533 [30:25<12:38:50, 10.47s/it, gpt_loss=0.433, loss_mean=0.44] [A
+Train step of epoch 0:   4%|▍         | 184/4533 [30:25<12:21:04, 10.22s/it, gpt_loss=0.433, loss_mean=0.44][A2026-01-26 14:18:29.690 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   4%|▍         | 184/4533 [30:34<12:21:04, 10.22s/it, gpt_loss=0.324, loss_mean=0.429][A
+Train step of epoch 0:   4%|▍         | 185/4533 [30:34<11:48:02,  9.77s/it, gpt_loss=0.324, loss_mean=0.429][A2026-01-26 14:18:38.190 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   4%|▍         | 185/4533 [30:43<11:48:02,  9.77s/it, gpt_loss=0.315, loss_mean=0.417][A
+Train step of epoch 0:   4%|▍         | 186/4533 [30:43<11:33:17,  9.57s/it, gpt_loss=0.315, loss_mean=0.417][A2026-01-26 14:18:47.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   4%|▍         | 186/4533 [30:52<11:33:17,  9.57s/it, gpt_loss=0.343, loss_mean=0.41] [A
+Train step of epoch 0:   4%|▍         | 187/4533 [30:52<11:28:31,  9.51s/it, gpt_loss=0.343, loss_mean=0.41][A2026-01-26 14:18:56.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   4%|▍         | 187/4533 [31:01<11:28:31,  9.51s/it, gpt_loss=0.415, loss_mean=0.41][A
+Train step of epoch 0:   4%|▍         | 188/4533 [31:01<11:12:04,  9.28s/it, gpt_loss=0.415, loss_mean=0.41][A2026-01-26 14:19:05.583 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   4%|▍         | 188/4533 [31:10<11:12:04,  9.28s/it, gpt_loss=0.363, loss_mean=0.406][A
+Train step of epoch 0:   4%|▍         | 189/4533 [31:10<11:00:24,  9.12s/it, gpt_loss=0.363, loss_mean=0.406][A
+[LID Router Debug] Step: 190
+Batch Size: 14
+Audio Batch Size: 177
+LID Assignments: [9, 1, 9, 1, 4, 3, 9, 3, 0, 3, 9, 4, 0, 0]
+Active Experts in Batch: {0, 1, 3, 4, 9}
+2026-01-26 14:19:14.499 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   4%|▍         | 189/4533 [31:19<11:00:24,  9.12s/it, gpt_loss=0.396, loss_mean=0.405][A
+Train step of epoch 0:   4%|▍         | 190/4533 [31:19<10:58:41,  9.10s/it, gpt_loss=0.396, loss_mean=0.405][A2026-01-26 14:19:23.457 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   4%|▍         | 190/4533 [31:31<10:58:41,  9.10s/it, gpt_loss=0.531, loss_mean=0.417][A
+Train step of epoch 0:   4%|▍         | 191/4533 [31:31<11:56:59,  9.91s/it, gpt_loss=0.531, loss_mean=0.417][A2026-01-26 14:19:35.101 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   4%|▍         | 191/4533 [31:40<11:56:59,  9.91s/it, gpt_loss=0.366, loss_mean=0.412][A
+Train step of epoch 0:   4%|▍         | 192/4533 [31:40<11:39:53,  9.67s/it, gpt_loss=0.366, loss_mean=0.412][A2026-01-26 14:19:44.065 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   4%|▍         | 192/4533 [31:49<11:39:53,  9.67s/it, gpt_loss=0.42, loss_mean=0.413] [A
+Train step of epoch 0:   4%|▍         | 193/4533 [31:49<11:26:05,  9.49s/it, gpt_loss=0.42, loss_mean=0.413][A2026-01-26 14:19:53.474 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   4%|▍         | 193/4533 [31:58<11:26:05,  9.49s/it, gpt_loss=0.396, loss_mean=0.411][A
+Train step of epoch 0:   4%|▍         | 194/4533 [31:58<11:12:32,  9.30s/it, gpt_loss=0.396, loss_mean=0.411][A2026-01-26 14:20:02.281 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   4%|▍         | 194/4533 [32:07<11:12:32,  9.30s/it, gpt_loss=0.405, loss_mean=0.411][A
+Train step of epoch 0:   4%|▍         | 195/4533 [32:07<11:19:29,  9.40s/it, gpt_loss=0.405, loss_mean=0.411][A2026-01-26 14:20:11.804 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   4%|▍         | 195/4533 [32:16<11:19:29,  9.40s/it, gpt_loss=0.369, loss_mean=0.406][A
+Train step of epoch 0:   4%|▍         | 196/4533 [32:16<11:06:25,  9.22s/it, gpt_loss=0.369, loss_mean=0.406][A2026-01-26 14:20:20.755 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   4%|▍         | 196/4533 [32:26<11:06:25,  9.22s/it, gpt_loss=0.33, loss_mean=0.399] [A
+Train step of epoch 0:   4%|▍         | 197/4533 [32:26<11:13:31,  9.32s/it, gpt_loss=0.33, loss_mean=0.399][A2026-01-26 14:20:30.187 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   4%|▍         | 197/4533 [32:35<11:13:31,  9.32s/it, gpt_loss=0.328, loss_mean=0.392][A
+Train step of epoch 0:   4%|▍         | 198/4533 [32:35<11:07:44,  9.24s/it, gpt_loss=0.328, loss_mean=0.392][A2026-01-26 14:20:39.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   4%|▍         | 198/4533 [32:44<11:07:44,  9.24s/it, gpt_loss=0.406, loss_mean=0.393][A
+Train step of epoch 0:   4%|▍         | 199/4533 [32:44<11:13:12,  9.32s/it, gpt_loss=0.406, loss_mean=0.393][A
+[LID Router Debug] Step: 200
+Batch Size: 14
+Audio Batch Size: 149
+LID Assignments: [4, 9, 5, 2, 3, 3, 5, 1, 2, 4, 2, 3, 1, 9]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-26 14:20:48.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+[2026-01-26 14:20:56,937] [INFO] [logging.py:96:log_dist] [Rank 0] step=200, skipped=0, lr=[1.9998884838071788e-05, 1.9998884838071788e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 14:20:56,938] [INFO] [timer.py:260:stop] epoch=0/micro_step=200/global_step=200, RunningAvgSamplesPerSec=5.7420204391127765, CurrSamplesPerSec=6.329575245259866, MemAllocated=14.86GB, MaxMemAllocated=53.02GB
+
+Train step of epoch 0:   4%|▍         | 199/4533 [32:53<11:13:12,  9.32s/it, gpt_loss=0.353, loss_mean=0.389][A
+Train step of epoch 0:   4%|▍         | 200/4533 [32:53<11:03:16,  9.18s/it, gpt_loss=0.353, loss_mean=0.389][A2026-01-26 14:20:57.575 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   4%|▍         | 200/4533 [33:02<11:03:16,  9.18s/it, gpt_loss=0.334, loss_mean=0.384][A
+Train step of epoch 0:   4%|▍         | 201/4533 [33:02<10:53:44,  9.05s/it, gpt_loss=0.334, loss_mean=0.384][A2026-01-26 14:21:06.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   4%|▍         | 201/4533 [33:11<10:53:44,  9.05s/it, gpt_loss=0.314, loss_mean=0.377][A
+Train step of epoch 0:   4%|▍         | 202/4533 [33:11<10:49:25,  9.00s/it, gpt_loss=0.314, loss_mean=0.377][A2026-01-26 14:21:15.357 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   4%|▍         | 202/4533 [33:20<10:49:25,  9.00s/it, gpt_loss=0.352, loss_mean=0.374][A
+Train step of epoch 0:   4%|▍         | 203/4533 [33:20<10:47:36,  8.97s/it, gpt_loss=0.352, loss_mean=0.374][A2026-01-26 14:21:24.075 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   4%|▍         | 203/4533 [33:29<10:47:36,  8.97s/it, gpt_loss=0.38, loss_mean=0.375] [A
+Train step of epoch 0:   5%|▍         | 204/4533 [33:29<10:59:02,  9.13s/it, gpt_loss=0.38, loss_mean=0.375][A2026-01-26 14:21:33.592 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   5%|▍         | 204/4533 [33:38<10:59:02,  9.13s/it, gpt_loss=0.39, loss_mean=0.376][A
+Train step of epoch 0:   5%|▍         | 205/4533 [33:38<10:49:40,  9.01s/it, gpt_loss=0.39, loss_mean=0.376][A2026-01-26 14:21:42.157 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   5%|▍         | 205/4533 [33:46<10:49:40,  9.01s/it, gpt_loss=0.344, loss_mean=0.373][A
+Train step of epoch 0:   5%|▍         | 206/4533 [33:46<10:42:22,  8.91s/it, gpt_loss=0.344, loss_mean=0.373][A2026-01-26 14:21:51.094 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   5%|▍         | 206/4533 [33:56<10:42:22,  8.91s/it, gpt_loss=0.422, loss_mean=0.378][A
+Train step of epoch 0:   5%|▍         | 207/4533 [33:56<11:00:18,  9.16s/it, gpt_loss=0.422, loss_mean=0.378][A2026-01-26 14:22:00.890 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   5%|▍         | 207/4533 [34:05<11:00:18,  9.16s/it, gpt_loss=0.376, loss_mean=0.378][A
+Train step of epoch 0:   5%|▍         | 208/4533 [34:05<10:56:41,  9.11s/it, gpt_loss=0.376, loss_mean=0.378][A2026-01-26 14:22:09.783 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   5%|▍         | 208/4533 [34:17<10:56:41,  9.11s/it, gpt_loss=0.366, loss_mean=0.377][A
+Train step of epoch 0:   5%|▍         | 209/4533 [34:17<12:00:17,  9.99s/it, gpt_loss=0.366, loss_mean=0.377][A
+[LID Router Debug] Step: 210
+Batch Size: 14
+Audio Batch Size: 180
+LID Assignments: [5, 2, 9, 3, 4, 5, 2, 0, 0, 9, 2, 2, 9, 2]
+Active Experts in Batch: {0, 2, 3, 4, 5, 9}
+2026-01-26 14:22:21.578 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   5%|▍         | 209/4533 [34:26<12:00:17,  9.99s/it, gpt_loss=0.392, loss_mean=0.378][A
+Train step of epoch 0:   5%|▍         | 210/4533 [34:26<11:28:32,  9.56s/it, gpt_loss=0.392, loss_mean=0.378][A2026-01-26 14:22:29.971 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   5%|▍         | 210/4533 [34:34<11:28:32,  9.56s/it, gpt_loss=0.432, loss_mean=0.384][A
+Train step of epoch 0:   5%|▍         | 211/4533 [34:34<11:02:44,  9.20s/it, gpt_loss=0.432, loss_mean=0.384][A2026-01-26 14:22:38.688 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   5%|▍         | 211/4533 [34:46<11:02:44,  9.20s/it, gpt_loss=0.501, loss_mean=0.395][A
+Train step of epoch 0:   5%|▍         | 212/4533 [34:46<12:00:21, 10.00s/it, gpt_loss=0.501, loss_mean=0.395][A2026-01-26 14:22:50.270 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   5%|▍         | 212/4533 [34:54<12:00:21, 10.00s/it, gpt_loss=0.457, loss_mean=0.401][A
+Train step of epoch 0:   5%|▍         | 213/4533 [34:54<11:24:42,  9.51s/it, gpt_loss=0.457, loss_mean=0.401][A2026-01-26 14:22:58.870 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   5%|▍         | 213/4533 [35:06<11:24:42,  9.51s/it, gpt_loss=0.501, loss_mean=0.411][A
+Train step of epoch 0:   5%|▍         | 214/4533 [35:06<12:17:03, 10.24s/it, gpt_loss=0.501, loss_mean=0.411][A2026-01-26 14:23:10.867 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   5%|▍         | 214/4533 [35:16<12:17:03, 10.24s/it, gpt_loss=0.369, loss_mean=0.407][A
+Train step of epoch 0:   5%|▍         | 215/4533 [35:16<11:54:37,  9.93s/it, gpt_loss=0.369, loss_mean=0.407][A2026-01-26 14:23:19.969 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   5%|▍         | 215/4533 [35:24<11:54:37,  9.93s/it, gpt_loss=0.389, loss_mean=0.405][A
+Train step of epoch 0:   5%|▍         | 216/4533 [35:24<11:28:21,  9.57s/it, gpt_loss=0.389, loss_mean=0.405][A2026-01-26 14:23:28.673 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   5%|▍         | 216/4533 [35:36<11:28:21,  9.57s/it, gpt_loss=0.372, loss_mean=0.402][A
+Train step of epoch 0:   5%|▍         | 217/4533 [35:36<12:12:15, 10.18s/it, gpt_loss=0.372, loss_mean=0.402][A2026-01-26 14:23:40.009 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   5%|▍         | 217/4533 [35:44<12:12:15, 10.18s/it, gpt_loss=0.386, loss_mean=0.4]  [A
+Train step of epoch 0:   5%|▍         | 218/4533 [35:44<11:32:34,  9.63s/it, gpt_loss=0.386, loss_mean=0.4][A2026-01-26 14:23:48.856 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   5%|▍         | 218/4533 [35:54<11:32:34,  9.63s/it, gpt_loss=0.376, loss_mean=0.398][A
+Train step of epoch 0:   5%|▍         | 219/4533 [35:54<11:32:16,  9.63s/it, gpt_loss=0.376, loss_mean=0.398][A
+[LID Router Debug] Step: 220
+Batch Size: 14
+Audio Batch Size: 128
+LID Assignments: [4, 5, 1, 0, 6, 1, 3, 0, 1, 4, 4, 5, 9, 0]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6, 9}
+2026-01-26 14:23:58.256 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   5%|▍         | 219/4533 [36:03<11:32:16,  9.63s/it, gpt_loss=0.354, loss_mean=0.394][A
+Train step of epoch 0:   5%|▍         | 220/4533 [36:03<11:27:38,  9.57s/it, gpt_loss=0.354, loss_mean=0.394][A2026-01-26 14:24:07.890 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   5%|▍         | 220/4533 [36:15<11:27:38,  9.57s/it, gpt_loss=0.45, loss_mean=0.399] [A
+Train step of epoch 0:   5%|▍         | 221/4533 [36:15<12:17:03, 10.26s/it, gpt_loss=0.45, loss_mean=0.399][A2026-01-26 14:24:19.690 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   5%|▍         | 221/4533 [36:27<12:17:03, 10.26s/it, gpt_loss=0.484, loss_mean=0.408][A
+Train step of epoch 0:   5%|▍         | 222/4533 [36:27<12:49:22, 10.71s/it, gpt_loss=0.484, loss_mean=0.408][A2026-01-26 14:24:31.179 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   5%|▍         | 222/4533 [36:36<12:49:22, 10.71s/it, gpt_loss=0.354, loss_mean=0.402][A
+Train step of epoch 0:   5%|▍         | 223/4533 [36:36<12:17:02, 10.26s/it, gpt_loss=0.354, loss_mean=0.402][A2026-01-26 14:24:40.692 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   5%|▍         | 223/4533 [36:48<12:17:02, 10.26s/it, gpt_loss=0.479, loss_mean=0.41] [A
+Train step of epoch 0:   5%|▍         | 224/4533 [36:48<12:58:07, 10.83s/it, gpt_loss=0.479, loss_mean=0.41][A2026-01-26 14:24:52.787 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   5%|▍         | 224/4533 [37:00<12:58:07, 10.83s/it, gpt_loss=0.508, loss_mean=0.42][A
+Train step of epoch 0:   5%|▍         | 225/4533 [37:00<13:14:17, 11.06s/it, gpt_loss=0.508, loss_mean=0.42][A2026-01-26 14:25:03.960 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   5%|▍         | 225/4533 [37:09<13:14:17, 11.06s/it, gpt_loss=0.458, loss_mean=0.424][A
+Train step of epoch 0:   5%|▍         | 226/4533 [37:09<12:43:06, 10.63s/it, gpt_loss=0.458, loss_mean=0.424][A2026-01-26 14:25:13.780 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   5%|▍         | 226/4533 [37:18<12:43:06, 10.63s/it, gpt_loss=0.345, loss_mean=0.416][A
+Train step of epoch 0:   5%|▌         | 227/4533 [37:18<11:53:54,  9.95s/it, gpt_loss=0.345, loss_mean=0.416][A2026-01-26 14:25:22.279 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   5%|▌         | 227/4533 [37:27<11:53:54,  9.95s/it, gpt_loss=0.476, loss_mean=0.422][A
+Train step of epoch 0:   5%|▌         | 228/4533 [37:27<11:42:52,  9.80s/it, gpt_loss=0.476, loss_mean=0.422][A2026-01-26 14:25:31.793 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   5%|▌         | 228/4533 [37:37<11:42:52,  9.80s/it, gpt_loss=0.44, loss_mean=0.424] [A
+Train step of epoch 0:   5%|▌         | 229/4533 [37:37<11:39:44,  9.75s/it, gpt_loss=0.44, loss_mean=0.424][A
+[LID Router Debug] Step: 230
+Batch Size: 14
+Audio Batch Size: 192
+LID Assignments: [3, 9, 4, 2, 2, 0, 3, 2, 5, 2, 3, 6, 5, 3]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-26 14:25:41.506 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   5%|▌         | 229/4533 [37:46<11:39:44,  9.75s/it, gpt_loss=0.328, loss_mean=0.414][A
+Train step of epoch 0:   5%|▌         | 230/4533 [37:46<11:21:52,  9.51s/it, gpt_loss=0.328, loss_mean=0.414][A2026-01-26 14:25:50.302 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   5%|▌         | 230/4533 [37:58<11:21:52,  9.51s/it, gpt_loss=0.525, loss_mean=0.425][A
+Train step of epoch 0:   5%|▌         | 231/4533 [37:58<12:11:31, 10.20s/it, gpt_loss=0.525, loss_mean=0.425][A2026-01-26 14:26:02.400 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   5%|▌         | 231/4533 [38:07<12:11:31, 10.20s/it, gpt_loss=0.337, loss_mean=0.416][A
+Train step of epoch 0:   5%|▌         | 232/4533 [38:07<11:45:48,  9.85s/it, gpt_loss=0.337, loss_mean=0.416][A2026-01-26 14:26:11.291 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   5%|▌         | 232/4533 [38:16<11:45:48,  9.85s/it, gpt_loss=0.353, loss_mean=0.41] [A
+Train step of epoch 0:   5%|▌         | 233/4533 [38:16<11:36:46,  9.72s/it, gpt_loss=0.353, loss_mean=0.41][A2026-01-26 14:26:20.869 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   5%|▌         | 233/4533 [38:28<11:36:46,  9.72s/it, gpt_loss=0.591, loss_mean=0.428][A
+Train step of epoch 0:   5%|▌         | 234/4533 [38:28<12:21:57, 10.36s/it, gpt_loss=0.591, loss_mean=0.428][A2026-01-26 14:26:32.293 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   5%|▌         | 234/4533 [38:36<12:21:57, 10.36s/it, gpt_loss=0.425, loss_mean=0.428][A
+Train step of epoch 0:   5%|▌         | 235/4533 [38:36<11:40:12,  9.77s/it, gpt_loss=0.425, loss_mean=0.428][A2026-01-26 14:26:41.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   5%|▌         | 235/4533 [38:46<11:40:12,  9.77s/it, gpt_loss=0.452, loss_mean=0.43] [A
+Train step of epoch 0:   5%|▌         | 236/4533 [38:46<11:29:32,  9.63s/it, gpt_loss=0.452, loss_mean=0.43][A2026-01-26 14:26:50.400 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   5%|▌         | 236/4533 [38:58<11:29:32,  9.63s/it, gpt_loss=0.458, loss_mean=0.433][A
+Train step of epoch 0:   5%|▌         | 237/4533 [38:58<12:18:14, 10.31s/it, gpt_loss=0.458, loss_mean=0.433][A2026-01-26 14:27:02.097 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   5%|▌         | 237/4533 [39:06<12:18:14, 10.31s/it, gpt_loss=0.38, loss_mean=0.428] [A
+Train step of epoch 0:   5%|▌         | 238/4533 [39:06<11:45:40,  9.86s/it, gpt_loss=0.38, loss_mean=0.428][A2026-01-26 14:27:11.086 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   5%|▌         | 238/4533 [39:18<11:45:40,  9.86s/it, gpt_loss=0.448, loss_mean=0.43][A
+Train step of epoch 0:   5%|▌         | 239/4533 [39:18<12:24:15, 10.40s/it, gpt_loss=0.448, loss_mean=0.43][A
+[LID Router Debug] Step: 240
+Batch Size: 14
+Audio Batch Size: 147
+LID Assignments: [4, 1, 3, 4, 3, 0, 5, 6, 4, 5, 9, 4, 9, 0]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6, 9}
+2026-01-26 14:27:22.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   5%|▌         | 239/4533 [39:27<12:24:15, 10.40s/it, gpt_loss=0.37, loss_mean=0.424][A
+Train step of epoch 0:   5%|▌         | 240/4533 [39:27<11:43:54,  9.84s/it, gpt_loss=0.37, loss_mean=0.424][A2026-01-26 14:27:31.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   5%|▌         | 240/4533 [39:36<11:43:54,  9.84s/it, gpt_loss=0.298, loss_mean=0.411][A
+Train step of epoch 0:   5%|▌         | 241/4533 [39:36<11:25:38,  9.58s/it, gpt_loss=0.298, loss_mean=0.411][A2026-01-26 14:27:40.195 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   5%|▌         | 241/4533 [39:45<11:25:38,  9.58s/it, gpt_loss=0.424, loss_mean=0.412][A
+Train step of epoch 0:   5%|▌         | 242/4533 [39:45<11:25:10,  9.58s/it, gpt_loss=0.424, loss_mean=0.412][A2026-01-26 14:27:49.559 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   5%|▌         | 242/4533 [39:57<11:25:10,  9.58s/it, gpt_loss=0.397, loss_mean=0.411][A
+Train step of epoch 0:   5%|▌         | 243/4533 [39:57<12:12:55, 10.25s/it, gpt_loss=0.397, loss_mean=0.411][A2026-01-26 14:28:01.288 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   5%|▌         | 243/4533 [40:06<12:12:55, 10.25s/it, gpt_loss=0.308, loss_mean=0.401][A
+Train step of epoch 0:   5%|▌         | 244/4533 [40:06<11:42:31,  9.83s/it, gpt_loss=0.308, loss_mean=0.401][A2026-01-26 14:28:10.551 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   5%|▌         | 244/4533 [40:15<11:42:31,  9.83s/it, gpt_loss=0.319, loss_mean=0.392][A
+Train step of epoch 0:   5%|▌         | 245/4533 [40:15<11:22:47,  9.55s/it, gpt_loss=0.319, loss_mean=0.392][A2026-01-26 14:28:19.373 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   5%|▌         | 245/4533 [40:24<11:22:47,  9.55s/it, gpt_loss=0.371, loss_mean=0.39] [A
+Train step of epoch 0:   5%|▌         | 246/4533 [40:24<11:23:40,  9.57s/it, gpt_loss=0.371, loss_mean=0.39][A2026-01-26 14:28:28.753 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   5%|▌         | 246/4533 [40:36<11:23:40,  9.57s/it, gpt_loss=0.389, loss_mean=0.39][A
+Train step of epoch 0:   5%|▌         | 247/4533 [40:36<12:12:56, 10.26s/it, gpt_loss=0.389, loss_mean=0.39][A2026-01-26 14:28:40.790 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   5%|▌         | 247/4533 [40:45<12:12:56, 10.26s/it, gpt_loss=0.329, loss_mean=0.384][A
+Train step of epoch 0:   5%|▌         | 248/4533 [40:45<11:43:43,  9.85s/it, gpt_loss=0.329, loss_mean=0.384][A2026-01-26 14:28:49.859 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   5%|▌         | 248/4533 [40:57<11:43:43,  9.85s/it, gpt_loss=0.407, loss_mean=0.386][A
+Train step of epoch 0:   5%|▌         | 249/4533 [40:57<12:34:10, 10.56s/it, gpt_loss=0.407, loss_mean=0.386][A
+[LID Router Debug] Step: 250
+Batch Size: 14
+Audio Batch Size: 126
+LID Assignments: [1, 5, 2, 4, 1, 2, 9, 3, 1, 5, 2, 9, 4, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 14:29:01.501 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   5%|▌         | 249/4533 [41:06<12:34:10, 10.56s/it, gpt_loss=0.316, loss_mean=0.379][A
+Train step of epoch 0:   6%|▌         | 250/4533 [41:06<11:46:26,  9.90s/it, gpt_loss=0.316, loss_mean=0.379][A2026-01-26 14:29:10.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   6%|▌         | 250/4533 [41:14<11:46:26,  9.90s/it, gpt_loss=0.393, loss_mean=0.381][A
+Train step of epoch 0:   6%|▌         | 251/4533 [41:14<11:21:02,  9.54s/it, gpt_loss=0.393, loss_mean=0.381][A2026-01-26 14:29:18.653 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   6%|▌         | 251/4533 [41:24<11:21:02,  9.54s/it, gpt_loss=0.426, loss_mean=0.385][A
+Train step of epoch 0:   6%|▌         | 252/4533 [41:24<11:19:26,  9.52s/it, gpt_loss=0.426, loss_mean=0.385][A2026-01-26 14:29:28.269 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   6%|▌         | 252/4533 [41:36<11:19:26,  9.52s/it, gpt_loss=0.478, loss_mean=0.394][A
+Train step of epoch 0:   6%|▌         | 253/4533 [41:36<12:08:59, 10.22s/it, gpt_loss=0.478, loss_mean=0.394][A2026-01-26 14:29:40.054 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   6%|▌         | 253/4533 [41:44<12:08:59, 10.22s/it, gpt_loss=0.379, loss_mean=0.393][A
+Train step of epoch 0:   6%|▌         | 254/4533 [41:44<11:33:05,  9.72s/it, gpt_loss=0.379, loss_mean=0.393][A2026-01-26 14:29:48.873 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   6%|▌         | 254/4533 [41:53<11:33:05,  9.72s/it, gpt_loss=0.341, loss_mean=0.388][A
+Train step of epoch 0:   6%|▌         | 255/4533 [41:53<11:17:58,  9.51s/it, gpt_loss=0.341, loss_mean=0.388][A2026-01-26 14:29:57.472 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   6%|▌         | 255/4533 [42:02<11:17:58,  9.51s/it, gpt_loss=0.317, loss_mean=0.381][A
+Train step of epoch 0:   6%|▌         | 256/4533 [42:02<10:51:50,  9.14s/it, gpt_loss=0.317, loss_mean=0.381][A2026-01-26 14:30:06.091 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   6%|▌         | 256/4533 [42:11<10:51:50,  9.14s/it, gpt_loss=0.29, loss_mean=0.372] [A
+Train step of epoch 0:   6%|▌         | 257/4533 [42:11<10:53:02,  9.16s/it, gpt_loss=0.29, loss_mean=0.372][A2026-01-26 14:30:15.377 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   6%|▌         | 257/4533 [42:23<10:53:02,  9.16s/it, gpt_loss=0.444, loss_mean=0.379][A
+Train step of epoch 0:   6%|▌         | 258/4533 [42:23<11:48:56,  9.95s/it, gpt_loss=0.444, loss_mean=0.379][A2026-01-26 14:30:27.185 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   6%|▌         | 258/4533 [42:34<11:48:56,  9.95s/it, gpt_loss=0.4, loss_mean=0.381]  [A
+Train step of epoch 0:   6%|▌         | 259/4533 [42:34<12:26:13, 10.48s/it, gpt_loss=0.4, loss_mean=0.381][A
+[LID Router Debug] Step: 260
+Batch Size: 14
+Audio Batch Size: 151
+LID Assignments: [1, 2, 1, 2, 6, 3, 3, 2, 5, 5, 2, 1, 2, 0]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6}
+2026-01-26 14:30:38.963 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   6%|▌         | 259/4533 [42:43<12:26:13, 10.48s/it, gpt_loss=0.353, loss_mean=0.378][A
+Train step of epoch 0:   6%|▌         | 260/4533 [42:43<11:50:34,  9.98s/it, gpt_loss=0.353, loss_mean=0.378][A2026-01-26 14:30:47.272 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   6%|▌         | 260/4533 [42:54<11:50:34,  9.98s/it, gpt_loss=0.422, loss_mean=0.382][A
+Train step of epoch 0:   6%|▌         | 261/4533 [42:54<12:19:17, 10.38s/it, gpt_loss=0.422, loss_mean=0.382][A2026-01-26 14:30:58.894 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   6%|▌         | 261/4533 [43:06<12:19:17, 10.38s/it, gpt_loss=0.389, loss_mean=0.383][A
+Train step of epoch 0:   6%|▌         | 262/4533 [43:06<12:46:58, 10.77s/it, gpt_loss=0.389, loss_mean=0.383][A2026-01-26 14:31:10.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   6%|▌         | 262/4533 [43:15<12:46:58, 10.77s/it, gpt_loss=0.359, loss_mean=0.381][A
+Train step of epoch 0:   6%|▌         | 263/4533 [43:15<12:08:21, 10.23s/it, gpt_loss=0.359, loss_mean=0.381][A2026-01-26 14:31:19.664 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   6%|▌         | 263/4533 [43:27<12:08:21, 10.23s/it, gpt_loss=0.49, loss_mean=0.392] [A
+Train step of epoch 0:   6%|▌         | 264/4533 [43:27<12:48:16, 10.80s/it, gpt_loss=0.49, loss_mean=0.392][A2026-01-26 14:31:31.575 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   6%|▌         | 264/4533 [43:39<12:48:16, 10.80s/it, gpt_loss=0.359, loss_mean=0.388][A
+Train step of epoch 0:   6%|▌         | 265/4533 [43:39<13:07:05, 11.07s/it, gpt_loss=0.359, loss_mean=0.388][A2026-01-26 14:31:43.565 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   6%|▌         | 265/4533 [43:51<13:07:05, 11.07s/it, gpt_loss=0.392, loss_mean=0.389][A
+Train step of epoch 0:   6%|▌         | 266/4533 [43:51<13:30:02, 11.39s/it, gpt_loss=0.392, loss_mean=0.389][A2026-01-26 14:31:55.560 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   6%|▌         | 266/4533 [44:03<13:30:02, 11.39s/it, gpt_loss=0.435, loss_mean=0.393][A
+Train step of epoch 0:   6%|▌         | 267/4533 [44:03<13:39:09, 11.52s/it, gpt_loss=0.435, loss_mean=0.393][A2026-01-26 14:32:07.178 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   6%|▌         | 267/4533 [44:15<13:39:09, 11.52s/it, gpt_loss=0.408, loss_mean=0.395][A
+Train step of epoch 0:   6%|▌         | 268/4533 [44:15<13:47:28, 11.64s/it, gpt_loss=0.408, loss_mean=0.395][A2026-01-26 14:32:19.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   6%|▌         | 268/4533 [44:24<13:47:28, 11.64s/it, gpt_loss=0.315, loss_mean=0.387][A
+Train step of epoch 0:   6%|▌         | 269/4533 [44:24<13:05:31, 11.05s/it, gpt_loss=0.315, loss_mean=0.387][A
+[LID Router Debug] Step: 270
+Batch Size: 14
+Audio Batch Size: 142
+LID Assignments: [2, 3, 2, 2, 1, 5, 4, 0, 1, 3, 1, 0, 0, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5}
+2026-01-26 14:32:29.169 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   6%|▌         | 269/4533 [44:33<13:05:31, 11.05s/it, gpt_loss=0.455, loss_mean=0.394][A
+Train step of epoch 0:   6%|▌         | 270/4533 [44:33<12:19:16, 10.40s/it, gpt_loss=0.455, loss_mean=0.394][A2026-01-26 14:32:37.692 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   6%|▌         | 270/4533 [44:45<12:19:16, 10.40s/it, gpt_loss=0.42, loss_mean=0.396] [A
+Train step of epoch 0:   6%|▌         | 271/4533 [44:45<12:55:35, 10.92s/it, gpt_loss=0.42, loss_mean=0.396][A2026-01-26 14:32:49.794 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   6%|▌         | 271/4533 [44:57<12:55:35, 10.92s/it, gpt_loss=0.45, loss_mean=0.402][A
+Train step of epoch 0:   6%|▌         | 272/4533 [44:57<13:10:23, 11.13s/it, gpt_loss=0.45, loss_mean=0.402][A2026-01-26 14:33:01.491 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   6%|▌         | 272/4533 [45:06<13:10:23, 11.13s/it, gpt_loss=0.353, loss_mean=0.397][A
+Train step of epoch 0:   6%|▌         | 273/4533 [45:06<12:32:18, 10.60s/it, gpt_loss=0.353, loss_mean=0.397][A2026-01-26 14:33:11.073 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   6%|▌         | 273/4533 [45:15<12:32:18, 10.60s/it, gpt_loss=0.504, loss_mean=0.408][A
+Train step of epoch 0:   6%|▌         | 274/4533 [45:15<11:52:50, 10.04s/it, gpt_loss=0.504, loss_mean=0.408][A2026-01-26 14:33:19.672 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   6%|▌         | 274/4533 [45:24<11:52:50, 10.04s/it, gpt_loss=0.402, loss_mean=0.407][A
+Train step of epoch 0:   6%|▌         | 275/4533 [45:24<11:21:01,  9.60s/it, gpt_loss=0.402, loss_mean=0.407][A2026-01-26 14:33:28.267 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   6%|▌         | 275/4533 [45:35<11:21:01,  9.60s/it, gpt_loss=0.451, loss_mean=0.412][A
+Train step of epoch 0:   6%|▌         | 276/4533 [45:35<12:03:28, 10.20s/it, gpt_loss=0.451, loss_mean=0.412][A2026-01-26 14:33:39.563 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   6%|▌         | 276/4533 [45:44<12:03:28, 10.20s/it, gpt_loss=0.361, loss_mean=0.407][A
+Train step of epoch 0:   6%|▌         | 277/4533 [45:44<11:27:15,  9.69s/it, gpt_loss=0.361, loss_mean=0.407][A2026-01-26 14:33:48.376 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   6%|▌         | 277/4533 [45:56<11:27:15,  9.69s/it, gpt_loss=0.509, loss_mean=0.417][A
+Train step of epoch 0:   6%|▌         | 278/4533 [45:56<12:12:05, 10.32s/it, gpt_loss=0.509, loss_mean=0.417][A2026-01-26 14:34:00.196 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   6%|▌         | 278/4533 [46:05<12:12:05, 10.32s/it, gpt_loss=0.349, loss_mean=0.41] [A
+Train step of epoch 0:   6%|▌         | 279/4533 [46:05<11:47:17,  9.98s/it, gpt_loss=0.349, loss_mean=0.41][A
+[LID Router Debug] Step: 280
+Batch Size: 14
+Audio Batch Size: 149
+LID Assignments: [1, 3, 4, 3, 4, 0, 9, 0, 3, 6, 5, 9, 1, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 14:34:09.469 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   6%|▌         | 279/4533 [46:16<11:47:17,  9.98s/it, gpt_loss=0.411, loss_mean=0.41][A
+Train step of epoch 0:   6%|▌         | 280/4533 [46:16<12:22:07, 10.47s/it, gpt_loss=0.411, loss_mean=0.41][A2026-01-26 14:34:21.063 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   6%|▌         | 280/4533 [46:25<12:22:07, 10.47s/it, gpt_loss=0.345, loss_mean=0.404][A
+Train step of epoch 0:   6%|▌         | 281/4533 [46:25<11:48:19, 10.00s/it, gpt_loss=0.345, loss_mean=0.404][A2026-01-26 14:34:29.890 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   6%|▌         | 281/4533 [46:34<11:48:19, 10.00s/it, gpt_loss=0.302, loss_mean=0.393][A
+Train step of epoch 0:   6%|▌         | 282/4533 [46:34<11:28:46,  9.72s/it, gpt_loss=0.302, loss_mean=0.393][A2026-01-26 14:34:38.863 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   6%|▌         | 282/4533 [46:43<11:28:46,  9.72s/it, gpt_loss=0.348, loss_mean=0.389][A
+Train step of epoch 0:   6%|▌         | 283/4533 [46:43<11:10:21,  9.46s/it, gpt_loss=0.348, loss_mean=0.389][A2026-01-26 14:34:47.860 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   6%|▌         | 283/4533 [46:55<11:10:21,  9.46s/it, gpt_loss=0.423, loss_mean=0.392][A
+Train step of epoch 0:   6%|▋         | 284/4533 [46:55<12:02:01, 10.20s/it, gpt_loss=0.423, loss_mean=0.392][A2026-01-26 14:34:59.807 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   6%|▋         | 284/4533 [47:04<12:02:01, 10.20s/it, gpt_loss=0.317, loss_mean=0.385][A
+Train step of epoch 0:   6%|▋         | 285/4533 [47:04<11:33:41,  9.80s/it, gpt_loss=0.317, loss_mean=0.385][A2026-01-26 14:35:08.762 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   6%|▋         | 285/4533 [47:14<11:33:41,  9.80s/it, gpt_loss=0.348, loss_mean=0.381][A
+Train step of epoch 0:   6%|▋         | 286/4533 [47:14<11:36:13,  9.84s/it, gpt_loss=0.348, loss_mean=0.381][A2026-01-26 14:35:18.183 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   6%|▋         | 286/4533 [47:23<11:36:13,  9.84s/it, gpt_loss=0.413, loss_mean=0.384][A
+Train step of epoch 0:   6%|▋         | 287/4533 [47:23<11:26:03,  9.69s/it, gpt_loss=0.413, loss_mean=0.384][A2026-01-26 14:35:27.586 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   6%|▋         | 287/4533 [47:33<11:26:03,  9.69s/it, gpt_loss=0.407, loss_mean=0.387][A
+Train step of epoch 0:   6%|▋         | 288/4533 [47:33<11:15:24,  9.55s/it, gpt_loss=0.407, loss_mean=0.387][A2026-01-26 14:35:37.077 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   6%|▋         | 288/4533 [47:41<11:15:24,  9.55s/it, gpt_loss=0.305, loss_mean=0.378][A
+Train step of epoch 0:   6%|▋         | 289/4533 [47:41<10:58:18,  9.31s/it, gpt_loss=0.305, loss_mean=0.378][A
+[LID Router Debug] Step: 290
+Batch Size: 14
+Audio Batch Size: 112
+LID Assignments: [2, 5, 4, 0, 5, 1, 5, 4, 0, 2, 9, 1, 4, 2]
+Active Experts in Batch: {0, 1, 2, 4, 5, 9}
+2026-01-26 14:35:45.873 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   6%|▋         | 289/4533 [47:53<10:58:18,  9.31s/it, gpt_loss=0.467, loss_mean=0.387][A
+Train step of epoch 0:   6%|▋         | 290/4533 [47:53<11:48:50, 10.02s/it, gpt_loss=0.467, loss_mean=0.387][A2026-01-26 14:35:57.265 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   6%|▋         | 290/4533 [48:02<11:48:50, 10.02s/it, gpt_loss=0.398, loss_mean=0.388][A
+Train step of epoch 0:   6%|▋         | 291/4533 [48:02<11:22:25,  9.65s/it, gpt_loss=0.398, loss_mean=0.388][A2026-01-26 14:36:06.077 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   6%|▋         | 291/4533 [48:13<11:22:25,  9.65s/it, gpt_loss=0.645, loss_mean=0.414][A
+Train step of epoch 0:   6%|▋         | 292/4533 [48:13<12:00:05, 10.19s/it, gpt_loss=0.645, loss_mean=0.414][A2026-01-26 14:36:17.662 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   6%|▋         | 292/4533 [48:22<12:00:05, 10.19s/it, gpt_loss=0.409, loss_mean=0.413][A
+Train step of epoch 0:   6%|▋         | 293/4533 [48:22<11:31:12,  9.78s/it, gpt_loss=0.409, loss_mean=0.413][A2026-01-26 14:36:26.184 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   6%|▋         | 293/4533 [48:31<11:31:12,  9.78s/it, gpt_loss=0.378, loss_mean=0.41] [A
+Train step of epoch 0:   6%|▋         | 294/4533 [48:31<11:22:51,  9.67s/it, gpt_loss=0.378, loss_mean=0.41][A2026-01-26 14:36:36.096 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   6%|▋         | 294/4533 [48:40<11:22:51,  9.67s/it, gpt_loss=0.448, loss_mean=0.414][A
+Train step of epoch 0:   7%|▋         | 295/4533 [48:40<11:04:50,  9.41s/it, gpt_loss=0.448, loss_mean=0.414][A2026-01-26 14:36:44.565 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   7%|▋         | 295/4533 [48:49<11:04:50,  9.41s/it, gpt_loss=0.521, loss_mean=0.424][A
+Train step of epoch 0:   7%|▋         | 296/4533 [48:49<10:49:23,  9.20s/it, gpt_loss=0.521, loss_mean=0.424][A2026-01-26 14:36:53.387 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   7%|▋         | 296/4533 [49:01<10:49:23,  9.20s/it, gpt_loss=0.451, loss_mean=0.427][A
+Train step of epoch 0:   7%|▋         | 297/4533 [49:01<11:43:36,  9.97s/it, gpt_loss=0.451, loss_mean=0.427][A2026-01-26 14:37:05.371 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   7%|▋         | 297/4533 [49:09<11:43:36,  9.97s/it, gpt_loss=0.374, loss_mean=0.422][A
+Train step of epoch 0:   7%|▋         | 298/4533 [49:09<11:18:20,  9.61s/it, gpt_loss=0.374, loss_mean=0.422][A2026-01-26 14:37:13.989 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   7%|▋         | 298/4533 [49:18<11:18:20,  9.61s/it, gpt_loss=0.413, loss_mean=0.421][A
+Train step of epoch 0:   7%|▋         | 299/4533 [49:18<11:04:02,  9.41s/it, gpt_loss=0.413, loss_mean=0.421][A
+[LID Router Debug] Step: 300
+Batch Size: 14
+Audio Batch Size: 126
+LID Assignments: [0, 3, 4, 0, 4, 1, 1, 2, 2, 2, 2, 1, 2, 6]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6}
+2026-01-26 14:37:22.859 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+[2026-01-26 14:37:31,075] [INFO] [logging.py:96:log_dist] [Rank 0] step=300, skipped=0, lr=[1.999267815130822e-05, 1.999267815130822e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 14:37:31,076] [INFO] [timer.py:260:stop] epoch=0/micro_step=300/global_step=300, RunningAvgSamplesPerSec=5.708887384750072, CurrSamplesPerSec=6.4222597703067805, MemAllocated=14.81GB, MaxMemAllocated=53.02GB
+
+Train step of epoch 0:   7%|▋         | 299/4533 [49:27<11:04:02,  9.41s/it, gpt_loss=0.357, loss_mean=0.415][A
+Train step of epoch 0:   7%|▋         | 300/4533 [49:27<10:49:40,  9.21s/it, gpt_loss=0.357, loss_mean=0.415][A2026-01-26 14:37:31.697 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   7%|▋         | 300/4533 [49:37<10:49:40,  9.21s/it, gpt_loss=0.389, loss_mean=0.412][A
+Train step of epoch 0:   7%|▋         | 301/4533 [49:37<10:57:06,  9.32s/it, gpt_loss=0.389, loss_mean=0.412][A2026-01-26 14:37:41.456 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   7%|▋         | 301/4533 [49:46<10:57:06,  9.32s/it, gpt_loss=0.336, loss_mean=0.404][A
+Train step of epoch 0:   7%|▋         | 302/4533 [49:46<10:47:51,  9.19s/it, gpt_loss=0.336, loss_mean=0.404][A2026-01-26 14:37:50.199 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   7%|▋         | 302/4533 [49:55<10:47:51,  9.19s/it, gpt_loss=0.362, loss_mean=0.4]  [A
+Train step of epoch 0:   7%|▋         | 303/4533 [49:55<10:45:06,  9.15s/it, gpt_loss=0.362, loss_mean=0.4][A2026-01-26 14:37:59.286 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   7%|▋         | 303/4533 [50:04<10:45:06,  9.15s/it, gpt_loss=0.333, loss_mean=0.393][A
+Train step of epoch 0:   7%|▋         | 304/4533 [50:04<10:38:55,  9.06s/it, gpt_loss=0.333, loss_mean=0.393][A2026-01-26 14:38:07.975 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   7%|▋         | 304/4533 [50:12<10:38:55,  9.06s/it, gpt_loss=0.306, loss_mean=0.385][A
+Train step of epoch 0:   7%|▋         | 305/4533 [50:12<10:35:44,  9.02s/it, gpt_loss=0.306, loss_mean=0.385][A2026-01-26 14:38:16.973 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   7%|▋         | 305/4533 [50:22<10:35:44,  9.02s/it, gpt_loss=0.31, loss_mean=0.377] [A
+Train step of epoch 0:   7%|▋         | 306/4533 [50:22<10:46:45,  9.18s/it, gpt_loss=0.31, loss_mean=0.377][A2026-01-26 14:38:26.680 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   7%|▋         | 306/4533 [50:31<10:46:45,  9.18s/it, gpt_loss=0.282, loss_mean=0.368][A
+Train step of epoch 0:   7%|▋         | 307/4533 [50:31<10:46:29,  9.18s/it, gpt_loss=0.282, loss_mean=0.368][A2026-01-26 14:38:35.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   7%|▋         | 307/4533 [50:40<10:46:29,  9.18s/it, gpt_loss=0.476, loss_mean=0.378][A
+Train step of epoch 0:   7%|▋         | 308/4533 [50:40<10:35:32,  9.03s/it, gpt_loss=0.476, loss_mean=0.378][A2026-01-26 14:38:44.553 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   7%|▋         | 308/4533 [50:52<10:35:32,  9.03s/it, gpt_loss=0.418, loss_mean=0.382][A
+Train step of epoch 0:   7%|▋         | 309/4533 [50:52<11:34:54,  9.87s/it, gpt_loss=0.418, loss_mean=0.382][A
+[LID Router Debug] Step: 310
+Batch Size: 14
+Audio Batch Size: 126
+LID Assignments: [5, 5, 5, 5, 5, 1, 6, 9, 1, 4, 9, 9, 2, 2]
+Active Experts in Batch: {1, 2, 4, 5, 6, 9}
+2026-01-26 14:38:56.378 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   7%|▋         | 309/4533 [51:02<11:34:54,  9.87s/it, gpt_loss=0.364, loss_mean=0.381][A
+Train step of epoch 0:   7%|▋         | 310/4533 [51:02<11:39:17,  9.94s/it, gpt_loss=0.364, loss_mean=0.381][A2026-01-26 14:39:06.272 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   7%|▋         | 310/4533 [51:14<11:39:17,  9.94s/it, gpt_loss=0.478, loss_mean=0.39] [A
+Train step of epoch 0:   7%|▋         | 311/4533 [51:14<12:19:43, 10.51s/it, gpt_loss=0.478, loss_mean=0.39][A2026-01-26 14:39:18.368 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   7%|▋         | 311/4533 [51:23<12:19:43, 10.51s/it, gpt_loss=0.322, loss_mean=0.384][A
+Train step of epoch 0:   7%|▋         | 312/4533 [51:23<11:48:00, 10.06s/it, gpt_loss=0.322, loss_mean=0.384][A2026-01-26 14:39:27.353 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   7%|▋         | 312/4533 [51:35<11:48:00, 10.06s/it, gpt_loss=0.481, loss_mean=0.393][A
+Train step of epoch 0:   7%|▋         | 313/4533 [51:35<12:27:30, 10.63s/it, gpt_loss=0.481, loss_mean=0.393][A2026-01-26 14:39:38.953 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   7%|▋         | 313/4533 [51:44<12:27:30, 10.63s/it, gpt_loss=0.288, loss_mean=0.383][A
+Train step of epoch 0:   7%|▋         | 314/4533 [51:44<12:02:44, 10.28s/it, gpt_loss=0.288, loss_mean=0.383][A2026-01-26 14:39:48.059 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   7%|▋         | 314/4533 [51:54<12:02:44, 10.28s/it, gpt_loss=0.376, loss_mean=0.382][A
+Train step of epoch 0:   7%|▋         | 315/4533 [51:54<11:47:15, 10.06s/it, gpt_loss=0.376, loss_mean=0.382][A2026-01-26 14:39:58.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   7%|▋         | 315/4533 [52:03<11:47:15, 10.06s/it, gpt_loss=0.436, loss_mean=0.387][A
+Train step of epoch 0:   7%|▋         | 316/4533 [52:03<11:26:22,  9.77s/it, gpt_loss=0.436, loss_mean=0.387][A2026-01-26 14:40:07.057 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   7%|▋         | 316/4533 [52:11<11:26:22,  9.77s/it, gpt_loss=0.267, loss_mean=0.375][A
+Train step of epoch 0:   7%|▋         | 317/4533 [52:11<11:00:14,  9.40s/it, gpt_loss=0.267, loss_mean=0.375][A2026-01-26 14:40:15.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   7%|▋         | 317/4533 [52:20<11:00:14,  9.40s/it, gpt_loss=0.365, loss_mean=0.374][A
+Train step of epoch 0:   7%|▋         | 318/4533 [52:20<10:50:19,  9.26s/it, gpt_loss=0.365, loss_mean=0.374][A2026-01-26 14:40:24.682 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   7%|▋         | 318/4533 [52:30<10:50:19,  9.26s/it, gpt_loss=0.294, loss_mean=0.366][A
+Train step of epoch 0:   7%|▋         | 319/4533 [52:30<10:59:34,  9.39s/it, gpt_loss=0.294, loss_mean=0.366][A
+[LID Router Debug] Step: 320
+Batch Size: 14
+Audio Batch Size: 148
+LID Assignments: [0, 2, 5, 1, 1, 2, 3, 4, 4, 3, 0, 4, 0, 6]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6}
+2026-01-26 14:40:34.069 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   7%|▋         | 319/4533 [52:41<10:59:34,  9.39s/it, gpt_loss=0.411, loss_mean=0.371][A
+Train step of epoch 0:   7%|▋         | 320/4533 [52:41<11:42:40, 10.01s/it, gpt_loss=0.411, loss_mean=0.371][A2026-01-26 14:40:45.853 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   7%|▋         | 320/4533 [52:51<11:42:40, 10.01s/it, gpt_loss=0.454, loss_mean=0.379][A
+Train step of epoch 0:   7%|▋         | 321/4533 [52:51<11:31:33,  9.85s/it, gpt_loss=0.454, loss_mean=0.379][A2026-01-26 14:40:55.284 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   7%|▋         | 321/4533 [53:00<11:31:33,  9.85s/it, gpt_loss=0.333, loss_mean=0.374][A
+Train step of epoch 0:   7%|▋         | 322/4533 [53:00<11:17:12,  9.65s/it, gpt_loss=0.333, loss_mean=0.374][A2026-01-26 14:41:04.684 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   7%|▋         | 322/4533 [53:10<11:17:12,  9.65s/it, gpt_loss=0.374, loss_mean=0.374][A
+Train step of epoch 0:   7%|▋         | 323/4533 [53:10<11:17:25,  9.65s/it, gpt_loss=0.374, loss_mean=0.374][A2026-01-26 14:41:14.192 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   7%|▋         | 323/4533 [53:19<11:17:25,  9.65s/it, gpt_loss=0.323, loss_mean=0.369][A
+Train step of epoch 0:   7%|▋         | 324/4533 [53:19<11:01:13,  9.43s/it, gpt_loss=0.323, loss_mean=0.369][A2026-01-26 14:41:22.964 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   7%|▋         | 324/4533 [53:27<11:01:13,  9.43s/it, gpt_loss=0.316, loss_mean=0.364][A
+Train step of epoch 0:   7%|▋         | 325/4533 [53:27<10:42:17,  9.16s/it, gpt_loss=0.316, loss_mean=0.364][A2026-01-26 14:41:31.369 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   7%|▋         | 325/4533 [53:36<10:42:17,  9.16s/it, gpt_loss=0.308, loss_mean=0.358][A
+Train step of epoch 0:   7%|▋         | 326/4533 [53:36<10:30:15,  8.99s/it, gpt_loss=0.308, loss_mean=0.358][A2026-01-26 14:41:40.300 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   7%|▋         | 326/4533 [53:45<10:30:15,  8.99s/it, gpt_loss=0.397, loss_mean=0.362][A
+Train step of epoch 0:   7%|▋         | 327/4533 [53:45<10:32:08,  9.02s/it, gpt_loss=0.397, loss_mean=0.362][A2026-01-26 14:41:49.369 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   7%|▋         | 327/4533 [53:54<10:32:08,  9.02s/it, gpt_loss=0.322, loss_mean=0.358][A
+Train step of epoch 0:   7%|▋         | 328/4533 [53:54<10:30:24,  9.00s/it, gpt_loss=0.322, loss_mean=0.358][A2026-01-26 14:41:58.058 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   7%|▋         | 328/4533 [54:03<10:30:24,  9.00s/it, gpt_loss=0.362, loss_mean=0.359][A
+Train step of epoch 0:   7%|▋         | 329/4533 [54:03<10:40:33,  9.14s/it, gpt_loss=0.362, loss_mean=0.359][A
+[LID Router Debug] Step: 330
+Batch Size: 14
+Audio Batch Size: 161
+LID Assignments: [2, 3, 6, 0, 3, 0, 4, 0, 6, 9, 9, 3, 0, 9]
+Active Experts in Batch: {0, 2, 3, 4, 6, 9}
+2026-01-26 14:42:07.583 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   7%|▋         | 329/4533 [54:13<10:40:33,  9.14s/it, gpt_loss=0.401, loss_mean=0.363][A
+Train step of epoch 0:   7%|▋         | 330/4533 [54:13<10:53:09,  9.32s/it, gpt_loss=0.401, loss_mean=0.363][A2026-01-26 14:42:17.580 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   7%|▋         | 330/4533 [54:22<10:53:09,  9.32s/it, gpt_loss=0.308, loss_mean=0.357][A
+Train step of epoch 0:   7%|▋         | 331/4533 [54:22<10:46:03,  9.22s/it, gpt_loss=0.308, loss_mean=0.357][A2026-01-26 14:42:26.588 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   7%|▋         | 331/4533 [54:31<10:46:03,  9.22s/it, gpt_loss=0.318, loss_mean=0.353][A
+Train step of epoch 0:   7%|▋         | 332/4533 [54:31<10:50:25,  9.29s/it, gpt_loss=0.318, loss_mean=0.353][A2026-01-26 14:42:35.972 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   7%|▋         | 332/4533 [54:43<10:50:25,  9.29s/it, gpt_loss=0.497, loss_mean=0.368][A
+Train step of epoch 0:   7%|▋         | 333/4533 [54:43<11:42:49, 10.04s/it, gpt_loss=0.497, loss_mean=0.368][A2026-01-26 14:42:47.872 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   7%|▋         | 333/4533 [54:52<11:42:49, 10.04s/it, gpt_loss=0.357, loss_mean=0.367][A
+Train step of epoch 0:   7%|▋         | 334/4533 [54:52<11:17:28,  9.68s/it, gpt_loss=0.357, loss_mean=0.367][A2026-01-26 14:42:56.590 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   7%|▋         | 334/4533 [55:01<11:17:28,  9.68s/it, gpt_loss=0.33, loss_mean=0.363] [A
+Train step of epoch 0:   7%|▋         | 335/4533 [55:01<11:01:41,  9.46s/it, gpt_loss=0.33, loss_mean=0.363][A2026-01-26 14:43:05.360 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   7%|▋         | 335/4533 [55:09<11:01:41,  9.46s/it, gpt_loss=0.328, loss_mean=0.36][A
+Train step of epoch 0:   7%|▋         | 336/4533 [55:09<10:39:47,  9.15s/it, gpt_loss=0.328, loss_mean=0.36][A2026-01-26 14:43:13.969 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   7%|▋         | 336/4533 [55:18<10:39:47,  9.15s/it, gpt_loss=0.332, loss_mean=0.357][A
+Train step of epoch 0:   7%|▋         | 337/4533 [55:18<10:36:39,  9.10s/it, gpt_loss=0.332, loss_mean=0.357][A2026-01-26 14:43:22.659 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   7%|▋         | 337/4533 [55:27<10:36:39,  9.10s/it, gpt_loss=0.374, loss_mean=0.358][A
+Train step of epoch 0:   7%|▋         | 338/4533 [55:27<10:25:29,  8.95s/it, gpt_loss=0.374, loss_mean=0.358][A2026-01-26 14:43:31.587 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   7%|▋         | 338/4533 [55:36<10:25:29,  8.95s/it, gpt_loss=0.348, loss_mean=0.357][A
+Train step of epoch 0:   7%|▋         | 339/4533 [55:36<10:29:13,  9.00s/it, gpt_loss=0.348, loss_mean=0.357][A
+[LID Router Debug] Step: 340
+Batch Size: 14
+Audio Batch Size: 140
+LID Assignments: [5, 9, 9, 5, 9, 2, 4, 6, 2, 2, 4, 5, 3, 3]
+Active Experts in Batch: {2, 3, 4, 5, 6, 9}
+2026-01-26 14:43:40.378 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   7%|▋         | 339/4533 [55:45<10:29:13,  9.00s/it, gpt_loss=0.373, loss_mean=0.359][A
+Train step of epoch 0:   8%|▊         | 340/4533 [55:45<10:35:44,  9.10s/it, gpt_loss=0.373, loss_mean=0.359][A2026-01-26 14:43:49.590 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   8%|▊         | 340/4533 [55:54<10:35:44,  9.10s/it, gpt_loss=0.396, loss_mean=0.363][A
+Train step of epoch 0:   8%|▊         | 341/4533 [55:54<10:24:30,  8.94s/it, gpt_loss=0.396, loss_mean=0.363][A2026-01-26 14:43:58.390 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   8%|▊         | 341/4533 [56:02<10:24:30,  8.94s/it, gpt_loss=0.346, loss_mean=0.361][A
+Train step of epoch 0:   8%|▊         | 342/4533 [56:02<10:15:22,  8.81s/it, gpt_loss=0.346, loss_mean=0.361][A2026-01-26 14:44:07.167 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   8%|▊         | 342/4533 [56:12<10:15:22,  8.81s/it, gpt_loss=0.359, loss_mean=0.361][A
+Train step of epoch 0:   8%|▊         | 343/4533 [56:12<10:19:56,  8.88s/it, gpt_loss=0.359, loss_mean=0.361][A2026-01-26 14:44:16.197 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   8%|▊         | 343/4533 [56:20<10:19:56,  8.88s/it, gpt_loss=0.372, loss_mean=0.362][A
+Train step of epoch 0:   8%|▊         | 344/4533 [56:20<10:20:34,  8.89s/it, gpt_loss=0.372, loss_mean=0.362][A2026-01-26 14:44:25.155 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   8%|▊         | 344/4533 [56:29<10:20:34,  8.89s/it, gpt_loss=0.329, loss_mean=0.359][A
+Train step of epoch 0:   8%|▊         | 345/4533 [56:29<10:20:24,  8.89s/it, gpt_loss=0.329, loss_mean=0.359][A2026-01-26 14:44:33.799 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   8%|▊         | 345/4533 [56:41<10:20:24,  8.89s/it, gpt_loss=0.465, loss_mean=0.369][A
+Train step of epoch 0:   8%|▊         | 346/4533 [56:41<11:15:05,  9.67s/it, gpt_loss=0.465, loss_mean=0.369][A2026-01-26 14:44:45.561 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   8%|▊         | 346/4533 [56:53<11:15:05,  9.67s/it, gpt_loss=0.619, loss_mean=0.394][A
+Train step of epoch 0:   8%|▊         | 347/4533 [56:53<12:08:09, 10.44s/it, gpt_loss=0.619, loss_mean=0.394][A2026-01-26 14:44:57.602 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   8%|▊         | 347/4533 [57:03<12:08:09, 10.44s/it, gpt_loss=0.404, loss_mean=0.395][A
+Train step of epoch 0:   8%|▊         | 348/4533 [57:03<11:50:09, 10.18s/it, gpt_loss=0.404, loss_mean=0.395][A2026-01-26 14:45:07.189 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   8%|▊         | 348/4533 [57:12<11:50:09, 10.18s/it, gpt_loss=0.342, loss_mean=0.39] [A
+Train step of epoch 0:   8%|▊         | 349/4533 [57:12<11:38:34, 10.02s/it, gpt_loss=0.342, loss_mean=0.39][A
+[LID Router Debug] Step: 350
+Batch Size: 14
+Audio Batch Size: 119
+LID Assignments: [6, 9, 5, 1, 9, 1, 4, 4, 2, 1, 4, 0, 9, 0]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-26 14:45:16.685 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   8%|▊         | 349/4533 [57:22<11:38:34, 10.02s/it, gpt_loss=0.374, loss_mean=0.388][A
+Train step of epoch 0:   8%|▊         | 350/4533 [57:22<11:28:00,  9.87s/it, gpt_loss=0.374, loss_mean=0.388][A2026-01-26 14:45:26.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   8%|▊         | 350/4533 [57:31<11:28:00,  9.87s/it, gpt_loss=0.36, loss_mean=0.386] [A
+Train step of epoch 0:   8%|▊         | 351/4533 [57:31<11:08:36,  9.59s/it, gpt_loss=0.36, loss_mean=0.386][A2026-01-26 14:45:35.191 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   8%|▊         | 351/4533 [57:39<11:08:36,  9.59s/it, gpt_loss=0.321, loss_mean=0.379][A
+Train step of epoch 0:   8%|▊         | 352/4533 [57:39<10:49:15,  9.32s/it, gpt_loss=0.321, loss_mean=0.379][A2026-01-26 14:45:43.968 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   8%|▊         | 352/4533 [57:51<10:49:15,  9.32s/it, gpt_loss=0.425, loss_mean=0.384][A
+Train step of epoch 0:   8%|▊         | 353/4533 [57:51<11:40:41, 10.06s/it, gpt_loss=0.425, loss_mean=0.384][A2026-01-26 14:45:55.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   8%|▊         | 353/4533 [58:01<11:40:41, 10.06s/it, gpt_loss=0.342, loss_mean=0.38] [A
+Train step of epoch 0:   8%|▊         | 354/4533 [58:01<11:32:06,  9.94s/it, gpt_loss=0.342, loss_mean=0.38][A2026-01-26 14:46:05.465 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   8%|▊         | 354/4533 [58:10<11:32:06,  9.94s/it, gpt_loss=0.423, loss_mean=0.384][A
+Train step of epoch 0:   8%|▊         | 355/4533 [58:10<11:14:43,  9.69s/it, gpt_loss=0.423, loss_mean=0.384][A2026-01-26 14:46:14.566 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   8%|▊         | 355/4533 [58:19<11:14:43,  9.69s/it, gpt_loss=0.353, loss_mean=0.381][A
+Train step of epoch 0:   8%|▊         | 356/4533 [58:19<10:54:43,  9.40s/it, gpt_loss=0.353, loss_mean=0.381][A2026-01-26 14:46:23.288 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   8%|▊         | 356/4533 [58:28<10:54:43,  9.40s/it, gpt_loss=0.383, loss_mean=0.381][A
+Train step of epoch 0:   8%|▊         | 357/4533 [58:28<10:42:29,  9.23s/it, gpt_loss=0.383, loss_mean=0.381][A2026-01-26 14:46:32.184 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   8%|▊         | 357/4533 [58:36<10:42:29,  9.23s/it, gpt_loss=0.302, loss_mean=0.373][A
+Train step of epoch 0:   8%|▊         | 358/4533 [58:36<10:32:38,  9.09s/it, gpt_loss=0.302, loss_mean=0.373][A2026-01-26 14:46:40.961 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   8%|▊         | 358/4533 [58:45<10:32:38,  9.09s/it, gpt_loss=0.388, loss_mean=0.375][A
+Train step of epoch 0:   8%|▊         | 359/4533 [58:45<10:33:34,  9.11s/it, gpt_loss=0.388, loss_mean=0.375][A
+[LID Router Debug] Step: 360
+Batch Size: 14
+Audio Batch Size: 156
+LID Assignments: [0, 1, 3, 5, 3, 9, 1, 1, 9, 4, 9, 4, 3, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 14:46:50.098 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   8%|▊         | 359/4533 [58:55<10:33:34,  9.11s/it, gpt_loss=0.372, loss_mean=0.374][A
+Train step of epoch 0:   8%|▊         | 360/4533 [58:55<10:44:09,  9.26s/it, gpt_loss=0.372, loss_mean=0.374][A2026-01-26 14:46:59.697 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   8%|▊         | 360/4533 [59:04<10:44:09,  9.26s/it, gpt_loss=0.322, loss_mean=0.369][A
+Train step of epoch 0:   8%|▊         | 361/4533 [59:04<10:38:49,  9.19s/it, gpt_loss=0.322, loss_mean=0.369][A2026-01-26 14:47:08.465 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   8%|▊         | 361/4533 [59:13<10:38:49,  9.19s/it, gpt_loss=0.388, loss_mean=0.371][A
+Train step of epoch 0:   8%|▊         | 362/4533 [59:13<10:43:02,  9.25s/it, gpt_loss=0.388, loss_mean=0.371][A2026-01-26 14:47:17.770 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   8%|▊         | 362/4533 [59:22<10:43:02,  9.25s/it, gpt_loss=0.39, loss_mean=0.373] [A
+Train step of epoch 0:   8%|▊         | 363/4533 [59:22<10:25:16,  9.00s/it, gpt_loss=0.39, loss_mean=0.373][A2026-01-26 14:47:26.495 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   8%|▊         | 363/4533 [59:34<10:25:16,  9.00s/it, gpt_loss=0.43, loss_mean=0.379][A
+Train step of epoch 0:   8%|▊         | 364/4533 [59:34<11:28:47,  9.91s/it, gpt_loss=0.43, loss_mean=0.379][A2026-01-26 14:47:38.662 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   8%|▊         | 364/4533 [59:46<11:28:47,  9.91s/it, gpt_loss=0.43, loss_mean=0.384][A
+Train step of epoch 0:   8%|▊         | 365/4533 [59:46<12:13:34, 10.56s/it, gpt_loss=0.43, loss_mean=0.384][A2026-01-26 14:47:50.660 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   8%|▊         | 365/4533 [59:56<12:13:34, 10.56s/it, gpt_loss=0.392, loss_mean=0.384][A
+Train step of epoch 0:   8%|▊         | 366/4533 [59:56<11:56:03, 10.31s/it, gpt_loss=0.392, loss_mean=0.384][A2026-01-26 14:48:00.051 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   8%|▊         | 366/4533 [1:00:07<11:56:03, 10.31s/it, gpt_loss=0.397, loss_mean=0.386][A
+Train step of epoch 0:   8%|▊         | 367/4533 [1:00:07<12:22:18, 10.69s/it, gpt_loss=0.397, loss_mean=0.386][A2026-01-26 14:48:11.687 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   8%|▊         | 367/4533 [1:00:16<12:22:18, 10.69s/it, gpt_loss=0.351, loss_mean=0.382][A
+Train step of epoch 0:   8%|▊         | 368/4533 [1:00:16<11:46:50, 10.18s/it, gpt_loss=0.351, loss_mean=0.382][A2026-01-26 14:48:20.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   8%|▊         | 368/4533 [1:00:28<11:46:50, 10.18s/it, gpt_loss=0.507, loss_mean=0.395][A
+Train step of epoch 0:   8%|▊         | 369/4533 [1:00:28<12:19:49, 10.66s/it, gpt_loss=0.507, loss_mean=0.395][A
+[LID Router Debug] Step: 370
+Batch Size: 14
+Audio Batch Size: 168
+LID Assignments: [6, 3, 2, 3, 5, 6, 3, 4, 3, 9, 5, 5, 0, 5]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-26 14:48:32.481 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   8%|▊         | 369/4533 [1:00:39<12:19:49, 10.66s/it, gpt_loss=0.438, loss_mean=0.399][A
+Train step of epoch 0:   8%|▊         | 370/4533 [1:00:39<12:33:21, 10.86s/it, gpt_loss=0.438, loss_mean=0.399][A2026-01-26 14:48:43.965 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   8%|▊         | 370/4533 [1:00:48<12:33:21, 10.86s/it, gpt_loss=0.37, loss_mean=0.396] [A
+Train step of epoch 0:   8%|▊         | 371/4533 [1:00:48<11:49:08, 10.22s/it, gpt_loss=0.37, loss_mean=0.396][A2026-01-26 14:48:52.696 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   8%|▊         | 371/4533 [1:00:58<11:49:08, 10.22s/it, gpt_loss=0.438, loss_mean=0.4] [A
+Train step of epoch 0:   8%|▊         | 372/4533 [1:00:58<11:34:23, 10.01s/it, gpt_loss=0.438, loss_mean=0.4][A2026-01-26 14:49:02.378 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   8%|▊         | 372/4533 [1:01:10<11:34:23, 10.01s/it, gpt_loss=0.538, loss_mean=0.414][A
+Train step of epoch 0:   8%|▊         | 373/4533 [1:01:10<12:18:32, 10.65s/it, gpt_loss=0.538, loss_mean=0.414][A2026-01-26 14:49:13.959 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   8%|▊         | 373/4533 [1:01:18<12:18:32, 10.65s/it, gpt_loss=0.329, loss_mean=0.406][A
+Train step of epoch 0:   8%|▊         | 374/4533 [1:01:18<11:31:57,  9.98s/it, gpt_loss=0.329, loss_mean=0.406][A2026-01-26 14:49:22.871 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   8%|▊         | 374/4533 [1:01:27<11:31:57,  9.98s/it, gpt_loss=0.269, loss_mean=0.392][A
+Train step of epoch 0:   8%|▊         | 375/4533 [1:01:27<11:07:18,  9.63s/it, gpt_loss=0.269, loss_mean=0.392][A2026-01-26 14:49:31.704 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   8%|▊         | 375/4533 [1:01:36<11:07:18,  9.63s/it, gpt_loss=0.359, loss_mean=0.389][A
+Train step of epoch 0:   8%|▊         | 376/4533 [1:01:36<11:02:34,  9.56s/it, gpt_loss=0.359, loss_mean=0.389][A2026-01-26 14:49:41.056 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   8%|▊         | 376/4533 [1:01:46<11:02:34,  9.56s/it, gpt_loss=0.31, loss_mean=0.381] [A
+Train step of epoch 0:   8%|▊         | 377/4533 [1:01:46<11:06:53,  9.63s/it, gpt_loss=0.31, loss_mean=0.381][A2026-01-26 14:49:50.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   8%|▊         | 377/4533 [1:01:56<11:06:53,  9.63s/it, gpt_loss=0.362, loss_mean=0.379][A
+Train step of epoch 0:   8%|▊         | 378/4533 [1:01:56<11:02:39,  9.57s/it, gpt_loss=0.362, loss_mean=0.379][A2026-01-26 14:50:00.286 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   8%|▊         | 378/4533 [1:02:08<11:02:39,  9.57s/it, gpt_loss=0.449, loss_mean=0.386][A
+Train step of epoch 0:   8%|▊         | 379/4533 [1:02:08<11:52:57, 10.30s/it, gpt_loss=0.449, loss_mean=0.386][A
+[LID Router Debug] Step: 380
+Batch Size: 14
+Audio Batch Size: 158
+LID Assignments: [5, 3, 9, 1, 0, 9, 9, 6, 0, 4, 0, 2, 3, 6]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 14:50:12.192 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   8%|▊         | 379/4533 [1:02:17<11:52:57, 10.30s/it, gpt_loss=0.37, loss_mean=0.384] [A
+Train step of epoch 0:   8%|▊         | 380/4533 [1:02:17<11:41:04, 10.13s/it, gpt_loss=0.37, loss_mean=0.384][A2026-01-26 14:50:21.893 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   8%|▊         | 380/4533 [1:02:26<11:41:04, 10.13s/it, gpt_loss=0.385, loss_mean=0.384][A
+Train step of epoch 0:   8%|▊         | 381/4533 [1:02:26<11:12:54,  9.72s/it, gpt_loss=0.385, loss_mean=0.384][A2026-01-26 14:50:30.793 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   8%|▊         | 381/4533 [1:02:35<11:12:54,  9.72s/it, gpt_loss=0.304, loss_mean=0.376][A
+Train step of epoch 0:   8%|▊         | 382/4533 [1:02:35<10:57:14,  9.50s/it, gpt_loss=0.304, loss_mean=0.376][A2026-01-26 14:50:39.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   8%|▊         | 382/4533 [1:02:45<10:57:14,  9.50s/it, gpt_loss=0.352, loss_mean=0.374][A
+Train step of epoch 0:   8%|▊         | 383/4533 [1:02:45<11:03:04,  9.59s/it, gpt_loss=0.352, loss_mean=0.374][A2026-01-26 14:50:49.358 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   8%|▊         | 383/4533 [1:02:54<11:03:04,  9.59s/it, gpt_loss=0.309, loss_mean=0.367][A
+Train step of epoch 0:   8%|▊         | 384/4533 [1:02:54<10:44:05,  9.31s/it, gpt_loss=0.309, loss_mean=0.367][A2026-01-26 14:50:58.259 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   8%|▊         | 384/4533 [1:03:02<10:44:05,  9.31s/it, gpt_loss=0.42, loss_mean=0.373] [A
+Train step of epoch 0:   8%|▊         | 385/4533 [1:03:02<10:33:15,  9.16s/it, gpt_loss=0.42, loss_mean=0.373][A2026-01-26 14:51:06.990 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   8%|▊         | 385/4533 [1:03:14<10:33:15,  9.16s/it, gpt_loss=0.471, loss_mean=0.383][A
+Train step of epoch 0:   9%|▊         | 386/4533 [1:03:14<11:28:51,  9.97s/it, gpt_loss=0.471, loss_mean=0.383][A2026-01-26 14:51:18.687 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   9%|▊         | 386/4533 [1:03:24<11:28:51,  9.97s/it, gpt_loss=0.35, loss_mean=0.379] [A
+Train step of epoch 0:   9%|▊         | 387/4533 [1:03:24<11:23:28,  9.89s/it, gpt_loss=0.35, loss_mean=0.379][A2026-01-26 14:51:28.482 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   9%|▊         | 387/4533 [1:03:33<11:23:28,  9.89s/it, gpt_loss=0.353, loss_mean=0.377][A
+Train step of epoch 0:   9%|▊         | 388/4533 [1:03:33<10:59:21,  9.54s/it, gpt_loss=0.353, loss_mean=0.377][A2026-01-26 14:51:37.190 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   9%|▊         | 388/4533 [1:03:42<10:59:21,  9.54s/it, gpt_loss=0.417, loss_mean=0.381][A
+Train step of epoch 0:   9%|▊         | 389/4533 [1:03:42<11:02:32,  9.59s/it, gpt_loss=0.417, loss_mean=0.381][A
+[LID Router Debug] Step: 390
+Batch Size: 14
+Audio Batch Size: 134
+LID Assignments: [2, 1, 0, 5, 2, 1, 6, 5, 4, 4, 9, 0, 3, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 14:51:47.073 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   9%|▊         | 389/4533 [1:03:51<11:02:32,  9.59s/it, gpt_loss=0.375, loss_mean=0.38] [A
+Train step of epoch 0:   9%|▊         | 390/4533 [1:03:51<10:48:14,  9.39s/it, gpt_loss=0.375, loss_mean=0.38][A2026-01-26 14:51:55.969 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   9%|▊         | 390/4533 [1:04:03<10:48:14,  9.39s/it, gpt_loss=0.418, loss_mean=0.384][A
+Train step of epoch 0:   9%|▊         | 391/4533 [1:04:03<11:37:26, 10.10s/it, gpt_loss=0.418, loss_mean=0.384][A2026-01-26 14:52:07.592 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   9%|▊         | 391/4533 [1:04:13<11:37:26, 10.10s/it, gpt_loss=0.402, loss_mean=0.386][A
+Train step of epoch 0:   9%|▊         | 392/4533 [1:04:13<11:24:26,  9.92s/it, gpt_loss=0.402, loss_mean=0.386][A2026-01-26 14:52:17.194 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   9%|▊         | 392/4533 [1:04:22<11:24:26,  9.92s/it, gpt_loss=0.329, loss_mean=0.38] [A
+Train step of epoch 0:   9%|▊         | 393/4533 [1:04:22<11:07:26,  9.67s/it, gpt_loss=0.329, loss_mean=0.38][A2026-01-26 14:52:26.159 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   9%|▊         | 393/4533 [1:04:30<11:07:26,  9.67s/it, gpt_loss=0.308, loss_mean=0.373][A
+Train step of epoch 0:   9%|▊         | 394/4533 [1:04:30<10:47:27,  9.39s/it, gpt_loss=0.308, loss_mean=0.373][A2026-01-26 14:52:34.870 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   9%|▊         | 394/4533 [1:04:40<10:47:27,  9.39s/it, gpt_loss=0.337, loss_mean=0.369][A
+Train step of epoch 0:   9%|▊         | 395/4533 [1:04:40<10:48:53,  9.41s/it, gpt_loss=0.337, loss_mean=0.369][A2026-01-26 14:52:44.064 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   9%|▊         | 395/4533 [1:04:48<10:48:53,  9.41s/it, gpt_loss=0.433, loss_mean=0.376][A
+Train step of epoch 0:   9%|▊         | 396/4533 [1:04:48<10:28:55,  9.12s/it, gpt_loss=0.433, loss_mean=0.376][A2026-01-26 14:52:52.665 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   9%|▊         | 396/4533 [1:04:58<10:28:55,  9.12s/it, gpt_loss=0.307, loss_mean=0.369][A
+Train step of epoch 0:   9%|▉         | 397/4533 [1:04:58<10:31:02,  9.15s/it, gpt_loss=0.307, loss_mean=0.369][A2026-01-26 14:53:02.055 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   9%|▉         | 397/4533 [1:05:06<10:31:02,  9.15s/it, gpt_loss=0.33, loss_mean=0.365] [A
+Train step of epoch 0:   9%|▉         | 398/4533 [1:05:06<10:22:58,  9.04s/it, gpt_loss=0.33, loss_mean=0.365][A2026-01-26 14:53:10.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   9%|▉         | 398/4533 [1:05:16<10:22:58,  9.04s/it, gpt_loss=0.328, loss_mean=0.361][A
+Train step of epoch 0:   9%|▉         | 399/4533 [1:05:16<10:36:32,  9.24s/it, gpt_loss=0.328, loss_mean=0.361][A
+[LID Router Debug] Step: 400
+Batch Size: 14
+Audio Batch Size: 178
+LID Assignments: [9, 0, 3, 3, 3, 0, 3, 5, 3, 5, 5, 9, 5, 2]
+Active Experts in Batch: {0, 2, 3, 5, 9}
+2026-01-26 14:53:20.474 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+[2026-01-26 14:53:31,824] [INFO] [logging.py:96:log_dist] [Rank 0] step=400, skipped=0, lr=[1.99810304705513e-05, 1.99810304705513e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 14:53:31,825] [INFO] [timer.py:260:stop] epoch=0/micro_step=400/global_step=400, RunningAvgSamplesPerSec=5.742189398792274, CurrSamplesPerSec=4.7097215443416, MemAllocated=14.64GB, MaxMemAllocated=53.32GB
+
+Train step of epoch 0:   9%|▉         | 399/4533 [1:05:28<10:36:32,  9.24s/it, gpt_loss=0.54, loss_mean=0.379] [A
+Train step of epoch 0:   9%|▉         | 400/4533 [1:05:28<11:31:38, 10.04s/it, gpt_loss=0.54, loss_mean=0.379][A2026-01-26 14:53:32.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   9%|▉         | 400/4533 [1:05:37<11:31:38, 10.04s/it, gpt_loss=0.312, loss_mean=0.372][A
+Train step of epoch 0:   9%|▉         | 401/4533 [1:05:37<11:19:52,  9.87s/it, gpt_loss=0.312, loss_mean=0.372][A2026-01-26 14:53:42.076 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   9%|▉         | 401/4533 [1:05:47<11:19:52,  9.87s/it, gpt_loss=0.344, loss_mean=0.369][A
+Train step of epoch 0:   9%|▉         | 402/4533 [1:05:47<11:10:25,  9.74s/it, gpt_loss=0.344, loss_mean=0.369][A2026-01-26 14:53:51.288 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   9%|▉         | 402/4533 [1:05:56<11:10:25,  9.74s/it, gpt_loss=0.356, loss_mean=0.368][A
+Train step of epoch 0:   9%|▉         | 403/4533 [1:05:56<11:07:39,  9.70s/it, gpt_loss=0.356, loss_mean=0.368][A2026-01-26 14:54:01.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   9%|▉         | 403/4533 [1:06:06<11:07:39,  9.70s/it, gpt_loss=0.33, loss_mean=0.364] [A
+Train step of epoch 0:   9%|▉         | 404/4533 [1:06:06<10:58:25,  9.57s/it, gpt_loss=0.33, loss_mean=0.364][A2026-01-26 14:54:09.969 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   9%|▉         | 404/4533 [1:06:14<10:58:25,  9.57s/it, gpt_loss=0.319, loss_mean=0.36][A
+Train step of epoch 0:   9%|▉         | 405/4533 [1:06:14<10:42:43,  9.34s/it, gpt_loss=0.319, loss_mean=0.36][A2026-01-26 14:54:19.090 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   9%|▉         | 405/4533 [1:06:23<10:42:43,  9.34s/it, gpt_loss=0.337, loss_mean=0.357][A
+Train step of epoch 0:   9%|▉         | 406/4533 [1:06:23<10:29:23,  9.15s/it, gpt_loss=0.337, loss_mean=0.357][A2026-01-26 14:54:27.794 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   9%|▉         | 406/4533 [1:06:33<10:29:23,  9.15s/it, gpt_loss=0.332, loss_mean=0.355][A
+Train step of epoch 0:   9%|▉         | 407/4533 [1:06:33<10:38:33,  9.29s/it, gpt_loss=0.332, loss_mean=0.355][A2026-01-26 14:54:37.503 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   9%|▉         | 407/4533 [1:06:43<10:38:33,  9.29s/it, gpt_loss=0.369, loss_mean=0.356][A
+Train step of epoch 0:   9%|▉         | 408/4533 [1:06:43<10:47:00,  9.41s/it, gpt_loss=0.369, loss_mean=0.356][A2026-01-26 14:54:46.764 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   9%|▉         | 408/4533 [1:06:52<10:47:00,  9.41s/it, gpt_loss=0.325, loss_mean=0.353][A
+Train step of epoch 0:   9%|▉         | 409/4533 [1:06:52<10:43:22,  9.36s/it, gpt_loss=0.325, loss_mean=0.353][A
+[LID Router Debug] Step: 410
+Batch Size: 14
+Audio Batch Size: 119
+LID Assignments: [1, 1, 5, 6, 1, 2, 1, 2, 4, 1, 9, 4, 0, 5]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-26 14:54:56.383 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   9%|▉         | 409/4533 [1:07:04<10:43:22,  9.36s/it, gpt_loss=0.432, loss_mean=0.361][A
+Train step of epoch 0:   9%|▉         | 410/4533 [1:07:04<11:46:43, 10.28s/it, gpt_loss=0.432, loss_mean=0.361][A2026-01-26 14:55:08.867 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   9%|▉         | 410/4533 [1:07:13<11:46:43, 10.28s/it, gpt_loss=0.381, loss_mean=0.363][A
+Train step of epoch 0:   9%|▉         | 411/4533 [1:07:13<11:15:01,  9.83s/it, gpt_loss=0.381, loss_mean=0.363][A2026-01-26 14:55:17.586 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   9%|▉         | 411/4533 [1:07:22<11:15:01,  9.83s/it, gpt_loss=0.364, loss_mean=0.363][A
+Train step of epoch 0:   9%|▉         | 412/4533 [1:07:22<11:08:15,  9.73s/it, gpt_loss=0.364, loss_mean=0.363][A2026-01-26 14:55:26.878 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   9%|▉         | 412/4533 [1:07:32<11:08:15,  9.73s/it, gpt_loss=0.331, loss_mean=0.36] [A
+Train step of epoch 0:   9%|▉         | 413/4533 [1:07:32<11:04:55,  9.68s/it, gpt_loss=0.331, loss_mean=0.36][A2026-01-26 14:55:36.578 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   9%|▉         | 413/4533 [1:07:41<11:04:55,  9.68s/it, gpt_loss=0.347, loss_mean=0.359][A
+Train step of epoch 0:   9%|▉         | 414/4533 [1:07:41<10:46:01,  9.41s/it, gpt_loss=0.347, loss_mean=0.359][A2026-01-26 14:55:45.496 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   9%|▉         | 414/4533 [1:07:50<10:46:01,  9.41s/it, gpt_loss=0.272, loss_mean=0.35] [A
+Train step of epoch 0:   9%|▉         | 415/4533 [1:07:50<10:41:05,  9.34s/it, gpt_loss=0.272, loss_mean=0.35][A2026-01-26 14:55:54.254 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   9%|▉         | 415/4533 [1:07:58<10:41:05,  9.34s/it, gpt_loss=0.342, loss_mean=0.349][A
+Train step of epoch 0:   9%|▉         | 416/4533 [1:07:58<10:22:38,  9.07s/it, gpt_loss=0.342, loss_mean=0.349][A2026-01-26 14:56:03.101 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   9%|▉         | 416/4533 [1:08:07<10:22:38,  9.07s/it, gpt_loss=0.354, loss_mean=0.35] [A
+Train step of epoch 0:   9%|▉         | 417/4533 [1:08:07<10:22:05,  9.07s/it, gpt_loss=0.354, loss_mean=0.35][A2026-01-26 14:56:12.107 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   9%|▉         | 417/4533 [1:08:16<10:22:05,  9.07s/it, gpt_loss=0.327, loss_mean=0.347][A
+Train step of epoch 0:   9%|▉         | 418/4533 [1:08:16<10:16:36,  8.99s/it, gpt_loss=0.327, loss_mean=0.347][A2026-01-26 14:56:20.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   9%|▉         | 418/4533 [1:08:25<10:16:36,  8.99s/it, gpt_loss=0.324, loss_mean=0.345][A
+Train step of epoch 0:   9%|▉         | 419/4533 [1:08:25<10:17:56,  9.01s/it, gpt_loss=0.324, loss_mean=0.345][A
+[LID Router Debug] Step: 420
+Batch Size: 14
+Audio Batch Size: 120
+LID Assignments: [4, 5, 0, 5, 6, 2, 0, 2, 6, 6, 0, 9, 1, 0]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-26 14:56:29.961 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   9%|▉         | 419/4533 [1:08:35<10:17:56,  9.01s/it, gpt_loss=0.326, loss_mean=0.343][A
+Train step of epoch 0:   9%|▉         | 420/4533 [1:08:35<10:33:46,  9.25s/it, gpt_loss=0.326, loss_mean=0.343][A2026-01-26 14:56:39.672 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   9%|▉         | 420/4533 [1:08:44<10:33:46,  9.25s/it, gpt_loss=0.385, loss_mean=0.347][A
+Train step of epoch 0:   9%|▉         | 421/4533 [1:08:44<10:23:51,  9.10s/it, gpt_loss=0.385, loss_mean=0.347][A2026-01-26 14:56:48.469 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   9%|▉         | 421/4533 [1:08:56<10:23:51,  9.10s/it, gpt_loss=0.425, loss_mean=0.355][A
+Train step of epoch 0:   9%|▉         | 422/4533 [1:08:56<11:19:19,  9.91s/it, gpt_loss=0.425, loss_mean=0.355][A2026-01-26 14:57:00.001 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   9%|▉         | 422/4533 [1:09:07<11:19:19,  9.91s/it, gpt_loss=0.454, loss_mean=0.365][A
+Train step of epoch 0:   9%|▉         | 423/4533 [1:09:07<11:51:39, 10.39s/it, gpt_loss=0.454, loss_mean=0.365][A2026-01-26 14:57:11.700 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   9%|▉         | 423/4533 [1:09:17<11:51:39, 10.39s/it, gpt_loss=0.424, loss_mean=0.371][A
+Train step of epoch 0:   9%|▉         | 424/4533 [1:09:17<11:35:14, 10.15s/it, gpt_loss=0.424, loss_mean=0.371][A2026-01-26 14:57:21.072 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:   9%|▉         | 424/4533 [1:09:26<11:35:14, 10.15s/it, gpt_loss=0.306, loss_mean=0.364][A
+Train step of epoch 0:   9%|▉         | 425/4533 [1:09:26<11:18:02,  9.90s/it, gpt_loss=0.306, loss_mean=0.364][A2026-01-26 14:57:30.764 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:   9%|▉         | 425/4533 [1:09:38<11:18:02,  9.90s/it, gpt_loss=0.371, loss_mean=0.365][A
+Train step of epoch 0:   9%|▉         | 426/4533 [1:09:38<12:01:21, 10.54s/it, gpt_loss=0.371, loss_mean=0.365][A2026-01-26 14:57:42.879 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   9%|▉         | 426/4533 [1:09:48<12:01:21, 10.54s/it, gpt_loss=0.327, loss_mean=0.361][A
+Train step of epoch 0:   9%|▉         | 427/4533 [1:09:48<11:37:49, 10.20s/it, gpt_loss=0.327, loss_mean=0.361][A2026-01-26 14:57:51.977 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:   9%|▉         | 427/4533 [1:09:56<11:37:49, 10.20s/it, gpt_loss=0.327, loss_mean=0.358][A
+Train step of epoch 0:   9%|▉         | 428/4533 [1:09:56<11:10:05,  9.79s/it, gpt_loss=0.327, loss_mean=0.358][A2026-01-26 14:58:00.884 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   9%|▉         | 428/4533 [1:10:05<11:10:05,  9.79s/it, gpt_loss=0.283, loss_mean=0.35] [A
+Train step of epoch 0:   9%|▉         | 429/4533 [1:10:05<10:51:55,  9.53s/it, gpt_loss=0.283, loss_mean=0.35][A
+[LID Router Debug] Step: 430
+Batch Size: 14
+Audio Batch Size: 134
+LID Assignments: [0, 9, 5, 2, 5, 0, 0, 2, 2, 1, 4, 1, 3, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 14:58:09.953 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   9%|▉         | 429/4533 [1:10:15<10:51:55,  9.53s/it, gpt_loss=0.285, loss_mean=0.344][A
+Train step of epoch 0:   9%|▉         | 430/4533 [1:10:15<10:47:14,  9.46s/it, gpt_loss=0.285, loss_mean=0.344][A2026-01-26 14:58:18.903 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:   9%|▉         | 430/4533 [1:10:24<10:47:14,  9.46s/it, gpt_loss=0.338, loss_mean=0.343][A
+Train step of epoch 0:  10%|▉         | 431/4533 [1:10:24<10:47:08,  9.47s/it, gpt_loss=0.338, loss_mean=0.343][A2026-01-26 14:58:28.583 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  10%|▉         | 431/4533 [1:10:33<10:47:08,  9.47s/it, gpt_loss=0.302, loss_mean=0.339][A
+Train step of epoch 0:  10%|▉         | 432/4533 [1:10:33<10:38:38,  9.34s/it, gpt_loss=0.302, loss_mean=0.339][A2026-01-26 14:58:37.578 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  10%|▉         | 432/4533 [1:10:42<10:38:38,  9.34s/it, gpt_loss=0.269, loss_mean=0.332][A
+Train step of epoch 0:  10%|▉         | 433/4533 [1:10:42<10:31:08,  9.24s/it, gpt_loss=0.269, loss_mean=0.332][A2026-01-26 14:58:46.672 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  10%|▉         | 433/4533 [1:10:52<10:31:08,  9.24s/it, gpt_loss=0.4, loss_mean=0.339]  [A
+Train step of epoch 0:  10%|▉         | 434/4533 [1:10:52<10:34:56,  9.29s/it, gpt_loss=0.4, loss_mean=0.339][A2026-01-26 14:58:55.996 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  10%|▉         | 434/4533 [1:11:01<10:34:56,  9.29s/it, gpt_loss=0.381, loss_mean=0.343][A
+Train step of epoch 0:  10%|▉         | 435/4533 [1:11:01<10:27:18,  9.18s/it, gpt_loss=0.381, loss_mean=0.343][A2026-01-26 14:59:05.052 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  10%|▉         | 435/4533 [1:11:09<10:27:18,  9.18s/it, gpt_loss=0.342, loss_mean=0.343][A
+Train step of epoch 0:  10%|▉         | 436/4533 [1:11:09<10:22:02,  9.11s/it, gpt_loss=0.342, loss_mean=0.343][A2026-01-26 14:59:13.976 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  10%|▉         | 436/4533 [1:11:18<10:22:02,  9.11s/it, gpt_loss=0.337, loss_mean=0.342][A
+Train step of epoch 0:  10%|▉         | 437/4533 [1:11:18<10:16:17,  9.03s/it, gpt_loss=0.337, loss_mean=0.342][A2026-01-26 14:59:22.960 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  10%|▉         | 437/4533 [1:11:30<10:16:17,  9.03s/it, gpt_loss=0.398, loss_mean=0.348][A
+Train step of epoch 0:  10%|▉         | 438/4533 [1:11:30<11:11:53,  9.84s/it, gpt_loss=0.398, loss_mean=0.348][A2026-01-26 14:59:34.562 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  10%|▉         | 438/4533 [1:11:39<11:11:53,  9.84s/it, gpt_loss=0.335, loss_mean=0.347][A
+Train step of epoch 0:  10%|▉         | 439/4533 [1:11:39<10:51:33,  9.55s/it, gpt_loss=0.335, loss_mean=0.347][A
+[LID Router Debug] Step: 440
+Batch Size: 14
+Audio Batch Size: 146
+LID Assignments: [1, 9, 2, 0, 1, 6, 0, 9, 2, 0, 2, 0, 1, 4]
+Active Experts in Batch: {0, 1, 2, 4, 6, 9}
+2026-01-26 14:59:42.984 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  10%|▉         | 439/4533 [1:11:47<10:51:33,  9.55s/it, gpt_loss=0.321, loss_mean=0.344][A
+Train step of epoch 0:  10%|▉         | 440/4533 [1:11:47<10:30:30,  9.24s/it, gpt_loss=0.321, loss_mean=0.344][A2026-01-26 14:59:52.105 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  10%|▉         | 440/4533 [1:11:57<10:30:30,  9.24s/it, gpt_loss=0.425, loss_mean=0.352][A
+Train step of epoch 0:  10%|▉         | 441/4533 [1:11:57<10:45:41,  9.47s/it, gpt_loss=0.425, loss_mean=0.352][A2026-01-26 15:00:01.896 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  10%|▉         | 441/4533 [1:12:06<10:45:41,  9.47s/it, gpt_loss=0.374, loss_mean=0.354][A
+Train step of epoch 0:  10%|▉         | 442/4533 [1:12:06<10:29:14,  9.23s/it, gpt_loss=0.374, loss_mean=0.354][A2026-01-26 15:00:10.582 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  10%|▉         | 442/4533 [1:12:15<10:29:14,  9.23s/it, gpt_loss=0.331, loss_mean=0.352][A
+Train step of epoch 0:  10%|▉         | 443/4533 [1:12:15<10:16:31,  9.04s/it, gpt_loss=0.331, loss_mean=0.352][A2026-01-26 15:00:19.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  10%|▉         | 443/4533 [1:12:23<10:16:31,  9.04s/it, gpt_loss=0.292, loss_mean=0.346][A
+Train step of epoch 0:  10%|▉         | 444/4533 [1:12:23<10:11:05,  8.97s/it, gpt_loss=0.292, loss_mean=0.346][A2026-01-26 15:00:28.159 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  10%|▉         | 444/4533 [1:12:33<10:11:05,  8.97s/it, gpt_loss=0.306, loss_mean=0.342][A
+Train step of epoch 0:  10%|▉         | 445/4533 [1:12:33<10:14:27,  9.02s/it, gpt_loss=0.306, loss_mean=0.342][A2026-01-26 15:00:37.293 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  10%|▉         | 445/4533 [1:12:42<10:14:27,  9.02s/it, gpt_loss=0.372, loss_mean=0.345][A
+Train step of epoch 0:  10%|▉         | 446/4533 [1:12:42<10:31:02,  9.26s/it, gpt_loss=0.372, loss_mean=0.345][A2026-01-26 15:00:47.084 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  10%|▉         | 446/4533 [1:12:54<10:31:02,  9.26s/it, gpt_loss=0.4, loss_mean=0.351]  [A
+Train step of epoch 0:  10%|▉         | 447/4533 [1:12:54<11:23:39, 10.04s/it, gpt_loss=0.4, loss_mean=0.351][A2026-01-26 15:00:58.890 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  10%|▉         | 447/4533 [1:13:03<11:23:39, 10.04s/it, gpt_loss=0.374, loss_mean=0.353][A
+Train step of epoch 0:  10%|▉         | 448/4533 [1:13:03<10:55:41,  9.63s/it, gpt_loss=0.374, loss_mean=0.353][A2026-01-26 15:01:07.689 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  10%|▉         | 448/4533 [1:13:15<10:55:41,  9.63s/it, gpt_loss=0.423, loss_mean=0.36] [A
+Train step of epoch 0:  10%|▉         | 449/4533 [1:13:15<11:44:06, 10.34s/it, gpt_loss=0.423, loss_mean=0.36][A
+[LID Router Debug] Step: 450
+Batch Size: 14
+Audio Batch Size: 147
+LID Assignments: [6, 3, 3, 2, 9, 5, 5, 9, 6, 2, 9, 9, 4, 6]
+Active Experts in Batch: {2, 3, 4, 5, 6, 9}
+2026-01-26 15:01:19.478 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  10%|▉         | 449/4533 [1:13:24<11:44:06, 10.34s/it, gpt_loss=0.369, loss_mean=0.361][A
+Train step of epoch 0:  10%|▉         | 450/4533 [1:13:24<11:07:32,  9.81s/it, gpt_loss=0.369, loss_mean=0.361][A2026-01-26 15:01:27.856 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  10%|▉         | 450/4533 [1:13:32<11:07:32,  9.81s/it, gpt_loss=0.359, loss_mean=0.361][A
+Train step of epoch 0:  10%|▉         | 451/4533 [1:13:32<10:40:13,  9.41s/it, gpt_loss=0.359, loss_mean=0.361][A2026-01-26 15:01:36.397 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  10%|▉         | 451/4533 [1:13:44<10:40:13,  9.41s/it, gpt_loss=0.363, loss_mean=0.361][A
+Train step of epoch 0:  10%|▉         | 452/4533 [1:13:44<11:30:13, 10.15s/it, gpt_loss=0.363, loss_mean=0.361][A2026-01-26 15:01:48.595 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  10%|▉         | 452/4533 [1:13:54<11:30:13, 10.15s/it, gpt_loss=0.385, loss_mean=0.363][A
+Train step of epoch 0:  10%|▉         | 453/4533 [1:13:54<11:24:45, 10.07s/it, gpt_loss=0.385, loss_mean=0.363][A2026-01-26 15:01:58.483 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  10%|▉         | 453/4533 [1:14:03<11:24:45, 10.07s/it, gpt_loss=0.349, loss_mean=0.362][A
+Train step of epoch 0:  10%|█         | 454/4533 [1:14:03<11:10:14,  9.86s/it, gpt_loss=0.349, loss_mean=0.362][A2026-01-26 15:02:07.778 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  10%|█         | 454/4533 [1:14:15<11:10:14,  9.86s/it, gpt_loss=0.509, loss_mean=0.377][A
+Train step of epoch 0:  10%|█         | 455/4533 [1:14:15<11:52:12, 10.48s/it, gpt_loss=0.509, loss_mean=0.377][A2026-01-26 15:02:19.581 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  10%|█         | 455/4533 [1:14:27<11:52:12, 10.48s/it, gpt_loss=0.373, loss_mean=0.376][A
+Train step of epoch 0:  10%|█         | 456/4533 [1:14:27<12:19:03, 10.88s/it, gpt_loss=0.373, loss_mean=0.376][A2026-01-26 15:02:31.458 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  10%|█         | 456/4533 [1:14:36<12:19:03, 10.88s/it, gpt_loss=0.378, loss_mean=0.376][A
+Train step of epoch 0:  10%|█         | 457/4533 [1:14:36<11:38:03, 10.28s/it, gpt_loss=0.378, loss_mean=0.376][A2026-01-26 15:02:40.371 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  10%|█         | 457/4533 [1:14:45<11:38:03, 10.28s/it, gpt_loss=0.292, loss_mean=0.368][A
+Train step of epoch 0:  10%|█         | 458/4533 [1:14:45<11:16:41,  9.96s/it, gpt_loss=0.292, loss_mean=0.368][A2026-01-26 15:02:49.674 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  10%|█         | 458/4533 [1:14:55<11:16:41,  9.96s/it, gpt_loss=0.356, loss_mean=0.367][A
+Train step of epoch 0:  10%|█         | 459/4533 [1:14:55<11:14:48,  9.94s/it, gpt_loss=0.356, loss_mean=0.367][A
+[LID Router Debug] Step: 460
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [1, 3, 2, 3, 9, 4, 1, 2, 3, 9, 4, 9, 0, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 9}
+2026-01-26 15:02:59.196 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  10%|█         | 459/4533 [1:15:04<11:14:48,  9.94s/it, gpt_loss=0.352, loss_mean=0.365][A
+Train step of epoch 0:  10%|█         | 460/4533 [1:15:04<10:56:16,  9.67s/it, gpt_loss=0.352, loss_mean=0.365][A2026-01-26 15:03:08.575 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  10%|█         | 460/4533 [1:15:14<10:56:16,  9.67s/it, gpt_loss=0.358, loss_mean=0.365][A
+Train step of epoch 0:  10%|█         | 461/4533 [1:15:14<10:57:54,  9.69s/it, gpt_loss=0.358, loss_mean=0.365][A2026-01-26 15:03:18.191 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  10%|█         | 461/4533 [1:15:22<10:57:54,  9.69s/it, gpt_loss=0.367, loss_mean=0.365][A
+Train step of epoch 0:  10%|█         | 462/4533 [1:15:22<10:38:18,  9.41s/it, gpt_loss=0.367, loss_mean=0.365][A2026-01-26 15:03:26.893 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  10%|█         | 462/4533 [1:15:31<10:38:18,  9.41s/it, gpt_loss=0.348, loss_mean=0.363][A
+Train step of epoch 0:  10%|█         | 463/4533 [1:15:31<10:29:05,  9.27s/it, gpt_loss=0.348, loss_mean=0.363][A2026-01-26 15:03:35.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  10%|█         | 463/4533 [1:15:40<10:29:05,  9.27s/it, gpt_loss=0.339, loss_mean=0.361][A
+Train step of epoch 0:  10%|█         | 464/4533 [1:15:40<10:21:13,  9.16s/it, gpt_loss=0.339, loss_mean=0.361][A2026-01-26 15:03:44.684 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  10%|█         | 464/4533 [1:15:52<10:21:13,  9.16s/it, gpt_loss=0.491, loss_mean=0.374][A
+Train step of epoch 0:  10%|█         | 465/4533 [1:15:52<11:13:20,  9.93s/it, gpt_loss=0.491, loss_mean=0.374][A2026-01-26 15:03:56.667 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  10%|█         | 465/4533 [1:16:02<11:13:20,  9.93s/it, gpt_loss=0.371, loss_mean=0.373][A
+Train step of epoch 0:  10%|█         | 466/4533 [1:16:02<11:06:27,  9.83s/it, gpt_loss=0.371, loss_mean=0.373][A2026-01-26 15:04:06.189 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  10%|█         | 466/4533 [1:16:11<11:06:27,  9.83s/it, gpt_loss=0.303, loss_mean=0.366][A
+Train step of epoch 0:  10%|█         | 467/4533 [1:16:11<10:59:07,  9.73s/it, gpt_loss=0.303, loss_mean=0.366][A2026-01-26 15:04:15.681 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  10%|█         | 467/4533 [1:16:23<10:59:07,  9.73s/it, gpt_loss=0.474, loss_mean=0.377][A
+Train step of epoch 0:  10%|█         | 468/4533 [1:16:23<11:43:23, 10.38s/it, gpt_loss=0.474, loss_mean=0.377][A2026-01-26 15:04:27.672 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  10%|█         | 468/4533 [1:16:33<11:43:23, 10.38s/it, gpt_loss=0.456, loss_mean=0.385][A
+Train step of epoch 0:  10%|█         | 469/4533 [1:16:33<11:33:30, 10.24s/it, gpt_loss=0.456, loss_mean=0.385][A
+[LID Router Debug] Step: 470
+Batch Size: 14
+Audio Batch Size: 128
+LID Assignments: [5, 9, 0, 5, 5, 0, 5, 4, 3, 5, 9, 1, 9, 9]
+Active Experts in Batch: {0, 1, 3, 4, 5, 9}
+2026-01-26 15:04:37.282 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  10%|█         | 469/4533 [1:16:41<11:33:30, 10.24s/it, gpt_loss=0.353, loss_mean=0.382][A
+Train step of epoch 0:  10%|█         | 470/4533 [1:16:41<10:59:54,  9.75s/it, gpt_loss=0.353, loss_mean=0.382][A2026-01-26 15:04:45.894 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  10%|█         | 470/4533 [1:16:53<10:59:54,  9.75s/it, gpt_loss=0.434, loss_mean=0.387][A
+Train step of epoch 0:  10%|█         | 471/4533 [1:16:53<11:37:11, 10.30s/it, gpt_loss=0.434, loss_mean=0.387][A2026-01-26 15:04:57.772 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  10%|█         | 471/4533 [1:17:05<11:37:11, 10.30s/it, gpt_loss=0.376, loss_mean=0.386][A
+Train step of epoch 0:  10%|█         | 472/4533 [1:17:05<12:11:13, 10.80s/it, gpt_loss=0.376, loss_mean=0.386][A2026-01-26 15:05:09.588 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  10%|█         | 472/4533 [1:17:14<12:11:13, 10.80s/it, gpt_loss=0.386, loss_mean=0.386][A
+Train step of epoch 0:  10%|█         | 473/4533 [1:17:14<11:29:57, 10.20s/it, gpt_loss=0.386, loss_mean=0.386][A2026-01-26 15:05:18.194 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  10%|█         | 473/4533 [1:17:25<11:29:57, 10.20s/it, gpt_loss=0.547, loss_mean=0.402][A
+Train step of epoch 0:  10%|█         | 474/4533 [1:17:25<11:56:11, 10.59s/it, gpt_loss=0.547, loss_mean=0.402][A2026-01-26 15:05:30.053 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  10%|█         | 474/4533 [1:17:37<11:56:11, 10.59s/it, gpt_loss=0.454, loss_mean=0.407][A
+Train step of epoch 0:  10%|█         | 475/4533 [1:17:37<12:22:27, 10.98s/it, gpt_loss=0.454, loss_mean=0.407][A2026-01-26 15:05:41.782 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  10%|█         | 475/4533 [1:17:47<12:22:27, 10.98s/it, gpt_loss=0.436, loss_mean=0.41] [A
+Train step of epoch 0:  11%|█         | 476/4533 [1:17:47<11:53:32, 10.55s/it, gpt_loss=0.436, loss_mean=0.41][A2026-01-26 15:05:51.491 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  11%|█         | 476/4533 [1:17:57<11:53:32, 10.55s/it, gpt_loss=0.369, loss_mean=0.406][A
+Train step of epoch 0:  11%|█         | 477/4533 [1:17:57<11:37:58, 10.33s/it, gpt_loss=0.369, loss_mean=0.406][A2026-01-26 15:06:00.906 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  11%|█         | 477/4533 [1:18:06<11:37:58, 10.33s/it, gpt_loss=0.39, loss_mean=0.404] [A
+Train step of epoch 0:  11%|█         | 478/4533 [1:18:06<11:20:25, 10.07s/it, gpt_loss=0.39, loss_mean=0.404][A2026-01-26 15:06:10.769 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  11%|█         | 478/4533 [1:18:15<11:20:25, 10.07s/it, gpt_loss=0.385, loss_mean=0.402][A
+Train step of epoch 0:  11%|█         | 479/4533 [1:18:15<11:00:52,  9.78s/it, gpt_loss=0.385, loss_mean=0.402][A
+[LID Router Debug] Step: 480
+Batch Size: 14
+Audio Batch Size: 154
+LID Assignments: [2, 3, 1, 5, 2, 9, 9, 9, 4, 5, 5, 1, 5, 2]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-26 15:06:19.773 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  11%|█         | 479/4533 [1:18:27<11:00:52,  9.78s/it, gpt_loss=0.553, loss_mean=0.417][A
+Train step of epoch 0:  11%|█         | 480/4533 [1:18:27<11:43:12, 10.41s/it, gpt_loss=0.553, loss_mean=0.417][A2026-01-26 15:06:31.482 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  11%|█         | 480/4533 [1:18:36<11:43:12, 10.41s/it, gpt_loss=0.25, loss_mean=0.401] [A
+Train step of epoch 0:  11%|█         | 481/4533 [1:18:36<11:07:47,  9.89s/it, gpt_loss=0.25, loss_mean=0.401][A2026-01-26 15:06:40.458 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  11%|█         | 481/4533 [1:18:45<11:07:47,  9.89s/it, gpt_loss=0.291, loss_mean=0.39][A
+Train step of epoch 0:  11%|█         | 482/4533 [1:18:45<10:51:36,  9.65s/it, gpt_loss=0.291, loss_mean=0.39][A2026-01-26 15:06:49.483 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  11%|█         | 482/4533 [1:18:54<10:51:36,  9.65s/it, gpt_loss=0.302, loss_mean=0.381][A
+Train step of epoch 0:  11%|█         | 483/4533 [1:18:54<10:46:19,  9.58s/it, gpt_loss=0.302, loss_mean=0.381][A2026-01-26 15:06:58.595 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  11%|█         | 483/4533 [1:19:04<10:46:19,  9.58s/it, gpt_loss=0.428, loss_mean=0.386][A
+Train step of epoch 0:  11%|█         | 484/4533 [1:19:04<10:41:46,  9.51s/it, gpt_loss=0.428, loss_mean=0.386][A2026-01-26 15:07:08.064 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  11%|█         | 484/4533 [1:19:13<10:41:46,  9.51s/it, gpt_loss=0.292, loss_mean=0.376][A
+Train step of epoch 0:  11%|█         | 485/4533 [1:19:13<10:31:45,  9.36s/it, gpt_loss=0.292, loss_mean=0.376][A2026-01-26 15:07:17.156 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  11%|█         | 485/4533 [1:19:24<10:31:45,  9.36s/it, gpt_loss=0.447, loss_mean=0.383][A
+Train step of epoch 0:  11%|█         | 486/4533 [1:19:24<11:20:57, 10.10s/it, gpt_loss=0.447, loss_mean=0.383][A2026-01-26 15:07:28.651 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  11%|█         | 486/4533 [1:19:33<11:20:57, 10.10s/it, gpt_loss=0.279, loss_mean=0.373][A
+Train step of epoch 0:  11%|█         | 487/4533 [1:19:33<10:45:41,  9.58s/it, gpt_loss=0.279, loss_mean=0.373][A2026-01-26 15:07:37.190 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  11%|█         | 487/4533 [1:19:42<10:45:41,  9.58s/it, gpt_loss=0.319, loss_mean=0.367][A
+Train step of epoch 0:  11%|█         | 488/4533 [1:19:42<10:42:03,  9.52s/it, gpt_loss=0.319, loss_mean=0.367][A2026-01-26 15:07:46.680 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  11%|█         | 488/4533 [1:19:51<10:42:03,  9.52s/it, gpt_loss=0.296, loss_mean=0.36] [A
+Train step of epoch 0:  11%|█         | 489/4533 [1:19:51<10:24:53,  9.27s/it, gpt_loss=0.296, loss_mean=0.36][A
+[LID Router Debug] Step: 490
+Batch Size: 14
+Audio Batch Size: 119
+LID Assignments: [4, 1, 0, 0, 6, 1, 1, 2, 5, 2, 4, 9, 9, 4]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-26 15:07:55.383 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  11%|█         | 489/4533 [1:20:03<10:24:53,  9.27s/it, gpt_loss=0.504, loss_mean=0.375][A
+Train step of epoch 0:  11%|█         | 490/4533 [1:20:03<11:13:16,  9.99s/it, gpt_loss=0.504, loss_mean=0.375][A2026-01-26 15:08:06.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  11%|█         | 490/4533 [1:20:12<11:13:16,  9.99s/it, gpt_loss=0.281, loss_mean=0.365][A
+Train step of epoch 0:  11%|█         | 491/4533 [1:20:12<11:01:07,  9.81s/it, gpt_loss=0.281, loss_mean=0.365][A2026-01-26 15:08:16.457 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  11%|█         | 491/4533 [1:20:21<11:01:07,  9.81s/it, gpt_loss=0.259, loss_mean=0.355][A
+Train step of epoch 0:  11%|█         | 492/4533 [1:20:21<10:54:45,  9.72s/it, gpt_loss=0.259, loss_mean=0.355][A2026-01-26 15:08:25.998 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  11%|█         | 492/4533 [1:20:33<10:54:45,  9.72s/it, gpt_loss=0.462, loss_mean=0.365][A
+Train step of epoch 0:  11%|█         | 493/4533 [1:20:33<11:41:40, 10.42s/it, gpt_loss=0.462, loss_mean=0.365][A2026-01-26 15:08:37.984 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  11%|█         | 493/4533 [1:20:43<11:41:40, 10.42s/it, gpt_loss=0.389, loss_mean=0.368][A
+Train step of epoch 0:  11%|█         | 494/4533 [1:20:43<11:20:58, 10.12s/it, gpt_loss=0.389, loss_mean=0.368][A2026-01-26 15:08:47.473 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  11%|█         | 494/4533 [1:20:52<11:20:58, 10.12s/it, gpt_loss=0.418, loss_mean=0.373][A
+Train step of epoch 0:  11%|█         | 495/4533 [1:20:52<10:59:50,  9.80s/it, gpt_loss=0.418, loss_mean=0.373][A2026-01-26 15:08:56.492 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  11%|█         | 495/4533 [1:21:04<10:59:50,  9.80s/it, gpt_loss=0.428, loss_mean=0.378][A
+Train step of epoch 0:  11%|█         | 496/4533 [1:21:04<11:36:53, 10.36s/it, gpt_loss=0.428, loss_mean=0.378][A2026-01-26 15:09:08.074 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  11%|█         | 496/4533 [1:21:13<11:36:53, 10.36s/it, gpt_loss=0.405, loss_mean=0.381][A
+Train step of epoch 0:  11%|█         | 497/4533 [1:21:13<11:21:12, 10.13s/it, gpt_loss=0.405, loss_mean=0.381][A2026-01-26 15:09:17.658 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  11%|█         | 497/4533 [1:21:22<11:21:12, 10.13s/it, gpt_loss=0.268, loss_mean=0.37] [A
+Train step of epoch 0:  11%|█         | 498/4533 [1:21:22<10:54:08,  9.73s/it, gpt_loss=0.268, loss_mean=0.37][A2026-01-26 15:09:26.674 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  11%|█         | 498/4533 [1:21:32<10:54:08,  9.73s/it, gpt_loss=0.322, loss_mean=0.365][A
+Train step of epoch 0:  11%|█         | 499/4533 [1:21:32<10:51:53,  9.70s/it, gpt_loss=0.322, loss_mean=0.365][A
+[LID Router Debug] Step: 500
+Batch Size: 14
+Audio Batch Size: 131
+LID Assignments: [3, 6, 5, 6, 9, 2, 6, 1, 2, 6, 5, 5, 5, 6]
+Active Experts in Batch: {1, 2, 3, 5, 6, 9}
+2026-01-26 15:09:36.294 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-26 15:09:44,447] [INFO] [logging.py:96:log_dist] [Rank 0] step=500, skipped=0, lr=[1.996394813794077e-05, 1.996394813794077e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 15:09:44,448] [INFO] [timer.py:260:stop] epoch=0/micro_step=500/global_step=500, RunningAvgSamplesPerSec=5.747877012522087, CurrSamplesPerSec=6.288587281237741, MemAllocated=14.82GB, MaxMemAllocated=53.32GB
+
+Train step of epoch 0:  11%|█         | 499/4533 [1:21:41<10:51:53,  9.70s/it, gpt_loss=0.333, loss_mean=0.362][A
+Train step of epoch 0:  11%|█         | 500/4533 [1:21:41<10:36:09,  9.46s/it, gpt_loss=0.333, loss_mean=0.362][A2026-01-26 15:09:45.073 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  11%|█         | 500/4533 [1:21:50<10:36:09,  9.46s/it, gpt_loss=0.324, loss_mean=0.358][A
+Train step of epoch 0:  11%|█         | 501/4533 [1:21:50<10:40:18,  9.53s/it, gpt_loss=0.324, loss_mean=0.358][A2026-01-26 15:09:54.584 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  11%|█         | 501/4533 [1:21:59<10:40:18,  9.53s/it, gpt_loss=0.321, loss_mean=0.354][A
+Train step of epoch 0:  11%|█         | 502/4533 [1:21:59<10:20:20,  9.23s/it, gpt_loss=0.321, loss_mean=0.354][A2026-01-26 15:10:02.993 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  11%|█         | 502/4533 [1:22:11<10:20:20,  9.23s/it, gpt_loss=0.456, loss_mean=0.364][A
+Train step of epoch 0:  11%|█         | 503/4533 [1:22:11<11:12:04, 10.01s/it, gpt_loss=0.456, loss_mean=0.364][A2026-01-26 15:10:15.171 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  11%|█         | 503/4533 [1:22:20<11:12:04, 10.01s/it, gpt_loss=0.31, loss_mean=0.359] [A
+Train step of epoch 0:  11%|█         | 504/4533 [1:22:20<11:07:34,  9.94s/it, gpt_loss=0.31, loss_mean=0.359][A2026-01-26 15:10:24.783 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  11%|█         | 504/4533 [1:22:32<11:07:34,  9.94s/it, gpt_loss=0.489, loss_mean=0.372][A
+Train step of epoch 0:  11%|█         | 505/4533 [1:22:32<11:47:28, 10.54s/it, gpt_loss=0.489, loss_mean=0.372][A2026-01-26 15:10:36.787 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  11%|█         | 505/4533 [1:22:41<11:47:28, 10.54s/it, gpt_loss=0.302, loss_mean=0.365][A
+Train step of epoch 0:  11%|█         | 506/4533 [1:22:41<11:14:59, 10.06s/it, gpt_loss=0.302, loss_mean=0.365][A2026-01-26 15:10:45.852 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  11%|█         | 506/4533 [1:22:50<11:14:59, 10.06s/it, gpt_loss=0.248, loss_mean=0.353][A
+Train step of epoch 0:  11%|█         | 507/4533 [1:22:50<10:57:46,  9.80s/it, gpt_loss=0.248, loss_mean=0.353][A2026-01-26 15:10:54.971 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  11%|█         | 507/4533 [1:23:00<10:57:46,  9.80s/it, gpt_loss=0.332, loss_mean=0.351][A
+Train step of epoch 0:  11%|█         | 508/4533 [1:23:00<10:52:33,  9.73s/it, gpt_loss=0.332, loss_mean=0.351][A2026-01-26 15:11:04.374 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  11%|█         | 508/4533 [1:23:09<10:52:33,  9.73s/it, gpt_loss=0.279, loss_mean=0.344][A
+Train step of epoch 0:  11%|█         | 509/4533 [1:23:09<10:33:22,  9.44s/it, gpt_loss=0.279, loss_mean=0.344][A
+[LID Router Debug] Step: 510
+Batch Size: 14
+Audio Batch Size: 137
+LID Assignments: [3, 4, 5, 5, 9, 3, 4, 4, 5, 2, 5, 1, 0, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 15:11:13.185 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  11%|█         | 509/4533 [1:23:18<10:33:22,  9.44s/it, gpt_loss=0.309, loss_mean=0.34] [A
+Train step of epoch 0:  11%|█▏        | 510/4533 [1:23:18<10:25:36,  9.33s/it, gpt_loss=0.309, loss_mean=0.34][A2026-01-26 15:11:22.294 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  11%|█▏        | 510/4533 [1:23:27<10:25:36,  9.33s/it, gpt_loss=0.269, loss_mean=0.333][A
+Train step of epoch 0:  11%|█▏        | 511/4533 [1:23:27<10:16:33,  9.20s/it, gpt_loss=0.269, loss_mean=0.333][A2026-01-26 15:11:31.364 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  11%|█▏        | 511/4533 [1:23:39<10:16:33,  9.20s/it, gpt_loss=0.415, loss_mean=0.341][A
+Train step of epoch 0:  11%|█▏        | 512/4533 [1:23:39<11:18:06, 10.12s/it, gpt_loss=0.415, loss_mean=0.341][A2026-01-26 15:11:43.469 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  11%|█▏        | 512/4533 [1:23:48<11:18:06, 10.12s/it, gpt_loss=0.328, loss_mean=0.34] [A
+Train step of epoch 0:  11%|█▏        | 513/4533 [1:23:48<10:47:12,  9.66s/it, gpt_loss=0.328, loss_mean=0.34][A2026-01-26 15:11:52.181 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  11%|█▏        | 513/4533 [1:24:00<10:47:12,  9.66s/it, gpt_loss=0.424, loss_mean=0.348][A
+Train step of epoch 0:  11%|█▏        | 514/4533 [1:24:00<11:34:54, 10.37s/it, gpt_loss=0.424, loss_mean=0.348][A2026-01-26 15:12:04.371 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  11%|█▏        | 514/4533 [1:24:09<11:34:54, 10.37s/it, gpt_loss=0.274, loss_mean=0.341][A
+Train step of epoch 0:  11%|█▏        | 515/4533 [1:24:09<11:07:37,  9.97s/it, gpt_loss=0.274, loss_mean=0.341][A2026-01-26 15:12:13.296 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  11%|█▏        | 515/4533 [1:24:18<11:07:37,  9.97s/it, gpt_loss=0.322, loss_mean=0.339][A
+Train step of epoch 0:  11%|█▏        | 516/4533 [1:24:18<10:45:16,  9.64s/it, gpt_loss=0.322, loss_mean=0.339][A2026-01-26 15:12:22.199 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  11%|█▏        | 516/4533 [1:24:29<10:45:16,  9.64s/it, gpt_loss=0.479, loss_mean=0.353][A
+Train step of epoch 0:  11%|█▏        | 517/4533 [1:24:29<11:32:23, 10.34s/it, gpt_loss=0.479, loss_mean=0.353][A2026-01-26 15:12:34.094 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  11%|█▏        | 517/4533 [1:24:39<11:32:23, 10.34s/it, gpt_loss=0.273, loss_mean=0.345][A
+Train step of epoch 0:  11%|█▏        | 518/4533 [1:24:39<11:07:53,  9.98s/it, gpt_loss=0.273, loss_mean=0.345][A2026-01-26 15:12:43.300 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  11%|█▏        | 518/4533 [1:24:51<11:07:53,  9.98s/it, gpt_loss=0.429, loss_mean=0.353][A
+Train step of epoch 0:  11%|█▏        | 519/4533 [1:24:51<11:50:12, 10.62s/it, gpt_loss=0.429, loss_mean=0.353][A
+[LID Router Debug] Step: 520
+Batch Size: 14
+Audio Batch Size: 162
+LID Assignments: [3, 6, 9, 4, 0, 3, 3, 4, 9, 9, 1, 2, 2, 6]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-26 15:12:55.074 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  11%|█▏        | 519/4533 [1:25:00<11:50:12, 10.62s/it, gpt_loss=0.4, loss_mean=0.358]  [A
+Train step of epoch 0:  11%|█▏        | 520/4533 [1:25:00<11:23:50, 10.22s/it, gpt_loss=0.4, loss_mean=0.358][A2026-01-26 15:13:04.580 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  11%|█▏        | 520/4533 [1:25:12<11:23:50, 10.22s/it, gpt_loss=0.41, loss_mean=0.363][A
+Train step of epoch 0:  11%|█▏        | 521/4533 [1:25:12<12:04:02, 10.83s/it, gpt_loss=0.41, loss_mean=0.363][A2026-01-26 15:13:16.680 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  11%|█▏        | 521/4533 [1:25:22<12:04:02, 10.83s/it, gpt_loss=0.348, loss_mean=0.362][A
+Train step of epoch 0:  12%|█▏        | 522/4533 [1:25:22<11:37:51, 10.44s/it, gpt_loss=0.348, loss_mean=0.362][A2026-01-26 15:13:26.480 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  12%|█▏        | 522/4533 [1:25:34<11:37:51, 10.44s/it, gpt_loss=0.44, loss_mean=0.37]  [A
+Train step of epoch 0:  12%|█▏        | 523/4533 [1:25:34<12:08:05, 10.89s/it, gpt_loss=0.44, loss_mean=0.37][A2026-01-26 15:13:38.180 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  12%|█▏        | 523/4533 [1:25:43<12:08:05, 10.89s/it, gpt_loss=0.327, loss_mean=0.365][A
+Train step of epoch 0:  12%|█▏        | 524/4533 [1:25:43<11:42:17, 10.51s/it, gpt_loss=0.327, loss_mean=0.365][A2026-01-26 15:13:47.697 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  12%|█▏        | 524/4533 [1:25:52<11:42:17, 10.51s/it, gpt_loss=0.331, loss_mean=0.362][A
+Train step of epoch 0:  12%|█▏        | 525/4533 [1:25:52<11:09:01, 10.02s/it, gpt_loss=0.331, loss_mean=0.362][A2026-01-26 15:13:56.789 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  12%|█▏        | 525/4533 [1:26:01<11:09:01, 10.02s/it, gpt_loss=0.282, loss_mean=0.354][A
+Train step of epoch 0:  12%|█▏        | 526/4533 [1:26:01<10:42:19,  9.62s/it, gpt_loss=0.282, loss_mean=0.354][A2026-01-26 15:14:05.381 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  12%|█▏        | 526/4533 [1:26:10<10:42:19,  9.62s/it, gpt_loss=0.39, loss_mean=0.358] [A
+Train step of epoch 0:  12%|█▏        | 527/4533 [1:26:10<10:27:19,  9.40s/it, gpt_loss=0.39, loss_mean=0.358][A2026-01-26 15:14:14.382 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  12%|█▏        | 527/4533 [1:26:19<10:27:19,  9.40s/it, gpt_loss=0.313, loss_mean=0.353][A
+Train step of epoch 0:  12%|█▏        | 528/4533 [1:26:19<10:15:10,  9.22s/it, gpt_loss=0.313, loss_mean=0.353][A2026-01-26 15:14:23.297 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  12%|█▏        | 528/4533 [1:26:28<10:15:10,  9.22s/it, gpt_loss=0.323, loss_mean=0.35] [A
+Train step of epoch 0:  12%|█▏        | 529/4533 [1:26:28<10:14:57,  9.22s/it, gpt_loss=0.323, loss_mean=0.35][A
+[LID Router Debug] Step: 530
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [1, 2, 9, 1, 1, 3, 1, 5, 9, 3, 0, 0, 9, 1]
+Active Experts in Batch: {0, 1, 2, 3, 5, 9}
+2026-01-26 15:14:32.463 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  12%|█▏        | 529/4533 [1:26:37<10:14:57,  9.22s/it, gpt_loss=0.294, loss_mean=0.344][A
+Train step of epoch 0:  12%|█▏        | 530/4533 [1:26:37<10:07:53,  9.11s/it, gpt_loss=0.294, loss_mean=0.344][A2026-01-26 15:14:41.298 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  12%|█▏        | 530/4533 [1:26:46<10:07:53,  9.11s/it, gpt_loss=0.344, loss_mean=0.344][A
+Train step of epoch 0:  12%|█▏        | 531/4533 [1:26:46<10:06:26,  9.09s/it, gpt_loss=0.344, loss_mean=0.344][A2026-01-26 15:14:50.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  12%|█▏        | 531/4533 [1:26:55<10:06:26,  9.09s/it, gpt_loss=0.384, loss_mean=0.348][A
+Train step of epoch 0:  12%|█▏        | 532/4533 [1:26:55<10:15:39,  9.23s/it, gpt_loss=0.384, loss_mean=0.348][A2026-01-26 15:14:59.655 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  12%|█▏        | 532/4533 [1:27:04<10:15:39,  9.23s/it, gpt_loss=0.396, loss_mean=0.353][A
+Train step of epoch 0:  12%|█▏        | 533/4533 [1:27:04<10:08:00,  9.12s/it, gpt_loss=0.396, loss_mean=0.353][A2026-01-26 15:15:08.755 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  12%|█▏        | 533/4533 [1:27:14<10:08:00,  9.12s/it, gpt_loss=0.388, loss_mean=0.357][A
+Train step of epoch 0:  12%|█▏        | 534/4533 [1:27:14<10:21:00,  9.32s/it, gpt_loss=0.388, loss_mean=0.357][A2026-01-26 15:15:18.382 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  12%|█▏        | 534/4533 [1:27:23<10:21:00,  9.32s/it, gpt_loss=0.407, loss_mean=0.362][A
+Train step of epoch 0:  12%|█▏        | 535/4533 [1:27:23<10:07:22,  9.12s/it, gpt_loss=0.407, loss_mean=0.362][A2026-01-26 15:15:27.199 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  12%|█▏        | 535/4533 [1:27:32<10:07:22,  9.12s/it, gpt_loss=0.321, loss_mean=0.358][A
+Train step of epoch 0:  12%|█▏        | 536/4533 [1:27:32<10:07:03,  9.11s/it, gpt_loss=0.321, loss_mean=0.358][A2026-01-26 15:15:36.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  12%|█▏        | 536/4533 [1:27:41<10:07:03,  9.11s/it, gpt_loss=0.279, loss_mean=0.35] [A
+Train step of epoch 0:  12%|█▏        | 537/4533 [1:27:41<10:04:47,  9.08s/it, gpt_loss=0.279, loss_mean=0.35][A2026-01-26 15:15:45.172 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  12%|█▏        | 537/4533 [1:27:49<10:04:47,  9.08s/it, gpt_loss=0.337, loss_mean=0.349][A
+Train step of epoch 0:  12%|█▏        | 538/4533 [1:27:49<9:56:03,  8.95s/it, gpt_loss=0.337, loss_mean=0.349] [A2026-01-26 15:15:53.785 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  12%|█▏        | 538/4533 [1:28:01<9:56:03,  8.95s/it, gpt_loss=0.392, loss_mean=0.353][A
+Train step of epoch 0:  12%|█▏        | 539/4533 [1:28:01<10:51:18,  9.78s/it, gpt_loss=0.392, loss_mean=0.353][A
+[LID Router Debug] Step: 540
+Batch Size: 14
+Audio Batch Size: 177
+LID Assignments: [9, 2, 5, 0, 5, 5, 3, 3, 0, 4, 5, 9, 0, 9]
+Active Experts in Batch: {0, 2, 3, 4, 5, 9}
+2026-01-26 15:16:05.751 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  12%|█▏        | 539/4533 [1:28:10<10:51:18,  9.78s/it, gpt_loss=0.293, loss_mean=0.347][A
+Train step of epoch 0:  12%|█▏        | 540/4533 [1:28:10<10:41:15,  9.64s/it, gpt_loss=0.293, loss_mean=0.347][A2026-01-26 15:16:14.862 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  12%|█▏        | 540/4533 [1:28:22<10:41:15,  9.64s/it, gpt_loss=0.371, loss_mean=0.349][A
+Train step of epoch 0:  12%|█▏        | 541/4533 [1:28:22<11:26:30, 10.32s/it, gpt_loss=0.371, loss_mean=0.349][A2026-01-26 15:16:26.678 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  12%|█▏        | 541/4533 [1:28:31<11:26:30, 10.32s/it, gpt_loss=0.287, loss_mean=0.343][A
+Train step of epoch 0:  12%|█▏        | 542/4533 [1:28:31<10:57:50,  9.89s/it, gpt_loss=0.287, loss_mean=0.343][A2026-01-26 15:16:35.599 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  12%|█▏        | 542/4533 [1:28:43<10:57:50,  9.89s/it, gpt_loss=0.485, loss_mean=0.357][A
+Train step of epoch 0:  12%|█▏        | 543/4533 [1:28:43<11:37:37, 10.49s/it, gpt_loss=0.485, loss_mean=0.357][A2026-01-26 15:16:47.675 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  12%|█▏        | 543/4533 [1:28:52<11:37:37, 10.49s/it, gpt_loss=0.316, loss_mean=0.353][A
+Train step of epoch 0:  12%|█▏        | 544/4533 [1:28:52<11:05:12, 10.01s/it, gpt_loss=0.316, loss_mean=0.353][A2026-01-26 15:16:56.583 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  12%|█▏        | 544/4533 [1:29:01<11:05:12, 10.01s/it, gpt_loss=0.307, loss_mean=0.348][A
+Train step of epoch 0:  12%|█▏        | 545/4533 [1:29:01<10:43:07,  9.68s/it, gpt_loss=0.307, loss_mean=0.348][A2026-01-26 15:17:05.468 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  12%|█▏        | 545/4533 [1:29:11<10:43:07,  9.68s/it, gpt_loss=0.41, loss_mean=0.355] [A
+Train step of epoch 0:  12%|█▏        | 546/4533 [1:29:11<10:46:51,  9.73s/it, gpt_loss=0.41, loss_mean=0.355][A2026-01-26 15:17:15.180 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  12%|█▏        | 546/4533 [1:29:19<10:46:51,  9.73s/it, gpt_loss=0.322, loss_mean=0.351][A
+Train step of epoch 0:  12%|█▏        | 547/4533 [1:29:19<10:26:52,  9.44s/it, gpt_loss=0.322, loss_mean=0.351][A2026-01-26 15:17:23.861 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  12%|█▏        | 547/4533 [1:29:29<10:26:52,  9.44s/it, gpt_loss=0.348, loss_mean=0.351][A
+Train step of epoch 0:  12%|█▏        | 548/4533 [1:29:29<10:26:14,  9.43s/it, gpt_loss=0.348, loss_mean=0.351][A2026-01-26 15:17:33.485 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  12%|█▏        | 548/4533 [1:29:38<10:26:14,  9.43s/it, gpt_loss=0.322, loss_mean=0.348][A
+Train step of epoch 0:  12%|█▏        | 549/4533 [1:29:38<10:29:45,  9.48s/it, gpt_loss=0.322, loss_mean=0.348][A
+[LID Router Debug] Step: 550
+Batch Size: 14
+Audio Batch Size: 148
+LID Assignments: [3, 4, 1, 9, 3, 4, 0, 4, 2, 0, 4, 9, 1, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 9}
+2026-01-26 15:17:42.754 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  12%|█▏        | 549/4533 [1:29:47<10:29:45,  9.48s/it, gpt_loss=0.33, loss_mean=0.346] [A
+Train step of epoch 0:  12%|█▏        | 550/4533 [1:29:47<10:10:53,  9.20s/it, gpt_loss=0.33, loss_mean=0.346][A2026-01-26 15:17:51.694 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  12%|█▏        | 550/4533 [1:29:57<10:10:53,  9.20s/it, gpt_loss=0.349, loss_mean=0.347][A
+Train step of epoch 0:  12%|█▏        | 551/4533 [1:29:57<10:21:32,  9.37s/it, gpt_loss=0.349, loss_mean=0.347][A2026-01-26 15:18:01.381 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  12%|█▏        | 551/4533 [1:30:09<10:21:32,  9.37s/it, gpt_loss=0.499, loss_mean=0.362][A
+Train step of epoch 0:  12%|█▏        | 552/4533 [1:30:09<11:11:39, 10.12s/it, gpt_loss=0.499, loss_mean=0.362][A2026-01-26 15:18:13.167 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  12%|█▏        | 552/4533 [1:30:18<11:11:39, 10.12s/it, gpt_loss=0.409, loss_mean=0.366][A
+Train step of epoch 0:  12%|█▏        | 553/4533 [1:30:18<11:00:19,  9.95s/it, gpt_loss=0.409, loss_mean=0.366][A2026-01-26 15:18:22.666 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  12%|█▏        | 553/4533 [1:30:27<11:00:19,  9.95s/it, gpt_loss=0.281, loss_mean=0.358][A
+Train step of epoch 0:  12%|█▏        | 554/4533 [1:30:27<10:34:25,  9.57s/it, gpt_loss=0.281, loss_mean=0.358][A2026-01-26 15:18:31.551 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  12%|█▏        | 554/4533 [1:30:36<10:34:25,  9.57s/it, gpt_loss=0.301, loss_mean=0.352][A
+Train step of epoch 0:  12%|█▏        | 555/4533 [1:30:36<10:21:55,  9.38s/it, gpt_loss=0.301, loss_mean=0.352][A2026-01-26 15:18:40.472 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  12%|█▏        | 555/4533 [1:30:46<10:21:55,  9.38s/it, gpt_loss=0.372, loss_mean=0.354][A
+Train step of epoch 0:  12%|█▏        | 556/4533 [1:30:46<10:29:21,  9.49s/it, gpt_loss=0.372, loss_mean=0.354][A2026-01-26 15:18:50.159 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  12%|█▏        | 556/4533 [1:30:55<10:29:21,  9.49s/it, gpt_loss=0.31, loss_mean=0.35]  [A
+Train step of epoch 0:  12%|█▏        | 557/4533 [1:30:55<10:34:48,  9.58s/it, gpt_loss=0.31, loss_mean=0.35][A2026-01-26 15:18:59.867 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  12%|█▏        | 557/4533 [1:31:04<10:34:48,  9.58s/it, gpt_loss=0.307, loss_mean=0.346][A
+Train step of epoch 0:  12%|█▏        | 558/4533 [1:31:04<10:19:14,  9.35s/it, gpt_loss=0.307, loss_mean=0.346][A2026-01-26 15:19:08.678 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  12%|█▏        | 558/4533 [1:31:13<10:19:14,  9.35s/it, gpt_loss=0.279, loss_mean=0.339][A
+Train step of epoch 0:  12%|█▏        | 559/4533 [1:31:13<10:04:53,  9.13s/it, gpt_loss=0.279, loss_mean=0.339][A
+[LID Router Debug] Step: 560
+Batch Size: 14
+Audio Batch Size: 193
+LID Assignments: [4, 5, 9, 5, 9, 4, 3, 3, 9, 1, 0, 9, 3, 4]
+Active Experts in Batch: {0, 1, 3, 4, 5, 9}
+2026-01-26 15:19:17.074 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  12%|█▏        | 559/4533 [1:31:21<10:04:53,  9.13s/it, gpt_loss=0.362, loss_mean=0.341][A
+Train step of epoch 0:  12%|█▏        | 560/4533 [1:31:21<9:50:52,  8.92s/it, gpt_loss=0.362, loss_mean=0.341] [A2026-01-26 15:19:25.574 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  12%|█▏        | 560/4533 [1:31:30<9:50:52,  8.92s/it, gpt_loss=0.392, loss_mean=0.346][A
+Train step of epoch 0:  12%|█▏        | 561/4533 [1:31:30<9:54:29,  8.98s/it, gpt_loss=0.392, loss_mean=0.346][A2026-01-26 15:19:34.789 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  12%|█▏        | 561/4533 [1:31:42<9:54:29,  8.98s/it, gpt_loss=0.479, loss_mean=0.359][A
+Train step of epoch 0:  12%|█▏        | 562/4533 [1:31:42<10:44:54,  9.74s/it, gpt_loss=0.479, loss_mean=0.359][A2026-01-26 15:19:46.369 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  12%|█▏        | 562/4533 [1:31:51<10:44:54,  9.74s/it, gpt_loss=0.259, loss_mean=0.349][A
+Train step of epoch 0:  12%|█▏        | 563/4533 [1:31:51<10:27:55,  9.49s/it, gpt_loss=0.259, loss_mean=0.349][A2026-01-26 15:19:55.470 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  12%|█▏        | 563/4533 [1:32:00<10:27:55,  9.49s/it, gpt_loss=0.25, loss_mean=0.339] [A
+Train step of epoch 0:  12%|█▏        | 564/4533 [1:32:00<10:21:28,  9.39s/it, gpt_loss=0.25, loss_mean=0.339][A2026-01-26 15:20:04.578 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  12%|█▏        | 564/4533 [1:32:09<10:21:28,  9.39s/it, gpt_loss=0.34, loss_mean=0.34] [A
+Train step of epoch 0:  12%|█▏        | 565/4533 [1:32:09<10:13:37,  9.28s/it, gpt_loss=0.34, loss_mean=0.34][A2026-01-26 15:20:13.388 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  12%|█▏        | 565/4533 [1:32:18<10:13:37,  9.28s/it, gpt_loss=0.384, loss_mean=0.344][A
+Train step of epoch 0:  12%|█▏        | 566/4533 [1:32:18<10:18:15,  9.35s/it, gpt_loss=0.384, loss_mean=0.344][A2026-01-26 15:20:23.102 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  12%|█▏        | 566/4533 [1:32:27<10:18:15,  9.35s/it, gpt_loss=0.335, loss_mean=0.343][A
+Train step of epoch 0:  13%|█▎        | 567/4533 [1:32:27<10:10:54,  9.24s/it, gpt_loss=0.335, loss_mean=0.343][A2026-01-26 15:20:32.097 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  13%|█▎        | 567/4533 [1:32:39<10:10:54,  9.24s/it, gpt_loss=0.411, loss_mean=0.35] [A
+Train step of epoch 0:  13%|█▎        | 568/4533 [1:32:39<11:04:56, 10.06s/it, gpt_loss=0.411, loss_mean=0.35][A2026-01-26 15:20:43.559 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  13%|█▎        | 568/4533 [1:32:48<11:04:56, 10.06s/it, gpt_loss=0.261, loss_mean=0.341][A
+Train step of epoch 0:  13%|█▎        | 569/4533 [1:32:48<10:31:45,  9.56s/it, gpt_loss=0.261, loss_mean=0.341][A
+[LID Router Debug] Step: 570
+Batch Size: 14
+Audio Batch Size: 141
+LID Assignments: [9, 1, 3, 5, 3, 1, 1, 5, 1, 2, 4, 6, 4, 6]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-26 15:20:52.279 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  13%|█▎        | 569/4533 [1:32:57<10:31:45,  9.56s/it, gpt_loss=0.263, loss_mean=0.333][A
+Train step of epoch 0:  13%|█▎        | 570/4533 [1:32:57<10:14:14,  9.30s/it, gpt_loss=0.263, loss_mean=0.333][A2026-01-26 15:21:00.568 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  13%|█▎        | 570/4533 [1:33:08<10:14:14,  9.30s/it, gpt_loss=0.469, loss_mean=0.347][A
+Train step of epoch 0:  13%|█▎        | 571/4533 [1:33:08<11:00:50, 10.01s/it, gpt_loss=0.469, loss_mean=0.347][A2026-01-26 15:21:12.561 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  13%|█▎        | 571/4533 [1:33:20<11:00:50, 10.01s/it, gpt_loss=0.445, loss_mean=0.357][A
+Train step of epoch 0:  13%|█▎        | 572/4533 [1:33:20<11:34:09, 10.51s/it, gpt_loss=0.445, loss_mean=0.357][A2026-01-26 15:21:24.493 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  13%|█▎        | 572/4533 [1:33:29<11:34:09, 10.51s/it, gpt_loss=0.258, loss_mean=0.347][A
+Train step of epoch 0:  13%|█▎        | 573/4533 [1:33:29<10:59:40,  9.99s/it, gpt_loss=0.258, loss_mean=0.347][A2026-01-26 15:21:33.268 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  13%|█▎        | 573/4533 [1:33:40<10:59:40,  9.99s/it, gpt_loss=0.487, loss_mean=0.361][A
+Train step of epoch 0:  13%|█▎        | 574/4533 [1:33:40<11:35:07, 10.53s/it, gpt_loss=0.487, loss_mean=0.361][A2026-01-26 15:21:45.174 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  13%|█▎        | 574/4533 [1:33:50<11:35:07, 10.53s/it, gpt_loss=0.357, loss_mean=0.36] [A
+Train step of epoch 0:  13%|█▎        | 575/4533 [1:33:50<11:19:58, 10.31s/it, gpt_loss=0.357, loss_mean=0.36][A2026-01-26 15:21:54.593 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  13%|█▎        | 575/4533 [1:34:02<11:19:58, 10.31s/it, gpt_loss=0.359, loss_mean=0.36][A
+Train step of epoch 0:  13%|█▎        | 576/4533 [1:34:02<11:46:16, 10.71s/it, gpt_loss=0.359, loss_mean=0.36][A2026-01-26 15:22:06.292 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  13%|█▎        | 576/4533 [1:34:11<11:46:16, 10.71s/it, gpt_loss=0.433, loss_mean=0.368][A
+Train step of epoch 0:  13%|█▎        | 577/4533 [1:34:11<11:20:17, 10.32s/it, gpt_loss=0.433, loss_mean=0.368][A2026-01-26 15:22:15.878 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  13%|█▎        | 577/4533 [1:34:21<11:20:17, 10.32s/it, gpt_loss=0.33, loss_mean=0.364] [A
+Train step of epoch 0:  13%|█▎        | 578/4533 [1:34:21<11:09:11, 10.15s/it, gpt_loss=0.33, loss_mean=0.364][A2026-01-26 15:22:25.686 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  13%|█▎        | 578/4533 [1:34:30<11:09:11, 10.15s/it, gpt_loss=0.396, loss_mean=0.367][A
+Train step of epoch 0:  13%|█▎        | 579/4533 [1:34:30<10:48:01,  9.83s/it, gpt_loss=0.396, loss_mean=0.367][A
+[LID Router Debug] Step: 580
+Batch Size: 14
+Audio Batch Size: 147
+LID Assignments: [1, 1, 6, 5, 5, 1, 2, 5, 5, 2, 2, 3, 5, 9]
+Active Experts in Batch: {1, 2, 3, 5, 6, 9}
+2026-01-26 15:22:34.785 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  13%|█▎        | 579/4533 [1:34:42<10:48:01,  9.83s/it, gpt_loss=0.438, loss_mean=0.374][A
+Train step of epoch 0:  13%|█▎        | 580/4533 [1:34:42<11:30:28, 10.48s/it, gpt_loss=0.438, loss_mean=0.374][A2026-01-26 15:22:46.774 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  13%|█▎        | 580/4533 [1:34:52<11:30:28, 10.48s/it, gpt_loss=0.334, loss_mean=0.37] [A
+Train step of epoch 0:  13%|█▎        | 581/4533 [1:34:52<11:14:27, 10.24s/it, gpt_loss=0.334, loss_mean=0.37][A2026-01-26 15:22:56.158 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  13%|█▎        | 581/4533 [1:35:01<11:14:27, 10.24s/it, gpt_loss=0.298, loss_mean=0.363][A
+Train step of epoch 0:  13%|█▎        | 582/4533 [1:35:01<10:47:50,  9.84s/it, gpt_loss=0.298, loss_mean=0.363][A2026-01-26 15:23:05.351 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  13%|█▎        | 582/4533 [1:35:10<10:47:50,  9.84s/it, gpt_loss=0.261, loss_mean=0.353][A
+Train step of epoch 0:  13%|█▎        | 583/4533 [1:35:10<10:40:22,  9.73s/it, gpt_loss=0.261, loss_mean=0.353][A2026-01-26 15:23:14.587 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  13%|█▎        | 583/4533 [1:35:19<10:40:22,  9.73s/it, gpt_loss=0.313, loss_mean=0.349][A
+Train step of epoch 0:  13%|█▎        | 584/4533 [1:35:19<10:25:25,  9.50s/it, gpt_loss=0.313, loss_mean=0.349][A2026-01-26 15:23:23.871 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  13%|█▎        | 584/4533 [1:35:28<10:25:25,  9.50s/it, gpt_loss=0.313, loss_mean=0.345][A
+Train step of epoch 0:  13%|█▎        | 585/4533 [1:35:28<10:19:40,  9.42s/it, gpt_loss=0.313, loss_mean=0.345][A2026-01-26 15:23:32.887 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  13%|█▎        | 585/4533 [1:35:38<10:19:40,  9.42s/it, gpt_loss=0.397, loss_mean=0.35] [A
+Train step of epoch 0:  13%|█▎        | 586/4533 [1:35:38<10:19:56,  9.42s/it, gpt_loss=0.397, loss_mean=0.35][A2026-01-26 15:23:42.100 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  13%|█▎        | 586/4533 [1:35:46<10:19:56,  9.42s/it, gpt_loss=0.398, loss_mean=0.355][A
+Train step of epoch 0:  13%|█▎        | 587/4533 [1:35:46<10:00:12,  9.13s/it, gpt_loss=0.398, loss_mean=0.355][A2026-01-26 15:23:50.974 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  13%|█▎        | 587/4533 [1:35:56<10:00:12,  9.13s/it, gpt_loss=0.426, loss_mean=0.362][A
+Train step of epoch 0:  13%|█▎        | 588/4533 [1:35:56<10:15:07,  9.36s/it, gpt_loss=0.426, loss_mean=0.362][A2026-01-26 15:24:00.572 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  13%|█▎        | 588/4533 [1:36:06<10:15:07,  9.36s/it, gpt_loss=0.355, loss_mean=0.362][A
+Train step of epoch 0:  13%|█▎        | 589/4533 [1:36:06<10:18:43,  9.41s/it, gpt_loss=0.355, loss_mean=0.362][A
+[LID Router Debug] Step: 590
+Batch Size: 14
+Audio Batch Size: 147
+LID Assignments: [6, 0, 9, 9, 1, 1, 3, 2, 4, 3, 9, 1, 1, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-26 15:24:10.287 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  13%|█▎        | 589/4533 [1:36:14<10:18:43,  9.41s/it, gpt_loss=0.312, loss_mean=0.357][A
+Train step of epoch 0:  13%|█▎        | 590/4533 [1:36:14<10:05:14,  9.21s/it, gpt_loss=0.312, loss_mean=0.357][A2026-01-26 15:24:18.773 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  13%|█▎        | 590/4533 [1:36:24<10:05:14,  9.21s/it, gpt_loss=0.302, loss_mean=0.351][A
+Train step of epoch 0:  13%|█▎        | 591/4533 [1:36:24<10:11:29,  9.31s/it, gpt_loss=0.302, loss_mean=0.351][A2026-01-26 15:24:28.380 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  13%|█▎        | 591/4533 [1:36:33<10:11:29,  9.31s/it, gpt_loss=0.272, loss_mean=0.343][A
+Train step of epoch 0:  13%|█▎        | 592/4533 [1:36:33<10:01:56,  9.16s/it, gpt_loss=0.272, loss_mean=0.343][A2026-01-26 15:24:36.965 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  13%|█▎        | 592/4533 [1:36:41<10:01:56,  9.16s/it, gpt_loss=0.337, loss_mean=0.343][A
+Train step of epoch 0:  13%|█▎        | 593/4533 [1:36:41<9:49:18,  8.97s/it, gpt_loss=0.337, loss_mean=0.343] [A2026-01-26 15:24:45.986 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  13%|█▎        | 593/4533 [1:36:50<9:49:18,  8.97s/it, gpt_loss=0.309, loss_mean=0.339][A
+Train step of epoch 0:  13%|█▎        | 594/4533 [1:36:50<9:47:42,  8.95s/it, gpt_loss=0.309, loss_mean=0.339][A2026-01-26 15:24:54.884 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  13%|█▎        | 594/4533 [1:36:59<9:47:42,  8.95s/it, gpt_loss=0.315, loss_mean=0.337][A
+Train step of epoch 0:  13%|█▎        | 595/4533 [1:36:59<9:48:38,  8.97s/it, gpt_loss=0.315, loss_mean=0.337][A2026-01-26 15:25:03.768 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  13%|█▎        | 595/4533 [1:37:09<9:48:38,  8.97s/it, gpt_loss=0.331, loss_mean=0.336][A
+Train step of epoch 0:  13%|█▎        | 596/4533 [1:37:09<10:00:16,  9.15s/it, gpt_loss=0.331, loss_mean=0.336][A2026-01-26 15:25:13.271 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  13%|█▎        | 596/4533 [1:37:18<10:00:16,  9.15s/it, gpt_loss=0.416, loss_mean=0.344][A
+Train step of epoch 0:  13%|█▎        | 597/4533 [1:37:18<10:06:09,  9.24s/it, gpt_loss=0.416, loss_mean=0.344][A2026-01-26 15:25:22.967 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  13%|█▎        | 597/4533 [1:37:28<10:06:09,  9.24s/it, gpt_loss=0.322, loss_mean=0.342][A
+Train step of epoch 0:  13%|█▎        | 598/4533 [1:37:28<10:15:07,  9.38s/it, gpt_loss=0.322, loss_mean=0.342][A2026-01-26 15:25:32.567 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  13%|█▎        | 598/4533 [1:37:38<10:15:07,  9.38s/it, gpt_loss=0.325, loss_mean=0.34] [A
+Train step of epoch 0:  13%|█▎        | 599/4533 [1:37:38<10:19:03,  9.44s/it, gpt_loss=0.325, loss_mean=0.34][A
+[LID Router Debug] Step: 600
+Batch Size: 14
+Audio Batch Size: 129
+LID Assignments: [0, 9, 4, 0, 2, 1, 5, 0, 1, 5, 6, 2, 1, 0]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-26 15:25:42.271 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+[2026-01-26 15:25:53,469] [INFO] [logging.py:96:log_dist] [Rank 0] step=600, skipped=0, lr=[1.9941440454773797e-05, 1.9941440454773797e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 15:25:53,469] [INFO] [timer.py:260:stop] epoch=0/micro_step=600/global_step=600, RunningAvgSamplesPerSec=5.755499450381596, CurrSamplesPerSec=4.661469293955204, MemAllocated=14.52GB, MaxMemAllocated=53.32GB
+
+Train step of epoch 0:  13%|█▎        | 599/4533 [1:37:50<10:19:03,  9.44s/it, gpt_loss=0.392, loss_mean=0.345][A
+Train step of epoch 0:  13%|█▎        | 600/4533 [1:37:50<11:09:49, 10.22s/it, gpt_loss=0.392, loss_mean=0.345][A2026-01-26 15:25:54.199 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  13%|█▎        | 600/4533 [1:38:01<11:09:49, 10.22s/it, gpt_loss=0.392, loss_mean=0.35] [A
+Train step of epoch 0:  13%|█▎        | 601/4533 [1:38:01<11:40:30, 10.69s/it, gpt_loss=0.392, loss_mean=0.35][A2026-01-26 15:26:06.053 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  13%|█▎        | 601/4533 [1:38:11<11:40:30, 10.69s/it, gpt_loss=0.331, loss_mean=0.348][A
+Train step of epoch 0:  13%|█▎        | 602/4533 [1:38:11<11:13:16, 10.28s/it, gpt_loss=0.331, loss_mean=0.348][A2026-01-26 15:26:14.953 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  13%|█▎        | 602/4533 [1:38:22<11:13:16, 10.28s/it, gpt_loss=0.411, loss_mean=0.354][A
+Train step of epoch 0:  13%|█▎        | 603/4533 [1:38:22<11:40:24, 10.69s/it, gpt_loss=0.411, loss_mean=0.354][A2026-01-26 15:26:27.068 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  13%|█▎        | 603/4533 [1:38:32<11:40:24, 10.69s/it, gpt_loss=0.448, loss_mean=0.364][A
+Train step of epoch 0:  13%|█▎        | 604/4533 [1:38:32<11:25:44, 10.47s/it, gpt_loss=0.448, loss_mean=0.364][A2026-01-26 15:26:36.903 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  13%|█▎        | 604/4533 [1:38:42<11:25:44, 10.47s/it, gpt_loss=0.311, loss_mean=0.359][A
+Train step of epoch 0:  13%|█▎        | 605/4533 [1:38:42<11:08:08, 10.21s/it, gpt_loss=0.311, loss_mean=0.359][A2026-01-26 15:26:46.551 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  13%|█▎        | 605/4533 [1:38:51<11:08:08, 10.21s/it, gpt_loss=0.293, loss_mean=0.352][A
+Train step of epoch 0:  13%|█▎        | 606/4533 [1:38:51<10:47:07,  9.89s/it, gpt_loss=0.293, loss_mean=0.352][A2026-01-26 15:26:55.452 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  13%|█▎        | 606/4533 [1:39:00<10:47:07,  9.89s/it, gpt_loss=0.336, loss_mean=0.35] [A
+Train step of epoch 0:  13%|█▎        | 607/4533 [1:39:00<10:24:47,  9.55s/it, gpt_loss=0.336, loss_mean=0.35][A2026-01-26 15:27:04.279 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  13%|█▎        | 607/4533 [1:39:09<10:24:47,  9.55s/it, gpt_loss=0.331, loss_mean=0.348][A
+Train step of epoch 0:  13%|█▎        | 608/4533 [1:39:09<10:15:40,  9.41s/it, gpt_loss=0.331, loss_mean=0.348][A2026-01-26 15:27:13.484 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  13%|█▎        | 608/4533 [1:39:18<10:15:40,  9.41s/it, gpt_loss=0.316, loss_mean=0.345][A
+Train step of epoch 0:  13%|█▎        | 609/4533 [1:39:18<10:01:25,  9.20s/it, gpt_loss=0.316, loss_mean=0.345][A
+[LID Router Debug] Step: 610
+Batch Size: 14
+Audio Batch Size: 147
+LID Assignments: [9, 5, 3, 9, 1, 0, 1, 5, 5, 9, 1, 5, 0, 5]
+Active Experts in Batch: {0, 1, 3, 5, 9}
+2026-01-26 15:27:21.998 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  13%|█▎        | 609/4533 [1:39:29<10:01:25,  9.20s/it, gpt_loss=0.538, loss_mean=0.365][A
+Train step of epoch 0:  13%|█▎        | 610/4533 [1:39:29<10:49:32,  9.93s/it, gpt_loss=0.538, loss_mean=0.365][A2026-01-26 15:27:33.900 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  13%|█▎        | 610/4533 [1:39:38<10:49:32,  9.93s/it, gpt_loss=0.34, loss_mean=0.362] [A
+Train step of epoch 0:  13%|█▎        | 611/4533 [1:39:38<10:31:14,  9.66s/it, gpt_loss=0.34, loss_mean=0.362][A2026-01-26 15:27:42.766 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  13%|█▎        | 611/4533 [1:39:50<10:31:14,  9.66s/it, gpt_loss=0.381, loss_mean=0.364][A
+Train step of epoch 0:  14%|█▎        | 612/4533 [1:39:50<11:16:04, 10.35s/it, gpt_loss=0.381, loss_mean=0.364][A2026-01-26 15:27:54.871 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  14%|█▎        | 612/4533 [1:40:02<11:16:04, 10.35s/it, gpt_loss=0.456, loss_mean=0.373][A
+Train step of epoch 0:  14%|█▎        | 613/4533 [1:40:02<11:49:29, 10.86s/it, gpt_loss=0.456, loss_mean=0.373][A2026-01-26 15:28:06.677 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  14%|█▎        | 613/4533 [1:40:12<11:49:29, 10.86s/it, gpt_loss=0.345, loss_mean=0.37] [A
+Train step of epoch 0:  14%|█▎        | 614/4533 [1:40:12<11:23:51, 10.47s/it, gpt_loss=0.345, loss_mean=0.37][A2026-01-26 15:28:16.462 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  14%|█▎        | 614/4533 [1:40:21<11:23:51, 10.47s/it, gpt_loss=0.32, loss_mean=0.365][A
+Train step of epoch 0:  14%|█▎        | 615/4533 [1:40:21<10:50:06,  9.96s/it, gpt_loss=0.32, loss_mean=0.365][A2026-01-26 15:28:24.979 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  14%|█▎        | 615/4533 [1:40:29<10:50:06,  9.96s/it, gpt_loss=0.316, loss_mean=0.36][A
+Train step of epoch 0:  14%|█▎        | 616/4533 [1:40:29<10:29:41,  9.65s/it, gpt_loss=0.316, loss_mean=0.36][A2026-01-26 15:28:34.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  14%|█▎        | 616/4533 [1:40:38<10:29:41,  9.65s/it, gpt_loss=0.369, loss_mean=0.361][A
+Train step of epoch 0:  14%|█▎        | 617/4533 [1:40:38<10:15:09,  9.43s/it, gpt_loss=0.369, loss_mean=0.361][A2026-01-26 15:28:43.068 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  14%|█▎        | 617/4533 [1:40:48<10:15:09,  9.43s/it, gpt_loss=0.305, loss_mean=0.356][A
+Train step of epoch 0:  14%|█▎        | 618/4533 [1:40:48<10:17:56,  9.47s/it, gpt_loss=0.305, loss_mean=0.356][A2026-01-26 15:28:52.167 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  14%|█▎        | 618/4533 [1:40:57<10:17:56,  9.47s/it, gpt_loss=0.307, loss_mean=0.351][A
+Train step of epoch 0:  14%|█▎        | 619/4533 [1:40:57<10:09:08,  9.34s/it, gpt_loss=0.307, loss_mean=0.351][A
+[LID Router Debug] Step: 620
+Batch Size: 14
+Audio Batch Size: 172
+LID Assignments: [3, 9, 2, 9, 5, 3, 1, 1, 2, 2, 5, 2, 3, 4]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-26 15:29:01.371 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  14%|█▎        | 619/4533 [1:41:05<10:09:08,  9.34s/it, gpt_loss=0.384, loss_mean=0.354][A
+Train step of epoch 0:  14%|█▎        | 620/4533 [1:41:05<9:52:43,  9.09s/it, gpt_loss=0.384, loss_mean=0.354] [A2026-01-26 15:29:10.170 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  14%|█▎        | 620/4533 [1:41:15<9:52:43,  9.09s/it, gpt_loss=0.254, loss_mean=0.344][A
+Train step of epoch 0:  14%|█▎        | 621/4533 [1:41:15<9:54:05,  9.11s/it, gpt_loss=0.254, loss_mean=0.344][A2026-01-26 15:29:19.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  14%|█▎        | 621/4533 [1:41:26<9:54:05,  9.11s/it, gpt_loss=0.426, loss_mean=0.352][A
+Train step of epoch 0:  14%|█▎        | 622/4533 [1:41:26<10:44:28,  9.89s/it, gpt_loss=0.426, loss_mean=0.352][A2026-01-26 15:29:30.901 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  14%|█▎        | 622/4533 [1:41:35<10:44:28,  9.89s/it, gpt_loss=0.337, loss_mean=0.351][A
+Train step of epoch 0:  14%|█▎        | 623/4533 [1:41:35<10:23:19,  9.56s/it, gpt_loss=0.337, loss_mean=0.351][A2026-01-26 15:29:39.669 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  14%|█▎        | 623/4533 [1:41:47<10:23:19,  9.56s/it, gpt_loss=0.423, loss_mean=0.358][A
+Train step of epoch 0:  14%|█▍        | 624/4533 [1:41:47<11:09:31, 10.28s/it, gpt_loss=0.423, loss_mean=0.358][A2026-01-26 15:29:51.596 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  14%|█▍        | 624/4533 [1:41:56<11:09:31, 10.28s/it, gpt_loss=0.383, loss_mean=0.361][A
+Train step of epoch 0:  14%|█▍        | 625/4533 [1:41:56<10:40:24,  9.83s/it, gpt_loss=0.383, loss_mean=0.361][A2026-01-26 15:30:00.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  14%|█▍        | 625/4533 [1:42:05<10:40:24,  9.83s/it, gpt_loss=0.445, loss_mean=0.369][A
+Train step of epoch 0:  14%|█▍        | 626/4533 [1:42:05<10:21:12,  9.54s/it, gpt_loss=0.445, loss_mean=0.369][A2026-01-26 15:30:09.383 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  14%|█▍        | 626/4533 [1:42:14<10:21:12,  9.54s/it, gpt_loss=0.348, loss_mean=0.367][A
+Train step of epoch 0:  14%|█▍        | 627/4533 [1:42:14<10:12:52,  9.41s/it, gpt_loss=0.348, loss_mean=0.367][A2026-01-26 15:30:18.457 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  14%|█▍        | 627/4533 [1:42:23<10:12:52,  9.41s/it, gpt_loss=0.247, loss_mean=0.355][A
+Train step of epoch 0:  14%|█▍        | 628/4533 [1:42:23<10:01:49,  9.25s/it, gpt_loss=0.247, loss_mean=0.355][A2026-01-26 15:30:26.857 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  14%|█▍        | 628/4533 [1:42:32<10:01:49,  9.25s/it, gpt_loss=0.286, loss_mean=0.348][A
+Train step of epoch 0:  14%|█▍        | 629/4533 [1:42:32<9:56:37,  9.17s/it, gpt_loss=0.286, loss_mean=0.348] [A
+[LID Router Debug] Step: 630
+Batch Size: 14
+Audio Batch Size: 130
+LID Assignments: [2, 4, 2, 0, 5, 3, 5, 1, 5, 3, 2, 4, 0, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5}
+2026-01-26 15:30:36.067 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  14%|█▍        | 629/4533 [1:42:40<9:56:37,  9.17s/it, gpt_loss=0.318, loss_mean=0.345][A
+Train step of epoch 0:  14%|█▍        | 630/4533 [1:42:40<9:48:42,  9.05s/it, gpt_loss=0.318, loss_mean=0.345][A2026-01-26 15:30:44.993 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  14%|█▍        | 630/4533 [1:42:50<9:48:42,  9.05s/it, gpt_loss=0.392, loss_mean=0.35] [A
+Train step of epoch 0:  14%|█▍        | 631/4533 [1:42:50<9:57:27,  9.19s/it, gpt_loss=0.392, loss_mean=0.35][A2026-01-26 15:30:54.673 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  14%|█▍        | 631/4533 [1:43:02<9:57:27,  9.19s/it, gpt_loss=0.44, loss_mean=0.359][A
+Train step of epoch 0:  14%|█▍        | 632/4533 [1:43:02<10:43:36,  9.90s/it, gpt_loss=0.44, loss_mean=0.359][A2026-01-26 15:31:05.998 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  14%|█▍        | 632/4533 [1:43:11<10:43:36,  9.90s/it, gpt_loss=0.323, loss_mean=0.355][A
+Train step of epoch 0:  14%|█▍        | 633/4533 [1:43:11<10:34:39,  9.76s/it, gpt_loss=0.323, loss_mean=0.355][A2026-01-26 15:31:15.511 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  14%|█▍        | 633/4533 [1:43:20<10:34:39,  9.76s/it, gpt_loss=0.305, loss_mean=0.35] [A
+Train step of epoch 0:  14%|█▍        | 634/4533 [1:43:20<10:23:55,  9.60s/it, gpt_loss=0.305, loss_mean=0.35][A2026-01-26 15:31:24.772 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  14%|█▍        | 634/4533 [1:43:32<10:23:55,  9.60s/it, gpt_loss=0.397, loss_mean=0.355][A
+Train step of epoch 0:  14%|█▍        | 635/4533 [1:43:32<11:04:09, 10.22s/it, gpt_loss=0.397, loss_mean=0.355][A2026-01-26 15:31:36.600 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  14%|█▍        | 635/4533 [1:43:41<11:04:09, 10.22s/it, gpt_loss=0.342, loss_mean=0.354][A
+Train step of epoch 0:  14%|█▍        | 636/4533 [1:43:41<10:42:02,  9.89s/it, gpt_loss=0.342, loss_mean=0.354][A2026-01-26 15:31:45.599 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  14%|█▍        | 636/4533 [1:43:50<10:42:02,  9.89s/it, gpt_loss=0.354, loss_mean=0.354][A
+Train step of epoch 0:  14%|█▍        | 637/4533 [1:43:50<10:27:03,  9.66s/it, gpt_loss=0.354, loss_mean=0.354][A2026-01-26 15:31:54.457 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  14%|█▍        | 637/4533 [1:43:59<10:27:03,  9.66s/it, gpt_loss=0.331, loss_mean=0.351][A
+Train step of epoch 0:  14%|█▍        | 638/4533 [1:43:59<10:20:29,  9.56s/it, gpt_loss=0.331, loss_mean=0.351][A2026-01-26 15:32:03.870 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  14%|█▍        | 638/4533 [1:44:08<10:20:29,  9.56s/it, gpt_loss=0.308, loss_mean=0.347][A
+Train step of epoch 0:  14%|█▍        | 639/4533 [1:44:08<10:04:20,  9.31s/it, gpt_loss=0.308, loss_mean=0.347][A
+[LID Router Debug] Step: 640
+Batch Size: 14
+Audio Batch Size: 158
+LID Assignments: [9, 2, 2, 4, 9, 4, 2, 5, 9, 2, 0, 5, 3, 9]
+Active Experts in Batch: {0, 2, 3, 4, 5, 9}
+2026-01-26 15:32:12.699 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  14%|█▍        | 639/4533 [1:44:17<10:04:20,  9.31s/it, gpt_loss=0.333, loss_mean=0.346][A
+Train step of epoch 0:  14%|█▍        | 640/4533 [1:44:17<9:53:26,  9.15s/it, gpt_loss=0.333, loss_mean=0.346] [A2026-01-26 15:32:21.497 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  14%|█▍        | 640/4533 [1:44:26<9:53:26,  9.15s/it, gpt_loss=0.372, loss_mean=0.348][A
+Train step of epoch 0:  14%|█▍        | 641/4533 [1:44:26<9:47:28,  9.06s/it, gpt_loss=0.372, loss_mean=0.348][A2026-01-26 15:32:30.294 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  14%|█▍        | 641/4533 [1:44:34<9:47:28,  9.06s/it, gpt_loss=0.306, loss_mean=0.344][A
+Train step of epoch 0:  14%|█▍        | 642/4533 [1:44:34<9:39:03,  8.93s/it, gpt_loss=0.306, loss_mean=0.344][A2026-01-26 15:32:39.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  14%|█▍        | 642/4533 [1:44:44<9:39:03,  8.93s/it, gpt_loss=0.3, loss_mean=0.34]   [A
+Train step of epoch 0:  14%|█▍        | 643/4533 [1:44:44<9:46:57,  9.05s/it, gpt_loss=0.3, loss_mean=0.34][A2026-01-26 15:32:48.478 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  14%|█▍        | 643/4533 [1:44:54<9:46:57,  9.05s/it, gpt_loss=0.365, loss_mean=0.342][A
+Train step of epoch 0:  14%|█▍        | 644/4533 [1:44:54<10:01:37,  9.28s/it, gpt_loss=0.365, loss_mean=0.342][A2026-01-26 15:32:58.284 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  14%|█▍        | 644/4533 [1:45:03<10:01:37,  9.28s/it, gpt_loss=0.328, loss_mean=0.341][A
+Train step of epoch 0:  14%|█▍        | 645/4533 [1:45:03<10:00:11,  9.26s/it, gpt_loss=0.328, loss_mean=0.341][A2026-01-26 15:33:07.491 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  14%|█▍        | 645/4533 [1:45:13<10:00:11,  9.26s/it, gpt_loss=0.408, loss_mean=0.347][A
+Train step of epoch 0:  14%|█▍        | 646/4533 [1:45:13<10:11:05,  9.43s/it, gpt_loss=0.408, loss_mean=0.347][A2026-01-26 15:33:17.356 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  14%|█▍        | 646/4533 [1:45:22<10:11:05,  9.43s/it, gpt_loss=0.359, loss_mean=0.349][A
+Train step of epoch 0:  14%|█▍        | 647/4533 [1:45:22<10:03:47,  9.32s/it, gpt_loss=0.359, loss_mean=0.349][A2026-01-26 15:33:26.361 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  14%|█▍        | 647/4533 [1:45:34<10:03:47,  9.32s/it, gpt_loss=0.354, loss_mean=0.349][A
+Train step of epoch 0:  14%|█▍        | 648/4533 [1:45:34<10:52:19, 10.07s/it, gpt_loss=0.354, loss_mean=0.349][A2026-01-26 15:33:38.175 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  14%|█▍        | 648/4533 [1:45:43<10:52:19, 10.07s/it, gpt_loss=0.259, loss_mean=0.34] [A
+Train step of epoch 0:  14%|█▍        | 649/4533 [1:45:43<10:35:37,  9.82s/it, gpt_loss=0.259, loss_mean=0.34][A
+[LID Router Debug] Step: 650
+Batch Size: 14
+Audio Batch Size: 164
+LID Assignments: [0, 9, 1, 3, 2, 4, 4, 9, 6, 9, 9, 3, 5, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 15:33:47.385 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  14%|█▍        | 649/4533 [1:45:52<10:35:37,  9.82s/it, gpt_loss=0.396, loss_mean=0.346][A
+Train step of epoch 0:  14%|█▍        | 650/4533 [1:45:52<10:33:36,  9.79s/it, gpt_loss=0.396, loss_mean=0.346][A2026-01-26 15:33:57.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  14%|█▍        | 650/4533 [1:46:04<10:33:36,  9.79s/it, gpt_loss=0.413, loss_mean=0.352][A
+Train step of epoch 0:  14%|█▍        | 651/4533 [1:46:04<11:14:54, 10.43s/it, gpt_loss=0.413, loss_mean=0.352][A2026-01-26 15:34:09.063 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  14%|█▍        | 651/4533 [1:46:16<11:14:54, 10.43s/it, gpt_loss=0.369, loss_mean=0.354][A
+Train step of epoch 0:  14%|█▍        | 652/4533 [1:46:16<11:42:37, 10.86s/it, gpt_loss=0.369, loss_mean=0.354][A2026-01-26 15:34:20.469 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  14%|█▍        | 652/4533 [1:46:25<11:42:37, 10.86s/it, gpt_loss=0.387, loss_mean=0.357][A
+Train step of epoch 0:  14%|█▍        | 653/4533 [1:46:25<10:53:48, 10.11s/it, gpt_loss=0.387, loss_mean=0.357][A2026-01-26 15:34:29.286 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  14%|█▍        | 653/4533 [1:46:37<10:53:48, 10.11s/it, gpt_loss=0.354, loss_mean=0.357][A
+Train step of epoch 0:  14%|█▍        | 654/4533 [1:46:37<11:30:33, 10.68s/it, gpt_loss=0.354, loss_mean=0.357][A2026-01-26 15:34:41.261 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  14%|█▍        | 654/4533 [1:46:46<11:30:33, 10.68s/it, gpt_loss=0.399, loss_mean=0.361][A
+Train step of epoch 0:  14%|█▍        | 655/4533 [1:46:46<11:13:59, 10.43s/it, gpt_loss=0.399, loss_mean=0.361][A2026-01-26 15:34:51.083 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  14%|█▍        | 655/4533 [1:46:55<11:13:59, 10.43s/it, gpt_loss=0.325, loss_mean=0.358][A
+Train step of epoch 0:  14%|█▍        | 656/4533 [1:46:55<10:42:33,  9.94s/it, gpt_loss=0.325, loss_mean=0.358][A2026-01-26 15:34:59.965 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  14%|█▍        | 656/4533 [1:47:07<10:42:33,  9.94s/it, gpt_loss=0.403, loss_mean=0.362][A
+Train step of epoch 0:  14%|█▍        | 657/4533 [1:47:07<11:22:50, 10.57s/it, gpt_loss=0.403, loss_mean=0.362][A2026-01-26 15:35:11.572 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  14%|█▍        | 657/4533 [1:47:16<11:22:50, 10.57s/it, gpt_loss=0.314, loss_mean=0.357][A
+Train step of epoch 0:  15%|█▍        | 658/4533 [1:47:16<10:52:33, 10.10s/it, gpt_loss=0.314, loss_mean=0.357][A2026-01-26 15:35:20.806 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  15%|█▍        | 658/4533 [1:47:25<10:52:33, 10.10s/it, gpt_loss=0.32, loss_mean=0.354] [A
+Train step of epoch 0:  15%|█▍        | 659/4533 [1:47:25<10:33:12,  9.81s/it, gpt_loss=0.32, loss_mean=0.354][A
+[LID Router Debug] Step: 660
+Batch Size: 14
+Audio Batch Size: 191
+LID Assignments: [9, 5, 3, 9, 3, 4, 3, 5, 6, 1, 5, 2, 4, 3]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-26 15:35:30.086 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  15%|█▍        | 659/4533 [1:47:34<10:33:12,  9.81s/it, gpt_loss=0.407, loss_mean=0.359][A
+Train step of epoch 0:  15%|█▍        | 660/4533 [1:47:34<10:15:11,  9.53s/it, gpt_loss=0.407, loss_mean=0.359][A2026-01-26 15:35:38.866 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  15%|█▍        | 660/4533 [1:47:44<10:15:11,  9.53s/it, gpt_loss=0.396, loss_mean=0.363][A
+Train step of epoch 0:  15%|█▍        | 661/4533 [1:47:44<10:17:29,  9.57s/it, gpt_loss=0.396, loss_mean=0.363][A2026-01-26 15:35:48.499 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  15%|█▍        | 661/4533 [1:47:53<10:17:29,  9.57s/it, gpt_loss=0.317, loss_mean=0.358][A
+Train step of epoch 0:  15%|█▍        | 662/4533 [1:47:53<10:05:04,  9.38s/it, gpt_loss=0.317, loss_mean=0.358][A2026-01-26 15:35:57.196 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  15%|█▍        | 662/4533 [1:48:02<10:05:04,  9.38s/it, gpt_loss=0.405, loss_mean=0.363][A
+Train step of epoch 0:  15%|█▍        | 663/4533 [1:48:02<9:51:23,  9.17s/it, gpt_loss=0.405, loss_mean=0.363] [A2026-01-26 15:36:05.692 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  15%|█▍        | 663/4533 [1:48:13<9:51:23,  9.17s/it, gpt_loss=0.456, loss_mean=0.372][A
+Train step of epoch 0:  15%|█▍        | 664/4533 [1:48:13<10:37:47,  9.89s/it, gpt_loss=0.456, loss_mean=0.372][A2026-01-26 15:36:17.495 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  15%|█▍        | 664/4533 [1:48:22<10:37:47,  9.89s/it, gpt_loss=0.273, loss_mean=0.362][A
+Train step of epoch 0:  15%|█▍        | 665/4533 [1:48:22<10:12:44,  9.50s/it, gpt_loss=0.273, loss_mean=0.362][A2026-01-26 15:36:26.486 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  15%|█▍        | 665/4533 [1:48:32<10:12:44,  9.50s/it, gpt_loss=0.346, loss_mean=0.361][A
+Train step of epoch 0:  15%|█▍        | 666/4533 [1:48:32<10:17:17,  9.58s/it, gpt_loss=0.346, loss_mean=0.361][A2026-01-26 15:36:36.080 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  15%|█▍        | 666/4533 [1:48:41<10:17:17,  9.58s/it, gpt_loss=0.348, loss_mean=0.359][A
+Train step of epoch 0:  15%|█▍        | 667/4533 [1:48:41<10:21:01,  9.64s/it, gpt_loss=0.348, loss_mean=0.359][A2026-01-26 15:36:45.786 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  15%|█▍        | 667/4533 [1:48:53<10:21:01,  9.64s/it, gpt_loss=0.481, loss_mean=0.372][A
+Train step of epoch 0:  15%|█▍        | 668/4533 [1:48:53<10:58:10, 10.22s/it, gpt_loss=0.481, loss_mean=0.372][A2026-01-26 15:36:57.500 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  15%|█▍        | 668/4533 [1:49:05<10:58:10, 10.22s/it, gpt_loss=0.5, loss_mean=0.384]  [A
+Train step of epoch 0:  15%|█▍        | 669/4533 [1:49:05<11:33:35, 10.77s/it, gpt_loss=0.5, loss_mean=0.384][A
+[LID Router Debug] Step: 670
+Batch Size: 14
+Audio Batch Size: 122
+LID Assignments: [4, 1, 1, 6, 5, 2, 5, 6, 1, 1, 1, 3, 4, 5]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6}
+2026-01-26 15:37:09.473 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  15%|█▍        | 669/4533 [1:49:14<11:33:35, 10.77s/it, gpt_loss=0.292, loss_mean=0.375][A
+Train step of epoch 0:  15%|█▍        | 670/4533 [1:49:14<11:07:18, 10.36s/it, gpt_loss=0.292, loss_mean=0.375][A2026-01-26 15:37:18.869 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  15%|█▍        | 670/4533 [1:49:26<11:07:18, 10.36s/it, gpt_loss=0.506, loss_mean=0.388][A
+Train step of epoch 0:  15%|█▍        | 671/4533 [1:49:26<11:35:37, 10.81s/it, gpt_loss=0.506, loss_mean=0.388][A2026-01-26 15:37:30.570 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  15%|█▍        | 671/4533 [1:49:36<11:35:37, 10.81s/it, gpt_loss=0.348, loss_mean=0.384][A
+Train step of epoch 0:  15%|█▍        | 672/4533 [1:49:36<11:12:18, 10.45s/it, gpt_loss=0.348, loss_mean=0.384][A2026-01-26 15:37:40.352 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  15%|█▍        | 672/4533 [1:49:45<11:12:18, 10.45s/it, gpt_loss=0.415, loss_mean=0.387][A
+Train step of epoch 0:  15%|█▍        | 673/4533 [1:49:45<10:41:08,  9.97s/it, gpt_loss=0.415, loss_mean=0.387][A2026-01-26 15:37:49.085 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  15%|█▍        | 673/4533 [1:49:54<10:41:08,  9.97s/it, gpt_loss=0.305, loss_mean=0.379][A
+Train step of epoch 0:  15%|█▍        | 674/4533 [1:49:54<10:22:15,  9.67s/it, gpt_loss=0.305, loss_mean=0.379][A2026-01-26 15:37:57.972 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  15%|█▍        | 674/4533 [1:50:03<10:22:15,  9.67s/it, gpt_loss=0.416, loss_mean=0.383][A
+Train step of epoch 0:  15%|█▍        | 675/4533 [1:50:03<10:18:39,  9.62s/it, gpt_loss=0.416, loss_mean=0.383][A2026-01-26 15:38:07.767 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  15%|█▍        | 675/4533 [1:50:12<10:18:39,  9.62s/it, gpt_loss=0.341, loss_mean=0.379][A
+Train step of epoch 0:  15%|█▍        | 676/4533 [1:50:12<10:04:30,  9.40s/it, gpt_loss=0.341, loss_mean=0.379][A2026-01-26 15:38:16.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  15%|█▍        | 676/4533 [1:50:21<10:04:30,  9.40s/it, gpt_loss=0.266, loss_mean=0.367][A
+Train step of epoch 0:  15%|█▍        | 677/4533 [1:50:21<9:58:19,  9.31s/it, gpt_loss=0.266, loss_mean=0.367] [A2026-01-26 15:38:25.799 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  15%|█▍        | 677/4533 [1:50:33<9:58:19,  9.31s/it, gpt_loss=0.43, loss_mean=0.374] [A
+Train step of epoch 0:  15%|█▍        | 678/4533 [1:50:33<10:47:33, 10.08s/it, gpt_loss=0.43, loss_mean=0.374][A2026-01-26 15:38:37.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  15%|█▍        | 678/4533 [1:50:42<10:47:33, 10.08s/it, gpt_loss=0.3, loss_mean=0.366] [A
+Train step of epoch 0:  15%|█▍        | 679/4533 [1:50:42<10:29:36,  9.80s/it, gpt_loss=0.3, loss_mean=0.366][A
+[LID Router Debug] Step: 680
+Batch Size: 14
+Audio Batch Size: 113
+LID Assignments: [6, 4, 5, 9, 0, 5, 1, 4, 1, 4, 1, 0, 5, 2]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-26 15:38:46.476 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  15%|█▍        | 679/4533 [1:50:51<10:29:36,  9.80s/it, gpt_loss=0.352, loss_mean=0.365][A
+Train step of epoch 0:  15%|█▌        | 680/4533 [1:50:51<10:07:40,  9.46s/it, gpt_loss=0.352, loss_mean=0.365][A2026-01-26 15:38:55.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  15%|█▌        | 680/4533 [1:51:00<10:07:40,  9.46s/it, gpt_loss=0.306, loss_mean=0.359][A
+Train step of epoch 0:  15%|█▌        | 681/4533 [1:51:00<9:54:36,  9.26s/it, gpt_loss=0.306, loss_mean=0.359] [A2026-01-26 15:39:04.174 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  15%|█▌        | 681/4533 [1:51:09<9:54:36,  9.26s/it, gpt_loss=0.388, loss_mean=0.362][A
+Train step of epoch 0:  15%|█▌        | 682/4533 [1:51:09<9:52:02,  9.22s/it, gpt_loss=0.388, loss_mean=0.362][A2026-01-26 15:39:13.395 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  15%|█▌        | 682/4533 [1:51:21<9:52:02,  9.22s/it, gpt_loss=0.445, loss_mean=0.37] [A
+Train step of epoch 0:  15%|█▌        | 683/4533 [1:51:21<10:48:04, 10.10s/it, gpt_loss=0.445, loss_mean=0.37][A2026-01-26 15:39:25.391 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  15%|█▌        | 683/4533 [1:51:30<10:48:04, 10.10s/it, gpt_loss=0.311, loss_mean=0.364][A
+Train step of epoch 0:  15%|█▌        | 684/4533 [1:51:30<10:21:04,  9.68s/it, gpt_loss=0.311, loss_mean=0.364][A2026-01-26 15:39:34.197 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  15%|█▌        | 684/4533 [1:51:41<10:21:04,  9.68s/it, gpt_loss=0.443, loss_mean=0.372][A
+Train step of epoch 0:  15%|█▌        | 685/4533 [1:51:41<11:02:41, 10.33s/it, gpt_loss=0.443, loss_mean=0.372][A2026-01-26 15:39:46.083 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  15%|█▌        | 685/4533 [1:51:51<11:02:41, 10.33s/it, gpt_loss=0.352, loss_mean=0.37] [A
+Train step of epoch 0:  15%|█▌        | 686/4533 [1:51:51<10:39:16,  9.97s/it, gpt_loss=0.352, loss_mean=0.37][A2026-01-26 15:39:55.177 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  15%|█▌        | 686/4533 [1:52:00<10:39:16,  9.97s/it, gpt_loss=0.316, loss_mean=0.365][A
+Train step of epoch 0:  15%|█▌        | 687/4533 [1:52:00<10:20:05,  9.67s/it, gpt_loss=0.316, loss_mean=0.365][A2026-01-26 15:40:04.069 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  15%|█▌        | 687/4533 [1:52:09<10:20:05,  9.67s/it, gpt_loss=0.354, loss_mean=0.364][A
+Train step of epoch 0:  15%|█▌        | 688/4533 [1:52:09<10:08:37,  9.50s/it, gpt_loss=0.354, loss_mean=0.364][A2026-01-26 15:40:13.270 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  15%|█▌        | 688/4533 [1:52:18<10:08:37,  9.50s/it, gpt_loss=0.35, loss_mean=0.362] [A
+Train step of epoch 0:  15%|█▌        | 689/4533 [1:52:18<9:56:38,  9.31s/it, gpt_loss=0.35, loss_mean=0.362] [A
+[LID Router Debug] Step: 690
+Batch Size: 14
+Audio Batch Size: 164
+LID Assignments: [9, 6, 0, 6, 9, 9, 2, 9, 1, 3, 3, 2, 5, 3]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-26 15:40:22.188 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  15%|█▌        | 689/4533 [1:52:27<9:56:38,  9.31s/it, gpt_loss=0.338, loss_mean=0.36][A
+Train step of epoch 0:  15%|█▌        | 690/4533 [1:52:27<9:49:44,  9.21s/it, gpt_loss=0.338, loss_mean=0.36][A2026-01-26 15:40:31.180 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  15%|█▌        | 690/4533 [1:52:39<9:49:44,  9.21s/it, gpt_loss=0.463, loss_mean=0.37][A
+Train step of epoch 0:  15%|█▌        | 691/4533 [1:52:39<10:43:21, 10.05s/it, gpt_loss=0.463, loss_mean=0.37][A2026-01-26 15:40:43.260 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  15%|█▌        | 691/4533 [1:52:48<10:43:21, 10.05s/it, gpt_loss=0.425, loss_mean=0.376][A
+Train step of epoch 0:  15%|█▌        | 692/4533 [1:52:48<10:39:41,  9.99s/it, gpt_loss=0.425, loss_mean=0.376][A2026-01-26 15:40:52.585 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  15%|█▌        | 692/4533 [1:52:57<10:39:41,  9.99s/it, gpt_loss=0.32, loss_mean=0.37]  [A
+Train step of epoch 0:  15%|█▌        | 693/4533 [1:52:57<10:22:24,  9.73s/it, gpt_loss=0.32, loss_mean=0.37][A2026-01-26 15:41:01.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  15%|█▌        | 693/4533 [1:53:07<10:22:24,  9.73s/it, gpt_loss=0.387, loss_mean=0.372][A
+Train step of epoch 0:  15%|█▌        | 694/4533 [1:53:07<10:13:07,  9.58s/it, gpt_loss=0.387, loss_mean=0.372][A2026-01-26 15:41:11.056 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  15%|█▌        | 694/4533 [1:53:15<10:13:07,  9.58s/it, gpt_loss=0.391, loss_mean=0.374][A
+Train step of epoch 0:  15%|█▌        | 695/4533 [1:53:15<9:52:14,  9.26s/it, gpt_loss=0.391, loss_mean=0.374] [A2026-01-26 15:41:19.888 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  15%|█▌        | 695/4533 [1:53:24<9:52:14,  9.26s/it, gpt_loss=0.271, loss_mean=0.363][A
+Train step of epoch 0:  15%|█▌        | 696/4533 [1:53:24<9:47:28,  9.19s/it, gpt_loss=0.271, loss_mean=0.363][A2026-01-26 15:41:28.976 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  15%|█▌        | 696/4533 [1:53:33<9:47:28,  9.19s/it, gpt_loss=0.317, loss_mean=0.359][A
+Train step of epoch 0:  15%|█▌        | 697/4533 [1:53:33<9:40:05,  9.07s/it, gpt_loss=0.317, loss_mean=0.359][A2026-01-26 15:41:37.778 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  15%|█▌        | 697/4533 [1:53:46<9:40:05,  9.07s/it, gpt_loss=0.428, loss_mean=0.366][A
+Train step of epoch 0:  15%|█▌        | 698/4533 [1:53:46<10:47:08, 10.12s/it, gpt_loss=0.428, loss_mean=0.366][A2026-01-26 15:41:50.368 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  15%|█▌        | 698/4533 [1:53:58<10:47:08, 10.12s/it, gpt_loss=0.428, loss_mean=0.372][A
+Train step of epoch 0:  15%|█▌        | 699/4533 [1:53:58<11:24:05, 10.71s/it, gpt_loss=0.428, loss_mean=0.372][A
+[LID Router Debug] Step: 700
+Batch Size: 14
+Audio Batch Size: 122
+LID Assignments: [6, 0, 3, 1, 2, 6, 2, 1, 1, 9, 4, 9, 2, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-26 15:42:02.192 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+[2026-01-26 15:42:10,713] [INFO] [logging.py:96:log_dist] [Rank 0] step=700, skipped=0, lr=[1.9913519676440495e-05, 1.9913519676440495e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 15:42:10,714] [INFO] [timer.py:260:stop] epoch=0/micro_step=700/global_step=700, RunningAvgSamplesPerSec=5.753572279834062, CurrSamplesPerSec=6.162452269604118, MemAllocated=14.64GB, MaxMemAllocated=53.32GB
+
+Train step of epoch 0:  15%|█▌        | 699/4533 [1:54:07<11:24:05, 10.71s/it, gpt_loss=0.327, loss_mean=0.367][A
+Train step of epoch 0:  15%|█▌        | 700/4533 [1:54:07<10:53:13, 10.23s/it, gpt_loss=0.327, loss_mean=0.367][A2026-01-26 15:42:11.474 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  15%|█▌        | 700/4533 [1:54:19<10:53:13, 10.23s/it, gpt_loss=0.477, loss_mean=0.378][A
+Train step of epoch 0:  15%|█▌        | 701/4533 [1:54:19<11:30:55, 10.82s/it, gpt_loss=0.477, loss_mean=0.378][A2026-01-26 15:42:23.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  15%|█▌        | 701/4533 [1:54:28<11:30:55, 10.82s/it, gpt_loss=0.327, loss_mean=0.373][A
+Train step of epoch 0:  15%|█▌        | 702/4533 [1:54:28<11:01:42, 10.36s/it, gpt_loss=0.327, loss_mean=0.373][A2026-01-26 15:42:32.878 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  15%|█▌        | 702/4533 [1:54:40<11:01:42, 10.36s/it, gpt_loss=0.414, loss_mean=0.377][A
+Train step of epoch 0:  16%|█▌        | 703/4533 [1:54:40<11:28:19, 10.78s/it, gpt_loss=0.414, loss_mean=0.377][A2026-01-26 15:42:44.680 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  16%|█▌        | 703/4533 [1:54:49<11:28:19, 10.78s/it, gpt_loss=0.304, loss_mean=0.37] [A
+Train step of epoch 0:  16%|█▌        | 704/4533 [1:54:49<10:54:44, 10.26s/it, gpt_loss=0.304, loss_mean=0.37][A2026-01-26 15:42:53.759 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  16%|█▌        | 704/4533 [1:54:59<10:54:44, 10.26s/it, gpt_loss=0.292, loss_mean=0.362][A
+Train step of epoch 0:  16%|█▌        | 705/4533 [1:54:59<10:42:28, 10.07s/it, gpt_loss=0.292, loss_mean=0.362][A2026-01-26 15:43:03.281 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  16%|█▌        | 705/4533 [1:55:08<10:42:28, 10.07s/it, gpt_loss=0.31, loss_mean=0.357] [A
+Train step of epoch 0:  16%|█▌        | 706/4533 [1:55:08<10:25:54,  9.81s/it, gpt_loss=0.31, loss_mean=0.357][A2026-01-26 15:43:12.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  16%|█▌        | 706/4533 [1:55:20<10:25:54,  9.81s/it, gpt_loss=0.437, loss_mean=0.365][A
+Train step of epoch 0:  16%|█▌        | 707/4533 [1:55:20<11:00:57, 10.37s/it, gpt_loss=0.437, loss_mean=0.365][A2026-01-26 15:43:24.295 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  16%|█▌        | 707/4533 [1:55:32<11:00:57, 10.37s/it, gpt_loss=0.403, loss_mean=0.369][A
+Train step of epoch 0:  16%|█▌        | 708/4533 [1:55:32<11:31:14, 10.84s/it, gpt_loss=0.403, loss_mean=0.369][A2026-01-26 15:43:35.999 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  16%|█▌        | 708/4533 [1:55:40<11:31:14, 10.84s/it, gpt_loss=0.241, loss_mean=0.356][A
+Train step of epoch 0:  16%|█▌        | 709/4533 [1:55:40<10:48:22, 10.17s/it, gpt_loss=0.241, loss_mean=0.356][A
+[LID Router Debug] Step: 710
+Batch Size: 14
+Audio Batch Size: 140
+LID Assignments: [3, 5, 1, 3, 5, 5, 4, 0, 9, 1, 1, 9, 1, 1]
+Active Experts in Batch: {0, 1, 3, 4, 5, 9}
+2026-01-26 15:43:44.659 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  16%|█▌        | 709/4533 [1:55:49<10:48:22, 10.17s/it, gpt_loss=0.27, loss_mean=0.347] [A
+Train step of epoch 0:  16%|█▌        | 710/4533 [1:55:49<10:21:43,  9.76s/it, gpt_loss=0.27, loss_mean=0.347][A2026-01-26 15:43:53.356 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  16%|█▌        | 710/4533 [1:56:01<10:21:43,  9.76s/it, gpt_loss=0.437, loss_mean=0.356][A
+Train step of epoch 0:  16%|█▌        | 711/4533 [1:56:01<11:03:36, 10.42s/it, gpt_loss=0.437, loss_mean=0.356][A2026-01-26 15:44:05.462 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  16%|█▌        | 711/4533 [1:56:10<11:03:36, 10.42s/it, gpt_loss=0.319, loss_mean=0.353][A
+Train step of epoch 0:  16%|█▌        | 712/4533 [1:56:10<10:32:29,  9.93s/it, gpt_loss=0.319, loss_mean=0.353][A2026-01-26 15:44:14.352 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  16%|█▌        | 712/4533 [1:56:21<10:32:29,  9.93s/it, gpt_loss=0.433, loss_mean=0.361][A
+Train step of epoch 0:  16%|█▌        | 713/4533 [1:56:21<11:07:22, 10.48s/it, gpt_loss=0.433, loss_mean=0.361][A2026-01-26 15:44:25.757 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  16%|█▌        | 713/4533 [1:56:31<11:07:22, 10.48s/it, gpt_loss=0.41, loss_mean=0.365] [A
+Train step of epoch 0:  16%|█▌        | 714/4533 [1:56:31<10:44:18, 10.12s/it, gpt_loss=0.41, loss_mean=0.365][A2026-01-26 15:44:35.375 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  16%|█▌        | 714/4533 [1:56:40<10:44:18, 10.12s/it, gpt_loss=0.36, loss_mean=0.365][A
+Train step of epoch 0:  16%|█▌        | 715/4533 [1:56:40<10:34:15,  9.97s/it, gpt_loss=0.36, loss_mean=0.365][A2026-01-26 15:44:44.977 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  16%|█▌        | 715/4533 [1:56:49<10:34:15,  9.97s/it, gpt_loss=0.37, loss_mean=0.365][A
+Train step of epoch 0:  16%|█▌        | 716/4533 [1:56:49<10:12:59,  9.64s/it, gpt_loss=0.37, loss_mean=0.365][A2026-01-26 15:44:53.455 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  16%|█▌        | 716/4533 [1:56:58<10:12:59,  9.64s/it, gpt_loss=0.28, loss_mean=0.357][A
+Train step of epoch 0:  16%|█▌        | 717/4533 [1:56:58<9:53:48,  9.34s/it, gpt_loss=0.28, loss_mean=0.357] [A2026-01-26 15:45:02.083 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  16%|█▌        | 717/4533 [1:57:09<9:53:48,  9.34s/it, gpt_loss=0.394, loss_mean=0.361][A
+Train step of epoch 0:  16%|█▌        | 718/4533 [1:57:09<10:32:33,  9.95s/it, gpt_loss=0.394, loss_mean=0.361][A2026-01-26 15:45:13.395 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  16%|█▌        | 718/4533 [1:57:20<10:32:33,  9.95s/it, gpt_loss=0.388, loss_mean=0.363][A
+Train step of epoch 0:  16%|█▌        | 719/4533 [1:57:20<10:54:16, 10.29s/it, gpt_loss=0.388, loss_mean=0.363][A
+[LID Router Debug] Step: 720
+Batch Size: 14
+Audio Batch Size: 158
+LID Assignments: [0, 9, 3, 2, 6, 3, 5, 0, 3, 5, 1, 2, 2, 2]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-26 15:45:24.969 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  16%|█▌        | 719/4533 [1:57:32<10:54:16, 10.29s/it, gpt_loss=0.477, loss_mean=0.375][A
+Train step of epoch 0:  16%|█▌        | 720/4533 [1:57:32<11:21:29, 10.72s/it, gpt_loss=0.477, loss_mean=0.375][A2026-01-26 15:45:36.655 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  16%|█▌        | 720/4533 [1:57:41<11:21:29, 10.72s/it, gpt_loss=0.3, loss_mean=0.367]  [A
+Train step of epoch 0:  16%|█▌        | 721/4533 [1:57:41<10:44:22, 10.14s/it, gpt_loss=0.3, loss_mean=0.367][A2026-01-26 15:45:45.559 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  16%|█▌        | 721/4533 [1:57:50<10:44:22, 10.14s/it, gpt_loss=0.354, loss_mean=0.366][A
+Train step of epoch 0:  16%|█▌        | 722/4533 [1:57:50<10:25:59,  9.86s/it, gpt_loss=0.354, loss_mean=0.366][A2026-01-26 15:45:54.710 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  16%|█▌        | 722/4533 [1:58:02<10:25:59,  9.86s/it, gpt_loss=0.467, loss_mean=0.376][A
+Train step of epoch 0:  16%|█▌        | 723/4533 [1:58:02<11:05:49, 10.49s/it, gpt_loss=0.467, loss_mean=0.376][A2026-01-26 15:46:06.672 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  16%|█▌        | 723/4533 [1:58:11<11:05:49, 10.49s/it, gpt_loss=0.327, loss_mean=0.371][A
+Train step of epoch 0:  16%|█▌        | 724/4533 [1:58:11<10:40:38, 10.09s/it, gpt_loss=0.327, loss_mean=0.371][A2026-01-26 15:46:15.783 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  16%|█▌        | 724/4533 [1:58:21<10:40:38, 10.09s/it, gpt_loss=0.342, loss_mean=0.368][A
+Train step of epoch 0:  16%|█▌        | 725/4533 [1:58:21<10:31:48,  9.95s/it, gpt_loss=0.342, loss_mean=0.368][A2026-01-26 15:46:25.451 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  16%|█▌        | 725/4533 [1:58:30<10:31:48,  9.95s/it, gpt_loss=0.369, loss_mean=0.368][A
+Train step of epoch 0:  16%|█▌        | 726/4533 [1:58:30<10:23:23,  9.82s/it, gpt_loss=0.369, loss_mean=0.368][A2026-01-26 15:46:34.968 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  16%|█▌        | 726/4533 [1:58:39<10:23:23,  9.82s/it, gpt_loss=0.316, loss_mean=0.363][A
+Train step of epoch 0:  16%|█▌        | 727/4533 [1:58:39<10:03:37,  9.52s/it, gpt_loss=0.316, loss_mean=0.363][A2026-01-26 15:46:43.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  16%|█▌        | 727/4533 [1:58:51<10:03:37,  9.52s/it, gpt_loss=0.409, loss_mean=0.368][A
+Train step of epoch 0:  16%|█▌        | 728/4533 [1:58:51<10:46:41, 10.20s/it, gpt_loss=0.409, loss_mean=0.368][A2026-01-26 15:46:55.567 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  16%|█▌        | 728/4533 [1:59:00<10:46:41, 10.20s/it, gpt_loss=0.295, loss_mean=0.36] [A
+Train step of epoch 0:  16%|█▌        | 729/4533 [1:59:00<10:24:16,  9.85s/it, gpt_loss=0.295, loss_mean=0.36][A
+[LID Router Debug] Step: 730
+Batch Size: 14
+Audio Batch Size: 192
+LID Assignments: [0, 4, 3, 5, 3, 9, 0, 9, 2, 1, 3, 2, 0, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 15:47:04.673 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  16%|█▌        | 729/4533 [1:59:10<10:24:16,  9.85s/it, gpt_loss=0.271, loss_mean=0.351][A
+Train step of epoch 0:  16%|█▌        | 730/4533 [1:59:10<10:21:46,  9.81s/it, gpt_loss=0.271, loss_mean=0.351][A2026-01-26 15:47:14.282 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  16%|█▌        | 730/4533 [1:59:19<10:21:46,  9.81s/it, gpt_loss=0.38, loss_mean=0.354] [A
+Train step of epoch 0:  16%|█▌        | 731/4533 [1:59:19<10:03:48,  9.53s/it, gpt_loss=0.38, loss_mean=0.354][A2026-01-26 15:47:22.982 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  16%|█▌        | 731/4533 [1:59:31<10:03:48,  9.53s/it, gpt_loss=0.401, loss_mean=0.359][A
+Train step of epoch 0:  16%|█▌        | 732/4533 [1:59:31<10:52:33, 10.30s/it, gpt_loss=0.401, loss_mean=0.359][A2026-01-26 15:47:35.179 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  16%|█▌        | 732/4533 [1:59:42<10:52:33, 10.30s/it, gpt_loss=0.396, loss_mean=0.363][A
+Train step of epoch 0:  16%|█▌        | 733/4533 [1:59:42<11:18:33, 10.71s/it, gpt_loss=0.396, loss_mean=0.363][A2026-01-26 15:47:47.061 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  16%|█▌        | 733/4533 [1:59:52<11:18:33, 10.71s/it, gpt_loss=0.29, loss_mean=0.355] [A
+Train step of epoch 0:  16%|█▌        | 734/4533 [1:59:52<11:04:05, 10.49s/it, gpt_loss=0.29, loss_mean=0.355][A2026-01-26 15:47:56.787 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  16%|█▌        | 734/4533 [2:00:02<11:04:05, 10.49s/it, gpt_loss=0.372, loss_mean=0.357][A
+Train step of epoch 0:  16%|█▌        | 735/4533 [2:00:02<10:47:10, 10.22s/it, gpt_loss=0.372, loss_mean=0.357][A2026-01-26 15:48:06.378 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  16%|█▌        | 735/4533 [2:00:11<10:47:10, 10.22s/it, gpt_loss=0.306, loss_mean=0.352][A
+Train step of epoch 0:  16%|█▌        | 736/4533 [2:00:11<10:25:11,  9.88s/it, gpt_loss=0.306, loss_mean=0.352][A2026-01-26 15:48:15.587 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  16%|█▌        | 736/4533 [2:00:20<10:25:11,  9.88s/it, gpt_loss=0.289, loss_mean=0.346][A
+Train step of epoch 0:  16%|█▋        | 737/4533 [2:00:20<10:05:26,  9.57s/it, gpt_loss=0.289, loss_mean=0.346][A2026-01-26 15:48:24.275 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  16%|█▋        | 737/4533 [2:00:28<10:05:26,  9.57s/it, gpt_loss=0.31, loss_mean=0.342] [A
+Train step of epoch 0:  16%|█▋        | 738/4533 [2:00:28<9:48:33,  9.31s/it, gpt_loss=0.31, loss_mean=0.342] [A2026-01-26 15:48:33.156 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  16%|█▋        | 738/4533 [2:00:38<9:48:33,  9.31s/it, gpt_loss=0.307, loss_mean=0.339][A
+Train step of epoch 0:  16%|█▋        | 739/4533 [2:00:38<9:46:57,  9.28s/it, gpt_loss=0.307, loss_mean=0.339][A
+[LID Router Debug] Step: 740
+Batch Size: 14
+Audio Batch Size: 138
+LID Assignments: [0, 2, 1, 2, 9, 2, 2, 2, 3, 6, 5, 9, 1, 2]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-26 15:48:42.374 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  16%|█▋        | 739/4533 [2:00:47<9:46:57,  9.28s/it, gpt_loss=0.307, loss_mean=0.335][A
+Train step of epoch 0:  16%|█▋        | 740/4533 [2:00:47<9:42:11,  9.21s/it, gpt_loss=0.307, loss_mean=0.335][A2026-01-26 15:48:51.377 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  16%|█▋        | 740/4533 [2:00:56<9:42:11,  9.21s/it, gpt_loss=0.33, loss_mean=0.335] [A
+Train step of epoch 0:  16%|█▋        | 741/4533 [2:00:56<9:48:03,  9.30s/it, gpt_loss=0.33, loss_mean=0.335][A2026-01-26 15:49:00.891 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  16%|█▋        | 741/4533 [2:01:06<9:48:03,  9.30s/it, gpt_loss=0.334, loss_mean=0.335][A
+Train step of epoch 0:  16%|█▋        | 742/4533 [2:01:06<9:54:48,  9.41s/it, gpt_loss=0.334, loss_mean=0.335][A2026-01-26 15:49:10.561 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  16%|█▋        | 742/4533 [2:01:16<9:54:48,  9.41s/it, gpt_loss=0.319, loss_mean=0.333][A
+Train step of epoch 0:  16%|█▋        | 743/4533 [2:01:16<9:58:03,  9.47s/it, gpt_loss=0.319, loss_mean=0.333][A2026-01-26 15:49:19.976 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  16%|█▋        | 743/4533 [2:01:25<9:58:03,  9.47s/it, gpt_loss=0.282, loss_mean=0.328][A
+Train step of epoch 0:  16%|█▋        | 744/4533 [2:01:25<9:56:35,  9.45s/it, gpt_loss=0.282, loss_mean=0.328][A2026-01-26 15:49:29.485 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  16%|█▋        | 744/4533 [2:01:37<9:56:35,  9.45s/it, gpt_loss=0.397, loss_mean=0.335][A
+Train step of epoch 0:  16%|█▋        | 745/4533 [2:01:37<10:42:25, 10.18s/it, gpt_loss=0.397, loss_mean=0.335][A2026-01-26 15:49:41.379 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  16%|█▋        | 745/4533 [2:01:46<10:42:25, 10.18s/it, gpt_loss=0.297, loss_mean=0.331][A
+Train step of epoch 0:  16%|█▋        | 746/4533 [2:01:46<10:26:53,  9.93s/it, gpt_loss=0.297, loss_mean=0.331][A2026-01-26 15:49:50.858 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  16%|█▋        | 746/4533 [2:01:58<10:26:53,  9.93s/it, gpt_loss=0.436, loss_mean=0.342][A
+Train step of epoch 0:  16%|█▋        | 747/4533 [2:01:58<11:03:18, 10.51s/it, gpt_loss=0.436, loss_mean=0.342][A2026-01-26 15:50:02.568 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  16%|█▋        | 747/4533 [2:02:07<11:03:18, 10.51s/it, gpt_loss=0.312, loss_mean=0.339][A
+Train step of epoch 0:  17%|█▋        | 748/4533 [2:02:07<10:32:14, 10.02s/it, gpt_loss=0.312, loss_mean=0.339][A2026-01-26 15:50:11.177 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  17%|█▋        | 748/4533 [2:02:18<10:32:14, 10.02s/it, gpt_loss=0.356, loss_mean=0.34] [A
+Train step of epoch 0:  17%|█▋        | 749/4533 [2:02:18<11:00:04, 10.47s/it, gpt_loss=0.356, loss_mean=0.34][A
+[LID Router Debug] Step: 750
+Batch Size: 14
+Audio Batch Size: 154
+LID Assignments: [4, 9, 0, 9, 3, 9, 2, 2, 4, 3, 3, 0, 2, 4]
+Active Experts in Batch: {0, 2, 3, 4, 9}
+2026-01-26 15:50:23.154 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  17%|█▋        | 749/4533 [2:02:27<11:00:04, 10.47s/it, gpt_loss=0.37, loss_mean=0.343][A
+Train step of epoch 0:  17%|█▋        | 750/4533 [2:02:27<10:30:53, 10.01s/it, gpt_loss=0.37, loss_mean=0.343][A2026-01-26 15:50:31.797 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  17%|█▋        | 750/4533 [2:02:37<10:30:53, 10.01s/it, gpt_loss=0.376, loss_mean=0.347][A
+Train step of epoch 0:  17%|█▋        | 751/4533 [2:02:37<10:24:06,  9.90s/it, gpt_loss=0.376, loss_mean=0.347][A2026-01-26 15:50:41.665 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  17%|█▋        | 751/4533 [2:02:46<10:24:06,  9.90s/it, gpt_loss=0.385, loss_mean=0.351][A
+Train step of epoch 0:  17%|█▋        | 752/4533 [2:02:46<10:05:06,  9.60s/it, gpt_loss=0.385, loss_mean=0.351][A2026-01-26 15:50:50.484 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  17%|█▋        | 752/4533 [2:02:54<10:05:06,  9.60s/it, gpt_loss=0.286, loss_mean=0.344][A
+Train step of epoch 0:  17%|█▋        | 753/4533 [2:02:54<9:44:44,  9.28s/it, gpt_loss=0.286, loss_mean=0.344] [A2026-01-26 15:50:58.871 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  17%|█▋        | 753/4533 [2:03:03<9:44:44,  9.28s/it, gpt_loss=0.295, loss_mean=0.339][A
+Train step of epoch 0:  17%|█▋        | 754/4533 [2:03:03<9:31:24,  9.07s/it, gpt_loss=0.295, loss_mean=0.339][A2026-01-26 15:51:07.765 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  17%|█▋        | 754/4533 [2:03:12<9:31:24,  9.07s/it, gpt_loss=0.324, loss_mean=0.338][A
+Train step of epoch 0:  17%|█▋        | 755/4533 [2:03:12<9:28:37,  9.03s/it, gpt_loss=0.324, loss_mean=0.338][A2026-01-26 15:51:16.594 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  17%|█▋        | 755/4533 [2:03:22<9:28:37,  9.03s/it, gpt_loss=0.4, loss_mean=0.344]  [A
+Train step of epoch 0:  17%|█▋        | 756/4533 [2:03:22<9:39:57,  9.21s/it, gpt_loss=0.4, loss_mean=0.344][A2026-01-26 15:51:26.200 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  17%|█▋        | 756/4533 [2:03:30<9:39:57,  9.21s/it, gpt_loss=0.388, loss_mean=0.348][A
+Train step of epoch 0:  17%|█▋        | 757/4533 [2:03:30<9:30:25,  9.06s/it, gpt_loss=0.388, loss_mean=0.348][A2026-01-26 15:51:34.860 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  17%|█▋        | 757/4533 [2:03:42<9:30:25,  9.06s/it, gpt_loss=0.39, loss_mean=0.353] [A
+Train step of epoch 0:  17%|█▋        | 758/4533 [2:03:42<10:27:20,  9.97s/it, gpt_loss=0.39, loss_mean=0.353][A2026-01-26 15:51:46.586 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  17%|█▋        | 758/4533 [2:03:52<10:27:20,  9.97s/it, gpt_loss=0.401, loss_mean=0.357][A
+Train step of epoch 0:  17%|█▋        | 759/4533 [2:03:52<10:15:31,  9.79s/it, gpt_loss=0.401, loss_mean=0.357][A
+[LID Router Debug] Step: 760
+Batch Size: 14
+Audio Batch Size: 158
+LID Assignments: [4, 2, 0, 3, 2, 4, 5, 4, 2, 9, 5, 5, 3, 2]
+Active Experts in Batch: {0, 2, 3, 4, 5, 9}
+2026-01-26 15:51:56.376 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  17%|█▋        | 759/4533 [2:04:01<10:15:31,  9.79s/it, gpt_loss=0.309, loss_mean=0.353][A
+Train step of epoch 0:  17%|█▋        | 760/4533 [2:04:01<9:56:02,  9.48s/it, gpt_loss=0.309, loss_mean=0.353] [A2026-01-26 15:52:05.189 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  17%|█▋        | 760/4533 [2:04:13<9:56:02,  9.48s/it, gpt_loss=0.367, loss_mean=0.354][A
+Train step of epoch 0:  17%|█▋        | 761/4533 [2:04:13<10:48:40, 10.32s/it, gpt_loss=0.367, loss_mean=0.354][A2026-01-26 15:52:16.989 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  17%|█▋        | 761/4533 [2:04:22<10:48:40, 10.32s/it, gpt_loss=0.335, loss_mean=0.352][A
+Train step of epoch 0:  17%|█▋        | 762/4533 [2:04:22<10:29:46, 10.02s/it, gpt_loss=0.335, loss_mean=0.352][A2026-01-26 15:52:26.861 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  17%|█▋        | 762/4533 [2:04:31<10:29:46, 10.02s/it, gpt_loss=0.327, loss_mean=0.35] [A
+Train step of epoch 0:  17%|█▋        | 763/4533 [2:04:31<10:10:08,  9.71s/it, gpt_loss=0.327, loss_mean=0.35][A2026-01-26 15:52:35.570 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  17%|█▋        | 763/4533 [2:04:40<10:10:08,  9.71s/it, gpt_loss=0.245, loss_mean=0.339][A
+Train step of epoch 0:  17%|█▋        | 764/4533 [2:04:40<9:53:55,  9.45s/it, gpt_loss=0.245, loss_mean=0.339] [A2026-01-26 15:52:44.591 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  17%|█▋        | 764/4533 [2:04:49<9:53:55,  9.45s/it, gpt_loss=0.283, loss_mean=0.334][A
+Train step of epoch 0:  17%|█▋        | 765/4533 [2:04:49<9:43:35,  9.29s/it, gpt_loss=0.283, loss_mean=0.334][A2026-01-26 15:52:53.575 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  17%|█▋        | 765/4533 [2:04:59<9:43:35,  9.29s/it, gpt_loss=0.331, loss_mean=0.333][A
+Train step of epoch 0:  17%|█▋        | 766/4533 [2:04:59<9:53:06,  9.45s/it, gpt_loss=0.331, loss_mean=0.333][A2026-01-26 15:53:03.253 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  17%|█▋        | 766/4533 [2:05:07<9:53:06,  9.45s/it, gpt_loss=0.283, loss_mean=0.328][A
+Train step of epoch 0:  17%|█▋        | 767/4533 [2:05:07<9:35:49,  9.17s/it, gpt_loss=0.283, loss_mean=0.328][A2026-01-26 15:53:11.791 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  17%|█▋        | 767/4533 [2:05:16<9:35:49,  9.17s/it, gpt_loss=0.326, loss_mean=0.328][A
+Train step of epoch 0:  17%|█▋        | 768/4533 [2:05:16<9:32:28,  9.12s/it, gpt_loss=0.326, loss_mean=0.328][A2026-01-26 15:53:20.697 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  17%|█▋        | 768/4533 [2:05:26<9:32:28,  9.12s/it, gpt_loss=0.315, loss_mean=0.327][A
+Train step of epoch 0:  17%|█▋        | 769/4533 [2:05:26<9:40:48,  9.26s/it, gpt_loss=0.315, loss_mean=0.327][A
+[LID Router Debug] Step: 770
+Batch Size: 14
+Audio Batch Size: 156
+LID Assignments: [0, 1, 3, 9, 0, 3, 9, 9, 9, 1, 5, 2, 5, 1]
+Active Experts in Batch: {0, 1, 2, 3, 5, 9}
+2026-01-26 15:53:30.469 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  17%|█▋        | 769/4533 [2:05:35<9:40:48,  9.26s/it, gpt_loss=0.289, loss_mean=0.323][A
+Train step of epoch 0:  17%|█▋        | 770/4533 [2:05:35<9:33:14,  9.14s/it, gpt_loss=0.289, loss_mean=0.323][A2026-01-26 15:53:39.267 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  17%|█▋        | 770/4533 [2:05:44<9:33:14,  9.14s/it, gpt_loss=0.318, loss_mean=0.323][A
+Train step of epoch 0:  17%|█▋        | 771/4533 [2:05:44<9:29:59,  9.09s/it, gpt_loss=0.318, loss_mean=0.323][A2026-01-26 15:53:48.281 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  17%|█▋        | 771/4533 [2:05:53<9:29:59,  9.09s/it, gpt_loss=0.371, loss_mean=0.327][A
+Train step of epoch 0:  17%|█▋        | 772/4533 [2:05:53<9:38:44,  9.23s/it, gpt_loss=0.371, loss_mean=0.327][A2026-01-26 15:53:57.678 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  17%|█▋        | 772/4533 [2:06:02<9:38:44,  9.23s/it, gpt_loss=0.349, loss_mean=0.329][A
+Train step of epoch 0:  17%|█▋        | 773/4533 [2:06:02<9:27:42,  9.06s/it, gpt_loss=0.349, loss_mean=0.329][A2026-01-26 15:54:06.486 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  17%|█▋        | 773/4533 [2:06:14<9:27:42,  9.06s/it, gpt_loss=0.384, loss_mean=0.335][A
+Train step of epoch 0:  17%|█▋        | 774/4533 [2:06:14<10:17:48,  9.86s/it, gpt_loss=0.384, loss_mean=0.335][A2026-01-26 15:54:18.077 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  17%|█▋        | 774/4533 [2:06:22<10:17:48,  9.86s/it, gpt_loss=0.312, loss_mean=0.333][A
+Train step of epoch 0:  17%|█▋        | 775/4533 [2:06:22<9:57:11,  9.53s/it, gpt_loss=0.312, loss_mean=0.333] [A2026-01-26 15:54:26.893 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  17%|█▋        | 775/4533 [2:06:32<9:57:11,  9.53s/it, gpt_loss=0.464, loss_mean=0.346][A
+Train step of epoch 0:  17%|█▋        | 776/4533 [2:06:32<10:02:31,  9.62s/it, gpt_loss=0.464, loss_mean=0.346][A2026-01-26 15:54:36.962 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  17%|█▋        | 776/4533 [2:06:44<10:02:31,  9.62s/it, gpt_loss=0.338, loss_mean=0.345][A
+Train step of epoch 0:  17%|█▋        | 777/4533 [2:06:44<10:52:02, 10.42s/it, gpt_loss=0.338, loss_mean=0.345][A2026-01-26 15:54:48.779 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  17%|█▋        | 777/4533 [2:06:53<10:52:02, 10.42s/it, gpt_loss=0.299, loss_mean=0.34] [A
+Train step of epoch 0:  17%|█▋        | 778/4533 [2:06:53<10:19:40,  9.90s/it, gpt_loss=0.299, loss_mean=0.34][A2026-01-26 15:54:57.657 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  17%|█▋        | 778/4533 [2:07:02<10:19:40,  9.90s/it, gpt_loss=0.319, loss_mean=0.338][A
+Train step of epoch 0:  17%|█▋        | 779/4533 [2:07:02<9:55:50,  9.52s/it, gpt_loss=0.319, loss_mean=0.338] [A
+[LID Router Debug] Step: 780
+Batch Size: 14
+Audio Batch Size: 176
+LID Assignments: [4, 3, 1, 5, 2, 3, 2, 3, 6, 3, 2, 1, 9, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 15:55:06.154 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  17%|█▋        | 779/4533 [2:07:10<9:55:50,  9.52s/it, gpt_loss=0.264, loss_mean=0.331][A
+Train step of epoch 0:  17%|█▋        | 780/4533 [2:07:10<9:37:22,  9.23s/it, gpt_loss=0.264, loss_mean=0.331][A2026-01-26 15:55:14.673 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  17%|█▋        | 780/4533 [2:07:19<9:37:22,  9.23s/it, gpt_loss=0.32, loss_mean=0.33]  [A
+Train step of epoch 0:  17%|█▋        | 781/4533 [2:07:19<9:23:48,  9.02s/it, gpt_loss=0.32, loss_mean=0.33][A2026-01-26 15:55:23.576 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  17%|█▋        | 781/4533 [2:07:28<9:23:48,  9.02s/it, gpt_loss=0.37, loss_mean=0.334][A
+Train step of epoch 0:  17%|█▋        | 782/4533 [2:07:28<9:24:53,  9.04s/it, gpt_loss=0.37, loss_mean=0.334][A2026-01-26 15:55:32.583 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  17%|█▋        | 782/4533 [2:07:37<9:24:53,  9.04s/it, gpt_loss=0.285, loss_mean=0.329][A
+Train step of epoch 0:  17%|█▋        | 783/4533 [2:07:37<9:19:33,  8.95s/it, gpt_loss=0.285, loss_mean=0.329][A2026-01-26 15:55:40.997 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  17%|█▋        | 783/4533 [2:07:46<9:19:33,  8.95s/it, gpt_loss=0.405, loss_mean=0.336][A
+Train step of epoch 0:  17%|█▋        | 784/4533 [2:07:46<9:29:31,  9.11s/it, gpt_loss=0.405, loss_mean=0.336][A2026-01-26 15:55:50.480 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  17%|█▋        | 784/4533 [2:07:58<9:29:31,  9.11s/it, gpt_loss=0.432, loss_mean=0.346][A
+Train step of epoch 0:  17%|█▋        | 785/4533 [2:07:58<10:14:07,  9.83s/it, gpt_loss=0.432, loss_mean=0.346][A2026-01-26 15:56:02.383 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  17%|█▋        | 785/4533 [2:08:07<10:14:07,  9.83s/it, gpt_loss=0.271, loss_mean=0.339][A
+Train step of epoch 0:  17%|█▋        | 786/4533 [2:08:07<10:11:10,  9.79s/it, gpt_loss=0.271, loss_mean=0.339][A2026-01-26 15:56:12.086 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  17%|█▋        | 786/4533 [2:08:19<10:11:10,  9.79s/it, gpt_loss=0.376, loss_mean=0.342][A
+Train step of epoch 0:  17%|█▋        | 787/4533 [2:08:19<10:53:10, 10.46s/it, gpt_loss=0.376, loss_mean=0.342][A2026-01-26 15:56:23.704 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  17%|█▋        | 787/4533 [2:08:28<10:53:10, 10.46s/it, gpt_loss=0.289, loss_mean=0.337][A
+Train step of epoch 0:  17%|█▋        | 788/4533 [2:08:28<10:15:07,  9.86s/it, gpt_loss=0.289, loss_mean=0.337][A2026-01-26 15:56:32.157 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  17%|█▋        | 788/4533 [2:08:36<10:15:07,  9.86s/it, gpt_loss=0.339, loss_mean=0.337][A
+Train step of epoch 0:  17%|█▋        | 789/4533 [2:08:36<9:49:16,  9.44s/it, gpt_loss=0.339, loss_mean=0.337] [A
+[LID Router Debug] Step: 790
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [2, 2, 3, 4, 4, 0, 5, 1, 5, 2, 2, 9, 5, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 15:56:40.910 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  17%|█▋        | 789/4533 [2:08:46<9:49:16,  9.44s/it, gpt_loss=0.376, loss_mean=0.341][A
+Train step of epoch 0:  17%|█▋        | 790/4533 [2:08:46<9:51:30,  9.48s/it, gpt_loss=0.376, loss_mean=0.341][A2026-01-26 15:56:50.352 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  17%|█▋        | 790/4533 [2:08:58<9:51:30,  9.48s/it, gpt_loss=0.396, loss_mean=0.347][A
+Train step of epoch 0:  17%|█▋        | 791/4533 [2:08:58<10:40:57, 10.28s/it, gpt_loss=0.396, loss_mean=0.347][A2026-01-26 15:57:02.698 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  17%|█▋        | 791/4533 [2:09:08<10:40:57, 10.28s/it, gpt_loss=0.357, loss_mean=0.348][A
+Train step of epoch 0:  17%|█▋        | 792/4533 [2:09:08<10:30:01, 10.10s/it, gpt_loss=0.357, loss_mean=0.348][A2026-01-26 15:57:12.376 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  17%|█▋        | 792/4533 [2:09:20<10:30:01, 10.10s/it, gpt_loss=0.446, loss_mean=0.357][A
+Train step of epoch 0:  17%|█▋        | 793/4533 [2:09:20<11:02:05, 10.62s/it, gpt_loss=0.446, loss_mean=0.357][A2026-01-26 15:57:24.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  17%|█▋        | 793/4533 [2:09:29<11:02:05, 10.62s/it, gpt_loss=0.336, loss_mean=0.355][A
+Train step of epoch 0:  18%|█▊        | 794/4533 [2:09:29<10:36:16, 10.21s/it, gpt_loss=0.336, loss_mean=0.355][A2026-01-26 15:57:33.505 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  18%|█▊        | 794/4533 [2:09:38<10:36:16, 10.21s/it, gpt_loss=0.368, loss_mean=0.357][A
+Train step of epoch 0:  18%|█▊        | 795/4533 [2:09:38<10:09:58,  9.79s/it, gpt_loss=0.368, loss_mean=0.357][A2026-01-26 15:57:42.280 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  18%|█▊        | 795/4533 [2:09:49<10:09:58,  9.79s/it, gpt_loss=0.476, loss_mean=0.368][A
+Train step of epoch 0:  18%|█▊        | 796/4533 [2:09:49<10:46:44, 10.38s/it, gpt_loss=0.476, loss_mean=0.368][A2026-01-26 15:57:53.887 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  18%|█▊        | 796/4533 [2:09:59<10:46:44, 10.38s/it, gpt_loss=0.315, loss_mean=0.363][A
+Train step of epoch 0:  18%|█▊        | 797/4533 [2:09:59<10:31:08, 10.14s/it, gpt_loss=0.315, loss_mean=0.363][A2026-01-26 15:58:03.496 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  18%|█▊        | 797/4533 [2:10:08<10:31:08, 10.14s/it, gpt_loss=0.328, loss_mean=0.36] [A
+Train step of epoch 0:  18%|█▊        | 798/4533 [2:10:08<10:02:22,  9.68s/it, gpt_loss=0.328, loss_mean=0.36][A2026-01-26 15:58:12.057 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  18%|█▊        | 798/4533 [2:10:16<10:02:22,  9.68s/it, gpt_loss=0.267, loss_mean=0.35][A
+Train step of epoch 0:  18%|█▊        | 799/4533 [2:10:16<9:43:50,  9.38s/it, gpt_loss=0.267, loss_mean=0.35] [A
+[LID Router Debug] Step: 800
+Batch Size: 14
+Audio Batch Size: 158
+LID Assignments: [4, 2, 1, 9, 5, 4, 9, 1, 3, 2, 5, 1, 3, 4]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-26 15:58:20.607 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-26 15:58:29,512] [INFO] [logging.py:96:log_dist] [Rank 0] step=800, skipped=0, lr=[1.9880201005750838e-05, 1.9880201005750838e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 15:58:29,513] [INFO] [timer.py:260:stop] epoch=0/micro_step=800/global_step=800, RunningAvgSamplesPerSec=5.751098523365349, CurrSamplesPerSec=6.025259085267664, MemAllocated=14.58GB, MaxMemAllocated=53.32GB
+
+Train step of epoch 0:  18%|█▊        | 799/4533 [2:10:26<9:43:50,  9.38s/it, gpt_loss=0.375, loss_mean=0.353][A
+Train step of epoch 0:  18%|█▊        | 800/4533 [2:10:26<9:42:22,  9.36s/it, gpt_loss=0.375, loss_mean=0.353][A2026-01-26 15:58:30.271 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  18%|█▊        | 800/4533 [2:10:35<9:42:22,  9.36s/it, gpt_loss=0.268, loss_mean=0.344][A
+Train step of epoch 0:  18%|█▊        | 801/4533 [2:10:35<9:46:54,  9.44s/it, gpt_loss=0.268, loss_mean=0.344][A2026-01-26 15:58:39.688 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  18%|█▊        | 801/4533 [2:10:44<9:46:54,  9.44s/it, gpt_loss=0.316, loss_mean=0.342][A
+Train step of epoch 0:  18%|█▊        | 802/4533 [2:10:44<9:29:35,  9.16s/it, gpt_loss=0.316, loss_mean=0.342][A2026-01-26 15:58:48.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  18%|█▊        | 802/4533 [2:10:54<9:29:35,  9.16s/it, gpt_loss=0.34, loss_mean=0.341] [A
+Train step of epoch 0:  18%|█▊        | 803/4533 [2:10:54<9:42:52,  9.38s/it, gpt_loss=0.34, loss_mean=0.341][A2026-01-26 15:58:58.153 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  18%|█▊        | 803/4533 [2:11:05<9:42:52,  9.38s/it, gpt_loss=0.445, loss_mean=0.352][A
+Train step of epoch 0:  18%|█▊        | 804/4533 [2:11:05<10:26:48, 10.09s/it, gpt_loss=0.445, loss_mean=0.352][A2026-01-26 15:59:09.898 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  18%|█▊        | 804/4533 [2:11:14<10:26:48, 10.09s/it, gpt_loss=0.39, loss_mean=0.355] [A
+Train step of epoch 0:  18%|█▊        | 805/4533 [2:11:14<10:04:23,  9.73s/it, gpt_loss=0.39, loss_mean=0.355][A2026-01-26 15:59:18.889 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  18%|█▊        | 805/4533 [2:11:23<10:04:23,  9.73s/it, gpt_loss=0.351, loss_mean=0.355][A
+Train step of epoch 0:  18%|█▊        | 806/4533 [2:11:23<9:52:36,  9.54s/it, gpt_loss=0.351, loss_mean=0.355] [A2026-01-26 15:59:27.976 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  18%|█▊        | 806/4533 [2:11:32<9:52:36,  9.54s/it, gpt_loss=0.298, loss_mean=0.349][A
+Train step of epoch 0:  18%|█▊        | 807/4533 [2:11:32<9:38:31,  9.32s/it, gpt_loss=0.298, loss_mean=0.349][A2026-01-26 15:59:36.775 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  18%|█▊        | 807/4533 [2:11:42<9:38:31,  9.32s/it, gpt_loss=0.338, loss_mean=0.348][A
+Train step of epoch 0:  18%|█▊        | 808/4533 [2:11:42<9:40:32,  9.35s/it, gpt_loss=0.338, loss_mean=0.348][A2026-01-26 15:59:45.970 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  18%|█▊        | 808/4533 [2:11:50<9:40:32,  9.35s/it, gpt_loss=0.343, loss_mean=0.348][A
+Train step of epoch 0:  18%|█▊        | 809/4533 [2:11:50<9:27:09,  9.14s/it, gpt_loss=0.343, loss_mean=0.348][A
+[LID Router Debug] Step: 810
+Batch Size: 14
+Audio Batch Size: 155
+LID Assignments: [6, 3, 1, 2, 5, 4, 4, 9, 6, 9, 5, 3, 5, 9]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-26 15:59:54.790 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  18%|█▊        | 809/4533 [2:11:59<9:27:09,  9.14s/it, gpt_loss=0.317, loss_mean=0.345][A
+Train step of epoch 0:  18%|█▊        | 810/4533 [2:11:59<9:27:23,  9.14s/it, gpt_loss=0.317, loss_mean=0.345][A2026-01-26 16:00:03.590 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  18%|█▊        | 810/4533 [2:12:08<9:27:23,  9.14s/it, gpt_loss=0.335, loss_mean=0.344][A
+Train step of epoch 0:  18%|█▊        | 811/4533 [2:12:08<9:20:27,  9.03s/it, gpt_loss=0.335, loss_mean=0.344][A2026-01-26 16:00:12.852 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  18%|█▊        | 811/4533 [2:12:17<9:20:27,  9.03s/it, gpt_loss=0.337, loss_mean=0.343][A
+Train step of epoch 0:  18%|█▊        | 812/4533 [2:12:17<9:20:27,  9.04s/it, gpt_loss=0.337, loss_mean=0.343][A2026-01-26 16:00:21.875 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  18%|█▊        | 812/4533 [2:12:26<9:20:27,  9.04s/it, gpt_loss=0.323, loss_mean=0.341][A
+Train step of epoch 0:  18%|█▊        | 813/4533 [2:12:26<9:16:27,  8.98s/it, gpt_loss=0.323, loss_mean=0.341][A2026-01-26 16:00:30.605 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  18%|█▊        | 813/4533 [2:12:36<9:16:27,  8.98s/it, gpt_loss=0.453, loss_mean=0.352][A
+Train step of epoch 0:  18%|█▊        | 814/4533 [2:12:36<9:30:06,  9.20s/it, gpt_loss=0.453, loss_mean=0.352][A2026-01-26 16:00:40.061 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  18%|█▊        | 814/4533 [2:12:45<9:30:06,  9.20s/it, gpt_loss=0.332, loss_mean=0.35] [A
+Train step of epoch 0:  18%|█▊        | 815/4533 [2:12:45<9:34:34,  9.27s/it, gpt_loss=0.332, loss_mean=0.35][A2026-01-26 16:00:49.855 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  18%|█▊        | 815/4533 [2:12:54<9:34:34,  9.27s/it, gpt_loss=0.284, loss_mean=0.343][A
+Train step of epoch 0:  18%|█▊        | 816/4533 [2:12:54<9:31:49,  9.23s/it, gpt_loss=0.284, loss_mean=0.343][A2026-01-26 16:00:58.976 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  18%|█▊        | 816/4533 [2:13:04<9:31:49,  9.23s/it, gpt_loss=0.3, loss_mean=0.339]  [A
+Train step of epoch 0:  18%|█▊        | 817/4533 [2:13:04<9:41:12,  9.38s/it, gpt_loss=0.3, loss_mean=0.339][A2026-01-26 16:01:08.688 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  18%|█▊        | 817/4533 [2:13:13<9:41:12,  9.38s/it, gpt_loss=0.348, loss_mean=0.34][A
+Train step of epoch 0:  18%|█▊        | 818/4533 [2:13:13<9:30:34,  9.22s/it, gpt_loss=0.348, loss_mean=0.34][A2026-01-26 16:01:17.496 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  18%|█▊        | 818/4533 [2:13:23<9:30:34,  9.22s/it, gpt_loss=0.315, loss_mean=0.337][A
+Train step of epoch 0:  18%|█▊        | 819/4533 [2:13:23<9:38:30,  9.35s/it, gpt_loss=0.315, loss_mean=0.337][A
+[LID Router Debug] Step: 820
+Batch Size: 14
+Audio Batch Size: 145
+LID Assignments: [0, 9, 0, 9, 2, 1, 1, 9, 4, 2, 4, 2, 9, 0]
+Active Experts in Batch: {0, 1, 2, 4, 9}
+2026-01-26 16:01:27.086 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  18%|█▊        | 819/4533 [2:13:32<9:38:30,  9.35s/it, gpt_loss=0.342, loss_mean=0.338][A
+Train step of epoch 0:  18%|█▊        | 820/4533 [2:13:32<9:47:23,  9.49s/it, gpt_loss=0.342, loss_mean=0.338][A2026-01-26 16:01:37.004 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  18%|█▊        | 820/4533 [2:13:41<9:47:23,  9.49s/it, gpt_loss=0.369, loss_mean=0.341][A
+Train step of epoch 0:  18%|█▊        | 821/4533 [2:13:41<9:35:11,  9.30s/it, gpt_loss=0.369, loss_mean=0.341][A2026-01-26 16:01:45.687 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  18%|█▊        | 821/4533 [2:13:50<9:35:11,  9.30s/it, gpt_loss=0.337, loss_mean=0.341][A
+Train step of epoch 0:  18%|█▊        | 822/4533 [2:13:50<9:22:15,  9.09s/it, gpt_loss=0.337, loss_mean=0.341][A2026-01-26 16:01:54.374 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  18%|█▊        | 822/4533 [2:14:02<9:22:15,  9.09s/it, gpt_loss=0.488, loss_mean=0.355][A
+Train step of epoch 0:  18%|█▊        | 823/4533 [2:14:02<10:14:42,  9.94s/it, gpt_loss=0.488, loss_mean=0.355][A2026-01-26 16:02:06.455 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  18%|█▊        | 823/4533 [2:14:11<10:14:42,  9.94s/it, gpt_loss=0.36, loss_mean=0.356] [A
+Train step of epoch 0:  18%|█▊        | 824/4533 [2:14:11<9:56:09,  9.64s/it, gpt_loss=0.36, loss_mean=0.356] [A2026-01-26 16:02:15.363 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  18%|█▊        | 824/4533 [2:14:20<9:56:09,  9.64s/it, gpt_loss=0.262, loss_mean=0.346][A
+Train step of epoch 0:  18%|█▊        | 825/4533 [2:14:20<9:47:24,  9.50s/it, gpt_loss=0.262, loss_mean=0.346][A2026-01-26 16:02:24.194 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  18%|█▊        | 825/4533 [2:14:31<9:47:24,  9.50s/it, gpt_loss=0.444, loss_mean=0.356][A
+Train step of epoch 0:  18%|█▊        | 826/4533 [2:14:31<10:21:55, 10.07s/it, gpt_loss=0.444, loss_mean=0.356][A2026-01-26 16:02:35.882 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  18%|█▊        | 826/4533 [2:14:41<10:21:55, 10.07s/it, gpt_loss=0.418, loss_mean=0.362][A
+Train step of epoch 0:  18%|█▊        | 827/4533 [2:14:41<10:14:25,  9.95s/it, gpt_loss=0.418, loss_mean=0.362][A2026-01-26 16:02:45.597 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  18%|█▊        | 827/4533 [2:14:50<10:14:25,  9.95s/it, gpt_loss=0.392, loss_mean=0.365][A
+Train step of epoch 0:  18%|█▊        | 828/4533 [2:14:50<9:59:38,  9.71s/it, gpt_loss=0.392, loss_mean=0.365] [A2026-01-26 16:02:54.574 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  18%|█▊        | 828/4533 [2:15:00<9:59:38,  9.71s/it, gpt_loss=0.327, loss_mean=0.362][A
+Train step of epoch 0:  18%|█▊        | 829/4533 [2:15:00<9:56:32,  9.66s/it, gpt_loss=0.327, loss_mean=0.362][A
+[LID Router Debug] Step: 830
+Batch Size: 14
+Audio Batch Size: 148
+LID Assignments: [2, 9, 9, 0, 1, 5, 2, 5, 0, 0, 1, 2, 0, 3]
+Active Experts in Batch: {0, 1, 2, 3, 5, 9}
+2026-01-26 16:03:04.275 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  18%|█▊        | 829/4533 [2:15:09<9:56:32,  9.66s/it, gpt_loss=0.372, loss_mean=0.363][A
+Train step of epoch 0:  18%|█▊        | 830/4533 [2:15:09<9:55:50,  9.65s/it, gpt_loss=0.372, loss_mean=0.363][A2026-01-26 16:03:13.898 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  18%|█▊        | 830/4533 [2:15:19<9:55:50,  9.65s/it, gpt_loss=0.363, loss_mean=0.363][A
+Train step of epoch 0:  18%|█▊        | 831/4533 [2:15:19<9:59:57,  9.72s/it, gpt_loss=0.363, loss_mean=0.363][A2026-01-26 16:03:23.785 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  18%|█▊        | 831/4533 [2:15:29<9:59:57,  9.72s/it, gpt_loss=0.384, loss_mean=0.365][A
+Train step of epoch 0:  18%|█▊        | 832/4533 [2:15:29<10:01:21,  9.75s/it, gpt_loss=0.384, loss_mean=0.365][A2026-01-26 16:03:33.574 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  18%|█▊        | 832/4533 [2:15:38<10:01:21,  9.75s/it, gpt_loss=0.329, loss_mean=0.361][A
+Train step of epoch 0:  18%|█▊        | 833/4533 [2:15:38<9:48:53,  9.55s/it, gpt_loss=0.329, loss_mean=0.361] [A2026-01-26 16:03:42.665 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  18%|█▊        | 833/4533 [2:15:48<9:48:53,  9.55s/it, gpt_loss=0.312, loss_mean=0.356][A
+Train step of epoch 0:  18%|█▊        | 834/4533 [2:15:48<9:52:35,  9.61s/it, gpt_loss=0.312, loss_mean=0.356][A2026-01-26 16:03:52.476 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  18%|█▊        | 834/4533 [2:15:57<9:52:35,  9.61s/it, gpt_loss=0.357, loss_mean=0.356][A
+Train step of epoch 0:  18%|█▊        | 835/4533 [2:15:57<9:40:59,  9.43s/it, gpt_loss=0.357, loss_mean=0.356][A2026-01-26 16:04:01.385 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  18%|█▊        | 835/4533 [2:16:07<9:40:59,  9.43s/it, gpt_loss=0.37, loss_mean=0.358] [A
+Train step of epoch 0:  18%|█▊        | 836/4533 [2:16:07<9:46:20,  9.52s/it, gpt_loss=0.37, loss_mean=0.358][A2026-01-26 16:04:11.188 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  18%|█▊        | 836/4533 [2:16:16<9:46:20,  9.52s/it, gpt_loss=0.387, loss_mean=0.361][A
+Train step of epoch 0:  18%|█▊        | 837/4533 [2:16:16<9:41:38,  9.44s/it, gpt_loss=0.387, loss_mean=0.361][A2026-01-26 16:04:20.160 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  18%|█▊        | 837/4533 [2:16:28<9:41:38,  9.44s/it, gpt_loss=0.359, loss_mean=0.361][A
+Train step of epoch 0:  18%|█▊        | 838/4533 [2:16:28<10:24:41, 10.14s/it, gpt_loss=0.359, loss_mean=0.361][A2026-01-26 16:04:31.994 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  18%|█▊        | 838/4533 [2:16:37<10:24:41, 10.14s/it, gpt_loss=0.29, loss_mean=0.354] [A
+Train step of epoch 0:  19%|█▊        | 839/4533 [2:16:37<10:16:28, 10.01s/it, gpt_loss=0.29, loss_mean=0.354][A
+[LID Router Debug] Step: 840
+Batch Size: 14
+Audio Batch Size: 157
+LID Assignments: [3, 4, 9, 9, 9, 1, 1, 2, 4, 2, 6, 9, 4, 4]
+Active Experts in Batch: {1, 2, 3, 4, 6, 9}
+2026-01-26 16:04:41.879 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  19%|█▊        | 839/4533 [2:16:47<10:16:28, 10.01s/it, gpt_loss=0.339, loss_mean=0.352][A
+Train step of epoch 0:  19%|█▊        | 840/4533 [2:16:47<10:09:50,  9.91s/it, gpt_loss=0.339, loss_mean=0.352][A2026-01-26 16:04:51.482 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  19%|█▊        | 840/4533 [2:16:59<10:09:50,  9.91s/it, gpt_loss=0.419, loss_mean=0.359][A
+Train step of epoch 0:  19%|█▊        | 841/4533 [2:16:59<10:41:33, 10.43s/it, gpt_loss=0.419, loss_mean=0.359][A2026-01-26 16:05:02.755 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  19%|█▊        | 841/4533 [2:17:10<10:41:33, 10.43s/it, gpt_loss=0.402, loss_mean=0.363][A
+Train step of epoch 0:  19%|█▊        | 842/4533 [2:17:10<10:58:35, 10.71s/it, gpt_loss=0.402, loss_mean=0.363][A2026-01-26 16:05:14.594 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  19%|█▊        | 842/4533 [2:17:22<10:58:35, 10.71s/it, gpt_loss=0.549, loss_mean=0.382][A
+Train step of epoch 0:  19%|█▊        | 843/4533 [2:17:22<11:24:37, 11.13s/it, gpt_loss=0.549, loss_mean=0.382][A2026-01-26 16:05:26.294 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  19%|█▊        | 843/4533 [2:17:34<11:24:37, 11.13s/it, gpt_loss=0.437, loss_mean=0.387][A
+Train step of epoch 0:  19%|█▊        | 844/4533 [2:17:34<11:35:50, 11.32s/it, gpt_loss=0.437, loss_mean=0.387][A2026-01-26 16:05:38.503 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  19%|█▊        | 844/4533 [2:17:43<11:35:50, 11.32s/it, gpt_loss=0.309, loss_mean=0.379][A
+Train step of epoch 0:  19%|█▊        | 845/4533 [2:17:43<10:53:06, 10.63s/it, gpt_loss=0.309, loss_mean=0.379][A2026-01-26 16:05:47.465 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  19%|█▊        | 845/4533 [2:17:55<10:53:06, 10.63s/it, gpt_loss=0.414, loss_mean=0.383][A
+Train step of epoch 0:  19%|█▊        | 846/4533 [2:17:55<11:25:36, 11.16s/it, gpt_loss=0.414, loss_mean=0.383][A2026-01-26 16:05:59.665 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  19%|█▊        | 846/4533 [2:18:05<11:25:36, 11.16s/it, gpt_loss=0.365, loss_mean=0.381][A
+Train step of epoch 0:  19%|█▊        | 847/4533 [2:18:05<10:53:48, 10.64s/it, gpt_loss=0.365, loss_mean=0.381][A2026-01-26 16:06:09.188 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  19%|█▊        | 847/4533 [2:18:17<10:53:48, 10.64s/it, gpt_loss=0.509, loss_mean=0.394][A
+Train step of epoch 0:  19%|█▊        | 848/4533 [2:18:17<11:16:58, 11.02s/it, gpt_loss=0.509, loss_mean=0.394][A2026-01-26 16:06:20.962 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  19%|█▊        | 848/4533 [2:18:25<11:16:58, 11.02s/it, gpt_loss=0.255, loss_mean=0.38] [A
+Train step of epoch 0:  19%|█▊        | 849/4533 [2:18:25<10:35:12, 10.35s/it, gpt_loss=0.255, loss_mean=0.38][A
+[LID Router Debug] Step: 850
+Batch Size: 14
+Audio Batch Size: 141
+LID Assignments: [9, 5, 4, 1, 4, 9, 9, 4, 3, 2, 5, 0, 9, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 16:06:29.974 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  19%|█▊        | 849/4533 [2:18:34<10:35:12, 10.35s/it, gpt_loss=0.35, loss_mean=0.377][A
+Train step of epoch 0:  19%|█▉        | 850/4533 [2:18:34<10:12:08,  9.97s/it, gpt_loss=0.35, loss_mean=0.377][A2026-01-26 16:06:39.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  19%|█▉        | 850/4533 [2:18:43<10:12:08,  9.97s/it, gpt_loss=0.363, loss_mean=0.376][A
+Train step of epoch 0:  19%|█▉        | 851/4533 [2:18:43<9:52:02,  9.65s/it, gpt_loss=0.363, loss_mean=0.376] [A2026-01-26 16:06:47.983 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  19%|█▉        | 851/4533 [2:18:53<9:52:02,  9.65s/it, gpt_loss=0.294, loss_mean=0.367][A
+Train step of epoch 0:  19%|█▉        | 852/4533 [2:18:53<9:43:51,  9.52s/it, gpt_loss=0.294, loss_mean=0.367][A2026-01-26 16:06:57.088 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  19%|█▉        | 852/4533 [2:19:01<9:43:51,  9.52s/it, gpt_loss=0.315, loss_mean=0.362][A
+Train step of epoch 0:  19%|█▉        | 853/4533 [2:19:01<9:28:39,  9.27s/it, gpt_loss=0.315, loss_mean=0.362][A2026-01-26 16:07:05.796 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  19%|█▉        | 853/4533 [2:19:11<9:28:39,  9.27s/it, gpt_loss=0.419, loss_mean=0.368][A
+Train step of epoch 0:  19%|█▉        | 854/4533 [2:19:11<9:31:23,  9.32s/it, gpt_loss=0.419, loss_mean=0.368][A2026-01-26 16:07:15.000 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  19%|█▉        | 854/4533 [2:19:20<9:31:23,  9.32s/it, gpt_loss=0.251, loss_mean=0.356][A
+Train step of epoch 0:  19%|█▉        | 855/4533 [2:19:20<9:23:52,  9.20s/it, gpt_loss=0.251, loss_mean=0.356][A2026-01-26 16:07:24.283 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  19%|█▉        | 855/4533 [2:19:29<9:23:52,  9.20s/it, gpt_loss=0.291, loss_mean=0.35] [A
+Train step of epoch 0:  19%|█▉        | 856/4533 [2:19:29<9:20:37,  9.15s/it, gpt_loss=0.291, loss_mean=0.35][A2026-01-26 16:07:33.172 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  19%|█▉        | 856/4533 [2:19:40<9:20:37,  9.15s/it, gpt_loss=0.316, loss_mean=0.346][A
+Train step of epoch 0:  19%|█▉        | 857/4533 [2:19:40<10:03:57,  9.86s/it, gpt_loss=0.316, loss_mean=0.346][A2026-01-26 16:07:44.776 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  19%|█▉        | 857/4533 [2:19:52<10:03:57,  9.86s/it, gpt_loss=0.367, loss_mean=0.348][A
+Train step of epoch 0:  19%|█▉        | 858/4533 [2:19:52<10:37:37, 10.41s/it, gpt_loss=0.367, loss_mean=0.348][A2026-01-26 16:07:56.463 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  19%|█▉        | 858/4533 [2:20:01<10:37:37, 10.41s/it, gpt_loss=0.327, loss_mean=0.346][A
+Train step of epoch 0:  19%|█▉        | 859/4533 [2:20:01<10:09:15,  9.95s/it, gpt_loss=0.327, loss_mean=0.346][A
+[LID Router Debug] Step: 860
+Batch Size: 14
+Audio Batch Size: 117
+LID Assignments: [0, 6, 9, 1, 4, 1, 0, 3, 5, 0, 1, 6, 2, 6]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 16:08:05.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  19%|█▉        | 859/4533 [2:20:10<10:09:15,  9.95s/it, gpt_loss=0.33, loss_mean=0.345] [A
+Train step of epoch 0:  19%|█▉        | 860/4533 [2:20:10<10:03:46,  9.86s/it, gpt_loss=0.33, loss_mean=0.345][A2026-01-26 16:08:14.961 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  19%|█▉        | 860/4533 [2:20:19<10:03:46,  9.86s/it, gpt_loss=0.368, loss_mean=0.347][A
+Train step of epoch 0:  19%|█▉        | 861/4533 [2:20:19<9:47:59,  9.61s/it, gpt_loss=0.368, loss_mean=0.347] [A2026-01-26 16:08:24.056 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  19%|█▉        | 861/4533 [2:20:31<9:47:59,  9.61s/it, gpt_loss=0.412, loss_mean=0.353][A
+Train step of epoch 0:  19%|█▉        | 862/4533 [2:20:31<10:30:14, 10.30s/it, gpt_loss=0.412, loss_mean=0.353][A2026-01-26 16:08:35.959 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  19%|█▉        | 862/4533 [2:20:40<10:30:14, 10.30s/it, gpt_loss=0.292, loss_mean=0.347][A
+Train step of epoch 0:  19%|█▉        | 863/4533 [2:20:40<10:04:03,  9.88s/it, gpt_loss=0.292, loss_mean=0.347][A2026-01-26 16:08:44.866 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  19%|█▉        | 863/4533 [2:20:52<10:04:03,  9.88s/it, gpt_loss=0.405, loss_mean=0.353][A
+Train step of epoch 0:  19%|█▉        | 864/4533 [2:20:52<10:45:20, 10.55s/it, gpt_loss=0.405, loss_mean=0.353][A2026-01-26 16:08:56.765 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  19%|█▉        | 864/4533 [2:21:02<10:45:20, 10.55s/it, gpt_loss=0.352, loss_mean=0.353][A
+Train step of epoch 0:  19%|█▉        | 865/4533 [2:21:02<10:24:27, 10.21s/it, gpt_loss=0.352, loss_mean=0.353][A2026-01-26 16:09:06.277 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  19%|█▉        | 865/4533 [2:21:10<10:24:27, 10.21s/it, gpt_loss=0.304, loss_mean=0.348][A
+Train step of epoch 0:  19%|█▉        | 866/4533 [2:21:10<9:57:29,  9.78s/it, gpt_loss=0.304, loss_mean=0.348] [A2026-01-26 16:09:14.993 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  19%|█▉        | 866/4533 [2:21:19<9:57:29,  9.78s/it, gpt_loss=0.287, loss_mean=0.342][A
+Train step of epoch 0:  19%|█▉        | 867/4533 [2:21:19<9:40:54,  9.51s/it, gpt_loss=0.287, loss_mean=0.342][A2026-01-26 16:09:23.689 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  19%|█▉        | 867/4533 [2:21:28<9:40:54,  9.51s/it, gpt_loss=0.247, loss_mean=0.332][A
+Train step of epoch 0:  19%|█▉        | 868/4533 [2:21:28<9:23:39,  9.23s/it, gpt_loss=0.247, loss_mean=0.332][A2026-01-26 16:09:32.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  19%|█▉        | 868/4533 [2:21:40<9:23:39,  9.23s/it, gpt_loss=0.465, loss_mean=0.346][A
+Train step of epoch 0:  19%|█▉        | 869/4533 [2:21:40<10:07:09,  9.94s/it, gpt_loss=0.465, loss_mean=0.346][A
+[LID Router Debug] Step: 870
+Batch Size: 14
+Audio Batch Size: 166
+LID Assignments: [2, 1, 1, 0, 3, 3, 3, 0, 5, 4, 6, 9, 3, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 16:09:43.966 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  19%|█▉        | 869/4533 [2:21:48<10:07:09,  9.94s/it, gpt_loss=0.34, loss_mean=0.345] [A
+Train step of epoch 0:  19%|█▉        | 870/4533 [2:21:48<9:43:40,  9.56s/it, gpt_loss=0.34, loss_mean=0.345] [A2026-01-26 16:09:52.763 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  19%|█▉        | 870/4533 [2:21:57<9:43:40,  9.56s/it, gpt_loss=0.282, loss_mean=0.339][A
+Train step of epoch 0:  19%|█▉        | 871/4533 [2:21:57<9:28:44,  9.32s/it, gpt_loss=0.282, loss_mean=0.339][A2026-01-26 16:10:01.454 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  19%|█▉        | 871/4533 [2:22:06<9:28:44,  9.32s/it, gpt_loss=0.369, loss_mean=0.342][A
+Train step of epoch 0:  19%|█▉        | 872/4533 [2:22:06<9:18:11,  9.15s/it, gpt_loss=0.369, loss_mean=0.342][A2026-01-26 16:10:10.364 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  19%|█▉        | 872/4533 [2:22:16<9:18:11,  9.15s/it, gpt_loss=0.316, loss_mean=0.339][A
+Train step of epoch 0:  19%|█▉        | 873/4533 [2:22:16<9:31:29,  9.37s/it, gpt_loss=0.316, loss_mean=0.339][A2026-01-26 16:10:20.176 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  19%|█▉        | 873/4533 [2:22:27<9:31:29,  9.37s/it, gpt_loss=0.396, loss_mean=0.345][A
+Train step of epoch 0:  19%|█▉        | 874/4533 [2:22:27<10:10:41, 10.01s/it, gpt_loss=0.396, loss_mean=0.345][A2026-01-26 16:10:31.669 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  19%|█▉        | 874/4533 [2:22:37<10:10:41, 10.01s/it, gpt_loss=0.351, loss_mean=0.346][A
+Train step of epoch 0:  19%|█▉        | 875/4533 [2:22:37<9:59:03,  9.83s/it, gpt_loss=0.351, loss_mean=0.346] [A2026-01-26 16:10:41.191 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  19%|█▉        | 875/4533 [2:22:46<9:59:03,  9.83s/it, gpt_loss=0.307, loss_mean=0.342][A
+Train step of epoch 0:  19%|█▉        | 876/4533 [2:22:46<9:44:42,  9.59s/it, gpt_loss=0.307, loss_mean=0.342][A2026-01-26 16:10:50.272 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  19%|█▉        | 876/4533 [2:22:54<9:44:42,  9.59s/it, gpt_loss=0.233, loss_mean=0.331][A
+Train step of epoch 0:  19%|█▉        | 877/4533 [2:22:54<9:30:58,  9.37s/it, gpt_loss=0.233, loss_mean=0.331][A2026-01-26 16:10:59.090 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  19%|█▉        | 877/4533 [2:23:04<9:30:58,  9.37s/it, gpt_loss=0.346, loss_mean=0.332][A
+Train step of epoch 0:  19%|█▉        | 878/4533 [2:23:04<9:38:32,  9.50s/it, gpt_loss=0.346, loss_mean=0.332][A2026-01-26 16:11:08.492 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  19%|█▉        | 878/4533 [2:23:16<9:38:32,  9.50s/it, gpt_loss=0.372, loss_mean=0.336][A
+Train step of epoch 0:  19%|█▉        | 879/4533 [2:23:16<10:14:38, 10.09s/it, gpt_loss=0.372, loss_mean=0.336][A
+[LID Router Debug] Step: 880
+Batch Size: 14
+Audio Batch Size: 154
+LID Assignments: [5, 3, 5, 4, 9, 2, 4, 5, 1, 0, 9, 3, 3, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 16:11:20.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  19%|█▉        | 879/4533 [2:23:25<10:14:38, 10.09s/it, gpt_loss=0.315, loss_mean=0.334][A
+Train step of epoch 0:  19%|█▉        | 880/4533 [2:23:25<10:02:15,  9.89s/it, gpt_loss=0.315, loss_mean=0.334][A2026-01-26 16:11:29.765 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  19%|█▉        | 880/4533 [2:23:35<10:02:15,  9.89s/it, gpt_loss=0.333, loss_mean=0.334][A
+Train step of epoch 0:  19%|█▉        | 881/4533 [2:23:35<9:54:24,  9.77s/it, gpt_loss=0.333, loss_mean=0.334] [A2026-01-26 16:11:38.955 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  19%|█▉        | 881/4533 [2:23:43<9:54:24,  9.77s/it, gpt_loss=0.322, loss_mean=0.333][A
+Train step of epoch 0:  19%|█▉        | 882/4533 [2:23:43<9:35:24,  9.46s/it, gpt_loss=0.322, loss_mean=0.333][A2026-01-26 16:11:47.797 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  19%|█▉        | 882/4533 [2:23:52<9:35:24,  9.46s/it, gpt_loss=0.27, loss_mean=0.326] [A
+Train step of epoch 0:  19%|█▉        | 883/4533 [2:23:52<9:28:08,  9.34s/it, gpt_loss=0.27, loss_mean=0.326][A2026-01-26 16:11:56.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  19%|█▉        | 883/4533 [2:24:02<9:28:08,  9.34s/it, gpt_loss=0.312, loss_mean=0.325][A
+Train step of epoch 0:  20%|█▉        | 884/4533 [2:24:02<9:27:36,  9.33s/it, gpt_loss=0.312, loss_mean=0.325][A2026-01-26 16:12:06.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  20%|█▉        | 884/4533 [2:24:11<9:27:36,  9.33s/it, gpt_loss=0.312, loss_mean=0.324][A
+Train step of epoch 0:  20%|█▉        | 885/4533 [2:24:11<9:26:02,  9.31s/it, gpt_loss=0.312, loss_mean=0.324][A2026-01-26 16:12:15.583 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  20%|█▉        | 885/4533 [2:24:21<9:26:02,  9.31s/it, gpt_loss=0.317, loss_mean=0.323][A
+Train step of epoch 0:  20%|█▉        | 886/4533 [2:24:21<9:32:04,  9.41s/it, gpt_loss=0.317, loss_mean=0.323][A2026-01-26 16:12:25.278 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  20%|█▉        | 886/4533 [2:24:30<9:32:04,  9.41s/it, gpt_loss=0.303, loss_mean=0.321][A
+Train step of epoch 0:  20%|█▉        | 887/4533 [2:24:30<9:27:20,  9.34s/it, gpt_loss=0.303, loss_mean=0.321][A2026-01-26 16:12:34.475 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  20%|█▉        | 887/4533 [2:24:40<9:27:20,  9.34s/it, gpt_loss=0.349, loss_mean=0.324][A
+Train step of epoch 0:  20%|█▉        | 888/4533 [2:24:40<9:37:51,  9.51s/it, gpt_loss=0.349, loss_mean=0.324][A2026-01-26 16:12:44.395 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  20%|█▉        | 888/4533 [2:24:49<9:37:51,  9.51s/it, gpt_loss=0.407, loss_mean=0.332][A
+Train step of epoch 0:  20%|█▉        | 889/4533 [2:24:49<9:41:54,  9.58s/it, gpt_loss=0.407, loss_mean=0.332][A
+[LID Router Debug] Step: 890
+Batch Size: 14
+Audio Batch Size: 133
+LID Assignments: [1, 4, 2, 1, 6, 1, 1, 3, 1, 2, 5, 9, 9, 5]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-26 16:12:53.965 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  20%|█▉        | 889/4533 [2:24:59<9:41:54,  9.58s/it, gpt_loss=0.346, loss_mean=0.334][A
+Train step of epoch 0:  20%|█▉        | 890/4533 [2:24:59<9:44:54,  9.63s/it, gpt_loss=0.346, loss_mean=0.334][A2026-01-26 16:13:03.603 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  20%|█▉        | 890/4533 [2:25:08<9:44:54,  9.63s/it, gpt_loss=0.282, loss_mean=0.328][A
+Train step of epoch 0:  20%|█▉        | 891/4533 [2:25:08<9:26:46,  9.34s/it, gpt_loss=0.282, loss_mean=0.328][A2026-01-26 16:13:12.558 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  20%|█▉        | 891/4533 [2:25:20<9:26:46,  9.34s/it, gpt_loss=0.358, loss_mean=0.331][A
+Train step of epoch 0:  20%|█▉        | 892/4533 [2:25:20<10:13:01, 10.10s/it, gpt_loss=0.358, loss_mean=0.331][A2026-01-26 16:13:24.391 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  20%|█▉        | 892/4533 [2:25:32<10:13:01, 10.10s/it, gpt_loss=0.379, loss_mean=0.336][A
+Train step of epoch 0:  20%|█▉        | 893/4533 [2:25:32<10:47:13, 10.67s/it, gpt_loss=0.379, loss_mean=0.336][A2026-01-26 16:13:36.373 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  20%|█▉        | 893/4533 [2:25:40<10:47:13, 10.67s/it, gpt_loss=0.277, loss_mean=0.33] [A
+Train step of epoch 0:  20%|█▉        | 894/4533 [2:25:40<10:11:57, 10.09s/it, gpt_loss=0.277, loss_mean=0.33][A2026-01-26 16:13:44.872 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  20%|█▉        | 894/4533 [2:25:52<10:11:57, 10.09s/it, gpt_loss=0.405, loss_mean=0.338][A
+Train step of epoch 0:  20%|█▉        | 895/4533 [2:25:52<10:36:07, 10.49s/it, gpt_loss=0.405, loss_mean=0.338][A2026-01-26 16:13:56.466 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  20%|█▉        | 895/4533 [2:26:01<10:36:07, 10.49s/it, gpt_loss=0.291, loss_mean=0.333][A
+Train step of epoch 0:  20%|█▉        | 896/4533 [2:26:01<10:09:06, 10.05s/it, gpt_loss=0.291, loss_mean=0.333][A2026-01-26 16:14:05.490 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  20%|█▉        | 896/4533 [2:26:10<10:09:06, 10.05s/it, gpt_loss=0.29, loss_mean=0.329] [A
+Train step of epoch 0:  20%|█▉        | 897/4533 [2:26:10<9:51:20,  9.76s/it, gpt_loss=0.29, loss_mean=0.329] [A2026-01-26 16:14:14.456 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  20%|█▉        | 897/4533 [2:26:22<9:51:20,  9.76s/it, gpt_loss=0.401, loss_mean=0.336][A
+Train step of epoch 0:  20%|█▉        | 898/4533 [2:26:22<10:24:34, 10.31s/it, gpt_loss=0.401, loss_mean=0.336][A2026-01-26 16:14:26.184 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  20%|█▉        | 898/4533 [2:26:30<10:24:34, 10.31s/it, gpt_loss=0.306, loss_mean=0.333][A
+Train step of epoch 0:  20%|█▉        | 899/4533 [2:26:30<9:58:16,  9.88s/it, gpt_loss=0.306, loss_mean=0.333] [A
+[LID Router Debug] Step: 900
+Batch Size: 14
+Audio Batch Size: 152
+LID Assignments: [2, 0, 4, 1, 4, 1, 1, 9, 0, 2, 9, 5, 9, 6]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-26 16:14:34.985 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-26 16:14:46,030] [INFO] [logging.py:96:log_dist] [Rank 0] step=900, skipped=0, lr=[1.984150258465681e-05, 1.984150258465681e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 16:14:46,030] [INFO] [timer.py:260:stop] epoch=0/micro_step=900/global_step=900, RunningAvgSamplesPerSec=5.750546697821438, CurrSamplesPerSec=4.807978294267008, MemAllocated=14.58GB, MaxMemAllocated=53.73GB
+
+Train step of epoch 0:  20%|█▉        | 899/4533 [2:26:42<9:58:16,  9.88s/it, gpt_loss=0.457, loss_mean=0.345][A
+Train step of epoch 0:  20%|█▉        | 900/4533 [2:26:42<10:30:41, 10.42s/it, gpt_loss=0.457, loss_mean=0.345][A2026-01-26 16:14:46.767 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  20%|█▉        | 900/4533 [2:26:52<10:30:41, 10.42s/it, gpt_loss=0.355, loss_mean=0.346][A
+Train step of epoch 0:  20%|█▉        | 901/4533 [2:26:52<10:14:29, 10.15s/it, gpt_loss=0.355, loss_mean=0.346][A2026-01-26 16:14:56.204 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  20%|█▉        | 901/4533 [2:27:01<10:14:29, 10.15s/it, gpt_loss=0.328, loss_mean=0.344][A
+Train step of epoch 0:  20%|█▉        | 902/4533 [2:27:01<10:04:22,  9.99s/it, gpt_loss=0.328, loss_mean=0.344][A2026-01-26 16:15:05.788 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  20%|█▉        | 902/4533 [2:27:11<10:04:22,  9.99s/it, gpt_loss=0.375, loss_mean=0.347][A
+Train step of epoch 0:  20%|█▉        | 903/4533 [2:27:11<9:54:26,  9.83s/it, gpt_loss=0.375, loss_mean=0.347] [A2026-01-26 16:15:14.993 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  20%|█▉        | 903/4533 [2:27:20<9:54:26,  9.83s/it, gpt_loss=0.363, loss_mean=0.349][A
+Train step of epoch 0:  20%|█▉        | 904/4533 [2:27:20<9:47:08,  9.71s/it, gpt_loss=0.363, loss_mean=0.349][A2026-01-26 16:15:24.577 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  20%|█▉        | 904/4533 [2:27:29<9:47:08,  9.71s/it, gpt_loss=0.31, loss_mean=0.345] [A
+Train step of epoch 0:  20%|█▉        | 905/4533 [2:27:29<9:28:33,  9.40s/it, gpt_loss=0.31, loss_mean=0.345][A2026-01-26 16:15:33.493 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  20%|█▉        | 905/4533 [2:27:38<9:28:33,  9.40s/it, gpt_loss=0.311, loss_mean=0.342][A
+Train step of epoch 0:  20%|█▉        | 906/4533 [2:27:38<9:23:09,  9.32s/it, gpt_loss=0.311, loss_mean=0.342][A2026-01-26 16:15:42.570 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  20%|█▉        | 906/4533 [2:27:47<9:23:09,  9.32s/it, gpt_loss=0.355, loss_mean=0.343][A
+Train step of epoch 0:  20%|██        | 907/4533 [2:27:47<9:19:28,  9.26s/it, gpt_loss=0.355, loss_mean=0.343][A2026-01-26 16:15:51.409 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  20%|██        | 907/4533 [2:27:56<9:19:28,  9.26s/it, gpt_loss=0.309, loss_mean=0.34] [A
+Train step of epoch 0:  20%|██        | 908/4533 [2:27:56<9:11:30,  9.13s/it, gpt_loss=0.309, loss_mean=0.34][A2026-01-26 16:16:00.561 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  20%|██        | 908/4533 [2:28:08<9:11:30,  9.13s/it, gpt_loss=0.37, loss_mean=0.343][A
+Train step of epoch 0:  20%|██        | 909/4533 [2:28:08<10:01:16,  9.95s/it, gpt_loss=0.37, loss_mean=0.343][A
+[LID Router Debug] Step: 910
+Batch Size: 14
+Audio Batch Size: 145
+LID Assignments: [0, 9, 3, 0, 0, 9, 2, 1, 4, 3, 6, 0, 2, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-26 16:16:12.289 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  20%|██        | 909/4533 [2:28:16<10:01:16,  9.95s/it, gpt_loss=0.337, loss_mean=0.342][A
+Train step of epoch 0:  20%|██        | 910/4533 [2:28:16<9:36:02,  9.54s/it, gpt_loss=0.337, loss_mean=0.342] [A2026-01-26 16:16:20.990 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  20%|██        | 910/4533 [2:28:26<9:36:02,  9.54s/it, gpt_loss=0.311, loss_mean=0.339][A
+Train step of epoch 0:  20%|██        | 911/4533 [2:28:26<9:38:27,  9.58s/it, gpt_loss=0.311, loss_mean=0.339][A2026-01-26 16:16:30.772 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  20%|██        | 911/4533 [2:28:38<9:38:27,  9.58s/it, gpt_loss=0.382, loss_mean=0.343][A
+Train step of epoch 0:  20%|██        | 912/4533 [2:28:38<10:23:18, 10.33s/it, gpt_loss=0.382, loss_mean=0.343][A2026-01-26 16:16:42.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  20%|██        | 912/4533 [2:28:47<10:23:18, 10.33s/it, gpt_loss=0.273, loss_mean=0.336][A
+Train step of epoch 0:  20%|██        | 913/4533 [2:28:47<9:51:31,  9.80s/it, gpt_loss=0.273, loss_mean=0.336] [A2026-01-26 16:16:51.169 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  20%|██        | 913/4533 [2:28:55<9:51:31,  9.80s/it, gpt_loss=0.326, loss_mean=0.335][A
+Train step of epoch 0:  20%|██        | 914/4533 [2:28:55<9:32:57,  9.50s/it, gpt_loss=0.326, loss_mean=0.335][A2026-01-26 16:17:00.077 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  20%|██        | 914/4533 [2:29:05<9:32:57,  9.50s/it, gpt_loss=0.328, loss_mean=0.334][A
+Train step of epoch 0:  20%|██        | 915/4533 [2:29:05<9:28:34,  9.43s/it, gpt_loss=0.328, loss_mean=0.334][A2026-01-26 16:17:09.259 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  20%|██        | 915/4533 [2:29:14<9:28:34,  9.43s/it, gpt_loss=0.358, loss_mean=0.337][A
+Train step of epoch 0:  20%|██        | 916/4533 [2:29:14<9:33:10,  9.51s/it, gpt_loss=0.358, loss_mean=0.337][A2026-01-26 16:17:19.068 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  20%|██        | 916/4533 [2:29:24<9:33:10,  9.51s/it, gpt_loss=0.326, loss_mean=0.336][A
+Train step of epoch 0:  20%|██        | 917/4533 [2:29:24<9:40:46,  9.64s/it, gpt_loss=0.326, loss_mean=0.336][A2026-01-26 16:17:28.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  20%|██        | 917/4533 [2:29:33<9:40:46,  9.64s/it, gpt_loss=0.284, loss_mean=0.331][A
+Train step of epoch 0:  20%|██        | 918/4533 [2:29:33<9:28:43,  9.44s/it, gpt_loss=0.284, loss_mean=0.331][A2026-01-26 16:17:37.789 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  20%|██        | 918/4533 [2:29:42<9:28:43,  9.44s/it, gpt_loss=0.287, loss_mean=0.326][A
+Train step of epoch 0:  20%|██        | 919/4533 [2:29:42<9:14:13,  9.20s/it, gpt_loss=0.287, loss_mean=0.326][A
+[LID Router Debug] Step: 920
+Batch Size: 14
+Audio Batch Size: 145
+LID Assignments: [5, 1, 9, 0, 0, 0, 9, 1, 2, 3, 0, 5, 0, 5]
+Active Experts in Batch: {0, 1, 2, 3, 5, 9}
+2026-01-26 16:17:46.502 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  20%|██        | 919/4533 [2:29:54<9:14:13,  9.20s/it, gpt_loss=0.51, loss_mean=0.345] [A
+Train step of epoch 0:  20%|██        | 920/4533 [2:29:54<10:06:16, 10.07s/it, gpt_loss=0.51, loss_mean=0.345][A2026-01-26 16:17:58.586 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  20%|██        | 920/4533 [2:30:03<10:06:16, 10.07s/it, gpt_loss=0.273, loss_mean=0.337][A
+Train step of epoch 0:  20%|██        | 921/4533 [2:30:03<9:40:23,  9.64s/it, gpt_loss=0.273, loss_mean=0.337] [A2026-01-26 16:18:07.395 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  20%|██        | 921/4533 [2:30:15<9:40:23,  9.64s/it, gpt_loss=0.441, loss_mean=0.348][A
+Train step of epoch 0:  20%|██        | 922/4533 [2:30:15<10:22:19, 10.34s/it, gpt_loss=0.441, loss_mean=0.348][A2026-01-26 16:18:19.387 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  20%|██        | 922/4533 [2:30:24<10:22:19, 10.34s/it, gpt_loss=0.372, loss_mean=0.35] [A
+Train step of epoch 0:  20%|██        | 923/4533 [2:30:24<10:10:18, 10.14s/it, gpt_loss=0.372, loss_mean=0.35][A2026-01-26 16:18:28.887 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  20%|██        | 923/4533 [2:30:33<10:10:18, 10.14s/it, gpt_loss=0.301, loss_mean=0.345][A
+Train step of epoch 0:  20%|██        | 924/4533 [2:30:33<9:45:46,  9.74s/it, gpt_loss=0.301, loss_mean=0.345] [A2026-01-26 16:18:37.657 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  20%|██        | 924/4533 [2:30:43<9:45:46,  9.74s/it, gpt_loss=0.326, loss_mean=0.343][A
+Train step of epoch 0:  20%|██        | 925/4533 [2:30:43<9:44:36,  9.72s/it, gpt_loss=0.326, loss_mean=0.343][A2026-01-26 16:18:47.497 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  20%|██        | 925/4533 [2:30:53<9:44:36,  9.72s/it, gpt_loss=0.395, loss_mean=0.348][A
+Train step of epoch 0:  20%|██        | 926/4533 [2:30:53<9:49:06,  9.80s/it, gpt_loss=0.395, loss_mean=0.348][A2026-01-26 16:18:57.264 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  20%|██        | 926/4533 [2:31:02<9:49:06,  9.80s/it, gpt_loss=0.35, loss_mean=0.349] [A
+Train step of epoch 0:  20%|██        | 927/4533 [2:31:02<9:30:38,  9.49s/it, gpt_loss=0.35, loss_mean=0.349][A2026-01-26 16:19:06.284 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  20%|██        | 927/4533 [2:31:14<9:30:38,  9.49s/it, gpt_loss=0.436, loss_mean=0.357][A
+Train step of epoch 0:  20%|██        | 928/4533 [2:31:14<10:14:56, 10.23s/it, gpt_loss=0.436, loss_mean=0.357][A2026-01-26 16:19:18.072 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  20%|██        | 928/4533 [2:31:25<10:14:56, 10.23s/it, gpt_loss=0.444, loss_mean=0.366][A
+Train step of epoch 0:  20%|██        | 929/4533 [2:31:25<10:41:20, 10.68s/it, gpt_loss=0.444, loss_mean=0.366][A
+[LID Router Debug] Step: 930
+Batch Size: 14
+Audio Batch Size: 138
+LID Assignments: [3, 4, 4, 3, 4, 9, 9, 5, 1, 2, 1, 5, 5, 6]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-26 16:19:29.978 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  20%|██        | 929/4533 [2:31:35<10:41:20, 10.68s/it, gpt_loss=0.263, loss_mean=0.356][A
+Train step of epoch 0:  21%|██        | 930/4533 [2:31:35<10:15:28, 10.25s/it, gpt_loss=0.263, loss_mean=0.356][A2026-01-26 16:19:39.070 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  21%|██        | 930/4533 [2:31:43<10:15:28, 10.25s/it, gpt_loss=0.296, loss_mean=0.35] [A
+Train step of epoch 0:  21%|██        | 931/4533 [2:31:43<9:47:43,  9.79s/it, gpt_loss=0.296, loss_mean=0.35] [A2026-01-26 16:19:47.497 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  21%|██        | 931/4533 [2:31:52<9:47:43,  9.79s/it, gpt_loss=0.345, loss_mean=0.349][A
+Train step of epoch 0:  21%|██        | 932/4533 [2:31:52<9:37:41,  9.63s/it, gpt_loss=0.345, loss_mean=0.349][A2026-01-26 16:19:57.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  21%|██        | 932/4533 [2:32:01<9:37:41,  9.63s/it, gpt_loss=0.33, loss_mean=0.347] [A
+Train step of epoch 0:  21%|██        | 933/4533 [2:32:01<9:21:16,  9.35s/it, gpt_loss=0.33, loss_mean=0.347][A2026-01-26 16:20:05.588 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  21%|██        | 933/4533 [2:32:13<9:21:16,  9.35s/it, gpt_loss=0.468, loss_mean=0.359][A
+Train step of epoch 0:  21%|██        | 934/4533 [2:32:13<10:03:54, 10.07s/it, gpt_loss=0.468, loss_mean=0.359][A2026-01-26 16:20:17.565 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  21%|██        | 934/4533 [2:32:22<10:03:54, 10.07s/it, gpt_loss=0.275, loss_mean=0.351][A
+Train step of epoch 0:  21%|██        | 935/4533 [2:32:22<9:45:05,  9.76s/it, gpt_loss=0.275, loss_mean=0.351] [A2026-01-26 16:20:26.385 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  21%|██        | 935/4533 [2:32:34<9:45:05,  9.76s/it, gpt_loss=0.376, loss_mean=0.353][A
+Train step of epoch 0:  21%|██        | 936/4533 [2:32:34<10:29:04, 10.49s/it, gpt_loss=0.376, loss_mean=0.353][A2026-01-26 16:20:38.490 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  21%|██        | 936/4533 [2:32:44<10:29:04, 10.49s/it, gpt_loss=0.293, loss_mean=0.347][A
+Train step of epoch 0:  21%|██        | 937/4533 [2:32:44<10:09:14, 10.17s/it, gpt_loss=0.293, loss_mean=0.347][A2026-01-26 16:20:48.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  21%|██        | 937/4533 [2:32:56<10:09:14, 10.17s/it, gpt_loss=0.457, loss_mean=0.358][A
+Train step of epoch 0:  21%|██        | 938/4533 [2:32:56<10:45:23, 10.77s/it, gpt_loss=0.457, loss_mean=0.358][A2026-01-26 16:21:00.466 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  21%|██        | 938/4533 [2:33:08<10:45:23, 10.77s/it, gpt_loss=0.432, loss_mean=0.366][A
+Train step of epoch 0:  21%|██        | 939/4533 [2:33:08<11:05:26, 11.11s/it, gpt_loss=0.432, loss_mean=0.366][A
+[LID Router Debug] Step: 940
+Batch Size: 14
+Audio Batch Size: 165
+LID Assignments: [3, 9, 5, 3, 2, 0, 0, 1, 5, 9, 6, 6, 4, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 16:21:12.384 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  21%|██        | 939/4533 [2:33:17<11:05:26, 11.11s/it, gpt_loss=0.289, loss_mean=0.358][A
+Train step of epoch 0:  21%|██        | 940/4533 [2:33:17<10:25:58, 10.45s/it, gpt_loss=0.289, loss_mean=0.358][A2026-01-26 16:21:21.280 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  21%|██        | 940/4533 [2:33:26<10:25:58, 10.45s/it, gpt_loss=0.293, loss_mean=0.351][A
+Train step of epoch 0:  21%|██        | 941/4533 [2:33:26<10:03:13, 10.08s/it, gpt_loss=0.293, loss_mean=0.351][A2026-01-26 16:21:30.289 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  21%|██        | 941/4533 [2:33:35<10:03:13, 10.08s/it, gpt_loss=0.44, loss_mean=0.36]  [A
+Train step of epoch 0:  21%|██        | 942/4533 [2:33:35<9:54:35,  9.93s/it, gpt_loss=0.44, loss_mean=0.36] [A2026-01-26 16:21:39.755 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  21%|██        | 942/4533 [2:33:44<9:54:35,  9.93s/it, gpt_loss=0.293, loss_mean=0.354][A
+Train step of epoch 0:  21%|██        | 943/4533 [2:33:44<9:32:59,  9.58s/it, gpt_loss=0.293, loss_mean=0.354][A2026-01-26 16:21:48.776 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  21%|██        | 943/4533 [2:33:53<9:32:59,  9.58s/it, gpt_loss=0.341, loss_mean=0.352][A
+Train step of epoch 0:  21%|██        | 944/4533 [2:33:53<9:21:10,  9.38s/it, gpt_loss=0.341, loss_mean=0.352][A2026-01-26 16:21:57.457 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  21%|██        | 944/4533 [2:34:02<9:21:10,  9.38s/it, gpt_loss=0.279, loss_mean=0.345][A
+Train step of epoch 0:  21%|██        | 945/4533 [2:34:02<9:17:18,  9.32s/it, gpt_loss=0.279, loss_mean=0.345][A2026-01-26 16:22:06.783 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  21%|██        | 945/4533 [2:34:14<9:17:18,  9.32s/it, gpt_loss=0.478, loss_mean=0.358][A
+Train step of epoch 0:  21%|██        | 946/4533 [2:34:14<9:59:51, 10.03s/it, gpt_loss=0.478, loss_mean=0.358][A2026-01-26 16:22:18.656 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  21%|██        | 946/4533 [2:34:24<9:59:51, 10.03s/it, gpt_loss=0.44, loss_mean=0.367] [A
+Train step of epoch 0:  21%|██        | 947/4533 [2:34:24<9:55:58,  9.97s/it, gpt_loss=0.44, loss_mean=0.367][A2026-01-26 16:22:28.152 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  21%|██        | 947/4533 [2:34:32<9:55:58,  9.97s/it, gpt_loss=0.381, loss_mean=0.368][A
+Train step of epoch 0:  21%|██        | 948/4533 [2:34:32<9:31:00,  9.56s/it, gpt_loss=0.381, loss_mean=0.368][A2026-01-26 16:22:36.997 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  21%|██        | 948/4533 [2:34:42<9:31:00,  9.56s/it, gpt_loss=0.328, loss_mean=0.364][A
+Train step of epoch 0:  21%|██        | 949/4533 [2:34:42<9:24:55,  9.46s/it, gpt_loss=0.328, loss_mean=0.364][A
+[LID Router Debug] Step: 950
+Batch Size: 14
+Audio Batch Size: 163
+LID Assignments: [1, 9, 9, 0, 1, 9, 0, 3, 2, 1, 3, 1, 5, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 16:22:46.081 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  21%|██        | 949/4533 [2:34:50<9:24:55,  9.46s/it, gpt_loss=0.275, loss_mean=0.355][A
+Train step of epoch 0:  21%|██        | 950/4533 [2:34:50<9:11:02,  9.23s/it, gpt_loss=0.275, loss_mean=0.355][A2026-01-26 16:22:54.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  21%|██        | 950/4533 [2:34:59<9:11:02,  9.23s/it, gpt_loss=0.371, loss_mean=0.357][A
+Train step of epoch 0:  21%|██        | 951/4533 [2:34:59<8:58:57,  9.03s/it, gpt_loss=0.371, loss_mean=0.357][A2026-01-26 16:23:03.571 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  21%|██        | 951/4533 [2:35:08<8:58:57,  9.03s/it, gpt_loss=0.282, loss_mean=0.349][A
+Train step of epoch 0:  21%|██        | 952/4533 [2:35:08<9:00:57,  9.06s/it, gpt_loss=0.282, loss_mean=0.349][A2026-01-26 16:23:12.661 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  21%|██        | 952/4533 [2:35:18<9:00:57,  9.06s/it, gpt_loss=0.353, loss_mean=0.349][A
+Train step of epoch 0:  21%|██        | 953/4533 [2:35:18<9:11:20,  9.24s/it, gpt_loss=0.353, loss_mean=0.349][A2026-01-26 16:23:21.969 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  21%|██        | 953/4533 [2:35:26<9:11:20,  9.24s/it, gpt_loss=0.28, loss_mean=0.343] [A
+Train step of epoch 0:  21%|██        | 954/4533 [2:35:26<8:57:24,  9.01s/it, gpt_loss=0.28, loss_mean=0.343][A2026-01-26 16:23:30.482 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  21%|██        | 954/4533 [2:35:36<8:57:24,  9.01s/it, gpt_loss=0.454, loss_mean=0.354][A
+Train step of epoch 0:  21%|██        | 955/4533 [2:35:36<9:04:31,  9.13s/it, gpt_loss=0.454, loss_mean=0.354][A2026-01-26 16:23:39.993 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  21%|██        | 955/4533 [2:35:47<9:04:31,  9.13s/it, gpt_loss=0.419, loss_mean=0.36] [A
+Train step of epoch 0:  21%|██        | 956/4533 [2:35:47<9:52:07,  9.93s/it, gpt_loss=0.419, loss_mean=0.36][A2026-01-26 16:23:51.572 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  21%|██        | 956/4533 [2:35:56<9:52:07,  9.93s/it, gpt_loss=0.333, loss_mean=0.358][A
+Train step of epoch 0:  21%|██        | 957/4533 [2:35:56<9:30:16,  9.57s/it, gpt_loss=0.333, loss_mean=0.358][A2026-01-26 16:24:00.689 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  21%|██        | 957/4533 [2:36:05<9:30:16,  9.57s/it, gpt_loss=0.341, loss_mean=0.356][A
+Train step of epoch 0:  21%|██        | 958/4533 [2:36:05<9:23:24,  9.46s/it, gpt_loss=0.341, loss_mean=0.356][A2026-01-26 16:24:09.366 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  21%|██        | 958/4533 [2:36:14<9:23:24,  9.46s/it, gpt_loss=0.339, loss_mean=0.354][A
+Train step of epoch 0:  21%|██        | 959/4533 [2:36:14<9:04:05,  9.13s/it, gpt_loss=0.339, loss_mean=0.354][A
+[LID Router Debug] Step: 960
+Batch Size: 14
+Audio Batch Size: 167
+LID Assignments: [3, 1, 5, 6, 5, 3, 0, 5, 3, 3, 2, 5, 1, 2]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6}
+2026-01-26 16:24:18.310 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  21%|██        | 959/4533 [2:36:23<9:04:05,  9.13s/it, gpt_loss=0.354, loss_mean=0.354][A
+Train step of epoch 0:  21%|██        | 960/4533 [2:36:23<9:15:48,  9.33s/it, gpt_loss=0.354, loss_mean=0.354][A2026-01-26 16:24:27.997 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  21%|██        | 960/4533 [2:36:32<9:15:48,  9.33s/it, gpt_loss=0.412, loss_mean=0.36] [A
+Train step of epoch 0:  21%|██        | 961/4533 [2:36:32<9:10:29,  9.25s/it, gpt_loss=0.412, loss_mean=0.36][A2026-01-26 16:24:36.677 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  21%|██        | 961/4533 [2:36:42<9:10:29,  9.25s/it, gpt_loss=0.327, loss_mean=0.357][A
+Train step of epoch 0:  21%|██        | 962/4533 [2:36:42<9:13:53,  9.31s/it, gpt_loss=0.327, loss_mean=0.357][A2026-01-26 16:24:46.587 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  21%|██        | 962/4533 [2:36:51<9:13:53,  9.31s/it, gpt_loss=0.323, loss_mean=0.353][A
+Train step of epoch 0:  21%|██        | 963/4533 [2:36:51<9:10:49,  9.26s/it, gpt_loss=0.323, loss_mean=0.353][A2026-01-26 16:24:55.697 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  21%|██        | 963/4533 [2:37:03<9:10:49,  9.26s/it, gpt_loss=0.411, loss_mean=0.359][A
+Train step of epoch 0:  21%|██▏       | 964/4533 [2:37:03<10:02:07, 10.12s/it, gpt_loss=0.411, loss_mean=0.359][A2026-01-26 16:25:07.892 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  21%|██▏       | 964/4533 [2:37:12<10:02:07, 10.12s/it, gpt_loss=0.317, loss_mean=0.355][A
+Train step of epoch 0:  21%|██▏       | 965/4533 [2:37:12<9:45:53,  9.85s/it, gpt_loss=0.317, loss_mean=0.355] [A2026-01-26 16:25:17.069 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  21%|██▏       | 965/4533 [2:37:25<9:45:53,  9.85s/it, gpt_loss=0.485, loss_mean=0.368][A
+Train step of epoch 0:  21%|██▏       | 966/4533 [2:37:25<10:25:47, 10.53s/it, gpt_loss=0.485, loss_mean=0.368][A2026-01-26 16:25:29.192 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  21%|██▏       | 966/4533 [2:37:34<10:25:47, 10.53s/it, gpt_loss=0.355, loss_mean=0.367][A
+Train step of epoch 0:  21%|██▏       | 967/4533 [2:37:34<10:08:41, 10.24s/it, gpt_loss=0.355, loss_mean=0.367][A2026-01-26 16:25:38.759 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  21%|██▏       | 967/4533 [2:37:43<10:08:41, 10.24s/it, gpt_loss=0.32, loss_mean=0.362] [A
+Train step of epoch 0:  21%|██▏       | 968/4533 [2:37:43<9:44:53,  9.84s/it, gpt_loss=0.32, loss_mean=0.362] [A2026-01-26 16:25:47.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  21%|██▏       | 968/4533 [2:37:52<9:44:53,  9.84s/it, gpt_loss=0.29, loss_mean=0.355][A
+Train step of epoch 0:  21%|██▏       | 969/4533 [2:37:52<9:34:34,  9.67s/it, gpt_loss=0.29, loss_mean=0.355][A
+[LID Router Debug] Step: 970
+Batch Size: 14
+Audio Batch Size: 131
+LID Assignments: [3, 5, 4, 4, 9, 4, 1, 9, 0, 4, 6, 3, 5, 9]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6, 9}
+2026-01-26 16:25:56.792 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  21%|██▏       | 969/4533 [2:38:04<9:34:34,  9.67s/it, gpt_loss=0.482, loss_mean=0.367][A
+Train step of epoch 0:  21%|██▏       | 970/4533 [2:38:04<10:11:47, 10.30s/it, gpt_loss=0.482, loss_mean=0.367][A2026-01-26 16:26:08.664 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  21%|██▏       | 970/4533 [2:38:13<10:11:47, 10.30s/it, gpt_loss=0.264, loss_mean=0.357][A
+Train step of epoch 0:  21%|██▏       | 971/4533 [2:38:13<9:42:02,  9.80s/it, gpt_loss=0.264, loss_mean=0.357] [A2026-01-26 16:26:17.275 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  21%|██▏       | 971/4533 [2:38:22<9:42:02,  9.80s/it, gpt_loss=0.29, loss_mean=0.35]  [A
+Train step of epoch 0:  21%|██▏       | 972/4533 [2:38:22<9:40:45,  9.79s/it, gpt_loss=0.29, loss_mean=0.35][A2026-01-26 16:26:26.983 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  21%|██▏       | 972/4533 [2:38:32<9:40:45,  9.79s/it, gpt_loss=0.351, loss_mean=0.35][A
+Train step of epoch 0:  21%|██▏       | 973/4533 [2:38:32<9:37:01,  9.73s/it, gpt_loss=0.351, loss_mean=0.35][A2026-01-26 16:26:36.201 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  21%|██▏       | 973/4533 [2:38:41<9:37:01,  9.73s/it, gpt_loss=0.243, loss_mean=0.34][A
+Train step of epoch 0:  21%|██▏       | 974/4533 [2:38:41<9:14:43,  9.35s/it, gpt_loss=0.243, loss_mean=0.34][A2026-01-26 16:26:45.197 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  21%|██▏       | 974/4533 [2:38:50<9:14:43,  9.35s/it, gpt_loss=0.307, loss_mean=0.336][A
+Train step of epoch 0:  22%|██▏       | 975/4533 [2:38:50<9:15:45,  9.37s/it, gpt_loss=0.307, loss_mean=0.336][A2026-01-26 16:26:54.497 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  22%|██▏       | 975/4533 [2:39:00<9:15:45,  9.37s/it, gpt_loss=0.382, loss_mean=0.341][A
+Train step of epoch 0:  22%|██▏       | 976/4533 [2:39:00<9:20:17,  9.45s/it, gpt_loss=0.382, loss_mean=0.341][A2026-01-26 16:27:04.276 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  22%|██▏       | 976/4533 [2:39:09<9:20:17,  9.45s/it, gpt_loss=0.282, loss_mean=0.335][A
+Train step of epoch 0:  22%|██▏       | 977/4533 [2:39:09<9:24:47,  9.53s/it, gpt_loss=0.282, loss_mean=0.335][A2026-01-26 16:27:13.779 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  22%|██▏       | 977/4533 [2:39:21<9:24:47,  9.53s/it, gpt_loss=0.446, loss_mean=0.346][A
+Train step of epoch 0:  22%|██▏       | 978/4533 [2:39:21<10:07:43, 10.26s/it, gpt_loss=0.446, loss_mean=0.346][A2026-01-26 16:27:25.655 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  22%|██▏       | 978/4533 [2:39:31<10:07:43, 10.26s/it, gpt_loss=0.292, loss_mean=0.341][A
+Train step of epoch 0:  22%|██▏       | 979/4533 [2:39:31<9:56:52, 10.08s/it, gpt_loss=0.292, loss_mean=0.341] [A
+[LID Router Debug] Step: 980
+Batch Size: 14
+Audio Batch Size: 167
+LID Assignments: [2, 0, 9, 6, 3, 9, 3, 0, 0, 0, 5, 0, 0, 0]
+Active Experts in Batch: {0, 2, 3, 5, 6, 9}
+2026-01-26 16:27:35.289 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  22%|██▏       | 979/4533 [2:39:40<9:56:52, 10.08s/it, gpt_loss=0.255, loss_mean=0.332][A
+Train step of epoch 0:  22%|██▏       | 980/4533 [2:39:40<9:42:12,  9.83s/it, gpt_loss=0.255, loss_mean=0.332][A2026-01-26 16:27:44.856 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  22%|██▏       | 980/4533 [2:39:49<9:42:12,  9.83s/it, gpt_loss=0.248, loss_mean=0.324][A
+Train step of epoch 0:  22%|██▏       | 981/4533 [2:39:49<9:29:36,  9.62s/it, gpt_loss=0.248, loss_mean=0.324][A2026-01-26 16:27:53.953 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  22%|██▏       | 981/4533 [2:39:58<9:29:36,  9.62s/it, gpt_loss=0.333, loss_mean=0.325][A
+Train step of epoch 0:  22%|██▏       | 982/4533 [2:39:58<9:13:14,  9.35s/it, gpt_loss=0.333, loss_mean=0.325][A2026-01-26 16:28:02.209 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  22%|██▏       | 982/4533 [2:40:09<9:13:14,  9.35s/it, gpt_loss=0.345, loss_mean=0.327][A
+Train step of epoch 0:  22%|██▏       | 983/4533 [2:40:09<9:47:20,  9.93s/it, gpt_loss=0.345, loss_mean=0.327][A2026-01-26 16:28:13.969 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  22%|██▏       | 983/4533 [2:40:19<9:47:20,  9.93s/it, gpt_loss=0.325, loss_mean=0.327][A
+Train step of epoch 0:  22%|██▏       | 984/4533 [2:40:19<9:44:06,  9.88s/it, gpt_loss=0.325, loss_mean=0.327][A2026-01-26 16:28:23.767 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  22%|██▏       | 984/4533 [2:40:29<9:44:06,  9.88s/it, gpt_loss=0.294, loss_mean=0.323][A
+Train step of epoch 0:  22%|██▏       | 985/4533 [2:40:29<9:43:55,  9.87s/it, gpt_loss=0.294, loss_mean=0.323][A2026-01-26 16:28:33.388 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  22%|██▏       | 985/4533 [2:40:38<9:43:55,  9.87s/it, gpt_loss=0.245, loss_mean=0.316][A
+Train step of epoch 0:  22%|██▏       | 986/4533 [2:40:38<9:23:23,  9.53s/it, gpt_loss=0.245, loss_mean=0.316][A2026-01-26 16:28:42.177 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  22%|██▏       | 986/4533 [2:40:46<9:23:23,  9.53s/it, gpt_loss=0.327, loss_mean=0.317][A
+Train step of epoch 0:  22%|██▏       | 987/4533 [2:40:46<9:10:30,  9.31s/it, gpt_loss=0.327, loss_mean=0.317][A2026-01-26 16:28:50.995 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  22%|██▏       | 987/4533 [2:40:56<9:10:30,  9.31s/it, gpt_loss=0.363, loss_mean=0.321][A
+Train step of epoch 0:  22%|██▏       | 988/4533 [2:40:56<9:14:48,  9.39s/it, gpt_loss=0.363, loss_mean=0.321][A2026-01-26 16:29:00.572 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  22%|██▏       | 988/4533 [2:41:05<9:14:48,  9.39s/it, gpt_loss=0.294, loss_mean=0.318][A
+Train step of epoch 0:  22%|██▏       | 989/4533 [2:41:05<9:04:20,  9.22s/it, gpt_loss=0.294, loss_mean=0.318][A
+[LID Router Debug] Step: 990
+Batch Size: 14
+Audio Batch Size: 154
+LID Assignments: [4, 5, 6, 1, 9, 3, 9, 1, 5, 2, 2, 4, 9, 2]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-26 16:29:09.494 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  22%|██▏       | 989/4533 [2:41:14<9:04:20,  9.22s/it, gpt_loss=0.358, loss_mean=0.322][A
+Train step of epoch 0:  22%|██▏       | 990/4533 [2:41:14<9:11:11,  9.33s/it, gpt_loss=0.358, loss_mean=0.322][A2026-01-26 16:29:18.879 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  22%|██▏       | 990/4533 [2:41:23<9:11:11,  9.33s/it, gpt_loss=0.308, loss_mean=0.321][A
+Train step of epoch 0:  22%|██▏       | 991/4533 [2:41:23<9:02:13,  9.19s/it, gpt_loss=0.308, loss_mean=0.321][A2026-01-26 16:29:27.876 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  22%|██▏       | 991/4533 [2:41:32<9:02:13,  9.19s/it, gpt_loss=0.257, loss_mean=0.315][A
+Train step of epoch 0:  22%|██▏       | 992/4533 [2:41:32<9:02:48,  9.20s/it, gpt_loss=0.257, loss_mean=0.315][A2026-01-26 16:29:36.682 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  22%|██▏       | 992/4533 [2:41:41<9:02:48,  9.20s/it, gpt_loss=0.29, loss_mean=0.312] [A
+Train step of epoch 0:  22%|██▏       | 993/4533 [2:41:41<8:56:54,  9.10s/it, gpt_loss=0.29, loss_mean=0.312][A2026-01-26 16:29:45.902 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  22%|██▏       | 993/4533 [2:41:50<8:56:54,  9.10s/it, gpt_loss=0.292, loss_mean=0.31][A
+Train step of epoch 0:  22%|██▏       | 994/4533 [2:41:50<8:56:32,  9.10s/it, gpt_loss=0.292, loss_mean=0.31][A2026-01-26 16:29:55.066 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  22%|██▏       | 994/4533 [2:42:00<8:56:32,  9.10s/it, gpt_loss=0.309, loss_mean=0.31][A
+Train step of epoch 0:  22%|██▏       | 995/4533 [2:42:00<9:06:23,  9.27s/it, gpt_loss=0.309, loss_mean=0.31][A2026-01-26 16:30:04.486 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  22%|██▏       | 995/4533 [2:42:09<9:06:23,  9.27s/it, gpt_loss=0.29, loss_mean=0.308][A
+Train step of epoch 0:  22%|██▏       | 996/4533 [2:42:09<9:00:57,  9.18s/it, gpt_loss=0.29, loss_mean=0.308][A2026-01-26 16:30:13.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  22%|██▏       | 996/4533 [2:42:18<9:00:57,  9.18s/it, gpt_loss=0.364, loss_mean=0.314][A
+Train step of epoch 0:  22%|██▏       | 997/4533 [2:42:18<8:57:23,  9.12s/it, gpt_loss=0.364, loss_mean=0.314][A2026-01-26 16:30:22.760 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  22%|██▏       | 997/4533 [2:42:27<8:57:23,  9.12s/it, gpt_loss=0.364, loss_mean=0.319][A
+Train step of epoch 0:  22%|██▏       | 998/4533 [2:42:27<9:02:34,  9.21s/it, gpt_loss=0.364, loss_mean=0.319][A2026-01-26 16:30:31.588 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  22%|██▏       | 998/4533 [2:42:37<9:02:34,  9.21s/it, gpt_loss=0.356, loss_mean=0.322][A
+Train step of epoch 0:  22%|██▏       | 999/4533 [2:42:37<9:03:14,  9.22s/it, gpt_loss=0.356, loss_mean=0.322][A
+[LID Router Debug] Step: 1000
+Batch Size: 14
+Audio Batch Size: 134
+LID Assignments: [1, 1, 4, 2, 1, 0, 6, 1, 2, 9, 3, 0, 1, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-26 16:30:41.369 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-26 16:30:52,728] [INFO] [logging.py:96:log_dist] [Rank 0] step=1000, skipped=0, lr=[1.9797445484374105e-05, 1.9797445484374105e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 16:30:52,729] [INFO] [timer.py:260:stop] epoch=0/micro_step=1000/global_step=1000, RunningAvgSamplesPerSec=5.7559155872550924, CurrSamplesPerSec=4.640716753681043, MemAllocated=14.56GB, MaxMemAllocated=53.73GB
+
+Train step of epoch 0:  22%|██▏       | 999/4533 [2:42:49<9:03:14,  9.22s/it, gpt_loss=0.466, loss_mean=0.337][A[2026-01-26 16:30:52,734] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step1000 is about to be saved!
+/usr/local/lib/python3.10/dist-packages/torch/nn/modules/module.py:1898: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
+  warnings.warn(
+/usr/local/lib/python3.10/dist-packages/torch/nn/modules/module.py:1898: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
+  warnings.warn(
+/usr/local/lib/python3.10/dist-packages/torch/nn/modules/module.py:1898: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
+  warnings.warn(
+/usr/local/lib/python3.10/dist-packages/torch/nn/modules/module.py:1898: UserWarning: Positional args are being deprecated, use kwargs instead. Refer to https://pytorch.org/docs/master/generated/torch.nn.Module.html#torch.nn.Module.state_dict for details.
+  warnings.warn(
+[2026-01-26 16:30:54,814] [INFO] [logging.py:96:log_dist] [Rank 0] Saving model checkpoint: /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step1000/mp_rank_00_model_states.pt
+[2026-01-26 16:30:54,814] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step1000/mp_rank_00_model_states.pt...
+[2026-01-26 16:31:01,444] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step1000/mp_rank_00_model_states.pt.
+[2026-01-26 16:31:01,451] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step1000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt...
+[2026-01-26 16:31:01,451] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step1000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt...
+[2026-01-26 16:31:01,451] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step1000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt...
+[2026-01-26 16:31:01,451] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step1000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt...
+[2026-01-26 16:31:02,320] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step1000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt.
+[2026-01-26 16:31:02,320] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step1000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
+[2026-01-26 16:31:02,320] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step1000 is ready now!
+[2026-01-26 16:31:02,519] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step1000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt.
+[2026-01-26 16:31:02,519] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step1000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
+[2026-01-26 16:31:02,519] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step1000 is ready now!
+[2026-01-26 16:31:02,551] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step1000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt.
+[2026-01-26 16:31:02,552] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step1000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt.
+[2026-01-26 16:31:02,553] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step1000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
+[2026-01-26 16:31:02,553] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step1000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
+[2026-01-26 16:31:02,553] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step1000 is ready now!
+[2026-01-26 16:31:02,553] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step1000 is ready now!
+
+Train step of epoch 0:  22%|██▏       | 1000/4533 [2:42:59<12:47:10, 13.03s/it, gpt_loss=0.466, loss_mean=0.337][A2026-01-26 16:31:03.300 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  22%|██▏       | 1000/4533 [2:43:07<12:47:10, 13.03s/it, gpt_loss=0.356, loss_mean=0.339][A
+Train step of epoch 0:  22%|██▏       | 1001/4533 [2:43:07<11:32:40, 11.77s/it, gpt_loss=0.356, loss_mean=0.339][A2026-01-26 16:31:11.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  22%|██▏       | 1001/4533 [2:43:17<11:32:40, 11.77s/it, gpt_loss=0.387, loss_mean=0.344][A
+Train step of epoch 0:  22%|██▏       | 1002/4533 [2:43:17<10:52:50, 11.09s/it, gpt_loss=0.387, loss_mean=0.344][A2026-01-26 16:31:21.351 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  22%|██▏       | 1002/4533 [2:43:26<10:52:50, 11.09s/it, gpt_loss=0.337, loss_mean=0.343][A
+Train step of epoch 0:  22%|██▏       | 1003/4533 [2:43:26<10:09:24, 10.36s/it, gpt_loss=0.337, loss_mean=0.343][A2026-01-26 16:31:30.265 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  22%|██▏       | 1003/4533 [2:43:34<10:09:24, 10.36s/it, gpt_loss=0.337, loss_mean=0.342][A
+Train step of epoch 0:  22%|██▏       | 1004/4533 [2:43:34<9:41:51,  9.89s/it, gpt_loss=0.337, loss_mean=0.342] [A2026-01-26 16:31:38.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  22%|██▏       | 1004/4533 [2:43:44<9:41:51,  9.89s/it, gpt_loss=0.365, loss_mean=0.345][A
+Train step of epoch 0:  22%|██▏       | 1005/4533 [2:43:44<9:38:37,  9.84s/it, gpt_loss=0.365, loss_mean=0.345][A2026-01-26 16:31:48.869 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  22%|██▏       | 1005/4533 [2:43:54<9:38:37,  9.84s/it, gpt_loss=0.469, loss_mean=0.357][A
+Train step of epoch 0:  22%|██▏       | 1006/4533 [2:43:54<9:36:23,  9.81s/it, gpt_loss=0.469, loss_mean=0.357][A2026-01-26 16:31:58.473 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  22%|██▏       | 1006/4533 [2:44:03<9:36:23,  9.81s/it, gpt_loss=0.316, loss_mean=0.353][A
+Train step of epoch 0:  22%|██▏       | 1007/4533 [2:44:03<9:18:22,  9.50s/it, gpt_loss=0.316, loss_mean=0.353][A2026-01-26 16:32:07.287 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  22%|██▏       | 1007/4533 [2:44:12<9:18:22,  9.50s/it, gpt_loss=0.366, loss_mean=0.354][A
+Train step of epoch 0:  22%|██▏       | 1008/4533 [2:44:12<9:22:20,  9.57s/it, gpt_loss=0.366, loss_mean=0.354][A2026-01-26 16:32:16.700 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  22%|██▏       | 1008/4533 [2:44:22<9:22:20,  9.57s/it, gpt_loss=0.349, loss_mean=0.354][A
+Train step of epoch 0:  22%|██▏       | 1009/4533 [2:44:22<9:15:07,  9.45s/it, gpt_loss=0.349, loss_mean=0.354][A
+[LID Router Debug] Step: 1010
+Batch Size: 14
+Audio Batch Size: 186
+LID Assignments: [5, 5, 3, 3, 9, 0, 3, 1, 8, 2, 5, 3, 2, 1]
+Active Experts in Batch: {0, 1, 2, 3, 5, 8, 9}
+2026-01-26 16:32:26.195 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  22%|██▏       | 1009/4533 [2:44:32<9:15:07,  9.45s/it, gpt_loss=0.367, loss_mean=0.355][A
+Train step of epoch 0:  22%|██▏       | 1010/4533 [2:44:32<9:24:17,  9.61s/it, gpt_loss=0.367, loss_mean=0.355][A2026-01-26 16:32:35.897 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  22%|██▏       | 1010/4533 [2:44:40<9:24:17,  9.61s/it, gpt_loss=0.293, loss_mean=0.349][A
+Train step of epoch 0:  22%|██▏       | 1011/4533 [2:44:40<9:05:24,  9.29s/it, gpt_loss=0.293, loss_mean=0.349][A2026-01-26 16:32:44.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  22%|██▏       | 1011/4533 [2:44:52<9:05:24,  9.29s/it, gpt_loss=0.455, loss_mean=0.359][A
+Train step of epoch 0:  22%|██▏       | 1012/4533 [2:44:52<9:49:05, 10.04s/it, gpt_loss=0.455, loss_mean=0.359][A2026-01-26 16:32:56.466 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  22%|██▏       | 1012/4533 [2:45:04<9:49:05, 10.04s/it, gpt_loss=0.435, loss_mean=0.367][A
+Train step of epoch 0:  22%|██▏       | 1013/4533 [2:45:04<10:25:09, 10.66s/it, gpt_loss=0.435, loss_mean=0.367][A2026-01-26 16:33:08.395 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  22%|██▏       | 1013/4533 [2:45:16<10:25:09, 10.66s/it, gpt_loss=0.377, loss_mean=0.368][A
+Train step of epoch 0:  22%|██▏       | 1014/4533 [2:45:16<10:41:36, 10.94s/it, gpt_loss=0.377, loss_mean=0.368][A2026-01-26 16:33:19.897 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  22%|██▏       | 1014/4533 [2:45:24<10:41:36, 10.94s/it, gpt_loss=0.284, loss_mean=0.36] [A
+Train step of epoch 0:  22%|██▏       | 1015/4533 [2:45:24<9:59:56, 10.23s/it, gpt_loss=0.284, loss_mean=0.36] [A2026-01-26 16:33:28.791 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  22%|██▏       | 1015/4533 [2:45:33<9:59:56, 10.23s/it, gpt_loss=0.342, loss_mean=0.358][A
+Train step of epoch 0:  22%|██▏       | 1016/4533 [2:45:33<9:39:55,  9.89s/it, gpt_loss=0.342, loss_mean=0.358][A2026-01-26 16:33:37.503 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  22%|██▏       | 1016/4533 [2:45:43<9:39:55,  9.89s/it, gpt_loss=0.396, loss_mean=0.362][A
+Train step of epoch 0:  22%|██▏       | 1017/4533 [2:45:43<9:30:11,  9.73s/it, gpt_loss=0.396, loss_mean=0.362][A2026-01-26 16:33:47.302 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  22%|██▏       | 1017/4533 [2:45:55<9:30:11,  9.73s/it, gpt_loss=0.326, loss_mean=0.358][A
+Train step of epoch 0:  22%|██▏       | 1018/4533 [2:45:55<10:08:24, 10.39s/it, gpt_loss=0.326, loss_mean=0.358][A2026-01-26 16:33:58.990 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  22%|██▏       | 1018/4533 [2:46:03<10:08:24, 10.39s/it, gpt_loss=0.274, loss_mean=0.35] [A
+Train step of epoch 0:  22%|██▏       | 1019/4533 [2:46:03<9:39:28,  9.89s/it, gpt_loss=0.274, loss_mean=0.35] [A
+[LID Router Debug] Step: 1020
+Batch Size: 14
+Audio Batch Size: 118
+LID Assignments: [9, 3, 9, 9, 1, 5, 5, 4, 2, 4, 4, 5, 4, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 16:34:07.885 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  22%|██▏       | 1019/4533 [2:46:13<9:39:28,  9.89s/it, gpt_loss=0.352, loss_mean=0.35][A
+Train step of epoch 0:  23%|██▎       | 1020/4533 [2:46:13<9:35:06,  9.82s/it, gpt_loss=0.352, loss_mean=0.35][A2026-01-26 16:34:17.562 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  23%|██▎       | 1020/4533 [2:46:25<9:35:06,  9.82s/it, gpt_loss=0.425, loss_mean=0.357][A
+Train step of epoch 0:  23%|██▎       | 1021/4533 [2:46:25<10:12:56, 10.47s/it, gpt_loss=0.425, loss_mean=0.357][A2026-01-26 16:34:29.465 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  23%|██▎       | 1021/4533 [2:46:37<10:12:56, 10.47s/it, gpt_loss=0.451, loss_mean=0.367][A
+Train step of epoch 0:  23%|██▎       | 1022/4533 [2:46:37<10:37:09, 10.89s/it, gpt_loss=0.451, loss_mean=0.367][A2026-01-26 16:34:41.262 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  23%|██▎       | 1022/4533 [2:46:48<10:37:09, 10.89s/it, gpt_loss=0.409, loss_mean=0.371][A
+Train step of epoch 0:  23%|██▎       | 1023/4533 [2:46:48<10:50:26, 11.12s/it, gpt_loss=0.409, loss_mean=0.371][A2026-01-26 16:34:52.996 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  23%|██▎       | 1023/4533 [2:46:58<10:50:26, 11.12s/it, gpt_loss=0.388, loss_mean=0.373][A
+Train step of epoch 0:  23%|██▎       | 1024/4533 [2:46:58<10:23:53, 10.67s/it, gpt_loss=0.388, loss_mean=0.373][A2026-01-26 16:35:02.759 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  23%|██▎       | 1024/4533 [2:47:08<10:23:53, 10.67s/it, gpt_loss=0.327, loss_mean=0.368][A
+Train step of epoch 0:  23%|██▎       | 1025/4533 [2:47:08<10:07:00, 10.38s/it, gpt_loss=0.327, loss_mean=0.368][A2026-01-26 16:35:12.271 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  23%|██▎       | 1025/4533 [2:47:18<10:07:00, 10.38s/it, gpt_loss=0.314, loss_mean=0.363][A
+Train step of epoch 0:  23%|██▎       | 1026/4533 [2:47:18<9:55:37, 10.19s/it, gpt_loss=0.314, loss_mean=0.363] [A2026-01-26 16:35:22.094 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  23%|██▎       | 1026/4533 [2:47:27<9:55:37, 10.19s/it, gpt_loss=0.376, loss_mean=0.364][A
+Train step of epoch 0:  23%|██▎       | 1027/4533 [2:47:27<9:46:31, 10.04s/it, gpt_loss=0.376, loss_mean=0.364][A2026-01-26 16:35:31.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  23%|██▎       | 1027/4533 [2:47:36<9:46:31, 10.04s/it, gpt_loss=0.322, loss_mean=0.36] [A
+Train step of epoch 0:  23%|██▎       | 1028/4533 [2:47:36<9:22:53,  9.64s/it, gpt_loss=0.322, loss_mean=0.36][A2026-01-26 16:35:40.360 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  23%|██▎       | 1028/4533 [2:47:44<9:22:53,  9.64s/it, gpt_loss=0.327, loss_mean=0.357][A
+Train step of epoch 0:  23%|██▎       | 1029/4533 [2:47:44<9:03:59,  9.32s/it, gpt_loss=0.327, loss_mean=0.357][A
+[LID Router Debug] Step: 1030
+Batch Size: 14
+Audio Batch Size: 149
+LID Assignments: [4, 2, 3, 2, 2, 1, 5, 3, 2, 5, 6, 2, 4, 3]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6}
+2026-01-26 16:35:49.094 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  23%|██▎       | 1029/4533 [2:47:53<9:03:59,  9.32s/it, gpt_loss=0.336, loss_mean=0.354][A
+Train step of epoch 0:  23%|██▎       | 1030/4533 [2:47:53<8:55:09,  9.17s/it, gpt_loss=0.336, loss_mean=0.354][A2026-01-26 16:35:57.886 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  23%|██▎       | 1030/4533 [2:48:05<8:55:09,  9.17s/it, gpt_loss=0.456, loss_mean=0.365][A
+Train step of epoch 0:  23%|██▎       | 1031/4533 [2:48:05<9:41:56,  9.97s/it, gpt_loss=0.456, loss_mean=0.365][A2026-01-26 16:36:09.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  23%|██▎       | 1031/4533 [2:48:14<9:41:56,  9.97s/it, gpt_loss=0.324, loss_mean=0.361][A
+Train step of epoch 0:  23%|██▎       | 1032/4533 [2:48:14<9:24:33,  9.68s/it, gpt_loss=0.324, loss_mean=0.361][A2026-01-26 16:36:18.773 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  23%|██▎       | 1032/4533 [2:48:23<9:24:33,  9.68s/it, gpt_loss=0.279, loss_mean=0.352][A
+Train step of epoch 0:  23%|██▎       | 1033/4533 [2:48:23<9:11:54,  9.46s/it, gpt_loss=0.279, loss_mean=0.352][A2026-01-26 16:36:27.674 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  23%|██▎       | 1033/4533 [2:48:33<9:11:54,  9.46s/it, gpt_loss=0.32, loss_mean=0.349] [A
+Train step of epoch 0:  23%|██▎       | 1034/4533 [2:48:33<9:17:38,  9.56s/it, gpt_loss=0.32, loss_mean=0.349][A2026-01-26 16:36:37.482 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  23%|██▎       | 1034/4533 [2:48:42<9:17:38,  9.56s/it, gpt_loss=0.334, loss_mean=0.348][A
+Train step of epoch 0:  23%|██▎       | 1035/4533 [2:48:42<9:16:23,  9.54s/it, gpt_loss=0.334, loss_mean=0.348][A2026-01-26 16:36:47.068 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  23%|██▎       | 1035/4533 [2:48:52<9:16:23,  9.54s/it, gpt_loss=0.402, loss_mean=0.353][A
+Train step of epoch 0:  23%|██▎       | 1036/4533 [2:48:52<9:17:29,  9.57s/it, gpt_loss=0.402, loss_mean=0.353][A2026-01-26 16:36:56.585 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  23%|██▎       | 1036/4533 [2:49:04<9:17:29,  9.57s/it, gpt_loss=0.409, loss_mean=0.359][A
+Train step of epoch 0:  23%|██▎       | 1037/4533 [2:49:04<9:55:48, 10.23s/it, gpt_loss=0.409, loss_mean=0.359][A2026-01-26 16:37:08.193 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  23%|██▎       | 1037/4533 [2:49:12<9:55:48, 10.23s/it, gpt_loss=0.267, loss_mean=0.35] [A
+Train step of epoch 0:  23%|██▎       | 1038/4533 [2:49:12<9:28:37,  9.76s/it, gpt_loss=0.267, loss_mean=0.35][A2026-01-26 16:37:17.091 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  23%|██▎       | 1038/4533 [2:49:22<9:28:37,  9.76s/it, gpt_loss=0.377, loss_mean=0.352][A
+Train step of epoch 0:  23%|██▎       | 1039/4533 [2:49:22<9:29:02,  9.77s/it, gpt_loss=0.377, loss_mean=0.352][A
+[LID Router Debug] Step: 1040
+Batch Size: 14
+Audio Batch Size: 161
+LID Assignments: [9, 1, 1, 1, 9, 1, 3, 2, 3, 5, 2, 6, 2, 1]
+Active Experts in Batch: {1, 2, 3, 5, 6, 9}
+2026-01-26 16:37:26.582 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  23%|██▎       | 1039/4533 [2:49:31<9:29:02,  9.77s/it, gpt_loss=0.318, loss_mean=0.349][A
+Train step of epoch 0:  23%|██▎       | 1040/4533 [2:49:31<9:10:22,  9.45s/it, gpt_loss=0.318, loss_mean=0.349][A2026-01-26 16:37:35.361 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  23%|██▎       | 1040/4533 [2:49:40<9:10:22,  9.45s/it, gpt_loss=0.272, loss_mean=0.341][A
+Train step of epoch 0:  23%|██▎       | 1041/4533 [2:49:40<9:01:12,  9.30s/it, gpt_loss=0.272, loss_mean=0.341][A2026-01-26 16:37:44.387 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  23%|██▎       | 1041/4533 [2:49:49<9:01:12,  9.30s/it, gpt_loss=0.308, loss_mean=0.338][A
+Train step of epoch 0:  23%|██▎       | 1042/4533 [2:49:49<8:51:29,  9.13s/it, gpt_loss=0.308, loss_mean=0.338][A2026-01-26 16:37:53.172 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  23%|██▎       | 1042/4533 [2:49:58<8:51:29,  9.13s/it, gpt_loss=0.263, loss_mean=0.33] [A
+Train step of epoch 0:  23%|██▎       | 1043/4533 [2:49:58<8:48:56,  9.09s/it, gpt_loss=0.263, loss_mean=0.33][A2026-01-26 16:38:02.286 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  23%|██▎       | 1043/4533 [2:50:07<8:48:56,  9.09s/it, gpt_loss=0.292, loss_mean=0.327][A
+Train step of epoch 0:  23%|██▎       | 1044/4533 [2:50:07<8:57:54,  9.25s/it, gpt_loss=0.292, loss_mean=0.327][A2026-01-26 16:38:11.754 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  23%|██▎       | 1044/4533 [2:50:16<8:57:54,  9.25s/it, gpt_loss=0.286, loss_mean=0.323][A
+Train step of epoch 0:  23%|██▎       | 1045/4533 [2:50:16<8:50:43,  9.13s/it, gpt_loss=0.286, loss_mean=0.323][A2026-01-26 16:38:20.775 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  23%|██▎       | 1045/4533 [2:50:25<8:50:43,  9.13s/it, gpt_loss=0.342, loss_mean=0.324][A
+Train step of epoch 0:  23%|██▎       | 1046/4533 [2:50:25<8:47:15,  9.07s/it, gpt_loss=0.342, loss_mean=0.324][A2026-01-26 16:38:29.374 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  23%|██▎       | 1046/4533 [2:50:34<8:47:15,  9.07s/it, gpt_loss=0.363, loss_mean=0.328][A
+Train step of epoch 0:  23%|██▎       | 1047/4533 [2:50:34<8:37:16,  8.90s/it, gpt_loss=0.363, loss_mean=0.328][A2026-01-26 16:38:37.677 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  23%|██▎       | 1047/4533 [2:50:42<8:37:16,  8.90s/it, gpt_loss=0.301, loss_mean=0.326][A
+Train step of epoch 0:  23%|██▎       | 1048/4533 [2:50:42<8:36:34,  8.89s/it, gpt_loss=0.301, loss_mean=0.326][A2026-01-26 16:38:46.876 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  23%|██▎       | 1048/4533 [2:50:51<8:36:34,  8.89s/it, gpt_loss=0.327, loss_mean=0.326][A
+Train step of epoch 0:  23%|██▎       | 1049/4533 [2:50:51<8:35:16,  8.87s/it, gpt_loss=0.327, loss_mean=0.326][A
+[LID Router Debug] Step: 1050
+Batch Size: 14
+Audio Batch Size: 144
+LID Assignments: [9, 4, 3, 1, 9, 5, 2, 9, 4, 6, 9, 1, 2, 9]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-26 16:38:55.689 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  23%|██▎       | 1049/4533 [2:51:00<8:35:16,  8.87s/it, gpt_loss=0.324, loss_mean=0.326][A
+Train step of epoch 0:  23%|██▎       | 1050/4533 [2:51:00<8:34:31,  8.86s/it, gpt_loss=0.324, loss_mean=0.326][A2026-01-26 16:39:04.700 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  23%|██▎       | 1050/4533 [2:51:12<8:34:31,  8.86s/it, gpt_loss=0.391, loss_mean=0.332][A
+Train step of epoch 0:  23%|██▎       | 1051/4533 [2:51:12<9:27:24,  9.78s/it, gpt_loss=0.391, loss_mean=0.332][A2026-01-26 16:39:16.677 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  23%|██▎       | 1051/4533 [2:51:21<9:27:24,  9.78s/it, gpt_loss=0.32, loss_mean=0.331] [A
+Train step of epoch 0:  23%|██▎       | 1052/4533 [2:51:21<9:19:48,  9.65s/it, gpt_loss=0.32, loss_mean=0.331][A2026-01-26 16:39:25.968 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  23%|██▎       | 1052/4533 [2:51:31<9:19:48,  9.65s/it, gpt_loss=0.375, loss_mean=0.335][A
+Train step of epoch 0:  23%|██▎       | 1053/4533 [2:51:31<9:18:18,  9.63s/it, gpt_loss=0.375, loss_mean=0.335][A2026-01-26 16:39:35.591 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  23%|██▎       | 1053/4533 [2:51:40<9:18:18,  9.63s/it, gpt_loss=0.358, loss_mean=0.338][A
+Train step of epoch 0:  23%|██▎       | 1054/4533 [2:51:40<9:14:21,  9.56s/it, gpt_loss=0.358, loss_mean=0.338][A2026-01-26 16:39:44.753 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  23%|██▎       | 1054/4533 [2:51:50<9:14:21,  9.56s/it, gpt_loss=0.328, loss_mean=0.337][A
+Train step of epoch 0:  23%|██▎       | 1055/4533 [2:51:50<9:07:55,  9.45s/it, gpt_loss=0.328, loss_mean=0.337][A2026-01-26 16:39:53.893 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  23%|██▎       | 1055/4533 [2:51:59<9:07:55,  9.45s/it, gpt_loss=0.295, loss_mean=0.333][A
+Train step of epoch 0:  23%|██▎       | 1056/4533 [2:51:59<9:02:06,  9.35s/it, gpt_loss=0.295, loss_mean=0.333][A2026-01-26 16:40:03.266 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  23%|██▎       | 1056/4533 [2:52:08<9:02:06,  9.35s/it, gpt_loss=0.325, loss_mean=0.332][A
+Train step of epoch 0:  23%|██▎       | 1057/4533 [2:52:08<9:06:47,  9.44s/it, gpt_loss=0.325, loss_mean=0.332][A2026-01-26 16:40:12.588 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  23%|██▎       | 1057/4533 [2:52:17<9:06:47,  9.44s/it, gpt_loss=0.283, loss_mean=0.327][A
+Train step of epoch 0:  23%|██▎       | 1058/4533 [2:52:17<8:56:19,  9.26s/it, gpt_loss=0.283, loss_mean=0.327][A2026-01-26 16:40:21.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  23%|██▎       | 1058/4533 [2:52:26<8:56:19,  9.26s/it, gpt_loss=0.408, loss_mean=0.335][A
+Train step of epoch 0:  23%|██▎       | 1059/4533 [2:52:26<8:45:00,  9.07s/it, gpt_loss=0.408, loss_mean=0.335][A
+[LID Router Debug] Step: 1060
+Batch Size: 14
+Audio Batch Size: 161
+LID Assignments: [9, 3, 6, 0, 3, 1, 1, 4, 9, 2, 5, 3, 4, 6]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 16:40:30.286 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  23%|██▎       | 1059/4533 [2:52:35<8:45:00,  9.07s/it, gpt_loss=0.275, loss_mean=0.329][A
+Train step of epoch 0:  23%|██▎       | 1060/4533 [2:52:35<8:49:47,  9.15s/it, gpt_loss=0.275, loss_mean=0.329][A2026-01-26 16:40:39.288 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  23%|██▎       | 1060/4533 [2:52:47<8:49:47,  9.15s/it, gpt_loss=0.385, loss_mean=0.335][A
+Train step of epoch 0:  23%|██▎       | 1061/4533 [2:52:47<9:33:11,  9.91s/it, gpt_loss=0.385, loss_mean=0.335][A2026-01-26 16:40:51.095 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  23%|██▎       | 1061/4533 [2:52:56<9:33:11,  9.91s/it, gpt_loss=0.403, loss_mean=0.342][A
+Train step of epoch 0:  23%|██▎       | 1062/4533 [2:52:56<9:25:30,  9.78s/it, gpt_loss=0.403, loss_mean=0.342][A2026-01-26 16:41:00.860 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  23%|██▎       | 1062/4533 [2:53:05<9:25:30,  9.78s/it, gpt_loss=0.31, loss_mean=0.338] [A
+Train step of epoch 0:  23%|██▎       | 1063/4533 [2:53:05<9:08:35,  9.49s/it, gpt_loss=0.31, loss_mean=0.338][A2026-01-26 16:41:09.758 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  23%|██▎       | 1063/4533 [2:53:14<9:08:35,  9.49s/it, gpt_loss=0.265, loss_mean=0.331][A
+Train step of epoch 0:  23%|██▎       | 1064/4533 [2:53:14<9:07:20,  9.47s/it, gpt_loss=0.265, loss_mean=0.331][A2026-01-26 16:41:19.086 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  23%|██▎       | 1064/4533 [2:53:23<9:07:20,  9.47s/it, gpt_loss=0.262, loss_mean=0.324][A
+Train step of epoch 0:  23%|██▎       | 1065/4533 [2:53:23<8:58:10,  9.31s/it, gpt_loss=0.262, loss_mean=0.324][A2026-01-26 16:41:27.887 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  23%|██▎       | 1065/4533 [2:53:32<8:58:10,  9.31s/it, gpt_loss=0.342, loss_mean=0.326][A
+Train step of epoch 0:  24%|██▎       | 1066/4533 [2:53:32<8:49:17,  9.16s/it, gpt_loss=0.342, loss_mean=0.326][A2026-01-26 16:41:36.555 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  24%|██▎       | 1066/4533 [2:53:41<8:49:17,  9.16s/it, gpt_loss=0.319, loss_mean=0.325][A
+Train step of epoch 0:  24%|██▎       | 1067/4533 [2:53:41<8:40:16,  9.01s/it, gpt_loss=0.319, loss_mean=0.325][A2026-01-26 16:41:45.397 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  24%|██▎       | 1067/4533 [2:53:50<8:40:16,  9.01s/it, gpt_loss=0.4, loss_mean=0.333]  [A
+Train step of epoch 0:  24%|██▎       | 1068/4533 [2:53:50<8:34:11,  8.90s/it, gpt_loss=0.4, loss_mean=0.333][A2026-01-26 16:41:54.261 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  24%|██▎       | 1068/4533 [2:53:59<8:34:11,  8.90s/it, gpt_loss=0.325, loss_mean=0.332][A
+Train step of epoch 0:  24%|██▎       | 1069/4533 [2:53:59<8:39:24,  9.00s/it, gpt_loss=0.325, loss_mean=0.332][A
+[LID Router Debug] Step: 1070
+Batch Size: 14
+Audio Batch Size: 158
+LID Assignments: [2, 5, 1, 4, 9, 5, 3, 2, 3, 2, 0, 6, 3, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 16:42:03.056 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  24%|██▎       | 1069/4533 [2:54:08<8:39:24,  9.00s/it, gpt_loss=0.319, loss_mean=0.331][A
+Train step of epoch 0:  24%|██▎       | 1070/4533 [2:54:08<8:44:14,  9.08s/it, gpt_loss=0.319, loss_mean=0.331][A2026-01-26 16:42:12.699 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  24%|██▎       | 1070/4533 [2:54:17<8:44:14,  9.08s/it, gpt_loss=0.286, loss_mean=0.326][A
+Train step of epoch 0:  24%|██▎       | 1071/4533 [2:54:17<8:39:10,  9.00s/it, gpt_loss=0.286, loss_mean=0.326][A2026-01-26 16:42:21.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  24%|██▎       | 1071/4533 [2:54:29<8:39:10,  9.00s/it, gpt_loss=0.457, loss_mean=0.339][A
+Train step of epoch 0:  24%|██▎       | 1072/4533 [2:54:29<9:31:59,  9.92s/it, gpt_loss=0.457, loss_mean=0.339][A2026-01-26 16:42:33.471 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  24%|██▎       | 1072/4533 [2:54:39<9:31:59,  9.92s/it, gpt_loss=0.285, loss_mean=0.334][A
+Train step of epoch 0:  24%|██▎       | 1073/4533 [2:54:39<9:28:02,  9.85s/it, gpt_loss=0.285, loss_mean=0.334][A2026-01-26 16:42:42.977 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  24%|██▎       | 1073/4533 [2:54:48<9:28:02,  9.85s/it, gpt_loss=0.442, loss_mean=0.345][A
+Train step of epoch 0:  24%|██▎       | 1074/4533 [2:54:48<9:22:38,  9.76s/it, gpt_loss=0.442, loss_mean=0.345][A2026-01-26 16:42:52.686 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  24%|██▎       | 1074/4533 [2:54:57<9:22:38,  9.76s/it, gpt_loss=0.296, loss_mean=0.34] [A
+Train step of epoch 0:  24%|██▎       | 1075/4533 [2:54:57<9:04:37,  9.45s/it, gpt_loss=0.296, loss_mean=0.34][A2026-01-26 16:43:01.568 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  24%|██▎       | 1075/4533 [2:55:06<9:04:37,  9.45s/it, gpt_loss=0.247, loss_mean=0.331][A
+Train step of epoch 0:  24%|██▎       | 1076/4533 [2:55:06<8:57:58,  9.34s/it, gpt_loss=0.247, loss_mean=0.331][A2026-01-26 16:43:10.483 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  24%|██▎       | 1076/4533 [2:55:15<8:57:58,  9.34s/it, gpt_loss=0.336, loss_mean=0.331][A
+Train step of epoch 0:  24%|██▍       | 1077/4533 [2:55:15<8:47:45,  9.16s/it, gpt_loss=0.336, loss_mean=0.331][A2026-01-26 16:43:19.287 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  24%|██▍       | 1077/4533 [2:55:25<8:47:45,  9.16s/it, gpt_loss=0.337, loss_mean=0.332][A
+Train step of epoch 0:  24%|██▍       | 1078/4533 [2:55:25<9:01:11,  9.40s/it, gpt_loss=0.337, loss_mean=0.332][A2026-01-26 16:43:29.169 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  24%|██▍       | 1078/4533 [2:55:34<9:01:11,  9.40s/it, gpt_loss=0.346, loss_mean=0.333][A
+Train step of epoch 0:  24%|██▍       | 1079/4533 [2:55:34<8:53:14,  9.26s/it, gpt_loss=0.346, loss_mean=0.333][A
+[LID Router Debug] Step: 1080
+Batch Size: 14
+Audio Batch Size: 171
+LID Assignments: [2, 2, 0, 0, 0, 2, 2, 0, 4, 2, 5, 9, 1, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 16:43:38.181 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  24%|██▍       | 1079/4533 [2:55:43<8:53:14,  9.26s/it, gpt_loss=0.304, loss_mean=0.33] [A
+Train step of epoch 0:  24%|██▍       | 1080/4533 [2:55:43<8:53:14,  9.27s/it, gpt_loss=0.304, loss_mean=0.33][A2026-01-26 16:43:47.555 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  24%|██▍       | 1080/4533 [2:55:53<8:53:14,  9.27s/it, gpt_loss=0.313, loss_mean=0.329][A
+Train step of epoch 0:  24%|██▍       | 1081/4533 [2:55:53<9:01:52,  9.42s/it, gpt_loss=0.313, loss_mean=0.329][A2026-01-26 16:43:57.251 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  24%|██▍       | 1081/4533 [2:56:02<9:01:52,  9.42s/it, gpt_loss=0.323, loss_mean=0.328][A
+Train step of epoch 0:  24%|██▍       | 1082/4533 [2:56:02<8:54:25,  9.29s/it, gpt_loss=0.323, loss_mean=0.328][A2026-01-26 16:44:06.087 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  24%|██▍       | 1082/4533 [2:56:10<8:54:25,  9.29s/it, gpt_loss=0.321, loss_mean=0.327][A
+Train step of epoch 0:  24%|██▍       | 1083/4533 [2:56:10<8:42:49,  9.09s/it, gpt_loss=0.321, loss_mean=0.327][A2026-01-26 16:44:14.592 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  24%|██▍       | 1083/4533 [2:56:19<8:42:49,  9.09s/it, gpt_loss=0.332, loss_mean=0.328][A
+Train step of epoch 0:  24%|██▍       | 1084/4533 [2:56:19<8:31:23,  8.90s/it, gpt_loss=0.332, loss_mean=0.328][A2026-01-26 16:44:23.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  24%|██▍       | 1084/4533 [2:56:28<8:31:23,  8.90s/it, gpt_loss=0.32, loss_mean=0.327] [A
+Train step of epoch 0:  24%|██▍       | 1085/4533 [2:56:28<8:44:09,  9.12s/it, gpt_loss=0.32, loss_mean=0.327][A2026-01-26 16:44:32.972 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  24%|██▍       | 1085/4533 [2:56:37<8:44:09,  9.12s/it, gpt_loss=0.378, loss_mean=0.332][A
+Train step of epoch 0:  24%|██▍       | 1086/4533 [2:56:37<8:37:13,  9.00s/it, gpt_loss=0.378, loss_mean=0.332][A2026-01-26 16:44:41.027 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  24%|██▍       | 1086/4533 [2:56:45<8:37:13,  9.00s/it, gpt_loss=0.222, loss_mean=0.321][A
+Train step of epoch 0:  24%|██▍       | 1087/4533 [2:56:45<8:26:25,  8.82s/it, gpt_loss=0.222, loss_mean=0.321][A2026-01-26 16:44:50.088 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  24%|██▍       | 1087/4533 [2:56:55<8:26:25,  8.82s/it, gpt_loss=0.314, loss_mean=0.32] [A
+Train step of epoch 0:  24%|██▍       | 1088/4533 [2:56:55<8:40:50,  9.07s/it, gpt_loss=0.314, loss_mean=0.32][A2026-01-26 16:44:59.570 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  24%|██▍       | 1088/4533 [2:57:04<8:40:50,  9.07s/it, gpt_loss=0.334, loss_mean=0.322][A
+Train step of epoch 0:  24%|██▍       | 1089/4533 [2:57:04<8:39:44,  9.05s/it, gpt_loss=0.334, loss_mean=0.322][A
+[LID Router Debug] Step: 1090
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [3, 2, 2, 5, 2, 4, 4, 1, 6, 4, 3, 1, 5, 3]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6}
+2026-01-26 16:45:08.571 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  24%|██▍       | 1089/4533 [2:57:13<8:39:44,  9.05s/it, gpt_loss=0.264, loss_mean=0.316][A
+Train step of epoch 0:  24%|██▍       | 1090/4533 [2:57:13<8:33:39,  8.95s/it, gpt_loss=0.264, loss_mean=0.316][A2026-01-26 16:45:17.365 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  24%|██▍       | 1090/4533 [2:57:22<8:33:39,  8.95s/it, gpt_loss=0.366, loss_mean=0.321][A
+Train step of epoch 0:  24%|██▍       | 1091/4533 [2:57:22<8:44:31,  9.14s/it, gpt_loss=0.366, loss_mean=0.321][A2026-01-26 16:45:26.960 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  24%|██▍       | 1091/4533 [2:57:32<8:44:31,  9.14s/it, gpt_loss=0.39, loss_mean=0.328] [A
+Train step of epoch 0:  24%|██▍       | 1092/4533 [2:57:32<8:56:21,  9.35s/it, gpt_loss=0.39, loss_mean=0.328][A2026-01-26 16:45:36.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  24%|██▍       | 1092/4533 [2:57:44<8:56:21,  9.35s/it, gpt_loss=0.417, loss_mean=0.337][A
+Train step of epoch 0:  24%|██▍       | 1093/4533 [2:57:44<9:36:06, 10.05s/it, gpt_loss=0.417, loss_mean=0.337][A2026-01-26 16:45:48.481 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  24%|██▍       | 1093/4533 [2:57:53<9:36:06, 10.05s/it, gpt_loss=0.336, loss_mean=0.337][A
+Train step of epoch 0:  24%|██▍       | 1094/4533 [2:57:53<9:26:21,  9.88s/it, gpt_loss=0.336, loss_mean=0.337][A2026-01-26 16:45:58.172 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  24%|██▍       | 1094/4533 [2:58:02<9:26:21,  9.88s/it, gpt_loss=0.255, loss_mean=0.329][A
+Train step of epoch 0:  24%|██▍       | 1095/4533 [2:58:02<9:10:58,  9.62s/it, gpt_loss=0.255, loss_mean=0.329][A2026-01-26 16:46:06.791 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  24%|██▍       | 1095/4533 [2:58:11<9:10:58,  9.62s/it, gpt_loss=0.318, loss_mean=0.328][A
+Train step of epoch 0:  24%|██▍       | 1096/4533 [2:58:11<8:55:07,  9.34s/it, gpt_loss=0.318, loss_mean=0.328][A2026-01-26 16:46:15.668 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  24%|██▍       | 1096/4533 [2:58:23<8:55:07,  9.34s/it, gpt_loss=0.45, loss_mean=0.34]  [A
+Train step of epoch 0:  24%|██▍       | 1097/4533 [2:58:23<9:35:26, 10.05s/it, gpt_loss=0.45, loss_mean=0.34][A2026-01-26 16:46:27.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  24%|██▍       | 1097/4533 [2:58:35<9:35:26, 10.05s/it, gpt_loss=0.431, loss_mean=0.349][A
+Train step of epoch 0:  24%|██▍       | 1098/4533 [2:58:35<10:03:24, 10.54s/it, gpt_loss=0.431, loss_mean=0.349][A2026-01-26 16:46:38.969 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  24%|██▍       | 1098/4533 [2:58:46<10:03:24, 10.54s/it, gpt_loss=0.389, loss_mean=0.353][A
+Train step of epoch 0:  24%|██▍       | 1099/4533 [2:58:46<10:19:58, 10.83s/it, gpt_loss=0.389, loss_mean=0.353][A
+[LID Router Debug] Step: 1100
+Batch Size: 14
+Audio Batch Size: 131
+LID Assignments: [3, 2, 5, 6, 0, 1, 1, 4, 4, 5, 2, 0, 1, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6}
+2026-01-26 16:46:50.584 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+[2026-01-26 16:46:58,640] [INFO] [logging.py:96:log_dist] [Rank 0] step=1100, skipped=0, lr=[1.9748053693908906e-05, 1.9748053693908906e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 16:46:58,641] [INFO] [timer.py:260:stop] epoch=0/micro_step=1100/global_step=1100, RunningAvgSamplesPerSec=5.766035996132656, CurrSamplesPerSec=6.447394467128657, MemAllocated=14.62GB, MaxMemAllocated=53.73GB
+
+Train step of epoch 0:  24%|██▍       | 1099/4533 [2:58:55<10:19:58, 10.83s/it, gpt_loss=0.293, loss_mean=0.347][A
+Train step of epoch 0:  24%|██▍       | 1100/4533 [2:58:55<9:43:14, 10.19s/it, gpt_loss=0.293, loss_mean=0.347] [A2026-01-26 16:46:59.173 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  24%|██▍       | 1100/4533 [2:59:04<9:43:14, 10.19s/it, gpt_loss=0.305, loss_mean=0.343][A
+Train step of epoch 0:  24%|██▍       | 1101/4533 [2:59:04<9:23:39,  9.85s/it, gpt_loss=0.305, loss_mean=0.343][A2026-01-26 16:47:08.388 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  24%|██▍       | 1101/4533 [2:59:12<9:23:39,  9.85s/it, gpt_loss=0.26, loss_mean=0.334] [A
+Train step of epoch 0:  24%|██▍       | 1102/4533 [2:59:12<9:02:22,  9.48s/it, gpt_loss=0.26, loss_mean=0.334][A2026-01-26 16:47:17.099 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  24%|██▍       | 1102/4533 [2:59:24<9:02:22,  9.48s/it, gpt_loss=0.337, loss_mean=0.335][A
+Train step of epoch 0:  24%|██▍       | 1103/4533 [2:59:24<9:44:48, 10.23s/it, gpt_loss=0.337, loss_mean=0.335][A2026-01-26 16:47:28.971 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  24%|██▍       | 1103/4533 [2:59:33<9:44:48, 10.23s/it, gpt_loss=0.396, loss_mean=0.341][A
+Train step of epoch 0:  24%|██▍       | 1104/4533 [2:59:33<9:20:23,  9.81s/it, gpt_loss=0.396, loss_mean=0.341][A2026-01-26 16:47:37.854 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  24%|██▍       | 1104/4533 [2:59:42<9:20:23,  9.81s/it, gpt_loss=0.375, loss_mean=0.344][A
+Train step of epoch 0:  24%|██▍       | 1105/4533 [2:59:42<9:05:33,  9.55s/it, gpt_loss=0.375, loss_mean=0.344][A2026-01-26 16:47:46.666 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  24%|██▍       | 1105/4533 [2:59:51<9:05:33,  9.55s/it, gpt_loss=0.369, loss_mean=0.347][A
+Train step of epoch 0:  24%|██▍       | 1106/4533 [2:59:51<8:52:25,  9.32s/it, gpt_loss=0.369, loss_mean=0.347][A2026-01-26 16:47:55.601 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  24%|██▍       | 1106/4533 [3:00:03<8:52:25,  9.32s/it, gpt_loss=0.346, loss_mean=0.347][A
+Train step of epoch 0:  24%|██▍       | 1107/4533 [3:00:03<9:36:55, 10.10s/it, gpt_loss=0.346, loss_mean=0.347][A2026-01-26 16:48:07.389 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  24%|██▍       | 1107/4533 [3:00:12<9:36:55, 10.10s/it, gpt_loss=0.324, loss_mean=0.345][A
+Train step of epoch 0:  24%|██▍       | 1108/4533 [3:00:12<9:19:42,  9.81s/it, gpt_loss=0.324, loss_mean=0.345][A2026-01-26 16:48:16.490 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  24%|██▍       | 1108/4533 [3:00:21<9:19:42,  9.81s/it, gpt_loss=0.375, loss_mean=0.348][A
+Train step of epoch 0:  24%|██▍       | 1109/4533 [3:00:21<9:06:52,  9.58s/it, gpt_loss=0.375, loss_mean=0.348][A
+[LID Router Debug] Step: 1110
+Batch Size: 14
+Audio Batch Size: 141
+LID Assignments: [0, 3, 5, 3, 2, 1, 9, 1, 1, 0, 6, 1, 1, 9]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-26 16:48:25.567 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  24%|██▍       | 1109/4533 [3:00:33<9:06:52,  9.58s/it, gpt_loss=0.325, loss_mean=0.345][A
+Train step of epoch 0:  24%|██▍       | 1110/4533 [3:00:33<9:41:16, 10.19s/it, gpt_loss=0.325, loss_mean=0.345][A2026-01-26 16:48:37.077 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  24%|██▍       | 1110/4533 [3:00:41<9:41:16, 10.19s/it, gpt_loss=0.309, loss_mean=0.342][A
+Train step of epoch 0:  25%|██▍       | 1111/4533 [3:00:41<9:16:53,  9.76s/it, gpt_loss=0.309, loss_mean=0.342][A2026-01-26 16:48:45.770 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  25%|██▍       | 1111/4533 [3:00:50<9:16:53,  9.76s/it, gpt_loss=0.287, loss_mean=0.336][A
+Train step of epoch 0:  25%|██▍       | 1112/4533 [3:00:50<8:55:47,  9.40s/it, gpt_loss=0.287, loss_mean=0.336][A2026-01-26 16:48:54.597 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  25%|██▍       | 1112/4533 [3:01:02<8:55:47,  9.40s/it, gpt_loss=0.409, loss_mean=0.343][A
+Train step of epoch 0:  25%|██▍       | 1113/4533 [3:01:02<9:34:56, 10.09s/it, gpt_loss=0.409, loss_mean=0.343][A2026-01-26 16:49:06.170 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  25%|██▍       | 1113/4533 [3:01:11<9:34:56, 10.09s/it, gpt_loss=0.301, loss_mean=0.339][A
+Train step of epoch 0:  25%|██▍       | 1114/4533 [3:01:11<9:18:14,  9.80s/it, gpt_loss=0.301, loss_mean=0.339][A2026-01-26 16:49:15.182 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  25%|██▍       | 1114/4533 [3:01:20<9:18:14,  9.80s/it, gpt_loss=0.267, loss_mean=0.332][A
+Train step of epoch 0:  25%|██▍       | 1115/4533 [3:01:20<9:02:25,  9.52s/it, gpt_loss=0.267, loss_mean=0.332][A2026-01-26 16:49:24.164 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  25%|██▍       | 1115/4533 [3:01:29<9:02:25,  9.52s/it, gpt_loss=0.43, loss_mean=0.342] [A
+Train step of epoch 0:  25%|██▍       | 1116/4533 [3:01:29<9:05:19,  9.58s/it, gpt_loss=0.43, loss_mean=0.342][A2026-01-26 16:49:33.852 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  25%|██▍       | 1116/4533 [3:01:41<9:05:19,  9.58s/it, gpt_loss=0.346, loss_mean=0.342][A
+Train step of epoch 0:  25%|██▍       | 1117/4533 [3:01:41<9:45:42, 10.29s/it, gpt_loss=0.346, loss_mean=0.342][A2026-01-26 16:49:45.871 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  25%|██▍       | 1117/4533 [3:01:53<9:45:42, 10.29s/it, gpt_loss=0.364, loss_mean=0.344][A
+Train step of epoch 0:  25%|██▍       | 1118/4533 [3:01:53<10:17:36, 10.85s/it, gpt_loss=0.364, loss_mean=0.344][A2026-01-26 16:49:57.987 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  25%|██▍       | 1118/4533 [3:02:03<10:17:36, 10.85s/it, gpt_loss=0.321, loss_mean=0.342][A
+Train step of epoch 0:  25%|██▍       | 1119/4533 [3:02:03<9:49:05, 10.35s/it, gpt_loss=0.321, loss_mean=0.342] [A
+[LID Router Debug] Step: 1120
+Batch Size: 14
+Audio Batch Size: 141
+LID Assignments: [6, 2, 9, 6, 2, 3, 1, 0, 2, 4, 5, 1, 4, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 16:50:07.154 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  25%|██▍       | 1119/4533 [3:02:14<9:49:05, 10.35s/it, gpt_loss=0.375, loss_mean=0.345][A
+Train step of epoch 0:  25%|██▍       | 1120/4533 [3:02:14<10:11:19, 10.75s/it, gpt_loss=0.375, loss_mean=0.345][A2026-01-26 16:50:18.677 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  25%|██▍       | 1120/4533 [3:02:26<10:11:19, 10.75s/it, gpt_loss=0.396, loss_mean=0.35] [A
+Train step of epoch 0:  25%|██▍       | 1121/4533 [3:02:26<10:25:18, 11.00s/it, gpt_loss=0.396, loss_mean=0.35][A2026-01-26 16:50:30.364 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  25%|██▍       | 1121/4533 [3:02:35<10:25:18, 11.00s/it, gpt_loss=0.295, loss_mean=0.345][A
+Train step of epoch 0:  25%|██▍       | 1122/4533 [3:02:35<9:46:58, 10.33s/it, gpt_loss=0.295, loss_mean=0.345] [A2026-01-26 16:50:39.080 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  25%|██▍       | 1122/4533 [3:02:43<9:46:58, 10.33s/it, gpt_loss=0.286, loss_mean=0.339][A
+Train step of epoch 0:  25%|██▍       | 1123/4533 [3:02:43<9:18:57,  9.84s/it, gpt_loss=0.286, loss_mean=0.339][A2026-01-26 16:50:47.995 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  25%|██▍       | 1123/4533 [3:02:55<9:18:57,  9.84s/it, gpt_loss=0.436, loss_mean=0.349][A
+Train step of epoch 0:  25%|██▍       | 1124/4533 [3:02:55<9:54:14, 10.46s/it, gpt_loss=0.436, loss_mean=0.349][A2026-01-26 16:50:59.694 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  25%|██▍       | 1124/4533 [3:03:04<9:54:14, 10.46s/it, gpt_loss=0.286, loss_mean=0.342][A
+Train step of epoch 0:  25%|██▍       | 1125/4533 [3:03:04<9:22:46,  9.91s/it, gpt_loss=0.286, loss_mean=0.342][A2026-01-26 16:51:08.553 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  25%|██▍       | 1125/4533 [3:03:16<9:22:46,  9.91s/it, gpt_loss=0.444, loss_mean=0.353][A
+Train step of epoch 0:  25%|██▍       | 1126/4533 [3:03:16<10:02:52, 10.62s/it, gpt_loss=0.444, loss_mean=0.353][A2026-01-26 16:51:20.362 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  25%|██▍       | 1126/4533 [3:03:25<10:02:52, 10.62s/it, gpt_loss=0.304, loss_mean=0.348][A
+Train step of epoch 0:  25%|██▍       | 1127/4533 [3:03:25<9:24:10,  9.94s/it, gpt_loss=0.304, loss_mean=0.348] [A2026-01-26 16:51:29.096 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  25%|██▍       | 1127/4533 [3:03:33<9:24:10,  9.94s/it, gpt_loss=0.375, loss_mean=0.35] [A
+Train step of epoch 0:  25%|██▍       | 1128/4533 [3:03:33<9:00:47,  9.53s/it, gpt_loss=0.375, loss_mean=0.35][A2026-01-26 16:51:37.595 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  25%|██▍       | 1128/4533 [3:03:42<9:00:47,  9.53s/it, gpt_loss=0.294, loss_mean=0.345][A
+Train step of epoch 0:  25%|██▍       | 1129/4533 [3:03:42<8:48:55,  9.32s/it, gpt_loss=0.294, loss_mean=0.345][A
+[LID Router Debug] Step: 1130
+Batch Size: 14
+Audio Batch Size: 174
+LID Assignments: [0, 9, 1, 9, 9, 6, 3, 0, 6, 3, 1, 3, 9, 9]
+Active Experts in Batch: {0, 1, 3, 6, 9}
+2026-01-26 16:51:46.388 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  25%|██▍       | 1129/4533 [3:03:54<8:48:55,  9.32s/it, gpt_loss=0.37, loss_mean=0.347] [A
+Train step of epoch 0:  25%|██▍       | 1130/4533 [3:03:54<9:35:36, 10.15s/it, gpt_loss=0.37, loss_mean=0.347][A2026-01-26 16:51:58.192 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  25%|██▍       | 1130/4533 [3:04:05<9:35:36, 10.15s/it, gpt_loss=0.518, loss_mean=0.364][A
+Train step of epoch 0:  25%|██▍       | 1131/4533 [3:04:05<9:55:48, 10.51s/it, gpt_loss=0.518, loss_mean=0.364][A2026-01-26 16:52:09.667 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  25%|██▍       | 1131/4533 [3:04:15<9:55:48, 10.51s/it, gpt_loss=0.322, loss_mean=0.36] [A
+Train step of epoch 0:  25%|██▍       | 1132/4533 [3:04:15<9:36:32, 10.17s/it, gpt_loss=0.322, loss_mean=0.36][A2026-01-26 16:52:19.365 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  25%|██▍       | 1132/4533 [3:04:27<9:36:32, 10.17s/it, gpt_loss=0.446, loss_mean=0.369][A
+Train step of epoch 0:  25%|██▍       | 1133/4533 [3:04:27<10:05:47, 10.69s/it, gpt_loss=0.446, loss_mean=0.369][A2026-01-26 16:52:31.182 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  25%|██▍       | 1133/4533 [3:04:36<10:05:47, 10.69s/it, gpt_loss=0.296, loss_mean=0.362][A
+Train step of epoch 0:  25%|██▌       | 1134/4533 [3:04:36<9:47:24, 10.37s/it, gpt_loss=0.296, loss_mean=0.362] [A2026-01-26 16:52:40.853 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  25%|██▌       | 1134/4533 [3:04:45<9:47:24, 10.37s/it, gpt_loss=0.293, loss_mean=0.355][A
+Train step of epoch 0:  25%|██▌       | 1135/4533 [3:04:45<9:24:39,  9.97s/it, gpt_loss=0.293, loss_mean=0.355][A2026-01-26 16:52:49.981 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  25%|██▌       | 1135/4533 [3:04:54<9:24:39,  9.97s/it, gpt_loss=0.263, loss_mean=0.346][A
+Train step of epoch 0:  25%|██▌       | 1136/4533 [3:04:54<9:10:01,  9.71s/it, gpt_loss=0.263, loss_mean=0.346][A2026-01-26 16:52:58.980 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  25%|██▌       | 1136/4533 [3:05:03<9:10:01,  9.71s/it, gpt_loss=0.281, loss_mean=0.339][A
+Train step of epoch 0:  25%|██▌       | 1137/4533 [3:05:03<8:59:02,  9.52s/it, gpt_loss=0.281, loss_mean=0.339][A2026-01-26 16:53:07.969 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  25%|██▌       | 1137/4533 [3:05:15<8:59:02,  9.52s/it, gpt_loss=0.462, loss_mean=0.351][A
+Train step of epoch 0:  25%|██▌       | 1138/4533 [3:05:15<9:37:47, 10.21s/it, gpt_loss=0.462, loss_mean=0.351][A2026-01-26 16:53:19.876 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  25%|██▌       | 1138/4533 [3:05:24<9:37:47, 10.21s/it, gpt_loss=0.33, loss_mean=0.349] [A
+Train step of epoch 0:  25%|██▌       | 1139/4533 [3:05:24<9:14:19,  9.80s/it, gpt_loss=0.33, loss_mean=0.349][A
+[LID Router Debug] Step: 1140
+Batch Size: 14
+Audio Batch Size: 159
+LID Assignments: [3, 5, 5, 9, 0, 3, 4, 9, 0, 0, 2, 4, 9, 9]
+Active Experts in Batch: {0, 2, 3, 4, 5, 9}
+2026-01-26 16:53:28.693 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  25%|██▌       | 1139/4533 [3:05:36<9:14:19,  9.80s/it, gpt_loss=0.49, loss_mean=0.363][A
+Train step of epoch 0:  25%|██▌       | 1140/4533 [3:05:36<9:50:04, 10.43s/it, gpt_loss=0.49, loss_mean=0.363][A2026-01-26 16:53:40.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  25%|██▌       | 1140/4533 [3:05:45<9:50:04, 10.43s/it, gpt_loss=0.284, loss_mean=0.355][A
+Train step of epoch 0:  25%|██▌       | 1141/4533 [3:05:45<9:20:34,  9.92s/it, gpt_loss=0.284, loss_mean=0.355][A2026-01-26 16:53:49.358 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  25%|██▌       | 1141/4533 [3:05:54<9:20:34,  9.92s/it, gpt_loss=0.307, loss_mean=0.351][A
+Train step of epoch 0:  25%|██▌       | 1142/4533 [3:05:54<9:04:25,  9.63s/it, gpt_loss=0.307, loss_mean=0.351][A2026-01-26 16:53:58.086 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  25%|██▌       | 1142/4533 [3:06:02<9:04:25,  9.63s/it, gpt_loss=0.302, loss_mean=0.346][A
+Train step of epoch 0:  25%|██▌       | 1143/4533 [3:06:02<8:47:32,  9.34s/it, gpt_loss=0.302, loss_mean=0.346][A2026-01-26 16:54:06.986 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  25%|██▌       | 1143/4533 [3:06:11<8:47:32,  9.34s/it, gpt_loss=0.316, loss_mean=0.343][A
+Train step of epoch 0:  25%|██▌       | 1144/4533 [3:06:11<8:43:10,  9.26s/it, gpt_loss=0.316, loss_mean=0.343][A2026-01-26 16:54:15.674 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  25%|██▌       | 1144/4533 [3:06:20<8:43:10,  9.26s/it, gpt_loss=0.315, loss_mean=0.34] [A
+Train step of epoch 0:  25%|██▌       | 1145/4533 [3:06:20<8:32:46,  9.08s/it, gpt_loss=0.315, loss_mean=0.34][A2026-01-26 16:54:24.866 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  25%|██▌       | 1145/4533 [3:06:32<8:32:46,  9.08s/it, gpt_loss=0.447, loss_mean=0.351][A
+Train step of epoch 0:  25%|██▌       | 1146/4533 [3:06:32<9:26:18, 10.03s/it, gpt_loss=0.447, loss_mean=0.351][A2026-01-26 16:54:37.054 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  25%|██▌       | 1146/4533 [3:06:41<9:26:18, 10.03s/it, gpt_loss=0.38, loss_mean=0.354] [A
+Train step of epoch 0:  25%|██▌       | 1147/4533 [3:06:41<9:06:02,  9.68s/it, gpt_loss=0.38, loss_mean=0.354][A2026-01-26 16:54:45.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  25%|██▌       | 1147/4533 [3:06:51<9:06:02,  9.68s/it, gpt_loss=0.358, loss_mean=0.354][A
+Train step of epoch 0:  25%|██▌       | 1148/4533 [3:06:51<9:03:50,  9.64s/it, gpt_loss=0.358, loss_mean=0.354][A2026-01-26 16:54:55.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  25%|██▌       | 1148/4533 [3:06:59<9:03:50,  9.64s/it, gpt_loss=0.288, loss_mean=0.347][A
+Train step of epoch 0:  25%|██▌       | 1149/4533 [3:06:59<8:47:45,  9.36s/it, gpt_loss=0.288, loss_mean=0.347][A
+[LID Router Debug] Step: 1150
+Batch Size: 14
+Audio Batch Size: 135
+LID Assignments: [4, 6, 2, 9, 4, 3, 9, 1, 2, 1, 5, 3, 5, 4]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-26 16:55:04.070 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  25%|██▌       | 1149/4533 [3:07:11<8:47:45,  9.36s/it, gpt_loss=0.429, loss_mean=0.356][A
+Train step of epoch 0:  25%|██▌       | 1150/4533 [3:07:11<9:31:51, 10.14s/it, gpt_loss=0.429, loss_mean=0.356][A2026-01-26 16:55:15.901 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  25%|██▌       | 1150/4533 [3:07:20<9:31:51, 10.14s/it, gpt_loss=0.344, loss_mean=0.354][A
+Train step of epoch 0:  25%|██▌       | 1151/4533 [3:07:20<9:07:24,  9.71s/it, gpt_loss=0.344, loss_mean=0.354][A2026-01-26 16:55:24.788 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  25%|██▌       | 1151/4533 [3:07:29<9:07:24,  9.71s/it, gpt_loss=0.364, loss_mean=0.355][A
+Train step of epoch 0:  25%|██▌       | 1152/4533 [3:07:29<8:55:49,  9.51s/it, gpt_loss=0.364, loss_mean=0.355][A2026-01-26 16:55:33.891 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  25%|██▌       | 1152/4533 [3:07:38<8:55:49,  9.51s/it, gpt_loss=0.275, loss_mean=0.347][A
+Train step of epoch 0:  25%|██▌       | 1153/4533 [3:07:38<8:46:33,  9.35s/it, gpt_loss=0.275, loss_mean=0.347][A2026-01-26 16:55:42.865 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  25%|██▌       | 1153/4533 [3:07:48<8:46:33,  9.35s/it, gpt_loss=0.285, loss_mean=0.341][A
+Train step of epoch 0:  25%|██▌       | 1154/4533 [3:07:48<8:52:12,  9.45s/it, gpt_loss=0.285, loss_mean=0.341][A2026-01-26 16:55:52.382 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  25%|██▌       | 1154/4533 [3:07:57<8:52:12,  9.45s/it, gpt_loss=0.392, loss_mean=0.346][A
+Train step of epoch 0:  25%|██▌       | 1155/4533 [3:07:57<8:44:38,  9.32s/it, gpt_loss=0.392, loss_mean=0.346][A2026-01-26 16:56:01.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  25%|██▌       | 1155/4533 [3:08:06<8:44:38,  9.32s/it, gpt_loss=0.362, loss_mean=0.348][A
+Train step of epoch 0:  26%|██▌       | 1156/4533 [3:08:06<8:36:43,  9.18s/it, gpt_loss=0.362, loss_mean=0.348][A2026-01-26 16:56:10.461 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  26%|██▌       | 1156/4533 [3:08:15<8:36:43,  9.18s/it, gpt_loss=0.284, loss_mean=0.341][A
+Train step of epoch 0:  26%|██▌       | 1157/4533 [3:08:15<8:40:07,  9.24s/it, gpt_loss=0.284, loss_mean=0.341][A2026-01-26 16:56:19.773 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  26%|██▌       | 1157/4533 [3:08:25<8:40:07,  9.24s/it, gpt_loss=0.269, loss_mean=0.334][A
+Train step of epoch 0:  26%|██▌       | 1158/4533 [3:08:25<8:46:10,  9.35s/it, gpt_loss=0.269, loss_mean=0.334][A2026-01-26 16:56:29.063 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  26%|██▌       | 1158/4533 [3:08:34<8:46:10,  9.35s/it, gpt_loss=0.342, loss_mean=0.335][A
+Train step of epoch 0:  26%|██▌       | 1159/4533 [3:08:34<8:47:09,  9.37s/it, gpt_loss=0.342, loss_mean=0.335][A
+[LID Router Debug] Step: 1160
+Batch Size: 14
+Audio Batch Size: 169
+LID Assignments: [3, 3, 4, 5, 3, 9, 4, 1, 1, 0, 3, 4, 0, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 16:56:38.586 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  26%|██▌       | 1159/4533 [3:08:44<8:47:09,  9.37s/it, gpt_loss=0.328, loss_mean=0.334][A
+Train step of epoch 0:  26%|██▌       | 1160/4533 [3:08:44<8:49:10,  9.41s/it, gpt_loss=0.328, loss_mean=0.334][A2026-01-26 16:56:48.287 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  26%|██▌       | 1160/4533 [3:08:53<8:49:10,  9.41s/it, gpt_loss=0.285, loss_mean=0.329][A
+Train step of epoch 0:  26%|██▌       | 1161/4533 [3:08:53<8:41:09,  9.27s/it, gpt_loss=0.285, loss_mean=0.329][A2026-01-26 16:56:57.364 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  26%|██▌       | 1161/4533 [3:09:03<8:41:09,  9.27s/it, gpt_loss=0.366, loss_mean=0.333][A
+Train step of epoch 0:  26%|██▌       | 1162/4533 [3:09:03<8:56:44,  9.55s/it, gpt_loss=0.366, loss_mean=0.333][A2026-01-26 16:57:07.078 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  26%|██▌       | 1162/4533 [3:09:11<8:56:44,  9.55s/it, gpt_loss=0.304, loss_mean=0.33] [A
+Train step of epoch 0:  26%|██▌       | 1163/4533 [3:09:11<8:41:05,  9.28s/it, gpt_loss=0.304, loss_mean=0.33][A2026-01-26 16:57:15.675 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  26%|██▌       | 1163/4533 [3:09:20<8:41:05,  9.28s/it, gpt_loss=0.246, loss_mean=0.322][A
+Train step of epoch 0:  26%|██▌       | 1164/4533 [3:09:20<8:33:40,  9.15s/it, gpt_loss=0.246, loss_mean=0.322][A2026-01-26 16:57:24.796 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  26%|██▌       | 1164/4533 [3:09:29<8:33:40,  9.15s/it, gpt_loss=0.331, loss_mean=0.323][A
+Train step of epoch 0:  26%|██▌       | 1165/4533 [3:09:29<8:29:38,  9.08s/it, gpt_loss=0.331, loss_mean=0.323][A2026-01-26 16:57:33.789 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  26%|██▌       | 1165/4533 [3:09:39<8:29:38,  9.08s/it, gpt_loss=0.421, loss_mean=0.332][A
+Train step of epoch 0:  26%|██▌       | 1166/4533 [3:09:39<8:40:20,  9.27s/it, gpt_loss=0.421, loss_mean=0.332][A2026-01-26 16:57:43.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  26%|██▌       | 1166/4533 [3:09:51<8:40:20,  9.27s/it, gpt_loss=0.487, loss_mean=0.348][A
+Train step of epoch 0:  26%|██▌       | 1167/4533 [3:09:51<9:23:20, 10.04s/it, gpt_loss=0.487, loss_mean=0.348][A2026-01-26 16:57:55.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  26%|██▌       | 1167/4533 [3:10:02<9:23:20, 10.04s/it, gpt_loss=0.452, loss_mean=0.358][A
+Train step of epoch 0:  26%|██▌       | 1168/4533 [3:10:02<9:48:10, 10.49s/it, gpt_loss=0.452, loss_mean=0.358][A2026-01-26 16:58:06.684 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  26%|██▌       | 1168/4533 [3:10:11<9:48:10, 10.49s/it, gpt_loss=0.31, loss_mean=0.353] [A
+Train step of epoch 0:  26%|██▌       | 1169/4533 [3:10:11<9:14:07,  9.88s/it, gpt_loss=0.31, loss_mean=0.353][A
+[LID Router Debug] Step: 1170
+Batch Size: 14
+Audio Batch Size: 134
+LID Assignments: [4, 3, 6, 0, 1, 1, 6, 4, 6, 3, 4, 4, 1, 3]
+Active Experts in Batch: {0, 1, 3, 4, 6}
+2026-01-26 16:58:15.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  26%|██▌       | 1169/4533 [3:10:20<9:14:07,  9.88s/it, gpt_loss=0.342, loss_mean=0.352][A
+Train step of epoch 0:  26%|██▌       | 1170/4533 [3:10:20<9:04:36,  9.72s/it, gpt_loss=0.342, loss_mean=0.352][A2026-01-26 16:58:24.669 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  26%|██▌       | 1170/4533 [3:10:30<9:04:36,  9.72s/it, gpt_loss=0.296, loss_mean=0.347][A
+Train step of epoch 0:  26%|██▌       | 1171/4533 [3:10:30<8:59:33,  9.63s/it, gpt_loss=0.296, loss_mean=0.347][A2026-01-26 16:58:34.267 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  26%|██▌       | 1171/4533 [3:10:42<8:59:33,  9.63s/it, gpt_loss=0.37, loss_mean=0.349] [A
+Train step of epoch 0:  26%|██▌       | 1172/4533 [3:10:42<9:41:34, 10.38s/it, gpt_loss=0.37, loss_mean=0.349][A2026-01-26 16:58:46.295 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  26%|██▌       | 1172/4533 [3:10:54<9:41:34, 10.38s/it, gpt_loss=0.351, loss_mean=0.349][A
+Train step of epoch 0:  26%|██▌       | 1173/4533 [3:10:54<10:06:07, 10.82s/it, gpt_loss=0.351, loss_mean=0.349][A2026-01-26 16:58:57.857 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  26%|██▌       | 1173/4533 [3:11:02<10:06:07, 10.82s/it, gpt_loss=0.293, loss_mean=0.344][A
+Train step of epoch 0:  26%|██▌       | 1174/4533 [3:11:02<9:31:32, 10.21s/it, gpt_loss=0.293, loss_mean=0.344] [A2026-01-26 16:59:06.972 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  26%|██▌       | 1174/4533 [3:11:11<9:31:32, 10.21s/it, gpt_loss=0.258, loss_mean=0.335][A
+Train step of epoch 0:  26%|██▌       | 1175/4533 [3:11:11<9:10:53,  9.84s/it, gpt_loss=0.258, loss_mean=0.335][A2026-01-26 16:59:15.886 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  26%|██▌       | 1175/4533 [3:11:20<9:10:53,  9.84s/it, gpt_loss=0.34, loss_mean=0.336] [A
+Train step of epoch 0:  26%|██▌       | 1176/4533 [3:11:20<8:52:16,  9.51s/it, gpt_loss=0.34, loss_mean=0.336][A2026-01-26 16:59:24.479 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  26%|██▌       | 1176/4533 [3:11:29<8:52:16,  9.51s/it, gpt_loss=0.387, loss_mean=0.341][A
+Train step of epoch 0:  26%|██▌       | 1177/4533 [3:11:29<8:43:54,  9.37s/it, gpt_loss=0.387, loss_mean=0.341][A2026-01-26 16:59:33.758 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  26%|██▌       | 1177/4533 [3:11:39<8:43:54,  9.37s/it, gpt_loss=0.332, loss_mean=0.34] [A
+Train step of epoch 0:  26%|██▌       | 1178/4533 [3:11:39<8:50:49,  9.49s/it, gpt_loss=0.332, loss_mean=0.34][A2026-01-26 16:59:43.472 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  26%|██▌       | 1178/4533 [3:11:48<8:50:49,  9.49s/it, gpt_loss=0.315, loss_mean=0.337][A
+Train step of epoch 0:  26%|██▌       | 1179/4533 [3:11:48<8:53:12,  9.54s/it, gpt_loss=0.315, loss_mean=0.337][A
+[LID Router Debug] Step: 1180
+Batch Size: 14
+Audio Batch Size: 135
+LID Assignments: [2, 0, 0, 0, 2, 4, 9, 5, 5, 6, 1, 9, 0, 0]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-26 16:59:53.175 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  26%|██▌       | 1179/4533 [3:11:58<8:53:12,  9.54s/it, gpt_loss=0.364, loss_mean=0.34] [A
+Train step of epoch 0:  26%|██▌       | 1180/4533 [3:11:58<8:59:59,  9.66s/it, gpt_loss=0.364, loss_mean=0.34][A2026-01-26 17:00:02.851 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  26%|██▌       | 1180/4533 [3:12:07<8:59:59,  9.66s/it, gpt_loss=0.294, loss_mean=0.335][A
+Train step of epoch 0:  26%|██▌       | 1181/4533 [3:12:07<8:41:29,  9.33s/it, gpt_loss=0.294, loss_mean=0.335][A2026-01-26 17:00:11.657 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  26%|██▌       | 1181/4533 [3:12:17<8:41:29,  9.33s/it, gpt_loss=0.317, loss_mean=0.334][A
+Train step of epoch 0:  26%|██▌       | 1182/4533 [3:12:17<8:53:14,  9.55s/it, gpt_loss=0.317, loss_mean=0.334][A2026-01-26 17:00:21.494 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  26%|██▌       | 1182/4533 [3:12:26<8:53:14,  9.55s/it, gpt_loss=0.305, loss_mean=0.331][A
+Train step of epoch 0:  26%|██▌       | 1183/4533 [3:12:26<8:38:46,  9.29s/it, gpt_loss=0.305, loss_mean=0.331][A2026-01-26 17:00:30.479 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  26%|██▌       | 1183/4533 [3:12:38<8:38:46,  9.29s/it, gpt_loss=0.477, loss_mean=0.345][A
+Train step of epoch 0:  26%|██▌       | 1184/4533 [3:12:38<9:21:14, 10.06s/it, gpt_loss=0.477, loss_mean=0.345][A2026-01-26 17:00:42.168 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  26%|██▌       | 1184/4533 [3:12:47<9:21:14, 10.06s/it, gpt_loss=0.266, loss_mean=0.337][A
+Train step of epoch 0:  26%|██▌       | 1185/4533 [3:12:47<9:14:37,  9.94s/it, gpt_loss=0.266, loss_mean=0.337][A2026-01-26 17:00:51.853 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  26%|██▌       | 1185/4533 [3:12:56<9:14:37,  9.94s/it, gpt_loss=0.308, loss_mean=0.334][A
+Train step of epoch 0:  26%|██▌       | 1186/4533 [3:12:56<9:00:20,  9.69s/it, gpt_loss=0.308, loss_mean=0.334][A2026-01-26 17:01:00.593 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  26%|██▌       | 1186/4533 [3:13:06<9:00:20,  9.69s/it, gpt_loss=0.265, loss_mean=0.328][A
+Train step of epoch 0:  26%|██▌       | 1187/4533 [3:13:06<8:54:57,  9.59s/it, gpt_loss=0.265, loss_mean=0.328][A2026-01-26 17:01:10.353 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  26%|██▌       | 1187/4533 [3:13:15<8:54:57,  9.59s/it, gpt_loss=0.308, loss_mean=0.326][A
+Train step of epoch 0:  26%|██▌       | 1188/4533 [3:13:15<8:54:51,  9.59s/it, gpt_loss=0.308, loss_mean=0.326][A2026-01-26 17:01:19.766 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  26%|██▌       | 1188/4533 [3:13:24<8:54:51,  9.59s/it, gpt_loss=0.354, loss_mean=0.328][A
+Train step of epoch 0:  26%|██▌       | 1189/4533 [3:13:24<8:39:06,  9.31s/it, gpt_loss=0.354, loss_mean=0.328][A
+[LID Router Debug] Step: 1190
+Batch Size: 14
+Audio Batch Size: 174
+LID Assignments: [5, 4, 2, 1, 9, 1, 9, 3, 4, 0, 1, 9, 0, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 17:01:28.194 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  26%|██▌       | 1189/4533 [3:13:32<8:39:06,  9.31s/it, gpt_loss=0.27, loss_mean=0.323] [A
+Train step of epoch 0:  26%|██▋       | 1190/4533 [3:13:32<8:24:08,  9.05s/it, gpt_loss=0.27, loss_mean=0.323][A2026-01-26 17:01:37.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  26%|██▋       | 1190/4533 [3:13:44<8:24:08,  9.05s/it, gpt_loss=0.391, loss_mean=0.329][A
+Train step of epoch 0:  26%|██▋       | 1191/4533 [3:13:44<9:13:18,  9.93s/it, gpt_loss=0.391, loss_mean=0.329][A2026-01-26 17:01:49.052 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  26%|██▋       | 1191/4533 [3:13:53<9:13:18,  9.93s/it, gpt_loss=0.227, loss_mean=0.319][A
+Train step of epoch 0:  26%|██▋       | 1192/4533 [3:13:53<8:52:16,  9.56s/it, gpt_loss=0.227, loss_mean=0.319][A2026-01-26 17:01:57.783 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  26%|██▋       | 1192/4533 [3:14:02<8:52:16,  9.56s/it, gpt_loss=0.291, loss_mean=0.316][A
+Train step of epoch 0:  26%|██▋       | 1193/4533 [3:14:02<8:45:56,  9.45s/it, gpt_loss=0.291, loss_mean=0.316][A2026-01-26 17:02:06.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  26%|██▋       | 1193/4533 [3:14:14<8:45:56,  9.45s/it, gpt_loss=0.379, loss_mean=0.323][A
+Train step of epoch 0:  26%|██▋       | 1194/4533 [3:14:14<9:23:41, 10.13s/it, gpt_loss=0.379, loss_mean=0.323][A2026-01-26 17:02:18.362 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  26%|██▋       | 1194/4533 [3:14:23<9:23:41, 10.13s/it, gpt_loss=0.28, loss_mean=0.318] [A
+Train step of epoch 0:  26%|██▋       | 1195/4533 [3:14:23<8:59:02,  9.69s/it, gpt_loss=0.28, loss_mean=0.318][A2026-01-26 17:02:27.366 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  26%|██▋       | 1195/4533 [3:14:35<8:59:02,  9.69s/it, gpt_loss=0.415, loss_mean=0.328][A
+Train step of epoch 0:  26%|██▋       | 1196/4533 [3:14:35<9:37:27, 10.38s/it, gpt_loss=0.415, loss_mean=0.328][A2026-01-26 17:02:39.286 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  26%|██▋       | 1196/4533 [3:14:44<9:37:27, 10.38s/it, gpt_loss=0.291, loss_mean=0.324][A
+Train step of epoch 0:  26%|██▋       | 1197/4533 [3:14:44<9:25:12, 10.17s/it, gpt_loss=0.291, loss_mean=0.324][A2026-01-26 17:02:48.985 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  26%|██▋       | 1197/4533 [3:14:53<9:25:12, 10.17s/it, gpt_loss=0.367, loss_mean=0.329][A
+Train step of epoch 0:  26%|██▋       | 1198/4533 [3:14:53<9:04:12,  9.79s/it, gpt_loss=0.367, loss_mean=0.329][A2026-01-26 17:02:57.553 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  26%|██▋       | 1198/4533 [3:15:02<9:04:12,  9.79s/it, gpt_loss=0.339, loss_mean=0.33] [A
+Train step of epoch 0:  26%|██▋       | 1199/4533 [3:15:02<8:53:40,  9.60s/it, gpt_loss=0.339, loss_mean=0.33][A
+[LID Router Debug] Step: 1200
+Batch Size: 14
+Audio Batch Size: 159
+LID Assignments: [5, 0, 2, 6, 9, 9, 0, 9, 6, 3, 1, 2, 9, 2]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-26 17:03:07.177 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+[2026-01-26 17:03:15,345] [INFO] [logging.py:96:log_dist] [Rank 0] step=1200, skipped=0, lr=[1.969335410699593e-05, 1.969335410699593e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 17:03:15,346] [INFO] [timer.py:260:stop] epoch=0/micro_step=1200/global_step=1200, RunningAvgSamplesPerSec=5.764277820803589, CurrSamplesPerSec=6.222334475246473, MemAllocated=14.68GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  26%|██▋       | 1199/4533 [3:15:11<8:53:40,  9.60s/it, gpt_loss=0.385, loss_mean=0.335][A
+Train step of epoch 0:  26%|██▋       | 1200/4533 [3:15:11<8:43:44,  9.43s/it, gpt_loss=0.385, loss_mean=0.335][A2026-01-26 17:03:15.959 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  26%|██▋       | 1200/4533 [3:15:21<8:43:44,  9.43s/it, gpt_loss=0.319, loss_mean=0.334][A
+Train step of epoch 0:  26%|██▋       | 1201/4533 [3:15:21<8:45:04,  9.45s/it, gpt_loss=0.319, loss_mean=0.334][A2026-01-26 17:03:25.380 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  26%|██▋       | 1201/4533 [3:15:30<8:45:04,  9.45s/it, gpt_loss=0.266, loss_mean=0.327][A
+Train step of epoch 0:  27%|██▋       | 1202/4533 [3:15:30<8:36:43,  9.31s/it, gpt_loss=0.266, loss_mean=0.327][A2026-01-26 17:03:34.554 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  27%|██▋       | 1202/4533 [3:15:39<8:36:43,  9.31s/it, gpt_loss=0.371, loss_mean=0.331][A
+Train step of epoch 0:  27%|██▋       | 1203/4533 [3:15:39<8:35:47,  9.29s/it, gpt_loss=0.371, loss_mean=0.331][A2026-01-26 17:03:43.778 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  27%|██▋       | 1203/4533 [3:15:49<8:35:47,  9.29s/it, gpt_loss=0.317, loss_mean=0.33] [A
+Train step of epoch 0:  27%|██▋       | 1204/4533 [3:15:49<8:44:47,  9.46s/it, gpt_loss=0.317, loss_mean=0.33][A2026-01-26 17:03:53.480 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  27%|██▋       | 1204/4533 [3:15:58<8:44:47,  9.46s/it, gpt_loss=0.32, loss_mean=0.329][A
+Train step of epoch 0:  27%|██▋       | 1205/4533 [3:15:58<8:43:43,  9.44s/it, gpt_loss=0.32, loss_mean=0.329][A2026-01-26 17:04:02.595 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  27%|██▋       | 1205/4533 [3:16:07<8:43:43,  9.44s/it, gpt_loss=0.25, loss_mean=0.321][A
+Train step of epoch 0:  27%|██▋       | 1206/4533 [3:16:07<8:26:42,  9.14s/it, gpt_loss=0.25, loss_mean=0.321][A2026-01-26 17:04:11.253 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  27%|██▋       | 1206/4533 [3:16:15<8:26:42,  9.14s/it, gpt_loss=0.317, loss_mean=0.321][A
+Train step of epoch 0:  27%|██▋       | 1207/4533 [3:16:15<8:17:23,  8.97s/it, gpt_loss=0.317, loss_mean=0.321][A2026-01-26 17:04:19.997 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  27%|██▋       | 1207/4533 [3:16:25<8:17:23,  8.97s/it, gpt_loss=0.266, loss_mean=0.315][A
+Train step of epoch 0:  27%|██▋       | 1208/4533 [3:16:25<8:28:13,  9.17s/it, gpt_loss=0.266, loss_mean=0.315][A2026-01-26 17:04:29.163 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  27%|██▋       | 1208/4533 [3:16:34<8:28:13,  9.17s/it, gpt_loss=0.35, loss_mean=0.319] [A
+Train step of epoch 0:  27%|██▋       | 1209/4533 [3:16:34<8:23:27,  9.09s/it, gpt_loss=0.35, loss_mean=0.319][A
+[LID Router Debug] Step: 1210
+Batch Size: 14
+Audio Batch Size: 170
+LID Assignments: [3, 3, 2, 2, 2, 6, 5, 9, 9, 2, 6, 5, 1, 1]
+Active Experts in Batch: {1, 2, 3, 5, 6, 9}
+2026-01-26 17:04:38.191 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  27%|██▋       | 1209/4533 [3:16:42<8:23:27,  9.09s/it, gpt_loss=0.306, loss_mean=0.317][A
+Train step of epoch 0:  27%|██▋       | 1210/4533 [3:16:42<8:13:34,  8.91s/it, gpt_loss=0.306, loss_mean=0.317][A2026-01-26 17:04:47.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  27%|██▋       | 1210/4533 [3:16:52<8:13:34,  8.91s/it, gpt_loss=0.336, loss_mean=0.319][A
+Train step of epoch 0:  27%|██▋       | 1211/4533 [3:16:52<8:25:27,  9.13s/it, gpt_loss=0.336, loss_mean=0.319][A2026-01-26 17:04:56.769 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  27%|██▋       | 1211/4533 [3:17:01<8:25:27,  9.13s/it, gpt_loss=0.252, loss_mean=0.312][A
+Train step of epoch 0:  27%|██▋       | 1212/4533 [3:17:01<8:26:12,  9.15s/it, gpt_loss=0.252, loss_mean=0.312][A2026-01-26 17:05:05.851 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  27%|██▋       | 1212/4533 [3:17:10<8:26:12,  9.15s/it, gpt_loss=0.36, loss_mean=0.317] [A
+Train step of epoch 0:  27%|██▋       | 1213/4533 [3:17:10<8:18:34,  9.01s/it, gpt_loss=0.36, loss_mean=0.317][A2026-01-26 17:05:14.666 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  27%|██▋       | 1213/4533 [3:17:22<8:18:34,  9.01s/it, gpt_loss=0.38, loss_mean=0.323][A
+Train step of epoch 0:  27%|██▋       | 1214/4533 [3:17:22<9:08:54,  9.92s/it, gpt_loss=0.38, loss_mean=0.323][A2026-01-26 17:05:26.657 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  27%|██▋       | 1214/4533 [3:17:31<9:08:54,  9.92s/it, gpt_loss=0.291, loss_mean=0.32][A
+Train step of epoch 0:  27%|██▋       | 1215/4533 [3:17:31<8:48:50,  9.56s/it, gpt_loss=0.291, loss_mean=0.32][A2026-01-26 17:05:35.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  27%|██▋       | 1215/4533 [3:17:40<8:48:50,  9.56s/it, gpt_loss=0.261, loss_mean=0.314][A
+Train step of epoch 0:  27%|██▋       | 1216/4533 [3:17:40<8:36:41,  9.35s/it, gpt_loss=0.261, loss_mean=0.314][A2026-01-26 17:05:43.881 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  27%|██▋       | 1216/4533 [3:17:48<8:36:41,  9.35s/it, gpt_loss=0.264, loss_mean=0.309][A
+Train step of epoch 0:  27%|██▋       | 1217/4533 [3:17:48<8:23:20,  9.11s/it, gpt_loss=0.264, loss_mean=0.309][A2026-01-26 17:05:52.666 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  27%|██▋       | 1217/4533 [3:17:57<8:23:20,  9.11s/it, gpt_loss=0.344, loss_mean=0.313][A
+Train step of epoch 0:  27%|██▋       | 1218/4533 [3:17:57<8:19:13,  9.04s/it, gpt_loss=0.344, loss_mean=0.313][A2026-01-26 17:06:01.685 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  27%|██▋       | 1218/4533 [3:18:06<8:19:13,  9.04s/it, gpt_loss=0.306, loss_mean=0.312][A
+Train step of epoch 0:  27%|██▋       | 1219/4533 [3:18:06<8:23:30,  9.12s/it, gpt_loss=0.306, loss_mean=0.312][A
+[LID Router Debug] Step: 1220
+Batch Size: 14
+Audio Batch Size: 121
+LID Assignments: [2, 1, 1, 2, 4, 4, 1, 1, 1, 6, 1, 2, 5, 0]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6}
+2026-01-26 17:06:10.571 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  27%|██▋       | 1219/4533 [3:18:15<8:23:30,  9.12s/it, gpt_loss=0.313, loss_mean=0.312][A
+Train step of epoch 0:  27%|██▋       | 1220/4533 [3:18:15<8:12:38,  8.92s/it, gpt_loss=0.313, loss_mean=0.312][A2026-01-26 17:06:19.362 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  27%|██▋       | 1220/4533 [3:18:24<8:12:38,  8.92s/it, gpt_loss=0.283, loss_mean=0.309][A
+Train step of epoch 0:  27%|██▋       | 1221/4533 [3:18:24<8:16:17,  8.99s/it, gpt_loss=0.283, loss_mean=0.309][A2026-01-26 17:06:28.150 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  27%|██▋       | 1221/4533 [3:18:32<8:16:17,  8.99s/it, gpt_loss=0.264, loss_mean=0.305][A
+Train step of epoch 0:  27%|██▋       | 1222/4533 [3:18:32<8:07:56,  8.84s/it, gpt_loss=0.264, loss_mean=0.305][A2026-01-26 17:06:36.777 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  27%|██▋       | 1222/4533 [3:18:41<8:07:56,  8.84s/it, gpt_loss=0.361, loss_mean=0.31] [A
+Train step of epoch 0:  27%|██▋       | 1223/4533 [3:18:41<8:04:01,  8.77s/it, gpt_loss=0.361, loss_mean=0.31][A2026-01-26 17:06:45.689 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  27%|██▋       | 1223/4533 [3:18:50<8:04:01,  8.77s/it, gpt_loss=0.279, loss_mean=0.307][A
+Train step of epoch 0:  27%|██▋       | 1224/4533 [3:18:50<8:11:27,  8.91s/it, gpt_loss=0.279, loss_mean=0.307][A2026-01-26 17:06:54.879 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  27%|██▋       | 1224/4533 [3:18:59<8:11:27,  8.91s/it, gpt_loss=0.247, loss_mean=0.301][A
+Train step of epoch 0:  27%|██▋       | 1225/4533 [3:18:59<8:08:40,  8.86s/it, gpt_loss=0.247, loss_mean=0.301][A2026-01-26 17:07:03.695 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  27%|██▋       | 1225/4533 [3:19:08<8:08:40,  8.86s/it, gpt_loss=0.365, loss_mean=0.308][A
+Train step of epoch 0:  27%|██▋       | 1226/4533 [3:19:08<8:11:57,  8.93s/it, gpt_loss=0.365, loss_mean=0.308][A2026-01-26 17:07:12.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  27%|██▋       | 1226/4533 [3:19:17<8:11:57,  8.93s/it, gpt_loss=0.286, loss_mean=0.305][A
+Train step of epoch 0:  27%|██▋       | 1227/4533 [3:19:17<8:07:22,  8.85s/it, gpt_loss=0.286, loss_mean=0.305][A2026-01-26 17:07:21.278 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  27%|██▋       | 1227/4533 [3:19:26<8:07:22,  8.85s/it, gpt_loss=0.317, loss_mean=0.307][A
+Train step of epoch 0:  27%|██▋       | 1228/4533 [3:19:26<8:19:57,  9.08s/it, gpt_loss=0.317, loss_mean=0.307][A2026-01-26 17:07:31.055 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  27%|██▋       | 1228/4533 [3:19:35<8:19:57,  9.08s/it, gpt_loss=0.318, loss_mean=0.308][A
+Train step of epoch 0:  27%|██▋       | 1229/4533 [3:19:35<8:18:48,  9.06s/it, gpt_loss=0.318, loss_mean=0.308][A
+[LID Router Debug] Step: 1230
+Batch Size: 14
+Audio Batch Size: 112
+LID Assignments: [2, 1, 2, 2, 2, 4, 1, 2, 1, 5, 4, 4, 5, 5]
+Active Experts in Batch: {1, 2, 4, 5}
+2026-01-26 17:07:40.075 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  27%|██▋       | 1229/4533 [3:19:44<8:18:48,  9.06s/it, gpt_loss=0.259, loss_mean=0.303][A
+Train step of epoch 0:  27%|██▋       | 1230/4533 [3:19:44<8:18:55,  9.06s/it, gpt_loss=0.259, loss_mean=0.303][A2026-01-26 17:07:48.961 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  27%|██▋       | 1230/4533 [3:19:54<8:18:55,  9.06s/it, gpt_loss=0.338, loss_mean=0.306][A
+Train step of epoch 0:  27%|██▋       | 1231/4533 [3:19:54<8:30:10,  9.27s/it, gpt_loss=0.338, loss_mean=0.306][A2026-01-26 17:07:58.765 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  27%|██▋       | 1231/4533 [3:20:06<8:30:10,  9.27s/it, gpt_loss=0.498, loss_mean=0.325][A
+Train step of epoch 0:  27%|██▋       | 1232/4533 [3:20:06<9:09:01,  9.98s/it, gpt_loss=0.498, loss_mean=0.325][A2026-01-26 17:08:10.363 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  27%|██▋       | 1232/4533 [3:20:15<9:09:01,  9.98s/it, gpt_loss=0.323, loss_mean=0.325][A
+Train step of epoch 0:  27%|██▋       | 1233/4533 [3:20:15<8:52:30,  9.68s/it, gpt_loss=0.323, loss_mean=0.325][A2026-01-26 17:08:19.388 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  27%|██▋       | 1233/4533 [3:20:23<8:52:30,  9.68s/it, gpt_loss=0.272, loss_mean=0.32] [A
+Train step of epoch 0:  27%|██▋       | 1234/4533 [3:20:23<8:33:46,  9.34s/it, gpt_loss=0.272, loss_mean=0.32][A2026-01-26 17:08:27.884 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  27%|██▋       | 1234/4533 [3:20:32<8:33:46,  9.34s/it, gpt_loss=0.362, loss_mean=0.324][A
+Train step of epoch 0:  27%|██▋       | 1235/4533 [3:20:32<8:29:16,  9.27s/it, gpt_loss=0.362, loss_mean=0.324][A2026-01-26 17:08:36.472 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  27%|██▋       | 1235/4533 [3:20:44<8:29:16,  9.27s/it, gpt_loss=0.364, loss_mean=0.328][A
+Train step of epoch 0:  27%|██▋       | 1236/4533 [3:20:44<9:12:36, 10.06s/it, gpt_loss=0.364, loss_mean=0.328][A2026-01-26 17:08:48.989 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  27%|██▋       | 1236/4533 [3:20:53<9:12:36, 10.06s/it, gpt_loss=0.285, loss_mean=0.324][A
+Train step of epoch 0:  27%|██▋       | 1237/4533 [3:20:53<8:55:08,  9.74s/it, gpt_loss=0.285, loss_mean=0.324][A2026-01-26 17:08:57.752 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  27%|██▋       | 1237/4533 [3:21:02<8:55:08,  9.74s/it, gpt_loss=0.352, loss_mean=0.327][A
+Train step of epoch 0:  27%|██▋       | 1238/4533 [3:21:02<8:36:33,  9.41s/it, gpt_loss=0.352, loss_mean=0.327][A2026-01-26 17:09:06.499 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  27%|██▋       | 1238/4533 [3:21:12<8:36:33,  9.41s/it, gpt_loss=0.324, loss_mean=0.326][A
+Train step of epoch 0:  27%|██▋       | 1239/4533 [3:21:12<8:40:27,  9.48s/it, gpt_loss=0.324, loss_mean=0.326][A
+[LID Router Debug] Step: 1240
+Batch Size: 14
+Audio Batch Size: 146
+LID Assignments: [3, 2, 1, 1, 1, 4, 2, 4, 3, 0, 4, 0, 2, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4}
+2026-01-26 17:09:16.068 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  27%|██▋       | 1239/4533 [3:21:23<8:40:27,  9.48s/it, gpt_loss=0.355, loss_mean=0.329][A
+Train step of epoch 0:  27%|██▋       | 1240/4533 [3:21:23<9:18:08, 10.17s/it, gpt_loss=0.355, loss_mean=0.329][A2026-01-26 17:09:28.078 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  27%|██▋       | 1240/4533 [3:21:32<9:18:08, 10.17s/it, gpt_loss=0.33, loss_mean=0.329] [A
+Train step of epoch 0:  27%|██▋       | 1241/4533 [3:21:32<8:58:50,  9.82s/it, gpt_loss=0.33, loss_mean=0.329][A2026-01-26 17:09:37.174 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  27%|██▋       | 1241/4533 [3:21:44<8:58:50,  9.82s/it, gpt_loss=0.378, loss_mean=0.334][A
+Train step of epoch 0:  27%|██▋       | 1242/4533 [3:21:44<9:32:34, 10.44s/it, gpt_loss=0.378, loss_mean=0.334][A2026-01-26 17:09:48.894 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  27%|██▋       | 1242/4533 [3:21:54<9:32:34, 10.44s/it, gpt_loss=0.34, loss_mean=0.335] [A
+Train step of epoch 0:  27%|██▋       | 1243/4533 [3:21:54<9:16:07, 10.14s/it, gpt_loss=0.34, loss_mean=0.335][A2026-01-26 17:09:58.381 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  27%|██▋       | 1243/4533 [3:22:03<9:16:07, 10.14s/it, gpt_loss=0.308, loss_mean=0.332][A
+Train step of epoch 0:  27%|██▋       | 1244/4533 [3:22:03<8:55:22,  9.77s/it, gpt_loss=0.308, loss_mean=0.332][A2026-01-26 17:10:07.272 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  27%|██▋       | 1244/4533 [3:22:12<8:55:22,  9.77s/it, gpt_loss=0.308, loss_mean=0.33] [A
+Train step of epoch 0:  27%|██▋       | 1245/4533 [3:22:12<8:51:05,  9.69s/it, gpt_loss=0.308, loss_mean=0.33][A2026-01-26 17:10:16.783 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  27%|██▋       | 1245/4533 [3:22:21<8:51:05,  9.69s/it, gpt_loss=0.257, loss_mean=0.322][A
+Train step of epoch 0:  27%|██▋       | 1246/4533 [3:22:21<8:41:52,  9.53s/it, gpt_loss=0.257, loss_mean=0.322][A2026-01-26 17:10:26.068 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  27%|██▋       | 1246/4533 [3:22:33<8:41:52,  9.53s/it, gpt_loss=0.395, loss_mean=0.33] [A
+Train step of epoch 0:  28%|██▊       | 1247/4533 [3:22:33<9:19:27, 10.22s/it, gpt_loss=0.395, loss_mean=0.33][A2026-01-26 17:10:37.680 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  28%|██▊       | 1247/4533 [3:22:43<9:19:27, 10.22s/it, gpt_loss=0.369, loss_mean=0.334][A
+Train step of epoch 0:  28%|██▊       | 1248/4533 [3:22:43<9:08:27, 10.02s/it, gpt_loss=0.369, loss_mean=0.334][A2026-01-26 17:10:47.280 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  28%|██▊       | 1248/4533 [3:22:52<9:08:27, 10.02s/it, gpt_loss=0.28, loss_mean=0.328] [A
+Train step of epoch 0:  28%|██▊       | 1249/4533 [3:22:52<8:49:10,  9.67s/it, gpt_loss=0.28, loss_mean=0.328][A
+[LID Router Debug] Step: 1250
+Batch Size: 14
+Audio Batch Size: 134
+LID Assignments: [1, 4, 1, 4, 9, 1, 3, 9, 1, 9, 1, 2, 3, 4]
+Active Experts in Batch: {1, 2, 3, 4, 9}
+2026-01-26 17:10:56.065 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  28%|██▊       | 1249/4533 [3:23:04<8:49:10,  9.67s/it, gpt_loss=0.39, loss_mean=0.334][A
+Train step of epoch 0:  28%|██▊       | 1250/4533 [3:23:04<9:28:17, 10.39s/it, gpt_loss=0.39, loss_mean=0.334][A2026-01-26 17:11:08.189 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  28%|██▊       | 1250/4533 [3:23:15<9:28:17, 10.39s/it, gpt_loss=0.431, loss_mean=0.344][A
+Train step of epoch 0:  28%|██▊       | 1251/4533 [3:23:15<9:51:50, 10.82s/it, gpt_loss=0.431, loss_mean=0.344][A2026-01-26 17:11:19.989 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  28%|██▊       | 1251/4533 [3:23:24<9:51:50, 10.82s/it, gpt_loss=0.247, loss_mean=0.334][A
+Train step of epoch 0:  28%|██▊       | 1252/4533 [3:23:24<9:21:20, 10.27s/it, gpt_loss=0.247, loss_mean=0.334][A2026-01-26 17:11:28.982 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  28%|██▊       | 1252/4533 [3:23:33<9:21:20, 10.27s/it, gpt_loss=0.293, loss_mean=0.33] [A
+Train step of epoch 0:  28%|██▊       | 1253/4533 [3:23:33<8:56:37,  9.82s/it, gpt_loss=0.293, loss_mean=0.33][A2026-01-26 17:11:37.871 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  28%|██▊       | 1253/4533 [3:23:45<8:56:37,  9.82s/it, gpt_loss=0.375, loss_mean=0.335][A
+Train step of epoch 0:  28%|██▊       | 1254/4533 [3:23:45<9:26:01, 10.36s/it, gpt_loss=0.375, loss_mean=0.335][A2026-01-26 17:11:49.457 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  28%|██▊       | 1254/4533 [3:23:57<9:26:01, 10.36s/it, gpt_loss=0.472, loss_mean=0.348][A
+Train step of epoch 0:  28%|██▊       | 1255/4533 [3:23:57<9:55:46, 10.91s/it, gpt_loss=0.472, loss_mean=0.348][A2026-01-26 17:12:01.076 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  28%|██▊       | 1255/4533 [3:24:05<9:55:46, 10.91s/it, gpt_loss=0.284, loss_mean=0.342][A
+Train step of epoch 0:  28%|██▊       | 1256/4533 [3:24:05<9:16:03, 10.18s/it, gpt_loss=0.284, loss_mean=0.342][A2026-01-26 17:12:10.159 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  28%|██▊       | 1256/4533 [3:24:15<9:16:03, 10.18s/it, gpt_loss=0.327, loss_mean=0.34] [A
+Train step of epoch 0:  28%|██▊       | 1257/4533 [3:24:15<9:09:29, 10.06s/it, gpt_loss=0.327, loss_mean=0.34][A2026-01-26 17:12:19.965 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  28%|██▊       | 1257/4533 [3:24:24<9:09:29, 10.06s/it, gpt_loss=0.353, loss_mean=0.342][A
+Train step of epoch 0:  28%|██▊       | 1258/4533 [3:24:24<8:52:16,  9.75s/it, gpt_loss=0.353, loss_mean=0.342][A2026-01-26 17:12:28.380 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  28%|██▊       | 1258/4533 [3:24:34<8:52:16,  9.75s/it, gpt_loss=0.318, loss_mean=0.339][A
+Train step of epoch 0:  28%|██▊       | 1259/4533 [3:24:34<8:46:18,  9.65s/it, gpt_loss=0.318, loss_mean=0.339][A
+[LID Router Debug] Step: 1260
+Batch Size: 14
+Audio Batch Size: 161
+LID Assignments: [3, 1, 3, 9, 0, 2, 3, 0, 4, 6, 9, 1, 1, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-26 17:12:38.293 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  28%|██▊       | 1259/4533 [3:24:46<8:46:18,  9.65s/it, gpt_loss=0.339, loss_mean=0.339][A
+Train step of epoch 0:  28%|██▊       | 1260/4533 [3:24:46<9:31:26, 10.48s/it, gpt_loss=0.339, loss_mean=0.339][A2026-01-26 17:12:50.653 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  28%|██▊       | 1260/4533 [3:24:58<9:31:26, 10.48s/it, gpt_loss=0.425, loss_mean=0.348][A
+Train step of epoch 0:  28%|██▊       | 1261/4533 [3:24:58<9:52:52, 10.87s/it, gpt_loss=0.425, loss_mean=0.348][A2026-01-26 17:13:02.571 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  28%|██▊       | 1261/4533 [3:25:08<9:52:52, 10.87s/it, gpt_loss=0.374, loss_mean=0.351][A
+Train step of epoch 0:  28%|██▊       | 1262/4533 [3:25:08<9:34:47, 10.54s/it, gpt_loss=0.374, loss_mean=0.351][A2026-01-26 17:13:12.088 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  28%|██▊       | 1262/4533 [3:25:16<9:34:47, 10.54s/it, gpt_loss=0.312, loss_mean=0.347][A
+Train step of epoch 0:  28%|██▊       | 1263/4533 [3:25:16<9:02:18,  9.95s/it, gpt_loss=0.312, loss_mean=0.347][A2026-01-26 17:13:20.882 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  28%|██▊       | 1263/4533 [3:25:25<9:02:18,  9.95s/it, gpt_loss=0.276, loss_mean=0.34] [A
+Train step of epoch 0:  28%|██▊       | 1264/4533 [3:25:25<8:50:16,  9.73s/it, gpt_loss=0.276, loss_mean=0.34][A2026-01-26 17:13:30.083 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  28%|██▊       | 1264/4533 [3:25:34<8:50:16,  9.73s/it, gpt_loss=0.305, loss_mean=0.336][A
+Train step of epoch 0:  28%|██▊       | 1265/4533 [3:25:34<8:32:53,  9.42s/it, gpt_loss=0.305, loss_mean=0.336][A2026-01-26 17:13:38.581 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  28%|██▊       | 1265/4533 [3:25:46<8:32:53,  9.42s/it, gpt_loss=0.445, loss_mean=0.347][A
+Train step of epoch 0:  28%|██▊       | 1266/4533 [3:25:46<9:09:06, 10.08s/it, gpt_loss=0.445, loss_mean=0.347][A2026-01-26 17:13:50.486 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  28%|██▊       | 1266/4533 [3:25:55<9:09:06, 10.08s/it, gpt_loss=0.27, loss_mean=0.339] [A
+Train step of epoch 0:  28%|██▊       | 1267/4533 [3:25:55<8:53:07,  9.79s/it, gpt_loss=0.27, loss_mean=0.339][A2026-01-26 17:13:59.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  28%|██▊       | 1267/4533 [3:26:04<8:53:07,  9.79s/it, gpt_loss=0.333, loss_mean=0.339][A
+Train step of epoch 0:  28%|██▊       | 1268/4533 [3:26:04<8:43:39,  9.62s/it, gpt_loss=0.333, loss_mean=0.339][A2026-01-26 17:14:08.767 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  28%|██▊       | 1268/4533 [3:26:13<8:43:39,  9.62s/it, gpt_loss=0.354, loss_mean=0.34] [A
+Train step of epoch 0:  28%|██▊       | 1269/4533 [3:26:13<8:34:07,  9.45s/it, gpt_loss=0.354, loss_mean=0.34][A
+[LID Router Debug] Step: 1270
+Batch Size: 14
+Audio Batch Size: 140
+LID Assignments: [4, 3, 3, 4, 4, 9, 2, 4, 4, 6, 3, 0, 5, 4]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-26 17:14:17.860 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  28%|██▊       | 1269/4533 [3:26:22<8:34:07,  9.45s/it, gpt_loss=0.279, loss_mean=0.334][A
+Train step of epoch 0:  28%|██▊       | 1270/4533 [3:26:22<8:25:05,  9.29s/it, gpt_loss=0.279, loss_mean=0.334][A2026-01-26 17:14:26.773 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  28%|██▊       | 1270/4533 [3:26:34<8:25:05,  9.29s/it, gpt_loss=0.447, loss_mean=0.345][A
+Train step of epoch 0:  28%|██▊       | 1271/4533 [3:26:34<9:14:25, 10.20s/it, gpt_loss=0.447, loss_mean=0.345][A2026-01-26 17:14:38.978 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  28%|██▊       | 1271/4533 [3:26:43<9:14:25, 10.20s/it, gpt_loss=0.351, loss_mean=0.346][A
+Train step of epoch 0:  28%|██▊       | 1272/4533 [3:26:43<8:53:18,  9.81s/it, gpt_loss=0.351, loss_mean=0.346][A2026-01-26 17:14:47.952 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  28%|██▊       | 1272/4533 [3:26:55<8:53:18,  9.81s/it, gpt_loss=0.448, loss_mean=0.356][A
+Train step of epoch 0:  28%|██▊       | 1273/4533 [3:26:55<9:27:51, 10.45s/it, gpt_loss=0.448, loss_mean=0.356][A2026-01-26 17:14:59.896 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  28%|██▊       | 1273/4533 [3:27:07<9:27:51, 10.45s/it, gpt_loss=0.373, loss_mean=0.358][A
+Train step of epoch 0:  28%|██▊       | 1274/4533 [3:27:07<9:49:48, 10.86s/it, gpt_loss=0.373, loss_mean=0.358][A2026-01-26 17:15:11.690 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  28%|██▊       | 1274/4533 [3:27:17<9:49:48, 10.86s/it, gpt_loss=0.355, loss_mean=0.358][A
+Train step of epoch 0:  28%|██▊       | 1275/4533 [3:27:17<9:29:01, 10.48s/it, gpt_loss=0.355, loss_mean=0.358][A2026-01-26 17:15:21.293 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  28%|██▊       | 1275/4533 [3:27:27<9:29:01, 10.48s/it, gpt_loss=0.311, loss_mean=0.353][A
+Train step of epoch 0:  28%|██▊       | 1276/4533 [3:27:27<9:20:02, 10.32s/it, gpt_loss=0.311, loss_mean=0.353][A2026-01-26 17:15:31.080 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  28%|██▊       | 1276/4533 [3:27:38<9:20:02, 10.32s/it, gpt_loss=0.438, loss_mean=0.361][A
+Train step of epoch 0:  28%|██▊       | 1277/4533 [3:27:38<9:40:21, 10.69s/it, gpt_loss=0.438, loss_mean=0.361][A2026-01-26 17:15:42.863 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  28%|██▊       | 1277/4533 [3:27:48<9:40:21, 10.69s/it, gpt_loss=0.31, loss_mean=0.356] [A
+Train step of epoch 0:  28%|██▊       | 1278/4533 [3:27:48<9:20:35, 10.33s/it, gpt_loss=0.31, loss_mean=0.356][A2026-01-26 17:15:52.265 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  28%|██▊       | 1278/4533 [3:27:56<9:20:35, 10.33s/it, gpt_loss=0.278, loss_mean=0.348][A
+Train step of epoch 0:  28%|██▊       | 1279/4533 [3:27:56<8:54:17,  9.85s/it, gpt_loss=0.278, loss_mean=0.348][A
+[LID Router Debug] Step: 1280
+Batch Size: 14
+Audio Batch Size: 162
+LID Assignments: [1, 3, 6, 4, 0, 4, 3, 6, 2, 3, 3, 1, 9, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-26 17:16:00.790 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  28%|██▊       | 1279/4533 [3:28:05<8:54:17,  9.85s/it, gpt_loss=0.341, loss_mean=0.348][A
+Train step of epoch 0:  28%|██▊       | 1280/4533 [3:28:05<8:34:11,  9.48s/it, gpt_loss=0.341, loss_mean=0.348][A2026-01-26 17:16:09.755 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  28%|██▊       | 1280/4533 [3:28:14<8:34:11,  9.48s/it, gpt_loss=0.253, loss_mean=0.338][A
+Train step of epoch 0:  28%|██▊       | 1281/4533 [3:28:14<8:23:06,  9.28s/it, gpt_loss=0.253, loss_mean=0.338][A2026-01-26 17:16:18.153 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  28%|██▊       | 1281/4533 [3:28:22<8:23:06,  9.28s/it, gpt_loss=0.365, loss_mean=0.341][A
+Train step of epoch 0:  28%|██▊       | 1282/4533 [3:28:22<8:09:40,  9.04s/it, gpt_loss=0.365, loss_mean=0.341][A2026-01-26 17:16:26.875 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  28%|██▊       | 1282/4533 [3:28:31<8:09:40,  9.04s/it, gpt_loss=0.275, loss_mean=0.334][A
+Train step of epoch 0:  28%|██▊       | 1283/4533 [3:28:31<8:09:08,  9.03s/it, gpt_loss=0.275, loss_mean=0.334][A2026-01-26 17:16:35.993 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  28%|██▊       | 1283/4533 [3:28:40<8:09:08,  9.03s/it, gpt_loss=0.287, loss_mean=0.329][A
+Train step of epoch 0:  28%|██▊       | 1284/4533 [3:28:40<8:08:38,  9.02s/it, gpt_loss=0.287, loss_mean=0.329][A2026-01-26 17:16:44.495 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  28%|██▊       | 1284/4533 [3:28:49<8:08:38,  9.02s/it, gpt_loss=0.367, loss_mean=0.333][A
+Train step of epoch 0:  28%|██▊       | 1285/4533 [3:28:49<7:59:46,  8.86s/it, gpt_loss=0.367, loss_mean=0.333][A2026-01-26 17:16:53.466 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  28%|██▊       | 1285/4533 [3:28:58<7:59:46,  8.86s/it, gpt_loss=0.333, loss_mean=0.333][A
+Train step of epoch 0:  28%|██▊       | 1286/4533 [3:28:58<8:11:30,  9.08s/it, gpt_loss=0.333, loss_mean=0.333][A2026-01-26 17:17:03.095 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  28%|██▊       | 1286/4533 [3:29:07<8:11:30,  9.08s/it, gpt_loss=0.399, loss_mean=0.34] [A
+Train step of epoch 0:  28%|██▊       | 1287/4533 [3:29:07<8:10:47,  9.07s/it, gpt_loss=0.399, loss_mean=0.34][A2026-01-26 17:17:12.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  28%|██▊       | 1287/4533 [3:29:16<8:10:47,  9.07s/it, gpt_loss=0.308, loss_mean=0.337][A
+Train step of epoch 0:  28%|██▊       | 1288/4533 [3:29:16<8:09:53,  9.06s/it, gpt_loss=0.308, loss_mean=0.337][A2026-01-26 17:17:20.968 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  28%|██▊       | 1288/4533 [3:29:25<8:09:53,  9.06s/it, gpt_loss=0.307, loss_mean=0.334][A
+Train step of epoch 0:  28%|██▊       | 1289/4533 [3:29:25<8:08:43,  9.04s/it, gpt_loss=0.307, loss_mean=0.334][A
+[LID Router Debug] Step: 1290
+Batch Size: 14
+Audio Batch Size: 160
+LID Assignments: [4, 5, 0, 1, 1, 5, 3, 2, 9, 2, 2, 3, 5, 6]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 17:17:29.886 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  28%|██▊       | 1289/4533 [3:29:34<8:08:43,  9.04s/it, gpt_loss=0.303, loss_mean=0.331][A
+Train step of epoch 0:  28%|██▊       | 1290/4533 [3:29:34<8:05:38,  8.99s/it, gpt_loss=0.303, loss_mean=0.331][A2026-01-26 17:17:38.989 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  28%|██▊       | 1290/4533 [3:29:46<8:05:38,  8.99s/it, gpt_loss=0.379, loss_mean=0.335][A
+Train step of epoch 0:  28%|██▊       | 1291/4533 [3:29:46<8:50:08,  9.81s/it, gpt_loss=0.379, loss_mean=0.335][A2026-01-26 17:17:50.766 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  28%|██▊       | 1291/4533 [3:29:58<8:50:08,  9.81s/it, gpt_loss=0.46, loss_mean=0.348] [A
+Train step of epoch 0:  29%|██▊       | 1292/4533 [3:29:58<9:26:15, 10.48s/it, gpt_loss=0.46, loss_mean=0.348][A2026-01-26 17:18:02.794 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  29%|██▊       | 1292/4533 [3:30:07<9:26:15, 10.48s/it, gpt_loss=0.308, loss_mean=0.344][A
+Train step of epoch 0:  29%|██▊       | 1293/4533 [3:30:07<9:02:03, 10.04s/it, gpt_loss=0.308, loss_mean=0.344][A2026-01-26 17:18:11.767 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  29%|██▊       | 1293/4533 [3:30:16<9:02:03, 10.04s/it, gpt_loss=0.403, loss_mean=0.35] [A
+Train step of epoch 0:  29%|██▊       | 1294/4533 [3:30:16<8:44:31,  9.72s/it, gpt_loss=0.403, loss_mean=0.35][A2026-01-26 17:18:20.793 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  29%|██▊       | 1294/4533 [3:30:26<8:44:31,  9.72s/it, gpt_loss=0.343, loss_mean=0.349][A
+Train step of epoch 0:  29%|██▊       | 1295/4533 [3:30:26<8:48:58,  9.80s/it, gpt_loss=0.343, loss_mean=0.349][A2026-01-26 17:18:30.567 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  29%|██▊       | 1295/4533 [3:30:38<8:48:58,  9.80s/it, gpt_loss=0.368, loss_mean=0.351][A
+Train step of epoch 0:  29%|██▊       | 1296/4533 [3:30:38<9:27:37, 10.52s/it, gpt_loss=0.368, loss_mean=0.351][A2026-01-26 17:18:42.682 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  29%|██▊       | 1296/4533 [3:30:47<9:27:37, 10.52s/it, gpt_loss=0.3, loss_mean=0.346]  [A
+Train step of epoch 0:  29%|██▊       | 1297/4533 [3:30:47<8:59:46, 10.01s/it, gpt_loss=0.3, loss_mean=0.346][A2026-01-26 17:18:51.867 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  29%|██▊       | 1297/4533 [3:30:59<8:59:46, 10.01s/it, gpt_loss=0.362, loss_mean=0.347][A
+Train step of epoch 0:  29%|██▊       | 1298/4533 [3:30:59<9:33:11, 10.63s/it, gpt_loss=0.362, loss_mean=0.347][A2026-01-26 17:19:03.794 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  29%|██▊       | 1298/4533 [3:31:08<9:33:11, 10.63s/it, gpt_loss=0.325, loss_mean=0.345][A
+Train step of epoch 0:  29%|██▊       | 1299/4533 [3:31:08<9:10:09, 10.21s/it, gpt_loss=0.325, loss_mean=0.345][A
+[LID Router Debug] Step: 1300
+Batch Size: 14
+Audio Batch Size: 146
+LID Assignments: [4, 9, 9, 4, 0, 3, 0, 5, 1, 5, 2, 4, 4, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 17:19:12.886 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-26 17:19:24,084] [INFO] [logging.py:96:log_dist] [Rank 0] step=1300, skipped=0, lr=[1.9633376507454815e-05, 1.9633376507454815e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 17:19:24,085] [INFO] [timer.py:260:stop] epoch=0/micro_step=1300/global_step=1300, RunningAvgSamplesPerSec=5.766614103538013, CurrSamplesPerSec=4.770944845067146, MemAllocated=14.45GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  29%|██▊       | 1299/4533 [3:31:20<9:10:09, 10.21s/it, gpt_loss=0.466, loss_mean=0.357][A
+Train step of epoch 0:  29%|██▊       | 1300/4533 [3:31:20<9:35:02, 10.67s/it, gpt_loss=0.466, loss_mean=0.357][A2026-01-26 17:19:24.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  29%|██▊       | 1300/4533 [3:31:30<9:35:02, 10.67s/it, gpt_loss=0.303, loss_mean=0.352][A
+Train step of epoch 0:  29%|██▊       | 1301/4533 [3:31:30<9:16:40, 10.33s/it, gpt_loss=0.303, loss_mean=0.352][A2026-01-26 17:19:34.369 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  29%|██▊       | 1301/4533 [3:31:39<9:16:40, 10.33s/it, gpt_loss=0.337, loss_mean=0.35] [A
+Train step of epoch 0:  29%|██▊       | 1302/4533 [3:31:39<8:54:13,  9.92s/it, gpt_loss=0.337, loss_mean=0.35][A2026-01-26 17:19:43.199 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  29%|██▊       | 1302/4533 [3:31:47<8:54:13,  9.92s/it, gpt_loss=0.363, loss_mean=0.352][A
+Train step of epoch 0:  29%|██▊       | 1303/4533 [3:31:47<8:36:18,  9.59s/it, gpt_loss=0.363, loss_mean=0.352][A2026-01-26 17:19:51.763 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  29%|██▊       | 1303/4533 [3:31:56<8:36:18,  9.59s/it, gpt_loss=0.321, loss_mean=0.349][A
+Train step of epoch 0:  29%|██▉       | 1304/4533 [3:31:56<8:23:28,  9.36s/it, gpt_loss=0.321, loss_mean=0.349][A2026-01-26 17:20:00.994 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  29%|██▉       | 1304/4533 [3:32:06<8:23:28,  9.36s/it, gpt_loss=0.276, loss_mean=0.341][A
+Train step of epoch 0:  29%|██▉       | 1305/4533 [3:32:06<8:27:30,  9.43s/it, gpt_loss=0.276, loss_mean=0.341][A2026-01-26 17:20:10.469 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  29%|██▉       | 1305/4533 [3:32:15<8:27:30,  9.43s/it, gpt_loss=0.351, loss_mean=0.342][A
+Train step of epoch 0:  29%|██▉       | 1306/4533 [3:32:15<8:27:47,  9.44s/it, gpt_loss=0.351, loss_mean=0.342][A2026-01-26 17:20:20.061 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  29%|██▉       | 1306/4533 [3:32:27<8:27:47,  9.44s/it, gpt_loss=0.397, loss_mean=0.348][A
+Train step of epoch 0:  29%|██▉       | 1307/4533 [3:32:27<9:07:16, 10.18s/it, gpt_loss=0.397, loss_mean=0.348][A2026-01-26 17:20:31.878 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  29%|██▉       | 1307/4533 [3:32:36<9:07:16, 10.18s/it, gpt_loss=0.294, loss_mean=0.342][A
+Train step of epoch 0:  29%|██▉       | 1308/4533 [3:32:36<8:44:28,  9.76s/it, gpt_loss=0.294, loss_mean=0.342][A2026-01-26 17:20:40.478 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  29%|██▉       | 1308/4533 [3:32:45<8:44:28,  9.76s/it, gpt_loss=0.34, loss_mean=0.342] [A
+Train step of epoch 0:  29%|██▉       | 1309/4533 [3:32:45<8:33:01,  9.55s/it, gpt_loss=0.34, loss_mean=0.342][A
+[LID Router Debug] Step: 1310
+Batch Size: 14
+Audio Batch Size: 138
+LID Assignments: [9, 5, 3, 4, 9, 9, 2, 3, 1, 2, 1, 0, 6, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 17:20:49.669 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  29%|██▉       | 1309/4533 [3:32:57<8:33:01,  9.55s/it, gpt_loss=0.354, loss_mean=0.343][A
+Train step of epoch 0:  29%|██▉       | 1310/4533 [3:32:57<9:08:13, 10.21s/it, gpt_loss=0.354, loss_mean=0.343][A2026-01-26 17:21:01.473 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  29%|██▉       | 1310/4533 [3:33:09<9:08:13, 10.21s/it, gpt_loss=0.428, loss_mean=0.352][A
+Train step of epoch 0:  29%|██▉       | 1311/4533 [3:33:09<9:39:22, 10.79s/it, gpt_loss=0.428, loss_mean=0.352][A2026-01-26 17:21:13.374 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  29%|██▉       | 1311/4533 [3:33:21<9:39:22, 10.79s/it, gpt_loss=0.505, loss_mean=0.367][A
+Train step of epoch 0:  29%|██▉       | 1312/4533 [3:33:21<9:51:29, 11.02s/it, gpt_loss=0.505, loss_mean=0.367][A2026-01-26 17:21:25.177 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  29%|██▉       | 1312/4533 [3:33:33<9:51:29, 11.02s/it, gpt_loss=0.402, loss_mean=0.371][A
+Train step of epoch 0:  29%|██▉       | 1313/4533 [3:33:33<10:06:26, 11.30s/it, gpt_loss=0.402, loss_mean=0.371][A2026-01-26 17:21:37.063 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  29%|██▉       | 1313/4533 [3:33:41<10:06:26, 11.30s/it, gpt_loss=0.288, loss_mean=0.362][A
+Train step of epoch 0:  29%|██▉       | 1314/4533 [3:33:41<9:23:35, 10.51s/it, gpt_loss=0.288, loss_mean=0.362] [A2026-01-26 17:21:45.582 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  29%|██▉       | 1314/4533 [3:33:51<9:23:35, 10.51s/it, gpt_loss=0.349, loss_mean=0.361][A
+Train step of epoch 0:  29%|██▉       | 1315/4533 [3:33:51<9:09:22, 10.24s/it, gpt_loss=0.349, loss_mean=0.361][A2026-01-26 17:21:55.478 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  29%|██▉       | 1315/4533 [3:34:00<9:09:22, 10.24s/it, gpt_loss=0.276, loss_mean=0.353][A
+Train step of epoch 0:  29%|██▉       | 1316/4533 [3:34:00<8:46:45,  9.82s/it, gpt_loss=0.276, loss_mean=0.353][A2026-01-26 17:22:04.069 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  29%|██▉       | 1316/4533 [3:34:09<8:46:45,  9.82s/it, gpt_loss=0.305, loss_mean=0.348][A
+Train step of epoch 0:  29%|██▉       | 1317/4533 [3:34:09<8:43:57,  9.78s/it, gpt_loss=0.305, loss_mean=0.348][A2026-01-26 17:22:13.767 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  29%|██▉       | 1317/4533 [3:34:18<8:43:57,  9.78s/it, gpt_loss=0.28, loss_mean=0.341] [A
+Train step of epoch 0:  29%|██▉       | 1318/4533 [3:34:18<8:24:12,  9.41s/it, gpt_loss=0.28, loss_mean=0.341][A2026-01-26 17:22:22.567 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  29%|██▉       | 1318/4533 [3:34:30<8:24:12,  9.41s/it, gpt_loss=0.405, loss_mean=0.348][A
+Train step of epoch 0:  29%|██▉       | 1319/4533 [3:34:30<9:01:56, 10.12s/it, gpt_loss=0.405, loss_mean=0.348][A
+[LID Router Debug] Step: 1320
+Batch Size: 14
+Audio Batch Size: 155
+LID Assignments: [4, 2, 1, 0, 9, 1, 5, 4, 4, 5, 2, 3, 1, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 17:22:33.764 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  29%|██▉       | 1319/4533 [3:34:38<9:01:56, 10.12s/it, gpt_loss=0.347, loss_mean=0.348][A
+Train step of epoch 0:  29%|██▉       | 1320/4533 [3:34:38<8:37:35,  9.67s/it, gpt_loss=0.347, loss_mean=0.348][A2026-01-26 17:22:42.962 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  29%|██▉       | 1320/4533 [3:34:48<8:37:35,  9.67s/it, gpt_loss=0.252, loss_mean=0.338][A
+Train step of epoch 0:  29%|██▉       | 1321/4533 [3:34:48<8:42:00,  9.75s/it, gpt_loss=0.252, loss_mean=0.338][A2026-01-26 17:22:52.862 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  29%|██▉       | 1321/4533 [3:34:58<8:42:00,  9.75s/it, gpt_loss=0.355, loss_mean=0.34] [A
+Train step of epoch 0:  29%|██▉       | 1322/4533 [3:34:58<8:44:17,  9.80s/it, gpt_loss=0.355, loss_mean=0.34][A2026-01-26 17:23:02.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  29%|██▉       | 1322/4533 [3:35:10<8:44:17,  9.80s/it, gpt_loss=0.485, loss_mean=0.354][A
+Train step of epoch 0:  29%|██▉       | 1323/4533 [3:35:10<9:17:32, 10.42s/it, gpt_loss=0.485, loss_mean=0.354][A2026-01-26 17:23:14.666 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  29%|██▉       | 1323/4533 [3:35:19<9:17:32, 10.42s/it, gpt_loss=0.3, loss_mean=0.349]  [A
+Train step of epoch 0:  29%|██▉       | 1324/4533 [3:35:19<8:51:51,  9.94s/it, gpt_loss=0.3, loss_mean=0.349][A2026-01-26 17:23:23.382 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  29%|██▉       | 1324/4533 [3:35:28<8:51:51,  9.94s/it, gpt_loss=0.33, loss_mean=0.347][A
+Train step of epoch 0:  29%|██▉       | 1325/4533 [3:35:28<8:45:48,  9.83s/it, gpt_loss=0.33, loss_mean=0.347][A2026-01-26 17:23:32.992 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  29%|██▉       | 1325/4533 [3:35:38<8:45:48,  9.83s/it, gpt_loss=0.203, loss_mean=0.333][A
+Train step of epoch 0:  29%|██▉       | 1326/4533 [3:35:38<8:39:05,  9.71s/it, gpt_loss=0.203, loss_mean=0.333][A2026-01-26 17:23:42.354 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  29%|██▉       | 1326/4533 [3:35:48<8:39:05,  9.71s/it, gpt_loss=0.299, loss_mean=0.329][A
+Train step of epoch 0:  29%|██▉       | 1327/4533 [3:35:48<8:39:10,  9.72s/it, gpt_loss=0.299, loss_mean=0.329][A2026-01-26 17:23:52.182 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  29%|██▉       | 1327/4533 [3:35:57<8:39:10,  9.72s/it, gpt_loss=0.366, loss_mean=0.333][A
+Train step of epoch 0:  29%|██▉       | 1328/4533 [3:35:57<8:36:49,  9.68s/it, gpt_loss=0.366, loss_mean=0.333][A2026-01-26 17:24:01.492 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  29%|██▉       | 1328/4533 [3:36:06<8:36:49,  9.68s/it, gpt_loss=0.309, loss_mean=0.331][A
+Train step of epoch 0:  29%|██▉       | 1329/4533 [3:36:06<8:31:17,  9.57s/it, gpt_loss=0.309, loss_mean=0.331][A
+[LID Router Debug] Step: 1330
+Batch Size: 14
+Audio Batch Size: 165
+LID Assignments: [6, 5, 9, 2, 2, 3, 5, 0, 9, 0, 3, 5, 4, 2]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-26 17:24:11.090 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  29%|██▉       | 1329/4533 [3:36:16<8:31:17,  9.57s/it, gpt_loss=0.353, loss_mean=0.333][A
+Train step of epoch 0:  29%|██▉       | 1330/4533 [3:36:16<8:24:33,  9.45s/it, gpt_loss=0.353, loss_mean=0.333][A2026-01-26 17:24:20.288 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  29%|██▉       | 1330/4533 [3:36:25<8:24:33,  9.45s/it, gpt_loss=0.255, loss_mean=0.325][A
+Train step of epoch 0:  29%|██▉       | 1331/4533 [3:36:25<8:18:25,  9.34s/it, gpt_loss=0.255, loss_mean=0.325][A2026-01-26 17:24:29.286 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  29%|██▉       | 1331/4533 [3:36:34<8:18:25,  9.34s/it, gpt_loss=0.362, loss_mean=0.329][A
+Train step of epoch 0:  29%|██▉       | 1332/4533 [3:36:34<8:23:25,  9.44s/it, gpt_loss=0.362, loss_mean=0.329][A2026-01-26 17:24:38.980 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  29%|██▉       | 1332/4533 [3:36:46<8:23:25,  9.44s/it, gpt_loss=0.417, loss_mean=0.337][A
+Train step of epoch 0:  29%|██▉       | 1333/4533 [3:36:46<9:02:28, 10.17s/it, gpt_loss=0.417, loss_mean=0.337][A2026-01-26 17:24:50.684 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  29%|██▉       | 1333/4533 [3:36:56<9:02:28, 10.17s/it, gpt_loss=0.335, loss_mean=0.337][A
+Train step of epoch 0:  29%|██▉       | 1334/4533 [3:36:56<8:50:07,  9.94s/it, gpt_loss=0.335, loss_mean=0.337][A2026-01-26 17:24:59.972 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  29%|██▉       | 1334/4533 [3:37:05<8:50:07,  9.94s/it, gpt_loss=0.364, loss_mean=0.34] [A
+Train step of epoch 0:  29%|██▉       | 1335/4533 [3:37:05<8:41:54,  9.79s/it, gpt_loss=0.364, loss_mean=0.34][A2026-01-26 17:25:09.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  29%|██▉       | 1335/4533 [3:37:14<8:41:54,  9.79s/it, gpt_loss=0.354, loss_mean=0.341][A
+Train step of epoch 0:  29%|██▉       | 1336/4533 [3:37:14<8:25:43,  9.49s/it, gpt_loss=0.354, loss_mean=0.341][A2026-01-26 17:25:18.483 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  29%|██▉       | 1336/4533 [3:37:23<8:25:43,  9.49s/it, gpt_loss=0.377, loss_mean=0.345][A
+Train step of epoch 0:  29%|██▉       | 1337/4533 [3:37:23<8:13:54,  9.27s/it, gpt_loss=0.377, loss_mean=0.345][A2026-01-26 17:25:27.063 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  29%|██▉       | 1337/4533 [3:37:32<8:13:54,  9.27s/it, gpt_loss=0.371, loss_mean=0.348][A
+Train step of epoch 0:  30%|██▉       | 1338/4533 [3:37:32<8:07:35,  9.16s/it, gpt_loss=0.371, loss_mean=0.348][A2026-01-26 17:25:36.180 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  30%|██▉       | 1338/4533 [3:37:41<8:07:35,  9.16s/it, gpt_loss=0.297, loss_mean=0.342][A
+Train step of epoch 0:  30%|██▉       | 1339/4533 [3:37:41<8:11:07,  9.23s/it, gpt_loss=0.297, loss_mean=0.342][A
+[LID Router Debug] Step: 1340
+Batch Size: 14
+Audio Batch Size: 165
+LID Assignments: [3, 3, 1, 5, 0, 5, 3, 5, 4, 3, 9, 6, 2, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 17:25:45.569 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  30%|██▉       | 1339/4533 [3:37:51<8:11:07,  9.23s/it, gpt_loss=0.359, loss_mean=0.344][A
+Train step of epoch 0:  30%|██▉       | 1340/4533 [3:37:51<8:21:50,  9.43s/it, gpt_loss=0.359, loss_mean=0.344][A2026-01-26 17:25:55.479 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  30%|██▉       | 1340/4533 [3:38:03<8:21:50,  9.43s/it, gpt_loss=0.423, loss_mean=0.352][A
+Train step of epoch 0:  30%|██▉       | 1341/4533 [3:38:03<9:01:42, 10.18s/it, gpt_loss=0.423, loss_mean=0.352][A2026-01-26 17:26:07.456 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  30%|██▉       | 1341/4533 [3:38:15<9:01:42, 10.18s/it, gpt_loss=0.373, loss_mean=0.354][A
+Train step of epoch 0:  30%|██▉       | 1342/4533 [3:38:15<9:34:01, 10.79s/it, gpt_loss=0.373, loss_mean=0.354][A2026-01-26 17:26:19.292 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  30%|██▉       | 1342/4533 [3:38:24<9:34:01, 10.79s/it, gpt_loss=0.346, loss_mean=0.353][A
+Train step of epoch 0:  30%|██▉       | 1343/4533 [3:38:24<9:04:26, 10.24s/it, gpt_loss=0.346, loss_mean=0.353][A2026-01-26 17:26:28.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  30%|██▉       | 1343/4533 [3:38:36<9:04:26, 10.24s/it, gpt_loss=0.397, loss_mean=0.358][A
+Train step of epoch 0:  30%|██▉       | 1344/4533 [3:38:36<9:26:17, 10.65s/it, gpt_loss=0.397, loss_mean=0.358][A2026-01-26 17:26:40.266 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  30%|██▉       | 1344/4533 [3:38:45<9:26:17, 10.65s/it, gpt_loss=0.371, loss_mean=0.359][A
+Train step of epoch 0:  30%|██▉       | 1345/4533 [3:38:45<9:08:32, 10.32s/it, gpt_loss=0.371, loss_mean=0.359][A2026-01-26 17:26:49.795 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  30%|██▉       | 1345/4533 [3:38:57<9:08:32, 10.32s/it, gpt_loss=0.413, loss_mean=0.364][A
+Train step of epoch 0:  30%|██▉       | 1346/4533 [3:38:57<9:36:11, 10.85s/it, gpt_loss=0.413, loss_mean=0.364][A2026-01-26 17:27:01.792 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  30%|██▉       | 1346/4533 [3:39:06<9:36:11, 10.85s/it, gpt_loss=0.328, loss_mean=0.361][A
+Train step of epoch 0:  30%|██▉       | 1347/4533 [3:39:06<9:06:51, 10.30s/it, gpt_loss=0.328, loss_mean=0.361][A2026-01-26 17:27:10.881 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  30%|██▉       | 1347/4533 [3:39:18<9:06:51, 10.30s/it, gpt_loss=0.386, loss_mean=0.363][A
+Train step of epoch 0:  30%|██▉       | 1348/4533 [3:39:18<9:28:09, 10.70s/it, gpt_loss=0.386, loss_mean=0.363][A2026-01-26 17:27:22.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  30%|██▉       | 1348/4533 [3:39:28<9:28:09, 10.70s/it, gpt_loss=0.346, loss_mean=0.362][A
+Train step of epoch 0:  30%|██▉       | 1349/4533 [3:39:28<9:15:26, 10.47s/it, gpt_loss=0.346, loss_mean=0.362][A
+[LID Router Debug] Step: 1350
+Batch Size: 14
+Audio Batch Size: 131
+LID Assignments: [4, 4, 9, 9, 2, 4, 2, 6, 2, 2, 4, 4, 0, 2]
+Active Experts in Batch: {0, 2, 4, 6, 9}
+2026-01-26 17:27:31.986 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  30%|██▉       | 1349/4533 [3:39:36<9:15:26, 10.47s/it, gpt_loss=0.359, loss_mean=0.361][A
+Train step of epoch 0:  30%|██▉       | 1350/4533 [3:39:36<8:43:17,  9.86s/it, gpt_loss=0.359, loss_mean=0.361][A2026-01-26 17:27:40.690 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  30%|██▉       | 1350/4533 [3:39:45<8:43:17,  9.86s/it, gpt_loss=0.342, loss_mean=0.359][A
+Train step of epoch 0:  30%|██▉       | 1351/4533 [3:39:45<8:22:14,  9.47s/it, gpt_loss=0.342, loss_mean=0.359][A2026-01-26 17:27:49.292 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  30%|██▉       | 1351/4533 [3:39:53<8:22:14,  9.47s/it, gpt_loss=0.281, loss_mean=0.352][A
+Train step of epoch 0:  30%|██▉       | 1352/4533 [3:39:53<8:08:39,  9.22s/it, gpt_loss=0.281, loss_mean=0.352][A2026-01-26 17:27:57.998 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  30%|██▉       | 1352/4533 [3:40:05<8:08:39,  9.22s/it, gpt_loss=0.418, loss_mean=0.358][A
+Train step of epoch 0:  30%|██▉       | 1353/4533 [3:40:05<8:48:33,  9.97s/it, gpt_loss=0.418, loss_mean=0.358][A2026-01-26 17:28:09.258 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  30%|██▉       | 1353/4533 [3:40:14<8:48:33,  9.97s/it, gpt_loss=0.26, loss_mean=0.348] [A
+Train step of epoch 0:  30%|██▉       | 1354/4533 [3:40:14<8:25:38,  9.54s/it, gpt_loss=0.26, loss_mean=0.348][A2026-01-26 17:28:18.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  30%|██▉       | 1354/4533 [3:40:26<8:25:38,  9.54s/it, gpt_loss=0.413, loss_mean=0.355][A
+Train step of epoch 0:  30%|██▉       | 1355/4533 [3:40:26<9:02:56, 10.25s/it, gpt_loss=0.413, loss_mean=0.355][A2026-01-26 17:28:30.262 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  30%|██▉       | 1355/4533 [3:40:35<9:02:56, 10.25s/it, gpt_loss=0.289, loss_mean=0.348][A
+Train step of epoch 0:  30%|██▉       | 1356/4533 [3:40:35<8:43:32,  9.89s/it, gpt_loss=0.289, loss_mean=0.348][A2026-01-26 17:28:39.277 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  30%|██▉       | 1356/4533 [3:40:44<8:43:32,  9.89s/it, gpt_loss=0.35, loss_mean=0.348] [A
+Train step of epoch 0:  30%|██▉       | 1357/4533 [3:40:44<8:29:44,  9.63s/it, gpt_loss=0.35, loss_mean=0.348][A2026-01-26 17:28:48.075 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  30%|██▉       | 1357/4533 [3:40:53<8:29:44,  9.63s/it, gpt_loss=0.368, loss_mean=0.35][A
+Train step of epoch 0:  30%|██▉       | 1358/4533 [3:40:53<8:28:43,  9.61s/it, gpt_loss=0.368, loss_mean=0.35][A2026-01-26 17:28:57.693 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  30%|██▉       | 1358/4533 [3:41:03<8:28:43,  9.61s/it, gpt_loss=0.31, loss_mean=0.346][A
+Train step of epoch 0:  30%|██▉       | 1359/4533 [3:41:03<8:26:15,  9.57s/it, gpt_loss=0.31, loss_mean=0.346][A
+[LID Router Debug] Step: 1360
+Batch Size: 14
+Audio Batch Size: 126
+LID Assignments: [1, 5, 0, 3, 5, 5, 9, 5, 1, 9, 1, 1, 1, 9]
+Active Experts in Batch: {0, 1, 3, 5, 9}
+2026-01-26 17:29:07.174 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  30%|██▉       | 1359/4533 [3:41:12<8:26:15,  9.57s/it, gpt_loss=0.287, loss_mean=0.34][A
+Train step of epoch 0:  30%|███       | 1360/4533 [3:41:12<8:16:45,  9.39s/it, gpt_loss=0.287, loss_mean=0.34][A2026-01-26 17:29:16.363 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  30%|███       | 1360/4533 [3:41:21<8:16:45,  9.39s/it, gpt_loss=0.272, loss_mean=0.334][A
+Train step of epoch 0:  30%|███       | 1361/4533 [3:41:21<8:11:59,  9.31s/it, gpt_loss=0.272, loss_mean=0.334][A2026-01-26 17:29:25.284 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  30%|███       | 1361/4533 [3:41:32<8:11:59,  9.31s/it, gpt_loss=0.37, loss_mean=0.337] [A
+Train step of epoch 0:  30%|███       | 1362/4533 [3:41:32<8:46:19,  9.96s/it, gpt_loss=0.37, loss_mean=0.337][A2026-01-26 17:29:36.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  30%|███       | 1362/4533 [3:41:41<8:46:19,  9.96s/it, gpt_loss=0.275, loss_mean=0.331][A
+Train step of epoch 0:  30%|███       | 1363/4533 [3:41:41<8:30:39,  9.67s/it, gpt_loss=0.275, loss_mean=0.331][A2026-01-26 17:29:45.674 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  30%|███       | 1363/4533 [3:41:53<8:30:39,  9.67s/it, gpt_loss=0.396, loss_mean=0.338][A
+Train step of epoch 0:  30%|███       | 1364/4533 [3:41:53<8:58:30, 10.20s/it, gpt_loss=0.396, loss_mean=0.338][A2026-01-26 17:29:57.288 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  30%|███       | 1364/4533 [3:42:01<8:58:30, 10.20s/it, gpt_loss=0.318, loss_mean=0.336][A
+Train step of epoch 0:  30%|███       | 1365/4533 [3:42:01<8:35:59,  9.77s/it, gpt_loss=0.318, loss_mean=0.336][A2026-01-26 17:30:06.155 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  30%|███       | 1365/4533 [3:42:13<8:35:59,  9.77s/it, gpt_loss=0.411, loss_mean=0.343][A
+Train step of epoch 0:  30%|███       | 1366/4533 [3:42:13<9:10:46, 10.43s/it, gpt_loss=0.411, loss_mean=0.343][A2026-01-26 17:30:17.987 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  30%|███       | 1366/4533 [3:42:22<9:10:46, 10.43s/it, gpt_loss=0.297, loss_mean=0.338][A
+Train step of epoch 0:  30%|███       | 1367/4533 [3:42:22<8:46:31,  9.98s/it, gpt_loss=0.297, loss_mean=0.338][A2026-01-26 17:30:26.986 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  30%|███       | 1367/4533 [3:42:31<8:46:31,  9.98s/it, gpt_loss=0.277, loss_mean=0.332][A
+Train step of epoch 0:  30%|███       | 1368/4533 [3:42:31<8:31:53,  9.70s/it, gpt_loss=0.277, loss_mean=0.332][A2026-01-26 17:30:35.571 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  30%|███       | 1368/4533 [3:42:41<8:31:53,  9.70s/it, gpt_loss=0.349, loss_mean=0.334][A
+Train step of epoch 0:  30%|███       | 1369/4533 [3:42:41<8:22:55,  9.54s/it, gpt_loss=0.349, loss_mean=0.334][A
+[LID Router Debug] Step: 1370
+Batch Size: 14
+Audio Batch Size: 145
+LID Assignments: [1, 1, 5, 5, 2, 9, 3, 4, 0, 2, 4, 9, 3, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 17:30:45.174 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  30%|███       | 1369/4533 [3:42:50<8:22:55,  9.54s/it, gpt_loss=0.287, loss_mean=0.329][A
+Train step of epoch 0:  30%|███       | 1370/4533 [3:42:50<8:14:31,  9.38s/it, gpt_loss=0.287, loss_mean=0.329][A2026-01-26 17:30:53.890 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  30%|███       | 1370/4533 [3:43:01<8:14:31,  9.38s/it, gpt_loss=0.432, loss_mean=0.339][A
+Train step of epoch 0:  30%|███       | 1371/4533 [3:43:01<8:47:47, 10.02s/it, gpt_loss=0.432, loss_mean=0.339][A2026-01-26 17:31:05.602 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  30%|███       | 1371/4533 [3:43:11<8:47:47, 10.02s/it, gpt_loss=0.283, loss_mean=0.334][A
+Train step of epoch 0:  30%|███       | 1372/4533 [3:43:11<8:40:49,  9.89s/it, gpt_loss=0.283, loss_mean=0.334][A2026-01-26 17:31:15.356 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  30%|███       | 1372/4533 [3:43:20<8:40:49,  9.89s/it, gpt_loss=0.247, loss_mean=0.325][A
+Train step of epoch 0:  30%|███       | 1373/4533 [3:43:20<8:28:01,  9.65s/it, gpt_loss=0.247, loss_mean=0.325][A2026-01-26 17:31:24.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  30%|███       | 1373/4533 [3:43:29<8:28:01,  9.65s/it, gpt_loss=0.268, loss_mean=0.319][A
+Train step of epoch 0:  30%|███       | 1374/4533 [3:43:29<8:23:42,  9.57s/it, gpt_loss=0.268, loss_mean=0.319][A2026-01-26 17:31:33.450 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  30%|███       | 1374/4533 [3:43:39<8:23:42,  9.57s/it, gpt_loss=0.328, loss_mean=0.32] [A
+Train step of epoch 0:  30%|███       | 1375/4533 [3:43:39<8:21:49,  9.53s/it, gpt_loss=0.328, loss_mean=0.32][A2026-01-26 17:31:43.089 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  30%|███       | 1375/4533 [3:43:48<8:21:49,  9.53s/it, gpt_loss=0.256, loss_mean=0.314][A
+Train step of epoch 0:  30%|███       | 1376/4533 [3:43:48<8:25:15,  9.60s/it, gpt_loss=0.256, loss_mean=0.314][A2026-01-26 17:31:53.055 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  30%|███       | 1376/4533 [3:43:57<8:25:15,  9.60s/it, gpt_loss=0.309, loss_mean=0.313][A
+Train step of epoch 0:  30%|███       | 1377/4533 [3:43:57<8:15:24,  9.42s/it, gpt_loss=0.309, loss_mean=0.313][A2026-01-26 17:32:01.861 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  30%|███       | 1377/4533 [3:44:06<8:15:24,  9.42s/it, gpt_loss=0.246, loss_mean=0.307][A
+Train step of epoch 0:  30%|███       | 1378/4533 [3:44:06<8:03:43,  9.20s/it, gpt_loss=0.246, loss_mean=0.307][A2026-01-26 17:32:10.673 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  30%|███       | 1378/4533 [3:44:15<8:03:43,  9.20s/it, gpt_loss=0.304, loss_mean=0.306][A
+Train step of epoch 0:  30%|███       | 1379/4533 [3:44:15<8:00:35,  9.14s/it, gpt_loss=0.304, loss_mean=0.306][A
+[LID Router Debug] Step: 1380
+Batch Size: 14
+Audio Batch Size: 136
+LID Assignments: [2, 5, 3, 3, 4, 1, 6, 1, 0, 2, 9, 2, 4, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 17:32:19.474 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  30%|███       | 1379/4533 [3:44:24<8:00:35,  9.14s/it, gpt_loss=0.366, loss_mean=0.312][A
+Train step of epoch 0:  30%|███       | 1380/4533 [3:44:24<7:54:02,  9.02s/it, gpt_loss=0.366, loss_mean=0.312][A2026-01-26 17:32:28.276 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  30%|███       | 1380/4533 [3:44:32<7:54:02,  9.02s/it, gpt_loss=0.31, loss_mean=0.312] [A
+Train step of epoch 0:  30%|███       | 1381/4533 [3:44:32<7:47:12,  8.89s/it, gpt_loss=0.31, loss_mean=0.312][A2026-01-26 17:32:37.063 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  30%|███       | 1381/4533 [3:44:44<7:47:12,  8.89s/it, gpt_loss=0.411, loss_mean=0.322][A
+Train step of epoch 0:  30%|███       | 1382/4533 [3:44:44<8:35:56,  9.82s/it, gpt_loss=0.411, loss_mean=0.322][A2026-01-26 17:32:48.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  30%|███       | 1382/4533 [3:44:54<8:35:56,  9.82s/it, gpt_loss=0.281, loss_mean=0.318][A
+Train step of epoch 0:  31%|███       | 1383/4533 [3:44:54<8:29:10,  9.70s/it, gpt_loss=0.281, loss_mean=0.318][A2026-01-26 17:32:58.466 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  31%|███       | 1383/4533 [3:45:06<8:29:10,  9.70s/it, gpt_loss=0.359, loss_mean=0.322][A
+Train step of epoch 0:  31%|███       | 1384/4533 [3:45:06<9:02:59, 10.35s/it, gpt_loss=0.359, loss_mean=0.322][A2026-01-26 17:33:10.272 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  31%|███       | 1384/4533 [3:45:14<9:02:59, 10.35s/it, gpt_loss=0.269, loss_mean=0.317][A
+Train step of epoch 0:  31%|███       | 1385/4533 [3:45:14<8:39:04,  9.89s/it, gpt_loss=0.269, loss_mean=0.317][A2026-01-26 17:33:18.978 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  31%|███       | 1385/4533 [3:45:24<8:39:04,  9.89s/it, gpt_loss=0.365, loss_mean=0.322][A
+Train step of epoch 0:  31%|███       | 1386/4533 [3:45:24<8:32:40,  9.77s/it, gpt_loss=0.365, loss_mean=0.322][A2026-01-26 17:33:28.563 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  31%|███       | 1386/4533 [3:45:34<8:32:40,  9.77s/it, gpt_loss=0.348, loss_mean=0.324][A
+Train step of epoch 0:  31%|███       | 1387/4533 [3:45:34<8:32:49,  9.78s/it, gpt_loss=0.348, loss_mean=0.324][A2026-01-26 17:33:38.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  31%|███       | 1387/4533 [3:45:42<8:32:49,  9.78s/it, gpt_loss=0.331, loss_mean=0.325][A
+Train step of epoch 0:  31%|███       | 1388/4533 [3:45:42<8:15:14,  9.45s/it, gpt_loss=0.331, loss_mean=0.325][A2026-01-26 17:33:47.083 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  31%|███       | 1388/4533 [3:45:54<8:15:14,  9.45s/it, gpt_loss=0.475, loss_mean=0.34] [A
+Train step of epoch 0:  31%|███       | 1389/4533 [3:45:54<8:53:50, 10.19s/it, gpt_loss=0.475, loss_mean=0.34][A
+[LID Router Debug] Step: 1390
+Batch Size: 14
+Audio Batch Size: 152
+LID Assignments: [0, 1, 9, 3, 0, 0, 1, 4, 3, 4, 2, 0, 1, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 9}
+2026-01-26 17:33:59.001 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  31%|███       | 1389/4533 [3:46:03<8:53:50, 10.19s/it, gpt_loss=0.304, loss_mean=0.336][A
+Train step of epoch 0:  31%|███       | 1390/4533 [3:46:03<8:33:52,  9.81s/it, gpt_loss=0.304, loss_mean=0.336][A2026-01-26 17:34:07.893 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  31%|███       | 1390/4533 [3:46:13<8:33:52,  9.81s/it, gpt_loss=0.262, loss_mean=0.329][A
+Train step of epoch 0:  31%|███       | 1391/4533 [3:46:13<8:35:33,  9.85s/it, gpt_loss=0.262, loss_mean=0.329][A2026-01-26 17:34:17.658 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  31%|███       | 1391/4533 [3:46:22<8:35:33,  9.85s/it, gpt_loss=0.271, loss_mean=0.323][A
+Train step of epoch 0:  31%|███       | 1392/4533 [3:46:22<8:18:30,  9.52s/it, gpt_loss=0.271, loss_mean=0.323][A2026-01-26 17:34:26.398 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  31%|███       | 1392/4533 [3:46:31<8:18:30,  9.52s/it, gpt_loss=0.283, loss_mean=0.319][A
+Train step of epoch 0:  31%|███       | 1393/4533 [3:46:31<8:06:28,  9.30s/it, gpt_loss=0.283, loss_mean=0.319][A2026-01-26 17:34:35.356 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  31%|███       | 1393/4533 [3:46:41<8:06:28,  9.30s/it, gpt_loss=0.354, loss_mean=0.323][A
+Train step of epoch 0:  31%|███       | 1394/4533 [3:46:41<8:13:59,  9.44s/it, gpt_loss=0.354, loss_mean=0.323][A2026-01-26 17:34:45.188 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  31%|███       | 1394/4533 [3:46:49<8:13:59,  9.44s/it, gpt_loss=0.302, loss_mean=0.321][A
+Train step of epoch 0:  31%|███       | 1395/4533 [3:46:49<8:05:55,  9.29s/it, gpt_loss=0.302, loss_mean=0.321][A2026-01-26 17:34:54.092 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  31%|███       | 1395/4533 [3:46:58<8:05:55,  9.29s/it, gpt_loss=0.276, loss_mean=0.316][A
+Train step of epoch 0:  31%|███       | 1396/4533 [3:46:58<7:58:23,  9.15s/it, gpt_loss=0.276, loss_mean=0.316][A2026-01-26 17:35:02.772 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  31%|███       | 1396/4533 [3:47:07<7:58:23,  9.15s/it, gpt_loss=0.299, loss_mean=0.314][A
+Train step of epoch 0:  31%|███       | 1397/4533 [3:47:07<7:54:34,  9.08s/it, gpt_loss=0.299, loss_mean=0.314][A2026-01-26 17:35:11.792 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  31%|███       | 1397/4533 [3:47:16<7:54:34,  9.08s/it, gpt_loss=0.368, loss_mean=0.32] [A
+Train step of epoch 0:  31%|███       | 1398/4533 [3:47:16<7:49:27,  8.98s/it, gpt_loss=0.368, loss_mean=0.32][A2026-01-26 17:35:20.271 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  31%|███       | 1398/4533 [3:47:25<7:49:27,  8.98s/it, gpt_loss=0.319, loss_mean=0.32][A
+Train step of epoch 0:  31%|███       | 1399/4533 [3:47:25<7:43:05,  8.87s/it, gpt_loss=0.319, loss_mean=0.32][A
+[LID Router Debug] Step: 1400
+Batch Size: 14
+Audio Batch Size: 188
+LID Assignments: [3, 5, 2, 3, 1, 3, 0, 6, 3, 0, 3, 9, 4, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 17:35:29.205 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-26 17:35:37,464] [INFO] [logging.py:96:log_dist] [Rank 0] step=1400, skipped=0, lr=[1.9568153552972915e-05, 1.9568153552972915e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 17:35:37,465] [INFO] [timer.py:260:stop] epoch=0/micro_step=1400/global_step=1400, RunningAvgSamplesPerSec=5.766448639528104, CurrSamplesPerSec=6.219614015953473, MemAllocated=14.38GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  31%|███       | 1399/4533 [3:47:34<7:43:05,  8.87s/it, gpt_loss=0.339, loss_mean=0.322][A
+Train step of epoch 0:  31%|███       | 1400/4533 [3:47:34<7:45:22,  8.91s/it, gpt_loss=0.339, loss_mean=0.322][A2026-01-26 17:35:38.074 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  31%|███       | 1400/4533 [3:47:42<7:45:22,  8.91s/it, gpt_loss=0.326, loss_mean=0.322][A
+Train step of epoch 0:  31%|███       | 1401/4533 [3:47:42<7:45:35,  8.92s/it, gpt_loss=0.326, loss_mean=0.322][A2026-01-26 17:35:47.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  31%|███       | 1401/4533 [3:47:54<7:45:35,  8.92s/it, gpt_loss=0.343, loss_mean=0.324][A
+Train step of epoch 0:  31%|███       | 1402/4533 [3:47:54<8:32:48,  9.83s/it, gpt_loss=0.343, loss_mean=0.324][A2026-01-26 17:35:59.088 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  31%|███       | 1402/4533 [3:48:04<8:32:48,  9.83s/it, gpt_loss=0.328, loss_mean=0.324][A
+Train step of epoch 0:  31%|███       | 1403/4533 [3:48:04<8:29:34,  9.77s/it, gpt_loss=0.328, loss_mean=0.324][A2026-01-26 17:36:08.695 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  31%|███       | 1403/4533 [3:48:13<8:29:34,  9.77s/it, gpt_loss=0.247, loss_mean=0.317][A
+Train step of epoch 0:  31%|███       | 1404/4533 [3:48:13<8:15:02,  9.49s/it, gpt_loss=0.247, loss_mean=0.317][A2026-01-26 17:36:17.454 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  31%|███       | 1404/4533 [3:48:22<8:15:02,  9.49s/it, gpt_loss=0.285, loss_mean=0.314][A
+Train step of epoch 0:  31%|███       | 1405/4533 [3:48:22<8:04:22,  9.29s/it, gpt_loss=0.285, loss_mean=0.314][A2026-01-26 17:36:25.981 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  31%|███       | 1405/4533 [3:48:31<8:04:22,  9.29s/it, gpt_loss=0.352, loss_mean=0.317][A
+Train step of epoch 0:  31%|███       | 1406/4533 [3:48:31<8:05:40,  9.32s/it, gpt_loss=0.352, loss_mean=0.317][A2026-01-26 17:36:35.791 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  31%|███       | 1406/4533 [3:48:40<8:05:40,  9.32s/it, gpt_loss=0.273, loss_mean=0.313][A
+Train step of epoch 0:  31%|███       | 1407/4533 [3:48:40<8:00:12,  9.22s/it, gpt_loss=0.273, loss_mean=0.313][A2026-01-26 17:36:44.764 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  31%|███       | 1407/4533 [3:48:49<8:00:12,  9.22s/it, gpt_loss=0.348, loss_mean=0.316][A
+Train step of epoch 0:  31%|███       | 1408/4533 [3:48:49<7:52:35,  9.07s/it, gpt_loss=0.348, loss_mean=0.316][A2026-01-26 17:36:53.372 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  31%|███       | 1408/4533 [3:49:01<7:52:35,  9.07s/it, gpt_loss=0.384, loss_mean=0.323][A
+Train step of epoch 0:  31%|███       | 1409/4533 [3:49:01<8:33:38,  9.87s/it, gpt_loss=0.384, loss_mean=0.323][A
+[LID Router Debug] Step: 1410
+Batch Size: 14
+Audio Batch Size: 171
+LID Assignments: [0, 3, 5, 6, 9, 0, 6, 1, 0, 3, 3, 9, 3, 1]
+Active Experts in Batch: {0, 1, 3, 5, 6, 9}
+2026-01-26 17:37:05.183 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  31%|███       | 1409/4533 [3:49:09<8:33:38,  9.87s/it, gpt_loss=0.314, loss_mean=0.322][A
+Train step of epoch 0:  31%|███       | 1410/4533 [3:49:09<8:16:14,  9.53s/it, gpt_loss=0.314, loss_mean=0.322][A2026-01-26 17:37:13.855 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  31%|███       | 1410/4533 [3:49:18<8:16:14,  9.53s/it, gpt_loss=0.266, loss_mean=0.317][A
+Train step of epoch 0:  31%|███       | 1411/4533 [3:49:18<8:10:16,  9.42s/it, gpt_loss=0.266, loss_mean=0.317][A2026-01-26 17:37:22.985 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  31%|███       | 1411/4533 [3:49:27<8:10:16,  9.42s/it, gpt_loss=0.38, loss_mean=0.323] [A
+Train step of epoch 0:  31%|███       | 1412/4533 [3:49:27<7:59:21,  9.22s/it, gpt_loss=0.38, loss_mean=0.323][A2026-01-26 17:37:31.570 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  31%|███       | 1412/4533 [3:49:38<7:59:21,  9.22s/it, gpt_loss=0.506, loss_mean=0.341][A
+Train step of epoch 0:  31%|███       | 1413/4533 [3:49:38<8:30:43,  9.82s/it, gpt_loss=0.506, loss_mean=0.341][A2026-01-26 17:37:42.765 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  31%|███       | 1413/4533 [3:49:50<8:30:43,  9.82s/it, gpt_loss=0.441, loss_mean=0.351][A
+Train step of epoch 0:  31%|███       | 1414/4533 [3:49:50<8:55:10, 10.30s/it, gpt_loss=0.441, loss_mean=0.351][A2026-01-26 17:37:54.472 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  31%|███       | 1414/4533 [3:50:02<8:55:10, 10.30s/it, gpt_loss=0.362, loss_mean=0.352][A
+Train step of epoch 0:  31%|███       | 1415/4533 [3:50:02<9:20:20, 10.78s/it, gpt_loss=0.362, loss_mean=0.352][A2026-01-26 17:38:06.352 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  31%|███       | 1415/4533 [3:50:14<9:20:20, 10.78s/it, gpt_loss=0.464, loss_mean=0.364][A
+Train step of epoch 0:  31%|███       | 1416/4533 [3:50:14<9:36:10, 11.09s/it, gpt_loss=0.464, loss_mean=0.364][A2026-01-26 17:38:18.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  31%|███       | 1416/4533 [3:50:23<9:36:10, 11.09s/it, gpt_loss=0.309, loss_mean=0.358][A
+Train step of epoch 0:  31%|███▏      | 1417/4533 [3:50:23<9:04:13, 10.48s/it, gpt_loss=0.309, loss_mean=0.358][A2026-01-26 17:38:27.296 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  31%|███▏      | 1417/4533 [3:50:32<9:04:13, 10.48s/it, gpt_loss=0.437, loss_mean=0.366][A
+Train step of epoch 0:  31%|███▏      | 1418/4533 [3:50:32<8:53:29, 10.28s/it, gpt_loss=0.437, loss_mean=0.366][A2026-01-26 17:38:37.162 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  31%|███▏      | 1418/4533 [3:50:45<8:53:29, 10.28s/it, gpt_loss=0.359, loss_mean=0.365][A
+Train step of epoch 0:  31%|███▏      | 1419/4533 [3:50:45<9:23:22, 10.85s/it, gpt_loss=0.359, loss_mean=0.365][A
+[LID Router Debug] Step: 1420
+Batch Size: 14
+Audio Batch Size: 135
+LID Assignments: [5, 4, 5, 9, 1, 2, 5, 9, 9, 0, 5, 3, 4, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 17:38:49.365 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  31%|███▏      | 1419/4533 [3:50:53<9:23:22, 10.85s/it, gpt_loss=0.368, loss_mean=0.366][A
+Train step of epoch 0:  31%|███▏      | 1420/4533 [3:50:53<8:52:08, 10.26s/it, gpt_loss=0.368, loss_mean=0.366][A2026-01-26 17:38:57.982 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  31%|███▏      | 1420/4533 [3:51:03<8:52:08, 10.26s/it, gpt_loss=0.313, loss_mean=0.36] [A
+Train step of epoch 0:  31%|███▏      | 1421/4533 [3:51:03<8:42:14, 10.07s/it, gpt_loss=0.313, loss_mean=0.36][A2026-01-26 17:39:07.558 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  31%|███▏      | 1421/4533 [3:51:12<8:42:14, 10.07s/it, gpt_loss=0.345, loss_mean=0.359][A
+Train step of epoch 0:  31%|███▏      | 1422/4533 [3:51:12<8:21:06,  9.66s/it, gpt_loss=0.345, loss_mean=0.359][A2026-01-26 17:39:16.092 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  31%|███▏      | 1422/4533 [3:51:21<8:21:06,  9.66s/it, gpt_loss=0.319, loss_mean=0.355][A
+Train step of epoch 0:  31%|███▏      | 1423/4533 [3:51:21<8:15:54,  9.57s/it, gpt_loss=0.319, loss_mean=0.355][A2026-01-26 17:39:25.796 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  31%|███▏      | 1423/4533 [3:51:30<8:15:54,  9.57s/it, gpt_loss=0.209, loss_mean=0.34] [A
+Train step of epoch 0:  31%|███▏      | 1424/4533 [3:51:30<8:08:10,  9.42s/it, gpt_loss=0.209, loss_mean=0.34][A2026-01-26 17:39:34.768 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  31%|███▏      | 1424/4533 [3:51:42<8:08:10,  9.42s/it, gpt_loss=0.334, loss_mean=0.34][A
+Train step of epoch 0:  31%|███▏      | 1425/4533 [3:51:42<8:41:54, 10.08s/it, gpt_loss=0.334, loss_mean=0.34][A2026-01-26 17:39:46.387 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  31%|███▏      | 1425/4533 [3:51:51<8:41:54, 10.08s/it, gpt_loss=0.364, loss_mean=0.342][A
+Train step of epoch 0:  31%|███▏      | 1426/4533 [3:51:51<8:31:00,  9.87s/it, gpt_loss=0.364, loss_mean=0.342][A2026-01-26 17:39:55.873 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  31%|███▏      | 1426/4533 [3:52:00<8:31:00,  9.87s/it, gpt_loss=0.26, loss_mean=0.334] [A
+Train step of epoch 0:  31%|███▏      | 1427/4533 [3:52:00<8:16:46,  9.60s/it, gpt_loss=0.26, loss_mean=0.334][A2026-01-26 17:40:04.874 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  31%|███▏      | 1427/4533 [3:52:09<8:16:46,  9.60s/it, gpt_loss=0.296, loss_mean=0.33][A
+Train step of epoch 0:  32%|███▏      | 1428/4533 [3:52:09<8:05:20,  9.38s/it, gpt_loss=0.296, loss_mean=0.33][A2026-01-26 17:40:13.674 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  32%|███▏      | 1428/4533 [3:52:18<8:05:20,  9.38s/it, gpt_loss=0.296, loss_mean=0.327][A
+Train step of epoch 0:  32%|███▏      | 1429/4533 [3:52:18<7:58:39,  9.25s/it, gpt_loss=0.296, loss_mean=0.327][A
+[LID Router Debug] Step: 1430
+Batch Size: 14
+Audio Batch Size: 136
+LID Assignments: [4, 9, 1, 2, 0, 9, 4, 4, 1, 2, 2, 6, 2, 4]
+Active Experts in Batch: {0, 1, 2, 4, 6, 9}
+2026-01-26 17:40:22.761 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  32%|███▏      | 1429/4533 [3:52:27<7:58:39,  9.25s/it, gpt_loss=0.287, loss_mean=0.323][A
+Train step of epoch 0:  32%|███▏      | 1430/4533 [3:52:27<7:55:11,  9.19s/it, gpt_loss=0.287, loss_mean=0.323][A2026-01-26 17:40:31.585 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  32%|███▏      | 1430/4533 [3:52:36<7:55:11,  9.19s/it, gpt_loss=0.356, loss_mean=0.326][A
+Train step of epoch 0:  32%|███▏      | 1431/4533 [3:52:36<7:56:06,  9.21s/it, gpt_loss=0.356, loss_mean=0.326][A2026-01-26 17:40:40.878 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  32%|███▏      | 1431/4533 [3:52:48<7:56:06,  9.21s/it, gpt_loss=0.377, loss_mean=0.331][A
+Train step of epoch 0:  32%|███▏      | 1432/4533 [3:52:48<8:30:19,  9.87s/it, gpt_loss=0.377, loss_mean=0.331][A2026-01-26 17:40:52.181 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  32%|███▏      | 1432/4533 [3:52:56<8:30:19,  9.87s/it, gpt_loss=0.294, loss_mean=0.327][A
+Train step of epoch 0:  32%|███▏      | 1433/4533 [3:52:56<8:12:30,  9.53s/it, gpt_loss=0.294, loss_mean=0.327][A2026-01-26 17:41:01.185 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  32%|███▏      | 1433/4533 [3:53:09<8:12:30,  9.53s/it, gpt_loss=0.358, loss_mean=0.331][A
+Train step of epoch 0:  32%|███▏      | 1434/4533 [3:53:09<8:51:33, 10.29s/it, gpt_loss=0.358, loss_mean=0.331][A2026-01-26 17:41:13.188 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  32%|███▏      | 1434/4533 [3:53:18<8:51:33, 10.29s/it, gpt_loss=0.302, loss_mean=0.328][A
+Train step of epoch 0:  32%|███▏      | 1435/4533 [3:53:18<8:31:13,  9.90s/it, gpt_loss=0.302, loss_mean=0.328][A2026-01-26 17:41:22.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  32%|███▏      | 1435/4533 [3:53:29<8:31:13,  9.90s/it, gpt_loss=0.457, loss_mean=0.341][A
+Train step of epoch 0:  32%|███▏      | 1436/4533 [3:53:29<9:01:04, 10.48s/it, gpt_loss=0.457, loss_mean=0.341][A2026-01-26 17:41:33.992 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  32%|███▏      | 1436/4533 [3:53:41<9:01:04, 10.48s/it, gpt_loss=0.466, loss_mean=0.353][A
+Train step of epoch 0:  32%|███▏      | 1437/4533 [3:53:41<9:17:58, 10.81s/it, gpt_loss=0.466, loss_mean=0.353][A2026-01-26 17:41:45.677 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  32%|███▏      | 1437/4533 [3:53:51<9:17:58, 10.81s/it, gpt_loss=0.351, loss_mean=0.353][A
+Train step of epoch 0:  32%|███▏      | 1438/4533 [3:53:51<9:06:09, 10.59s/it, gpt_loss=0.351, loss_mean=0.353][A2026-01-26 17:41:55.754 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  32%|███▏      | 1438/4533 [3:54:00<9:06:09, 10.59s/it, gpt_loss=0.269, loss_mean=0.345][A
+Train step of epoch 0:  32%|███▏      | 1439/4533 [3:54:00<8:46:15, 10.21s/it, gpt_loss=0.269, loss_mean=0.345][A
+[LID Router Debug] Step: 1440
+Batch Size: 14
+Audio Batch Size: 133
+LID Assignments: [5, 1, 6, 1, 0, 1, 4, 4, 4, 5, 1, 3, 3, 4]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6}
+2026-01-26 17:42:04.752 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  32%|███▏      | 1439/4533 [3:54:09<8:46:15, 10.21s/it, gpt_loss=0.301, loss_mean=0.34] [A
+Train step of epoch 0:  32%|███▏      | 1440/4533 [3:54:09<8:20:59,  9.72s/it, gpt_loss=0.301, loss_mean=0.34][A2026-01-26 17:42:13.384 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  32%|███▏      | 1440/4533 [3:54:19<8:20:59,  9.72s/it, gpt_loss=0.285, loss_mean=0.335][A
+Train step of epoch 0:  32%|███▏      | 1441/4533 [3:54:19<8:19:47,  9.70s/it, gpt_loss=0.285, loss_mean=0.335][A2026-01-26 17:42:23.193 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  32%|███▏      | 1441/4533 [3:54:28<8:19:47,  9.70s/it, gpt_loss=0.335, loss_mean=0.335][A
+Train step of epoch 0:  32%|███▏      | 1442/4533 [3:54:28<8:18:53,  9.68s/it, gpt_loss=0.335, loss_mean=0.335][A2026-01-26 17:42:32.973 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  32%|███▏      | 1442/4533 [3:54:38<8:18:53,  9.68s/it, gpt_loss=0.264, loss_mean=0.328][A
+Train step of epoch 0:  32%|███▏      | 1443/4533 [3:54:38<8:19:58,  9.71s/it, gpt_loss=0.264, loss_mean=0.328][A2026-01-26 17:42:42.494 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  32%|███▏      | 1443/4533 [3:54:47<8:19:58,  9.71s/it, gpt_loss=0.312, loss_mean=0.326][A
+Train step of epoch 0:  32%|███▏      | 1444/4533 [3:54:47<8:07:10,  9.46s/it, gpt_loss=0.312, loss_mean=0.326][A2026-01-26 17:42:51.478 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  32%|███▏      | 1444/4533 [3:54:56<8:07:10,  9.46s/it, gpt_loss=0.302, loss_mean=0.324][A
+Train step of epoch 0:  32%|███▏      | 1445/4533 [3:54:56<8:01:35,  9.36s/it, gpt_loss=0.302, loss_mean=0.324][A2026-01-26 17:43:00.677 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  32%|███▏      | 1445/4533 [3:55:08<8:01:35,  9.36s/it, gpt_loss=0.342, loss_mean=0.326][A
+Train step of epoch 0:  32%|███▏      | 1446/4533 [3:55:08<8:41:46, 10.14s/it, gpt_loss=0.342, loss_mean=0.326][A2026-01-26 17:43:12.582 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  32%|███▏      | 1446/4533 [3:55:17<8:41:46, 10.14s/it, gpt_loss=0.404, loss_mean=0.333][A
+Train step of epoch 0:  32%|███▏      | 1447/4533 [3:55:17<8:20:30,  9.73s/it, gpt_loss=0.404, loss_mean=0.333][A2026-01-26 17:43:21.191 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  32%|███▏      | 1447/4533 [3:55:26<8:20:30,  9.73s/it, gpt_loss=0.314, loss_mean=0.331][A
+Train step of epoch 0:  32%|███▏      | 1448/4533 [3:55:26<8:14:38,  9.62s/it, gpt_loss=0.314, loss_mean=0.331][A2026-01-26 17:43:30.690 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  32%|███▏      | 1448/4533 [3:55:35<8:14:38,  9.62s/it, gpt_loss=0.3, loss_mean=0.328]  [A
+Train step of epoch 0:  32%|███▏      | 1449/4533 [3:55:35<8:02:08,  9.38s/it, gpt_loss=0.3, loss_mean=0.328][A
+[LID Router Debug] Step: 1450
+Batch Size: 14
+Audio Batch Size: 131
+LID Assignments: [2, 3, 4, 1, 4, 4, 5, 1, 9, 9, 4, 6, 9, 2]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-26 17:43:39.666 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  32%|███▏      | 1449/4533 [3:55:44<8:02:08,  9.38s/it, gpt_loss=0.337, loss_mean=0.329][A
+Train step of epoch 0:  32%|███▏      | 1450/4533 [3:55:44<7:53:58,  9.22s/it, gpt_loss=0.337, loss_mean=0.329][A2026-01-26 17:43:48.367 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  32%|███▏      | 1450/4533 [3:55:53<7:53:58,  9.22s/it, gpt_loss=0.27, loss_mean=0.323] [A
+Train step of epoch 0:  32%|███▏      | 1451/4533 [3:55:53<7:57:51,  9.30s/it, gpt_loss=0.27, loss_mean=0.323][A2026-01-26 17:43:57.597 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  32%|███▏      | 1451/4533 [3:56:05<7:57:51,  9.30s/it, gpt_loss=0.366, loss_mean=0.328][A
+Train step of epoch 0:  32%|███▏      | 1452/4533 [3:56:05<8:35:11, 10.03s/it, gpt_loss=0.366, loss_mean=0.328][A2026-01-26 17:44:09.464 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  32%|███▏      | 1452/4533 [3:56:14<8:35:11, 10.03s/it, gpt_loss=0.359, loss_mean=0.331][A
+Train step of epoch 0:  32%|███▏      | 1453/4533 [3:56:14<8:14:20,  9.63s/it, gpt_loss=0.359, loss_mean=0.331][A2026-01-26 17:44:18.363 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  32%|███▏      | 1453/4533 [3:56:23<8:14:20,  9.63s/it, gpt_loss=0.332, loss_mean=0.331][A
+Train step of epoch 0:  32%|███▏      | 1454/4533 [3:56:23<8:02:30,  9.40s/it, gpt_loss=0.332, loss_mean=0.331][A2026-01-26 17:44:27.002 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  32%|███▏      | 1454/4533 [3:56:32<8:02:30,  9.40s/it, gpt_loss=0.284, loss_mean=0.326][A
+Train step of epoch 0:  32%|███▏      | 1455/4533 [3:56:32<8:03:57,  9.43s/it, gpt_loss=0.284, loss_mean=0.326][A2026-01-26 17:44:36.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  32%|███▏      | 1455/4533 [3:56:41<8:03:57,  9.43s/it, gpt_loss=0.337, loss_mean=0.327][A
+Train step of epoch 0:  32%|███▏      | 1456/4533 [3:56:41<7:56:20,  9.29s/it, gpt_loss=0.337, loss_mean=0.327][A2026-01-26 17:44:45.577 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  32%|███▏      | 1456/4533 [3:56:50<7:56:20,  9.29s/it, gpt_loss=0.342, loss_mean=0.329][A
+Train step of epoch 0:  32%|███▏      | 1457/4533 [3:56:50<7:49:28,  9.16s/it, gpt_loss=0.342, loss_mean=0.329][A2026-01-26 17:44:54.492 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  32%|███▏      | 1457/4533 [3:57:00<7:49:28,  9.16s/it, gpt_loss=0.331, loss_mean=0.329][A
+Train step of epoch 0:  32%|███▏      | 1458/4533 [3:57:00<7:57:39,  9.32s/it, gpt_loss=0.331, loss_mean=0.329][A2026-01-26 17:45:04.194 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  32%|███▏      | 1458/4533 [3:57:11<7:57:39,  9.32s/it, gpt_loss=0.414, loss_mean=0.337][A
+Train step of epoch 0:  32%|███▏      | 1459/4533 [3:57:11<8:34:33, 10.04s/it, gpt_loss=0.414, loss_mean=0.337][A
+[LID Router Debug] Step: 1460
+Batch Size: 14
+Audio Batch Size: 116
+LID Assignments: [9, 6, 6, 0, 6, 1, 1, 9, 2, 1, 2, 0, 4, 0]
+Active Experts in Batch: {0, 1, 2, 4, 6, 9}
+2026-01-26 17:45:15.788 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  32%|███▏      | 1459/4533 [3:57:21<8:34:33, 10.04s/it, gpt_loss=0.312, loss_mean=0.335][A
+Train step of epoch 0:  32%|███▏      | 1460/4533 [3:57:21<8:26:26,  9.89s/it, gpt_loss=0.312, loss_mean=0.335][A2026-01-26 17:45:25.486 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  32%|███▏      | 1460/4533 [3:57:30<8:26:26,  9.89s/it, gpt_loss=0.297, loss_mean=0.331][A
+Train step of epoch 0:  32%|███▏      | 1461/4533 [3:57:30<8:11:51,  9.61s/it, gpt_loss=0.297, loss_mean=0.331][A2026-01-26 17:45:34.481 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  32%|███▏      | 1461/4533 [3:57:40<8:11:51,  9.61s/it, gpt_loss=0.402, loss_mean=0.338][A
+Train step of epoch 0:  32%|███▏      | 1462/4533 [3:57:40<8:17:38,  9.72s/it, gpt_loss=0.402, loss_mean=0.338][A2026-01-26 17:45:44.270 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  32%|███▏      | 1462/4533 [3:57:49<8:17:38,  9.72s/it, gpt_loss=0.344, loss_mean=0.339][A
+Train step of epoch 0:  32%|███▏      | 1463/4533 [3:57:49<8:10:16,  9.58s/it, gpt_loss=0.344, loss_mean=0.339][A2026-01-26 17:45:53.595 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  32%|███▏      | 1463/4533 [3:57:58<8:10:16,  9.58s/it, gpt_loss=0.292, loss_mean=0.334][A
+Train step of epoch 0:  32%|███▏      | 1464/4533 [3:57:58<7:58:21,  9.35s/it, gpt_loss=0.292, loss_mean=0.334][A2026-01-26 17:46:02.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  32%|███▏      | 1464/4533 [3:58:10<7:58:21,  9.35s/it, gpt_loss=0.459, loss_mean=0.347][A
+Train step of epoch 0:  32%|███▏      | 1465/4533 [3:58:10<8:39:49, 10.17s/it, gpt_loss=0.459, loss_mean=0.347][A2026-01-26 17:46:14.083 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  32%|███▏      | 1465/4533 [3:58:18<8:39:49, 10.17s/it, gpt_loss=0.29, loss_mean=0.341] [A
+Train step of epoch 0:  32%|███▏      | 1466/4533 [3:58:18<8:11:35,  9.62s/it, gpt_loss=0.29, loss_mean=0.341][A2026-01-26 17:46:22.889 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  32%|███▏      | 1466/4533 [3:58:30<8:11:35,  9.62s/it, gpt_loss=0.4, loss_mean=0.347] [A
+Train step of epoch 0:  32%|███▏      | 1467/4533 [3:58:30<8:48:07, 10.34s/it, gpt_loss=0.4, loss_mean=0.347][A2026-01-26 17:46:34.782 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  32%|███▏      | 1467/4533 [3:58:40<8:48:07, 10.34s/it, gpt_loss=0.311, loss_mean=0.343][A
+Train step of epoch 0:  32%|███▏      | 1468/4533 [3:58:40<8:34:40, 10.08s/it, gpt_loss=0.311, loss_mean=0.343][A2026-01-26 17:46:44.468 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  32%|███▏      | 1468/4533 [3:58:49<8:34:40, 10.08s/it, gpt_loss=0.26, loss_mean=0.335] [A
+Train step of epoch 0:  32%|███▏      | 1469/4533 [3:58:49<8:23:14,  9.85s/it, gpt_loss=0.26, loss_mean=0.335][A
+[LID Router Debug] Step: 1470
+Batch Size: 14
+Audio Batch Size: 105
+LID Assignments: [1, 1, 0, 6, 2, 6, 6, 1, 1, 5, 2, 2, 1, 5]
+Active Experts in Batch: {0, 1, 2, 5, 6}
+2026-01-26 17:46:53.479 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  32%|███▏      | 1469/4533 [3:58:58<8:23:14,  9.85s/it, gpt_loss=0.372, loss_mean=0.339][A
+Train step of epoch 0:  32%|███▏      | 1470/4533 [3:58:58<8:05:46,  9.52s/it, gpt_loss=0.372, loss_mean=0.339][A2026-01-26 17:47:02.281 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  32%|███▏      | 1470/4533 [3:59:07<8:05:46,  9.52s/it, gpt_loss=0.293, loss_mean=0.334][A
+Train step of epoch 0:  32%|███▏      | 1471/4533 [3:59:07<8:05:13,  9.51s/it, gpt_loss=0.293, loss_mean=0.334][A2026-01-26 17:47:11.902 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  32%|███▏      | 1471/4533 [3:59:17<8:05:13,  9.51s/it, gpt_loss=0.305, loss_mean=0.331][A
+Train step of epoch 0:  32%|███▏      | 1472/4533 [3:59:17<8:05:06,  9.51s/it, gpt_loss=0.305, loss_mean=0.331][A2026-01-26 17:47:21.253 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  32%|███▏      | 1472/4533 [3:59:26<8:05:06,  9.51s/it, gpt_loss=0.351, loss_mean=0.333][A
+Train step of epoch 0:  32%|███▏      | 1473/4533 [3:59:26<7:57:39,  9.37s/it, gpt_loss=0.351, loss_mean=0.333][A2026-01-26 17:47:30.464 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  32%|███▏      | 1473/4533 [3:59:38<7:57:39,  9.37s/it, gpt_loss=0.409, loss_mean=0.341][A
+Train step of epoch 0:  33%|███▎      | 1474/4533 [3:59:38<8:34:48, 10.10s/it, gpt_loss=0.409, loss_mean=0.341][A2026-01-26 17:47:42.176 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  33%|███▎      | 1474/4533 [3:59:47<8:34:48, 10.10s/it, gpt_loss=0.325, loss_mean=0.339][A
+Train step of epoch 0:  33%|███▎      | 1475/4533 [3:59:47<8:16:21,  9.74s/it, gpt_loss=0.325, loss_mean=0.339][A2026-01-26 17:47:51.195 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  33%|███▎      | 1475/4533 [3:59:59<8:16:21,  9.74s/it, gpt_loss=0.45, loss_mean=0.35]  [A
+Train step of epoch 0:  33%|███▎      | 1476/4533 [3:59:59<8:53:16, 10.47s/it, gpt_loss=0.45, loss_mean=0.35][A2026-01-26 17:48:03.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  33%|███▎      | 1476/4533 [4:00:08<8:53:16, 10.47s/it, gpt_loss=0.325, loss_mean=0.348][A
+Train step of epoch 0:  33%|███▎      | 1477/4533 [4:00:08<8:27:52,  9.97s/it, gpt_loss=0.325, loss_mean=0.348][A2026-01-26 17:48:12.194 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  33%|███▎      | 1477/4533 [4:00:19<8:27:52,  9.97s/it, gpt_loss=0.373, loss_mean=0.35] [A
+Train step of epoch 0:  33%|███▎      | 1478/4533 [4:00:19<8:55:19, 10.51s/it, gpt_loss=0.373, loss_mean=0.35][A2026-01-26 17:48:23.972 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  33%|███▎      | 1478/4533 [4:00:28<8:55:19, 10.51s/it, gpt_loss=0.255, loss_mean=0.341][A
+Train step of epoch 0:  33%|███▎      | 1479/4533 [4:00:28<8:31:09, 10.04s/it, gpt_loss=0.255, loss_mean=0.341][A
+[LID Router Debug] Step: 1480
+Batch Size: 14
+Audio Batch Size: 158
+LID Assignments: [5, 2, 3, 2, 4, 2, 2, 3, 0, 2, 5, 2, 5, 2]
+Active Experts in Batch: {0, 2, 3, 4, 5}
+2026-01-26 17:48:32.463 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  33%|███▎      | 1479/4533 [4:00:37<8:31:09, 10.04s/it, gpt_loss=0.363, loss_mean=0.343][A
+Train step of epoch 0:  33%|███▎      | 1480/4533 [4:00:37<8:08:25,  9.60s/it, gpt_loss=0.363, loss_mean=0.343][A2026-01-26 17:48:41.362 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  33%|███▎      | 1480/4533 [4:00:46<8:08:25,  9.60s/it, gpt_loss=0.241, loss_mean=0.333][A
+Train step of epoch 0:  33%|███▎      | 1481/4533 [4:00:46<8:06:38,  9.57s/it, gpt_loss=0.241, loss_mean=0.333][A2026-01-26 17:48:50.852 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  33%|███▎      | 1481/4533 [4:00:58<8:06:38,  9.57s/it, gpt_loss=0.431, loss_mean=0.343][A
+Train step of epoch 0:  33%|███▎      | 1482/4533 [4:00:58<8:37:08, 10.17s/it, gpt_loss=0.431, loss_mean=0.343][A2026-01-26 17:49:02.499 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  33%|███▎      | 1482/4533 [4:01:07<8:37:08, 10.17s/it, gpt_loss=0.308, loss_mean=0.339][A
+Train step of epoch 0:  33%|███▎      | 1483/4533 [4:01:07<8:14:48,  9.73s/it, gpt_loss=0.308, loss_mean=0.339][A2026-01-26 17:49:11.152 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  33%|███▎      | 1483/4533 [4:01:19<8:14:48,  9.73s/it, gpt_loss=0.326, loss_mean=0.338][A
+Train step of epoch 0:  33%|███▎      | 1484/4533 [4:01:19<8:49:53, 10.43s/it, gpt_loss=0.326, loss_mean=0.338][A2026-01-26 17:49:23.301 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  33%|███▎      | 1484/4533 [4:01:28<8:49:53, 10.43s/it, gpt_loss=0.312, loss_mean=0.335][A
+Train step of epoch 0:  33%|███▎      | 1485/4533 [4:01:28<8:31:20, 10.07s/it, gpt_loss=0.312, loss_mean=0.335][A2026-01-26 17:49:32.381 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  33%|███▎      | 1485/4533 [4:01:37<8:31:20, 10.07s/it, gpt_loss=0.321, loss_mean=0.334][A
+Train step of epoch 0:  33%|███▎      | 1486/4533 [4:01:37<8:14:41,  9.74s/it, gpt_loss=0.321, loss_mean=0.334][A2026-01-26 17:49:41.179 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  33%|███▎      | 1486/4533 [4:01:45<8:14:41,  9.74s/it, gpt_loss=0.289, loss_mean=0.329][A
+Train step of epoch 0:  33%|███▎      | 1487/4533 [4:01:45<7:57:03,  9.40s/it, gpt_loss=0.289, loss_mean=0.329][A2026-01-26 17:49:49.786 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  33%|███▎      | 1487/4533 [4:01:57<7:57:03,  9.40s/it, gpt_loss=0.34, loss_mean=0.33]  [A
+Train step of epoch 0:  33%|███▎      | 1488/4533 [4:01:57<8:33:38, 10.12s/it, gpt_loss=0.34, loss_mean=0.33][A2026-01-26 17:50:01.892 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  33%|███▎      | 1488/4533 [4:02:09<8:33:38, 10.12s/it, gpt_loss=0.457, loss_mean=0.343][A
+Train step of epoch 0:  33%|███▎      | 1489/4533 [4:02:09<9:00:25, 10.65s/it, gpt_loss=0.457, loss_mean=0.343][A
+[LID Router Debug] Step: 1490
+Batch Size: 14
+Audio Batch Size: 124
+LID Assignments: [2, 5, 9, 9, 3, 0, 9, 4, 0, 5, 5, 6, 1, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 17:50:13.490 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  33%|███▎      | 1489/4533 [4:02:21<9:00:25, 10.65s/it, gpt_loss=0.413, loss_mean=0.35] [A
+Train step of epoch 0:  33%|███▎      | 1490/4533 [4:02:21<9:22:27, 11.09s/it, gpt_loss=0.413, loss_mean=0.35][A2026-01-26 17:50:25.881 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  33%|███▎      | 1490/4533 [4:02:30<9:22:27, 11.09s/it, gpt_loss=0.284, loss_mean=0.343][A
+Train step of epoch 0:  33%|███▎      | 1491/4533 [4:02:30<8:53:32, 10.52s/it, gpt_loss=0.284, loss_mean=0.343][A2026-01-26 17:50:34.884 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  33%|███▎      | 1491/4533 [4:02:39<8:53:32, 10.52s/it, gpt_loss=0.413, loss_mean=0.35] [A
+Train step of epoch 0:  33%|███▎      | 1492/4533 [4:02:39<8:23:55,  9.94s/it, gpt_loss=0.413, loss_mean=0.35][A2026-01-26 17:50:43.692 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  33%|███▎      | 1492/4533 [4:02:48<8:23:55,  9.94s/it, gpt_loss=0.338, loss_mean=0.349][A
+Train step of epoch 0:  33%|███▎      | 1493/4533 [4:02:48<8:08:20,  9.64s/it, gpt_loss=0.338, loss_mean=0.349][A2026-01-26 17:50:52.662 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  33%|███▎      | 1493/4533 [4:02:58<8:08:20,  9.64s/it, gpt_loss=0.284, loss_mean=0.343][A
+Train step of epoch 0:  33%|███▎      | 1494/4533 [4:02:58<8:10:52,  9.69s/it, gpt_loss=0.284, loss_mean=0.343][A2026-01-26 17:51:01.967 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  33%|███▎      | 1494/4533 [4:03:09<8:10:52,  9.69s/it, gpt_loss=0.451, loss_mean=0.353][A
+Train step of epoch 0:  33%|███▎      | 1495/4533 [4:03:09<8:38:57, 10.25s/it, gpt_loss=0.451, loss_mean=0.353][A2026-01-26 17:51:13.696 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  33%|███▎      | 1495/4533 [4:03:18<8:38:57, 10.25s/it, gpt_loss=0.367, loss_mean=0.355][A
+Train step of epoch 0:  33%|███▎      | 1496/4533 [4:03:18<8:14:12,  9.76s/it, gpt_loss=0.367, loss_mean=0.355][A2026-01-26 17:51:22.476 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  33%|███▎      | 1496/4533 [4:03:30<8:14:12,  9.76s/it, gpt_loss=0.422, loss_mean=0.362][A
+Train step of epoch 0:  33%|███▎      | 1497/4533 [4:03:30<8:43:09, 10.34s/it, gpt_loss=0.422, loss_mean=0.362][A2026-01-26 17:51:34.175 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  33%|███▎      | 1497/4533 [4:03:38<8:43:09, 10.34s/it, gpt_loss=0.291, loss_mean=0.354][A
+Train step of epoch 0:  33%|███▎      | 1498/4533 [4:03:38<8:19:06,  9.87s/it, gpt_loss=0.291, loss_mean=0.354][A2026-01-26 17:51:42.756 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  33%|███▎      | 1498/4533 [4:03:50<8:19:06,  9.87s/it, gpt_loss=0.463, loss_mean=0.365][A
+Train step of epoch 0:  33%|███▎      | 1499/4533 [4:03:50<8:49:02, 10.46s/it, gpt_loss=0.463, loss_mean=0.365][A
+[LID Router Debug] Step: 1500
+Batch Size: 14
+Audio Batch Size: 160
+LID Assignments: [3, 5, 9, 2, 6, 4, 4, 2, 1, 3, 6, 2, 4, 5]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-26 17:51:54.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+[2026-01-26 17:52:02,865] [INFO] [logging.py:96:log_dist] [Rank 0] step=1500, skipped=0, lr=[1.949772075732323e-05, 1.949772075732323e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 17:52:02,866] [INFO] [timer.py:260:stop] epoch=0/micro_step=1500/global_step=1500, RunningAvgSamplesPerSec=5.761701322427118, CurrSamplesPerSec=6.455162553382722, MemAllocated=14.87GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  33%|███▎      | 1499/4533 [4:03:59<8:49:02, 10.46s/it, gpt_loss=0.362, loss_mean=0.365][A
+Train step of epoch 0:  33%|███▎      | 1500/4533 [4:03:59<8:22:02,  9.93s/it, gpt_loss=0.362, loss_mean=0.365][A2026-01-26 17:52:03.581 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  33%|███▎      | 1500/4533 [4:04:09<8:22:02,  9.93s/it, gpt_loss=0.303, loss_mean=0.359][A
+Train step of epoch 0:  33%|███▎      | 1501/4533 [4:04:09<8:20:09,  9.90s/it, gpt_loss=0.303, loss_mean=0.359][A2026-01-26 17:52:13.392 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  33%|███▎      | 1501/4533 [4:04:18<8:20:09,  9.90s/it, gpt_loss=0.4, loss_mean=0.363]  [A
+Train step of epoch 0:  33%|███▎      | 1502/4533 [4:04:18<8:17:08,  9.84s/it, gpt_loss=0.4, loss_mean=0.363][A2026-01-26 17:52:23.069 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  33%|███▎      | 1502/4533 [4:04:30<8:17:08,  9.84s/it, gpt_loss=0.387, loss_mean=0.365][A
+Train step of epoch 0:  33%|███▎      | 1503/4533 [4:04:30<8:47:33, 10.45s/it, gpt_loss=0.387, loss_mean=0.365][A2026-01-26 17:52:34.792 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  33%|███▎      | 1503/4533 [4:04:39<8:47:33, 10.45s/it, gpt_loss=0.289, loss_mean=0.358][A
+Train step of epoch 0:  33%|███▎      | 1504/4533 [4:04:39<8:23:00,  9.96s/it, gpt_loss=0.289, loss_mean=0.358][A2026-01-26 17:52:43.871 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  33%|███▎      | 1504/4533 [4:04:48<8:23:00,  9.96s/it, gpt_loss=0.296, loss_mean=0.352][A
+Train step of epoch 0:  33%|███▎      | 1505/4533 [4:04:48<8:07:10,  9.65s/it, gpt_loss=0.296, loss_mean=0.352][A2026-01-26 17:52:52.497 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  33%|███▎      | 1505/4533 [4:05:00<8:07:10,  9.65s/it, gpt_loss=0.506, loss_mean=0.367][A
+Train step of epoch 0:  33%|███▎      | 1506/4533 [4:05:00<8:40:14, 10.31s/it, gpt_loss=0.506, loss_mean=0.367][A2026-01-26 17:53:04.397 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  33%|███▎      | 1506/4533 [4:05:09<8:40:14, 10.31s/it, gpt_loss=0.272, loss_mean=0.357][A
+Train step of epoch 0:  33%|███▎      | 1507/4533 [4:05:09<8:14:14,  9.80s/it, gpt_loss=0.272, loss_mean=0.357][A2026-01-26 17:53:13.203 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  33%|███▎      | 1507/4533 [4:05:17<8:14:14,  9.80s/it, gpt_loss=0.301, loss_mean=0.352][A
+Train step of epoch 0:  33%|███▎      | 1508/4533 [4:05:17<7:59:26,  9.51s/it, gpt_loss=0.301, loss_mean=0.352][A2026-01-26 17:53:21.876 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  33%|███▎      | 1508/4533 [4:05:29<7:59:26,  9.51s/it, gpt_loss=0.483, loss_mean=0.365][A
+Train step of epoch 0:  33%|███▎      | 1509/4533 [4:05:29<8:36:17, 10.24s/it, gpt_loss=0.483, loss_mean=0.365][A
+[LID Router Debug] Step: 1510
+Batch Size: 14
+Audio Batch Size: 123
+LID Assignments: [0, 9, 5, 2, 5, 5, 0, 1, 9, 5, 3, 2, 2, 9]
+Active Experts in Batch: {0, 1, 2, 3, 5, 9}
+2026-01-26 17:53:34.051 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  33%|███▎      | 1509/4533 [4:05:39<8:36:17, 10.24s/it, gpt_loss=0.382, loss_mean=0.367][A
+Train step of epoch 0:  33%|███▎      | 1510/4533 [4:05:39<8:29:13, 10.11s/it, gpt_loss=0.382, loss_mean=0.367][A2026-01-26 17:53:43.575 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  33%|███▎      | 1510/4533 [4:05:51<8:29:13, 10.11s/it, gpt_loss=0.412, loss_mean=0.371][A
+Train step of epoch 0:  33%|███▎      | 1511/4533 [4:05:51<8:51:50, 10.56s/it, gpt_loss=0.412, loss_mean=0.371][A2026-01-26 17:53:55.203 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  33%|███▎      | 1511/4533 [4:06:00<8:51:50, 10.56s/it, gpt_loss=0.307, loss_mean=0.365][A
+Train step of epoch 0:  33%|███▎      | 1512/4533 [4:06:00<8:26:44, 10.06s/it, gpt_loss=0.307, loss_mean=0.365][A2026-01-26 17:54:04.187 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  33%|███▎      | 1512/4533 [4:06:10<8:26:44, 10.06s/it, gpt_loss=0.313, loss_mean=0.36] [A
+Train step of epoch 0:  33%|███▎      | 1513/4533 [4:06:10<8:23:21, 10.00s/it, gpt_loss=0.313, loss_mean=0.36][A2026-01-26 17:54:14.251 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  33%|███▎      | 1513/4533 [4:06:18<8:23:21, 10.00s/it, gpt_loss=0.289, loss_mean=0.353][A
+Train step of epoch 0:  33%|███▎      | 1514/4533 [4:06:18<8:06:18,  9.67s/it, gpt_loss=0.289, loss_mean=0.353][A2026-01-26 17:54:22.581 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  33%|███▎      | 1514/4533 [4:06:28<8:06:18,  9.67s/it, gpt_loss=0.351, loss_mean=0.352][A
+Train step of epoch 0:  33%|███▎      | 1515/4533 [4:06:28<8:00:55,  9.56s/it, gpt_loss=0.351, loss_mean=0.352][A2026-01-26 17:54:32.390 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  33%|███▎      | 1515/4533 [4:06:37<8:00:55,  9.56s/it, gpt_loss=0.329, loss_mean=0.35] [A
+Train step of epoch 0:  33%|███▎      | 1516/4533 [4:06:37<7:52:06,  9.39s/it, gpt_loss=0.329, loss_mean=0.35][A2026-01-26 17:54:40.953 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  33%|███▎      | 1516/4533 [4:06:48<7:52:06,  9.39s/it, gpt_loss=0.405, loss_mean=0.356][A
+Train step of epoch 0:  33%|███▎      | 1517/4533 [4:06:48<8:27:49, 10.10s/it, gpt_loss=0.405, loss_mean=0.356][A2026-01-26 17:54:53.081 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  33%|███▎      | 1517/4533 [4:07:00<8:27:49, 10.10s/it, gpt_loss=0.341, loss_mean=0.354][A
+Train step of epoch 0:  33%|███▎      | 1518/4533 [4:07:00<8:51:30, 10.58s/it, gpt_loss=0.341, loss_mean=0.354][A2026-01-26 17:55:04.552 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  33%|███▎      | 1518/4533 [4:07:09<8:51:30, 10.58s/it, gpt_loss=0.299, loss_mean=0.349][A
+Train step of epoch 0:  34%|███▎      | 1519/4533 [4:07:09<8:32:10, 10.20s/it, gpt_loss=0.299, loss_mean=0.349][A
+[LID Router Debug] Step: 1520
+Batch Size: 14
+Audio Batch Size: 136
+LID Assignments: [4, 3, 0, 3, 4, 4, 4, 5, 1, 0, 1, 0, 5, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5}
+2026-01-26 17:55:13.991 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  34%|███▎      | 1519/4533 [4:07:22<8:32:10, 10.20s/it, gpt_loss=0.438, loss_mean=0.358][A
+Train step of epoch 0:  34%|███▎      | 1520/4533 [4:07:22<9:00:40, 10.77s/it, gpt_loss=0.438, loss_mean=0.358][A2026-01-26 17:55:26.195 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  34%|███▎      | 1520/4533 [4:07:34<9:00:40, 10.77s/it, gpt_loss=0.378, loss_mean=0.36] [A
+Train step of epoch 0:  34%|███▎      | 1521/4533 [4:07:34<9:18:52, 11.13s/it, gpt_loss=0.378, loss_mean=0.36][A2026-01-26 17:55:37.982 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  34%|███▎      | 1521/4533 [4:07:42<9:18:52, 11.13s/it, gpt_loss=0.283, loss_mean=0.352][A
+Train step of epoch 0:  34%|███▎      | 1522/4533 [4:07:42<8:45:13, 10.47s/it, gpt_loss=0.283, loss_mean=0.352][A2026-01-26 17:55:47.090 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  34%|███▎      | 1522/4533 [4:07:52<8:45:13, 10.47s/it, gpt_loss=0.256, loss_mean=0.342][A
+Train step of epoch 0:  34%|███▎      | 1523/4533 [4:07:52<8:36:57, 10.30s/it, gpt_loss=0.256, loss_mean=0.342][A2026-01-26 17:55:57.063 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  34%|███▎      | 1523/4533 [4:08:01<8:36:57, 10.30s/it, gpt_loss=0.288, loss_mean=0.337][A
+Train step of epoch 0:  34%|███▎      | 1524/4533 [4:08:01<8:16:41,  9.90s/it, gpt_loss=0.288, loss_mean=0.337][A2026-01-26 17:56:05.882 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  34%|███▎      | 1524/4533 [4:08:10<8:16:41,  9.90s/it, gpt_loss=0.317, loss_mean=0.335][A
+Train step of epoch 0:  34%|███▎      | 1525/4533 [4:08:10<7:58:42,  9.55s/it, gpt_loss=0.317, loss_mean=0.335][A2026-01-26 17:56:14.783 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  34%|███▎      | 1525/4533 [4:08:22<7:58:42,  9.55s/it, gpt_loss=0.354, loss_mean=0.337][A
+Train step of epoch 0:  34%|███▎      | 1526/4533 [4:08:22<8:37:59, 10.34s/it, gpt_loss=0.354, loss_mean=0.337][A2026-01-26 17:56:26.659 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  34%|███▎      | 1526/4533 [4:08:31<8:37:59, 10.34s/it, gpt_loss=0.277, loss_mean=0.331][A
+Train step of epoch 0:  34%|███▎      | 1527/4533 [4:08:31<8:10:39,  9.79s/it, gpt_loss=0.277, loss_mean=0.331][A2026-01-26 17:56:35.101 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  34%|███▎      | 1527/4533 [4:08:40<8:10:39,  9.79s/it, gpt_loss=0.34, loss_mean=0.332] [A
+Train step of epoch 0:  34%|███▎      | 1528/4533 [4:08:40<8:00:33,  9.60s/it, gpt_loss=0.34, loss_mean=0.332][A2026-01-26 17:56:44.283 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  34%|███▎      | 1528/4533 [4:08:49<8:00:33,  9.60s/it, gpt_loss=0.349, loss_mean=0.334][A
+Train step of epoch 0:  34%|███▎      | 1529/4533 [4:08:49<7:54:02,  9.47s/it, gpt_loss=0.349, loss_mean=0.334][A
+[LID Router Debug] Step: 1530
+Batch Size: 14
+Audio Batch Size: 154
+LID Assignments: [4, 4, 1, 0, 1, 5, 2, 3, 2, 9, 4, 4, 2, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 17:56:53.670 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  34%|███▎      | 1529/4533 [4:09:01<7:54:02,  9.47s/it, gpt_loss=0.337, loss_mean=0.334][A
+Train step of epoch 0:  34%|███▍      | 1530/4533 [4:09:01<8:31:12, 10.21s/it, gpt_loss=0.337, loss_mean=0.334][A2026-01-26 17:57:05.688 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  34%|███▍      | 1530/4533 [4:09:10<8:31:12, 10.21s/it, gpt_loss=0.277, loss_mean=0.328][A
+Train step of epoch 0:  34%|███▍      | 1531/4533 [4:09:10<8:13:10,  9.86s/it, gpt_loss=0.277, loss_mean=0.328][A2026-01-26 17:57:14.396 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  34%|███▍      | 1531/4533 [4:09:19<8:13:10,  9.86s/it, gpt_loss=0.422, loss_mean=0.337][A
+Train step of epoch 0:  34%|███▍      | 1532/4533 [4:09:19<7:59:15,  9.58s/it, gpt_loss=0.422, loss_mean=0.337][A2026-01-26 17:57:23.384 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  34%|███▍      | 1532/4533 [4:09:28<7:59:15,  9.58s/it, gpt_loss=0.327, loss_mean=0.336][A
+Train step of epoch 0:  34%|███▍      | 1533/4533 [4:09:28<7:49:42,  9.39s/it, gpt_loss=0.327, loss_mean=0.336][A2026-01-26 17:57:32.591 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  34%|███▍      | 1533/4533 [4:09:37<7:49:42,  9.39s/it, gpt_loss=0.276, loss_mean=0.33] [A
+Train step of epoch 0:  34%|███▍      | 1534/4533 [4:09:37<7:40:58,  9.22s/it, gpt_loss=0.276, loss_mean=0.33][A2026-01-26 17:57:41.100 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  34%|███▍      | 1534/4533 [4:09:46<7:40:58,  9.22s/it, gpt_loss=0.4, loss_mean=0.337] [A
+Train step of epoch 0:  34%|███▍      | 1535/4533 [4:09:46<7:44:09,  9.29s/it, gpt_loss=0.4, loss_mean=0.337][A2026-01-26 17:57:50.867 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  34%|███▍      | 1535/4533 [4:09:56<7:44:09,  9.29s/it, gpt_loss=0.421, loss_mean=0.346][A
+Train step of epoch 0:  34%|███▍      | 1536/4533 [4:09:56<7:47:41,  9.36s/it, gpt_loss=0.421, loss_mean=0.346][A2026-01-26 17:58:00.477 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  34%|███▍      | 1536/4533 [4:10:05<7:47:41,  9.36s/it, gpt_loss=0.236, loss_mean=0.335][A
+Train step of epoch 0:  34%|███▍      | 1537/4533 [4:10:05<7:43:02,  9.27s/it, gpt_loss=0.236, loss_mean=0.335][A2026-01-26 17:58:09.478 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  34%|███▍      | 1537/4533 [4:10:14<7:43:02,  9.27s/it, gpt_loss=0.299, loss_mean=0.331][A
+Train step of epoch 0:  34%|███▍      | 1538/4533 [4:10:14<7:40:13,  9.22s/it, gpt_loss=0.299, loss_mean=0.331][A2026-01-26 17:58:18.452 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  34%|███▍      | 1538/4533 [4:10:26<7:40:13,  9.22s/it, gpt_loss=0.406, loss_mean=0.339][A
+Train step of epoch 0:  34%|███▍      | 1539/4533 [4:10:26<8:19:35, 10.01s/it, gpt_loss=0.406, loss_mean=0.339][A
+[LID Router Debug] Step: 1540
+Batch Size: 14
+Audio Batch Size: 157
+LID Assignments: [3, 1, 1, 3, 1, 6, 2, 3, 0, 1, 5, 6, 2, 6]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6}
+2026-01-26 17:58:30.158 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  34%|███▍      | 1539/4533 [4:10:34<8:19:35, 10.01s/it, gpt_loss=0.267, loss_mean=0.332][A
+Train step of epoch 0:  34%|███▍      | 1540/4533 [4:10:34<7:57:34,  9.57s/it, gpt_loss=0.267, loss_mean=0.332][A2026-01-26 17:58:39.060 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  34%|███▍      | 1540/4533 [4:10:44<7:57:34,  9.57s/it, gpt_loss=0.391, loss_mean=0.337][A
+Train step of epoch 0:  34%|███▍      | 1541/4533 [4:10:44<8:03:18,  9.69s/it, gpt_loss=0.391, loss_mean=0.337][A2026-01-26 17:58:48.877 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  34%|███▍      | 1541/4533 [4:10:54<8:03:18,  9.69s/it, gpt_loss=0.38, loss_mean=0.342] [A
+Train step of epoch 0:  34%|███▍      | 1542/4533 [4:10:54<7:58:59,  9.61s/it, gpt_loss=0.38, loss_mean=0.342][A2026-01-26 17:58:58.376 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  34%|███▍      | 1542/4533 [4:11:06<7:58:59,  9.61s/it, gpt_loss=0.448, loss_mean=0.352][A
+Train step of epoch 0:  34%|███▍      | 1543/4533 [4:11:06<8:34:38, 10.33s/it, gpt_loss=0.448, loss_mean=0.352][A2026-01-26 17:59:10.361 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  34%|███▍      | 1543/4533 [4:11:15<8:34:38, 10.33s/it, gpt_loss=0.258, loss_mean=0.343][A
+Train step of epoch 0:  34%|███▍      | 1544/4533 [4:11:15<8:25:06, 10.14s/it, gpt_loss=0.258, loss_mean=0.343][A2026-01-26 17:59:19.886 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  34%|███▍      | 1544/4533 [4:11:27<8:25:06, 10.14s/it, gpt_loss=0.361, loss_mean=0.345][A
+Train step of epoch 0:  34%|███▍      | 1545/4533 [4:11:27<8:53:20, 10.71s/it, gpt_loss=0.361, loss_mean=0.345][A2026-01-26 17:59:32.083 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  34%|███▍      | 1545/4533 [4:11:39<8:53:20, 10.71s/it, gpt_loss=0.39, loss_mean=0.349] [A
+Train step of epoch 0:  34%|███▍      | 1546/4533 [4:11:39<9:08:25, 11.02s/it, gpt_loss=0.39, loss_mean=0.349][A2026-01-26 17:59:43.870 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  34%|███▍      | 1546/4533 [4:11:51<9:08:25, 11.02s/it, gpt_loss=0.379, loss_mean=0.352][A
+Train step of epoch 0:  34%|███▍      | 1547/4533 [4:11:51<9:23:49, 11.33s/it, gpt_loss=0.379, loss_mean=0.352][A2026-01-26 17:59:55.792 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  34%|███▍      | 1547/4533 [4:12:01<9:23:49, 11.33s/it, gpt_loss=0.344, loss_mean=0.351][A
+Train step of epoch 0:  34%|███▍      | 1548/4533 [4:12:01<9:00:16, 10.86s/it, gpt_loss=0.344, loss_mean=0.351][A2026-01-26 18:00:05.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  34%|███▍      | 1548/4533 [4:12:11<9:00:16, 10.86s/it, gpt_loss=0.341, loss_mean=0.35] [A
+Train step of epoch 0:  34%|███▍      | 1549/4533 [4:12:11<8:44:42, 10.55s/it, gpt_loss=0.341, loss_mean=0.35][A
+[LID Router Debug] Step: 1550
+Batch Size: 14
+Audio Batch Size: 154
+LID Assignments: [6, 3, 0, 4, 4, 9, 1, 3, 2, 0, 5, 3, 1, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 18:00:15.562 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  34%|███▍      | 1549/4533 [4:12:21<8:44:42, 10.55s/it, gpt_loss=0.317, loss_mean=0.347][A
+Train step of epoch 0:  34%|███▍      | 1550/4533 [4:12:21<8:33:44, 10.33s/it, gpt_loss=0.317, loss_mean=0.347][A2026-01-26 18:00:25.267 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  34%|███▍      | 1550/4533 [4:12:30<8:33:44, 10.33s/it, gpt_loss=0.286, loss_mean=0.341][A
+Train step of epoch 0:  34%|███▍      | 1551/4533 [4:12:30<8:12:33,  9.91s/it, gpt_loss=0.286, loss_mean=0.341][A2026-01-26 18:00:33.967 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  34%|███▍      | 1551/4533 [4:12:41<8:12:33,  9.91s/it, gpt_loss=0.439, loss_mean=0.351][A
+Train step of epoch 0:  34%|███▍      | 1552/4533 [4:12:41<8:39:45, 10.46s/it, gpt_loss=0.439, loss_mean=0.351][A2026-01-26 18:00:45.868 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  34%|███▍      | 1552/4533 [4:12:53<8:39:45, 10.46s/it, gpt_loss=0.397, loss_mean=0.355][A
+Train step of epoch 0:  34%|███▍      | 1553/4533 [4:12:53<9:00:17, 10.88s/it, gpt_loss=0.397, loss_mean=0.355][A2026-01-26 18:00:57.675 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  34%|███▍      | 1553/4533 [4:13:02<9:00:17, 10.88s/it, gpt_loss=0.285, loss_mean=0.348][A
+Train step of epoch 0:  34%|███▍      | 1554/4533 [4:13:02<8:30:06, 10.27s/it, gpt_loss=0.285, loss_mean=0.348][A2026-01-26 18:01:06.685 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  34%|███▍      | 1554/4533 [4:13:14<8:30:06, 10.27s/it, gpt_loss=0.439, loss_mean=0.357][A
+Train step of epoch 0:  34%|███▍      | 1555/4533 [4:13:14<8:54:24, 10.77s/it, gpt_loss=0.439, loss_mean=0.357][A2026-01-26 18:01:18.664 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  34%|███▍      | 1555/4533 [4:13:23<8:54:24, 10.77s/it, gpt_loss=0.313, loss_mean=0.353][A
+Train step of epoch 0:  34%|███▍      | 1556/4533 [4:13:23<8:30:14, 10.28s/it, gpt_loss=0.313, loss_mean=0.353][A2026-01-26 18:01:27.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  34%|███▍      | 1556/4533 [4:13:32<8:30:14, 10.28s/it, gpt_loss=0.308, loss_mean=0.349][A
+Train step of epoch 0:  34%|███▍      | 1557/4533 [4:13:32<8:12:55,  9.94s/it, gpt_loss=0.308, loss_mean=0.349][A2026-01-26 18:01:36.566 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  34%|███▍      | 1557/4533 [4:13:41<8:12:55,  9.94s/it, gpt_loss=0.32, loss_mean=0.346] [A
+Train step of epoch 0:  34%|███▍      | 1558/4533 [4:13:41<7:51:30,  9.51s/it, gpt_loss=0.32, loss_mean=0.346][A2026-01-26 18:01:45.080 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  34%|███▍      | 1558/4533 [4:13:50<7:51:30,  9.51s/it, gpt_loss=0.32, loss_mean=0.343][A
+Train step of epoch 0:  34%|███▍      | 1559/4533 [4:13:50<7:52:22,  9.53s/it, gpt_loss=0.32, loss_mean=0.343][A
+[LID Router Debug] Step: 1560
+Batch Size: 14
+Audio Batch Size: 137
+LID Assignments: [5, 6, 2, 5, 5, 3, 1, 5, 9, 9, 0, 1, 2, 0]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-26 18:01:54.987 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  34%|███▍      | 1559/4533 [4:13:59<7:52:22,  9.53s/it, gpt_loss=0.295, loss_mean=0.338][A
+Train step of epoch 0:  34%|███▍      | 1560/4533 [4:13:59<7:42:46,  9.34s/it, gpt_loss=0.295, loss_mean=0.338][A2026-01-26 18:02:03.688 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  34%|███▍      | 1560/4533 [4:14:08<7:42:46,  9.34s/it, gpt_loss=0.37, loss_mean=0.341] [A
+Train step of epoch 0:  34%|███▍      | 1561/4533 [4:14:08<7:31:54,  9.12s/it, gpt_loss=0.37, loss_mean=0.341][A2026-01-26 18:02:12.192 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  34%|███▍      | 1561/4533 [4:14:16<7:31:54,  9.12s/it, gpt_loss=0.327, loss_mean=0.34][A
+Train step of epoch 0:  34%|███▍      | 1562/4533 [4:14:16<7:20:41,  8.90s/it, gpt_loss=0.327, loss_mean=0.34][A2026-01-26 18:02:20.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  34%|███▍      | 1562/4533 [4:14:28<7:20:41,  8.90s/it, gpt_loss=0.425, loss_mean=0.348][A
+Train step of epoch 0:  34%|███▍      | 1563/4533 [4:14:28<8:02:48,  9.75s/it, gpt_loss=0.425, loss_mean=0.348][A2026-01-26 18:02:32.668 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  34%|███▍      | 1563/4533 [4:14:37<8:02:48,  9.75s/it, gpt_loss=0.285, loss_mean=0.342][A
+Train step of epoch 0:  35%|███▍      | 1564/4533 [4:14:37<7:49:37,  9.49s/it, gpt_loss=0.285, loss_mean=0.342][A2026-01-26 18:02:41.264 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  35%|███▍      | 1564/4533 [4:14:46<7:49:37,  9.49s/it, gpt_loss=0.377, loss_mean=0.346][A
+Train step of epoch 0:  35%|███▍      | 1565/4533 [4:14:46<7:48:06,  9.46s/it, gpt_loss=0.377, loss_mean=0.346][A2026-01-26 18:02:50.871 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  35%|███▍      | 1565/4533 [4:14:55<7:48:06,  9.46s/it, gpt_loss=0.311, loss_mean=0.342][A
+Train step of epoch 0:  35%|███▍      | 1566/4533 [4:14:55<7:37:41,  9.26s/it, gpt_loss=0.311, loss_mean=0.342][A2026-01-26 18:02:59.476 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  35%|███▍      | 1566/4533 [4:15:05<7:37:41,  9.26s/it, gpt_loss=0.367, loss_mean=0.345][A
+Train step of epoch 0:  35%|███▍      | 1567/4533 [4:15:05<7:43:04,  9.37s/it, gpt_loss=0.367, loss_mean=0.345][A2026-01-26 18:03:08.956 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  35%|███▍      | 1567/4533 [4:15:13<7:43:04,  9.37s/it, gpt_loss=0.281, loss_mean=0.338][A
+Train step of epoch 0:  35%|███▍      | 1568/4533 [4:15:13<7:34:10,  9.19s/it, gpt_loss=0.281, loss_mean=0.338][A2026-01-26 18:03:18.161 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  35%|███▍      | 1568/4533 [4:15:22<7:34:10,  9.19s/it, gpt_loss=0.312, loss_mean=0.336][A
+Train step of epoch 0:  35%|███▍      | 1569/4533 [4:15:22<7:28:59,  9.09s/it, gpt_loss=0.312, loss_mean=0.336][A
+[LID Router Debug] Step: 1570
+Batch Size: 14
+Audio Batch Size: 155
+LID Assignments: [3, 5, 2, 0, 4, 0, 1, 2, 4, 2, 0, 4, 4, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5}
+2026-01-26 18:03:26.582 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  35%|███▍      | 1569/4533 [4:15:31<7:28:59,  9.09s/it, gpt_loss=0.297, loss_mean=0.332][A
+Train step of epoch 0:  35%|███▍      | 1570/4533 [4:15:31<7:25:48,  9.03s/it, gpt_loss=0.297, loss_mean=0.332][A2026-01-26 18:03:35.697 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  35%|███▍      | 1570/4533 [4:15:43<7:25:48,  9.03s/it, gpt_loss=0.394, loss_mean=0.338][A
+Train step of epoch 0:  35%|███▍      | 1571/4533 [4:15:43<8:06:59,  9.86s/it, gpt_loss=0.394, loss_mean=0.338][A2026-01-26 18:03:47.560 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  35%|███▍      | 1571/4533 [4:15:52<8:06:59,  9.86s/it, gpt_loss=0.249, loss_mean=0.329][A
+Train step of epoch 0:  35%|███▍      | 1572/4533 [4:15:52<7:57:44,  9.68s/it, gpt_loss=0.249, loss_mean=0.329][A2026-01-26 18:03:56.897 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  35%|███▍      | 1572/4533 [4:16:02<7:57:44,  9.68s/it, gpt_loss=0.391, loss_mean=0.335][A
+Train step of epoch 0:  35%|███▍      | 1573/4533 [4:16:02<7:58:05,  9.69s/it, gpt_loss=0.391, loss_mean=0.335][A2026-01-26 18:04:06.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  35%|███▍      | 1573/4533 [4:16:14<7:58:05,  9.69s/it, gpt_loss=0.338, loss_mean=0.336][A
+Train step of epoch 0:  35%|███▍      | 1574/4533 [4:16:14<8:30:29, 10.35s/it, gpt_loss=0.338, loss_mean=0.336][A2026-01-26 18:04:18.266 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  35%|███▍      | 1574/4533 [4:16:23<8:30:29, 10.35s/it, gpt_loss=0.358, loss_mean=0.338][A
+Train step of epoch 0:  35%|███▍      | 1575/4533 [4:16:23<8:17:38, 10.09s/it, gpt_loss=0.358, loss_mean=0.338][A2026-01-26 18:04:27.680 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  35%|███▍      | 1575/4533 [4:16:32<8:17:38, 10.09s/it, gpt_loss=0.268, loss_mean=0.331][A
+Train step of epoch 0:  35%|███▍      | 1576/4533 [4:16:32<7:57:24,  9.69s/it, gpt_loss=0.268, loss_mean=0.331][A2026-01-26 18:04:36.766 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  35%|███▍      | 1576/4533 [4:16:44<7:57:24,  9.69s/it, gpt_loss=0.419, loss_mean=0.34] [A
+Train step of epoch 0:  35%|███▍      | 1577/4533 [4:16:44<8:31:26, 10.38s/it, gpt_loss=0.419, loss_mean=0.34][A2026-01-26 18:04:48.574 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  35%|███▍      | 1577/4533 [4:16:54<8:31:26, 10.38s/it, gpt_loss=0.384, loss_mean=0.344][A
+Train step of epoch 0:  35%|███▍      | 1578/4533 [4:16:54<8:17:56, 10.11s/it, gpt_loss=0.384, loss_mean=0.344][A2026-01-26 18:04:57.987 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  35%|███▍      | 1578/4533 [4:17:02<8:17:56, 10.11s/it, gpt_loss=0.234, loss_mean=0.333][A
+Train step of epoch 0:  35%|███▍      | 1579/4533 [4:17:02<7:55:59,  9.67s/it, gpt_loss=0.234, loss_mean=0.333][A
+[LID Router Debug] Step: 1580
+Batch Size: 14
+Audio Batch Size: 138
+LID Assignments: [3, 6, 3, 4, 4, 1, 0, 0, 4, 1, 2, 2, 9, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 18:05:06.884 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  35%|███▍      | 1579/4533 [4:17:12<7:55:59,  9.67s/it, gpt_loss=0.313, loss_mean=0.331][A
+Train step of epoch 0:  35%|███▍      | 1580/4533 [4:17:12<7:51:59,  9.59s/it, gpt_loss=0.313, loss_mean=0.331][A2026-01-26 18:05:16.160 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  35%|███▍      | 1580/4533 [4:17:21<7:51:59,  9.59s/it, gpt_loss=0.359, loss_mean=0.334][A
+Train step of epoch 0:  35%|███▍      | 1581/4533 [4:17:21<7:55:09,  9.66s/it, gpt_loss=0.359, loss_mean=0.334][A2026-01-26 18:05:25.972 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  35%|███▍      | 1581/4533 [4:17:33<7:55:09,  9.66s/it, gpt_loss=0.418, loss_mean=0.342][A
+Train step of epoch 0:  35%|███▍      | 1582/4533 [4:17:33<8:24:40, 10.26s/it, gpt_loss=0.418, loss_mean=0.342][A2026-01-26 18:05:37.595 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  35%|███▍      | 1582/4533 [4:17:43<8:24:40, 10.26s/it, gpt_loss=0.362, loss_mean=0.344][A
+Train step of epoch 0:  35%|███▍      | 1583/4533 [4:17:43<8:13:53, 10.05s/it, gpt_loss=0.362, loss_mean=0.344][A2026-01-26 18:05:47.264 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  35%|███▍      | 1583/4533 [4:17:51<8:13:53, 10.05s/it, gpt_loss=0.213, loss_mean=0.331][A
+Train step of epoch 0:  35%|███▍      | 1584/4533 [4:17:51<7:54:05,  9.65s/it, gpt_loss=0.213, loss_mean=0.331][A2026-01-26 18:05:56.061 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  35%|███▍      | 1584/4533 [4:18:01<7:54:05,  9.65s/it, gpt_loss=0.335, loss_mean=0.332][A
+Train step of epoch 0:  35%|███▍      | 1585/4533 [4:18:01<7:56:27,  9.70s/it, gpt_loss=0.335, loss_mean=0.332][A2026-01-26 18:06:05.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  35%|███▍      | 1585/4533 [4:18:11<7:56:27,  9.70s/it, gpt_loss=0.341, loss_mean=0.333][A
+Train step of epoch 0:  35%|███▍      | 1586/4533 [4:18:11<7:56:19,  9.70s/it, gpt_loss=0.341, loss_mean=0.333][A2026-01-26 18:06:15.373 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  35%|███▍      | 1586/4533 [4:18:20<7:56:19,  9.70s/it, gpt_loss=0.335, loss_mean=0.333][A
+Train step of epoch 0:  35%|███▌      | 1587/4533 [4:18:20<7:45:45,  9.49s/it, gpt_loss=0.335, loss_mean=0.333][A2026-01-26 18:06:24.383 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  35%|███▌      | 1587/4533 [4:18:29<7:45:45,  9.49s/it, gpt_loss=0.322, loss_mean=0.332][A
+Train step of epoch 0:  35%|███▌      | 1588/4533 [4:18:29<7:44:48,  9.47s/it, gpt_loss=0.322, loss_mean=0.332][A2026-01-26 18:06:33.652 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  35%|███▌      | 1588/4533 [4:18:38<7:44:48,  9.47s/it, gpt_loss=0.29, loss_mean=0.327] [A
+Train step of epoch 0:  35%|███▌      | 1589/4533 [4:18:38<7:34:45,  9.27s/it, gpt_loss=0.29, loss_mean=0.327][A
+[LID Router Debug] Step: 1590
+Batch Size: 14
+Audio Batch Size: 148
+LID Assignments: [2, 5, 1, 3, 5, 0, 1, 1, 3, 4, 9, 5, 6, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 18:06:42.757 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  35%|███▌      | 1589/4533 [4:18:47<7:34:45,  9.27s/it, gpt_loss=0.365, loss_mean=0.331][A
+Train step of epoch 0:  35%|███▌      | 1590/4533 [4:18:47<7:31:58,  9.21s/it, gpt_loss=0.365, loss_mean=0.331][A2026-01-26 18:06:51.756 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  35%|███▌      | 1590/4533 [4:18:56<7:31:58,  9.21s/it, gpt_loss=0.265, loss_mean=0.325][A
+Train step of epoch 0:  35%|███▌      | 1591/4533 [4:18:56<7:25:03,  9.08s/it, gpt_loss=0.265, loss_mean=0.325][A2026-01-26 18:06:59.978 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  35%|███▌      | 1591/4533 [4:19:04<7:25:03,  9.08s/it, gpt_loss=0.337, loss_mean=0.326][A
+Train step of epoch 0:  35%|███▌      | 1592/4533 [4:19:04<7:16:34,  8.91s/it, gpt_loss=0.337, loss_mean=0.326][A2026-01-26 18:07:09.097 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  35%|███▌      | 1592/4533 [4:19:16<7:16:34,  8.91s/it, gpt_loss=0.393, loss_mean=0.332][A
+Train step of epoch 0:  35%|███▌      | 1593/4533 [4:19:16<8:02:33,  9.85s/it, gpt_loss=0.393, loss_mean=0.332][A2026-01-26 18:07:20.959 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  35%|███▌      | 1593/4533 [4:19:26<8:02:33,  9.85s/it, gpt_loss=0.334, loss_mean=0.333][A
+Train step of epoch 0:  35%|███▌      | 1594/4533 [4:19:26<7:57:23,  9.75s/it, gpt_loss=0.334, loss_mean=0.333][A2026-01-26 18:07:30.566 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  35%|███▌      | 1594/4533 [4:19:36<7:57:23,  9.75s/it, gpt_loss=0.337, loss_mean=0.333][A
+Train step of epoch 0:  35%|███▌      | 1595/4533 [4:19:36<7:54:05,  9.68s/it, gpt_loss=0.337, loss_mean=0.333][A2026-01-26 18:07:40.251 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  35%|███▌      | 1595/4533 [4:19:44<7:54:05,  9.68s/it, gpt_loss=0.317, loss_mean=0.332][A
+Train step of epoch 0:  35%|███▌      | 1596/4533 [4:19:44<7:41:13,  9.42s/it, gpt_loss=0.317, loss_mean=0.332][A2026-01-26 18:07:48.996 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  35%|███▌      | 1596/4533 [4:19:53<7:41:13,  9.42s/it, gpt_loss=0.282, loss_mean=0.327][A
+Train step of epoch 0:  35%|███▌      | 1597/4533 [4:19:53<7:32:09,  9.24s/it, gpt_loss=0.282, loss_mean=0.327][A2026-01-26 18:07:57.385 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  35%|███▌      | 1597/4533 [4:20:03<7:32:09,  9.24s/it, gpt_loss=0.341, loss_mean=0.328][A
+Train step of epoch 0:  35%|███▌      | 1598/4533 [4:20:03<7:36:09,  9.33s/it, gpt_loss=0.341, loss_mean=0.328][A2026-01-26 18:08:06.956 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  35%|███▌      | 1598/4533 [4:20:14<7:36:09,  9.33s/it, gpt_loss=0.519, loss_mean=0.347][A
+Train step of epoch 0:  35%|███▌      | 1599/4533 [4:20:14<8:08:01,  9.98s/it, gpt_loss=0.519, loss_mean=0.347][A
+[LID Router Debug] Step: 1600
+Batch Size: 14
+Audio Batch Size: 126
+LID Assignments: [2, 1, 6, 6, 5, 5, 2, 1, 4, 0, 1, 2, 4, 5]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6}
+2026-01-26 18:08:18.785 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+[2026-01-26 18:08:27,031] [INFO] [logging.py:96:log_dist] [Rank 0] step=1600, skipped=0, lr=[1.9422116471027245e-05, 1.9422116471027245e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 18:08:27,032] [INFO] [timer.py:260:stop] epoch=0/micro_step=1600/global_step=1600, RunningAvgSamplesPerSec=5.757977158247397, CurrSamplesPerSec=6.280622990803693, MemAllocated=14.93GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  35%|███▌      | 1599/4533 [4:20:23<8:08:01,  9.98s/it, gpt_loss=0.285, loss_mean=0.341][A
+Train step of epoch 0:  35%|███▌      | 1600/4533 [4:20:23<7:52:32,  9.67s/it, gpt_loss=0.285, loss_mean=0.341][A2026-01-26 18:08:27.489 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  35%|███▌      | 1600/4533 [4:20:32<7:52:32,  9.67s/it, gpt_loss=0.327, loss_mean=0.34] [A
+Train step of epoch 0:  35%|███▌      | 1601/4533 [4:20:32<7:38:27,  9.38s/it, gpt_loss=0.327, loss_mean=0.34][A2026-01-26 18:08:36.255 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  35%|███▌      | 1601/4533 [4:20:40<7:38:27,  9.38s/it, gpt_loss=0.365, loss_mean=0.342][A
+Train step of epoch 0:  35%|███▌      | 1602/4533 [4:20:40<7:25:07,  9.11s/it, gpt_loss=0.365, loss_mean=0.342][A2026-01-26 18:08:45.055 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  35%|███▌      | 1602/4533 [4:20:49<7:25:07,  9.11s/it, gpt_loss=0.291, loss_mean=0.337][A
+Train step of epoch 0:  35%|███▌      | 1603/4533 [4:20:49<7:25:28,  9.12s/it, gpt_loss=0.291, loss_mean=0.337][A2026-01-26 18:08:54.067 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  35%|███▌      | 1603/4533 [4:21:01<7:25:28,  9.12s/it, gpt_loss=0.424, loss_mean=0.346][A
+Train step of epoch 0:  35%|███▌      | 1604/4533 [4:21:01<8:04:23,  9.92s/it, gpt_loss=0.424, loss_mean=0.346][A2026-01-26 18:09:05.484 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  35%|███▌      | 1604/4533 [4:21:10<8:04:23,  9.92s/it, gpt_loss=0.268, loss_mean=0.338][A
+Train step of epoch 0:  35%|███▌      | 1605/4533 [4:21:10<7:41:55,  9.47s/it, gpt_loss=0.268, loss_mean=0.338][A2026-01-26 18:09:14.185 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  35%|███▌      | 1605/4533 [4:21:19<7:41:55,  9.47s/it, gpt_loss=0.241, loss_mean=0.328][A
+Train step of epoch 0:  35%|███▌      | 1606/4533 [4:21:19<7:35:22,  9.33s/it, gpt_loss=0.241, loss_mean=0.328][A2026-01-26 18:09:22.953 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  35%|███▌      | 1606/4533 [4:21:28<7:35:22,  9.33s/it, gpt_loss=0.329, loss_mean=0.328][A
+Train step of epoch 0:  35%|███▌      | 1607/4533 [4:21:28<7:27:45,  9.18s/it, gpt_loss=0.329, loss_mean=0.328][A2026-01-26 18:09:32.154 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  35%|███▌      | 1607/4533 [4:21:39<7:27:45,  9.18s/it, gpt_loss=0.523, loss_mean=0.348][A
+Train step of epoch 0:  35%|███▌      | 1608/4533 [4:21:39<8:07:54, 10.01s/it, gpt_loss=0.523, loss_mean=0.348][A2026-01-26 18:09:44.052 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  35%|███▌      | 1608/4533 [4:21:48<8:07:54, 10.01s/it, gpt_loss=0.28, loss_mean=0.341] [A
+Train step of epoch 0:  35%|███▌      | 1609/4533 [4:21:48<7:50:56,  9.66s/it, gpt_loss=0.28, loss_mean=0.341][A
+[LID Router Debug] Step: 1610
+Batch Size: 14
+Audio Batch Size: 162
+LID Assignments: [5, 3, 1, 0, 3, 2, 2, 1, 3, 1, 4, 0, 2, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5}
+2026-01-26 18:09:52.991 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  35%|███▌      | 1609/4533 [4:21:57<7:50:56,  9.66s/it, gpt_loss=0.29, loss_mean=0.336][A
+Train step of epoch 0:  36%|███▌      | 1610/4533 [4:21:57<7:39:10,  9.43s/it, gpt_loss=0.29, loss_mean=0.336][A2026-01-26 18:10:01.795 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  36%|███▌      | 1610/4533 [4:22:07<7:39:10,  9.43s/it, gpt_loss=0.352, loss_mean=0.337][A
+Train step of epoch 0:  36%|███▌      | 1611/4533 [4:22:07<7:43:01,  9.51s/it, gpt_loss=0.352, loss_mean=0.337][A2026-01-26 18:10:11.566 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  36%|███▌      | 1611/4533 [4:22:16<7:43:01,  9.51s/it, gpt_loss=0.301, loss_mean=0.334][A
+Train step of epoch 0:  36%|███▌      | 1612/4533 [4:22:16<7:32:44,  9.30s/it, gpt_loss=0.301, loss_mean=0.334][A2026-01-26 18:10:20.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  36%|███▌      | 1612/4533 [4:22:25<7:32:44,  9.30s/it, gpt_loss=0.349, loss_mean=0.335][A
+Train step of epoch 0:  36%|███▌      | 1613/4533 [4:22:25<7:35:24,  9.36s/it, gpt_loss=0.349, loss_mean=0.335][A2026-01-26 18:10:29.774 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  36%|███▌      | 1613/4533 [4:22:34<7:35:24,  9.36s/it, gpt_loss=0.31, loss_mean=0.333] [A
+Train step of epoch 0:  36%|███▌      | 1614/4533 [4:22:34<7:25:39,  9.16s/it, gpt_loss=0.31, loss_mean=0.333][A2026-01-26 18:10:38.191 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  36%|███▌      | 1614/4533 [4:22:46<7:25:39,  9.16s/it, gpt_loss=0.412, loss_mean=0.341][A
+Train step of epoch 0:  36%|███▌      | 1615/4533 [4:22:46<8:03:40,  9.95s/it, gpt_loss=0.412, loss_mean=0.341][A2026-01-26 18:10:49.973 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  36%|███▌      | 1615/4533 [4:22:57<8:03:40,  9.95s/it, gpt_loss=0.367, loss_mean=0.343][A
+Train step of epoch 0:  36%|███▌      | 1616/4533 [4:22:57<8:27:22, 10.44s/it, gpt_loss=0.367, loss_mean=0.343][A2026-01-26 18:11:01.893 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  36%|███▌      | 1616/4533 [4:23:09<8:27:22, 10.44s/it, gpt_loss=0.412, loss_mean=0.35] [A
+Train step of epoch 0:  36%|███▌      | 1617/4533 [4:23:09<8:51:40, 10.94s/it, gpt_loss=0.412, loss_mean=0.35][A2026-01-26 18:11:13.857 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  36%|███▌      | 1617/4533 [4:23:21<8:51:40, 10.94s/it, gpt_loss=0.343, loss_mean=0.349][A
+Train step of epoch 0:  36%|███▌      | 1618/4533 [4:23:21<9:09:04, 11.30s/it, gpt_loss=0.343, loss_mean=0.349][A2026-01-26 18:11:25.798 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  36%|███▌      | 1618/4533 [4:23:33<9:09:04, 11.30s/it, gpt_loss=0.452, loss_mean=0.36] [A
+Train step of epoch 0:  36%|███▌      | 1619/4533 [4:23:33<9:15:28, 11.44s/it, gpt_loss=0.452, loss_mean=0.36][A
+[LID Router Debug] Step: 1620
+Batch Size: 14
+Audio Batch Size: 148
+LID Assignments: [0, 0, 3, 6, 3, 1, 9, 1, 6, 2, 4, 1, 2, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-26 18:11:37.703 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  36%|███▌      | 1619/4533 [4:23:42<9:15:28, 11.44s/it, gpt_loss=0.227, loss_mean=0.346][A
+Train step of epoch 0:  36%|███▌      | 1620/4533 [4:23:42<8:39:15, 10.70s/it, gpt_loss=0.227, loss_mean=0.346][A2026-01-26 18:11:46.964 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  36%|███▌      | 1620/4533 [4:23:54<8:39:15, 10.70s/it, gpt_loss=0.401, loss_mean=0.352][A
+Train step of epoch 0:  36%|███▌      | 1621/4533 [4:23:54<8:59:18, 11.11s/it, gpt_loss=0.401, loss_mean=0.352][A2026-01-26 18:11:58.598 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  36%|███▌      | 1621/4533 [4:24:03<8:59:18, 11.11s/it, gpt_loss=0.31, loss_mean=0.348] [A
+Train step of epoch 0:  36%|███▌      | 1622/4533 [4:24:03<8:24:45, 10.40s/it, gpt_loss=0.31, loss_mean=0.348][A2026-01-26 18:12:07.294 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  36%|███▌      | 1622/4533 [4:24:11<8:24:45, 10.40s/it, gpt_loss=0.298, loss_mean=0.343][A
+Train step of epoch 0:  36%|███▌      | 1623/4533 [4:24:11<7:55:42,  9.81s/it, gpt_loss=0.298, loss_mean=0.343][A2026-01-26 18:12:15.672 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  36%|███▌      | 1623/4533 [4:24:21<7:55:42,  9.81s/it, gpt_loss=0.338, loss_mean=0.342][A
+Train step of epoch 0:  36%|███▌      | 1624/4533 [4:24:21<7:46:26,  9.62s/it, gpt_loss=0.338, loss_mean=0.342][A2026-01-26 18:12:25.299 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  36%|███▌      | 1624/4533 [4:24:31<7:46:26,  9.62s/it, gpt_loss=0.358, loss_mean=0.344][A
+Train step of epoch 0:  36%|███▌      | 1625/4533 [4:24:31<7:50:18,  9.70s/it, gpt_loss=0.358, loss_mean=0.344][A2026-01-26 18:12:35.265 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  36%|███▌      | 1625/4533 [4:24:40<7:50:18,  9.70s/it, gpt_loss=0.352, loss_mean=0.345][A
+Train step of epoch 0:  36%|███▌      | 1626/4533 [4:24:40<7:43:57,  9.58s/it, gpt_loss=0.352, loss_mean=0.345][A2026-01-26 18:12:44.282 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  36%|███▌      | 1626/4533 [4:24:48<7:43:57,  9.58s/it, gpt_loss=0.289, loss_mean=0.339][A
+Train step of epoch 0:  36%|███▌      | 1627/4533 [4:24:48<7:28:46,  9.27s/it, gpt_loss=0.289, loss_mean=0.339][A2026-01-26 18:12:52.886 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  36%|███▌      | 1627/4533 [4:24:57<7:28:46,  9.27s/it, gpt_loss=0.316, loss_mean=0.337][A
+Train step of epoch 0:  36%|███▌      | 1628/4533 [4:24:57<7:23:12,  9.15s/it, gpt_loss=0.316, loss_mean=0.337][A2026-01-26 18:13:01.792 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  36%|███▌      | 1628/4533 [4:25:06<7:23:12,  9.15s/it, gpt_loss=0.271, loss_mean=0.33] [A
+Train step of epoch 0:  36%|███▌      | 1629/4533 [4:25:06<7:15:52,  9.01s/it, gpt_loss=0.271, loss_mean=0.33][A
+[LID Router Debug] Step: 1630
+Batch Size: 14
+Audio Batch Size: 134
+LID Assignments: [5, 1, 5, 3, 9, 5, 4, 5, 0, 1, 0, 9, 6, 9]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6, 9}
+2026-01-26 18:13:10.570 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  36%|███▌      | 1629/4533 [4:25:16<7:15:52,  9.01s/it, gpt_loss=0.317, loss_mean=0.329][A
+Train step of epoch 0:  36%|███▌      | 1630/4533 [4:25:16<7:25:27,  9.21s/it, gpt_loss=0.317, loss_mean=0.329][A2026-01-26 18:13:20.284 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  36%|███▌      | 1630/4533 [4:25:27<7:25:27,  9.21s/it, gpt_loss=0.449, loss_mean=0.341][A
+Train step of epoch 0:  36%|███▌      | 1631/4533 [4:25:27<8:02:08,  9.97s/it, gpt_loss=0.449, loss_mean=0.341][A2026-01-26 18:13:31.852 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  36%|███▌      | 1631/4533 [4:25:37<8:02:08,  9.97s/it, gpt_loss=0.303, loss_mean=0.337][A
+Train step of epoch 0:  36%|███▌      | 1632/4533 [4:25:37<7:57:53,  9.88s/it, gpt_loss=0.303, loss_mean=0.337][A2026-01-26 18:13:41.010 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  36%|███▌      | 1632/4533 [4:25:45<7:57:53,  9.88s/it, gpt_loss=0.285, loss_mean=0.332][A
+Train step of epoch 0:  36%|███▌      | 1633/4533 [4:25:45<7:36:24,  9.44s/it, gpt_loss=0.285, loss_mean=0.332][A2026-01-26 18:13:50.095 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  36%|███▌      | 1633/4533 [4:25:54<7:36:24,  9.44s/it, gpt_loss=0.271, loss_mean=0.326][A
+Train step of epoch 0:  36%|███▌      | 1634/4533 [4:25:54<7:28:14,  9.28s/it, gpt_loss=0.271, loss_mean=0.326][A2026-01-26 18:13:58.558 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  36%|███▌      | 1634/4533 [4:26:03<7:28:14,  9.28s/it, gpt_loss=0.356, loss_mean=0.329][A
+Train step of epoch 0:  36%|███▌      | 1635/4533 [4:26:03<7:15:00,  9.01s/it, gpt_loss=0.356, loss_mean=0.329][A2026-01-26 18:14:07.283 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  36%|███▌      | 1635/4533 [4:26:12<7:15:00,  9.01s/it, gpt_loss=0.235, loss_mean=0.319][A
+Train step of epoch 0:  36%|███▌      | 1636/4533 [4:26:12<7:12:18,  8.95s/it, gpt_loss=0.235, loss_mean=0.319][A2026-01-26 18:14:15.983 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  36%|███▌      | 1636/4533 [4:26:20<7:12:18,  8.95s/it, gpt_loss=0.285, loss_mean=0.316][A
+Train step of epoch 0:  36%|███▌      | 1637/4533 [4:26:20<7:08:50,  8.88s/it, gpt_loss=0.285, loss_mean=0.316][A2026-01-26 18:14:24.654 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  36%|███▌      | 1637/4533 [4:26:29<7:08:50,  8.88s/it, gpt_loss=0.363, loss_mean=0.321][A
+Train step of epoch 0:  36%|███▌      | 1638/4533 [4:26:29<7:02:46,  8.76s/it, gpt_loss=0.363, loss_mean=0.321][A2026-01-26 18:14:33.278 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  36%|███▌      | 1638/4533 [4:26:41<7:02:46,  8.76s/it, gpt_loss=0.377, loss_mean=0.326][A
+Train step of epoch 0:  36%|███▌      | 1639/4533 [4:26:41<7:47:30,  9.69s/it, gpt_loss=0.377, loss_mean=0.326][A
+[LID Router Debug] Step: 1640
+Batch Size: 14
+Audio Batch Size: 161
+LID Assignments: [1, 5, 3, 5, 0, 0, 6, 5, 3, 1, 4, 3, 4, 3]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6}
+2026-01-26 18:14:45.272 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  36%|███▌      | 1639/4533 [4:26:50<7:47:30,  9.69s/it, gpt_loss=0.268, loss_mean=0.321][A
+Train step of epoch 0:  36%|███▌      | 1640/4533 [4:26:50<7:39:03,  9.52s/it, gpt_loss=0.268, loss_mean=0.321][A2026-01-26 18:14:54.471 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  36%|███▌      | 1640/4533 [4:26:59<7:39:03,  9.52s/it, gpt_loss=0.293, loss_mean=0.318][A
+Train step of epoch 0:  36%|███▌      | 1641/4533 [4:26:59<7:31:39,  9.37s/it, gpt_loss=0.293, loss_mean=0.318][A2026-01-26 18:15:03.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  36%|███▌      | 1641/4533 [4:27:08<7:31:39,  9.37s/it, gpt_loss=0.331, loss_mean=0.319][A
+Train step of epoch 0:  36%|███▌      | 1642/4533 [4:27:08<7:24:55,  9.23s/it, gpt_loss=0.331, loss_mean=0.319][A2026-01-26 18:15:12.090 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  36%|███▌      | 1642/4533 [4:27:19<7:24:55,  9.23s/it, gpt_loss=0.311, loss_mean=0.318][A
+Train step of epoch 0:  36%|███▌      | 1643/4533 [4:27:19<8:02:12, 10.01s/it, gpt_loss=0.311, loss_mean=0.318][A2026-01-26 18:15:24.180 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  36%|███▌      | 1643/4533 [4:27:29<8:02:12, 10.01s/it, gpt_loss=0.294, loss_mean=0.316][A
+Train step of epoch 0:  36%|███▋      | 1644/4533 [4:27:29<7:57:39,  9.92s/it, gpt_loss=0.294, loss_mean=0.316][A2026-01-26 18:15:33.870 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  36%|███▋      | 1644/4533 [4:27:41<7:57:39,  9.92s/it, gpt_loss=0.416, loss_mean=0.326][A
+Train step of epoch 0:  36%|███▋      | 1645/4533 [4:27:41<8:26:27, 10.52s/it, gpt_loss=0.416, loss_mean=0.326][A2026-01-26 18:15:45.569 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  36%|███▋      | 1645/4533 [4:27:54<8:26:27, 10.52s/it, gpt_loss=0.366, loss_mean=0.33] [A
+Train step of epoch 0:  36%|███▋      | 1646/4533 [4:27:54<8:57:22, 11.17s/it, gpt_loss=0.366, loss_mean=0.33][A2026-01-26 18:15:58.291 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  36%|███▋      | 1646/4533 [4:28:06<8:57:22, 11.17s/it, gpt_loss=0.374, loss_mean=0.334][A
+Train step of epoch 0:  36%|███▋      | 1647/4533 [4:28:06<9:05:56, 11.35s/it, gpt_loss=0.374, loss_mean=0.334][A2026-01-26 18:16:10.265 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  36%|███▋      | 1647/4533 [4:28:14<9:05:56, 11.35s/it, gpt_loss=0.382, loss_mean=0.339][A
+Train step of epoch 0:  36%|███▋      | 1648/4533 [4:28:14<8:30:16, 10.61s/it, gpt_loss=0.382, loss_mean=0.339][A2026-01-26 18:16:19.067 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  36%|███▋      | 1648/4533 [4:28:23<8:30:16, 10.61s/it, gpt_loss=0.289, loss_mean=0.334][A
+Train step of epoch 0:  36%|███▋      | 1649/4533 [4:28:23<8:07:21, 10.14s/it, gpt_loss=0.289, loss_mean=0.334][A
+[LID Router Debug] Step: 1650
+Batch Size: 14
+Audio Batch Size: 161
+LID Assignments: [0, 3, 9, 5, 2, 2, 9, 4, 3, 1, 0, 9, 3, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 18:16:27.888 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  36%|███▋      | 1649/4533 [4:28:32<8:07:21, 10.14s/it, gpt_loss=0.36, loss_mean=0.337] [A
+Train step of epoch 0:  36%|███▋      | 1650/4533 [4:28:32<7:45:54,  9.70s/it, gpt_loss=0.36, loss_mean=0.337][A2026-01-26 18:16:36.794 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  36%|███▋      | 1650/4533 [4:28:41<7:45:54,  9.70s/it, gpt_loss=0.303, loss_mean=0.333][A
+Train step of epoch 0:  36%|███▋      | 1651/4533 [4:28:41<7:32:26,  9.42s/it, gpt_loss=0.303, loss_mean=0.333][A2026-01-26 18:16:45.660 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  36%|███▋      | 1651/4533 [4:28:50<7:32:26,  9.42s/it, gpt_loss=0.353, loss_mean=0.335][A
+Train step of epoch 0:  36%|███▋      | 1652/4533 [4:28:50<7:24:30,  9.26s/it, gpt_loss=0.353, loss_mean=0.335][A2026-01-26 18:16:54.473 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  36%|███▋      | 1652/4533 [4:29:00<7:24:30,  9.26s/it, gpt_loss=0.257, loss_mean=0.327][A
+Train step of epoch 0:  36%|███▋      | 1653/4533 [4:29:00<7:34:48,  9.48s/it, gpt_loss=0.257, loss_mean=0.327][A2026-01-26 18:17:04.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  36%|███▋      | 1653/4533 [4:29:12<7:34:48,  9.48s/it, gpt_loss=0.442, loss_mean=0.339][A
+Train step of epoch 0:  36%|███▋      | 1654/4533 [4:29:12<8:14:39, 10.31s/it, gpt_loss=0.442, loss_mean=0.339][A2026-01-26 18:17:16.589 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  36%|███▋      | 1654/4533 [4:29:21<8:14:39, 10.31s/it, gpt_loss=0.292, loss_mean=0.334][A
+Train step of epoch 0:  37%|███▋      | 1655/4533 [4:29:21<7:52:43,  9.86s/it, gpt_loss=0.292, loss_mean=0.334][A2026-01-26 18:17:25.405 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  37%|███▋      | 1655/4533 [4:29:30<7:52:43,  9.86s/it, gpt_loss=0.289, loss_mean=0.33] [A
+Train step of epoch 0:  37%|███▋      | 1656/4533 [4:29:30<7:39:01,  9.57s/it, gpt_loss=0.289, loss_mean=0.33][A2026-01-26 18:17:34.292 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  37%|███▋      | 1656/4533 [4:29:39<7:39:01,  9.57s/it, gpt_loss=0.321, loss_mean=0.329][A
+Train step of epoch 0:  37%|███▋      | 1657/4533 [4:29:39<7:38:22,  9.56s/it, gpt_loss=0.321, loss_mean=0.329][A2026-01-26 18:17:43.965 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  37%|███▋      | 1657/4533 [4:29:49<7:38:22,  9.56s/it, gpt_loss=0.395, loss_mean=0.335][A
+Train step of epoch 0:  37%|███▋      | 1658/4533 [4:29:49<7:39:32,  9.59s/it, gpt_loss=0.395, loss_mean=0.335][A2026-01-26 18:17:53.365 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  37%|███▋      | 1658/4533 [4:29:58<7:39:32,  9.59s/it, gpt_loss=0.357, loss_mean=0.337][A
+Train step of epoch 0:  37%|███▋      | 1659/4533 [4:29:58<7:26:07,  9.31s/it, gpt_loss=0.357, loss_mean=0.337][A
+[LID Router Debug] Step: 1660
+Batch Size: 14
+Audio Batch Size: 162
+LID Assignments: [4, 4, 1, 4, 2, 5, 3, 0, 0, 4, 2, 5, 3, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5}
+2026-01-26 18:18:02.252 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  37%|███▋      | 1659/4533 [4:30:07<7:26:07,  9.31s/it, gpt_loss=0.283, loss_mean=0.332][A
+Train step of epoch 0:  37%|███▋      | 1660/4533 [4:30:07<7:32:42,  9.45s/it, gpt_loss=0.283, loss_mean=0.332][A2026-01-26 18:18:11.867 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  37%|███▋      | 1660/4533 [4:30:17<7:32:42,  9.45s/it, gpt_loss=0.274, loss_mean=0.326][A
+Train step of epoch 0:  37%|███▋      | 1661/4533 [4:30:17<7:33:41,  9.48s/it, gpt_loss=0.274, loss_mean=0.326][A2026-01-26 18:18:21.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  37%|███▋      | 1661/4533 [4:30:26<7:33:41,  9.48s/it, gpt_loss=0.311, loss_mean=0.325][A
+Train step of epoch 0:  37%|███▋      | 1662/4533 [4:30:26<7:23:49,  9.28s/it, gpt_loss=0.311, loss_mean=0.325][A2026-01-26 18:18:30.397 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  37%|███▋      | 1662/4533 [4:30:35<7:23:49,  9.28s/it, gpt_loss=0.314, loss_mean=0.324][A
+Train step of epoch 0:  37%|███▋      | 1663/4533 [4:30:35<7:21:35,  9.23s/it, gpt_loss=0.314, loss_mean=0.324][A2026-01-26 18:18:39.463 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  37%|███▋      | 1663/4533 [4:30:44<7:21:35,  9.23s/it, gpt_loss=0.282, loss_mean=0.32] [A
+Train step of epoch 0:  37%|███▋      | 1664/4533 [4:30:44<7:26:27,  9.34s/it, gpt_loss=0.282, loss_mean=0.32][A2026-01-26 18:18:49.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  37%|███▋      | 1664/4533 [4:30:54<7:26:27,  9.34s/it, gpt_loss=0.296, loss_mean=0.317][A
+Train step of epoch 0:  37%|███▋      | 1665/4533 [4:30:54<7:29:20,  9.40s/it, gpt_loss=0.296, loss_mean=0.317][A2026-01-26 18:18:58.463 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  37%|███▋      | 1665/4533 [4:31:06<7:29:20,  9.40s/it, gpt_loss=0.453, loss_mean=0.331][A
+Train step of epoch 0:  37%|███▋      | 1666/4533 [4:31:06<8:06:28, 10.18s/it, gpt_loss=0.453, loss_mean=0.331][A2026-01-26 18:19:10.360 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  37%|███▋      | 1666/4533 [4:31:14<8:06:28, 10.18s/it, gpt_loss=0.298, loss_mean=0.327][A
+Train step of epoch 0:  37%|███▋      | 1667/4533 [4:31:14<7:41:12,  9.66s/it, gpt_loss=0.298, loss_mean=0.327][A2026-01-26 18:19:18.753 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  37%|███▋      | 1667/4533 [4:31:23<7:41:12,  9.66s/it, gpt_loss=0.339, loss_mean=0.329][A
+Train step of epoch 0:  37%|███▋      | 1668/4533 [4:31:23<7:27:04,  9.36s/it, gpt_loss=0.339, loss_mean=0.329][A2026-01-26 18:19:27.670 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  37%|███▋      | 1668/4533 [4:31:33<7:27:04,  9.36s/it, gpt_loss=0.358, loss_mean=0.332][A
+Train step of epoch 0:  37%|███▋      | 1669/4533 [4:31:33<7:29:56,  9.43s/it, gpt_loss=0.358, loss_mean=0.332][A
+[LID Router Debug] Step: 1670
+Batch Size: 14
+Audio Batch Size: 148
+LID Assignments: [1, 0, 0, 0, 3, 0, 2, 5, 9, 4, 9, 3, 4, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 18:19:37.188 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  37%|███▋      | 1669/4533 [4:31:41<7:29:56,  9.43s/it, gpt_loss=0.238, loss_mean=0.322][A
+Train step of epoch 0:  37%|███▋      | 1670/4533 [4:31:41<7:18:57,  9.20s/it, gpt_loss=0.238, loss_mean=0.322][A2026-01-26 18:19:45.992 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  37%|███▋      | 1670/4533 [4:31:53<7:18:57,  9.20s/it, gpt_loss=0.445, loss_mean=0.335][A
+Train step of epoch 0:  37%|███▋      | 1671/4533 [4:31:53<7:57:41, 10.01s/it, gpt_loss=0.445, loss_mean=0.335][A2026-01-26 18:19:57.794 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  37%|███▋      | 1671/4533 [4:32:03<7:57:41, 10.01s/it, gpt_loss=0.321, loss_mean=0.333][A
+Train step of epoch 0:  37%|███▋      | 1672/4533 [4:32:03<7:52:08,  9.90s/it, gpt_loss=0.321, loss_mean=0.333][A2026-01-26 18:20:07.597 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  37%|███▋      | 1672/4533 [4:32:12<7:52:08,  9.90s/it, gpt_loss=0.375, loss_mean=0.337][A
+Train step of epoch 0:  37%|███▋      | 1673/4533 [4:32:12<7:41:57,  9.69s/it, gpt_loss=0.375, loss_mean=0.337][A2026-01-26 18:20:16.468 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  37%|███▋      | 1673/4533 [4:32:21<7:41:57,  9.69s/it, gpt_loss=0.27, loss_mean=0.331] [A
+Train step of epoch 0:  37%|███▋      | 1674/4533 [4:32:21<7:25:37,  9.35s/it, gpt_loss=0.27, loss_mean=0.331][A2026-01-26 18:20:25.301 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  37%|███▋      | 1674/4533 [4:32:29<7:25:37,  9.35s/it, gpt_loss=0.314, loss_mean=0.329][A
+Train step of epoch 0:  37%|███▋      | 1675/4533 [4:32:29<7:17:10,  9.18s/it, gpt_loss=0.314, loss_mean=0.329][A2026-01-26 18:20:33.885 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  37%|███▋      | 1675/4533 [4:32:39<7:17:10,  9.18s/it, gpt_loss=0.282, loss_mean=0.324][A
+Train step of epoch 0:  37%|███▋      | 1676/4533 [4:32:39<7:21:45,  9.28s/it, gpt_loss=0.282, loss_mean=0.324][A2026-01-26 18:20:43.475 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  37%|███▋      | 1676/4533 [4:32:51<7:21:45,  9.28s/it, gpt_loss=0.397, loss_mean=0.332][A
+Train step of epoch 0:  37%|███▋      | 1677/4533 [4:32:51<8:01:17, 10.11s/it, gpt_loss=0.397, loss_mean=0.332][A2026-01-26 18:20:55.375 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  37%|███▋      | 1677/4533 [4:33:03<8:01:17, 10.11s/it, gpt_loss=0.504, loss_mean=0.349][A
+Train step of epoch 0:  37%|███▋      | 1678/4533 [4:33:03<8:25:23, 10.62s/it, gpt_loss=0.504, loss_mean=0.349][A2026-01-26 18:21:07.174 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  37%|███▋      | 1678/4533 [4:33:12<8:25:23, 10.62s/it, gpt_loss=0.317, loss_mean=0.346][A
+Train step of epoch 0:  37%|███▋      | 1679/4533 [4:33:12<8:09:48, 10.30s/it, gpt_loss=0.317, loss_mean=0.346][A
+[LID Router Debug] Step: 1680
+Batch Size: 14
+Audio Batch Size: 162
+LID Assignments: [0, 9, 9, 5, 9, 1, 9, 9, 4, 9, 1, 9, 3, 9]
+Active Experts in Batch: {0, 1, 3, 4, 5, 9}
+2026-01-26 18:21:16.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  37%|███▋      | 1679/4533 [4:33:21<8:09:48, 10.30s/it, gpt_loss=0.286, loss_mean=0.34] [A
+Train step of epoch 0:  37%|███▋      | 1680/4533 [4:33:21<7:44:42,  9.77s/it, gpt_loss=0.286, loss_mean=0.34][A2026-01-26 18:21:25.591 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  37%|███▋      | 1680/4533 [4:33:30<7:44:42,  9.77s/it, gpt_loss=0.357, loss_mean=0.341][A
+Train step of epoch 0:  37%|███▋      | 1681/4533 [4:33:30<7:38:38,  9.65s/it, gpt_loss=0.357, loss_mean=0.341][A2026-01-26 18:21:34.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  37%|███▋      | 1681/4533 [4:33:40<7:38:38,  9.65s/it, gpt_loss=0.271, loss_mean=0.334][A
+Train step of epoch 0:  37%|███▋      | 1682/4533 [4:33:40<7:38:28,  9.65s/it, gpt_loss=0.271, loss_mean=0.334][A2026-01-26 18:21:44.378 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  37%|███▋      | 1682/4533 [4:33:49<7:38:28,  9.65s/it, gpt_loss=0.358, loss_mean=0.337][A
+Train step of epoch 0:  37%|███▋      | 1683/4533 [4:33:49<7:34:44,  9.57s/it, gpt_loss=0.358, loss_mean=0.337][A2026-01-26 18:21:53.888 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  37%|███▋      | 1683/4533 [4:33:59<7:34:44,  9.57s/it, gpt_loss=0.271, loss_mean=0.33] [A
+Train step of epoch 0:  37%|███▋      | 1684/4533 [4:33:59<7:32:28,  9.53s/it, gpt_loss=0.271, loss_mean=0.33][A2026-01-26 18:22:03.286 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  37%|███▋      | 1684/4533 [4:34:08<7:32:28,  9.53s/it, gpt_loss=0.269, loss_mean=0.324][A
+Train step of epoch 0:  37%|███▋      | 1685/4533 [4:34:08<7:21:22,  9.30s/it, gpt_loss=0.269, loss_mean=0.324][A2026-01-26 18:22:12.264 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  37%|███▋      | 1685/4533 [4:34:17<7:21:22,  9.30s/it, gpt_loss=0.293, loss_mean=0.321][A
+Train step of epoch 0:  37%|███▋      | 1686/4533 [4:34:17<7:27:02,  9.42s/it, gpt_loss=0.293, loss_mean=0.321][A2026-01-26 18:22:21.756 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  37%|███▋      | 1686/4533 [4:34:29<7:27:02,  9.42s/it, gpt_loss=0.388, loss_mean=0.328][A
+Train step of epoch 0:  37%|███▋      | 1687/4533 [4:34:29<8:03:43, 10.20s/it, gpt_loss=0.388, loss_mean=0.328][A2026-01-26 18:22:33.677 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  37%|███▋      | 1687/4533 [4:34:38<8:03:43, 10.20s/it, gpt_loss=0.323, loss_mean=0.327][A
+Train step of epoch 0:  37%|███▋      | 1688/4533 [4:34:38<7:50:15,  9.92s/it, gpt_loss=0.323, loss_mean=0.327][A2026-01-26 18:22:42.966 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  37%|███▋      | 1688/4533 [4:34:50<7:50:15,  9.92s/it, gpt_loss=0.411, loss_mean=0.336][A
+Train step of epoch 0:  37%|███▋      | 1689/4533 [4:34:50<8:15:37, 10.46s/it, gpt_loss=0.411, loss_mean=0.336][A
+[LID Router Debug] Step: 1690
+Batch Size: 14
+Audio Batch Size: 161
+LID Assignments: [5, 6, 1, 9, 2, 5, 3, 2, 5, 3, 0, 1, 9, 1]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-26 18:22:54.766 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  37%|███▋      | 1689/4533 [4:34:59<8:15:37, 10.46s/it, gpt_loss=0.296, loss_mean=0.332][A
+Train step of epoch 0:  37%|███▋      | 1690/4533 [4:34:59<7:53:02,  9.98s/it, gpt_loss=0.296, loss_mean=0.332][A2026-01-26 18:23:03.757 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  37%|███▋      | 1690/4533 [4:35:11<7:53:02,  9.98s/it, gpt_loss=0.429, loss_mean=0.341][A
+Train step of epoch 0:  37%|███▋      | 1691/4533 [4:35:11<8:19:54, 10.55s/it, gpt_loss=0.429, loss_mean=0.341][A2026-01-26 18:23:15.484 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  37%|███▋      | 1691/4533 [4:35:23<8:19:54, 10.55s/it, gpt_loss=0.303, loss_mean=0.338][A
+Train step of epoch 0:  37%|███▋      | 1692/4533 [4:35:23<8:36:34, 10.91s/it, gpt_loss=0.303, loss_mean=0.338][A2026-01-26 18:23:27.461 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  37%|███▋      | 1692/4533 [4:35:33<8:36:34, 10.91s/it, gpt_loss=0.316, loss_mean=0.335][A
+Train step of epoch 0:  37%|███▋      | 1693/4533 [4:35:33<8:22:07, 10.61s/it, gpt_loss=0.316, loss_mean=0.335][A2026-01-26 18:23:37.288 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  37%|███▋      | 1693/4533 [4:35:42<8:22:07, 10.61s/it, gpt_loss=0.311, loss_mean=0.333][A
+Train step of epoch 0:  37%|███▋      | 1694/4533 [4:35:42<8:07:17, 10.30s/it, gpt_loss=0.311, loss_mean=0.333][A2026-01-26 18:23:46.876 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  37%|███▋      | 1694/4533 [4:35:54<8:07:17, 10.30s/it, gpt_loss=0.399, loss_mean=0.34] [A
+Train step of epoch 0:  37%|███▋      | 1695/4533 [4:35:54<8:31:56, 10.82s/it, gpt_loss=0.399, loss_mean=0.34][A2026-01-26 18:23:58.862 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  37%|███▋      | 1695/4533 [4:36:06<8:31:56, 10.82s/it, gpt_loss=0.302, loss_mean=0.336][A
+Train step of epoch 0:  37%|███▋      | 1696/4533 [4:36:06<8:44:19, 11.09s/it, gpt_loss=0.302, loss_mean=0.336][A2026-01-26 18:24:10.494 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  37%|███▋      | 1696/4533 [4:36:15<8:44:19, 11.09s/it, gpt_loss=0.333, loss_mean=0.335][A
+Train step of epoch 0:  37%|███▋      | 1697/4533 [4:36:15<8:16:54, 10.51s/it, gpt_loss=0.333, loss_mean=0.335][A2026-01-26 18:24:19.697 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  37%|███▋      | 1697/4533 [4:36:24<8:16:54, 10.51s/it, gpt_loss=0.271, loss_mean=0.329][A
+Train step of epoch 0:  37%|███▋      | 1698/4533 [4:36:24<7:50:41,  9.96s/it, gpt_loss=0.271, loss_mean=0.329][A2026-01-26 18:24:27.965 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  37%|███▋      | 1698/4533 [4:36:33<7:50:41,  9.96s/it, gpt_loss=0.257, loss_mean=0.322][A
+Train step of epoch 0:  37%|███▋      | 1699/4533 [4:36:33<7:33:31,  9.60s/it, gpt_loss=0.257, loss_mean=0.322][A
+[LID Router Debug] Step: 1700
+Batch Size: 14
+Audio Batch Size: 129
+LID Assignments: [4, 5, 0, 3, 9, 5, 2, 4, 4, 1, 2, 2, 9, 6]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 18:24:37.092 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+[2026-01-26 18:24:45,294] [INFO] [logging.py:96:log_dist] [Rank 0] step=1700, skipped=0, lr=[1.9341381860473113e-05, 1.9341381860473113e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 18:24:45,294] [INFO] [timer.py:260:stop] epoch=0/micro_step=1700/global_step=1700, RunningAvgSamplesPerSec=5.756788044817705, CurrSamplesPerSec=6.355164939729554, MemAllocated=14.81GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  37%|███▋      | 1699/4533 [4:36:41<7:33:31,  9.60s/it, gpt_loss=0.287, loss_mean=0.318][A
+Train step of epoch 0:  38%|███▊      | 1700/4533 [4:36:41<7:22:24,  9.37s/it, gpt_loss=0.287, loss_mean=0.318][A2026-01-26 18:24:45.974 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  38%|███▊      | 1700/4533 [4:36:50<7:22:24,  9.37s/it, gpt_loss=0.252, loss_mean=0.312][A
+Train step of epoch 0:  38%|███▊      | 1701/4533 [4:36:50<7:14:04,  9.20s/it, gpt_loss=0.252, loss_mean=0.312][A2026-01-26 18:24:54.853 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  38%|███▊      | 1701/4533 [4:36:59<7:14:04,  9.20s/it, gpt_loss=0.263, loss_mean=0.307][A
+Train step of epoch 0:  38%|███▊      | 1702/4533 [4:36:59<7:08:56,  9.09s/it, gpt_loss=0.263, loss_mean=0.307][A2026-01-26 18:25:03.653 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  38%|███▊      | 1702/4533 [4:37:08<7:08:56,  9.09s/it, gpt_loss=0.323, loss_mean=0.308][A
+Train step of epoch 0:  38%|███▊      | 1703/4533 [4:37:08<7:06:24,  9.04s/it, gpt_loss=0.323, loss_mean=0.308][A2026-01-26 18:25:12.595 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  38%|███▊      | 1703/4533 [4:37:18<7:06:24,  9.04s/it, gpt_loss=0.304, loss_mean=0.308][A
+Train step of epoch 0:  38%|███▊      | 1704/4533 [4:37:18<7:14:54,  9.22s/it, gpt_loss=0.304, loss_mean=0.308][A2026-01-26 18:25:22.163 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  38%|███▊      | 1704/4533 [4:37:27<7:14:54,  9.22s/it, gpt_loss=0.243, loss_mean=0.302][A
+Train step of epoch 0:  38%|███▊      | 1705/4533 [4:37:27<7:13:10,  9.19s/it, gpt_loss=0.243, loss_mean=0.302][A2026-01-26 18:25:31.388 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  38%|███▊      | 1705/4533 [4:37:36<7:13:10,  9.19s/it, gpt_loss=0.233, loss_mean=0.295][A
+Train step of epoch 0:  38%|███▊      | 1706/4533 [4:37:36<7:14:33,  9.22s/it, gpt_loss=0.233, loss_mean=0.295][A2026-01-26 18:25:40.192 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  38%|███▊      | 1706/4533 [4:37:45<7:14:33,  9.22s/it, gpt_loss=0.387, loss_mean=0.304][A
+Train step of epoch 0:  38%|███▊      | 1707/4533 [4:37:45<7:14:24,  9.22s/it, gpt_loss=0.387, loss_mean=0.304][A2026-01-26 18:25:49.478 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  38%|███▊      | 1707/4533 [4:37:54<7:14:24,  9.22s/it, gpt_loss=0.339, loss_mean=0.307][A
+Train step of epoch 0:  38%|███▊      | 1708/4533 [4:37:54<7:03:34,  9.00s/it, gpt_loss=0.339, loss_mean=0.307][A2026-01-26 18:25:58.292 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  38%|███▊      | 1708/4533 [4:38:04<7:03:34,  9.00s/it, gpt_loss=0.336, loss_mean=0.31] [A
+Train step of epoch 0:  38%|███▊      | 1709/4533 [4:38:04<7:15:11,  9.25s/it, gpt_loss=0.336, loss_mean=0.31][A
+[LID Router Debug] Step: 1710
+Batch Size: 14
+Audio Batch Size: 136
+LID Assignments: [4, 1, 0, 2, 9, 9, 1, 2, 1, 1, 2, 2, 0, 9]
+Active Experts in Batch: {0, 1, 2, 4, 9}
+2026-01-26 18:26:08.266 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  38%|███▊      | 1709/4533 [4:38:13<7:15:11,  9.25s/it, gpt_loss=0.23, loss_mean=0.302][A
+Train step of epoch 0:  38%|███▊      | 1710/4533 [4:38:13<7:13:21,  9.21s/it, gpt_loss=0.23, loss_mean=0.302][A2026-01-26 18:26:17.258 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  38%|███▊      | 1710/4533 [4:38:22<7:13:21,  9.21s/it, gpt_loss=0.271, loss_mean=0.299][A
+Train step of epoch 0:  38%|███▊      | 1711/4533 [4:38:22<7:13:36,  9.22s/it, gpt_loss=0.271, loss_mean=0.299][A2026-01-26 18:26:26.375 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  38%|███▊      | 1711/4533 [4:38:31<7:13:36,  9.22s/it, gpt_loss=0.355, loss_mean=0.305][A
+Train step of epoch 0:  38%|███▊      | 1712/4533 [4:38:31<7:04:55,  9.04s/it, gpt_loss=0.355, loss_mean=0.305][A2026-01-26 18:26:34.956 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  38%|███▊      | 1712/4533 [4:38:39<7:04:55,  9.04s/it, gpt_loss=0.289, loss_mean=0.303][A
+Train step of epoch 0:  38%|███▊      | 1713/4533 [4:38:39<7:02:58,  9.00s/it, gpt_loss=0.289, loss_mean=0.303][A2026-01-26 18:26:43.782 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  38%|███▊      | 1713/4533 [4:38:49<7:02:58,  9.00s/it, gpt_loss=0.292, loss_mean=0.302][A
+Train step of epoch 0:  38%|███▊      | 1714/4533 [4:38:49<7:08:49,  9.13s/it, gpt_loss=0.292, loss_mean=0.302][A2026-01-26 18:26:53.374 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  38%|███▊      | 1714/4533 [4:38:58<7:08:49,  9.13s/it, gpt_loss=0.345, loss_mean=0.306][A
+Train step of epoch 0:  38%|███▊      | 1715/4533 [4:38:58<7:02:36,  9.00s/it, gpt_loss=0.345, loss_mean=0.306][A2026-01-26 18:27:01.777 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  38%|███▊      | 1715/4533 [4:39:07<7:02:36,  9.00s/it, gpt_loss=0.311, loss_mean=0.307][A
+Train step of epoch 0:  38%|███▊      | 1716/4533 [4:39:07<7:07:00,  9.10s/it, gpt_loss=0.311, loss_mean=0.307][A2026-01-26 18:27:11.164 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  38%|███▊      | 1716/4533 [4:39:16<7:07:00,  9.10s/it, gpt_loss=0.26, loss_mean=0.302] [A
+Train step of epoch 0:  38%|███▊      | 1717/4533 [4:39:16<7:12:34,  9.22s/it, gpt_loss=0.26, loss_mean=0.302][A2026-01-26 18:27:20.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  38%|███▊      | 1717/4533 [4:39:25<7:12:34,  9.22s/it, gpt_loss=0.307, loss_mean=0.303][A
+Train step of epoch 0:  38%|███▊      | 1718/4533 [4:39:25<7:02:24,  9.00s/it, gpt_loss=0.307, loss_mean=0.303][A2026-01-26 18:27:29.266 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  38%|███▊      | 1718/4533 [4:39:37<7:02:24,  9.00s/it, gpt_loss=0.339, loss_mean=0.306][A
+Train step of epoch 0:  38%|███▊      | 1719/4533 [4:39:37<7:39:39,  9.80s/it, gpt_loss=0.339, loss_mean=0.306][A
+[LID Router Debug] Step: 1720
+Batch Size: 14
+Audio Batch Size: 122
+LID Assignments: [4, 6, 9, 1, 0, 0, 6, 0, 3, 9, 5, 4, 1, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 18:27:40.788 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  38%|███▊      | 1719/4533 [4:39:48<7:39:39,  9.80s/it, gpt_loss=0.399, loss_mean=0.315][A
+Train step of epoch 0:  38%|███▊      | 1720/4533 [4:39:48<8:02:00, 10.28s/it, gpt_loss=0.399, loss_mean=0.315][A2026-01-26 18:27:52.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  38%|███▊      | 1720/4533 [4:39:59<8:02:00, 10.28s/it, gpt_loss=0.345, loss_mean=0.318][A
+Train step of epoch 0:  38%|███▊      | 1721/4533 [4:39:59<8:17:02, 10.61s/it, gpt_loss=0.345, loss_mean=0.318][A2026-01-26 18:28:03.767 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  38%|███▊      | 1721/4533 [4:40:11<8:17:02, 10.61s/it, gpt_loss=0.511, loss_mean=0.338][A
+Train step of epoch 0:  38%|███▊      | 1722/4533 [4:40:11<8:36:35, 11.03s/it, gpt_loss=0.511, loss_mean=0.338][A2026-01-26 18:28:15.957 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  38%|███▊      | 1722/4533 [4:40:21<8:36:35, 11.03s/it, gpt_loss=0.293, loss_mean=0.333][A
+Train step of epoch 0:  38%|███▊      | 1723/4533 [4:40:21<8:17:38, 10.63s/it, gpt_loss=0.293, loss_mean=0.333][A2026-01-26 18:28:25.587 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  38%|███▊      | 1723/4533 [4:40:30<8:17:38, 10.63s/it, gpt_loss=0.297, loss_mean=0.33] [A
+Train step of epoch 0:  38%|███▊      | 1724/4533 [4:40:30<7:51:56, 10.08s/it, gpt_loss=0.297, loss_mean=0.33][A2026-01-26 18:28:34.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  38%|███▊      | 1724/4533 [4:40:38<7:51:56, 10.08s/it, gpt_loss=0.281, loss_mean=0.325][A
+Train step of epoch 0:  38%|███▊      | 1725/4533 [4:40:38<7:32:09,  9.66s/it, gpt_loss=0.281, loss_mean=0.325][A2026-01-26 18:28:43.162 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  38%|███▊      | 1725/4533 [4:40:48<7:32:09,  9.66s/it, gpt_loss=0.26, loss_mean=0.318] [A
+Train step of epoch 0:  38%|███▊      | 1726/4533 [4:40:48<7:25:00,  9.51s/it, gpt_loss=0.26, loss_mean=0.318][A2026-01-26 18:28:52.252 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  38%|███▊      | 1726/4533 [4:40:57<7:25:00,  9.51s/it, gpt_loss=0.281, loss_mean=0.315][A
+Train step of epoch 0:  38%|███▊      | 1727/4533 [4:40:57<7:17:39,  9.36s/it, gpt_loss=0.281, loss_mean=0.315][A2026-01-26 18:29:00.879 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  38%|███▊      | 1727/4533 [4:41:08<7:17:39,  9.36s/it, gpt_loss=0.495, loss_mean=0.333][A
+Train step of epoch 0:  38%|███▊      | 1728/4533 [4:41:08<7:50:22, 10.06s/it, gpt_loss=0.495, loss_mean=0.333][A2026-01-26 18:29:12.887 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  38%|███▊      | 1728/4533 [4:41:20<7:50:22, 10.06s/it, gpt_loss=0.463, loss_mean=0.346][A
+Train step of epoch 0:  38%|███▊      | 1729/4533 [4:41:20<8:14:39, 10.58s/it, gpt_loss=0.463, loss_mean=0.346][A
+[LID Router Debug] Step: 1730
+Batch Size: 14
+Audio Batch Size: 129
+LID Assignments: [0, 2, 4, 2, 0, 0, 5, 9, 2, 0, 4, 4, 9, 4]
+Active Experts in Batch: {0, 2, 4, 5, 9}
+2026-01-26 18:29:24.856 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  38%|███▊      | 1729/4533 [4:41:32<8:14:39, 10.58s/it, gpt_loss=0.368, loss_mean=0.348][A
+Train step of epoch 0:  38%|███▊      | 1730/4533 [4:41:32<8:35:21, 11.03s/it, gpt_loss=0.368, loss_mean=0.348][A2026-01-26 18:29:36.896 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  38%|███▊      | 1730/4533 [4:41:41<8:35:21, 11.03s/it, gpt_loss=0.397, loss_mean=0.353][A
+Train step of epoch 0:  38%|███▊      | 1731/4533 [4:41:41<8:05:39, 10.40s/it, gpt_loss=0.397, loss_mean=0.353][A2026-01-26 18:29:45.866 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  38%|███▊      | 1731/4533 [4:41:51<8:05:39, 10.40s/it, gpt_loss=0.313, loss_mean=0.349][A
+Train step of epoch 0:  38%|███▊      | 1732/4533 [4:41:51<7:58:17, 10.25s/it, gpt_loss=0.313, loss_mean=0.349][A2026-01-26 18:29:55.478 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  38%|███▊      | 1732/4533 [4:42:01<7:58:17, 10.25s/it, gpt_loss=0.303, loss_mean=0.344][A
+Train step of epoch 0:  38%|███▊      | 1733/4533 [4:42:01<7:51:44, 10.11s/it, gpt_loss=0.303, loss_mean=0.344][A2026-01-26 18:30:05.369 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  38%|███▊      | 1733/4533 [4:42:10<7:51:44, 10.11s/it, gpt_loss=0.249, loss_mean=0.335][A
+Train step of epoch 0:  38%|███▊      | 1734/4533 [4:42:10<7:36:22,  9.78s/it, gpt_loss=0.249, loss_mean=0.335][A2026-01-26 18:30:14.068 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  38%|███▊      | 1734/4533 [4:42:21<7:36:22,  9.78s/it, gpt_loss=0.369, loss_mean=0.338][A
+Train step of epoch 0:  38%|███▊      | 1735/4533 [4:42:21<8:00:23, 10.30s/it, gpt_loss=0.369, loss_mean=0.338][A2026-01-26 18:30:25.960 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  38%|███▊      | 1735/4533 [4:42:33<8:00:23, 10.30s/it, gpt_loss=0.367, loss_mean=0.341][A
+Train step of epoch 0:  38%|███▊      | 1736/4533 [4:42:33<8:23:40, 10.80s/it, gpt_loss=0.367, loss_mean=0.341][A2026-01-26 18:30:37.592 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  38%|███▊      | 1736/4533 [4:42:45<8:23:40, 10.80s/it, gpt_loss=0.458, loss_mean=0.353][A
+Train step of epoch 0:  38%|███▊      | 1737/4533 [4:42:45<8:36:28, 11.08s/it, gpt_loss=0.458, loss_mean=0.353][A2026-01-26 18:30:49.569 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  38%|███▊      | 1737/4533 [4:42:54<8:36:28, 11.08s/it, gpt_loss=0.311, loss_mean=0.349][A
+Train step of epoch 0:  38%|███▊      | 1738/4533 [4:42:54<8:04:28, 10.40s/it, gpt_loss=0.311, loss_mean=0.349][A2026-01-26 18:30:58.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  38%|███▊      | 1738/4533 [4:43:03<8:04:28, 10.40s/it, gpt_loss=0.268, loss_mean=0.341][A
+Train step of epoch 0:  38%|███▊      | 1739/4533 [4:43:03<7:47:53, 10.05s/it, gpt_loss=0.268, loss_mean=0.341][A
+[LID Router Debug] Step: 1740
+Batch Size: 14
+Audio Batch Size: 152
+LID Assignments: [0, 4, 9, 9, 0, 1, 3, 5, 9, 2, 9, 1, 0, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 18:31:07.663 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  38%|███▊      | 1739/4533 [4:43:12<7:47:53, 10.05s/it, gpt_loss=0.304, loss_mean=0.337][A
+Train step of epoch 0:  38%|███▊      | 1740/4533 [4:43:12<7:36:13,  9.80s/it, gpt_loss=0.304, loss_mean=0.337][A2026-01-26 18:31:16.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  38%|███▊      | 1740/4533 [4:43:21<7:36:13,  9.80s/it, gpt_loss=0.409, loss_mean=0.344][A
+Train step of epoch 0:  38%|███▊      | 1741/4533 [4:43:21<7:19:18,  9.44s/it, gpt_loss=0.409, loss_mean=0.344][A2026-01-26 18:31:25.498 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  38%|███▊      | 1741/4533 [4:43:31<7:19:18,  9.44s/it, gpt_loss=0.362, loss_mean=0.346][A
+Train step of epoch 0:  38%|███▊      | 1742/4533 [4:43:31<7:22:48,  9.52s/it, gpt_loss=0.362, loss_mean=0.346][A2026-01-26 18:31:35.157 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  38%|███▊      | 1742/4533 [4:43:40<7:22:48,  9.52s/it, gpt_loss=0.405, loss_mean=0.352][A
+Train step of epoch 0:  38%|███▊      | 1743/4533 [4:43:40<7:25:18,  9.58s/it, gpt_loss=0.405, loss_mean=0.352][A2026-01-26 18:31:44.355 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  38%|███▊      | 1743/4533 [4:43:52<7:25:18,  9.58s/it, gpt_loss=0.423, loss_mean=0.359][A
+Train step of epoch 0:  38%|███▊      | 1744/4533 [4:43:52<7:48:44, 10.08s/it, gpt_loss=0.423, loss_mean=0.359][A2026-01-26 18:31:56.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  38%|███▊      | 1744/4533 [4:44:01<7:48:44, 10.08s/it, gpt_loss=0.371, loss_mean=0.36] [A
+Train step of epoch 0:  38%|███▊      | 1745/4533 [4:44:01<7:33:14,  9.75s/it, gpt_loss=0.371, loss_mean=0.36][A2026-01-26 18:32:04.657 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  38%|███▊      | 1745/4533 [4:44:10<7:33:14,  9.75s/it, gpt_loss=0.358, loss_mean=0.36][A
+Train step of epoch 0:  39%|███▊      | 1746/4533 [4:44:10<7:24:27,  9.57s/it, gpt_loss=0.358, loss_mean=0.36][A2026-01-26 18:32:14.399 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  39%|███▊      | 1746/4533 [4:44:22<7:24:27,  9.57s/it, gpt_loss=0.447, loss_mean=0.369][A
+Train step of epoch 0:  39%|███▊      | 1747/4533 [4:44:22<8:00:13, 10.34s/it, gpt_loss=0.447, loss_mean=0.369][A2026-01-26 18:32:26.372 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  39%|███▊      | 1747/4533 [4:44:31<8:00:13, 10.34s/it, gpt_loss=0.287, loss_mean=0.36] [A
+Train step of epoch 0:  39%|███▊      | 1748/4533 [4:44:31<7:37:02,  9.85s/it, gpt_loss=0.287, loss_mean=0.36][A2026-01-26 18:32:35.184 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  39%|███▊      | 1748/4533 [4:44:42<7:37:02,  9.85s/it, gpt_loss=0.308, loss_mean=0.355][A
+Train step of epoch 0:  39%|███▊      | 1749/4533 [4:44:42<8:05:46, 10.47s/it, gpt_loss=0.308, loss_mean=0.355][A
+[LID Router Debug] Step: 1750
+Batch Size: 14
+Audio Batch Size: 154
+LID Assignments: [1, 5, 3, 9, 0, 1, 1, 3, 9, 5, 2, 9, 1, 1]
+Active Experts in Batch: {0, 1, 2, 3, 5, 9}
+2026-01-26 18:32:47.180 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  39%|███▊      | 1749/4533 [4:44:52<8:05:46, 10.47s/it, gpt_loss=0.328, loss_mean=0.352][A
+Train step of epoch 0:  39%|███▊      | 1750/4533 [4:44:52<7:54:19, 10.23s/it, gpt_loss=0.328, loss_mean=0.352][A2026-01-26 18:32:56.565 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  39%|███▊      | 1750/4533 [4:45:01<7:54:19, 10.23s/it, gpt_loss=0.316, loss_mean=0.349][A
+Train step of epoch 0:  39%|███▊      | 1751/4533 [4:45:01<7:41:36,  9.96s/it, gpt_loss=0.316, loss_mean=0.349][A2026-01-26 18:33:06.171 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  39%|███▊      | 1751/4533 [4:45:13<7:41:36,  9.96s/it, gpt_loss=0.412, loss_mean=0.355][A
+Train step of epoch 0:  39%|███▊      | 1752/4533 [4:45:13<8:05:32, 10.48s/it, gpt_loss=0.412, loss_mean=0.355][A2026-01-26 18:33:17.853 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  39%|███▊      | 1752/4533 [4:45:23<8:05:32, 10.48s/it, gpt_loss=0.41, loss_mean=0.361] [A
+Train step of epoch 0:  39%|███▊      | 1753/4533 [4:45:23<7:57:47, 10.31s/it, gpt_loss=0.41, loss_mean=0.361][A2026-01-26 18:33:27.585 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  39%|███▊      | 1753/4533 [4:45:32<7:57:47, 10.31s/it, gpt_loss=0.359, loss_mean=0.361][A
+Train step of epoch 0:  39%|███▊      | 1754/4533 [4:45:32<7:35:17,  9.83s/it, gpt_loss=0.359, loss_mean=0.361][A2026-01-26 18:33:36.361 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  39%|███▊      | 1754/4533 [4:45:41<7:35:17,  9.83s/it, gpt_loss=0.28, loss_mean=0.352] [A
+Train step of epoch 0:  39%|███▊      | 1755/4533 [4:45:41<7:32:07,  9.77s/it, gpt_loss=0.28, loss_mean=0.352][A2026-01-26 18:33:45.862 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  39%|███▊      | 1755/4533 [4:45:51<7:32:07,  9.77s/it, gpt_loss=0.28, loss_mean=0.345][A
+Train step of epoch 0:  39%|███▊      | 1756/4533 [4:45:51<7:30:08,  9.73s/it, gpt_loss=0.28, loss_mean=0.345][A2026-01-26 18:33:55.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  39%|███▊      | 1756/4533 [4:46:01<7:30:08,  9.73s/it, gpt_loss=0.372, loss_mean=0.348][A
+Train step of epoch 0:  39%|███▉      | 1757/4533 [4:46:01<7:27:19,  9.67s/it, gpt_loss=0.372, loss_mean=0.348][A2026-01-26 18:34:05.154 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  39%|███▉      | 1757/4533 [4:46:10<7:27:19,  9.67s/it, gpt_loss=0.289, loss_mean=0.342][A
+Train step of epoch 0:  39%|███▉      | 1758/4533 [4:46:10<7:18:10,  9.47s/it, gpt_loss=0.289, loss_mean=0.342][A2026-01-26 18:34:14.188 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  39%|███▉      | 1758/4533 [4:46:19<7:18:10,  9.47s/it, gpt_loss=0.35, loss_mean=0.343] [A
+Train step of epoch 0:  39%|███▉      | 1759/4533 [4:46:19<7:19:37,  9.51s/it, gpt_loss=0.35, loss_mean=0.343][A
+[LID Router Debug] Step: 1760
+Batch Size: 14
+Audio Batch Size: 164
+LID Assignments: [3, 1, 4, 9, 5, 6, 4, 3, 1, 3, 9, 4, 5, 2]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-26 18:34:23.696 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  39%|███▉      | 1759/4533 [4:46:29<7:19:37,  9.51s/it, gpt_loss=0.357, loss_mean=0.344][A
+Train step of epoch 0:  39%|███▉      | 1760/4533 [4:46:29<7:19:30,  9.51s/it, gpt_loss=0.357, loss_mean=0.344][A2026-01-26 18:34:33.362 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  39%|███▉      | 1760/4533 [4:46:40<7:19:30,  9.51s/it, gpt_loss=0.379, loss_mean=0.348][A
+Train step of epoch 0:  39%|███▉      | 1761/4533 [4:46:40<7:50:28, 10.18s/it, gpt_loss=0.379, loss_mean=0.348][A2026-01-26 18:34:45.088 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  39%|███▉      | 1761/4533 [4:46:50<7:50:28, 10.18s/it, gpt_loss=0.353, loss_mean=0.348][A
+Train step of epoch 0:  39%|███▉      | 1762/4533 [4:46:50<7:42:22, 10.01s/it, gpt_loss=0.353, loss_mean=0.348][A2026-01-26 18:34:54.764 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  39%|███▉      | 1762/4533 [4:46:59<7:42:22, 10.01s/it, gpt_loss=0.289, loss_mean=0.342][A
+Train step of epoch 0:  39%|███▉      | 1763/4533 [4:46:59<7:32:19,  9.80s/it, gpt_loss=0.289, loss_mean=0.342][A2026-01-26 18:35:03.772 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  39%|███▉      | 1763/4533 [4:47:11<7:32:19,  9.80s/it, gpt_loss=0.395, loss_mean=0.348][A
+Train step of epoch 0:  39%|███▉      | 1764/4533 [4:47:11<7:57:08, 10.34s/it, gpt_loss=0.395, loss_mean=0.348][A2026-01-26 18:35:15.477 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  39%|███▉      | 1764/4533 [4:47:20<7:57:08, 10.34s/it, gpt_loss=0.295, loss_mean=0.342][A
+Train step of epoch 0:  39%|███▉      | 1765/4533 [4:47:20<7:34:32,  9.85s/it, gpt_loss=0.295, loss_mean=0.342][A2026-01-26 18:35:24.369 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  39%|███▉      | 1765/4533 [4:47:29<7:34:32,  9.85s/it, gpt_loss=0.279, loss_mean=0.336][A
+Train step of epoch 0:  39%|███▉      | 1766/4533 [4:47:29<7:28:39,  9.73s/it, gpt_loss=0.279, loss_mean=0.336][A2026-01-26 18:35:33.670 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  39%|███▉      | 1766/4533 [4:47:39<7:28:39,  9.73s/it, gpt_loss=0.305, loss_mean=0.333][A
+Train step of epoch 0:  39%|███▉      | 1767/4533 [4:47:39<7:24:01,  9.63s/it, gpt_loss=0.305, loss_mean=0.333][A2026-01-26 18:35:42.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  39%|███▉      | 1767/4533 [4:47:47<7:24:01,  9.63s/it, gpt_loss=0.265, loss_mean=0.326][A
+Train step of epoch 0:  39%|███▉      | 1768/4533 [4:47:47<7:14:30,  9.43s/it, gpt_loss=0.265, loss_mean=0.326][A2026-01-26 18:35:51.654 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  39%|███▉      | 1768/4533 [4:47:56<7:14:30,  9.43s/it, gpt_loss=0.329, loss_mean=0.326][A
+Train step of epoch 0:  39%|███▉      | 1769/4533 [4:47:56<7:03:27,  9.19s/it, gpt_loss=0.329, loss_mean=0.326][A
+[LID Router Debug] Step: 1770
+Batch Size: 14
+Audio Batch Size: 162
+LID Assignments: [2, 5, 6, 2, 9, 10, 5, 9, 3, 3, 3, 1, 1, 3]
+Active Experts in Batch: {1, 2, 3, 5, 6, 9, 10}
+2026-01-26 18:36:00.773 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  39%|███▉      | 1769/4533 [4:48:05<7:03:27,  9.19s/it, gpt_loss=0.313, loss_mean=0.325][A
+Train step of epoch 0:  39%|███▉      | 1770/4533 [4:48:05<7:01:14,  9.15s/it, gpt_loss=0.313, loss_mean=0.325][A2026-01-26 18:36:09.779 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  39%|███▉      | 1770/4533 [4:48:14<7:01:14,  9.15s/it, gpt_loss=0.312, loss_mean=0.324][A
+Train step of epoch 0:  39%|███▉      | 1771/4533 [4:48:14<6:56:58,  9.06s/it, gpt_loss=0.312, loss_mean=0.324][A2026-01-26 18:36:18.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  39%|███▉      | 1771/4533 [4:48:24<6:56:58,  9.06s/it, gpt_loss=0.249, loss_mean=0.316][A
+Train step of epoch 0:  39%|███▉      | 1772/4533 [4:48:24<7:07:12,  9.28s/it, gpt_loss=0.249, loss_mean=0.316][A2026-01-26 18:36:28.288 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  39%|███▉      | 1772/4533 [4:48:32<7:07:12,  9.28s/it, gpt_loss=0.31, loss_mean=0.316] [A
+Train step of epoch 0:  39%|███▉      | 1773/4533 [4:48:32<6:57:18,  9.07s/it, gpt_loss=0.31, loss_mean=0.316][A2026-01-26 18:36:37.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  39%|███▉      | 1773/4533 [4:48:45<6:57:18,  9.07s/it, gpt_loss=0.431, loss_mean=0.327][A
+Train step of epoch 0:  39%|███▉      | 1774/4533 [4:48:45<7:40:05, 10.01s/it, gpt_loss=0.431, loss_mean=0.327][A2026-01-26 18:36:49.260 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  39%|███▉      | 1774/4533 [4:48:53<7:40:05, 10.01s/it, gpt_loss=0.28, loss_mean=0.322] [A
+Train step of epoch 0:  39%|███▉      | 1775/4533 [4:48:53<7:23:30,  9.65s/it, gpt_loss=0.28, loss_mean=0.322][A2026-01-26 18:36:58.101 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  39%|███▉      | 1775/4533 [4:49:03<7:23:30,  9.65s/it, gpt_loss=0.367, loss_mean=0.327][A
+Train step of epoch 0:  39%|███▉      | 1776/4533 [4:49:03<7:22:56,  9.64s/it, gpt_loss=0.367, loss_mean=0.327][A2026-01-26 18:37:07.559 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  39%|███▉      | 1776/4533 [4:49:15<7:22:56,  9.64s/it, gpt_loss=0.446, loss_mean=0.339][A
+Train step of epoch 0:  39%|███▉      | 1777/4533 [4:49:15<7:51:46, 10.27s/it, gpt_loss=0.446, loss_mean=0.339][A2026-01-26 18:37:19.398 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  39%|███▉      | 1777/4533 [4:49:25<7:51:46, 10.27s/it, gpt_loss=0.288, loss_mean=0.334][A
+Train step of epoch 0:  39%|███▉      | 1778/4533 [4:49:25<7:45:44, 10.14s/it, gpt_loss=0.288, loss_mean=0.334][A2026-01-26 18:37:29.269 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  39%|███▉      | 1778/4533 [4:49:33<7:45:44, 10.14s/it, gpt_loss=0.341, loss_mean=0.334][A
+Train step of epoch 0:  39%|███▉      | 1779/4533 [4:49:33<7:28:13,  9.77s/it, gpt_loss=0.341, loss_mean=0.334][A
+[LID Router Debug] Step: 1780
+Batch Size: 14
+Audio Batch Size: 147
+LID Assignments: [5, 0, 3, 4, 9, 0, 9, 2, 0, 9, 1, 3, 9, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 18:37:37.792 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  39%|███▉      | 1779/4533 [4:49:43<7:28:13,  9.77s/it, gpt_loss=0.27, loss_mean=0.328] [A
+Train step of epoch 0:  39%|███▉      | 1780/4533 [4:49:43<7:18:59,  9.57s/it, gpt_loss=0.27, loss_mean=0.328][A2026-01-26 18:37:47.073 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  39%|███▉      | 1780/4533 [4:49:54<7:18:59,  9.57s/it, gpt_loss=0.449, loss_mean=0.34][A
+Train step of epoch 0:  39%|███▉      | 1781/4533 [4:49:54<7:48:50, 10.22s/it, gpt_loss=0.449, loss_mean=0.34][A2026-01-26 18:37:58.698 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  39%|███▉      | 1781/4533 [4:50:06<7:48:50, 10.22s/it, gpt_loss=0.357, loss_mean=0.342][A
+Train step of epoch 0:  39%|███▉      | 1782/4533 [4:50:06<8:05:46, 10.60s/it, gpt_loss=0.357, loss_mean=0.342][A2026-01-26 18:38:10.368 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  39%|███▉      | 1782/4533 [4:50:18<8:05:46, 10.60s/it, gpt_loss=0.429, loss_mean=0.35] [A
+Train step of epoch 0:  39%|███▉      | 1783/4533 [4:50:18<8:24:55, 11.02s/it, gpt_loss=0.429, loss_mean=0.35][A2026-01-26 18:38:22.081 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  39%|███▉      | 1783/4533 [4:50:27<8:24:55, 11.02s/it, gpt_loss=0.27, loss_mean=0.342][A
+Train step of epoch 0:  39%|███▉      | 1784/4533 [4:50:27<7:54:38, 10.36s/it, gpt_loss=0.27, loss_mean=0.342][A2026-01-26 18:38:31.295 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  39%|███▉      | 1784/4533 [4:50:36<7:54:38, 10.36s/it, gpt_loss=0.252, loss_mean=0.333][A
+Train step of epoch 0:  39%|███▉      | 1785/4533 [4:50:36<7:34:02,  9.91s/it, gpt_loss=0.252, loss_mean=0.333][A2026-01-26 18:38:39.875 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  39%|███▉      | 1785/4533 [4:50:44<7:34:02,  9.91s/it, gpt_loss=0.26, loss_mean=0.326] [A
+Train step of epoch 0:  39%|███▉      | 1786/4533 [4:50:44<7:13:30,  9.47s/it, gpt_loss=0.26, loss_mean=0.326][A2026-01-26 18:38:48.084 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  39%|███▉      | 1786/4533 [4:50:52<7:13:30,  9.47s/it, gpt_loss=0.214, loss_mean=0.315][A
+Train step of epoch 0:  39%|███▉      | 1787/4533 [4:50:52<6:56:21,  9.10s/it, gpt_loss=0.214, loss_mean=0.315][A2026-01-26 18:38:56.861 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  39%|███▉      | 1787/4533 [4:51:01<6:56:21,  9.10s/it, gpt_loss=0.246, loss_mean=0.308][A
+Train step of epoch 0:  39%|███▉      | 1788/4533 [4:51:01<6:56:46,  9.11s/it, gpt_loss=0.246, loss_mean=0.308][A2026-01-26 18:39:05.972 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  39%|███▉      | 1788/4533 [4:51:11<6:56:46,  9.11s/it, gpt_loss=0.284, loss_mean=0.305][A
+Train step of epoch 0:  39%|███▉      | 1789/4533 [4:51:11<7:05:07,  9.30s/it, gpt_loss=0.284, loss_mean=0.305][A
+[LID Router Debug] Step: 1790
+Batch Size: 14
+Audio Batch Size: 179
+LID Assignments: [3, 4, 6, 3, 1, 3, 2, 0, 3, 2, 5, 2, 1, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 18:39:15.680 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  39%|███▉      | 1789/4533 [4:51:23<7:05:07,  9.30s/it, gpt_loss=0.488, loss_mean=0.324][A
+Train step of epoch 0:  39%|███▉      | 1790/4533 [4:51:23<7:44:15, 10.15s/it, gpt_loss=0.488, loss_mean=0.324][A2026-01-26 18:39:27.960 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  39%|███▉      | 1790/4533 [4:51:32<7:44:15, 10.15s/it, gpt_loss=0.329, loss_mean=0.324][A
+Train step of epoch 0:  40%|███▉      | 1791/4533 [4:51:32<7:28:34,  9.82s/it, gpt_loss=0.329, loss_mean=0.324][A2026-01-26 18:39:36.562 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  40%|███▉      | 1791/4533 [4:51:42<7:28:34,  9.82s/it, gpt_loss=0.353, loss_mean=0.327][A
+Train step of epoch 0:  40%|███▉      | 1792/4533 [4:51:42<7:23:37,  9.71s/it, gpt_loss=0.353, loss_mean=0.327][A2026-01-26 18:39:46.381 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  40%|███▉      | 1792/4533 [4:51:51<7:23:37,  9.71s/it, gpt_loss=0.312, loss_mean=0.326][A
+Train step of epoch 0:  40%|███▉      | 1793/4533 [4:51:51<7:19:51,  9.63s/it, gpt_loss=0.312, loss_mean=0.326][A2026-01-26 18:39:55.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  40%|███▉      | 1793/4533 [4:52:03<7:19:51,  9.63s/it, gpt_loss=0.465, loss_mean=0.34] [A
+Train step of epoch 0:  40%|███▉      | 1794/4533 [4:52:03<7:46:34, 10.22s/it, gpt_loss=0.465, loss_mean=0.34][A2026-01-26 18:40:06.953 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  40%|███▉      | 1794/4533 [4:52:14<7:46:34, 10.22s/it, gpt_loss=0.389, loss_mean=0.345][A
+Train step of epoch 0:  40%|███▉      | 1795/4533 [4:52:14<8:03:29, 10.60s/it, gpt_loss=0.389, loss_mean=0.345][A2026-01-26 18:40:18.569 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  40%|███▉      | 1795/4533 [4:52:26<8:03:29, 10.60s/it, gpt_loss=0.393, loss_mean=0.349][A
+Train step of epoch 0:  40%|███▉      | 1796/4533 [4:52:26<8:17:46, 10.91s/it, gpt_loss=0.393, loss_mean=0.349][A2026-01-26 18:40:30.561 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  40%|███▉      | 1796/4533 [4:52:35<8:17:46, 10.91s/it, gpt_loss=0.269, loss_mean=0.341][A
+Train step of epoch 0:  40%|███▉      | 1797/4533 [4:52:35<7:50:37, 10.32s/it, gpt_loss=0.269, loss_mean=0.341][A2026-01-26 18:40:39.180 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  40%|███▉      | 1797/4533 [4:52:44<7:50:37, 10.32s/it, gpt_loss=0.322, loss_mean=0.339][A
+Train step of epoch 0:  40%|███▉      | 1798/4533 [4:52:44<7:31:02,  9.89s/it, gpt_loss=0.322, loss_mean=0.339][A2026-01-26 18:40:48.092 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  40%|███▉      | 1798/4533 [4:52:55<7:31:02,  9.89s/it, gpt_loss=0.428, loss_mean=0.348][A
+Train step of epoch 0:  40%|███▉      | 1799/4533 [4:52:55<7:56:26, 10.46s/it, gpt_loss=0.428, loss_mean=0.348][A
+[LID Router Debug] Step: 1800
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [2, 3, 1, 1, 2, 6, 0, 3, 5, 5, 4, 5, 3, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6}
+2026-01-26 18:40:59.871 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-26 18:41:08,644] [INFO] [logging.py:96:log_dist] [Rank 0] step=1800, skipped=0, lr=[1.9255560885500687e-05, 1.9255560885500687e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 18:41:08,644] [INFO] [timer.py:260:stop] epoch=0/micro_step=1800/global_step=1800, RunningAvgSamplesPerSec=5.7539334625861995, CurrSamplesPerSec=6.057954366584028, MemAllocated=14.71GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  40%|███▉      | 1799/4533 [4:53:05<7:56:26, 10.46s/it, gpt_loss=0.318, loss_mean=0.345][A
+Train step of epoch 0:  40%|███▉      | 1800/4533 [4:53:05<7:39:57, 10.10s/it, gpt_loss=0.318, loss_mean=0.345][A2026-01-26 18:41:09.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  40%|███▉      | 1800/4533 [4:53:17<7:39:57, 10.10s/it, gpt_loss=0.396, loss_mean=0.35] [A
+Train step of epoch 0:  40%|███▉      | 1801/4533 [4:53:17<8:08:00, 10.72s/it, gpt_loss=0.396, loss_mean=0.35][A2026-01-26 18:41:21.485 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  40%|███▉      | 1801/4533 [4:53:26<8:08:00, 10.72s/it, gpt_loss=0.346, loss_mean=0.35][A
+Train step of epoch 0:  40%|███▉      | 1802/4533 [4:53:26<7:43:28, 10.18s/it, gpt_loss=0.346, loss_mean=0.35][A2026-01-26 18:41:30.376 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  40%|███▉      | 1802/4533 [4:53:38<7:43:28, 10.18s/it, gpt_loss=0.415, loss_mean=0.356][A
+Train step of epoch 0:  40%|███▉      | 1803/4533 [4:53:38<8:09:28, 10.76s/it, gpt_loss=0.415, loss_mean=0.356][A2026-01-26 18:41:42.486 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  40%|███▉      | 1803/4533 [4:53:48<8:09:28, 10.76s/it, gpt_loss=0.315, loss_mean=0.352][A
+Train step of epoch 0:  40%|███▉      | 1804/4533 [4:53:48<7:54:50, 10.44s/it, gpt_loss=0.315, loss_mean=0.352][A2026-01-26 18:41:51.879 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  40%|███▉      | 1804/4533 [4:53:57<7:54:50, 10.44s/it, gpt_loss=0.277, loss_mean=0.345][A
+Train step of epoch 0:  40%|███▉      | 1805/4533 [4:53:57<7:40:05, 10.12s/it, gpt_loss=0.277, loss_mean=0.345][A2026-01-26 18:42:01.661 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  40%|███▉      | 1805/4533 [4:54:09<7:40:05, 10.12s/it, gpt_loss=0.376, loss_mean=0.348][A
+Train step of epoch 0:  40%|███▉      | 1806/4533 [4:54:09<8:04:13, 10.65s/it, gpt_loss=0.376, loss_mean=0.348][A2026-01-26 18:42:13.593 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  40%|███▉      | 1806/4533 [4:54:21<8:04:13, 10.65s/it, gpt_loss=0.387, loss_mean=0.352][A
+Train step of epoch 0:  40%|███▉      | 1807/4533 [4:54:21<8:25:56, 11.14s/it, gpt_loss=0.387, loss_mean=0.352][A2026-01-26 18:42:25.761 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  40%|███▉      | 1807/4533 [4:54:30<8:25:56, 11.14s/it, gpt_loss=0.294, loss_mean=0.346][A
+Train step of epoch 0:  40%|███▉      | 1808/4533 [4:54:30<7:53:02, 10.42s/it, gpt_loss=0.294, loss_mean=0.346][A2026-01-26 18:42:34.252 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  40%|███▉      | 1808/4533 [4:54:39<7:53:02, 10.42s/it, gpt_loss=0.302, loss_mean=0.342][A
+Train step of epoch 0:  40%|███▉      | 1809/4533 [4:54:39<7:35:09, 10.03s/it, gpt_loss=0.302, loss_mean=0.342][A
+[LID Router Debug] Step: 1810
+Batch Size: 14
+Audio Batch Size: 142
+LID Assignments: [4, 3, 9, 4, 0, 0, 1, 2, 5, 0, 9, 9, 1, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 18:42:43.682 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  40%|███▉      | 1809/4533 [4:54:49<7:35:09, 10.03s/it, gpt_loss=0.357, loss_mean=0.343][A
+Train step of epoch 0:  40%|███▉      | 1810/4533 [4:54:49<7:29:20,  9.90s/it, gpt_loss=0.357, loss_mean=0.343][A2026-01-26 18:42:52.972 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  40%|███▉      | 1810/4533 [4:55:00<7:29:20,  9.90s/it, gpt_loss=0.388, loss_mean=0.348][A
+Train step of epoch 0:  40%|███▉      | 1811/4533 [4:55:00<7:53:05, 10.43s/it, gpt_loss=0.388, loss_mean=0.348][A2026-01-26 18:43:04.873 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  40%|███▉      | 1811/4533 [4:55:09<7:53:05, 10.43s/it, gpt_loss=0.262, loss_mean=0.339][A
+Train step of epoch 0:  40%|███▉      | 1812/4533 [4:55:09<7:31:22,  9.95s/it, gpt_loss=0.262, loss_mean=0.339][A2026-01-26 18:43:13.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  40%|███▉      | 1812/4533 [4:55:18<7:31:22,  9.95s/it, gpt_loss=0.328, loss_mean=0.338][A
+Train step of epoch 0:  40%|███▉      | 1813/4533 [4:55:18<7:22:53,  9.77s/it, gpt_loss=0.328, loss_mean=0.338][A2026-01-26 18:43:22.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  40%|███▉      | 1813/4533 [4:55:27<7:22:53,  9.77s/it, gpt_loss=0.262, loss_mean=0.33] [A
+Train step of epoch 0:  40%|████      | 1814/4533 [4:55:27<7:05:01,  9.38s/it, gpt_loss=0.262, loss_mean=0.33][A2026-01-26 18:43:31.378 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  40%|████      | 1814/4533 [4:55:36<7:05:01,  9.38s/it, gpt_loss=0.238, loss_mean=0.321][A
+Train step of epoch 0:  40%|████      | 1815/4533 [4:55:36<6:57:01,  9.21s/it, gpt_loss=0.238, loss_mean=0.321][A2026-01-26 18:43:40.094 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  40%|████      | 1815/4533 [4:55:45<6:57:01,  9.21s/it, gpt_loss=0.26, loss_mean=0.315] [A
+Train step of epoch 0:  40%|████      | 1816/4533 [4:55:45<6:53:53,  9.14s/it, gpt_loss=0.26, loss_mean=0.315][A2026-01-26 18:43:49.191 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  40%|████      | 1816/4533 [4:55:54<6:53:53,  9.14s/it, gpt_loss=0.321, loss_mean=0.316][A
+Train step of epoch 0:  40%|████      | 1817/4533 [4:55:54<6:59:08,  9.26s/it, gpt_loss=0.321, loss_mean=0.316][A2026-01-26 18:43:58.778 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  40%|████      | 1817/4533 [4:56:04<6:59:08,  9.26s/it, gpt_loss=0.382, loss_mean=0.322][A
+Train step of epoch 0:  40%|████      | 1818/4533 [4:56:04<7:03:25,  9.36s/it, gpt_loss=0.382, loss_mean=0.322][A2026-01-26 18:44:08.174 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  40%|████      | 1818/4533 [4:56:12<7:03:25,  9.36s/it, gpt_loss=0.24, loss_mean=0.314] [A
+Train step of epoch 0:  40%|████      | 1819/4533 [4:56:12<6:51:00,  9.09s/it, gpt_loss=0.24, loss_mean=0.314][A
+[LID Router Debug] Step: 1820
+Batch Size: 14
+Audio Batch Size: 179
+LID Assignments: [5, 3, 2, 2, 9, 9, 4, 5, 2, 9, 9, 4, 6, 4]
+Active Experts in Batch: {2, 3, 4, 5, 6, 9}
+2026-01-26 18:44:16.971 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  40%|████      | 1819/4533 [4:56:22<6:51:00,  9.09s/it, gpt_loss=0.429, loss_mean=0.326][A
+Train step of epoch 0:  40%|████      | 1820/4533 [4:56:22<6:58:16,  9.25s/it, gpt_loss=0.429, loss_mean=0.326][A2026-01-26 18:44:26.365 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  40%|████      | 1820/4533 [4:56:31<6:58:16,  9.25s/it, gpt_loss=0.324, loss_mean=0.325][A
+Train step of epoch 0:  40%|████      | 1821/4533 [4:56:31<6:50:13,  9.08s/it, gpt_loss=0.324, loss_mean=0.325][A2026-01-26 18:44:35.189 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  40%|████      | 1821/4533 [4:56:40<6:50:13,  9.08s/it, gpt_loss=0.285, loss_mean=0.321][A
+Train step of epoch 0:  40%|████      | 1822/4533 [4:56:40<6:59:49,  9.29s/it, gpt_loss=0.285, loss_mean=0.321][A2026-01-26 18:44:44.974 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  40%|████      | 1822/4533 [4:56:52<6:59:49,  9.29s/it, gpt_loss=0.472, loss_mean=0.336][A
+Train step of epoch 0:  40%|████      | 1823/4533 [4:56:52<7:31:51, 10.00s/it, gpt_loss=0.472, loss_mean=0.336][A2026-01-26 18:44:56.575 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  40%|████      | 1823/4533 [4:57:01<7:31:51, 10.00s/it, gpt_loss=0.318, loss_mean=0.335][A
+Train step of epoch 0:  40%|████      | 1824/4533 [4:57:01<7:15:39,  9.65s/it, gpt_loss=0.318, loss_mean=0.335][A2026-01-26 18:45:05.478 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  40%|████      | 1824/4533 [4:57:10<7:15:39,  9.65s/it, gpt_loss=0.267, loss_mean=0.328][A
+Train step of epoch 0:  40%|████      | 1825/4533 [4:57:10<7:13:33,  9.61s/it, gpt_loss=0.267, loss_mean=0.328][A2026-01-26 18:45:14.752 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  40%|████      | 1825/4533 [4:57:19<7:13:33,  9.61s/it, gpt_loss=0.309, loss_mean=0.326][A
+Train step of epoch 0:  40%|████      | 1826/4533 [4:57:19<7:00:41,  9.32s/it, gpt_loss=0.309, loss_mean=0.326][A2026-01-26 18:45:23.580 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  40%|████      | 1826/4533 [4:57:29<7:00:41,  9.32s/it, gpt_loss=0.282, loss_mean=0.321][A
+Train step of epoch 0:  40%|████      | 1827/4533 [4:57:29<7:03:03,  9.38s/it, gpt_loss=0.282, loss_mean=0.321][A2026-01-26 18:45:33.002 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  40%|████      | 1827/4533 [4:57:40<7:03:03,  9.38s/it, gpt_loss=0.324, loss_mean=0.322][A
+Train step of epoch 0:  40%|████      | 1828/4533 [4:57:40<7:33:28, 10.06s/it, gpt_loss=0.324, loss_mean=0.322][A2026-01-26 18:45:44.895 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  40%|████      | 1828/4533 [4:57:52<7:33:28, 10.06s/it, gpt_loss=0.469, loss_mean=0.336][A
+Train step of epoch 0:  40%|████      | 1829/4533 [4:57:52<7:59:16, 10.63s/it, gpt_loss=0.469, loss_mean=0.336][A
+[LID Router Debug] Step: 1830
+Batch Size: 14
+Audio Batch Size: 146
+LID Assignments: [9, 6, 2, 0, 2, 9, 2, 9, 5, 9, 0, 0, 6, 4]
+Active Experts in Batch: {0, 2, 4, 5, 6, 9}
+2026-01-26 18:45:56.802 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  40%|████      | 1829/4533 [4:58:01<7:59:16, 10.63s/it, gpt_loss=0.251, loss_mean=0.328][A
+Train step of epoch 0:  40%|████      | 1830/4533 [4:58:01<7:38:53, 10.19s/it, gpt_loss=0.251, loss_mean=0.328][A2026-01-26 18:46:05.662 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  40%|████      | 1830/4533 [4:58:13<7:38:53, 10.19s/it, gpt_loss=0.374, loss_mean=0.333][A
+Train step of epoch 0:  40%|████      | 1831/4533 [4:58:13<8:01:32, 10.69s/it, gpt_loss=0.374, loss_mean=0.333][A2026-01-26 18:46:17.764 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  40%|████      | 1831/4533 [4:58:22<8:01:32, 10.69s/it, gpt_loss=0.286, loss_mean=0.328][A
+Train step of epoch 0:  40%|████      | 1832/4533 [4:58:22<7:36:16, 10.14s/it, gpt_loss=0.286, loss_mean=0.328][A2026-01-26 18:46:26.496 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  40%|████      | 1832/4533 [4:58:31<7:36:16, 10.14s/it, gpt_loss=0.291, loss_mean=0.324][A
+Train step of epoch 0:  40%|████      | 1833/4533 [4:58:31<7:19:01,  9.76s/it, gpt_loss=0.291, loss_mean=0.324][A2026-01-26 18:46:35.593 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  40%|████      | 1833/4533 [4:58:40<7:19:01,  9.76s/it, gpt_loss=0.327, loss_mean=0.324][A
+Train step of epoch 0:  40%|████      | 1834/4533 [4:58:40<7:14:13,  9.65s/it, gpt_loss=0.327, loss_mean=0.324][A2026-01-26 18:46:44.993 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  40%|████      | 1834/4533 [4:58:49<7:14:13,  9.65s/it, gpt_loss=0.309, loss_mean=0.323][A
+Train step of epoch 0:  40%|████      | 1835/4533 [4:58:49<7:07:01,  9.50s/it, gpt_loss=0.309, loss_mean=0.323][A2026-01-26 18:46:54.081 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  40%|████      | 1835/4533 [4:59:01<7:07:01,  9.50s/it, gpt_loss=0.348, loss_mean=0.325][A
+Train step of epoch 0:  41%|████      | 1836/4533 [4:59:01<7:39:27, 10.22s/it, gpt_loss=0.348, loss_mean=0.325][A2026-01-26 18:47:05.991 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  41%|████      | 1836/4533 [4:59:10<7:39:27, 10.22s/it, gpt_loss=0.26, loss_mean=0.319] [A
+Train step of epoch 0:  41%|████      | 1837/4533 [4:59:10<7:19:46,  9.79s/it, gpt_loss=0.26, loss_mean=0.319][A2026-01-26 18:47:14.860 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  41%|████      | 1837/4533 [4:59:20<7:19:46,  9.79s/it, gpt_loss=0.257, loss_mean=0.313][A
+Train step of epoch 0:  41%|████      | 1838/4533 [4:59:20<7:24:19,  9.89s/it, gpt_loss=0.257, loss_mean=0.313][A2026-01-26 18:47:24.897 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  41%|████      | 1838/4533 [4:59:30<7:24:19,  9.89s/it, gpt_loss=0.318, loss_mean=0.313][A
+Train step of epoch 0:  41%|████      | 1839/4533 [4:59:30<7:17:06,  9.74s/it, gpt_loss=0.318, loss_mean=0.313][A
+[LID Router Debug] Step: 1840
+Batch Size: 14
+Audio Batch Size: 146
+LID Assignments: [4, 6, 4, 2, 9, 0, 0, 5, 4, 9, 9, 2, 3, 4]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-26 18:47:34.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  41%|████      | 1839/4533 [4:59:38<7:17:06,  9.74s/it, gpt_loss=0.276, loss_mean=0.309][A
+Train step of epoch 0:  41%|████      | 1840/4533 [4:59:38<7:04:06,  9.45s/it, gpt_loss=0.276, loss_mean=0.309][A2026-01-26 18:47:42.851 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  41%|████      | 1840/4533 [4:59:48<7:04:06,  9.45s/it, gpt_loss=0.273, loss_mean=0.306][A
+Train step of epoch 0:  41%|████      | 1841/4533 [4:59:48<7:01:55,  9.40s/it, gpt_loss=0.273, loss_mean=0.306][A2026-01-26 18:47:52.466 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  41%|████      | 1841/4533 [4:59:57<7:01:55,  9.40s/it, gpt_loss=0.267, loss_mean=0.302][A
+Train step of epoch 0:  41%|████      | 1842/4533 [4:59:57<6:55:43,  9.27s/it, gpt_loss=0.267, loss_mean=0.302][A2026-01-26 18:48:01.197 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  41%|████      | 1842/4533 [5:00:09<6:55:43,  9.27s/it, gpt_loss=0.375, loss_mean=0.309][A
+Train step of epoch 0:  41%|████      | 1843/4533 [5:00:09<7:31:09, 10.06s/it, gpt_loss=0.375, loss_mean=0.309][A2026-01-26 18:48:12.979 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  41%|████      | 1843/4533 [5:00:18<7:31:09, 10.06s/it, gpt_loss=0.357, loss_mean=0.314][A
+Train step of epoch 0:  41%|████      | 1844/4533 [5:00:18<7:23:50,  9.90s/it, gpt_loss=0.357, loss_mean=0.314][A2026-01-26 18:48:22.596 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  41%|████      | 1844/4533 [5:00:27<7:23:50,  9.90s/it, gpt_loss=0.258, loss_mean=0.308][A
+Train step of epoch 0:  41%|████      | 1845/4533 [5:00:27<7:06:10,  9.51s/it, gpt_loss=0.258, loss_mean=0.308][A2026-01-26 18:48:31.366 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  41%|████      | 1845/4533 [5:00:36<7:06:10,  9.51s/it, gpt_loss=0.282, loss_mean=0.306][A
+Train step of epoch 0:  41%|████      | 1846/4533 [5:00:36<7:03:19,  9.45s/it, gpt_loss=0.282, loss_mean=0.306][A2026-01-26 18:48:40.595 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  41%|████      | 1846/4533 [5:00:45<7:03:19,  9.45s/it, gpt_loss=0.294, loss_mean=0.305][A
+Train step of epoch 0:  41%|████      | 1847/4533 [5:00:45<6:53:35,  9.24s/it, gpt_loss=0.294, loss_mean=0.305][A2026-01-26 18:48:49.468 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  41%|████      | 1847/4533 [5:00:54<6:53:35,  9.24s/it, gpt_loss=0.294, loss_mean=0.304][A
+Train step of epoch 0:  41%|████      | 1848/4533 [5:00:54<6:59:37,  9.38s/it, gpt_loss=0.294, loss_mean=0.304][A2026-01-26 18:48:59.079 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  41%|████      | 1848/4533 [5:01:06<6:59:37,  9.38s/it, gpt_loss=0.367, loss_mean=0.31] [A
+Train step of epoch 0:  41%|████      | 1849/4533 [5:01:06<7:32:23, 10.11s/it, gpt_loss=0.367, loss_mean=0.31][A
+[LID Router Debug] Step: 1850
+Batch Size: 14
+Audio Batch Size: 146
+LID Assignments: [0, 4, 1, 5, 1, 0, 3, 1, 9, 3, 0, 3, 1, 1]
+Active Experts in Batch: {0, 1, 3, 4, 5, 9}
+2026-01-26 18:49:10.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  41%|████      | 1849/4533 [5:01:18<7:32:23, 10.11s/it, gpt_loss=0.346, loss_mean=0.314][A
+Train step of epoch 0:  41%|████      | 1850/4533 [5:01:18<7:52:23, 10.56s/it, gpt_loss=0.346, loss_mean=0.314][A2026-01-26 18:49:22.574 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  41%|████      | 1850/4533 [5:01:27<7:52:23, 10.56s/it, gpt_loss=0.276, loss_mean=0.31] [A
+Train step of epoch 0:  41%|████      | 1851/4533 [5:01:27<7:33:20, 10.14s/it, gpt_loss=0.276, loss_mean=0.31][A2026-01-26 18:49:31.778 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  41%|████      | 1851/4533 [5:01:37<7:33:20, 10.14s/it, gpt_loss=0.304, loss_mean=0.309][A
+Train step of epoch 0:  41%|████      | 1852/4533 [5:01:37<7:25:49,  9.98s/it, gpt_loss=0.304, loss_mean=0.309][A2026-01-26 18:49:41.167 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  41%|████      | 1852/4533 [5:01:45<7:25:49,  9.98s/it, gpt_loss=0.287, loss_mean=0.307][A
+Train step of epoch 0:  41%|████      | 1853/4533 [5:01:45<7:07:49,  9.58s/it, gpt_loss=0.287, loss_mean=0.307][A2026-01-26 18:49:49.961 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  41%|████      | 1853/4533 [5:01:54<7:07:49,  9.58s/it, gpt_loss=0.273, loss_mean=0.304][A
+Train step of epoch 0:  41%|████      | 1854/4533 [5:01:54<6:59:42,  9.40s/it, gpt_loss=0.273, loss_mean=0.304][A2026-01-26 18:49:58.956 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  41%|████      | 1854/4533 [5:02:04<6:59:42,  9.40s/it, gpt_loss=0.312, loss_mean=0.304][A
+Train step of epoch 0:  41%|████      | 1855/4533 [5:02:04<7:02:17,  9.46s/it, gpt_loss=0.312, loss_mean=0.304][A2026-01-26 18:50:08.575 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  41%|████      | 1855/4533 [5:02:13<7:02:17,  9.46s/it, gpt_loss=0.302, loss_mean=0.304][A
+Train step of epoch 0:  41%|████      | 1856/4533 [5:02:13<6:57:56,  9.37s/it, gpt_loss=0.302, loss_mean=0.304][A2026-01-26 18:50:17.559 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  41%|████      | 1856/4533 [5:02:22<6:57:56,  9.37s/it, gpt_loss=0.273, loss_mean=0.301][A
+Train step of epoch 0:  41%|████      | 1857/4533 [5:02:22<6:55:17,  9.31s/it, gpt_loss=0.273, loss_mean=0.301][A2026-01-26 18:50:26.796 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  41%|████      | 1857/4533 [5:02:31<6:55:17,  9.31s/it, gpt_loss=0.319, loss_mean=0.303][A
+Train step of epoch 0:  41%|████      | 1858/4533 [5:02:31<6:49:58,  9.20s/it, gpt_loss=0.319, loss_mean=0.303][A2026-01-26 18:50:35.582 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  41%|████      | 1858/4533 [5:02:40<6:49:58,  9.20s/it, gpt_loss=0.297, loss_mean=0.302][A
+Train step of epoch 0:  41%|████      | 1859/4533 [5:02:40<6:43:09,  9.05s/it, gpt_loss=0.297, loss_mean=0.302][A
+[LID Router Debug] Step: 1860
+Batch Size: 14
+Audio Batch Size: 156
+LID Assignments: [0, 4, 9, 1, 3, 0, 1, 1, 2, 9, 6, 5, 3, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 18:50:43.996 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  41%|████      | 1859/4533 [5:02:51<6:43:09,  9.05s/it, gpt_loss=0.407, loss_mean=0.313][A
+Train step of epoch 0:  41%|████      | 1860/4533 [5:02:51<7:10:07,  9.65s/it, gpt_loss=0.407, loss_mean=0.313][A2026-01-26 18:50:55.457 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  41%|████      | 1860/4533 [5:03:00<7:10:07,  9.65s/it, gpt_loss=0.295, loss_mean=0.311][A
+Train step of epoch 0:  41%|████      | 1861/4533 [5:03:00<6:58:31,  9.40s/it, gpt_loss=0.295, loss_mean=0.311][A2026-01-26 18:51:04.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  41%|████      | 1861/4533 [5:03:09<6:58:31,  9.40s/it, gpt_loss=0.245, loss_mean=0.304][A
+Train step of epoch 0:  41%|████      | 1862/4533 [5:03:09<6:52:15,  9.26s/it, gpt_loss=0.245, loss_mean=0.304][A2026-01-26 18:51:12.990 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  41%|████      | 1862/4533 [5:03:17<6:52:15,  9.26s/it, gpt_loss=0.307, loss_mean=0.305][A
+Train step of epoch 0:  41%|████      | 1863/4533 [5:03:17<6:44:38,  9.09s/it, gpt_loss=0.307, loss_mean=0.305][A2026-01-26 18:51:22.069 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  41%|████      | 1863/4533 [5:03:27<6:44:38,  9.09s/it, gpt_loss=0.324, loss_mean=0.307][A
+Train step of epoch 0:  41%|████      | 1864/4533 [5:03:27<6:50:37,  9.23s/it, gpt_loss=0.324, loss_mean=0.307][A2026-01-26 18:51:31.561 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  41%|████      | 1864/4533 [5:03:37<6:50:37,  9.23s/it, gpt_loss=0.268, loss_mean=0.303][A
+Train step of epoch 0:  41%|████      | 1865/4533 [5:03:37<6:57:10,  9.38s/it, gpt_loss=0.268, loss_mean=0.303][A2026-01-26 18:51:41.174 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  41%|████      | 1865/4533 [5:03:49<6:57:10,  9.38s/it, gpt_loss=0.398, loss_mean=0.312][A
+Train step of epoch 0:  41%|████      | 1866/4533 [5:03:49<7:33:38, 10.21s/it, gpt_loss=0.398, loss_mean=0.312][A2026-01-26 18:51:53.258 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  41%|████      | 1866/4533 [5:04:00<7:33:38, 10.21s/it, gpt_loss=0.37, loss_mean=0.318] [A
+Train step of epoch 0:  41%|████      | 1867/4533 [5:04:00<7:52:33, 10.64s/it, gpt_loss=0.37, loss_mean=0.318][A2026-01-26 18:52:05.064 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  41%|████      | 1867/4533 [5:04:09<7:52:33, 10.64s/it, gpt_loss=0.319, loss_mean=0.318][A
+Train step of epoch 0:  41%|████      | 1868/4533 [5:04:09<7:28:44, 10.10s/it, gpt_loss=0.319, loss_mean=0.318][A2026-01-26 18:52:13.867 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  41%|████      | 1868/4533 [5:04:18<7:28:44, 10.10s/it, gpt_loss=0.255, loss_mean=0.312][A
+Train step of epoch 0:  41%|████      | 1869/4533 [5:04:18<7:11:51,  9.73s/it, gpt_loss=0.255, loss_mean=0.312][A
+[LID Router Debug] Step: 1870
+Batch Size: 14
+Audio Batch Size: 173
+LID Assignments: [2, 0, 9, 9, 9, 4, 0, 5, 6, 0, 3, 3, 2, 5]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-26 18:52:22.759 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  41%|████      | 1869/4533 [5:04:28<7:11:51,  9.73s/it, gpt_loss=0.308, loss_mean=0.311][A
+Train step of epoch 0:  41%|████▏     | 1870/4533 [5:04:28<7:11:29,  9.72s/it, gpt_loss=0.308, loss_mean=0.311][A2026-01-26 18:52:32.392 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  41%|████▏     | 1870/4533 [5:04:37<7:11:29,  9.72s/it, gpt_loss=0.366, loss_mean=0.317][A
+Train step of epoch 0:  41%|████▏     | 1871/4533 [5:04:37<7:04:03,  9.56s/it, gpt_loss=0.366, loss_mean=0.317][A2026-01-26 18:52:41.381 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  41%|████▏     | 1871/4533 [5:04:46<7:04:03,  9.56s/it, gpt_loss=0.315, loss_mean=0.317][A
+Train step of epoch 0:  41%|████▏     | 1872/4533 [5:04:46<6:59:41,  9.46s/it, gpt_loss=0.315, loss_mean=0.317][A2026-01-26 18:52:50.784 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  41%|████▏     | 1872/4533 [5:04:58<6:59:41,  9.46s/it, gpt_loss=0.333, loss_mean=0.318][A
+Train step of epoch 0:  41%|████▏     | 1873/4533 [5:04:58<7:31:34, 10.19s/it, gpt_loss=0.333, loss_mean=0.318][A2026-01-26 18:53:02.767 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  41%|████▏     | 1873/4533 [5:05:07<7:31:34, 10.19s/it, gpt_loss=0.294, loss_mean=0.316][A
+Train step of epoch 0:  41%|████▏     | 1874/4533 [5:05:07<7:12:55,  9.77s/it, gpt_loss=0.294, loss_mean=0.316][A2026-01-26 18:53:11.494 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  41%|████▏     | 1874/4533 [5:05:19<7:12:55,  9.77s/it, gpt_loss=0.426, loss_mean=0.327][A
+Train step of epoch 0:  41%|████▏     | 1875/4533 [5:05:19<7:42:32, 10.44s/it, gpt_loss=0.426, loss_mean=0.327][A2026-01-26 18:53:23.454 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  41%|████▏     | 1875/4533 [5:05:28<7:42:32, 10.44s/it, gpt_loss=0.252, loss_mean=0.319][A
+Train step of epoch 0:  41%|████▏     | 1876/4533 [5:05:28<7:19:55,  9.93s/it, gpt_loss=0.252, loss_mean=0.319][A2026-01-26 18:53:32.295 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  41%|████▏     | 1876/4533 [5:05:37<7:19:55,  9.93s/it, gpt_loss=0.247, loss_mean=0.312][A
+Train step of epoch 0:  41%|████▏     | 1877/4533 [5:05:37<7:09:13,  9.70s/it, gpt_loss=0.247, loss_mean=0.312][A2026-01-26 18:53:41.563 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  41%|████▏     | 1877/4533 [5:05:49<7:09:13,  9.70s/it, gpt_loss=0.356, loss_mean=0.317][A
+Train step of epoch 0:  41%|████▏     | 1878/4533 [5:05:49<7:38:27, 10.36s/it, gpt_loss=0.356, loss_mean=0.317][A2026-01-26 18:53:53.399 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  41%|████▏     | 1878/4533 [5:05:59<7:38:27, 10.36s/it, gpt_loss=0.323, loss_mean=0.317][A
+Train step of epoch 0:  41%|████▏     | 1879/4533 [5:05:59<7:30:49, 10.19s/it, gpt_loss=0.323, loss_mean=0.317][A
+[LID Router Debug] Step: 1880
+Batch Size: 14
+Audio Batch Size: 154
+LID Assignments: [2, 2, 1, 0, 2, 2, 0, 4, 3, 4, 1, 6, 9, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-26 18:54:03.260 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  41%|████▏     | 1879/4533 [5:06:08<7:30:49, 10.19s/it, gpt_loss=0.341, loss_mean=0.32] [A
+Train step of epoch 0:  41%|████▏     | 1880/4533 [5:06:08<7:23:41, 10.03s/it, gpt_loss=0.341, loss_mean=0.32][A2026-01-26 18:54:12.459 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  41%|████▏     | 1880/4533 [5:06:18<7:23:41, 10.03s/it, gpt_loss=0.387, loss_mean=0.326][A
+Train step of epoch 0:  41%|████▏     | 1881/4533 [5:06:18<7:13:48,  9.81s/it, gpt_loss=0.387, loss_mean=0.326][A2026-01-26 18:54:22.075 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  41%|████▏     | 1881/4533 [5:06:29<7:13:48,  9.81s/it, gpt_loss=0.32, loss_mean=0.326] [A
+Train step of epoch 0:  42%|████▏     | 1882/4533 [5:06:29<7:37:09, 10.35s/it, gpt_loss=0.32, loss_mean=0.326][A2026-01-26 18:54:33.777 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  42%|████▏     | 1882/4533 [5:06:41<7:37:09, 10.35s/it, gpt_loss=0.416, loss_mean=0.335][A
+Train step of epoch 0:  42%|████▏     | 1883/4533 [5:06:41<7:57:39, 10.81s/it, gpt_loss=0.416, loss_mean=0.335][A2026-01-26 18:54:45.678 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  42%|████▏     | 1883/4533 [5:06:50<7:57:39, 10.81s/it, gpt_loss=0.302, loss_mean=0.331][A
+Train step of epoch 0:  42%|████▏     | 1884/4533 [5:06:50<7:30:27, 10.20s/it, gpt_loss=0.302, loss_mean=0.331][A2026-01-26 18:54:54.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  42%|████▏     | 1884/4533 [5:06:59<7:30:27, 10.20s/it, gpt_loss=0.309, loss_mean=0.329][A
+Train step of epoch 0:  42%|████▏     | 1885/4533 [5:06:59<7:12:20,  9.80s/it, gpt_loss=0.309, loss_mean=0.329][A2026-01-26 18:55:03.159 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  42%|████▏     | 1885/4533 [5:07:11<7:12:20,  9.80s/it, gpt_loss=0.334, loss_mean=0.33] [A
+Train step of epoch 0:  42%|████▏     | 1886/4533 [5:07:11<7:39:54, 10.42s/it, gpt_loss=0.334, loss_mean=0.33][A2026-01-26 18:55:15.196 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  42%|████▏     | 1886/4533 [5:07:23<7:39:54, 10.42s/it, gpt_loss=0.336, loss_mean=0.33][A
+Train step of epoch 0:  42%|████▏     | 1887/4533 [5:07:23<8:01:24, 10.92s/it, gpt_loss=0.336, loss_mean=0.33][A2026-01-26 18:55:27.269 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  42%|████▏     | 1887/4533 [5:07:34<8:01:24, 10.92s/it, gpt_loss=0.415, loss_mean=0.339][A
+Train step of epoch 0:  42%|████▏     | 1888/4533 [5:07:34<8:14:03, 11.21s/it, gpt_loss=0.415, loss_mean=0.339][A2026-01-26 18:55:39.088 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  42%|████▏     | 1888/4533 [5:07:44<8:14:03, 11.21s/it, gpt_loss=0.311, loss_mean=0.336][A
+Train step of epoch 0:  42%|████▏     | 1889/4533 [5:07:44<7:56:20, 10.81s/it, gpt_loss=0.311, loss_mean=0.336][A
+[LID Router Debug] Step: 1890
+Batch Size: 14
+Audio Batch Size: 135
+LID Assignments: [5, 0, 0, 9, 6, 0, 9, 1, 0, 4, 9, 9, 1, 5]
+Active Experts in Batch: {0, 1, 4, 5, 6, 9}
+2026-01-26 18:55:49.056 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  42%|████▏     | 1889/4533 [5:07:54<7:56:20, 10.81s/it, gpt_loss=0.39, loss_mean=0.341] [A
+Train step of epoch 0:  42%|████▏     | 1890/4533 [5:07:54<7:40:32, 10.46s/it, gpt_loss=0.39, loss_mean=0.341][A2026-01-26 18:55:58.590 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  42%|████▏     | 1890/4533 [5:08:03<7:40:32, 10.46s/it, gpt_loss=0.338, loss_mean=0.341][A
+Train step of epoch 0:  42%|████▏     | 1891/4533 [5:08:03<7:21:34, 10.03s/it, gpt_loss=0.338, loss_mean=0.341][A2026-01-26 18:56:07.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  42%|████▏     | 1891/4533 [5:08:12<7:21:34, 10.03s/it, gpt_loss=0.241, loss_mean=0.331][A
+Train step of epoch 0:  42%|████▏     | 1892/4533 [5:08:12<7:06:52,  9.70s/it, gpt_loss=0.241, loss_mean=0.331][A2026-01-26 18:56:16.488 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  42%|████▏     | 1892/4533 [5:08:21<7:06:52,  9.70s/it, gpt_loss=0.304, loss_mean=0.328][A
+Train step of epoch 0:  42%|████▏     | 1893/4533 [5:08:21<6:54:54,  9.43s/it, gpt_loss=0.304, loss_mean=0.328][A2026-01-26 18:56:25.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  42%|████▏     | 1893/4533 [5:08:30<6:54:54,  9.43s/it, gpt_loss=0.367, loss_mean=0.332][A
+Train step of epoch 0:  42%|████▏     | 1894/4533 [5:08:30<6:53:29,  9.40s/it, gpt_loss=0.367, loss_mean=0.332][A2026-01-26 18:56:34.667 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  42%|████▏     | 1894/4533 [5:08:42<6:53:29,  9.40s/it, gpt_loss=0.398, loss_mean=0.339][A
+Train step of epoch 0:  42%|████▏     | 1895/4533 [5:08:42<7:27:49, 10.19s/it, gpt_loss=0.398, loss_mean=0.339][A2026-01-26 18:56:46.765 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  42%|████▏     | 1895/4533 [5:08:54<7:27:49, 10.19s/it, gpt_loss=0.363, loss_mean=0.341][A
+Train step of epoch 0:  42%|████▏     | 1896/4533 [5:08:54<7:50:08, 10.70s/it, gpt_loss=0.363, loss_mean=0.341][A2026-01-26 18:56:58.464 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  42%|████▏     | 1896/4533 [5:09:03<7:50:08, 10.70s/it, gpt_loss=0.308, loss_mean=0.338][A
+Train step of epoch 0:  42%|████▏     | 1897/4533 [5:09:03<7:23:14, 10.09s/it, gpt_loss=0.308, loss_mean=0.338][A2026-01-26 18:57:07.352 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  42%|████▏     | 1897/4533 [5:09:12<7:23:14, 10.09s/it, gpt_loss=0.289, loss_mean=0.333][A
+Train step of epoch 0:  42%|████▏     | 1898/4533 [5:09:12<7:08:05,  9.75s/it, gpt_loss=0.289, loss_mean=0.333][A2026-01-26 18:57:16.278 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  42%|████▏     | 1898/4533 [5:09:21<7:08:05,  9.75s/it, gpt_loss=0.29, loss_mean=0.329] [A
+Train step of epoch 0:  42%|████▏     | 1899/4533 [5:09:21<6:59:42,  9.56s/it, gpt_loss=0.29, loss_mean=0.329][A
+[LID Router Debug] Step: 1900
+Batch Size: 14
+Audio Batch Size: 126
+LID Assignments: [1, 5, 0, 5, 1, 4, 2, 5, 2, 0, 5, 3, 0, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5}
+2026-01-26 18:57:25.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+[2026-01-26 18:57:33,461] [INFO] [logging.py:96:log_dist] [Rank 0] step=1900, skipped=0, lr=[1.916470027546542e-05, 1.916470027546542e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 18:57:33,461] [INFO] [timer.py:260:stop] epoch=0/micro_step=1900/global_step=1900, RunningAvgSamplesPerSec=5.750923032145001, CurrSamplesPerSec=6.369745921521373, MemAllocated=14.52GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  42%|████▏     | 1899/4533 [5:09:30<6:59:42,  9.56s/it, gpt_loss=0.317, loss_mean=0.328][A
+Train step of epoch 0:  42%|████▏     | 1900/4533 [5:09:30<6:49:40,  9.34s/it, gpt_loss=0.317, loss_mean=0.328][A2026-01-26 18:57:34.182 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  42%|████▏     | 1900/4533 [5:09:39<6:49:40,  9.34s/it, gpt_loss=0.276, loss_mean=0.322][A
+Train step of epoch 0:  42%|████▏     | 1901/4533 [5:09:39<6:56:26,  9.49s/it, gpt_loss=0.276, loss_mean=0.322][A2026-01-26 18:57:43.958 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  42%|████▏     | 1901/4533 [5:09:49<6:56:26,  9.49s/it, gpt_loss=0.286, loss_mean=0.319][A
+Train step of epoch 0:  42%|████▏     | 1902/4533 [5:09:49<7:03:48,  9.66s/it, gpt_loss=0.286, loss_mean=0.319][A2026-01-26 18:57:53.668 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  42%|████▏     | 1902/4533 [5:09:58<7:03:48,  9.66s/it, gpt_loss=0.33, loss_mean=0.32]  [A
+Train step of epoch 0:  42%|████▏     | 1903/4533 [5:09:58<6:46:03,  9.26s/it, gpt_loss=0.33, loss_mean=0.32][A2026-01-26 18:58:02.396 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  42%|████▏     | 1903/4533 [5:10:07<6:46:03,  9.26s/it, gpt_loss=0.339, loss_mean=0.322][A
+Train step of epoch 0:  42%|████▏     | 1904/4533 [5:10:07<6:42:38,  9.19s/it, gpt_loss=0.339, loss_mean=0.322][A2026-01-26 18:58:11.499 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  42%|████▏     | 1904/4533 [5:10:19<6:42:38,  9.19s/it, gpt_loss=0.372, loss_mean=0.327][A
+Train step of epoch 0:  42%|████▏     | 1905/4533 [5:10:19<7:20:30, 10.06s/it, gpt_loss=0.372, loss_mean=0.327][A2026-01-26 18:58:23.287 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  42%|████▏     | 1905/4533 [5:10:28<7:20:30, 10.06s/it, gpt_loss=0.265, loss_mean=0.321][A
+Train step of epoch 0:  42%|████▏     | 1906/4533 [5:10:28<7:11:47,  9.86s/it, gpt_loss=0.265, loss_mean=0.321][A2026-01-26 18:58:32.904 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  42%|████▏     | 1906/4533 [5:10:37<7:11:47,  9.86s/it, gpt_loss=0.327, loss_mean=0.321][A
+Train step of epoch 0:  42%|████▏     | 1907/4533 [5:10:37<7:01:28,  9.63s/it, gpt_loss=0.327, loss_mean=0.321][A2026-01-26 18:58:41.799 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  42%|████▏     | 1907/4533 [5:10:46<7:01:28,  9.63s/it, gpt_loss=0.26, loss_mean=0.315] [A
+Train step of epoch 0:  42%|████▏     | 1908/4533 [5:10:46<6:48:30,  9.34s/it, gpt_loss=0.26, loss_mean=0.315][A2026-01-26 18:58:50.550 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  42%|████▏     | 1908/4533 [5:10:58<6:48:30,  9.34s/it, gpt_loss=0.408, loss_mean=0.324][A
+Train step of epoch 0:  42%|████▏     | 1909/4533 [5:10:58<7:19:54, 10.06s/it, gpt_loss=0.408, loss_mean=0.324][A
+[LID Router Debug] Step: 1910
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [4, 9, 0, 2, 1, 5, 9, 6, 4, 2, 3, 2, 4, 6]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 18:59:02.104 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  42%|████▏     | 1909/4533 [5:11:09<7:19:54, 10.06s/it, gpt_loss=0.37, loss_mean=0.329] [A
+Train step of epoch 0:  42%|████▏     | 1910/4533 [5:11:09<7:37:51, 10.47s/it, gpt_loss=0.37, loss_mean=0.329][A2026-01-26 18:59:13.696 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  42%|████▏     | 1910/4533 [5:11:21<7:37:51, 10.47s/it, gpt_loss=0.349, loss_mean=0.331][A
+Train step of epoch 0:  42%|████▏     | 1911/4533 [5:11:21<7:51:24, 10.79s/it, gpt_loss=0.349, loss_mean=0.331][A2026-01-26 18:59:25.457 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  42%|████▏     | 1911/4533 [5:11:30<7:51:24, 10.79s/it, gpt_loss=0.243, loss_mean=0.322][A
+Train step of epoch 0:  42%|████▏     | 1912/4533 [5:11:30<7:32:15, 10.35s/it, gpt_loss=0.243, loss_mean=0.322][A2026-01-26 18:59:34.488 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  42%|████▏     | 1912/4533 [5:11:39<7:32:15, 10.35s/it, gpt_loss=0.299, loss_mean=0.32] [A
+Train step of epoch 0:  42%|████▏     | 1913/4533 [5:11:39<7:10:16,  9.85s/it, gpt_loss=0.299, loss_mean=0.32][A2026-01-26 18:59:43.392 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  42%|████▏     | 1913/4533 [5:11:50<7:10:16,  9.85s/it, gpt_loss=0.402, loss_mean=0.328][A
+Train step of epoch 0:  42%|████▏     | 1914/4533 [5:11:50<7:34:26, 10.41s/it, gpt_loss=0.402, loss_mean=0.328][A2026-01-26 18:59:55.086 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  42%|████▏     | 1914/4533 [5:12:02<7:34:26, 10.41s/it, gpt_loss=0.406, loss_mean=0.336][A
+Train step of epoch 0:  42%|████▏     | 1915/4533 [5:12:02<7:54:53, 10.88s/it, gpt_loss=0.406, loss_mean=0.336][A2026-01-26 19:00:07.095 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  42%|████▏     | 1915/4533 [5:12:11<7:54:53, 10.88s/it, gpt_loss=0.273, loss_mean=0.33] [A
+Train step of epoch 0:  42%|████▏     | 1916/4533 [5:12:11<7:26:25, 10.24s/it, gpt_loss=0.273, loss_mean=0.33][A2026-01-26 19:00:15.890 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  42%|████▏     | 1916/4533 [5:12:23<7:26:25, 10.24s/it, gpt_loss=0.423, loss_mean=0.339][A
+Train step of epoch 0:  42%|████▏     | 1917/4533 [5:12:23<7:46:11, 10.69s/it, gpt_loss=0.423, loss_mean=0.339][A2026-01-26 19:00:27.585 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  42%|████▏     | 1917/4533 [5:12:35<7:46:11, 10.69s/it, gpt_loss=0.372, loss_mean=0.342][A
+Train step of epoch 0:  42%|████▏     | 1918/4533 [5:12:35<8:00:18, 11.02s/it, gpt_loss=0.372, loss_mean=0.342][A2026-01-26 19:00:38.987 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  42%|████▏     | 1918/4533 [5:12:46<8:00:18, 11.02s/it, gpt_loss=0.42, loss_mean=0.35]  [A
+Train step of epoch 0:  42%|████▏     | 1919/4533 [5:12:46<8:06:58, 11.18s/it, gpt_loss=0.42, loss_mean=0.35][A
+[LID Router Debug] Step: 1920
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [0, 5, 2, 1, 1, 5, 0, 3, 4, 3, 6, 5, 3, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6}
+2026-01-26 19:00:50.860 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  42%|████▏     | 1919/4533 [5:12:55<8:06:58, 11.18s/it, gpt_loss=0.271, loss_mean=0.342][A
+Train step of epoch 0:  42%|████▏     | 1920/4533 [5:12:55<7:35:20, 10.46s/it, gpt_loss=0.271, loss_mean=0.342][A2026-01-26 19:00:59.493 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  42%|████▏     | 1920/4533 [5:13:06<7:35:20, 10.46s/it, gpt_loss=0.419, loss_mean=0.35] [A
+Train step of epoch 0:  42%|████▏     | 1921/4533 [5:13:06<7:47:21, 10.74s/it, gpt_loss=0.419, loss_mean=0.35][A2026-01-26 19:01:10.996 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  42%|████▏     | 1921/4533 [5:13:16<7:47:21, 10.74s/it, gpt_loss=0.294, loss_mean=0.344][A
+Train step of epoch 0:  42%|████▏     | 1922/4533 [5:13:16<7:33:23, 10.42s/it, gpt_loss=0.294, loss_mean=0.344][A2026-01-26 19:01:20.598 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  42%|████▏     | 1922/4533 [5:13:25<7:33:23, 10.42s/it, gpt_loss=0.379, loss_mean=0.348][A
+Train step of epoch 0:  42%|████▏     | 1923/4533 [5:13:25<7:13:19,  9.96s/it, gpt_loss=0.379, loss_mean=0.348][A2026-01-26 19:01:29.762 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  42%|████▏     | 1923/4533 [5:13:34<7:13:19,  9.96s/it, gpt_loss=0.277, loss_mean=0.341][A
+Train step of epoch 0:  42%|████▏     | 1924/4533 [5:13:34<7:00:13,  9.66s/it, gpt_loss=0.277, loss_mean=0.341][A2026-01-26 19:01:38.665 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  42%|████▏     | 1924/4533 [5:13:44<7:00:13,  9.66s/it, gpt_loss=0.265, loss_mean=0.333][A
+Train step of epoch 0:  42%|████▏     | 1925/4533 [5:13:44<6:58:33,  9.63s/it, gpt_loss=0.265, loss_mean=0.333][A2026-01-26 19:01:47.975 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  42%|████▏     | 1925/4533 [5:13:52<6:58:33,  9.63s/it, gpt_loss=0.301, loss_mean=0.33] [A
+Train step of epoch 0:  42%|████▏     | 1926/4533 [5:13:52<6:46:03,  9.35s/it, gpt_loss=0.301, loss_mean=0.33][A2026-01-26 19:01:56.899 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  42%|████▏     | 1926/4533 [5:14:04<6:46:03,  9.35s/it, gpt_loss=0.417, loss_mean=0.339][A
+Train step of epoch 0:  43%|████▎     | 1927/4533 [5:14:04<7:16:01, 10.04s/it, gpt_loss=0.417, loss_mean=0.339][A2026-01-26 19:02:08.497 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  43%|████▎     | 1927/4533 [5:14:16<7:16:01, 10.04s/it, gpt_loss=0.358, loss_mean=0.341][A
+Train step of epoch 0:  43%|████▎     | 1928/4533 [5:14:16<7:41:22, 10.63s/it, gpt_loss=0.358, loss_mean=0.341][A2026-01-26 19:02:20.583 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  43%|████▎     | 1928/4533 [5:14:25<7:41:22, 10.63s/it, gpt_loss=0.35, loss_mean=0.342] [A
+Train step of epoch 0:  43%|████▎     | 1929/4533 [5:14:25<7:24:25, 10.24s/it, gpt_loss=0.35, loss_mean=0.342][A
+[LID Router Debug] Step: 1930
+Batch Size: 14
+Audio Batch Size: 136
+LID Assignments: [2, 0, 9, 2, 1, 9, 9, 9, 4, 1, 0, 3, 1, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 9}
+2026-01-26 19:02:29.951 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  43%|████▎     | 1929/4533 [5:14:37<7:24:25, 10.24s/it, gpt_loss=0.407, loss_mean=0.348][A
+Train step of epoch 0:  43%|████▎     | 1930/4533 [5:14:37<7:46:44, 10.76s/it, gpt_loss=0.407, loss_mean=0.348][A2026-01-26 19:02:41.358 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  43%|████▎     | 1930/4533 [5:14:49<7:46:44, 10.76s/it, gpt_loss=0.42, loss_mean=0.355] [A
+Train step of epoch 0:  43%|████▎     | 1931/4533 [5:14:49<7:59:39, 11.06s/it, gpt_loss=0.42, loss_mean=0.355][A2026-01-26 19:02:53.588 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  43%|████▎     | 1931/4533 [5:14:58<7:59:39, 11.06s/it, gpt_loss=0.235, loss_mean=0.343][A
+Train step of epoch 0:  43%|████▎     | 1932/4533 [5:14:58<7:30:56, 10.40s/it, gpt_loss=0.235, loss_mean=0.343][A2026-01-26 19:03:02.164 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  43%|████▎     | 1932/4533 [5:15:06<7:30:56, 10.40s/it, gpt_loss=0.264, loss_mean=0.335][A
+Train step of epoch 0:  43%|████▎     | 1933/4533 [5:15:06<7:06:13,  9.84s/it, gpt_loss=0.264, loss_mean=0.335][A2026-01-26 19:03:11.060 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  43%|████▎     | 1933/4533 [5:15:16<7:06:13,  9.84s/it, gpt_loss=0.273, loss_mean=0.329][A
+Train step of epoch 0:  43%|████▎     | 1934/4533 [5:15:16<7:05:23,  9.82s/it, gpt_loss=0.273, loss_mean=0.329][A2026-01-26 19:03:20.752 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  43%|████▎     | 1934/4533 [5:15:25<7:05:23,  9.82s/it, gpt_loss=0.28, loss_mean=0.324] [A
+Train step of epoch 0:  43%|████▎     | 1935/4533 [5:15:25<6:52:35,  9.53s/it, gpt_loss=0.28, loss_mean=0.324][A2026-01-26 19:03:29.388 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  43%|████▎     | 1935/4533 [5:15:37<6:52:35,  9.53s/it, gpt_loss=0.423, loss_mean=0.334][A
+Train step of epoch 0:  43%|████▎     | 1936/4533 [5:15:37<7:19:20, 10.15s/it, gpt_loss=0.423, loss_mean=0.334][A2026-01-26 19:03:40.984 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  43%|████▎     | 1936/4533 [5:15:46<7:19:20, 10.15s/it, gpt_loss=0.297, loss_mean=0.33] [A
+Train step of epoch 0:  43%|████▎     | 1937/4533 [5:15:46<7:14:58, 10.05s/it, gpt_loss=0.297, loss_mean=0.33][A2026-01-26 19:03:50.979 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  43%|████▎     | 1937/4533 [5:15:58<7:14:58, 10.05s/it, gpt_loss=0.375, loss_mean=0.335][A
+Train step of epoch 0:  43%|████▎     | 1938/4533 [5:15:58<7:35:28, 10.53s/it, gpt_loss=0.375, loss_mean=0.335][A2026-01-26 19:04:02.656 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  43%|████▎     | 1938/4533 [5:16:10<7:35:28, 10.53s/it, gpt_loss=0.464, loss_mean=0.348][A
+Train step of epoch 0:  43%|████▎     | 1939/4533 [5:16:10<7:50:42, 10.89s/it, gpt_loss=0.464, loss_mean=0.348][A
+[LID Router Debug] Step: 1940
+Batch Size: 14
+Audio Batch Size: 133
+LID Assignments: [0, 9, 0, 1, 0, 4, 0, 3, 9, 6, 0, 1, 9, 0]
+Active Experts in Batch: {0, 1, 3, 4, 6, 9}
+2026-01-26 19:04:14.380 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  43%|████▎     | 1939/4533 [5:16:22<7:50:42, 10.89s/it, gpt_loss=0.388, loss_mean=0.352][A
+Train step of epoch 0:  43%|████▎     | 1940/4533 [5:16:22<8:04:01, 11.20s/it, gpt_loss=0.388, loss_mean=0.352][A2026-01-26 19:04:26.272 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  43%|████▎     | 1940/4533 [5:16:31<8:04:01, 11.20s/it, gpt_loss=0.292, loss_mean=0.346][A
+Train step of epoch 0:  43%|████▎     | 1941/4533 [5:16:31<7:38:32, 10.61s/it, gpt_loss=0.292, loss_mean=0.346][A2026-01-26 19:04:35.183 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  43%|████▎     | 1941/4533 [5:16:40<7:38:32, 10.61s/it, gpt_loss=0.333, loss_mean=0.345][A
+Train step of epoch 0:  43%|████▎     | 1942/4533 [5:16:40<7:20:43, 10.21s/it, gpt_loss=0.333, loss_mean=0.345][A2026-01-26 19:04:44.369 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  43%|████▎     | 1942/4533 [5:16:52<7:20:43, 10.21s/it, gpt_loss=0.342, loss_mean=0.344][A
+Train step of epoch 0:  43%|████▎     | 1943/4533 [5:16:52<7:38:46, 10.63s/it, gpt_loss=0.342, loss_mean=0.344][A2026-01-26 19:04:56.480 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  43%|████▎     | 1943/4533 [5:17:04<7:38:46, 10.63s/it, gpt_loss=0.405, loss_mean=0.35] [A
+Train step of epoch 0:  43%|████▎     | 1944/4533 [5:17:04<7:56:00, 11.03s/it, gpt_loss=0.405, loss_mean=0.35][A2026-01-26 19:05:08.474 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  43%|████▎     | 1944/4533 [5:17:16<7:56:00, 11.03s/it, gpt_loss=0.367, loss_mean=0.352][A
+Train step of epoch 0:  43%|████▎     | 1945/4533 [5:17:16<8:08:08, 11.32s/it, gpt_loss=0.367, loss_mean=0.352][A2026-01-26 19:05:19.984 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  43%|████▎     | 1945/4533 [5:17:27<8:08:08, 11.32s/it, gpt_loss=0.381, loss_mean=0.355][A
+Train step of epoch 0:  43%|████▎     | 1946/4533 [5:17:27<8:08:51, 11.34s/it, gpt_loss=0.381, loss_mean=0.355][A2026-01-26 19:05:31.663 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  43%|████▎     | 1946/4533 [5:17:39<8:08:51, 11.34s/it, gpt_loss=0.346, loss_mean=0.354][A
+Train step of epoch 0:  43%|████▎     | 1947/4533 [5:17:39<8:11:27, 11.40s/it, gpt_loss=0.346, loss_mean=0.354][A2026-01-26 19:05:43.378 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  43%|████▎     | 1947/4533 [5:17:48<8:11:27, 11.40s/it, gpt_loss=0.339, loss_mean=0.353][A
+Train step of epoch 0:  43%|████▎     | 1948/4533 [5:17:48<7:45:59, 10.82s/it, gpt_loss=0.339, loss_mean=0.353][A2026-01-26 19:05:52.858 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  43%|████▎     | 1948/4533 [5:17:58<7:45:59, 10.82s/it, gpt_loss=0.342, loss_mean=0.351][A
+Train step of epoch 0:  43%|████▎     | 1949/4533 [5:17:58<7:34:26, 10.55s/it, gpt_loss=0.342, loss_mean=0.351][A
+[LID Router Debug] Step: 1950
+Batch Size: 14
+Audio Batch Size: 167
+LID Assignments: [1, 5, 0, 4, 3, 4, 3, 1, 5, 9, 1, 1, 3, 0]
+Active Experts in Batch: {0, 1, 3, 4, 5, 9}
+2026-01-26 19:06:02.757 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  43%|████▎     | 1949/4533 [5:18:10<7:34:26, 10.55s/it, gpt_loss=0.39, loss_mean=0.355] [A
+Train step of epoch 0:  43%|████▎     | 1950/4533 [5:18:10<7:50:05, 10.92s/it, gpt_loss=0.39, loss_mean=0.355][A2026-01-26 19:06:14.477 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  43%|████▎     | 1950/4533 [5:18:19<7:50:05, 10.92s/it, gpt_loss=0.254, loss_mean=0.345][A
+Train step of epoch 0:  43%|████▎     | 1951/4533 [5:18:19<7:26:45, 10.38s/it, gpt_loss=0.254, loss_mean=0.345][A2026-01-26 19:06:23.665 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  43%|████▎     | 1951/4533 [5:18:29<7:26:45, 10.38s/it, gpt_loss=0.294, loss_mean=0.34] [A
+Train step of epoch 0:  43%|████▎     | 1952/4533 [5:18:29<7:16:51, 10.16s/it, gpt_loss=0.294, loss_mean=0.34][A2026-01-26 19:06:33.173 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  43%|████▎     | 1952/4533 [5:18:37<7:16:51, 10.16s/it, gpt_loss=0.361, loss_mean=0.342][A
+Train step of epoch 0:  43%|████▎     | 1953/4533 [5:18:37<6:58:26,  9.73s/it, gpt_loss=0.361, loss_mean=0.342][A2026-01-26 19:06:41.895 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  43%|████▎     | 1953/4533 [5:18:49<6:58:26,  9.73s/it, gpt_loss=0.372, loss_mean=0.345][A
+Train step of epoch 0:  43%|████▎     | 1954/4533 [5:18:49<7:21:56, 10.28s/it, gpt_loss=0.372, loss_mean=0.345][A2026-01-26 19:06:53.596 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  43%|████▎     | 1954/4533 [5:18:59<7:21:56, 10.28s/it, gpt_loss=0.385, loss_mean=0.349][A
+Train step of epoch 0:  43%|████▎     | 1955/4533 [5:18:59<7:14:40, 10.12s/it, gpt_loss=0.385, loss_mean=0.349][A2026-01-26 19:07:03.158 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  43%|████▎     | 1955/4533 [5:19:10<7:14:40, 10.12s/it, gpt_loss=0.379, loss_mean=0.352][A
+Train step of epoch 0:  43%|████▎     | 1956/4533 [5:19:10<7:32:12, 10.53s/it, gpt_loss=0.379, loss_mean=0.352][A2026-01-26 19:07:14.582 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  43%|████▎     | 1956/4533 [5:19:20<7:32:12, 10.53s/it, gpt_loss=0.299, loss_mean=0.347][A
+Train step of epoch 0:  43%|████▎     | 1957/4533 [5:19:20<7:20:23, 10.26s/it, gpt_loss=0.299, loss_mean=0.347][A2026-01-26 19:07:24.188 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  43%|████▎     | 1957/4533 [5:19:31<7:20:23, 10.26s/it, gpt_loss=0.378, loss_mean=0.35] [A
+Train step of epoch 0:  43%|████▎     | 1958/4533 [5:19:31<7:37:27, 10.66s/it, gpt_loss=0.378, loss_mean=0.35][A2026-01-26 19:07:35.664 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  43%|████▎     | 1958/4533 [5:19:40<7:37:27, 10.66s/it, gpt_loss=0.33, loss_mean=0.348][A
+Train step of epoch 0:  43%|████▎     | 1959/4533 [5:19:40<7:12:42, 10.09s/it, gpt_loss=0.33, loss_mean=0.348][A
+[LID Router Debug] Step: 1960
+Batch Size: 14
+Audio Batch Size: 164
+LID Assignments: [9, 3, 4, 6, 0, 3, 2, 3, 3, 4, 2, 1, 2, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-26 19:07:44.675 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  43%|████▎     | 1959/4533 [5:19:52<7:12:42, 10.09s/it, gpt_loss=0.39, loss_mean=0.352][A
+Train step of epoch 0:  43%|████▎     | 1960/4533 [5:19:52<7:30:15, 10.50s/it, gpt_loss=0.39, loss_mean=0.352][A2026-01-26 19:07:56.170 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  43%|████▎     | 1960/4533 [5:20:00<7:30:15, 10.50s/it, gpt_loss=0.306, loss_mean=0.347][A
+Train step of epoch 0:  43%|████▎     | 1961/4533 [5:20:00<7:07:35,  9.98s/it, gpt_loss=0.306, loss_mean=0.347][A2026-01-26 19:08:04.978 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  43%|████▎     | 1961/4533 [5:20:09<7:07:35,  9.98s/it, gpt_loss=0.279, loss_mean=0.341][A
+Train step of epoch 0:  43%|████▎     | 1962/4533 [5:20:09<6:52:17,  9.62s/it, gpt_loss=0.279, loss_mean=0.341][A2026-01-26 19:08:13.388 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  43%|████▎     | 1962/4533 [5:20:18<6:52:17,  9.62s/it, gpt_loss=0.284, loss_mean=0.335][A
+Train step of epoch 0:  43%|████▎     | 1963/4533 [5:20:18<6:39:02,  9.32s/it, gpt_loss=0.284, loss_mean=0.335][A2026-01-26 19:08:22.162 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  43%|████▎     | 1963/4533 [5:20:29<6:39:02,  9.32s/it, gpt_loss=0.427, loss_mean=0.344][A
+Train step of epoch 0:  43%|████▎     | 1964/4533 [5:20:29<7:08:06, 10.00s/it, gpt_loss=0.427, loss_mean=0.344][A2026-01-26 19:08:33.788 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  43%|████▎     | 1964/4533 [5:20:39<7:08:06, 10.00s/it, gpt_loss=0.395, loss_mean=0.349][A
+Train step of epoch 0:  43%|████▎     | 1965/4533 [5:20:39<7:02:30,  9.87s/it, gpt_loss=0.395, loss_mean=0.349][A2026-01-26 19:08:43.486 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  43%|████▎     | 1965/4533 [5:20:51<7:02:30,  9.87s/it, gpt_loss=0.363, loss_mean=0.351][A
+Train step of epoch 0:  43%|████▎     | 1966/4533 [5:20:51<7:29:24, 10.50s/it, gpt_loss=0.363, loss_mean=0.351][A2026-01-26 19:08:55.457 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  43%|████▎     | 1966/4533 [5:21:03<7:29:24, 10.50s/it, gpt_loss=0.43, loss_mean=0.359] [A
+Train step of epoch 0:  43%|████▎     | 1967/4533 [5:21:03<7:43:45, 10.84s/it, gpt_loss=0.43, loss_mean=0.359][A2026-01-26 19:09:07.160 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  43%|████▎     | 1967/4533 [5:21:11<7:43:45, 10.84s/it, gpt_loss=0.272, loss_mean=0.35][A
+Train step of epoch 0:  43%|████▎     | 1968/4533 [5:21:11<7:17:08, 10.23s/it, gpt_loss=0.272, loss_mean=0.35][A2026-01-26 19:09:15.598 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  43%|████▎     | 1968/4533 [5:21:23<7:17:08, 10.23s/it, gpt_loss=0.377, loss_mean=0.353][A
+Train step of epoch 0:  43%|████▎     | 1969/4533 [5:21:23<7:37:03, 10.70s/it, gpt_loss=0.377, loss_mean=0.353][A
+[LID Router Debug] Step: 1970
+Batch Size: 14
+Audio Batch Size: 106
+LID Assignments: [9, 5, 1, 4, 2, 0, 4, 4, 1, 4, 5, 2, 4, 1]
+Active Experts in Batch: {0, 1, 2, 4, 5, 9}
+2026-01-26 19:09:27.758 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  43%|████▎     | 1969/4533 [5:21:35<7:37:03, 10.70s/it, gpt_loss=0.367, loss_mean=0.354][A
+Train step of epoch 0:  43%|████▎     | 1970/4533 [5:21:35<7:55:04, 11.12s/it, gpt_loss=0.367, loss_mean=0.354][A2026-01-26 19:09:39.471 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  43%|████▎     | 1970/4533 [5:21:47<7:55:04, 11.12s/it, gpt_loss=0.385, loss_mean=0.357][A
+Train step of epoch 0:  43%|████▎     | 1971/4533 [5:21:47<8:00:41, 11.26s/it, gpt_loss=0.385, loss_mean=0.357][A2026-01-26 19:09:51.377 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  43%|████▎     | 1971/4533 [5:21:56<8:00:41, 11.26s/it, gpt_loss=0.334, loss_mean=0.355][A
+Train step of epoch 0:  44%|████▎     | 1972/4533 [5:21:56<7:30:49, 10.56s/it, gpt_loss=0.334, loss_mean=0.355][A2026-01-26 19:10:00.375 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  44%|████▎     | 1972/4533 [5:22:05<7:30:49, 10.56s/it, gpt_loss=0.272, loss_mean=0.347][A
+Train step of epoch 0:  44%|████▎     | 1973/4533 [5:22:05<7:08:12, 10.04s/it, gpt_loss=0.272, loss_mean=0.347][A2026-01-26 19:10:09.157 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  44%|████▎     | 1973/4533 [5:22:14<7:08:12, 10.04s/it, gpt_loss=0.265, loss_mean=0.338][A
+Train step of epoch 0:  44%|████▎     | 1974/4533 [5:22:14<6:55:12,  9.74s/it, gpt_loss=0.265, loss_mean=0.338][A2026-01-26 19:10:17.875 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  44%|████▎     | 1974/4533 [5:22:23<6:55:12,  9.74s/it, gpt_loss=0.321, loss_mean=0.337][A
+Train step of epoch 0:  44%|████▎     | 1975/4533 [5:22:23<6:49:40,  9.61s/it, gpt_loss=0.321, loss_mean=0.337][A2026-01-26 19:10:27.387 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  44%|████▎     | 1975/4533 [5:22:33<6:49:40,  9.61s/it, gpt_loss=0.406, loss_mean=0.344][A
+Train step of epoch 0:  44%|████▎     | 1976/4533 [5:22:33<6:50:51,  9.64s/it, gpt_loss=0.406, loss_mean=0.344][A2026-01-26 19:10:36.992 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  44%|████▎     | 1976/4533 [5:22:42<6:50:51,  9.64s/it, gpt_loss=0.383, loss_mean=0.348][A
+Train step of epoch 0:  44%|████▎     | 1977/4533 [5:22:42<6:51:17,  9.65s/it, gpt_loss=0.383, loss_mean=0.348][A2026-01-26 19:10:46.699 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  44%|████▎     | 1977/4533 [5:22:51<6:51:17,  9.65s/it, gpt_loss=0.252, loss_mean=0.338][A
+Train step of epoch 0:  44%|████▎     | 1978/4533 [5:22:51<6:37:37,  9.34s/it, gpt_loss=0.252, loss_mean=0.338][A2026-01-26 19:10:55.555 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  44%|████▎     | 1978/4533 [5:23:00<6:37:37,  9.34s/it, gpt_loss=0.311, loss_mean=0.335][A
+Train step of epoch 0:  44%|████▎     | 1979/4533 [5:23:00<6:36:21,  9.31s/it, gpt_loss=0.311, loss_mean=0.335][A
+[LID Router Debug] Step: 1980
+Batch Size: 14
+Audio Batch Size: 150
+LID Assignments: [9, 5, 9, 1, 0, 3, 2, 9, 6, 2, 0, 0, 1, 3]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-26 19:11:04.767 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  44%|████▎     | 1979/4533 [5:23:10<6:36:21,  9.31s/it, gpt_loss=0.355, loss_mean=0.337][A
+Train step of epoch 0:  44%|████▎     | 1980/4533 [5:23:10<6:40:19,  9.41s/it, gpt_loss=0.355, loss_mean=0.337][A2026-01-26 19:11:14.256 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  44%|████▎     | 1980/4533 [5:23:22<6:40:19,  9.41s/it, gpt_loss=0.466, loss_mean=0.35] [A
+Train step of epoch 0:  44%|████▎     | 1981/4533 [5:23:22<7:10:30, 10.12s/it, gpt_loss=0.466, loss_mean=0.35][A2026-01-26 19:11:25.980 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  44%|████▎     | 1981/4533 [5:23:33<7:10:30, 10.12s/it, gpt_loss=0.342, loss_mean=0.349][A
+Train step of epoch 0:  44%|████▎     | 1982/4533 [5:23:33<7:30:52, 10.60s/it, gpt_loss=0.342, loss_mean=0.349][A2026-01-26 19:11:37.874 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  44%|████▎     | 1982/4533 [5:23:42<7:30:52, 10.60s/it, gpt_loss=0.269, loss_mean=0.341][A
+Train step of epoch 0:  44%|████▎     | 1983/4533 [5:23:42<7:09:03, 10.10s/it, gpt_loss=0.269, loss_mean=0.341][A2026-01-26 19:11:46.882 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  44%|████▎     | 1983/4533 [5:23:52<7:09:03, 10.10s/it, gpt_loss=0.248, loss_mean=0.332][A
+Train step of epoch 0:  44%|████▍     | 1984/4533 [5:23:52<7:05:51, 10.02s/it, gpt_loss=0.248, loss_mean=0.332][A2026-01-26 19:11:56.688 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  44%|████▍     | 1984/4533 [5:24:04<7:05:51, 10.02s/it, gpt_loss=0.453, loss_mean=0.344][A
+Train step of epoch 0:  44%|████▍     | 1985/4533 [5:24:04<7:28:06, 10.55s/it, gpt_loss=0.453, loss_mean=0.344][A2026-01-26 19:12:08.464 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  44%|████▍     | 1985/4533 [5:24:13<7:28:06, 10.55s/it, gpt_loss=0.319, loss_mean=0.342][A
+Train step of epoch 0:  44%|████▍     | 1986/4533 [5:24:13<7:08:39, 10.10s/it, gpt_loss=0.319, loss_mean=0.342][A2026-01-26 19:12:17.477 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  44%|████▍     | 1986/4533 [5:24:22<7:08:39, 10.10s/it, gpt_loss=0.362, loss_mean=0.344][A
+Train step of epoch 0:  44%|████▍     | 1987/4533 [5:24:22<7:01:03,  9.92s/it, gpt_loss=0.362, loss_mean=0.344][A2026-01-26 19:12:26.996 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  44%|████▍     | 1987/4533 [5:24:32<7:01:03,  9.92s/it, gpt_loss=0.322, loss_mean=0.341][A
+Train step of epoch 0:  44%|████▍     | 1988/4533 [5:24:32<6:56:54,  9.83s/it, gpt_loss=0.322, loss_mean=0.341][A2026-01-26 19:12:36.601 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  44%|████▍     | 1988/4533 [5:24:41<6:56:54,  9.83s/it, gpt_loss=0.34, loss_mean=0.341] [A
+Train step of epoch 0:  44%|████▍     | 1989/4533 [5:24:41<6:46:53,  9.60s/it, gpt_loss=0.34, loss_mean=0.341][A
+[LID Router Debug] Step: 1990
+Batch Size: 14
+Audio Batch Size: 199
+LID Assignments: [9, 0, 4, 6, 3, 9, 1, 3, 3, 0, 5, 5, 5, 3]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6, 9}
+2026-01-26 19:12:45.770 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  44%|████▍     | 1989/4533 [5:24:51<6:46:53,  9.60s/it, gpt_loss=0.267, loss_mean=0.334][A
+Train step of epoch 0:  44%|████▍     | 1990/4533 [5:24:51<6:49:27,  9.66s/it, gpt_loss=0.267, loss_mean=0.334][A2026-01-26 19:12:55.486 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  44%|████▍     | 1990/4533 [5:25:01<6:49:27,  9.66s/it, gpt_loss=0.403, loss_mean=0.341][A
+Train step of epoch 0:  44%|████▍     | 1991/4533 [5:25:01<6:50:11,  9.68s/it, gpt_loss=0.403, loss_mean=0.341][A2026-01-26 19:13:05.256 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  44%|████▍     | 1991/4533 [5:25:10<6:50:11,  9.68s/it, gpt_loss=0.288, loss_mean=0.335][A
+Train step of epoch 0:  44%|████▍     | 1992/4533 [5:25:10<6:41:04,  9.47s/it, gpt_loss=0.288, loss_mean=0.335][A2026-01-26 19:13:14.173 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  44%|████▍     | 1992/4533 [5:25:19<6:41:04,  9.47s/it, gpt_loss=0.319, loss_mean=0.334][A
+Train step of epoch 0:  44%|████▍     | 1993/4533 [5:25:19<6:45:33,  9.58s/it, gpt_loss=0.319, loss_mean=0.334][A2026-01-26 19:13:24.078 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  44%|████▍     | 1993/4533 [5:25:31<6:45:33,  9.58s/it, gpt_loss=0.354, loss_mean=0.336][A
+Train step of epoch 0:  44%|████▍     | 1994/4533 [5:25:31<7:14:34, 10.27s/it, gpt_loss=0.354, loss_mean=0.336][A2026-01-26 19:13:35.896 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  44%|████▍     | 1994/4533 [5:25:43<7:14:34, 10.27s/it, gpt_loss=0.399, loss_mean=0.342][A
+Train step of epoch 0:  44%|████▍     | 1995/4533 [5:25:43<7:38:42, 10.84s/it, gpt_loss=0.399, loss_mean=0.342][A2026-01-26 19:13:48.167 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  44%|████▍     | 1995/4533 [5:25:52<7:38:42, 10.84s/it, gpt_loss=0.254, loss_mean=0.333][A
+Train step of epoch 0:  44%|████▍     | 1996/4533 [5:25:52<7:14:57, 10.29s/it, gpt_loss=0.254, loss_mean=0.333][A2026-01-26 19:13:57.098 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  44%|████▍     | 1996/4533 [5:26:01<7:14:57, 10.29s/it, gpt_loss=0.265, loss_mean=0.326][A
+Train step of epoch 0:  44%|████▍     | 1997/4533 [5:26:01<6:55:52,  9.84s/it, gpt_loss=0.265, loss_mean=0.326][A2026-01-26 19:14:05.882 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  44%|████▍     | 1997/4533 [5:26:10<6:55:52,  9.84s/it, gpt_loss=0.298, loss_mean=0.324][A
+Train step of epoch 0:  44%|████▍     | 1998/4533 [5:26:10<6:46:31,  9.62s/it, gpt_loss=0.298, loss_mean=0.324][A2026-01-26 19:14:15.057 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  44%|████▍     | 1998/4533 [5:26:22<6:46:31,  9.62s/it, gpt_loss=0.42, loss_mean=0.333] [A
+Train step of epoch 0:  44%|████▍     | 1999/4533 [5:26:22<7:14:54, 10.30s/it, gpt_loss=0.42, loss_mean=0.333][A
+[LID Router Debug] Step: 2000
+Batch Size: 14
+Audio Batch Size: 120
+LID Assignments: [4, 5, 2, 1, 0, 5, 2, 2, 5, 1, 1, 3, 5, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5}
+2026-01-26 19:14:26.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-26 19:14:35,225] [INFO] [logging.py:96:log_dist] [Rank 0] step=2000, skipped=0, lr=[1.9068849503794347e-05, 1.9068849503794347e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 19:14:35,226] [INFO] [timer.py:260:stop] epoch=0/micro_step=2000/global_step=2000, RunningAvgSamplesPerSec=5.737333162687562, CurrSamplesPerSec=6.179794344349911, MemAllocated=14.98GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  44%|████▍     | 1999/4533 [5:26:31<7:14:54, 10.30s/it, gpt_loss=0.296, loss_mean=0.33][A[2026-01-26 19:14:35,228] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step2000 is about to be saved!
+[2026-01-26 19:14:36,855] [INFO] [logging.py:96:log_dist] [Rank 0] Saving model checkpoint: /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step2000/mp_rank_00_model_states.pt
+[2026-01-26 19:14:36,855] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step2000/mp_rank_00_model_states.pt...
+[2026-01-26 19:14:43,217] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step2000/mp_rank_00_model_states.pt.
+[2026-01-26 19:14:43,223] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step2000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt...
+[2026-01-26 19:14:43,223] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step2000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt...
+[2026-01-26 19:14:43,223] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step2000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt...
+[2026-01-26 19:14:43,223] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step2000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt...
+[2026-01-26 19:14:43,951] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step2000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt.
+[2026-01-26 19:14:43,951] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step2000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
+[2026-01-26 19:14:43,953] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step2000 is ready now!
+[2026-01-26 19:14:44,016] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step2000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt.
+[2026-01-26 19:14:44,016] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step2000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
+[2026-01-26 19:14:44,016] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step2000 is ready now!
+[2026-01-26 19:14:44,045] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step2000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt.
+[2026-01-26 19:14:44,048] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step2000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt.
+[2026-01-26 19:14:44,048] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step2000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
+[2026-01-26 19:14:44,048] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step2000 is ready now!
+[2026-01-26 19:14:44,055] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step2000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
+[2026-01-26 19:14:44,055] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step2000 is ready now!
+
+Train step of epoch 0:  44%|████▍     | 2000/4533 [5:26:40<8:51:08, 12.58s/it, gpt_loss=0.296, loss_mean=0.33][A2026-01-26 19:14:44.856 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  44%|████▍     | 2000/4533 [5:26:49<8:51:08, 12.58s/it, gpt_loss=0.314, loss_mean=0.328][A
+Train step of epoch 0:  44%|████▍     | 2001/4533 [5:26:49<8:06:28, 11.53s/it, gpt_loss=0.314, loss_mean=0.328][A2026-01-26 19:14:53.668 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  44%|████▍     | 2001/4533 [5:26:59<8:06:28, 11.53s/it, gpt_loss=0.335, loss_mean=0.329][A
+Train step of epoch 0:  44%|████▍     | 2002/4533 [5:26:59<7:39:53, 10.90s/it, gpt_loss=0.335, loss_mean=0.329][A2026-01-26 19:15:03.169 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  44%|████▍     | 2002/4533 [5:27:08<7:39:53, 10.90s/it, gpt_loss=0.362, loss_mean=0.332][A
+Train step of epoch 0:  44%|████▍     | 2003/4533 [5:27:08<7:23:32, 10.52s/it, gpt_loss=0.362, loss_mean=0.332][A2026-01-26 19:15:12.568 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  44%|████▍     | 2003/4533 [5:27:20<7:23:32, 10.52s/it, gpt_loss=0.305, loss_mean=0.329][A
+Train step of epoch 0:  44%|████▍     | 2004/4533 [5:27:20<7:41:32, 10.95s/it, gpt_loss=0.305, loss_mean=0.329][A2026-01-26 19:15:24.282 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  44%|████▍     | 2004/4533 [5:27:32<7:41:32, 10.95s/it, gpt_loss=0.375, loss_mean=0.334][A
+Train step of epoch 0:  44%|████▍     | 2005/4533 [5:27:32<7:46:30, 11.07s/it, gpt_loss=0.375, loss_mean=0.334][A2026-01-26 19:15:36.260 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  44%|████▍     | 2005/4533 [5:27:42<7:46:30, 11.07s/it, gpt_loss=0.349, loss_mean=0.335][A
+Train step of epoch 0:  44%|████▍     | 2006/4533 [5:27:42<7:33:52, 10.78s/it, gpt_loss=0.349, loss_mean=0.335][A2026-01-26 19:15:46.059 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  44%|████▍     | 2006/4533 [5:27:50<7:33:52, 10.78s/it, gpt_loss=0.344, loss_mean=0.336][A
+Train step of epoch 0:  44%|████▍     | 2007/4533 [5:27:50<7:04:29, 10.08s/it, gpt_loss=0.344, loss_mean=0.336][A2026-01-26 19:15:54.485 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  44%|████▍     | 2007/4533 [5:27:59<7:04:29, 10.08s/it, gpt_loss=0.323, loss_mean=0.335][A
+Train step of epoch 0:  44%|████▍     | 2008/4533 [5:27:59<6:44:51,  9.62s/it, gpt_loss=0.323, loss_mean=0.335][A2026-01-26 19:16:03.364 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  44%|████▍     | 2008/4533 [5:28:08<6:44:51,  9.62s/it, gpt_loss=0.329, loss_mean=0.334][A
+Train step of epoch 0:  44%|████▍     | 2009/4533 [5:28:08<6:37:12,  9.44s/it, gpt_loss=0.329, loss_mean=0.334][A
+[LID Router Debug] Step: 2010
+Batch Size: 14
+Audio Batch Size: 197
+LID Assignments: [2, 9, 3, 3, 3, 4, 6, 2, 3, 5, 3, 1, 0, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 19:16:12.304 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  44%|████▍     | 2009/4533 [5:28:17<6:37:12,  9.44s/it, gpt_loss=0.279, loss_mean=0.329][A
+Train step of epoch 0:  44%|████▍     | 2010/4533 [5:28:17<6:33:00,  9.35s/it, gpt_loss=0.279, loss_mean=0.329][A2026-01-26 19:16:21.494 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  44%|████▍     | 2010/4533 [5:28:26<6:33:00,  9.35s/it, gpt_loss=0.285, loss_mean=0.324][A
+Train step of epoch 0:  44%|████▍     | 2011/4533 [5:28:26<6:30:18,  9.29s/it, gpt_loss=0.285, loss_mean=0.324][A2026-01-26 19:16:30.470 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  44%|████▍     | 2011/4533 [5:28:35<6:30:18,  9.29s/it, gpt_loss=0.252, loss_mean=0.317][A
+Train step of epoch 0:  44%|████▍     | 2012/4533 [5:28:35<6:23:04,  9.12s/it, gpt_loss=0.252, loss_mean=0.317][A2026-01-26 19:16:39.077 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  44%|████▍     | 2012/4533 [5:28:44<6:23:04,  9.12s/it, gpt_loss=0.309, loss_mean=0.316][A
+Train step of epoch 0:  44%|████▍     | 2013/4533 [5:28:44<6:28:46,  9.26s/it, gpt_loss=0.309, loss_mean=0.316][A2026-01-26 19:16:48.969 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  44%|████▍     | 2013/4533 [5:28:53<6:28:46,  9.26s/it, gpt_loss=0.316, loss_mean=0.316][A
+Train step of epoch 0:  44%|████▍     | 2014/4533 [5:28:53<6:24:49,  9.17s/it, gpt_loss=0.316, loss_mean=0.316][A2026-01-26 19:16:57.506 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  44%|████▍     | 2014/4533 [5:29:02<6:24:49,  9.17s/it, gpt_loss=0.342, loss_mean=0.319][A
+Train step of epoch 0:  44%|████▍     | 2015/4533 [5:29:02<6:19:37,  9.05s/it, gpt_loss=0.342, loss_mean=0.319][A2026-01-26 19:17:06.696 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  44%|████▍     | 2015/4533 [5:29:14<6:19:37,  9.05s/it, gpt_loss=0.342, loss_mean=0.321][A
+Train step of epoch 0:  44%|████▍     | 2016/4533 [5:29:14<6:55:29,  9.90s/it, gpt_loss=0.342, loss_mean=0.321][A2026-01-26 19:17:18.462 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  44%|████▍     | 2016/4533 [5:29:23<6:55:29,  9.90s/it, gpt_loss=0.309, loss_mean=0.32] [A
+Train step of epoch 0:  44%|████▍     | 2017/4533 [5:29:23<6:44:48,  9.65s/it, gpt_loss=0.309, loss_mean=0.32][A2026-01-26 19:17:27.569 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  44%|████▍     | 2017/4533 [5:29:34<6:44:48,  9.65s/it, gpt_loss=0.447, loss_mean=0.333][A
+Train step of epoch 0:  45%|████▍     | 2018/4533 [5:29:34<7:08:05, 10.21s/it, gpt_loss=0.447, loss_mean=0.333][A2026-01-26 19:17:39.196 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  45%|████▍     | 2018/4533 [5:29:44<7:08:05, 10.21s/it, gpt_loss=0.299, loss_mean=0.329][A
+Train step of epoch 0:  45%|████▍     | 2019/4533 [5:29:44<6:53:16,  9.86s/it, gpt_loss=0.299, loss_mean=0.329][A
+[LID Router Debug] Step: 2020
+Batch Size: 14
+Audio Batch Size: 132
+LID Assignments: [4, 6, 4, 3, 6, 3, 2, 6, 5, 6, 5, 9, 5, 9]
+Active Experts in Batch: {2, 3, 4, 5, 6, 9}
+2026-01-26 19:17:48.184 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  45%|████▍     | 2019/4533 [5:29:53<6:53:16,  9.86s/it, gpt_loss=0.342, loss_mean=0.331][A
+Train step of epoch 0:  45%|████▍     | 2020/4533 [5:29:53<6:51:05,  9.82s/it, gpt_loss=0.342, loss_mean=0.331][A2026-01-26 19:17:57.485 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  45%|████▍     | 2020/4533 [5:30:02<6:51:05,  9.82s/it, gpt_loss=0.214, loss_mean=0.319][A
+Train step of epoch 0:  45%|████▍     | 2021/4533 [5:30:02<6:37:41,  9.50s/it, gpt_loss=0.214, loss_mean=0.319][A2026-01-26 19:18:06.555 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  45%|████▍     | 2021/4533 [5:30:11<6:37:41,  9.50s/it, gpt_loss=0.278, loss_mean=0.315][A
+Train step of epoch 0:  45%|████▍     | 2022/4533 [5:30:11<6:29:48,  9.31s/it, gpt_loss=0.278, loss_mean=0.315][A2026-01-26 19:18:15.284 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  45%|████▍     | 2022/4533 [5:30:20<6:29:48,  9.31s/it, gpt_loss=0.323, loss_mean=0.316][A
+Train step of epoch 0:  45%|████▍     | 2023/4533 [5:30:20<6:30:22,  9.33s/it, gpt_loss=0.323, loss_mean=0.316][A2026-01-26 19:18:24.687 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  45%|████▍     | 2023/4533 [5:30:32<6:30:22,  9.33s/it, gpt_loss=0.442, loss_mean=0.328][A
+Train step of epoch 0:  45%|████▍     | 2024/4533 [5:30:32<7:04:05, 10.14s/it, gpt_loss=0.442, loss_mean=0.328][A2026-01-26 19:18:36.867 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  45%|████▍     | 2024/4533 [5:30:41<7:04:05, 10.14s/it, gpt_loss=0.291, loss_mean=0.325][A
+Train step of epoch 0:  45%|████▍     | 2025/4533 [5:30:41<6:46:24,  9.72s/it, gpt_loss=0.291, loss_mean=0.325][A2026-01-26 19:18:45.571 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  45%|████▍     | 2025/4533 [5:30:51<6:46:24,  9.72s/it, gpt_loss=0.309, loss_mean=0.323][A
+Train step of epoch 0:  45%|████▍     | 2026/4533 [5:30:51<6:46:08,  9.72s/it, gpt_loss=0.309, loss_mean=0.323][A2026-01-26 19:18:55.454 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  45%|████▍     | 2026/4533 [5:31:00<6:46:08,  9.72s/it, gpt_loss=0.323, loss_mean=0.323][A
+Train step of epoch 0:  45%|████▍     | 2027/4533 [5:31:00<6:37:25,  9.52s/it, gpt_loss=0.323, loss_mean=0.323][A2026-01-26 19:19:04.456 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  45%|████▍     | 2027/4533 [5:31:12<6:37:25,  9.52s/it, gpt_loss=0.371, loss_mean=0.328][A
+Train step of epoch 0:  45%|████▍     | 2028/4533 [5:31:12<7:07:09, 10.23s/it, gpt_loss=0.371, loss_mean=0.328][A2026-01-26 19:19:16.055 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  45%|████▍     | 2028/4533 [5:31:23<7:07:09, 10.23s/it, gpt_loss=0.36, loss_mean=0.331] [A
+Train step of epoch 0:  45%|████▍     | 2029/4533 [5:31:23<7:26:10, 10.69s/it, gpt_loss=0.36, loss_mean=0.331][A
+[LID Router Debug] Step: 2030
+Batch Size: 14
+Audio Batch Size: 130
+LID Assignments: [0, 1, 9, 2, 9, 9, 0, 1, 3, 4, 0, 1, 0, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 9}
+2026-01-26 19:19:27.587 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  45%|████▍     | 2029/4533 [5:31:32<7:26:10, 10.69s/it, gpt_loss=0.28, loss_mean=0.326][A
+Train step of epoch 0:  45%|████▍     | 2030/4533 [5:31:32<6:56:27,  9.98s/it, gpt_loss=0.28, loss_mean=0.326][A2026-01-26 19:19:36.267 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  45%|████▍     | 2030/4533 [5:31:41<6:56:27,  9.98s/it, gpt_loss=0.369, loss_mean=0.33][A
+Train step of epoch 0:  45%|████▍     | 2031/4533 [5:31:41<6:43:01,  9.66s/it, gpt_loss=0.369, loss_mean=0.33][A2026-01-26 19:19:45.379 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  45%|████▍     | 2031/4533 [5:31:50<6:43:01,  9.66s/it, gpt_loss=0.319, loss_mean=0.329][A
+Train step of epoch 0:  45%|████▍     | 2032/4533 [5:31:50<6:43:00,  9.67s/it, gpt_loss=0.319, loss_mean=0.329][A2026-01-26 19:19:54.994 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  45%|████▍     | 2032/4533 [5:31:59<6:43:00,  9.67s/it, gpt_loss=0.291, loss_mean=0.325][A
+Train step of epoch 0:  45%|████▍     | 2033/4533 [5:31:59<6:31:45,  9.40s/it, gpt_loss=0.291, loss_mean=0.325][A2026-01-26 19:20:03.769 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  45%|████▍     | 2033/4533 [5:32:11<6:31:45,  9.40s/it, gpt_loss=0.371, loss_mean=0.33] [A
+Train step of epoch 0:  45%|████▍     | 2034/4533 [5:32:11<7:00:36, 10.10s/it, gpt_loss=0.371, loss_mean=0.33][A2026-01-26 19:20:15.578 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  45%|████▍     | 2034/4533 [5:32:20<7:00:36, 10.10s/it, gpt_loss=0.234, loss_mean=0.32][A
+Train step of epoch 0:  45%|████▍     | 2035/4533 [5:32:20<6:47:09,  9.78s/it, gpt_loss=0.234, loss_mean=0.32][A2026-01-26 19:20:24.470 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  45%|████▍     | 2035/4533 [5:32:29<6:47:09,  9.78s/it, gpt_loss=0.255, loss_mean=0.314][A
+Train step of epoch 0:  45%|████▍     | 2036/4533 [5:32:29<6:36:49,  9.54s/it, gpt_loss=0.255, loss_mean=0.314][A2026-01-26 19:20:33.363 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  45%|████▍     | 2036/4533 [5:32:37<6:36:49,  9.54s/it, gpt_loss=0.378, loss_mean=0.32] [A
+Train step of epoch 0:  45%|████▍     | 2037/4533 [5:32:37<6:24:42,  9.25s/it, gpt_loss=0.378, loss_mean=0.32][A2026-01-26 19:20:42.177 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  45%|████▍     | 2037/4533 [5:32:47<6:24:42,  9.25s/it, gpt_loss=0.28, loss_mean=0.316][A
+Train step of epoch 0:  45%|████▍     | 2038/4533 [5:32:47<6:25:38,  9.27s/it, gpt_loss=0.28, loss_mean=0.316][A2026-01-26 19:20:51.497 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  45%|████▍     | 2038/4533 [5:32:56<6:25:38,  9.27s/it, gpt_loss=0.31, loss_mean=0.315][A
+Train step of epoch 0:  45%|████▍     | 2039/4533 [5:32:56<6:23:35,  9.23s/it, gpt_loss=0.31, loss_mean=0.315][A
+[LID Router Debug] Step: 2040
+Batch Size: 14
+Audio Batch Size: 163
+LID Assignments: [3, 1, 1, 9, 1, 9, 0, 3, 0, 4, 9, 2, 0, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 9}
+2026-01-26 19:21:00.488 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  45%|████▍     | 2039/4533 [5:33:05<6:23:35,  9.23s/it, gpt_loss=0.24, loss_mean=0.308][A
+Train step of epoch 0:  45%|████▌     | 2040/4533 [5:33:05<6:20:53,  9.17s/it, gpt_loss=0.24, loss_mean=0.308][A2026-01-26 19:21:09.651 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  45%|████▌     | 2040/4533 [5:33:17<6:20:53,  9.17s/it, gpt_loss=0.409, loss_mean=0.318][A
+Train step of epoch 0:  45%|████▌     | 2041/4533 [5:33:17<6:57:32, 10.05s/it, gpt_loss=0.409, loss_mean=0.318][A2026-01-26 19:21:21.579 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  45%|████▌     | 2041/4533 [5:33:29<6:57:32, 10.05s/it, gpt_loss=0.407, loss_mean=0.327][A
+Train step of epoch 0:  45%|████▌     | 2042/4533 [5:33:29<7:18:34, 10.56s/it, gpt_loss=0.407, loss_mean=0.327][A2026-01-26 19:21:33.191 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  45%|████▌     | 2042/4533 [5:33:37<7:18:34, 10.56s/it, gpt_loss=0.336, loss_mean=0.328][A
+Train step of epoch 0:  45%|████▌     | 2043/4533 [5:33:37<6:54:40,  9.99s/it, gpt_loss=0.336, loss_mean=0.328][A2026-01-26 19:21:42.181 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  45%|████▌     | 2043/4533 [5:33:47<6:54:40,  9.99s/it, gpt_loss=0.266, loss_mean=0.322][A
+Train step of epoch 0:  45%|████▌     | 2044/4533 [5:33:47<6:43:40,  9.73s/it, gpt_loss=0.266, loss_mean=0.322][A2026-01-26 19:21:51.297 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  45%|████▌     | 2044/4533 [5:33:59<6:43:40,  9.73s/it, gpt_loss=0.415, loss_mean=0.331][A
+Train step of epoch 0:  45%|████▌     | 2045/4533 [5:33:59<7:12:00, 10.42s/it, gpt_loss=0.415, loss_mean=0.331][A2026-01-26 19:22:03.299 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  45%|████▌     | 2045/4533 [5:34:11<7:12:00, 10.42s/it, gpt_loss=0.382, loss_mean=0.336][A
+Train step of epoch 0:  45%|████▌     | 2046/4533 [5:34:11<7:31:44, 10.90s/it, gpt_loss=0.382, loss_mean=0.336][A2026-01-26 19:22:15.261 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  45%|████▌     | 2046/4533 [5:34:20<7:31:44, 10.90s/it, gpt_loss=0.2, loss_mean=0.322]  [A
+Train step of epoch 0:  45%|████▌     | 2047/4533 [5:34:20<7:07:47, 10.32s/it, gpt_loss=0.2, loss_mean=0.322][A2026-01-26 19:22:24.086 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  45%|████▌     | 2047/4533 [5:34:29<7:07:47, 10.32s/it, gpt_loss=0.333, loss_mean=0.323][A
+Train step of epoch 0:  45%|████▌     | 2048/4533 [5:34:29<6:58:47, 10.11s/it, gpt_loss=0.333, loss_mean=0.323][A2026-01-26 19:22:33.263 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  45%|████▌     | 2048/4533 [5:34:38<6:58:47, 10.11s/it, gpt_loss=0.271, loss_mean=0.318][A
+Train step of epoch 0:  45%|████▌     | 2049/4533 [5:34:38<6:40:32,  9.67s/it, gpt_loss=0.271, loss_mean=0.318][A
+[LID Router Debug] Step: 2050
+Batch Size: 14
+Audio Batch Size: 146
+LID Assignments: [4, 2, 4, 2, 1, 1, 4, 4, 2, 2, 5, 5, 2, 9]
+Active Experts in Batch: {1, 2, 4, 5, 9}
+2026-01-26 19:22:42.560 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  45%|████▌     | 2049/4533 [5:34:50<6:40:32,  9.67s/it, gpt_loss=0.376, loss_mean=0.324][A
+Train step of epoch 0:  45%|████▌     | 2050/4533 [5:34:50<7:10:16, 10.40s/it, gpt_loss=0.376, loss_mean=0.324][A2026-01-26 19:22:54.486 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  45%|████▌     | 2050/4533 [5:34:59<7:10:16, 10.40s/it, gpt_loss=0.229, loss_mean=0.315][A
+Train step of epoch 0:  45%|████▌     | 2051/4533 [5:34:59<6:48:26,  9.87s/it, gpt_loss=0.229, loss_mean=0.315][A2026-01-26 19:23:03.287 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  45%|████▌     | 2051/4533 [5:35:08<6:48:26,  9.87s/it, gpt_loss=0.359, loss_mean=0.319][A
+Train step of epoch 0:  45%|████▌     | 2052/4533 [5:35:08<6:39:18,  9.66s/it, gpt_loss=0.359, loss_mean=0.319][A2026-01-26 19:23:12.085 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  45%|████▌     | 2052/4533 [5:35:16<6:39:18,  9.66s/it, gpt_loss=0.224, loss_mean=0.309][A
+Train step of epoch 0:  45%|████▌     | 2053/4533 [5:35:16<6:25:58,  9.34s/it, gpt_loss=0.224, loss_mean=0.309][A2026-01-26 19:23:20.794 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  45%|████▌     | 2053/4533 [5:35:25<6:25:58,  9.34s/it, gpt_loss=0.343, loss_mean=0.313][A
+Train step of epoch 0:  45%|████▌     | 2054/4533 [5:35:25<6:17:05,  9.13s/it, gpt_loss=0.343, loss_mean=0.313][A2026-01-26 19:23:29.553 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  45%|████▌     | 2054/4533 [5:35:34<6:17:05,  9.13s/it, gpt_loss=0.311, loss_mean=0.313][A
+Train step of epoch 0:  45%|████▌     | 2055/4533 [5:35:34<6:11:37,  9.00s/it, gpt_loss=0.311, loss_mean=0.313][A2026-01-26 19:23:38.296 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  45%|████▌     | 2055/4533 [5:35:43<6:11:37,  9.00s/it, gpt_loss=0.305, loss_mean=0.312][A
+Train step of epoch 0:  45%|████▌     | 2056/4533 [5:35:43<6:12:30,  9.02s/it, gpt_loss=0.305, loss_mean=0.312][A2026-01-26 19:23:47.265 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  45%|████▌     | 2056/4533 [5:35:52<6:12:30,  9.02s/it, gpt_loss=0.211, loss_mean=0.302][A
+Train step of epoch 0:  45%|████▌     | 2057/4533 [5:35:52<6:12:54,  9.04s/it, gpt_loss=0.211, loss_mean=0.302][A2026-01-26 19:23:56.479 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  45%|████▌     | 2057/4533 [5:36:01<6:12:54,  9.04s/it, gpt_loss=0.291, loss_mean=0.301][A
+Train step of epoch 0:  45%|████▌     | 2058/4533 [5:36:01<6:13:36,  9.06s/it, gpt_loss=0.291, loss_mean=0.301][A2026-01-26 19:24:05.590 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  45%|████▌     | 2058/4533 [5:36:13<6:13:36,  9.06s/it, gpt_loss=0.372, loss_mean=0.308][A
+Train step of epoch 0:  45%|████▌     | 2059/4533 [5:36:13<6:47:30,  9.88s/it, gpt_loss=0.372, loss_mean=0.308][A
+[LID Router Debug] Step: 2060
+Batch Size: 14
+Audio Batch Size: 154
+LID Assignments: [4, 5, 2, 9, 5, 4, 9, 6, 6, 9, 0, 5, 2, 9]
+Active Experts in Batch: {0, 2, 4, 5, 6, 9}
+2026-01-26 19:24:16.954 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  45%|████▌     | 2059/4533 [5:36:24<6:47:30,  9.88s/it, gpt_loss=0.525, loss_mean=0.33] [A
+Train step of epoch 0:  45%|████▌     | 2060/4533 [5:36:24<7:09:34, 10.42s/it, gpt_loss=0.525, loss_mean=0.33][A2026-01-26 19:24:28.758 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  45%|████▌     | 2060/4533 [5:36:33<7:09:34, 10.42s/it, gpt_loss=0.375, loss_mean=0.334][A
+Train step of epoch 0:  45%|████▌     | 2061/4533 [5:36:33<6:47:07,  9.88s/it, gpt_loss=0.375, loss_mean=0.334][A2026-01-26 19:24:37.483 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  45%|████▌     | 2061/4533 [5:36:42<6:47:07,  9.88s/it, gpt_loss=0.332, loss_mean=0.334][A
+Train step of epoch 0:  45%|████▌     | 2062/4533 [5:36:42<6:34:29,  9.58s/it, gpt_loss=0.332, loss_mean=0.334][A2026-01-26 19:24:46.597 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  45%|████▌     | 2062/4533 [5:36:51<6:34:29,  9.58s/it, gpt_loss=0.268, loss_mean=0.327][A
+Train step of epoch 0:  46%|████▌     | 2063/4533 [5:36:51<6:27:35,  9.42s/it, gpt_loss=0.268, loss_mean=0.327][A2026-01-26 19:24:55.254 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  46%|████▌     | 2063/4533 [5:37:03<6:27:35,  9.42s/it, gpt_loss=0.375, loss_mean=0.332][A
+Train step of epoch 0:  46%|████▌     | 2064/4533 [5:37:03<6:55:16, 10.09s/it, gpt_loss=0.375, loss_mean=0.332][A2026-01-26 19:25:06.997 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  46%|████▌     | 2064/4533 [5:37:14<6:55:16, 10.09s/it, gpt_loss=0.393, loss_mean=0.338][A
+Train step of epoch 0:  46%|████▌     | 2065/4533 [5:37:14<7:12:04, 10.50s/it, gpt_loss=0.393, loss_mean=0.338][A2026-01-26 19:25:18.762 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  46%|████▌     | 2065/4533 [5:37:23<7:12:04, 10.50s/it, gpt_loss=0.31, loss_mean=0.335] [A
+Train step of epoch 0:  46%|████▌     | 2066/4533 [5:37:23<6:52:05, 10.02s/it, gpt_loss=0.31, loss_mean=0.335][A2026-01-26 19:25:27.687 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  46%|████▌     | 2066/4533 [5:37:32<6:52:05, 10.02s/it, gpt_loss=0.248, loss_mean=0.327][A
+Train step of epoch 0:  46%|████▌     | 2067/4533 [5:37:32<6:39:48,  9.73s/it, gpt_loss=0.248, loss_mean=0.327][A2026-01-26 19:25:36.456 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  46%|████▌     | 2067/4533 [5:37:41<6:39:48,  9.73s/it, gpt_loss=0.254, loss_mean=0.319][A
+Train step of epoch 0:  46%|████▌     | 2068/4533 [5:37:41<6:29:41,  9.49s/it, gpt_loss=0.254, loss_mean=0.319][A2026-01-26 19:25:45.294 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  46%|████▌     | 2068/4533 [5:37:50<6:29:41,  9.49s/it, gpt_loss=0.288, loss_mean=0.316][A
+Train step of epoch 0:  46%|████▌     | 2069/4533 [5:37:50<6:21:11,  9.28s/it, gpt_loss=0.288, loss_mean=0.316][A
+[LID Router Debug] Step: 2070
+Batch Size: 14
+Audio Batch Size: 147
+LID Assignments: [4, 1, 5, 2, 9, 2, 9, 1, 2, 0, 4, 3, 5, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 19:25:54.384 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  46%|████▌     | 2069/4533 [5:37:59<6:21:11,  9.28s/it, gpt_loss=0.31, loss_mean=0.316] [A
+Train step of epoch 0:  46%|████▌     | 2070/4533 [5:37:59<6:17:54,  9.21s/it, gpt_loss=0.31, loss_mean=0.316][A2026-01-26 19:26:03.287 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  46%|████▌     | 2070/4533 [5:38:08<6:17:54,  9.21s/it, gpt_loss=0.315, loss_mean=0.316][A
+Train step of epoch 0:  46%|████▌     | 2071/4533 [5:38:08<6:11:25,  9.05s/it, gpt_loss=0.315, loss_mean=0.316][A2026-01-26 19:26:11.860 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  46%|████▌     | 2071/4533 [5:38:16<6:11:25,  9.05s/it, gpt_loss=0.283, loss_mean=0.312][A
+Train step of epoch 0:  46%|████▌     | 2072/4533 [5:38:16<6:05:32,  8.91s/it, gpt_loss=0.283, loss_mean=0.312][A2026-01-26 19:26:20.572 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  46%|████▌     | 2072/4533 [5:38:26<6:05:32,  8.91s/it, gpt_loss=0.326, loss_mean=0.314][A
+Train step of epoch 0:  46%|████▌     | 2073/4533 [5:38:26<6:14:05,  9.12s/it, gpt_loss=0.326, loss_mean=0.314][A2026-01-26 19:26:30.275 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  46%|████▌     | 2073/4533 [5:38:37<6:14:05,  9.12s/it, gpt_loss=0.371, loss_mean=0.32] [A
+Train step of epoch 0:  46%|████▌     | 2074/4533 [5:38:37<6:45:52,  9.90s/it, gpt_loss=0.371, loss_mean=0.32][A2026-01-26 19:26:41.786 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  46%|████▌     | 2074/4533 [5:38:49<6:45:52,  9.90s/it, gpt_loss=0.413, loss_mean=0.329][A
+Train step of epoch 0:  46%|████▌     | 2075/4533 [5:38:49<7:08:18, 10.46s/it, gpt_loss=0.413, loss_mean=0.329][A2026-01-26 19:26:53.800 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  46%|████▌     | 2075/4533 [5:38:58<7:08:18, 10.46s/it, gpt_loss=0.342, loss_mean=0.33] [A
+Train step of epoch 0:  46%|████▌     | 2076/4533 [5:38:58<6:48:47,  9.98s/it, gpt_loss=0.342, loss_mean=0.33][A2026-01-26 19:27:02.667 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  46%|████▌     | 2076/4533 [5:39:10<6:48:47,  9.98s/it, gpt_loss=0.357, loss_mean=0.333][A
+Train step of epoch 0:  46%|████▌     | 2077/4533 [5:39:10<7:08:32, 10.47s/it, gpt_loss=0.357, loss_mean=0.333][A2026-01-26 19:27:13.984 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  46%|████▌     | 2077/4533 [5:39:19<7:08:32, 10.47s/it, gpt_loss=0.323, loss_mean=0.332][A
+Train step of epoch 0:  46%|████▌     | 2078/4533 [5:39:19<6:55:43, 10.16s/it, gpt_loss=0.323, loss_mean=0.332][A2026-01-26 19:27:23.859 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  46%|████▌     | 2078/4533 [5:39:32<6:55:43, 10.16s/it, gpt_loss=0.366, loss_mean=0.335][A
+Train step of epoch 0:  46%|████▌     | 2079/4533 [5:39:32<7:23:22, 10.84s/it, gpt_loss=0.366, loss_mean=0.335][A
+[LID Router Debug] Step: 2080
+Batch Size: 14
+Audio Batch Size: 145
+LID Assignments: [6, 3, 5, 2, 6, 4, 4, 6, 6, 6, 3, 9, 9, 5]
+Active Experts in Batch: {2, 3, 4, 5, 6, 9}
+2026-01-26 19:27:36.265 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  46%|████▌     | 2079/4533 [5:39:40<7:23:22, 10.84s/it, gpt_loss=0.282, loss_mean=0.33] [A
+Train step of epoch 0:  46%|████▌     | 2080/4533 [5:39:40<6:59:58, 10.27s/it, gpt_loss=0.282, loss_mean=0.33][A2026-01-26 19:27:45.161 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  46%|████▌     | 2080/4533 [5:39:52<6:59:58, 10.27s/it, gpt_loss=0.375, loss_mean=0.335][A
+Train step of epoch 0:  46%|████▌     | 2081/4533 [5:39:52<7:20:58, 10.79s/it, gpt_loss=0.375, loss_mean=0.335][A2026-01-26 19:27:56.993 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  46%|████▌     | 2081/4533 [5:40:04<7:20:58, 10.79s/it, gpt_loss=0.381, loss_mean=0.339][A
+Train step of epoch 0:  46%|████▌     | 2082/4533 [5:40:04<7:35:47, 11.16s/it, gpt_loss=0.381, loss_mean=0.339][A2026-01-26 19:28:08.971 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  46%|████▌     | 2082/4533 [5:40:14<7:35:47, 11.16s/it, gpt_loss=0.304, loss_mean=0.336][A
+Train step of epoch 0:  46%|████▌     | 2083/4533 [5:40:14<7:17:45, 10.72s/it, gpt_loss=0.304, loss_mean=0.336][A2026-01-26 19:28:18.491 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  46%|████▌     | 2083/4533 [5:40:24<7:17:45, 10.72s/it, gpt_loss=0.302, loss_mean=0.332][A
+Train step of epoch 0:  46%|████▌     | 2084/4533 [5:40:24<7:02:49, 10.36s/it, gpt_loss=0.302, loss_mean=0.332][A2026-01-26 19:28:28.458 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  46%|████▌     | 2084/4533 [5:40:33<7:02:49, 10.36s/it, gpt_loss=0.333, loss_mean=0.332][A
+Train step of epoch 0:  46%|████▌     | 2085/4533 [5:40:33<6:54:45, 10.17s/it, gpt_loss=0.333, loss_mean=0.332][A2026-01-26 19:28:38.086 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  46%|████▌     | 2085/4533 [5:40:43<6:54:45, 10.17s/it, gpt_loss=0.403, loss_mean=0.339][A
+Train step of epoch 0:  46%|████▌     | 2086/4533 [5:40:43<6:42:38,  9.87s/it, gpt_loss=0.403, loss_mean=0.339][A2026-01-26 19:28:47.264 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  46%|████▌     | 2086/4533 [5:40:51<6:42:38,  9.87s/it, gpt_loss=0.263, loss_mean=0.332][A
+Train step of epoch 0:  46%|████▌     | 2087/4533 [5:40:51<6:29:41,  9.56s/it, gpt_loss=0.263, loss_mean=0.332][A2026-01-26 19:28:55.986 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  46%|████▌     | 2087/4533 [5:41:00<6:29:41,  9.56s/it, gpt_loss=0.311, loss_mean=0.33] [A
+Train step of epoch 0:  46%|████▌     | 2088/4533 [5:41:00<6:19:37,  9.32s/it, gpt_loss=0.311, loss_mean=0.33][A2026-01-26 19:29:04.873 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  46%|████▌     | 2088/4533 [5:41:09<6:19:37,  9.32s/it, gpt_loss=0.284, loss_mean=0.325][A
+Train step of epoch 0:  46%|████▌     | 2089/4533 [5:41:09<6:16:51,  9.25s/it, gpt_loss=0.284, loss_mean=0.325][A
+[LID Router Debug] Step: 2090
+Batch Size: 14
+Audio Batch Size: 107
+LID Assignments: [2, 1, 1, 4, 5, 9, 4, 6, 5, 6, 9, 5, 0, 9]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-26 19:29:13.753 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  46%|████▌     | 2089/4533 [5:41:18<6:16:51,  9.25s/it, gpt_loss=0.315, loss_mean=0.324][A
+Train step of epoch 0:  46%|████▌     | 2090/4533 [5:41:18<6:12:31,  9.15s/it, gpt_loss=0.315, loss_mean=0.324][A2026-01-26 19:29:22.603 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  46%|████▌     | 2090/4533 [5:41:27<6:12:31,  9.15s/it, gpt_loss=0.22, loss_mean=0.314] [A
+Train step of epoch 0:  46%|████▌     | 2091/4533 [5:41:27<6:04:37,  8.96s/it, gpt_loss=0.22, loss_mean=0.314][A2026-01-26 19:29:31.380 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  46%|████▌     | 2091/4533 [5:41:36<6:04:37,  8.96s/it, gpt_loss=0.318, loss_mean=0.314][A
+Train step of epoch 0:  46%|████▌     | 2092/4533 [5:41:36<6:11:40,  9.14s/it, gpt_loss=0.318, loss_mean=0.314][A2026-01-26 19:29:40.787 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  46%|████▌     | 2092/4533 [5:41:45<6:11:40,  9.14s/it, gpt_loss=0.293, loss_mean=0.312][A
+Train step of epoch 0:  46%|████▌     | 2093/4533 [5:41:45<6:06:35,  9.01s/it, gpt_loss=0.293, loss_mean=0.312][A2026-01-26 19:29:49.591 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  46%|████▌     | 2093/4533 [5:41:54<6:06:35,  9.01s/it, gpt_loss=0.312, loss_mean=0.312][A
+Train step of epoch 0:  46%|████▌     | 2094/4533 [5:41:54<6:06:40,  9.02s/it, gpt_loss=0.312, loss_mean=0.312][A2026-01-26 19:29:58.685 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  46%|████▌     | 2094/4533 [5:42:03<6:06:40,  9.02s/it, gpt_loss=0.282, loss_mean=0.309][A
+Train step of epoch 0:  46%|████▌     | 2095/4533 [5:42:03<6:05:45,  9.00s/it, gpt_loss=0.282, loss_mean=0.309][A2026-01-26 19:30:07.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  46%|████▌     | 2095/4533 [5:42:15<6:05:45,  9.00s/it, gpt_loss=0.396, loss_mean=0.318][A
+Train step of epoch 0:  46%|████▌     | 2096/4533 [5:42:15<6:39:58,  9.85s/it, gpt_loss=0.396, loss_mean=0.318][A2026-01-26 19:30:19.494 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  46%|████▌     | 2096/4533 [5:42:27<6:39:58,  9.85s/it, gpt_loss=0.384, loss_mean=0.324][A
+Train step of epoch 0:  46%|████▋     | 2097/4533 [5:42:27<7:02:53, 10.42s/it, gpt_loss=0.384, loss_mean=0.324][A2026-01-26 19:30:31.266 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  46%|████▋     | 2097/4533 [5:42:39<7:02:53, 10.42s/it, gpt_loss=0.352, loss_mean=0.327][A
+Train step of epoch 0:  46%|████▋     | 2098/4533 [5:42:39<7:21:48, 10.89s/it, gpt_loss=0.352, loss_mean=0.327][A2026-01-26 19:30:43.160 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  46%|████▋     | 2098/4533 [5:42:48<7:21:48, 10.89s/it, gpt_loss=0.312, loss_mean=0.326][A
+Train step of epoch 0:  46%|████▋     | 2099/4533 [5:42:48<7:06:14, 10.51s/it, gpt_loss=0.312, loss_mean=0.326][A
+[LID Router Debug] Step: 2100
+Batch Size: 14
+Audio Batch Size: 173
+LID Assignments: [3, 0, 2, 5, 1, 9, 5, 0, 3, 9, 1, 5, 6, 3]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-26 19:30:52.795 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-26 19:31:03,841] [INFO] [logging.py:96:log_dist] [Rank 0] step=2100, skipped=0, lr=[1.8968060761047905e-05, 1.8968060761047905e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 19:31:03,842] [INFO] [timer.py:260:stop] epoch=0/micro_step=2100/global_step=2100, RunningAvgSamplesPerSec=5.736874611851822, CurrSamplesPerSec=4.767218436779709, MemAllocated=14.53GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  46%|████▋     | 2099/4533 [5:43:00<7:06:14, 10.51s/it, gpt_loss=0.439, loss_mean=0.337][A
+Train step of epoch 0:  46%|████▋     | 2100/4533 [5:43:00<7:21:26, 10.89s/it, gpt_loss=0.439, loss_mean=0.337][A2026-01-26 19:31:04.283 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  46%|████▋     | 2100/4533 [5:43:09<7:21:26, 10.89s/it, gpt_loss=0.373, loss_mean=0.341][A
+Train step of epoch 0:  46%|████▋     | 2101/4533 [5:43:09<6:54:51, 10.23s/it, gpt_loss=0.373, loss_mean=0.341][A2026-01-26 19:31:13.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  46%|████▋     | 2101/4533 [5:43:18<6:54:51, 10.23s/it, gpt_loss=0.267, loss_mean=0.333][A
+Train step of epoch 0:  46%|████▋     | 2102/4533 [5:43:18<6:47:46, 10.06s/it, gpt_loss=0.267, loss_mean=0.333][A2026-01-26 19:31:22.987 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  46%|████▋     | 2102/4533 [5:43:28<6:47:46, 10.06s/it, gpt_loss=0.28, loss_mean=0.328] [A
+Train step of epoch 0:  46%|████▋     | 2103/4533 [5:43:28<6:43:20,  9.96s/it, gpt_loss=0.28, loss_mean=0.328][A2026-01-26 19:31:32.759 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  46%|████▋     | 2103/4533 [5:43:38<6:43:20,  9.96s/it, gpt_loss=0.347, loss_mean=0.33][A
+Train step of epoch 0:  46%|████▋     | 2104/4533 [5:43:38<6:40:35,  9.90s/it, gpt_loss=0.347, loss_mean=0.33][A2026-01-26 19:31:42.385 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  46%|████▋     | 2104/4533 [5:43:46<6:40:35,  9.90s/it, gpt_loss=0.299, loss_mean=0.327][A
+Train step of epoch 0:  46%|████▋     | 2105/4533 [5:43:46<6:25:13,  9.52s/it, gpt_loss=0.299, loss_mean=0.327][A2026-01-26 19:31:50.878 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  46%|████▋     | 2105/4533 [5:43:56<6:25:13,  9.52s/it, gpt_loss=0.347, loss_mean=0.329][A
+Train step of epoch 0:  46%|████▋     | 2106/4533 [5:43:56<6:22:27,  9.45s/it, gpt_loss=0.347, loss_mean=0.329][A2026-01-26 19:31:59.996 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  46%|████▋     | 2106/4533 [5:44:05<6:22:27,  9.45s/it, gpt_loss=0.336, loss_mean=0.329][A
+Train step of epoch 0:  46%|████▋     | 2107/4533 [5:44:05<6:15:59,  9.30s/it, gpt_loss=0.336, loss_mean=0.329][A2026-01-26 19:32:09.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  46%|████▋     | 2107/4533 [5:44:14<6:15:59,  9.30s/it, gpt_loss=0.32, loss_mean=0.329] [A
+Train step of epoch 0:  47%|████▋     | 2108/4533 [5:44:14<6:10:33,  9.17s/it, gpt_loss=0.32, loss_mean=0.329][A2026-01-26 19:32:18.097 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  47%|████▋     | 2108/4533 [5:44:23<6:10:33,  9.17s/it, gpt_loss=0.353, loss_mean=0.331][A
+Train step of epoch 0:  47%|████▋     | 2109/4533 [5:44:23<6:17:00,  9.33s/it, gpt_loss=0.353, loss_mean=0.331][A
+[LID Router Debug] Step: 2110
+Batch Size: 14
+Audio Batch Size: 154
+LID Assignments: [2, 1, 0, 2, 9, 4, 4, 5, 1, 6, 0, 0, 4, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 19:32:27.964 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  47%|████▋     | 2109/4533 [5:44:35<6:17:00,  9.33s/it, gpt_loss=0.326, loss_mean=0.33] [A
+Train step of epoch 0:  47%|████▋     | 2110/4533 [5:44:35<6:48:29, 10.12s/it, gpt_loss=0.326, loss_mean=0.33][A2026-01-26 19:32:39.661 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  47%|████▋     | 2110/4533 [5:44:45<6:48:29, 10.12s/it, gpt_loss=0.306, loss_mean=0.328][A
+Train step of epoch 0:  47%|████▋     | 2111/4533 [5:44:45<6:41:19,  9.94s/it, gpt_loss=0.306, loss_mean=0.328][A2026-01-26 19:32:49.296 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  47%|████▋     | 2111/4533 [5:44:53<6:41:19,  9.94s/it, gpt_loss=0.325, loss_mean=0.328][A
+Train step of epoch 0:  47%|████▋     | 2112/4533 [5:44:53<6:26:40,  9.58s/it, gpt_loss=0.325, loss_mean=0.328][A2026-01-26 19:32:58.158 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  47%|████▋     | 2112/4533 [5:45:05<6:26:40,  9.58s/it, gpt_loss=0.384, loss_mean=0.333][A
+Train step of epoch 0:  47%|████▋     | 2113/4533 [5:45:05<6:53:30, 10.25s/it, gpt_loss=0.384, loss_mean=0.333][A2026-01-26 19:33:09.964 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  47%|████▋     | 2113/4533 [5:45:14<6:53:30, 10.25s/it, gpt_loss=0.298, loss_mean=0.33] [A
+Train step of epoch 0:  47%|████▋     | 2114/4533 [5:45:14<6:37:16,  9.85s/it, gpt_loss=0.298, loss_mean=0.33][A2026-01-26 19:33:18.560 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  47%|████▋     | 2114/4533 [5:45:26<6:37:16,  9.85s/it, gpt_loss=0.401, loss_mean=0.337][A
+Train step of epoch 0:  47%|████▋     | 2115/4533 [5:45:26<6:58:44, 10.39s/it, gpt_loss=0.401, loss_mean=0.337][A2026-01-26 19:33:30.470 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  47%|████▋     | 2115/4533 [5:45:35<6:58:44, 10.39s/it, gpt_loss=0.254, loss_mean=0.329][A
+Train step of epoch 0:  47%|████▋     | 2116/4533 [5:45:35<6:39:38,  9.92s/it, gpt_loss=0.254, loss_mean=0.329][A2026-01-26 19:33:39.291 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  47%|████▋     | 2116/4533 [5:45:44<6:39:38,  9.92s/it, gpt_loss=0.284, loss_mean=0.324][A
+Train step of epoch 0:  47%|████▋     | 2117/4533 [5:45:44<6:29:45,  9.68s/it, gpt_loss=0.284, loss_mean=0.324][A2026-01-26 19:33:48.275 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  47%|████▋     | 2117/4533 [5:45:53<6:29:45,  9.68s/it, gpt_loss=0.289, loss_mean=0.321][A
+Train step of epoch 0:  47%|████▋     | 2118/4533 [5:45:53<6:18:55,  9.41s/it, gpt_loss=0.289, loss_mean=0.321][A2026-01-26 19:33:57.255 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  47%|████▋     | 2118/4533 [5:46:02<6:18:55,  9.41s/it, gpt_loss=0.296, loss_mean=0.318][A
+Train step of epoch 0:  47%|████▋     | 2119/4533 [5:46:02<6:22:08,  9.50s/it, gpt_loss=0.296, loss_mean=0.318][A
+[LID Router Debug] Step: 2120
+Batch Size: 14
+Audio Batch Size: 119
+LID Assignments: [0, 2, 9, 5, 0, 1, 5, 0, 9, 6, 6, 1, 4, 0]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-26 19:34:06.959 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  47%|████▋     | 2119/4533 [5:46:11<6:22:08,  9.50s/it, gpt_loss=0.307, loss_mean=0.317][A
+Train step of epoch 0:  47%|████▋     | 2120/4533 [5:46:11<6:15:46,  9.34s/it, gpt_loss=0.307, loss_mean=0.317][A2026-01-26 19:34:15.866 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  47%|████▋     | 2120/4533 [5:46:20<6:15:46,  9.34s/it, gpt_loss=0.313, loss_mean=0.317][A
+Train step of epoch 0:  47%|████▋     | 2121/4533 [5:46:20<6:09:32,  9.19s/it, gpt_loss=0.313, loss_mean=0.317][A2026-01-26 19:34:24.673 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  47%|████▋     | 2121/4533 [5:46:29<6:09:32,  9.19s/it, gpt_loss=0.296, loss_mean=0.315][A
+Train step of epoch 0:  47%|████▋     | 2122/4533 [5:46:29<6:05:03,  9.08s/it, gpt_loss=0.296, loss_mean=0.315][A2026-01-26 19:34:33.392 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  47%|████▋     | 2122/4533 [5:46:38<6:05:03,  9.08s/it, gpt_loss=0.266, loss_mean=0.31] [A
+Train step of epoch 0:  47%|████▋     | 2123/4533 [5:46:38<6:00:37,  8.98s/it, gpt_loss=0.266, loss_mean=0.31][A2026-01-26 19:34:41.982 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  47%|████▋     | 2123/4533 [5:46:47<6:00:37,  8.98s/it, gpt_loss=0.222, loss_mean=0.301][A
+Train step of epoch 0:  47%|████▋     | 2124/4533 [5:46:47<6:03:33,  9.05s/it, gpt_loss=0.222, loss_mean=0.301][A2026-01-26 19:34:51.270 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  47%|████▋     | 2124/4533 [5:46:55<6:03:33,  9.05s/it, gpt_loss=0.289, loss_mean=0.3]  [A
+Train step of epoch 0:  47%|████▋     | 2125/4533 [5:46:55<5:57:24,  8.91s/it, gpt_loss=0.289, loss_mean=0.3][A2026-01-26 19:34:59.992 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  47%|████▋     | 2125/4533 [5:47:04<5:57:24,  8.91s/it, gpt_loss=0.206, loss_mean=0.29][A
+Train step of epoch 0:  47%|████▋     | 2126/4533 [5:47:04<5:55:41,  8.87s/it, gpt_loss=0.206, loss_mean=0.29][A2026-01-26 19:35:08.794 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  47%|████▋     | 2126/4533 [5:47:16<5:55:41,  8.87s/it, gpt_loss=0.36, loss_mean=0.297][A
+Train step of epoch 0:  47%|████▋     | 2127/4533 [5:47:16<6:31:37,  9.77s/it, gpt_loss=0.36, loss_mean=0.297][A2026-01-26 19:35:20.576 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  47%|████▋     | 2127/4533 [5:47:28<6:31:37,  9.77s/it, gpt_loss=0.364, loss_mean=0.304][A
+Train step of epoch 0:  47%|████▋     | 2128/4533 [5:47:28<6:54:18, 10.34s/it, gpt_loss=0.364, loss_mean=0.304][A2026-01-26 19:35:32.469 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  47%|████▋     | 2128/4533 [5:47:38<6:54:18, 10.34s/it, gpt_loss=0.331, loss_mean=0.307][A
+Train step of epoch 0:  47%|████▋     | 2129/4533 [5:47:38<6:48:47, 10.20s/it, gpt_loss=0.331, loss_mean=0.307][A
+[LID Router Debug] Step: 2130
+Batch Size: 14
+Audio Batch Size: 160
+LID Assignments: [2, 3, 3, 5, 5, 3, 3, 4, 0, 4, 2, 5, 9, 5]
+Active Experts in Batch: {0, 2, 3, 4, 5, 9}
+2026-01-26 19:35:41.987 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  47%|████▋     | 2129/4533 [5:47:46<6:48:47, 10.20s/it, gpt_loss=0.297, loss_mean=0.306][A
+Train step of epoch 0:  47%|████▋     | 2130/4533 [5:47:46<6:32:18,  9.80s/it, gpt_loss=0.297, loss_mean=0.306][A2026-01-26 19:35:51.164 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  47%|████▋     | 2130/4533 [5:47:58<6:32:18,  9.80s/it, gpt_loss=0.382, loss_mean=0.313][A
+Train step of epoch 0:  47%|████▋     | 2131/4533 [5:47:58<6:56:46, 10.41s/it, gpt_loss=0.382, loss_mean=0.313][A2026-01-26 19:36:02.479 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  47%|████▋     | 2131/4533 [5:48:08<6:56:46, 10.41s/it, gpt_loss=0.354, loss_mean=0.317][A
+Train step of epoch 0:  47%|████▋     | 2132/4533 [5:48:08<6:47:24, 10.18s/it, gpt_loss=0.354, loss_mean=0.317][A2026-01-26 19:36:12.472 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  47%|████▋     | 2132/4533 [5:48:18<6:47:24, 10.18s/it, gpt_loss=0.346, loss_mean=0.32] [A
+Train step of epoch 0:  47%|████▋     | 2133/4533 [5:48:18<6:40:46, 10.02s/it, gpt_loss=0.346, loss_mean=0.32][A2026-01-26 19:36:22.281 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  47%|████▋     | 2133/4533 [5:48:27<6:40:46, 10.02s/it, gpt_loss=0.299, loss_mean=0.318][A
+Train step of epoch 0:  47%|████▋     | 2134/4533 [5:48:27<6:37:43,  9.95s/it, gpt_loss=0.299, loss_mean=0.318][A2026-01-26 19:36:32.063 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  47%|████▋     | 2134/4533 [5:48:39<6:37:43,  9.95s/it, gpt_loss=0.354, loss_mean=0.322][A
+Train step of epoch 0:  47%|████▋     | 2135/4533 [5:48:39<7:01:02, 10.53s/it, gpt_loss=0.354, loss_mean=0.322][A2026-01-26 19:36:43.874 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  47%|████▋     | 2135/4533 [5:48:48<7:01:02, 10.53s/it, gpt_loss=0.243, loss_mean=0.314][A
+Train step of epoch 0:  47%|████▋     | 2136/4533 [5:48:48<6:44:14, 10.12s/it, gpt_loss=0.243, loss_mean=0.314][A2026-01-26 19:36:52.682 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  47%|████▋     | 2136/4533 [5:49:00<6:44:14, 10.12s/it, gpt_loss=0.397, loss_mean=0.322][A
+Train step of epoch 0:  47%|████▋     | 2137/4533 [5:49:00<7:05:13, 10.65s/it, gpt_loss=0.397, loss_mean=0.322][A2026-01-26 19:37:04.873 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  47%|████▋     | 2137/4533 [5:49:09<7:05:13, 10.65s/it, gpt_loss=0.263, loss_mean=0.316][A
+Train step of epoch 0:  47%|████▋     | 2138/4533 [5:49:09<6:46:16, 10.18s/it, gpt_loss=0.263, loss_mean=0.316][A2026-01-26 19:37:14.095 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  47%|████▋     | 2138/4533 [5:49:21<6:46:16, 10.18s/it, gpt_loss=0.421, loss_mean=0.327][A
+Train step of epoch 0:  47%|████▋     | 2139/4533 [5:49:21<7:05:06, 10.65s/it, gpt_loss=0.421, loss_mean=0.327][A
+[LID Router Debug] Step: 2140
+Batch Size: 14
+Audio Batch Size: 150
+LID Assignments: [3, 1, 3, 4, 4, 6, 2, 0, 9, 4, 2, 3, 5, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 19:37:25.775 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  47%|████▋     | 2139/4533 [5:49:30<7:05:06, 10.65s/it, gpt_loss=0.39, loss_mean=0.333] [A
+Train step of epoch 0:  47%|████▋     | 2140/4533 [5:49:30<6:45:58, 10.18s/it, gpt_loss=0.39, loss_mean=0.333][A2026-01-26 19:37:34.681 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  47%|████▋     | 2140/4533 [5:49:40<6:45:58, 10.18s/it, gpt_loss=0.337, loss_mean=0.334][A
+Train step of epoch 0:  47%|████▋     | 2141/4533 [5:49:40<6:36:27,  9.94s/it, gpt_loss=0.337, loss_mean=0.334][A2026-01-26 19:37:44.066 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  47%|████▋     | 2141/4533 [5:49:49<6:36:27,  9.94s/it, gpt_loss=0.324, loss_mean=0.333][A
+Train step of epoch 0:  47%|████▋     | 2142/4533 [5:49:49<6:31:06,  9.81s/it, gpt_loss=0.324, loss_mean=0.333][A2026-01-26 19:37:53.775 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  47%|████▋     | 2142/4533 [5:49:58<6:31:06,  9.81s/it, gpt_loss=0.27, loss_mean=0.326] [A
+Train step of epoch 0:  47%|████▋     | 2143/4533 [5:49:58<6:20:57,  9.56s/it, gpt_loss=0.27, loss_mean=0.326][A2026-01-26 19:38:02.597 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  47%|████▋     | 2143/4533 [5:50:07<6:20:57,  9.56s/it, gpt_loss=0.309, loss_mean=0.325][A
+Train step of epoch 0:  47%|████▋     | 2144/4533 [5:50:07<6:10:36,  9.31s/it, gpt_loss=0.309, loss_mean=0.325][A2026-01-26 19:38:11.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  47%|████▋     | 2144/4533 [5:50:17<6:10:36,  9.31s/it, gpt_loss=0.275, loss_mean=0.32] [A
+Train step of epoch 0:  47%|████▋     | 2145/4533 [5:50:17<6:18:03,  9.50s/it, gpt_loss=0.275, loss_mean=0.32][A2026-01-26 19:38:21.176 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  47%|████▋     | 2145/4533 [5:50:25<6:18:03,  9.50s/it, gpt_loss=0.242, loss_mean=0.312][A
+Train step of epoch 0:  47%|████▋     | 2146/4533 [5:50:25<6:06:32,  9.21s/it, gpt_loss=0.242, loss_mean=0.312][A2026-01-26 19:38:29.950 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  47%|████▋     | 2146/4533 [5:50:34<6:06:32,  9.21s/it, gpt_loss=0.285, loss_mean=0.309][A
+Train step of epoch 0:  47%|████▋     | 2147/4533 [5:50:34<6:05:30,  9.19s/it, gpt_loss=0.285, loss_mean=0.309][A2026-01-26 19:38:39.056 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  47%|████▋     | 2147/4533 [5:50:46<6:05:30,  9.19s/it, gpt_loss=0.355, loss_mean=0.314][A
+Train step of epoch 0:  47%|████▋     | 2148/4533 [5:50:46<6:38:20, 10.02s/it, gpt_loss=0.355, loss_mean=0.314][A2026-01-26 19:38:51.160 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  47%|████▋     | 2148/4533 [5:50:58<6:38:20, 10.02s/it, gpt_loss=0.353, loss_mean=0.318][A
+Train step of epoch 0:  47%|████▋     | 2149/4533 [5:50:58<6:55:57, 10.47s/it, gpt_loss=0.353, loss_mean=0.318][A
+[LID Router Debug] Step: 2150
+Batch Size: 14
+Audio Batch Size: 138
+LID Assignments: [4, 2, 1, 5, 6, 1, 3, 0, 0, 4, 9, 2, 5, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 19:39:02.581 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  47%|████▋     | 2149/4533 [5:51:07<6:55:57, 10.47s/it, gpt_loss=0.293, loss_mean=0.315][A
+Train step of epoch 0:  47%|████▋     | 2150/4533 [5:51:07<6:38:45, 10.04s/it, gpt_loss=0.293, loss_mean=0.315][A2026-01-26 19:39:11.662 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  47%|████▋     | 2150/4533 [5:51:16<6:38:45, 10.04s/it, gpt_loss=0.294, loss_mean=0.313][A
+Train step of epoch 0:  47%|████▋     | 2151/4533 [5:51:16<6:27:21,  9.76s/it, gpt_loss=0.294, loss_mean=0.313][A2026-01-26 19:39:20.581 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  47%|████▋     | 2151/4533 [5:51:25<6:27:21,  9.76s/it, gpt_loss=0.382, loss_mean=0.32] [A
+Train step of epoch 0:  47%|████▋     | 2152/4533 [5:51:25<6:16:04,  9.48s/it, gpt_loss=0.382, loss_mean=0.32][A2026-01-26 19:39:29.556 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  47%|████▋     | 2152/4533 [5:51:34<6:16:04,  9.48s/it, gpt_loss=0.297, loss_mean=0.318][A
+Train step of epoch 0:  47%|████▋     | 2153/4533 [5:51:34<6:09:08,  9.31s/it, gpt_loss=0.297, loss_mean=0.318][A2026-01-26 19:39:38.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  47%|████▋     | 2153/4533 [5:51:43<6:09:08,  9.31s/it, gpt_loss=0.231, loss_mean=0.309][A
+Train step of epoch 0:  48%|████▊     | 2154/4533 [5:51:43<6:03:37,  9.17s/it, gpt_loss=0.231, loss_mean=0.309][A2026-01-26 19:39:46.891 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  48%|████▊     | 2154/4533 [5:51:54<6:03:37,  9.17s/it, gpt_loss=0.305, loss_mean=0.309][A
+Train step of epoch 0:  48%|████▊     | 2155/4533 [5:51:54<6:29:20,  9.82s/it, gpt_loss=0.305, loss_mean=0.309][A2026-01-26 19:39:58.476 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  48%|████▊     | 2155/4533 [5:52:06<6:29:20,  9.82s/it, gpt_loss=0.433, loss_mean=0.321][A
+Train step of epoch 0:  48%|████▊     | 2156/4533 [5:52:06<6:53:10, 10.43s/it, gpt_loss=0.433, loss_mean=0.321][A2026-01-26 19:40:10.561 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  48%|████▊     | 2156/4533 [5:52:15<6:53:10, 10.43s/it, gpt_loss=0.231, loss_mean=0.312][A
+Train step of epoch 0:  48%|████▊     | 2157/4533 [5:52:15<6:36:47, 10.02s/it, gpt_loss=0.231, loss_mean=0.312][A2026-01-26 19:40:19.558 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  48%|████▊     | 2157/4533 [5:52:27<6:36:47, 10.02s/it, gpt_loss=0.384, loss_mean=0.319][A
+Train step of epoch 0:  48%|████▊     | 2158/4533 [5:52:27<7:00:16, 10.62s/it, gpt_loss=0.384, loss_mean=0.319][A2026-01-26 19:40:31.598 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  48%|████▊     | 2158/4533 [5:52:36<7:00:16, 10.62s/it, gpt_loss=0.304, loss_mean=0.318][A
+Train step of epoch 0:  48%|████▊     | 2159/4533 [5:52:36<6:43:34, 10.20s/it, gpt_loss=0.304, loss_mean=0.318][A
+[LID Router Debug] Step: 2160
+Batch Size: 14
+Audio Batch Size: 158
+LID Assignments: [5, 4, 3, 4, 1, 5, 1, 6, 2, 3, 3, 5, 9, 2]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-26 19:40:40.868 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  48%|████▊     | 2159/4533 [5:52:45<6:43:34, 10.20s/it, gpt_loss=0.248, loss_mean=0.311][A
+Train step of epoch 0:  48%|████▊     | 2160/4533 [5:52:45<6:26:32,  9.77s/it, gpt_loss=0.248, loss_mean=0.311][A2026-01-26 19:40:49.668 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  48%|████▊     | 2160/4533 [5:52:55<6:26:32,  9.77s/it, gpt_loss=0.347, loss_mean=0.314][A
+Train step of epoch 0:  48%|████▊     | 2161/4533 [5:52:55<6:26:56,  9.79s/it, gpt_loss=0.347, loss_mean=0.314][A2026-01-26 19:40:59.403 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  48%|████▊     | 2161/4533 [5:53:04<6:26:56,  9.79s/it, gpt_loss=0.298, loss_mean=0.313][A
+Train step of epoch 0:  48%|████▊     | 2162/4533 [5:53:04<6:16:29,  9.53s/it, gpt_loss=0.298, loss_mean=0.313][A2026-01-26 19:41:08.289 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  48%|████▊     | 2162/4533 [5:53:13<6:16:29,  9.53s/it, gpt_loss=0.332, loss_mean=0.315][A
+Train step of epoch 0:  48%|████▊     | 2163/4533 [5:53:13<6:08:45,  9.34s/it, gpt_loss=0.332, loss_mean=0.315][A2026-01-26 19:41:17.180 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  48%|████▊     | 2163/4533 [5:53:22<6:08:45,  9.34s/it, gpt_loss=0.279, loss_mean=0.311][A
+Train step of epoch 0:  48%|████▊     | 2164/4533 [5:53:22<6:05:22,  9.25s/it, gpt_loss=0.279, loss_mean=0.311][A2026-01-26 19:41:26.095 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  48%|████▊     | 2164/4533 [5:53:31<6:05:22,  9.25s/it, gpt_loss=0.263, loss_mean=0.306][A
+Train step of epoch 0:  48%|████▊     | 2165/4533 [5:53:31<6:02:51,  9.19s/it, gpt_loss=0.263, loss_mean=0.306][A2026-01-26 19:41:35.399 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  48%|████▊     | 2165/4533 [5:53:40<6:02:51,  9.19s/it, gpt_loss=0.299, loss_mean=0.306][A
+Train step of epoch 0:  48%|████▊     | 2166/4533 [5:53:40<6:02:42,  9.19s/it, gpt_loss=0.299, loss_mean=0.306][A2026-01-26 19:41:44.496 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  48%|████▊     | 2166/4533 [5:53:49<6:02:42,  9.19s/it, gpt_loss=0.301, loss_mean=0.305][A
+Train step of epoch 0:  48%|████▊     | 2167/4533 [5:53:49<6:02:27,  9.19s/it, gpt_loss=0.301, loss_mean=0.305][A2026-01-26 19:41:53.690 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  48%|████▊     | 2167/4533 [5:53:58<6:02:27,  9.19s/it, gpt_loss=0.342, loss_mean=0.309][A
+Train step of epoch 0:  48%|████▊     | 2168/4533 [5:53:58<6:00:57,  9.16s/it, gpt_loss=0.342, loss_mean=0.309][A2026-01-26 19:42:02.784 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  48%|████▊     | 2168/4533 [5:54:08<6:00:57,  9.16s/it, gpt_loss=0.306, loss_mean=0.309][A
+Train step of epoch 0:  48%|████▊     | 2169/4533 [5:54:08<6:06:09,  9.29s/it, gpt_loss=0.306, loss_mean=0.309][A
+[LID Router Debug] Step: 2170
+Batch Size: 14
+Audio Batch Size: 159
+LID Assignments: [0, 4, 3, 5, 4, 3, 9, 6, 3, 1, 1, 4, 0, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 19:42:12.164 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  48%|████▊     | 2169/4533 [5:54:17<6:06:09,  9.29s/it, gpt_loss=0.349, loss_mean=0.313][A
+Train step of epoch 0:  48%|████▊     | 2170/4533 [5:54:17<6:07:01,  9.32s/it, gpt_loss=0.349, loss_mean=0.313][A2026-01-26 19:42:21.560 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  48%|████▊     | 2170/4533 [5:54:26<6:07:01,  9.32s/it, gpt_loss=0.321, loss_mean=0.313][A
+Train step of epoch 0:  48%|████▊     | 2171/4533 [5:54:26<5:57:56,  9.09s/it, gpt_loss=0.321, loss_mean=0.313][A2026-01-26 19:42:30.365 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  48%|████▊     | 2171/4533 [5:54:35<5:57:56,  9.09s/it, gpt_loss=0.308, loss_mean=0.313][A
+Train step of epoch 0:  48%|████▊     | 2172/4533 [5:54:35<5:56:03,  9.05s/it, gpt_loss=0.308, loss_mean=0.313][A2026-01-26 19:42:39.289 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  48%|████▊     | 2172/4533 [5:54:44<5:56:03,  9.05s/it, gpt_loss=0.3, loss_mean=0.312]  [A
+Train step of epoch 0:  48%|████▊     | 2173/4533 [5:54:44<6:04:53,  9.28s/it, gpt_loss=0.3, loss_mean=0.312][A2026-01-26 19:42:49.080 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  48%|████▊     | 2173/4533 [5:54:54<6:04:53,  9.28s/it, gpt_loss=0.338, loss_mean=0.314][A
+Train step of epoch 0:  48%|████▊     | 2174/4533 [5:54:54<6:02:24,  9.22s/it, gpt_loss=0.338, loss_mean=0.314][A2026-01-26 19:42:58.153 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  48%|████▊     | 2174/4533 [5:55:06<6:02:24,  9.22s/it, gpt_loss=0.358, loss_mean=0.319][A
+Train step of epoch 0:  48%|████▊     | 2175/4533 [5:55:06<6:38:40, 10.14s/it, gpt_loss=0.358, loss_mean=0.319][A2026-01-26 19:43:10.568 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  48%|████▊     | 2175/4533 [5:55:18<6:38:40, 10.14s/it, gpt_loss=0.419, loss_mean=0.329][A
+Train step of epoch 0:  48%|████▊     | 2176/4533 [5:55:18<7:03:03, 10.77s/it, gpt_loss=0.419, loss_mean=0.329][A2026-01-26 19:43:22.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  48%|████▊     | 2176/4533 [5:55:27<7:03:03, 10.77s/it, gpt_loss=0.298, loss_mean=0.326][A
+Train step of epoch 0:  48%|████▊     | 2177/4533 [5:55:27<6:41:44, 10.23s/it, gpt_loss=0.298, loss_mean=0.326][A2026-01-26 19:43:31.303 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  48%|████▊     | 2177/4533 [5:55:38<6:41:44, 10.23s/it, gpt_loss=0.409, loss_mean=0.334][A
+Train step of epoch 0:  48%|████▊     | 2178/4533 [5:55:38<6:54:10, 10.55s/it, gpt_loss=0.409, loss_mean=0.334][A2026-01-26 19:43:42.979 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  48%|████▊     | 2178/4533 [5:55:50<6:54:10, 10.55s/it, gpt_loss=0.341, loss_mean=0.335][A
+Train step of epoch 0:  48%|████▊     | 2179/4533 [5:55:50<7:09:56, 10.96s/it, gpt_loss=0.341, loss_mean=0.335][A
+[LID Router Debug] Step: 2180
+Batch Size: 14
+Audio Batch Size: 198
+LID Assignments: [9, 0, 4, 3, 5, 5, 9, 3, 1, 2, 3, 3, 9, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 19:43:54.797 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  48%|████▊     | 2179/4533 [5:56:02<7:09:56, 10.96s/it, gpt_loss=0.382, loss_mean=0.339][A
+Train step of epoch 0:  48%|████▊     | 2180/4533 [5:56:02<7:17:37, 11.16s/it, gpt_loss=0.382, loss_mean=0.339][A2026-01-26 19:44:06.584 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  48%|████▊     | 2180/4533 [5:56:12<7:17:37, 11.16s/it, gpt_loss=0.328, loss_mean=0.338][A
+Train step of epoch 0:  48%|████▊     | 2181/4533 [5:56:12<7:01:03, 10.74s/it, gpt_loss=0.328, loss_mean=0.338][A2026-01-26 19:44:16.291 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  48%|████▊     | 2181/4533 [5:56:24<7:01:03, 10.74s/it, gpt_loss=0.393, loss_mean=0.344][A
+Train step of epoch 0:  48%|████▊     | 2182/4533 [5:56:24<7:13:59, 11.08s/it, gpt_loss=0.393, loss_mean=0.344][A2026-01-26 19:44:28.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  48%|████▊     | 2182/4533 [5:56:32<7:13:59, 11.08s/it, gpt_loss=0.312, loss_mean=0.341][A
+Train step of epoch 0:  48%|████▊     | 2183/4533 [5:56:32<6:47:51, 10.41s/it, gpt_loss=0.312, loss_mean=0.341][A2026-01-26 19:44:36.972 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  48%|████▊     | 2183/4533 [5:56:41<6:47:51, 10.41s/it, gpt_loss=0.318, loss_mean=0.338][A
+Train step of epoch 0:  48%|████▊     | 2184/4533 [5:56:41<6:29:48,  9.96s/it, gpt_loss=0.318, loss_mean=0.338][A2026-01-26 19:44:45.887 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  48%|████▊     | 2184/4533 [5:56:51<6:29:48,  9.96s/it, gpt_loss=0.368, loss_mean=0.341][A
+Train step of epoch 0:  48%|████▊     | 2185/4533 [5:56:51<6:26:00,  9.86s/it, gpt_loss=0.368, loss_mean=0.341][A2026-01-26 19:44:55.660 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  48%|████▊     | 2185/4533 [5:57:00<6:26:00,  9.86s/it, gpt_loss=0.254, loss_mean=0.332][A
+Train step of epoch 0:  48%|████▊     | 2186/4533 [5:57:00<6:15:40,  9.60s/it, gpt_loss=0.254, loss_mean=0.332][A2026-01-26 19:45:04.397 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  48%|████▊     | 2186/4533 [5:57:09<6:15:40,  9.60s/it, gpt_loss=0.321, loss_mean=0.331][A
+Train step of epoch 0:  48%|████▊     | 2187/4533 [5:57:09<6:04:05,  9.31s/it, gpt_loss=0.321, loss_mean=0.331][A2026-01-26 19:45:13.182 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  48%|████▊     | 2187/4533 [5:57:17<6:04:05,  9.31s/it, gpt_loss=0.302, loss_mean=0.328][A
+Train step of epoch 0:  48%|████▊     | 2188/4533 [5:57:17<5:57:09,  9.14s/it, gpt_loss=0.302, loss_mean=0.328][A2026-01-26 19:45:21.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  48%|████▊     | 2188/4533 [5:57:26<5:57:09,  9.14s/it, gpt_loss=0.296, loss_mean=0.325][A
+Train step of epoch 0:  48%|████▊     | 2189/4533 [5:57:26<5:49:50,  8.95s/it, gpt_loss=0.296, loss_mean=0.325][A
+[LID Router Debug] Step: 2190
+Batch Size: 14
+Audio Batch Size: 129
+LID Assignments: [5, 0, 5, 0, 1, 3, 5, 1, 2, 0, 1, 2, 5, 0]
+Active Experts in Batch: {0, 1, 2, 3, 5}
+2026-01-26 19:45:30.358 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  48%|████▊     | 2189/4533 [5:57:35<5:49:50,  8.95s/it, gpt_loss=0.246, loss_mean=0.317][A
+Train step of epoch 0:  48%|████▊     | 2190/4533 [5:57:35<5:51:35,  9.00s/it, gpt_loss=0.246, loss_mean=0.317][A2026-01-26 19:45:39.563 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  48%|████▊     | 2190/4533 [5:57:45<5:51:35,  9.00s/it, gpt_loss=0.307, loss_mean=0.316][A
+Train step of epoch 0:  48%|████▊     | 2191/4533 [5:57:45<5:58:46,  9.19s/it, gpt_loss=0.307, loss_mean=0.316][A2026-01-26 19:45:48.995 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  48%|████▊     | 2191/4533 [5:57:54<5:58:46,  9.19s/it, gpt_loss=0.291, loss_mean=0.314][A
+Train step of epoch 0:  48%|████▊     | 2192/4533 [5:57:54<6:03:16,  9.31s/it, gpt_loss=0.291, loss_mean=0.314][A2026-01-26 19:45:58.772 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  48%|████▊     | 2192/4533 [5:58:04<6:03:16,  9.31s/it, gpt_loss=0.283, loss_mean=0.311][A
+Train step of epoch 0:  48%|████▊     | 2193/4533 [5:58:04<6:10:55,  9.51s/it, gpt_loss=0.283, loss_mean=0.311][A2026-01-26 19:46:08.268 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  48%|████▊     | 2193/4533 [5:58:12<6:10:55,  9.51s/it, gpt_loss=0.267, loss_mean=0.306][A
+Train step of epoch 0:  48%|████▊     | 2194/4533 [5:58:12<5:57:24,  9.17s/it, gpt_loss=0.267, loss_mean=0.306][A2026-01-26 19:46:16.997 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  48%|████▊     | 2194/4533 [5:58:24<5:57:24,  9.17s/it, gpt_loss=0.312, loss_mean=0.307][A
+Train step of epoch 0:  48%|████▊     | 2195/4533 [5:58:24<6:26:09,  9.91s/it, gpt_loss=0.312, loss_mean=0.307][A2026-01-26 19:46:28.762 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  48%|████▊     | 2195/4533 [5:58:33<6:26:09,  9.91s/it, gpt_loss=0.263, loss_mean=0.303][A
+Train step of epoch 0:  48%|████▊     | 2196/4533 [5:58:33<6:13:14,  9.58s/it, gpt_loss=0.263, loss_mean=0.303][A2026-01-26 19:46:37.568 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  48%|████▊     | 2196/4533 [5:58:43<6:13:14,  9.58s/it, gpt_loss=0.401, loss_mean=0.312][A
+Train step of epoch 0:  48%|████▊     | 2197/4533 [5:58:43<6:13:19,  9.59s/it, gpt_loss=0.401, loss_mean=0.312][A2026-01-26 19:46:46.879 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  48%|████▊     | 2197/4533 [5:58:52<6:13:19,  9.59s/it, gpt_loss=0.232, loss_mean=0.304][A
+Train step of epoch 0:  48%|████▊     | 2198/4533 [5:58:52<6:06:21,  9.41s/it, gpt_loss=0.232, loss_mean=0.304][A2026-01-26 19:46:55.674 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  48%|████▊     | 2198/4533 [5:59:00<6:06:21,  9.41s/it, gpt_loss=0.317, loss_mean=0.306][A
+Train step of epoch 0:  49%|████▊     | 2199/4533 [5:59:00<5:54:24,  9.11s/it, gpt_loss=0.317, loss_mean=0.306][A
+[LID Router Debug] Step: 2200
+Batch Size: 14
+Audio Batch Size: 162
+LID Assignments: [4, 5, 3, 9, 0, 3, 6, 9, 2, 2, 9, 5, 2, 2]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-26 19:47:04.271 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-26 19:47:12,517] [INFO] [logging.py:96:log_dist] [Rank 0] step=2200, skipped=0, lr=[1.886238892650225e-05, 1.886238892650225e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 19:47:12,518] [INFO] [timer.py:260:stop] epoch=0/micro_step=2200/global_step=2200, RunningAvgSamplesPerSec=5.7394467689623925, CurrSamplesPerSec=6.49076293130618, MemAllocated=14.63GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  49%|████▊     | 2199/4533 [5:59:09<5:54:24,  9.11s/it, gpt_loss=0.305, loss_mean=0.306][A
+Train step of epoch 0:  49%|████▊     | 2200/4533 [5:59:09<5:48:49,  8.97s/it, gpt_loss=0.305, loss_mean=0.306][A2026-01-26 19:47:13.259 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  49%|████▊     | 2200/4533 [5:59:17<5:48:49,  8.97s/it, gpt_loss=0.285, loss_mean=0.304][A
+Train step of epoch 0:  49%|████▊     | 2201/4533 [5:59:17<5:46:27,  8.91s/it, gpt_loss=0.285, loss_mean=0.304][A2026-01-26 19:47:22.079 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  49%|████▊     | 2201/4533 [5:59:27<5:46:27,  8.91s/it, gpt_loss=0.307, loss_mean=0.304][A
+Train step of epoch 0:  49%|████▊     | 2202/4533 [5:59:27<5:56:32,  9.18s/it, gpt_loss=0.307, loss_mean=0.304][A2026-01-26 19:47:31.560 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  49%|████▊     | 2202/4533 [5:59:36<5:56:32,  9.18s/it, gpt_loss=0.333, loss_mean=0.307][A
+Train step of epoch 0:  49%|████▊     | 2203/4533 [5:59:36<5:48:50,  8.98s/it, gpt_loss=0.333, loss_mean=0.307][A2026-01-26 19:47:40.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  49%|████▊     | 2203/4533 [5:59:45<5:48:50,  8.98s/it, gpt_loss=0.263, loss_mean=0.302][A
+Train step of epoch 0:  49%|████▊     | 2204/4533 [5:59:45<5:53:39,  9.11s/it, gpt_loss=0.263, loss_mean=0.302][A2026-01-26 19:47:49.796 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  49%|████▊     | 2204/4533 [5:59:55<5:53:39,  9.11s/it, gpt_loss=0.325, loss_mean=0.305][A
+Train step of epoch 0:  49%|████▊     | 2205/4533 [5:59:55<6:03:09,  9.36s/it, gpt_loss=0.325, loss_mean=0.305][A2026-01-26 19:47:59.758 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  49%|████▊     | 2205/4533 [6:00:04<6:03:09,  9.36s/it, gpt_loss=0.286, loss_mean=0.303][A
+Train step of epoch 0:  49%|████▊     | 2206/4533 [6:00:04<6:02:15,  9.34s/it, gpt_loss=0.286, loss_mean=0.303][A2026-01-26 19:48:09.067 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  49%|████▊     | 2206/4533 [6:00:13<6:02:15,  9.34s/it, gpt_loss=0.284, loss_mean=0.301][A
+Train step of epoch 0:  49%|████▊     | 2207/4533 [6:00:13<5:57:28,  9.22s/it, gpt_loss=0.284, loss_mean=0.301][A2026-01-26 19:48:17.970 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  49%|████▊     | 2207/4533 [6:00:22<5:57:28,  9.22s/it, gpt_loss=0.305, loss_mean=0.301][A
+Train step of epoch 0:  49%|████▊     | 2208/4533 [6:00:22<5:56:43,  9.21s/it, gpt_loss=0.305, loss_mean=0.301][A2026-01-26 19:48:26.990 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  49%|████▊     | 2208/4533 [6:00:31<5:56:43,  9.21s/it, gpt_loss=0.355, loss_mean=0.307][A
+Train step of epoch 0:  49%|████▊     | 2209/4533 [6:00:31<5:51:25,  9.07s/it, gpt_loss=0.355, loss_mean=0.307][A
+[LID Router Debug] Step: 2210
+Batch Size: 14
+Audio Batch Size: 135
+LID Assignments: [9, 1, 3, 2, 1, 5, 9, 1, 0, 5, 4, 0, 2, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 19:48:35.866 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  49%|████▊     | 2209/4533 [6:00:40<5:51:25,  9.07s/it, gpt_loss=0.235, loss_mean=0.3]  [A
+Train step of epoch 0:  49%|████▉     | 2210/4533 [6:00:40<5:47:25,  8.97s/it, gpt_loss=0.235, loss_mean=0.3][A2026-01-26 19:48:44.590 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  49%|████▉     | 2210/4533 [6:00:49<5:47:25,  8.97s/it, gpt_loss=0.33, loss_mean=0.303][A
+Train step of epoch 0:  49%|████▉     | 2211/4533 [6:00:49<5:48:35,  9.01s/it, gpt_loss=0.33, loss_mean=0.303][A2026-01-26 19:48:53.380 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  49%|████▉     | 2211/4533 [6:00:58<5:48:35,  9.01s/it, gpt_loss=0.275, loss_mean=0.3] [A
+Train step of epoch 0:  49%|████▉     | 2212/4533 [6:00:58<5:43:54,  8.89s/it, gpt_loss=0.275, loss_mean=0.3][A2026-01-26 19:49:02.368 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  49%|████▉     | 2212/4533 [6:01:08<5:43:54,  8.89s/it, gpt_loss=0.332, loss_mean=0.303][A
+Train step of epoch 0:  49%|████▉     | 2213/4533 [6:01:08<5:55:32,  9.20s/it, gpt_loss=0.332, loss_mean=0.303][A2026-01-26 19:49:12.175 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  49%|████▉     | 2213/4533 [6:01:20<5:55:32,  9.20s/it, gpt_loss=0.381, loss_mean=0.311][A
+Train step of epoch 0:  49%|████▉     | 2214/4533 [6:01:20<6:32:22, 10.15s/it, gpt_loss=0.381, loss_mean=0.311][A2026-01-26 19:49:24.657 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  49%|████▉     | 2214/4533 [6:01:29<6:32:22, 10.15s/it, gpt_loss=0.218, loss_mean=0.301][A
+Train step of epoch 0:  49%|████▉     | 2215/4533 [6:01:29<6:19:49,  9.83s/it, gpt_loss=0.218, loss_mean=0.301][A2026-01-26 19:49:33.499 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  49%|████▉     | 2215/4533 [6:01:38<6:19:49,  9.83s/it, gpt_loss=0.325, loss_mean=0.304][A
+Train step of epoch 0:  49%|████▉     | 2216/4533 [6:01:38<6:13:59,  9.68s/it, gpt_loss=0.325, loss_mean=0.304][A2026-01-26 19:49:42.776 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  49%|████▉     | 2216/4533 [6:01:47<6:13:59,  9.68s/it, gpt_loss=0.309, loss_mean=0.304][A
+Train step of epoch 0:  49%|████▉     | 2217/4533 [6:01:47<6:01:26,  9.36s/it, gpt_loss=0.309, loss_mean=0.304][A2026-01-26 19:49:51.762 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  49%|████▉     | 2217/4533 [6:01:56<6:01:26,  9.36s/it, gpt_loss=0.284, loss_mean=0.302][A
+Train step of epoch 0:  49%|████▉     | 2218/4533 [6:01:56<5:56:38,  9.24s/it, gpt_loss=0.284, loss_mean=0.302][A2026-01-26 19:50:00.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  49%|████▉     | 2218/4533 [6:02:08<5:56:38,  9.24s/it, gpt_loss=0.332, loss_mean=0.305][A
+Train step of epoch 0:  49%|████▉     | 2219/4533 [6:02:08<6:24:54,  9.98s/it, gpt_loss=0.332, loss_mean=0.305][A
+[LID Router Debug] Step: 2220
+Batch Size: 14
+Audio Batch Size: 161
+LID Assignments: [2, 2, 6, 1, 0, 3, 4, 6, 0, 5, 9, 3, 9, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 19:50:12.365 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  49%|████▉     | 2219/4533 [6:02:17<6:24:54,  9.98s/it, gpt_loss=0.304, loss_mean=0.305][A
+Train step of epoch 0:  49%|████▉     | 2220/4533 [6:02:17<6:12:13,  9.66s/it, gpt_loss=0.304, loss_mean=0.305][A2026-01-26 19:50:21.169 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  49%|████▉     | 2220/4533 [6:02:26<6:12:13,  9.66s/it, gpt_loss=0.343, loss_mean=0.309][A
+Train step of epoch 0:  49%|████▉     | 2221/4533 [6:02:26<6:12:32,  9.67s/it, gpt_loss=0.343, loss_mean=0.309][A2026-01-26 19:50:30.966 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  49%|████▉     | 2221/4533 [6:02:35<6:12:32,  9.67s/it, gpt_loss=0.237, loss_mean=0.302][A
+Train step of epoch 0:  49%|████▉     | 2222/4533 [6:02:35<6:06:35,  9.52s/it, gpt_loss=0.237, loss_mean=0.302][A2026-01-26 19:50:39.874 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  49%|████▉     | 2222/4533 [6:02:45<6:06:35,  9.52s/it, gpt_loss=0.346, loss_mean=0.306][A
+Train step of epoch 0:  49%|████▉     | 2223/4533 [6:02:45<6:02:17,  9.41s/it, gpt_loss=0.346, loss_mean=0.306][A2026-01-26 19:50:48.891 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  49%|████▉     | 2223/4533 [6:02:53<6:02:17,  9.41s/it, gpt_loss=0.279, loss_mean=0.303][A
+Train step of epoch 0:  49%|████▉     | 2224/4533 [6:02:53<5:53:42,  9.19s/it, gpt_loss=0.279, loss_mean=0.303][A2026-01-26 19:50:57.786 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  49%|████▉     | 2224/4533 [6:03:02<5:53:42,  9.19s/it, gpt_loss=0.289, loss_mean=0.302][A
+Train step of epoch 0:  49%|████▉     | 2225/4533 [6:03:02<5:48:14,  9.05s/it, gpt_loss=0.289, loss_mean=0.302][A2026-01-26 19:51:06.588 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  49%|████▉     | 2225/4533 [6:03:12<5:48:14,  9.05s/it, gpt_loss=0.306, loss_mean=0.302][A
+Train step of epoch 0:  49%|████▉     | 2226/4533 [6:03:12<5:54:29,  9.22s/it, gpt_loss=0.306, loss_mean=0.302][A2026-01-26 19:51:16.294 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  49%|████▉     | 2226/4533 [6:03:21<5:54:29,  9.22s/it, gpt_loss=0.343, loss_mean=0.307][A
+Train step of epoch 0:  49%|████▉     | 2227/4533 [6:03:21<5:51:37,  9.15s/it, gpt_loss=0.343, loss_mean=0.307][A2026-01-26 19:51:25.267 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  49%|████▉     | 2227/4533 [6:03:30<5:51:37,  9.15s/it, gpt_loss=0.372, loss_mean=0.313][A
+Train step of epoch 0:  49%|████▉     | 2228/4533 [6:03:30<5:51:07,  9.14s/it, gpt_loss=0.372, loss_mean=0.313][A2026-01-26 19:51:34.173 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  49%|████▉     | 2228/4533 [6:03:41<5:51:07,  9.14s/it, gpt_loss=0.309, loss_mean=0.313][A
+Train step of epoch 0:  49%|████▉     | 2229/4533 [6:03:41<6:21:19,  9.93s/it, gpt_loss=0.309, loss_mean=0.313][A
+[LID Router Debug] Step: 2230
+Batch Size: 14
+Audio Batch Size: 134
+LID Assignments: [0, 4, 9, 3, 3, 9, 1, 4, 6, 5, 1, 1, 0, 0]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6, 9}
+2026-01-26 19:51:46.080 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  49%|████▉     | 2229/4533 [6:03:53<6:21:19,  9.93s/it, gpt_loss=0.404, loss_mean=0.322][A
+Train step of epoch 0:  49%|████▉     | 2230/4533 [6:03:53<6:40:55, 10.45s/it, gpt_loss=0.404, loss_mean=0.322][A2026-01-26 19:51:57.655 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  49%|████▉     | 2230/4533 [6:04:02<6:40:55, 10.45s/it, gpt_loss=0.277, loss_mean=0.317][A
+Train step of epoch 0:  49%|████▉     | 2231/4533 [6:04:02<6:21:44,  9.95s/it, gpt_loss=0.277, loss_mean=0.317][A2026-01-26 19:52:06.378 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  49%|████▉     | 2231/4533 [6:04:13<6:21:44,  9.95s/it, gpt_loss=0.437, loss_mean=0.329][A
+Train step of epoch 0:  49%|████▉     | 2232/4533 [6:04:13<6:39:51, 10.43s/it, gpt_loss=0.437, loss_mean=0.329][A2026-01-26 19:52:17.997 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  49%|████▉     | 2232/4533 [6:04:22<6:39:51, 10.43s/it, gpt_loss=0.266, loss_mean=0.323][A
+Train step of epoch 0:  49%|████▉     | 2233/4533 [6:04:22<6:21:45,  9.96s/it, gpt_loss=0.266, loss_mean=0.323][A2026-01-26 19:52:26.794 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  49%|████▉     | 2233/4533 [6:04:31<6:21:45,  9.96s/it, gpt_loss=0.274, loss_mean=0.318][A
+Train step of epoch 0:  49%|████▉     | 2234/4533 [6:04:31<6:12:07,  9.71s/it, gpt_loss=0.274, loss_mean=0.318][A2026-01-26 19:52:35.860 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  49%|████▉     | 2234/4533 [6:04:41<6:12:07,  9.71s/it, gpt_loss=0.313, loss_mean=0.318][A
+Train step of epoch 0:  49%|████▉     | 2235/4533 [6:04:41<6:07:33,  9.60s/it, gpt_loss=0.313, loss_mean=0.318][A2026-01-26 19:52:45.479 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  49%|████▉     | 2235/4533 [6:04:53<6:07:33,  9.60s/it, gpt_loss=0.354, loss_mean=0.321][A
+Train step of epoch 0:  49%|████▉     | 2236/4533 [6:04:53<6:37:19, 10.38s/it, gpt_loss=0.354, loss_mean=0.321][A2026-01-26 19:52:57.593 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  49%|████▉     | 2236/4533 [6:05:02<6:37:19, 10.38s/it, gpt_loss=0.255, loss_mean=0.315][A
+Train step of epoch 0:  49%|████▉     | 2237/4533 [6:05:02<6:21:30,  9.97s/it, gpt_loss=0.255, loss_mean=0.315][A2026-01-26 19:53:06.479 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  49%|████▉     | 2237/4533 [6:05:12<6:21:30,  9.97s/it, gpt_loss=0.373, loss_mean=0.321][A
+Train step of epoch 0:  49%|████▉     | 2238/4533 [6:05:12<6:20:29,  9.95s/it, gpt_loss=0.373, loss_mean=0.321][A2026-01-26 19:53:16.060 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  49%|████▉     | 2238/4533 [6:05:21<6:20:29,  9.95s/it, gpt_loss=0.254, loss_mean=0.314][A
+Train step of epoch 0:  49%|████▉     | 2239/4533 [6:05:21<6:05:51,  9.57s/it, gpt_loss=0.254, loss_mean=0.314][A
+[LID Router Debug] Step: 2240
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [0, 5, 4, 0, 1, 9, 9, 4, 6, 3, 4, 9, 2, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 19:53:25.074 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  49%|████▉     | 2239/4533 [6:05:29<6:05:51,  9.57s/it, gpt_loss=0.322, loss_mean=0.315][A
+Train step of epoch 0:  49%|████▉     | 2240/4533 [6:05:29<5:55:52,  9.31s/it, gpt_loss=0.322, loss_mean=0.315][A2026-01-26 19:53:33.876 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  49%|████▉     | 2240/4533 [6:05:38<5:55:52,  9.31s/it, gpt_loss=0.35, loss_mean=0.318] [A
+Train step of epoch 0:  49%|████▉     | 2241/4533 [6:05:38<5:50:22,  9.17s/it, gpt_loss=0.35, loss_mean=0.318][A2026-01-26 19:53:42.786 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  49%|████▉     | 2241/4533 [6:05:48<5:50:22,  9.17s/it, gpt_loss=0.332, loss_mean=0.32][A
+Train step of epoch 0:  49%|████▉     | 2242/4533 [6:05:48<5:54:00,  9.27s/it, gpt_loss=0.332, loss_mean=0.32][A2026-01-26 19:53:51.890 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  49%|████▉     | 2242/4533 [6:05:59<5:54:00,  9.27s/it, gpt_loss=0.41, loss_mean=0.329][A
+Train step of epoch 0:  49%|████▉     | 2243/4533 [6:05:59<6:17:56,  9.90s/it, gpt_loss=0.41, loss_mean=0.329][A2026-01-26 19:54:03.452 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  49%|████▉     | 2243/4533 [6:06:09<6:17:56,  9.90s/it, gpt_loss=0.256, loss_mean=0.321][A
+Train step of epoch 0:  50%|████▉     | 2244/4533 [6:06:09<6:13:27,  9.79s/it, gpt_loss=0.256, loss_mean=0.321][A2026-01-26 19:54:13.091 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|████▉     | 2244/4533 [6:06:21<6:13:27,  9.79s/it, gpt_loss=0.396, loss_mean=0.329][A
+Train step of epoch 0:  50%|████▉     | 2245/4533 [6:06:21<6:39:00, 10.46s/it, gpt_loss=0.396, loss_mean=0.329][A2026-01-26 19:54:25.083 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|████▉     | 2245/4533 [6:06:29<6:39:00, 10.46s/it, gpt_loss=0.273, loss_mean=0.323][A
+Train step of epoch 0:  50%|████▉     | 2246/4533 [6:06:29<6:18:30,  9.93s/it, gpt_loss=0.273, loss_mean=0.323][A2026-01-26 19:54:33.962 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|████▉     | 2246/4533 [6:06:41<6:18:30,  9.93s/it, gpt_loss=0.341, loss_mean=0.325][A
+Train step of epoch 0:  50%|████▉     | 2247/4533 [6:06:41<6:41:11, 10.53s/it, gpt_loss=0.341, loss_mean=0.325][A2026-01-26 19:54:45.782 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  50%|████▉     | 2247/4533 [6:06:53<6:41:11, 10.53s/it, gpt_loss=0.381, loss_mean=0.331][A
+Train step of epoch 0:  50%|████▉     | 2248/4533 [6:06:53<7:00:19, 11.04s/it, gpt_loss=0.381, loss_mean=0.331][A2026-01-26 19:54:58.086 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|████▉     | 2248/4533 [6:07:05<7:00:19, 11.04s/it, gpt_loss=0.363, loss_mean=0.334][A
+Train step of epoch 0:  50%|████▉     | 2249/4533 [6:07:05<7:08:02, 11.24s/it, gpt_loss=0.363, loss_mean=0.334][A
+[LID Router Debug] Step: 2250
+Batch Size: 14
+Audio Batch Size: 144
+LID Assignments: [2, 1, 9, 1, 1, 6, 4, 3, 0, 4, 2, 3, 2, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-26 19:55:09.477 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  50%|████▉     | 2249/4533 [6:07:15<7:08:02, 11.24s/it, gpt_loss=0.286, loss_mean=0.329][A
+Train step of epoch 0:  50%|████▉     | 2250/4533 [6:07:15<6:48:21, 10.73s/it, gpt_loss=0.286, loss_mean=0.329][A2026-01-26 19:55:19.193 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|████▉     | 2250/4533 [6:07:27<6:48:21, 10.73s/it, gpt_loss=0.368, loss_mean=0.333][A
+Train step of epoch 0:  50%|████▉     | 2251/4533 [6:07:27<7:04:05, 11.15s/it, gpt_loss=0.368, loss_mean=0.333][A2026-01-26 19:55:31.451 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  50%|████▉     | 2251/4533 [6:07:39<7:04:05, 11.15s/it, gpt_loss=0.448, loss_mean=0.344][A
+Train step of epoch 0:  50%|████▉     | 2252/4533 [6:07:39<7:15:51, 11.47s/it, gpt_loss=0.448, loss_mean=0.344][A2026-01-26 19:55:43.568 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  50%|████▉     | 2252/4533 [6:07:48<7:15:51, 11.47s/it, gpt_loss=0.246, loss_mean=0.335][A
+Train step of epoch 0:  50%|████▉     | 2253/4533 [6:07:48<6:43:11, 10.61s/it, gpt_loss=0.246, loss_mean=0.335][A2026-01-26 19:55:52.167 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  50%|████▉     | 2253/4533 [6:07:57<6:43:11, 10.61s/it, gpt_loss=0.336, loss_mean=0.335][A
+Train step of epoch 0:  50%|████▉     | 2254/4533 [6:07:57<6:32:24, 10.33s/it, gpt_loss=0.336, loss_mean=0.335][A2026-01-26 19:56:01.768 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|████▉     | 2254/4533 [6:08:06<6:32:24, 10.33s/it, gpt_loss=0.314, loss_mean=0.333][A
+Train step of epoch 0:  50%|████▉     | 2255/4533 [6:08:06<6:17:42,  9.95s/it, gpt_loss=0.314, loss_mean=0.333][A2026-01-26 19:56:10.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|████▉     | 2255/4533 [6:08:16<6:17:42,  9.95s/it, gpt_loss=0.313, loss_mean=0.331][A
+Train step of epoch 0:  50%|████▉     | 2256/4533 [6:08:16<6:09:09,  9.73s/it, gpt_loss=0.313, loss_mean=0.331][A2026-01-26 19:56:20.263 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|████▉     | 2256/4533 [6:08:24<6:09:09,  9.73s/it, gpt_loss=0.312, loss_mean=0.329][A
+Train step of epoch 0:  50%|████▉     | 2257/4533 [6:08:24<5:57:39,  9.43s/it, gpt_loss=0.312, loss_mean=0.329][A2026-01-26 19:56:28.981 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  50%|████▉     | 2257/4533 [6:08:33<5:57:39,  9.43s/it, gpt_loss=0.326, loss_mean=0.329][A
+Train step of epoch 0:  50%|████▉     | 2258/4533 [6:08:33<5:54:14,  9.34s/it, gpt_loss=0.326, loss_mean=0.329][A2026-01-26 19:56:37.983 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|████▉     | 2258/4533 [6:08:42<5:54:14,  9.34s/it, gpt_loss=0.245, loss_mean=0.32] [A
+Train step of epoch 0:  50%|████▉     | 2259/4533 [6:08:42<5:45:48,  9.12s/it, gpt_loss=0.245, loss_mean=0.32][A
+[LID Router Debug] Step: 2260
+Batch Size: 14
+Audio Batch Size: 179
+LID Assignments: [3, 9, 5, 1, 4, 0, 0, 5, 3, 0, 3, 9, 2, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 19:56:46.596 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  50%|████▉     | 2259/4533 [6:08:54<5:45:48,  9.12s/it, gpt_loss=0.409, loss_mean=0.329][A
+Train step of epoch 0:  50%|████▉     | 2260/4533 [6:08:54<6:18:30,  9.99s/it, gpt_loss=0.409, loss_mean=0.329][A2026-01-26 19:56:58.581 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  50%|████▉     | 2260/4533 [6:09:06<6:18:30,  9.99s/it, gpt_loss=0.385, loss_mean=0.335][A
+Train step of epoch 0:  50%|████▉     | 2261/4533 [6:09:06<6:42:40, 10.63s/it, gpt_loss=0.385, loss_mean=0.335][A2026-01-26 19:57:10.858 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  50%|████▉     | 2261/4533 [6:09:18<6:42:40, 10.63s/it, gpt_loss=0.464, loss_mean=0.348][A
+Train step of epoch 0:  50%|████▉     | 2262/4533 [6:09:18<6:55:04, 10.97s/it, gpt_loss=0.464, loss_mean=0.348][A2026-01-26 19:57:22.377 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  50%|████▉     | 2262/4533 [6:09:27<6:55:04, 10.97s/it, gpt_loss=0.277, loss_mean=0.341][A
+Train step of epoch 0:  50%|████▉     | 2263/4533 [6:09:27<6:29:28, 10.29s/it, gpt_loss=0.277, loss_mean=0.341][A2026-01-26 19:57:31.288 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  50%|████▉     | 2263/4533 [6:09:36<6:29:28, 10.29s/it, gpt_loss=0.261, loss_mean=0.333][A
+Train step of epoch 0:  50%|████▉     | 2264/4533 [6:09:36<6:14:03,  9.89s/it, gpt_loss=0.261, loss_mean=0.333][A2026-01-26 19:57:39.954 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|████▉     | 2264/4533 [6:09:44<6:14:03,  9.89s/it, gpt_loss=0.336, loss_mean=0.333][A
+Train step of epoch 0:  50%|████▉     | 2265/4533 [6:09:44<5:58:56,  9.50s/it, gpt_loss=0.336, loss_mean=0.333][A2026-01-26 19:57:48.491 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  50%|████▉     | 2265/4533 [6:09:54<5:58:56,  9.50s/it, gpt_loss=0.322, loss_mean=0.332][A
+Train step of epoch 0:  50%|████▉     | 2266/4533 [6:09:54<5:57:26,  9.46s/it, gpt_loss=0.322, loss_mean=0.332][A2026-01-26 19:57:58.190 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  50%|████▉     | 2266/4533 [6:10:03<5:57:26,  9.46s/it, gpt_loss=0.275, loss_mean=0.326][A
+Train step of epoch 0:  50%|█████     | 2267/4533 [6:10:03<5:52:08,  9.32s/it, gpt_loss=0.275, loss_mean=0.326][A2026-01-26 19:58:06.873 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  50%|█████     | 2267/4533 [6:10:11<5:52:08,  9.32s/it, gpt_loss=0.274, loss_mean=0.321][A
+Train step of epoch 0:  50%|█████     | 2268/4533 [6:10:11<5:41:46,  9.05s/it, gpt_loss=0.274, loss_mean=0.321][A2026-01-26 19:58:15.494 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  50%|█████     | 2268/4533 [6:10:20<5:41:46,  9.05s/it, gpt_loss=0.299, loss_mean=0.319][A
+Train step of epoch 0:  50%|█████     | 2269/4533 [6:10:20<5:38:49,  8.98s/it, gpt_loss=0.299, loss_mean=0.319][A
+[LID Router Debug] Step: 2270
+Batch Size: 14
+Audio Batch Size: 162
+LID Assignments: [5, 3, 9, 5, 6, 2, 3, 0, 5, 4, 2, 0, 3, 6]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-26 19:58:24.466 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  50%|█████     | 2269/4533 [6:10:32<5:38:49,  8.98s/it, gpt_loss=0.406, loss_mean=0.327][A
+Train step of epoch 0:  50%|█████     | 2270/4533 [6:10:32<6:14:46,  9.94s/it, gpt_loss=0.406, loss_mean=0.327][A2026-01-26 19:58:36.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  50%|█████     | 2270/4533 [6:10:44<6:14:46,  9.94s/it, gpt_loss=0.412, loss_mean=0.336][A
+Train step of epoch 0:  50%|█████     | 2271/4533 [6:10:44<6:38:30, 10.57s/it, gpt_loss=0.412, loss_mean=0.336][A2026-01-26 19:58:48.751 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|█████     | 2271/4533 [6:10:54<6:38:30, 10.57s/it, gpt_loss=0.349, loss_mean=0.337][A
+Train step of epoch 0:  50%|█████     | 2272/4533 [6:10:54<6:30:13, 10.36s/it, gpt_loss=0.349, loss_mean=0.337][A2026-01-26 19:58:58.373 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|█████     | 2272/4533 [6:11:03<6:30:13, 10.36s/it, gpt_loss=0.248, loss_mean=0.328][A
+Train step of epoch 0:  50%|█████     | 2273/4533 [6:11:03<6:11:52,  9.87s/it, gpt_loss=0.248, loss_mean=0.328][A2026-01-26 19:59:07.079 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|█████     | 2273/4533 [6:11:14<6:11:52,  9.87s/it, gpt_loss=0.396, loss_mean=0.335][A
+Train step of epoch 0:  50%|█████     | 2274/4533 [6:11:14<6:31:53, 10.41s/it, gpt_loss=0.396, loss_mean=0.335][A2026-01-26 19:59:18.987 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|█████     | 2274/4533 [6:11:23<6:31:53, 10.41s/it, gpt_loss=0.275, loss_mean=0.329][A
+Train step of epoch 0:  50%|█████     | 2275/4533 [6:11:23<6:16:52, 10.01s/it, gpt_loss=0.275, loss_mean=0.329][A2026-01-26 19:59:28.089 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  50%|█████     | 2275/4533 [6:11:32<6:16:52, 10.01s/it, gpt_loss=0.259, loss_mean=0.322][A
+Train step of epoch 0:  50%|█████     | 2276/4533 [6:11:32<6:05:54,  9.73s/it, gpt_loss=0.259, loss_mean=0.322][A2026-01-26 19:59:37.096 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|█████     | 2276/4533 [6:11:42<6:05:54,  9.73s/it, gpt_loss=0.333, loss_mean=0.323][A
+Train step of epoch 0:  50%|█████     | 2277/4533 [6:11:42<6:00:40,  9.59s/it, gpt_loss=0.333, loss_mean=0.323][A2026-01-26 19:59:46.367 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  50%|█████     | 2277/4533 [6:11:51<6:00:40,  9.59s/it, gpt_loss=0.433, loss_mean=0.334][A
+Train step of epoch 0:  50%|█████     | 2278/4533 [6:11:51<6:00:30,  9.59s/it, gpt_loss=0.433, loss_mean=0.334][A2026-01-26 19:59:56.064 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  50%|█████     | 2278/4533 [6:12:00<6:00:30,  9.59s/it, gpt_loss=0.272, loss_mean=0.328][A
+Train step of epoch 0:  50%|█████     | 2279/4533 [6:12:00<5:52:58,  9.40s/it, gpt_loss=0.272, loss_mean=0.328][A
+[LID Router Debug] Step: 2280
+Batch Size: 14
+Audio Batch Size: 192
+LID Assignments: [3, 4, 3, 2, 9, 5, 5, 3, 9, 9, 1, 1, 3, 2]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-26 20:00:04.776 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  50%|█████     | 2279/4533 [6:12:10<5:52:58,  9.40s/it, gpt_loss=0.301, loss_mean=0.325][A
+Train step of epoch 0:  50%|█████     | 2280/4533 [6:12:10<5:52:08,  9.38s/it, gpt_loss=0.301, loss_mean=0.325][A2026-01-26 20:00:14.194 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  50%|█████     | 2280/4533 [6:12:21<5:52:08,  9.38s/it, gpt_loss=0.447, loss_mean=0.337][A
+Train step of epoch 0:  50%|█████     | 2281/4533 [6:12:21<6:18:15, 10.08s/it, gpt_loss=0.447, loss_mean=0.337][A2026-01-26 20:00:26.000 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|█████     | 2281/4533 [6:12:31<6:18:15, 10.08s/it, gpt_loss=0.242, loss_mean=0.328][A
+Train step of epoch 0:  50%|█████     | 2282/4533 [6:12:31<6:15:03, 10.00s/it, gpt_loss=0.242, loss_mean=0.328][A2026-01-26 20:00:35.663 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  50%|█████     | 2282/4533 [6:12:40<6:15:03, 10.00s/it, gpt_loss=0.302, loss_mean=0.325][A
+Train step of epoch 0:  50%|█████     | 2283/4533 [6:12:40<5:59:57,  9.60s/it, gpt_loss=0.302, loss_mean=0.325][A2026-01-26 20:00:44.361 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|█████     | 2283/4533 [6:12:51<5:59:57,  9.60s/it, gpt_loss=0.332, loss_mean=0.326][A
+Train step of epoch 0:  50%|█████     | 2284/4533 [6:12:51<6:21:54, 10.19s/it, gpt_loss=0.332, loss_mean=0.326][A2026-01-26 20:00:55.796 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|█████     | 2284/4533 [6:13:04<6:21:54, 10.19s/it, gpt_loss=0.313, loss_mean=0.325][A
+Train step of epoch 0:  50%|█████     | 2285/4533 [6:13:04<6:45:14, 10.82s/it, gpt_loss=0.313, loss_mean=0.325][A2026-01-26 20:01:08.277 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  50%|█████     | 2285/4533 [6:13:13<6:45:14, 10.82s/it, gpt_loss=0.373, loss_mean=0.329][A
+Train step of epoch 0:  50%|█████     | 2286/4533 [6:13:13<6:33:26, 10.51s/it, gpt_loss=0.373, loss_mean=0.329][A2026-01-26 20:01:18.058 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  50%|█████     | 2286/4533 [6:13:25<6:33:26, 10.51s/it, gpt_loss=0.48, loss_mean=0.345] [A
+Train step of epoch 0:  50%|█████     | 2287/4533 [6:13:25<6:48:18, 10.91s/it, gpt_loss=0.48, loss_mean=0.345][A2026-01-26 20:01:29.895 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  50%|█████     | 2287/4533 [6:13:34<6:48:18, 10.91s/it, gpt_loss=0.322, loss_mean=0.342][A
+Train step of epoch 0:  50%|█████     | 2288/4533 [6:13:34<6:25:44, 10.31s/it, gpt_loss=0.322, loss_mean=0.342][A2026-01-26 20:01:38.776 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  50%|█████     | 2288/4533 [6:13:46<6:25:44, 10.31s/it, gpt_loss=0.451, loss_mean=0.353][A
+Train step of epoch 0:  50%|█████     | 2289/4533 [6:13:46<6:46:50, 10.88s/it, gpt_loss=0.451, loss_mean=0.353][A
+[LID Router Debug] Step: 2290
+Batch Size: 14
+Audio Batch Size: 157
+LID Assignments: [0, 3, 6, 1, 5, 5, 6, 3, 2, 0, 2, 5, 4, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6}
+2026-01-26 20:01:51.056 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  50%|█████     | 2289/4533 [6:13:58<6:46:50, 10.88s/it, gpt_loss=0.319, loss_mean=0.35] [A
+Train step of epoch 0:  51%|█████     | 2290/4533 [6:13:58<6:56:29, 11.14s/it, gpt_loss=0.319, loss_mean=0.35][A2026-01-26 20:02:02.677 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  51%|█████     | 2290/4533 [6:14:07<6:56:29, 11.14s/it, gpt_loss=0.38, loss_mean=0.353][A
+Train step of epoch 0:  51%|█████     | 2291/4533 [6:14:07<6:33:11, 10.52s/it, gpt_loss=0.38, loss_mean=0.353][A2026-01-26 20:02:11.882 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  51%|█████     | 2291/4533 [6:14:17<6:33:11, 10.52s/it, gpt_loss=0.295, loss_mean=0.347][A
+Train step of epoch 0:  51%|█████     | 2292/4533 [6:14:17<6:26:20, 10.34s/it, gpt_loss=0.295, loss_mean=0.347][A2026-01-26 20:02:21.784 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  51%|█████     | 2292/4533 [6:14:27<6:26:20, 10.34s/it, gpt_loss=0.297, loss_mean=0.342][A
+Train step of epoch 0:  51%|█████     | 2293/4533 [6:14:27<6:18:58, 10.15s/it, gpt_loss=0.297, loss_mean=0.342][A2026-01-26 20:02:31.492 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  51%|█████     | 2293/4533 [6:14:39<6:18:58, 10.15s/it, gpt_loss=0.355, loss_mean=0.343][A
+Train step of epoch 0:  51%|█████     | 2294/4533 [6:14:39<6:38:00, 10.67s/it, gpt_loss=0.355, loss_mean=0.343][A2026-01-26 20:02:43.187 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  51%|█████     | 2294/4533 [6:14:51<6:38:00, 10.67s/it, gpt_loss=0.357, loss_mean=0.345][A
+Train step of epoch 0:  51%|█████     | 2295/4533 [6:14:51<6:50:54, 11.02s/it, gpt_loss=0.357, loss_mean=0.345][A2026-01-26 20:02:55.161 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  51%|█████     | 2295/4533 [6:15:00<6:50:54, 11.02s/it, gpt_loss=0.334, loss_mean=0.344][A
+Train step of epoch 0:  51%|█████     | 2296/4533 [6:15:00<6:27:45, 10.40s/it, gpt_loss=0.334, loss_mean=0.344][A2026-01-26 20:03:04.194 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  51%|█████     | 2296/4533 [6:15:09<6:27:45, 10.40s/it, gpt_loss=0.326, loss_mean=0.342][A
+Train step of epoch 0:  51%|█████     | 2297/4533 [6:15:09<6:17:54, 10.14s/it, gpt_loss=0.326, loss_mean=0.342][A2026-01-26 20:03:13.704 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  51%|█████     | 2297/4533 [6:15:21<6:17:54, 10.14s/it, gpt_loss=0.408, loss_mean=0.349][A
+Train step of epoch 0:  51%|█████     | 2298/4533 [6:15:21<6:42:14, 10.80s/it, gpt_loss=0.408, loss_mean=0.349][A2026-01-26 20:03:25.965 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  51%|█████     | 2298/4533 [6:15:33<6:42:14, 10.80s/it, gpt_loss=0.353, loss_mean=0.349][A
+Train step of epoch 0:  51%|█████     | 2299/4533 [6:15:33<6:55:26, 11.16s/it, gpt_loss=0.353, loss_mean=0.349][A
+[LID Router Debug] Step: 2300
+Batch Size: 14
+Audio Batch Size: 163
+LID Assignments: [5, 1, 2, 0, 5, 9, 4, 5, 2, 5, 2, 3, 3, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 20:03:37.890 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+[2026-01-26 20:03:45,986] [INFO] [logging.py:96:log_dist] [Rank 0] step=2300, skipped=0, lr=[1.8751891538267626e-05, 1.8751891538267626e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 20:03:45,987] [INFO] [timer.py:260:stop] epoch=0/micro_step=2300/global_step=2300, RunningAvgSamplesPerSec=5.73543791650421, CurrSamplesPerSec=6.445955599008972, MemAllocated=14.6GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  51%|█████     | 2299/4533 [6:15:42<6:55:26, 11.16s/it, gpt_loss=0.257, loss_mean=0.34] [A
+Train step of epoch 0:  51%|█████     | 2300/4533 [6:15:42<6:27:52, 10.42s/it, gpt_loss=0.257, loss_mean=0.34][A2026-01-26 20:03:46.594 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  51%|█████     | 2300/4533 [6:15:51<6:27:52, 10.42s/it, gpt_loss=0.312, loss_mean=0.337][A
+Train step of epoch 0:  51%|█████     | 2301/4533 [6:15:51<6:16:35, 10.12s/it, gpt_loss=0.312, loss_mean=0.337][A2026-01-26 20:03:56.167 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  51%|█████     | 2301/4533 [6:16:01<6:16:35, 10.12s/it, gpt_loss=0.294, loss_mean=0.333][A
+Train step of epoch 0:  51%|█████     | 2302/4533 [6:16:01<6:05:19,  9.83s/it, gpt_loss=0.294, loss_mean=0.333][A2026-01-26 20:04:04.964 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  51%|█████     | 2302/4533 [6:16:09<6:05:19,  9.83s/it, gpt_loss=0.226, loss_mean=0.322][A
+Train step of epoch 0:  51%|█████     | 2303/4533 [6:16:09<5:53:31,  9.51s/it, gpt_loss=0.226, loss_mean=0.322][A2026-01-26 20:04:13.755 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  51%|█████     | 2303/4533 [6:16:19<5:53:31,  9.51s/it, gpt_loss=0.359, loss_mean=0.326][A
+Train step of epoch 0:  51%|█████     | 2304/4533 [6:16:19<5:52:37,  9.49s/it, gpt_loss=0.359, loss_mean=0.326][A2026-01-26 20:04:23.364 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  51%|█████     | 2304/4533 [6:16:28<5:52:37,  9.49s/it, gpt_loss=0.248, loss_mean=0.318][A
+Train step of epoch 0:  51%|█████     | 2305/4533 [6:16:28<5:44:36,  9.28s/it, gpt_loss=0.248, loss_mean=0.318][A2026-01-26 20:04:32.161 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  51%|█████     | 2305/4533 [6:16:36<5:44:36,  9.28s/it, gpt_loss=0.358, loss_mean=0.322][A
+Train step of epoch 0:  51%|█████     | 2306/4533 [6:16:36<5:38:55,  9.13s/it, gpt_loss=0.358, loss_mean=0.322][A2026-01-26 20:04:40.790 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  51%|█████     | 2306/4533 [6:16:45<5:38:55,  9.13s/it, gpt_loss=0.271, loss_mean=0.317][A
+Train step of epoch 0:  51%|█████     | 2307/4533 [6:16:45<5:31:56,  8.95s/it, gpt_loss=0.271, loss_mean=0.317][A2026-01-26 20:04:49.652 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  51%|█████     | 2307/4533 [6:16:55<5:31:56,  8.95s/it, gpt_loss=0.285, loss_mean=0.314][A
+Train step of epoch 0:  51%|█████     | 2308/4533 [6:16:55<5:40:34,  9.18s/it, gpt_loss=0.285, loss_mean=0.314][A2026-01-26 20:04:59.281 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  51%|█████     | 2308/4533 [6:17:04<5:40:34,  9.18s/it, gpt_loss=0.217, loss_mean=0.304][A
+Train step of epoch 0:  51%|█████     | 2309/4533 [6:17:04<5:37:56,  9.12s/it, gpt_loss=0.217, loss_mean=0.304][A
+[LID Router Debug] Step: 2310
+Batch Size: 14
+Audio Batch Size: 174
+LID Assignments: [2, 3, 1, 3, 1, 9, 2, 4, 4, 0, 5, 4, 0, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 20:05:08.097 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  51%|█████     | 2309/4533 [6:17:15<5:37:56,  9.12s/it, gpt_loss=0.373, loss_mean=0.311][A
+Train step of epoch 0:  51%|█████     | 2310/4533 [6:17:15<6:06:37,  9.90s/it, gpt_loss=0.373, loss_mean=0.311][A2026-01-26 20:05:19.684 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  51%|█████     | 2310/4533 [6:17:27<6:06:37,  9.90s/it, gpt_loss=0.357, loss_mean=0.316][A
+Train step of epoch 0:  51%|█████     | 2311/4533 [6:17:27<6:25:37, 10.41s/it, gpt_loss=0.357, loss_mean=0.316][A2026-01-26 20:05:31.552 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  51%|█████     | 2311/4533 [6:17:36<6:25:37, 10.41s/it, gpt_loss=0.391, loss_mean=0.323][A
+Train step of epoch 0:  51%|█████     | 2312/4533 [6:17:36<6:08:13,  9.95s/it, gpt_loss=0.391, loss_mean=0.323][A2026-01-26 20:05:40.289 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  51%|█████     | 2312/4533 [6:17:48<6:08:13,  9.95s/it, gpt_loss=0.346, loss_mean=0.325][A
+Train step of epoch 0:  51%|█████     | 2313/4533 [6:17:48<6:28:31, 10.50s/it, gpt_loss=0.346, loss_mean=0.325][A2026-01-26 20:05:52.360 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  51%|█████     | 2313/4533 [6:17:58<6:28:31, 10.50s/it, gpt_loss=0.339, loss_mean=0.327][A
+Train step of epoch 0:  51%|█████     | 2314/4533 [6:17:58<6:22:23, 10.34s/it, gpt_loss=0.339, loss_mean=0.327][A2026-01-26 20:06:02.164 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  51%|█████     | 2314/4533 [6:18:07<6:22:23, 10.34s/it, gpt_loss=0.289, loss_mean=0.323][A
+Train step of epoch 0:  51%|█████     | 2315/4533 [6:18:07<6:14:18, 10.13s/it, gpt_loss=0.289, loss_mean=0.323][A2026-01-26 20:06:11.778 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  51%|█████     | 2315/4533 [6:18:17<6:14:18, 10.13s/it, gpt_loss=0.399, loss_mean=0.331][A
+Train step of epoch 0:  51%|█████     | 2316/4533 [6:18:17<6:08:10,  9.96s/it, gpt_loss=0.399, loss_mean=0.331][A2026-01-26 20:06:21.497 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  51%|█████     | 2316/4533 [6:18:26<6:08:10,  9.96s/it, gpt_loss=0.349, loss_mean=0.332][A
+Train step of epoch 0:  51%|█████     | 2317/4533 [6:18:26<5:57:20,  9.68s/it, gpt_loss=0.349, loss_mean=0.332][A2026-01-26 20:06:30.463 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  51%|█████     | 2317/4533 [6:18:35<5:57:20,  9.68s/it, gpt_loss=0.317, loss_mean=0.331][A
+Train step of epoch 0:  51%|█████     | 2318/4533 [6:18:35<5:53:42,  9.58s/it, gpt_loss=0.317, loss_mean=0.331][A2026-01-26 20:06:39.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  51%|█████     | 2318/4533 [6:18:44<5:53:42,  9.58s/it, gpt_loss=0.224, loss_mean=0.32] [A
+Train step of epoch 0:  51%|█████     | 2319/4533 [6:18:44<5:44:48,  9.34s/it, gpt_loss=0.224, loss_mean=0.32][A
+[LID Router Debug] Step: 2320
+Batch Size: 14
+Audio Batch Size: 195
+LID Assignments: [9, 2, 5, 4, 3, 2, 4, 3, 5, 6, 3, 6, 3, 2]
+Active Experts in Batch: {2, 3, 4, 5, 6, 9}
+2026-01-26 20:06:48.602 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  51%|█████     | 2319/4533 [6:18:53<5:44:48,  9.34s/it, gpt_loss=0.24, loss_mean=0.312][A
+Train step of epoch 0:  51%|█████     | 2320/4533 [6:18:53<5:40:13,  9.22s/it, gpt_loss=0.24, loss_mean=0.312][A2026-01-26 20:06:57.596 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  51%|█████     | 2320/4533 [6:19:03<5:40:13,  9.22s/it, gpt_loss=0.27, loss_mean=0.308][A
+Train step of epoch 0:  51%|█████     | 2321/4533 [6:19:03<5:44:40,  9.35s/it, gpt_loss=0.27, loss_mean=0.308][A2026-01-26 20:07:07.074 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  51%|█████     | 2321/4533 [6:19:11<5:44:40,  9.35s/it, gpt_loss=0.245, loss_mean=0.302][A
+Train step of epoch 0:  51%|█████     | 2322/4533 [6:19:11<5:38:02,  9.17s/it, gpt_loss=0.245, loss_mean=0.302][A2026-01-26 20:07:15.767 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  51%|█████     | 2322/4533 [6:19:20<5:38:02,  9.17s/it, gpt_loss=0.318, loss_mean=0.303][A
+Train step of epoch 0:  51%|█████     | 2323/4533 [6:19:20<5:35:14,  9.10s/it, gpt_loss=0.318, loss_mean=0.303][A2026-01-26 20:07:24.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  51%|█████     | 2323/4533 [6:19:29<5:35:14,  9.10s/it, gpt_loss=0.269, loss_mean=0.3]  [A
+Train step of epoch 0:  51%|█████▏    | 2324/4533 [6:19:29<5:31:57,  9.02s/it, gpt_loss=0.269, loss_mean=0.3][A2026-01-26 20:07:33.595 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  51%|█████▏    | 2324/4533 [6:19:38<5:31:57,  9.02s/it, gpt_loss=0.27, loss_mean=0.297][A
+Train step of epoch 0:  51%|█████▏    | 2325/4533 [6:19:38<5:30:00,  8.97s/it, gpt_loss=0.27, loss_mean=0.297][A2026-01-26 20:07:41.983 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  51%|█████▏    | 2325/4533 [6:19:47<5:30:00,  8.97s/it, gpt_loss=0.3, loss_mean=0.297] [A
+Train step of epoch 0:  51%|█████▏    | 2326/4533 [6:19:47<5:33:48,  9.07s/it, gpt_loss=0.3, loss_mean=0.297][A2026-01-26 20:07:51.801 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  51%|█████▏    | 2326/4533 [6:19:56<5:33:48,  9.07s/it, gpt_loss=0.338, loss_mean=0.301][A
+Train step of epoch 0:  51%|█████▏    | 2327/4533 [6:19:56<5:34:19,  9.09s/it, gpt_loss=0.338, loss_mean=0.301][A2026-01-26 20:08:00.979 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  51%|█████▏    | 2327/4533 [6:20:05<5:34:19,  9.09s/it, gpt_loss=0.278, loss_mean=0.299][A
+Train step of epoch 0:  51%|█████▏    | 2328/4533 [6:20:05<5:30:34,  9.00s/it, gpt_loss=0.278, loss_mean=0.299][A2026-01-26 20:08:09.669 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  51%|█████▏    | 2328/4533 [6:20:17<5:30:34,  9.00s/it, gpt_loss=0.385, loss_mean=0.307][A
+Train step of epoch 0:  51%|█████▏    | 2329/4533 [6:20:17<6:01:24,  9.84s/it, gpt_loss=0.385, loss_mean=0.307][A
+[LID Router Debug] Step: 2330
+Batch Size: 14
+Audio Batch Size: 137
+LID Assignments: [2, 3, 6, 1, 5, 2, 0, 2, 1, 4, 3, 1, 4, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6}
+2026-01-26 20:08:21.659 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  51%|█████▏    | 2329/4533 [6:20:26<6:01:24,  9.84s/it, gpt_loss=0.25, loss_mean=0.302] [A
+Train step of epoch 0:  51%|█████▏    | 2330/4533 [6:20:26<5:50:14,  9.54s/it, gpt_loss=0.25, loss_mean=0.302][A2026-01-26 20:08:30.271 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  51%|█████▏    | 2330/4533 [6:20:35<5:50:14,  9.54s/it, gpt_loss=0.333, loss_mean=0.305][A
+Train step of epoch 0:  51%|█████▏    | 2331/4533 [6:20:35<5:49:35,  9.53s/it, gpt_loss=0.333, loss_mean=0.305][A2026-01-26 20:08:39.484 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  51%|█████▏    | 2331/4533 [6:20:45<5:49:35,  9.53s/it, gpt_loss=0.289, loss_mean=0.303][A
+Train step of epoch 0:  51%|█████▏    | 2332/4533 [6:20:45<5:47:47,  9.48s/it, gpt_loss=0.289, loss_mean=0.303][A2026-01-26 20:08:49.159 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  51%|█████▏    | 2332/4533 [6:20:56<5:47:47,  9.48s/it, gpt_loss=0.357, loss_mean=0.309][A
+Train step of epoch 0:  51%|█████▏    | 2333/4533 [6:20:56<6:10:39, 10.11s/it, gpt_loss=0.357, loss_mean=0.309][A2026-01-26 20:09:00.786 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  51%|█████▏    | 2333/4533 [6:21:05<6:10:39, 10.11s/it, gpt_loss=0.291, loss_mean=0.307][A
+Train step of epoch 0:  51%|█████▏    | 2334/4533 [6:21:05<5:56:59,  9.74s/it, gpt_loss=0.291, loss_mean=0.307][A2026-01-26 20:09:09.775 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  51%|█████▏    | 2334/4533 [6:21:17<5:56:59,  9.74s/it, gpt_loss=0.435, loss_mean=0.32] [A
+Train step of epoch 0:  52%|█████▏    | 2335/4533 [6:21:17<6:19:12, 10.35s/it, gpt_loss=0.435, loss_mean=0.32][A2026-01-26 20:09:21.472 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  52%|█████▏    | 2335/4533 [6:21:26<6:19:12, 10.35s/it, gpt_loss=0.365, loss_mean=0.324][A
+Train step of epoch 0:  52%|█████▏    | 2336/4533 [6:21:26<6:10:41, 10.12s/it, gpt_loss=0.365, loss_mean=0.324][A2026-01-26 20:09:30.854 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  52%|█████▏    | 2336/4533 [6:21:35<6:10:41, 10.12s/it, gpt_loss=0.226, loss_mean=0.314][A
+Train step of epoch 0:  52%|█████▏    | 2337/4533 [6:21:35<5:53:23,  9.66s/it, gpt_loss=0.226, loss_mean=0.314][A2026-01-26 20:09:39.670 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  52%|█████▏    | 2337/4533 [6:21:47<5:53:23,  9.66s/it, gpt_loss=0.406, loss_mean=0.323][A
+Train step of epoch 0:  52%|█████▏    | 2338/4533 [6:21:47<6:20:05, 10.39s/it, gpt_loss=0.406, loss_mean=0.323][A2026-01-26 20:09:51.488 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  52%|█████▏    | 2338/4533 [6:21:56<6:20:05, 10.39s/it, gpt_loss=0.347, loss_mean=0.326][A
+Train step of epoch 0:  52%|█████▏    | 2339/4533 [6:21:56<6:01:47,  9.89s/it, gpt_loss=0.347, loss_mean=0.326][A
+[LID Router Debug] Step: 2340
+Batch Size: 14
+Audio Batch Size: 160
+LID Assignments: [9, 1, 4, 0, 4, 1, 4, 1, 3, 2, 2, 0, 3, 6]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-26 20:10:00.484 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  52%|█████▏    | 2339/4533 [6:22:06<6:01:47,  9.89s/it, gpt_loss=0.299, loss_mean=0.323][A
+Train step of epoch 0:  52%|█████▏    | 2340/4533 [6:22:06<6:01:54,  9.90s/it, gpt_loss=0.299, loss_mean=0.323][A2026-01-26 20:10:10.279 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  52%|█████▏    | 2340/4533 [6:22:15<6:01:54,  9.90s/it, gpt_loss=0.308, loss_mean=0.322][A
+Train step of epoch 0:  52%|█████▏    | 2341/4533 [6:22:15<5:50:30,  9.59s/it, gpt_loss=0.308, loss_mean=0.322][A2026-01-26 20:10:19.191 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  52%|█████▏    | 2341/4533 [6:22:24<5:50:30,  9.59s/it, gpt_loss=0.319, loss_mean=0.321][A
+Train step of epoch 0:  52%|█████▏    | 2342/4533 [6:22:24<5:51:24,  9.62s/it, gpt_loss=0.319, loss_mean=0.321][A2026-01-26 20:10:29.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  52%|█████▏    | 2342/4533 [6:22:36<5:51:24,  9.62s/it, gpt_loss=0.366, loss_mean=0.326][A
+Train step of epoch 0:  52%|█████▏    | 2343/4533 [6:22:36<6:16:51, 10.32s/it, gpt_loss=0.366, loss_mean=0.326][A2026-01-26 20:10:40.971 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  52%|█████▏    | 2343/4533 [6:22:45<6:16:51, 10.32s/it, gpt_loss=0.308, loss_mean=0.324][A
+Train step of epoch 0:  52%|█████▏    | 2344/4533 [6:22:45<6:00:48,  9.89s/it, gpt_loss=0.308, loss_mean=0.324][A2026-01-26 20:10:49.765 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  52%|█████▏    | 2344/4533 [6:22:55<6:00:48,  9.89s/it, gpt_loss=0.316, loss_mean=0.323][A
+Train step of epoch 0:  52%|█████▏    | 2345/4533 [6:22:55<5:56:48,  9.78s/it, gpt_loss=0.316, loss_mean=0.323][A2026-01-26 20:10:59.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  52%|█████▏    | 2345/4533 [6:23:07<5:56:48,  9.78s/it, gpt_loss=0.38, loss_mean=0.329] [A
+Train step of epoch 0:  52%|█████▏    | 2346/4533 [6:23:07<6:19:45, 10.42s/it, gpt_loss=0.38, loss_mean=0.329][A2026-01-26 20:11:11.197 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  52%|█████▏    | 2346/4533 [6:23:16<6:19:45, 10.42s/it, gpt_loss=0.269, loss_mean=0.323][A
+Train step of epoch 0:  52%|█████▏    | 2347/4533 [6:23:16<6:02:46,  9.96s/it, gpt_loss=0.269, loss_mean=0.323][A2026-01-26 20:11:20.191 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  52%|█████▏    | 2347/4533 [6:23:25<6:02:46,  9.96s/it, gpt_loss=0.355, loss_mean=0.326][A
+Train step of epoch 0:  52%|█████▏    | 2348/4533 [6:23:25<6:00:00,  9.89s/it, gpt_loss=0.355, loss_mean=0.326][A2026-01-26 20:11:29.894 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  52%|█████▏    | 2348/4533 [6:23:37<6:00:00,  9.89s/it, gpt_loss=0.382, loss_mean=0.332][A
+Train step of epoch 0:  52%|█████▏    | 2349/4533 [6:23:37<6:23:20, 10.53s/it, gpt_loss=0.382, loss_mean=0.332][A
+[LID Router Debug] Step: 2350
+Batch Size: 14
+Audio Batch Size: 156
+LID Assignments: [9, 2, 2, 1, 9, 6, 1, 3, 5, 5, 0, 9, 3, 1]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-26 20:11:41.801 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  52%|█████▏    | 2349/4533 [6:23:46<6:23:20, 10.53s/it, gpt_loss=0.331, loss_mean=0.332][A
+Train step of epoch 0:  52%|█████▏    | 2350/4533 [6:23:46<6:04:02, 10.01s/it, gpt_loss=0.331, loss_mean=0.332][A2026-01-26 20:11:50.455 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  52%|█████▏    | 2350/4533 [6:23:55<6:04:02, 10.01s/it, gpt_loss=0.291, loss_mean=0.328][A
+Train step of epoch 0:  52%|█████▏    | 2351/4533 [6:23:55<5:54:49,  9.76s/it, gpt_loss=0.291, loss_mean=0.328][A2026-01-26 20:11:59.272 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  52%|█████▏    | 2351/4533 [6:24:04<5:54:49,  9.76s/it, gpt_loss=0.215, loss_mean=0.316][A
+Train step of epoch 0:  52%|█████▏    | 2352/4533 [6:24:04<5:39:44,  9.35s/it, gpt_loss=0.215, loss_mean=0.316][A2026-01-26 20:12:07.789 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  52%|█████▏    | 2352/4533 [6:24:15<5:39:44,  9.35s/it, gpt_loss=0.384, loss_mean=0.323][A
+Train step of epoch 0:  52%|█████▏    | 2353/4533 [6:24:15<6:01:57,  9.96s/it, gpt_loss=0.384, loss_mean=0.323][A2026-01-26 20:12:19.500 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  52%|█████▏    | 2353/4533 [6:24:24<6:01:57,  9.96s/it, gpt_loss=0.238, loss_mean=0.315][A
+Train step of epoch 0:  52%|█████▏    | 2354/4533 [6:24:24<5:49:59,  9.64s/it, gpt_loss=0.238, loss_mean=0.315][A2026-01-26 20:12:28.569 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  52%|█████▏    | 2354/4533 [6:24:34<5:49:59,  9.64s/it, gpt_loss=0.273, loss_mean=0.31] [A
+Train step of epoch 0:  52%|█████▏    | 2355/4533 [6:24:34<5:50:00,  9.64s/it, gpt_loss=0.273, loss_mean=0.31][A2026-01-26 20:12:37.986 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  52%|█████▏    | 2355/4533 [6:24:42<5:50:00,  9.64s/it, gpt_loss=0.251, loss_mean=0.304][A
+Train step of epoch 0:  52%|█████▏    | 2356/4533 [6:24:42<5:38:38,  9.33s/it, gpt_loss=0.251, loss_mean=0.304][A2026-01-26 20:12:46.587 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  52%|█████▏    | 2356/4533 [6:24:51<5:38:38,  9.33s/it, gpt_loss=0.298, loss_mean=0.304][A
+Train step of epoch 0:  52%|█████▏    | 2357/4533 [6:24:51<5:30:15,  9.11s/it, gpt_loss=0.298, loss_mean=0.304][A2026-01-26 20:12:55.465 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  52%|█████▏    | 2357/4533 [6:25:03<5:30:15,  9.11s/it, gpt_loss=0.362, loss_mean=0.31] [A
+Train step of epoch 0:  52%|█████▏    | 2358/4533 [6:25:03<6:01:25,  9.97s/it, gpt_loss=0.362, loss_mean=0.31][A2026-01-26 20:13:07.392 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  52%|█████▏    | 2358/4533 [6:25:12<6:01:25,  9.97s/it, gpt_loss=0.331, loss_mean=0.312][A
+Train step of epoch 0:  52%|█████▏    | 2359/4533 [6:25:12<5:58:18,  9.89s/it, gpt_loss=0.331, loss_mean=0.312][A
+[LID Router Debug] Step: 2360
+Batch Size: 14
+Audio Batch Size: 113
+LID Assignments: [4, 9, 5, 2, 5, 4, 5, 9, 1, 1, 5, 1, 5, 4]
+Active Experts in Batch: {1, 2, 4, 5, 9}
+2026-01-26 20:13:16.965 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  52%|█████▏    | 2359/4533 [6:25:22<5:58:18,  9.89s/it, gpt_loss=0.35, loss_mean=0.316] [A
+Train step of epoch 0:  52%|█████▏    | 2360/4533 [6:25:22<5:53:29,  9.76s/it, gpt_loss=0.35, loss_mean=0.316][A2026-01-26 20:13:26.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  52%|█████▏    | 2360/4533 [6:25:32<5:53:29,  9.76s/it, gpt_loss=0.313, loss_mean=0.315][A
+Train step of epoch 0:  52%|█████▏    | 2361/4533 [6:25:32<5:53:22,  9.76s/it, gpt_loss=0.313, loss_mean=0.315][A2026-01-26 20:13:36.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  52%|█████▏    | 2361/4533 [6:25:41<5:53:22,  9.76s/it, gpt_loss=0.33, loss_mean=0.317] [A
+Train step of epoch 0:  52%|█████▏    | 2362/4533 [6:25:41<5:52:43,  9.75s/it, gpt_loss=0.33, loss_mean=0.317][A2026-01-26 20:13:45.890 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  52%|█████▏    | 2362/4533 [6:25:53<5:52:43,  9.75s/it, gpt_loss=0.509, loss_mean=0.336][A
+Train step of epoch 0:  52%|█████▏    | 2363/4533 [6:25:53<6:18:00, 10.45s/it, gpt_loss=0.509, loss_mean=0.336][A2026-01-26 20:13:58.084 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  52%|█████▏    | 2363/4533 [6:26:05<6:18:00, 10.45s/it, gpt_loss=0.374, loss_mean=0.34] [A
+Train step of epoch 0:  52%|█████▏    | 2364/4533 [6:26:05<6:31:05, 10.82s/it, gpt_loss=0.374, loss_mean=0.34][A2026-01-26 20:14:09.559 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  52%|█████▏    | 2364/4533 [6:26:14<6:31:05, 10.82s/it, gpt_loss=0.372, loss_mean=0.343][A
+Train step of epoch 0:  52%|█████▏    | 2365/4533 [6:26:14<6:06:45, 10.15s/it, gpt_loss=0.372, loss_mean=0.343][A2026-01-26 20:14:18.455 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  52%|█████▏    | 2365/4533 [6:26:23<6:06:45, 10.15s/it, gpt_loss=0.27, loss_mean=0.336] [A
+Train step of epoch 0:  52%|█████▏    | 2366/4533 [6:26:23<5:59:39,  9.96s/it, gpt_loss=0.27, loss_mean=0.336][A2026-01-26 20:14:27.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  52%|█████▏    | 2366/4533 [6:26:32<5:59:39,  9.96s/it, gpt_loss=0.268, loss_mean=0.329][A
+Train step of epoch 0:  52%|█████▏    | 2367/4533 [6:26:32<5:47:42,  9.63s/it, gpt_loss=0.268, loss_mean=0.329][A2026-01-26 20:14:36.773 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  52%|█████▏    | 2367/4533 [6:26:41<5:47:42,  9.63s/it, gpt_loss=0.335, loss_mean=0.33] [A
+Train step of epoch 0:  52%|█████▏    | 2368/4533 [6:26:41<5:37:24,  9.35s/it, gpt_loss=0.335, loss_mean=0.33][A2026-01-26 20:14:45.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  52%|█████▏    | 2368/4533 [6:26:53<5:37:24,  9.35s/it, gpt_loss=0.339, loss_mean=0.331][A
+Train step of epoch 0:  52%|█████▏    | 2369/4533 [6:26:53<6:06:37, 10.17s/it, gpt_loss=0.339, loss_mean=0.331][A
+[LID Router Debug] Step: 2370
+Batch Size: 14
+Audio Batch Size: 155
+LID Assignments: [2, 2, 0, 3, 2, 4, 9, 3, 2, 9, 2, 5, 0, 2]
+Active Experts in Batch: {0, 2, 3, 4, 5, 9}
+2026-01-26 20:14:57.551 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  52%|█████▏    | 2369/4533 [6:27:05<6:06:37, 10.17s/it, gpt_loss=0.402, loss_mean=0.338][A
+Train step of epoch 0:  52%|█████▏    | 2370/4533 [6:27:05<6:28:33, 10.78s/it, gpt_loss=0.402, loss_mean=0.338][A2026-01-26 20:15:09.687 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  52%|█████▏    | 2370/4533 [6:27:14<6:28:33, 10.78s/it, gpt_loss=0.375, loss_mean=0.342][A
+Train step of epoch 0:  52%|█████▏    | 2371/4533 [6:27:14<6:08:23, 10.22s/it, gpt_loss=0.375, loss_mean=0.342][A2026-01-26 20:15:18.390 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  52%|█████▏    | 2371/4533 [6:27:23<6:08:23, 10.22s/it, gpt_loss=0.235, loss_mean=0.331][A
+Train step of epoch 0:  52%|█████▏    | 2372/4533 [6:27:23<5:52:55,  9.80s/it, gpt_loss=0.235, loss_mean=0.331][A2026-01-26 20:15:27.500 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  52%|█████▏    | 2372/4533 [6:27:32<5:52:55,  9.80s/it, gpt_loss=0.26, loss_mean=0.324] [A
+Train step of epoch 0:  52%|█████▏    | 2373/4533 [6:27:32<5:44:29,  9.57s/it, gpt_loss=0.26, loss_mean=0.324][A2026-01-26 20:15:36.363 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  52%|█████▏    | 2373/4533 [6:27:41<5:44:29,  9.57s/it, gpt_loss=0.304, loss_mean=0.322][A
+Train step of epoch 0:  52%|█████▏    | 2374/4533 [6:27:41<5:42:57,  9.53s/it, gpt_loss=0.304, loss_mean=0.322][A2026-01-26 20:15:45.768 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  52%|█████▏    | 2374/4533 [6:27:50<5:42:57,  9.53s/it, gpt_loss=0.323, loss_mean=0.322][A
+Train step of epoch 0:  52%|█████▏    | 2375/4533 [6:27:50<5:36:20,  9.35s/it, gpt_loss=0.323, loss_mean=0.322][A2026-01-26 20:15:54.767 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  52%|█████▏    | 2375/4533 [6:28:02<5:36:20,  9.35s/it, gpt_loss=0.445, loss_mean=0.334][A
+Train step of epoch 0:  52%|█████▏    | 2376/4533 [6:28:02<6:04:00, 10.13s/it, gpt_loss=0.445, loss_mean=0.334][A2026-01-26 20:16:06.654 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  52%|█████▏    | 2376/4533 [6:28:14<6:04:00, 10.13s/it, gpt_loss=0.422, loss_mean=0.343][A
+Train step of epoch 0:  52%|█████▏    | 2377/4533 [6:28:14<6:21:32, 10.62s/it, gpt_loss=0.422, loss_mean=0.343][A2026-01-26 20:16:18.400 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  52%|█████▏    | 2377/4533 [6:28:23<6:21:32, 10.62s/it, gpt_loss=0.33, loss_mean=0.342] [A
+Train step of epoch 0:  52%|█████▏    | 2378/4533 [6:28:23<6:08:22, 10.26s/it, gpt_loss=0.33, loss_mean=0.342][A2026-01-26 20:16:28.075 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  52%|█████▏    | 2378/4533 [6:28:33<6:08:22, 10.26s/it, gpt_loss=0.292, loss_mean=0.337][A
+Train step of epoch 0:  52%|█████▏    | 2379/4533 [6:28:33<5:56:32,  9.93s/it, gpt_loss=0.292, loss_mean=0.337][A
+[LID Router Debug] Step: 2380
+Batch Size: 14
+Audio Batch Size: 141
+LID Assignments: [0, 5, 4, 1, 0, 2, 9, 9, 0, 5, 2, 9, 2, 4]
+Active Experts in Batch: {0, 1, 2, 4, 5, 9}
+2026-01-26 20:16:37.197 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  52%|█████▏    | 2379/4533 [6:28:41<5:56:32,  9.93s/it, gpt_loss=0.225, loss_mean=0.326][A
+Train step of epoch 0:  53%|█████▎    | 2380/4533 [6:28:41<5:45:03,  9.62s/it, gpt_loss=0.225, loss_mean=0.326][A2026-01-26 20:16:45.973 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  53%|█████▎    | 2380/4533 [6:28:53<5:45:03,  9.62s/it, gpt_loss=0.504, loss_mean=0.343][A
+Train step of epoch 0:  53%|█████▎    | 2381/4533 [6:28:53<6:09:06, 10.29s/it, gpt_loss=0.504, loss_mean=0.343][A2026-01-26 20:16:57.875 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  53%|█████▎    | 2381/4533 [6:29:05<6:09:06, 10.29s/it, gpt_loss=0.315, loss_mean=0.341][A
+Train step of epoch 0:  53%|█████▎    | 2382/4533 [6:29:05<6:26:05, 10.77s/it, gpt_loss=0.315, loss_mean=0.341][A2026-01-26 20:17:09.765 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  53%|█████▎    | 2382/4533 [6:29:15<6:26:05, 10.77s/it, gpt_loss=0.328, loss_mean=0.339][A
+Train step of epoch 0:  53%|█████▎    | 2383/4533 [6:29:15<6:14:40, 10.46s/it, gpt_loss=0.328, loss_mean=0.339][A2026-01-26 20:17:19.399 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  53%|█████▎    | 2383/4533 [6:29:24<6:14:40, 10.46s/it, gpt_loss=0.373, loss_mean=0.343][A
+Train step of epoch 0:  53%|█████▎    | 2384/4533 [6:29:24<6:05:35, 10.21s/it, gpt_loss=0.373, loss_mean=0.343][A2026-01-26 20:17:28.970 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  53%|█████▎    | 2384/4533 [6:29:34<6:05:35, 10.21s/it, gpt_loss=0.34, loss_mean=0.342] [A
+Train step of epoch 0:  53%|█████▎    | 2385/4533 [6:29:34<5:56:35,  9.96s/it, gpt_loss=0.34, loss_mean=0.342][A2026-01-26 20:17:38.183 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  53%|█████▎    | 2385/4533 [6:29:43<5:56:35,  9.96s/it, gpt_loss=0.334, loss_mean=0.342][A
+Train step of epoch 0:  53%|█████▎    | 2386/4533 [6:29:43<5:49:13,  9.76s/it, gpt_loss=0.334, loss_mean=0.342][A2026-01-26 20:17:47.379 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  53%|█████▎    | 2386/4533 [6:29:52<5:49:13,  9.76s/it, gpt_loss=0.31, loss_mean=0.338] [A
+Train step of epoch 0:  53%|█████▎    | 2387/4533 [6:29:52<5:42:26,  9.57s/it, gpt_loss=0.31, loss_mean=0.338][A2026-01-26 20:17:56.982 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  53%|█████▎    | 2387/4533 [6:30:02<5:42:26,  9.57s/it, gpt_loss=0.313, loss_mean=0.336][A
+Train step of epoch 0:  53%|█████▎    | 2388/4533 [6:30:02<5:42:18,  9.58s/it, gpt_loss=0.313, loss_mean=0.336][A2026-01-26 20:18:06.369 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  53%|█████▎    | 2388/4533 [6:30:11<5:42:18,  9.58s/it, gpt_loss=0.313, loss_mean=0.334][A
+Train step of epoch 0:  53%|█████▎    | 2389/4533 [6:30:11<5:40:34,  9.53s/it, gpt_loss=0.313, loss_mean=0.334][A
+[LID Router Debug] Step: 2390
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [2, 2, 2, 5, 1, 5, 3, 2, 6, 2, 0, 5, 1, 3]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6}
+2026-01-26 20:18:15.801 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  53%|█████▎    | 2389/4533 [6:30:23<5:40:34,  9.53s/it, gpt_loss=0.386, loss_mean=0.339][A
+Train step of epoch 0:  53%|█████▎    | 2390/4533 [6:30:23<6:03:12, 10.17s/it, gpt_loss=0.386, loss_mean=0.339][A2026-01-26 20:18:27.189 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  53%|█████▎    | 2390/4533 [6:30:32<6:03:12, 10.17s/it, gpt_loss=0.269, loss_mean=0.332][A
+Train step of epoch 0:  53%|█████▎    | 2391/4533 [6:30:32<5:47:28,  9.73s/it, gpt_loss=0.269, loss_mean=0.332][A2026-01-26 20:18:36.159 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  53%|█████▎    | 2391/4533 [6:30:43<5:47:28,  9.73s/it, gpt_loss=0.319, loss_mean=0.331][A
+Train step of epoch 0:  53%|█████▎    | 2392/4533 [6:30:43<6:06:11, 10.26s/it, gpt_loss=0.319, loss_mean=0.331][A2026-01-26 20:18:47.777 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  53%|█████▎    | 2392/4533 [6:30:52<6:06:11, 10.26s/it, gpt_loss=0.293, loss_mean=0.327][A
+Train step of epoch 0:  53%|█████▎    | 2393/4533 [6:30:52<5:51:45,  9.86s/it, gpt_loss=0.293, loss_mean=0.327][A2026-01-26 20:18:56.577 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  53%|█████▎    | 2393/4533 [6:31:01<5:51:45,  9.86s/it, gpt_loss=0.224, loss_mean=0.317][A
+Train step of epoch 0:  53%|█████▎    | 2394/4533 [6:31:01<5:38:20,  9.49s/it, gpt_loss=0.224, loss_mean=0.317][A2026-01-26 20:19:05.460 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  53%|█████▎    | 2394/4533 [6:31:10<5:38:20,  9.49s/it, gpt_loss=0.351, loss_mean=0.32] [A
+Train step of epoch 0:  53%|█████▎    | 2395/4533 [6:31:10<5:33:03,  9.35s/it, gpt_loss=0.351, loss_mean=0.32][A2026-01-26 20:19:14.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  53%|█████▎    | 2395/4533 [6:31:19<5:33:03,  9.35s/it, gpt_loss=0.229, loss_mean=0.311][A
+Train step of epoch 0:  53%|█████▎    | 2396/4533 [6:31:19<5:28:23,  9.22s/it, gpt_loss=0.229, loss_mean=0.311][A2026-01-26 20:19:23.192 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  53%|█████▎    | 2396/4533 [6:31:30<5:28:23,  9.22s/it, gpt_loss=0.386, loss_mean=0.318][A
+Train step of epoch 0:  53%|█████▎    | 2397/4533 [6:31:31<5:56:01, 10.00s/it, gpt_loss=0.386, loss_mean=0.318][A2026-01-26 20:19:34.773 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  53%|█████▎    | 2397/4533 [6:31:39<5:56:01, 10.00s/it, gpt_loss=0.286, loss_mean=0.315][A
+Train step of epoch 0:  53%|█████▎    | 2398/4533 [6:31:39<5:43:06,  9.64s/it, gpt_loss=0.286, loss_mean=0.315][A2026-01-26 20:19:44.002 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  53%|█████▎    | 2398/4533 [6:31:48<5:43:06,  9.64s/it, gpt_loss=0.277, loss_mean=0.311][A
+Train step of epoch 0:  53%|█████▎    | 2399/4533 [6:31:48<5:34:24,  9.40s/it, gpt_loss=0.277, loss_mean=0.311][A
+[LID Router Debug] Step: 2400
+Batch Size: 14
+Audio Batch Size: 132
+LID Assignments: [1, 0, 4, 9, 3, 2, 6, 3, 1, 4, 6, 2, 5, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 20:19:52.787 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+[2026-01-26 20:20:00,741] [INFO] [logging.py:96:log_dist] [Rank 0] step=2400, skipped=0, lr=[1.8636628761958954e-05, 1.8636628761958954e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 20:20:00,742] [INFO] [timer.py:260:stop] epoch=0/micro_step=2400/global_step=2400, RunningAvgSamplesPerSec=5.736353813763179, CurrSamplesPerSec=6.466820109806611, MemAllocated=14.82GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  53%|█████▎    | 2399/4533 [6:31:57<5:34:24,  9.40s/it, gpt_loss=0.295, loss_mean=0.31] [A
+Train step of epoch 0:  53%|█████▎    | 2400/4533 [6:31:57<5:26:31,  9.18s/it, gpt_loss=0.295, loss_mean=0.31][A2026-01-26 20:20:01.554 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  53%|█████▎    | 2400/4533 [6:32:06<5:26:31,  9.18s/it, gpt_loss=0.286, loss_mean=0.307][A
+Train step of epoch 0:  53%|█████▎    | 2401/4533 [6:32:06<5:24:25,  9.13s/it, gpt_loss=0.286, loss_mean=0.307][A2026-01-26 20:20:10.566 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  53%|█████▎    | 2401/4533 [6:32:15<5:24:25,  9.13s/it, gpt_loss=0.279, loss_mean=0.305][A
+Train step of epoch 0:  53%|█████▎    | 2402/4533 [6:32:15<5:23:23,  9.11s/it, gpt_loss=0.279, loss_mean=0.305][A2026-01-26 20:20:19.404 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  53%|█████▎    | 2402/4533 [6:32:24<5:23:23,  9.11s/it, gpt_loss=0.345, loss_mean=0.309][A
+Train step of epoch 0:  53%|█████▎    | 2403/4533 [6:32:24<5:20:46,  9.04s/it, gpt_loss=0.345, loss_mean=0.309][A2026-01-26 20:20:28.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  53%|█████▎    | 2403/4533 [6:32:33<5:20:46,  9.04s/it, gpt_loss=0.29, loss_mean=0.307] [A
+Train step of epoch 0:  53%|█████▎    | 2404/4533 [6:32:33<5:19:34,  9.01s/it, gpt_loss=0.29, loss_mean=0.307][A2026-01-26 20:20:37.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  53%|█████▎    | 2404/4533 [6:32:44<5:19:34,  9.01s/it, gpt_loss=0.307, loss_mean=0.307][A
+Train step of epoch 0:  53%|█████▎    | 2405/4533 [6:32:44<5:46:27,  9.77s/it, gpt_loss=0.307, loss_mean=0.307][A2026-01-26 20:20:48.797 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  53%|█████▎    | 2405/4533 [6:32:54<5:46:27,  9.77s/it, gpt_loss=0.299, loss_mean=0.306][A
+Train step of epoch 0:  53%|█████▎    | 2406/4533 [6:32:54<5:46:12,  9.77s/it, gpt_loss=0.299, loss_mean=0.306][A2026-01-26 20:20:58.299 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  53%|█████▎    | 2406/4533 [6:33:05<5:46:12,  9.77s/it, gpt_loss=0.474, loss_mean=0.323][A
+Train step of epoch 0:  53%|█████▎    | 2407/4533 [6:33:05<6:03:18, 10.25s/it, gpt_loss=0.474, loss_mean=0.323][A2026-01-26 20:21:09.788 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  53%|█████▎    | 2407/4533 [6:33:15<6:03:18, 10.25s/it, gpt_loss=0.29, loss_mean=0.319] [A
+Train step of epoch 0:  53%|█████▎    | 2408/4533 [6:33:15<5:55:36, 10.04s/it, gpt_loss=0.29, loss_mean=0.319][A2026-01-26 20:21:18.964 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  53%|█████▎    | 2408/4533 [6:33:24<5:55:36, 10.04s/it, gpt_loss=0.343, loss_mean=0.322][A
+Train step of epoch 0:  53%|█████▎    | 2409/4533 [6:33:24<5:47:42,  9.82s/it, gpt_loss=0.343, loss_mean=0.322][A
+[LID Router Debug] Step: 2410
+Batch Size: 14
+Audio Batch Size: 122
+LID Assignments: [1, 1, 5, 9, 5, 1, 3, 4, 4, 6, 1, 4, 1, 5]
+Active Experts in Batch: {1, 3, 4, 5, 6, 9}
+2026-01-26 20:21:28.589 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  53%|█████▎    | 2409/4533 [6:33:36<5:47:42,  9.82s/it, gpt_loss=0.363, loss_mean=0.326][A
+Train step of epoch 0:  53%|█████▎    | 2410/4533 [6:33:36<6:05:22, 10.33s/it, gpt_loss=0.363, loss_mean=0.326][A2026-01-26 20:21:40.399 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  53%|█████▎    | 2410/4533 [6:33:45<6:05:22, 10.33s/it, gpt_loss=0.285, loss_mean=0.322][A
+Train step of epoch 0:  53%|█████▎    | 2411/4533 [6:33:45<5:49:49,  9.89s/it, gpt_loss=0.285, loss_mean=0.322][A2026-01-26 20:21:49.301 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  53%|█████▎    | 2411/4533 [6:33:53<5:49:49,  9.89s/it, gpt_loss=0.297, loss_mean=0.319][A
+Train step of epoch 0:  53%|█████▎    | 2412/4533 [6:33:53<5:38:44,  9.58s/it, gpt_loss=0.297, loss_mean=0.319][A2026-01-26 20:21:57.789 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  53%|█████▎    | 2412/4533 [6:34:02<5:38:44,  9.58s/it, gpt_loss=0.271, loss_mean=0.315][A
+Train step of epoch 0:  53%|█████▎    | 2413/4533 [6:34:02<5:27:31,  9.27s/it, gpt_loss=0.271, loss_mean=0.315][A2026-01-26 20:22:06.686 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  53%|█████▎    | 2413/4533 [6:34:11<5:27:31,  9.27s/it, gpt_loss=0.328, loss_mean=0.316][A
+Train step of epoch 0:  53%|█████▎    | 2414/4533 [6:34:11<5:25:30,  9.22s/it, gpt_loss=0.328, loss_mean=0.316][A2026-01-26 20:22:15.686 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  53%|█████▎    | 2414/4533 [6:34:20<5:25:30,  9.22s/it, gpt_loss=0.334, loss_mean=0.318][A
+Train step of epoch 0:  53%|█████▎    | 2415/4533 [6:34:20<5:23:50,  9.17s/it, gpt_loss=0.334, loss_mean=0.318][A2026-01-26 20:22:24.883 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  53%|█████▎    | 2415/4533 [6:34:32<5:23:50,  9.17s/it, gpt_loss=0.324, loss_mean=0.318][A
+Train step of epoch 0:  53%|█████▎    | 2416/4533 [6:34:32<5:52:49, 10.00s/it, gpt_loss=0.324, loss_mean=0.318][A2026-01-26 20:22:36.603 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  53%|█████▎    | 2416/4533 [6:34:44<5:52:49, 10.00s/it, gpt_loss=0.329, loss_mean=0.319][A
+Train step of epoch 0:  53%|█████▎    | 2417/4533 [6:34:44<6:15:34, 10.65s/it, gpt_loss=0.329, loss_mean=0.319][A2026-01-26 20:22:48.689 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  53%|█████▎    | 2417/4533 [6:34:57<6:15:34, 10.65s/it, gpt_loss=0.439, loss_mean=0.331][A
+Train step of epoch 0:  53%|█████▎    | 2418/4533 [6:34:57<6:33:30, 11.16s/it, gpt_loss=0.439, loss_mean=0.331][A2026-01-26 20:23:00.761 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  53%|█████▎    | 2418/4533 [6:35:05<6:33:30, 11.16s/it, gpt_loss=0.26, loss_mean=0.324] [A
+Train step of epoch 0:  53%|█████▎    | 2419/4533 [6:35:05<6:07:58, 10.44s/it, gpt_loss=0.26, loss_mean=0.324][A
+[LID Router Debug] Step: 2420
+Batch Size: 14
+Audio Batch Size: 166
+LID Assignments: [5, 9, 3, 6, 1, 0, 1, 9, 5, 5, 0, 9, 9, 0]
+Active Experts in Batch: {0, 1, 3, 5, 6, 9}
+2026-01-26 20:23:10.078 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  53%|█████▎    | 2419/4533 [6:35:15<6:07:58, 10.44s/it, gpt_loss=0.396, loss_mean=0.331][A
+Train step of epoch 0:  53%|█████▎    | 2420/4533 [6:35:15<6:00:29, 10.24s/it, gpt_loss=0.396, loss_mean=0.331][A2026-01-26 20:23:19.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  53%|█████▎    | 2420/4533 [6:35:25<6:00:29, 10.24s/it, gpt_loss=0.362, loss_mean=0.334][A
+Train step of epoch 0:  53%|█████▎    | 2421/4533 [6:35:25<5:51:54, 10.00s/it, gpt_loss=0.362, loss_mean=0.334][A2026-01-26 20:23:29.163 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  53%|█████▎    | 2421/4533 [6:35:33<5:51:54, 10.00s/it, gpt_loss=0.317, loss_mean=0.333][A
+Train step of epoch 0:  53%|█████▎    | 2422/4533 [6:35:33<5:40:04,  9.67s/it, gpt_loss=0.317, loss_mean=0.333][A2026-01-26 20:23:37.893 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  53%|█████▎    | 2422/4533 [6:35:43<5:40:04,  9.67s/it, gpt_loss=0.344, loss_mean=0.334][A
+Train step of epoch 0:  53%|█████▎    | 2423/4533 [6:35:43<5:36:40,  9.57s/it, gpt_loss=0.344, loss_mean=0.334][A2026-01-26 20:23:47.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  53%|█████▎    | 2423/4533 [6:35:52<5:36:40,  9.57s/it, gpt_loss=0.294, loss_mean=0.33] [A
+Train step of epoch 0:  53%|█████▎    | 2424/4533 [6:35:52<5:35:31,  9.55s/it, gpt_loss=0.294, loss_mean=0.33][A2026-01-26 20:23:56.666 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  53%|█████▎    | 2424/4533 [6:36:04<5:35:31,  9.55s/it, gpt_loss=0.372, loss_mean=0.334][A
+Train step of epoch 0:  53%|█████▎    | 2425/4533 [6:36:04<6:00:26, 10.26s/it, gpt_loss=0.372, loss_mean=0.334][A2026-01-26 20:24:08.692 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  53%|█████▎    | 2425/4533 [6:36:13<6:00:26, 10.26s/it, gpt_loss=0.307, loss_mean=0.331][A
+Train step of epoch 0:  54%|█████▎    | 2426/4533 [6:36:13<5:48:16,  9.92s/it, gpt_loss=0.307, loss_mean=0.331][A2026-01-26 20:24:17.884 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  54%|█████▎    | 2426/4533 [6:36:22<5:48:16,  9.92s/it, gpt_loss=0.3, loss_mean=0.328]  [A
+Train step of epoch 0:  54%|█████▎    | 2427/4533 [6:36:22<5:34:03,  9.52s/it, gpt_loss=0.3, loss_mean=0.328][A2026-01-26 20:24:26.484 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  54%|█████▎    | 2427/4533 [6:36:31<5:34:03,  9.52s/it, gpt_loss=0.227, loss_mean=0.318][A
+Train step of epoch 0:  54%|█████▎    | 2428/4533 [6:36:31<5:24:29,  9.25s/it, gpt_loss=0.227, loss_mean=0.318][A2026-01-26 20:24:34.780 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  54%|█████▎    | 2428/4533 [6:36:40<5:24:29,  9.25s/it, gpt_loss=0.263, loss_mean=0.313][A
+Train step of epoch 0:  54%|█████▎    | 2429/4533 [6:36:40<5:24:56,  9.27s/it, gpt_loss=0.263, loss_mean=0.313][A
+[LID Router Debug] Step: 2430
+Batch Size: 14
+Audio Batch Size: 148
+LID Assignments: [4, 9, 5, 4, 5, 4, 9, 1, 3, 5, 4, 2, 1, 3]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-26 20:24:44.565 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  54%|█████▎    | 2429/4533 [6:36:49<5:24:56,  9.27s/it, gpt_loss=0.287, loss_mean=0.31] [A
+Train step of epoch 0:  54%|█████▎    | 2430/4533 [6:36:49<5:18:53,  9.10s/it, gpt_loss=0.287, loss_mean=0.31][A2026-01-26 20:24:53.191 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  54%|█████▎    | 2430/4533 [6:36:58<5:18:53,  9.10s/it, gpt_loss=0.279, loss_mean=0.307][A
+Train step of epoch 0:  54%|█████▎    | 2431/4533 [6:36:58<5:18:59,  9.11s/it, gpt_loss=0.279, loss_mean=0.307][A2026-01-26 20:25:02.373 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  54%|█████▎    | 2431/4533 [6:37:07<5:18:59,  9.11s/it, gpt_loss=0.315, loss_mean=0.308][A
+Train step of epoch 0:  54%|█████▎    | 2432/4533 [6:37:07<5:25:42,  9.30s/it, gpt_loss=0.315, loss_mean=0.308][A2026-01-26 20:25:11.999 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  54%|█████▎    | 2432/4533 [6:37:19<5:25:42,  9.30s/it, gpt_loss=0.355, loss_mean=0.313][A
+Train step of epoch 0:  54%|█████▎    | 2433/4533 [6:37:19<5:49:51, 10.00s/it, gpt_loss=0.355, loss_mean=0.313][A2026-01-26 20:25:23.581 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  54%|█████▎    | 2433/4533 [6:37:31<5:49:51, 10.00s/it, gpt_loss=0.4, loss_mean=0.321]  [A
+Train step of epoch 0:  54%|█████▎    | 2434/4533 [6:37:31<6:06:23, 10.47s/it, gpt_loss=0.4, loss_mean=0.321][A2026-01-26 20:25:35.183 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  54%|█████▎    | 2434/4533 [6:37:40<6:06:23, 10.47s/it, gpt_loss=0.276, loss_mean=0.317][A
+Train step of epoch 0:  54%|█████▎    | 2435/4533 [6:37:40<5:55:04, 10.15s/it, gpt_loss=0.276, loss_mean=0.317][A2026-01-26 20:25:44.669 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  54%|█████▎    | 2435/4533 [6:37:50<5:55:04, 10.15s/it, gpt_loss=0.234, loss_mean=0.308][A
+Train step of epoch 0:  54%|█████▎    | 2436/4533 [6:37:50<5:50:22, 10.02s/it, gpt_loss=0.234, loss_mean=0.308][A2026-01-26 20:25:54.497 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  54%|█████▎    | 2436/4533 [6:38:02<5:50:22, 10.02s/it, gpt_loss=0.465, loss_mean=0.324][A
+Train step of epoch 0:  54%|█████▍    | 2437/4533 [6:38:02<6:09:19, 10.57s/it, gpt_loss=0.465, loss_mean=0.324][A2026-01-26 20:26:06.178 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  54%|█████▍    | 2437/4533 [6:38:11<6:09:19, 10.57s/it, gpt_loss=0.321, loss_mean=0.324][A
+Train step of epoch 0:  54%|█████▍    | 2438/4533 [6:38:11<5:57:54, 10.25s/it, gpt_loss=0.321, loss_mean=0.324][A2026-01-26 20:26:15.799 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  54%|█████▍    | 2438/4533 [6:38:23<5:57:54, 10.25s/it, gpt_loss=0.364, loss_mean=0.328][A
+Train step of epoch 0:  54%|█████▍    | 2439/4533 [6:38:23<6:17:30, 10.82s/it, gpt_loss=0.364, loss_mean=0.328][A
+[LID Router Debug] Step: 2440
+Batch Size: 14
+Audio Batch Size: 170
+LID Assignments: [3, 9, 3, 2, 4, 9, 4, 9, 3, 2, 6, 0, 2, 2]
+Active Experts in Batch: {0, 2, 3, 4, 6, 9}
+2026-01-26 20:26:27.780 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  54%|█████▍    | 2439/4533 [6:38:32<6:17:30, 10.82s/it, gpt_loss=0.283, loss_mean=0.323][A
+Train step of epoch 0:  54%|█████▍    | 2440/4533 [6:38:32<5:59:58, 10.32s/it, gpt_loss=0.283, loss_mean=0.323][A2026-01-26 20:26:36.966 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  54%|█████▍    | 2440/4533 [6:38:42<5:59:58, 10.32s/it, gpt_loss=0.339, loss_mean=0.325][A
+Train step of epoch 0:  54%|█████▍    | 2441/4533 [6:38:42<5:46:54,  9.95s/it, gpt_loss=0.339, loss_mean=0.325][A2026-01-26 20:26:46.186 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  54%|█████▍    | 2441/4533 [6:38:53<5:46:54,  9.95s/it, gpt_loss=0.375, loss_mean=0.33] [A
+Train step of epoch 0:  54%|█████▍    | 2442/4533 [6:38:53<6:06:34, 10.52s/it, gpt_loss=0.375, loss_mean=0.33][A2026-01-26 20:26:57.589 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  54%|█████▍    | 2442/4533 [6:39:05<6:06:34, 10.52s/it, gpt_loss=0.398, loss_mean=0.337][A
+Train step of epoch 0:  54%|█████▍    | 2443/4533 [6:39:05<6:14:25, 10.75s/it, gpt_loss=0.398, loss_mean=0.337][A2026-01-26 20:27:09.174 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  54%|█████▍    | 2443/4533 [6:39:14<6:14:25, 10.75s/it, gpt_loss=0.292, loss_mean=0.332][A
+Train step of epoch 0:  54%|█████▍    | 2444/4533 [6:39:14<5:56:32, 10.24s/it, gpt_loss=0.292, loss_mean=0.332][A2026-01-26 20:27:18.081 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  54%|█████▍    | 2444/4533 [6:39:22<5:56:32, 10.24s/it, gpt_loss=0.262, loss_mean=0.325][A
+Train step of epoch 0:  54%|█████▍    | 2445/4533 [6:39:22<5:37:27,  9.70s/it, gpt_loss=0.262, loss_mean=0.325][A2026-01-26 20:27:26.775 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  54%|█████▍    | 2445/4533 [6:39:31<5:37:27,  9.70s/it, gpt_loss=0.272, loss_mean=0.32] [A
+Train step of epoch 0:  54%|█████▍    | 2446/4533 [6:39:31<5:29:39,  9.48s/it, gpt_loss=0.272, loss_mean=0.32][A2026-01-26 20:27:35.766 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  54%|█████▍    | 2446/4533 [6:39:43<5:29:39,  9.48s/it, gpt_loss=0.418, loss_mean=0.33][A
+Train step of epoch 0:  54%|█████▍    | 2447/4533 [6:39:43<5:57:15, 10.28s/it, gpt_loss=0.418, loss_mean=0.33][A2026-01-26 20:27:47.855 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  54%|█████▍    | 2447/4533 [6:39:55<5:57:15, 10.28s/it, gpt_loss=0.327, loss_mean=0.33][A
+Train step of epoch 0:  54%|█████▍    | 2448/4533 [6:39:55<6:13:02, 10.74s/it, gpt_loss=0.327, loss_mean=0.33][A2026-01-26 20:27:59.492 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  54%|█████▍    | 2448/4533 [6:40:05<6:13:02, 10.74s/it, gpt_loss=0.288, loss_mean=0.326][A
+Train step of epoch 0:  54%|█████▍    | 2449/4533 [6:40:05<6:00:47, 10.39s/it, gpt_loss=0.288, loss_mean=0.326][A
+[LID Router Debug] Step: 2450
+Batch Size: 14
+Audio Batch Size: 134
+LID Assignments: [5, 5, 3, 4, 5, 6, 0, 6, 3, 5, 5, 6, 4, 5]
+Active Experts in Batch: {0, 3, 4, 5, 6}
+2026-01-26 20:28:09.083 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  54%|█████▍    | 2449/4533 [6:40:17<6:00:47, 10.39s/it, gpt_loss=0.369, loss_mean=0.33] [A
+Train step of epoch 0:  54%|█████▍    | 2450/4533 [6:40:17<6:16:03, 10.83s/it, gpt_loss=0.369, loss_mean=0.33][A2026-01-26 20:28:21.166 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  54%|█████▍    | 2450/4533 [6:40:25<6:16:03, 10.83s/it, gpt_loss=0.279, loss_mean=0.325][A
+Train step of epoch 0:  54%|█████▍    | 2451/4533 [6:40:25<5:55:39, 10.25s/it, gpt_loss=0.279, loss_mean=0.325][A2026-01-26 20:28:29.790 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  54%|█████▍    | 2451/4533 [6:40:37<5:55:39, 10.25s/it, gpt_loss=0.337, loss_mean=0.326][A
+Train step of epoch 0:  54%|█████▍    | 2452/4533 [6:40:37<6:13:11, 10.76s/it, gpt_loss=0.337, loss_mean=0.326][A2026-01-26 20:28:41.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  54%|█████▍    | 2452/4533 [6:40:46<6:13:11, 10.76s/it, gpt_loss=0.249, loss_mean=0.318][A
+Train step of epoch 0:  54%|█████▍    | 2453/4533 [6:40:46<5:54:12, 10.22s/it, gpt_loss=0.249, loss_mean=0.318][A2026-01-26 20:28:50.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  54%|█████▍    | 2453/4533 [6:40:55<5:54:12, 10.22s/it, gpt_loss=0.322, loss_mean=0.319][A
+Train step of epoch 0:  54%|█████▍    | 2454/4533 [6:40:55<5:38:39,  9.77s/it, gpt_loss=0.322, loss_mean=0.319][A2026-01-26 20:28:59.682 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  54%|█████▍    | 2454/4533 [6:41:05<5:38:39,  9.77s/it, gpt_loss=0.309, loss_mean=0.318][A
+Train step of epoch 0:  54%|█████▍    | 2455/4533 [6:41:05<5:35:53,  9.70s/it, gpt_loss=0.309, loss_mean=0.318][A2026-01-26 20:29:08.968 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  54%|█████▍    | 2455/4533 [6:41:13<5:35:53,  9.70s/it, gpt_loss=0.236, loss_mean=0.309][A
+Train step of epoch 0:  54%|█████▍    | 2456/4533 [6:41:13<5:26:21,  9.43s/it, gpt_loss=0.236, loss_mean=0.309][A2026-01-26 20:29:18.074 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  54%|█████▍    | 2456/4533 [6:41:22<5:26:21,  9.43s/it, gpt_loss=0.334, loss_mean=0.312][A
+Train step of epoch 0:  54%|█████▍    | 2457/4533 [6:41:22<5:22:21,  9.32s/it, gpt_loss=0.334, loss_mean=0.312][A2026-01-26 20:29:27.077 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  54%|█████▍    | 2457/4533 [6:41:35<5:22:21,  9.32s/it, gpt_loss=0.393, loss_mean=0.32] [A
+Train step of epoch 0:  54%|█████▍    | 2458/4533 [6:41:35<5:52:50, 10.20s/it, gpt_loss=0.393, loss_mean=0.32][A2026-01-26 20:29:39.396 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  54%|█████▍    | 2458/4533 [6:41:47<5:52:50, 10.20s/it, gpt_loss=0.379, loss_mean=0.326][A
+Train step of epoch 0:  54%|█████▍    | 2459/4533 [6:41:47<6:14:28, 10.83s/it, gpt_loss=0.379, loss_mean=0.326][A
+[LID Router Debug] Step: 2460
+Batch Size: 14
+Audio Batch Size: 116
+LID Assignments: [4, 9, 1, 1, 3, 2, 4, 1, 2, 1, 0, 1, 4, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 9}
+2026-01-26 20:29:51.557 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  54%|█████▍    | 2459/4533 [6:41:56<6:14:28, 10.83s/it, gpt_loss=0.28, loss_mean=0.321] [A
+Train step of epoch 0:  54%|█████▍    | 2460/4533 [6:41:56<5:56:27, 10.32s/it, gpt_loss=0.28, loss_mean=0.321][A2026-01-26 20:30:00.668 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  54%|█████▍    | 2460/4533 [6:42:06<5:56:27, 10.32s/it, gpt_loss=0.332, loss_mean=0.322][A
+Train step of epoch 0:  54%|█████▍    | 2461/4533 [6:42:06<5:49:51, 10.13s/it, gpt_loss=0.332, loss_mean=0.322][A2026-01-26 20:30:10.406 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  54%|█████▍    | 2461/4533 [6:42:18<5:49:51, 10.13s/it, gpt_loss=0.347, loss_mean=0.325][A
+Train step of epoch 0:  54%|█████▍    | 2462/4533 [6:42:18<6:05:54, 10.60s/it, gpt_loss=0.347, loss_mean=0.325][A2026-01-26 20:30:22.084 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  54%|█████▍    | 2462/4533 [6:42:26<6:05:54, 10.60s/it, gpt_loss=0.371, loss_mean=0.329][A
+Train step of epoch 0:  54%|█████▍    | 2463/4533 [6:42:26<5:48:09, 10.09s/it, gpt_loss=0.371, loss_mean=0.329][A2026-01-26 20:30:30.978 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  54%|█████▍    | 2463/4533 [6:42:36<5:48:09, 10.09s/it, gpt_loss=0.355, loss_mean=0.332][A
+Train step of epoch 0:  54%|█████▍    | 2464/4533 [6:42:36<5:42:37,  9.94s/it, gpt_loss=0.355, loss_mean=0.332][A2026-01-26 20:30:40.194 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  54%|█████▍    | 2464/4533 [6:42:47<5:42:37,  9.94s/it, gpt_loss=0.367, loss_mean=0.335][A
+Train step of epoch 0:  54%|█████▍    | 2465/4533 [6:42:47<5:57:21, 10.37s/it, gpt_loss=0.367, loss_mean=0.335][A2026-01-26 20:30:52.060 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  54%|█████▍    | 2465/4533 [6:42:57<5:57:21, 10.37s/it, gpt_loss=0.313, loss_mean=0.333][A
+Train step of epoch 0:  54%|█████▍    | 2466/4533 [6:42:57<5:46:30, 10.06s/it, gpt_loss=0.313, loss_mean=0.333][A2026-01-26 20:31:01.376 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  54%|█████▍    | 2466/4533 [6:43:08<5:46:30, 10.06s/it, gpt_loss=0.329, loss_mean=0.333][A
+Train step of epoch 0:  54%|█████▍    | 2467/4533 [6:43:08<6:04:14, 10.58s/it, gpt_loss=0.329, loss_mean=0.333][A2026-01-26 20:31:13.163 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  54%|█████▍    | 2467/4533 [6:43:20<6:04:14, 10.58s/it, gpt_loss=0.385, loss_mean=0.338][A
+Train step of epoch 0:  54%|█████▍    | 2468/4533 [6:43:20<6:17:57, 10.98s/it, gpt_loss=0.385, loss_mean=0.338][A2026-01-26 20:31:25.052 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  54%|█████▍    | 2468/4533 [6:43:29<6:17:57, 10.98s/it, gpt_loss=0.313, loss_mean=0.336][A
+Train step of epoch 0:  54%|█████▍    | 2469/4533 [6:43:29<5:55:52, 10.35s/it, gpt_loss=0.313, loss_mean=0.336][A
+[LID Router Debug] Step: 2470
+Batch Size: 14
+Audio Batch Size: 124
+LID Assignments: [2, 9, 2, 1, 9, 2, 4, 0, 4, 2, 0, 5, 2, 1]
+Active Experts in Batch: {0, 1, 2, 4, 5, 9}
+2026-01-26 20:31:33.893 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  54%|█████▍    | 2469/4533 [6:43:39<5:55:52, 10.35s/it, gpt_loss=0.331, loss_mean=0.335][A
+Train step of epoch 0:  54%|█████▍    | 2470/4533 [6:43:39<5:49:34, 10.17s/it, gpt_loss=0.331, loss_mean=0.335][A2026-01-26 20:31:43.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  54%|█████▍    | 2470/4533 [6:43:51<5:49:34, 10.17s/it, gpt_loss=0.303, loss_mean=0.332][A
+Train step of epoch 0:  55%|█████▍    | 2471/4533 [6:43:51<6:04:47, 10.61s/it, gpt_loss=0.303, loss_mean=0.332][A2026-01-26 20:31:54.976 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  55%|█████▍    | 2471/4533 [6:44:03<6:04:47, 10.61s/it, gpt_loss=0.49, loss_mean=0.348] [A
+Train step of epoch 0:  55%|█████▍    | 2472/4533 [6:44:03<6:17:35, 10.99s/it, gpt_loss=0.49, loss_mean=0.348][A2026-01-26 20:32:07.198 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  55%|█████▍    | 2472/4533 [6:44:12<6:17:35, 10.99s/it, gpt_loss=0.219, loss_mean=0.335][A
+Train step of epoch 0:  55%|█████▍    | 2473/4533 [6:44:12<5:57:49, 10.42s/it, gpt_loss=0.219, loss_mean=0.335][A2026-01-26 20:32:15.953 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  55%|█████▍    | 2473/4533 [6:44:20<5:57:49, 10.42s/it, gpt_loss=0.273, loss_mean=0.329][A
+Train step of epoch 0:  55%|█████▍    | 2474/4533 [6:44:20<5:38:47,  9.87s/it, gpt_loss=0.273, loss_mean=0.329][A2026-01-26 20:32:24.782 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  55%|█████▍    | 2474/4533 [6:44:29<5:38:47,  9.87s/it, gpt_loss=0.239, loss_mean=0.32] [A
+Train step of epoch 0:  55%|█████▍    | 2475/4533 [6:44:29<5:30:03,  9.62s/it, gpt_loss=0.239, loss_mean=0.32][A2026-01-26 20:32:33.883 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  55%|█████▍    | 2475/4533 [6:44:38<5:30:03,  9.62s/it, gpt_loss=0.291, loss_mean=0.317][A
+Train step of epoch 0:  55%|█████▍    | 2476/4533 [6:44:38<5:21:17,  9.37s/it, gpt_loss=0.291, loss_mean=0.317][A2026-01-26 20:32:42.571 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  55%|█████▍    | 2476/4533 [6:44:47<5:21:17,  9.37s/it, gpt_loss=0.284, loss_mean=0.313][A
+Train step of epoch 0:  55%|█████▍    | 2477/4533 [6:44:47<5:14:26,  9.18s/it, gpt_loss=0.284, loss_mean=0.313][A2026-01-26 20:32:51.459 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  55%|█████▍    | 2477/4533 [6:44:59<5:14:26,  9.18s/it, gpt_loss=0.327, loss_mean=0.315][A
+Train step of epoch 0:  55%|█████▍    | 2478/4533 [6:44:59<5:43:54, 10.04s/it, gpt_loss=0.327, loss_mean=0.315][A2026-01-26 20:33:03.486 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  55%|█████▍    | 2478/4533 [6:45:08<5:43:54, 10.04s/it, gpt_loss=0.254, loss_mean=0.309][A
+Train step of epoch 0:  55%|█████▍    | 2479/4533 [6:45:08<5:33:49,  9.75s/it, gpt_loss=0.254, loss_mean=0.309][A
+[LID Router Debug] Step: 2480
+Batch Size: 14
+Audio Batch Size: 166
+LID Assignments: [0, 3, 3, 4, 1, 0, 1, 3, 4, 4, 6, 0, 2, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-26 20:33:12.370 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  55%|█████▍    | 2479/4533 [6:45:17<5:33:49,  9.75s/it, gpt_loss=0.247, loss_mean=0.303][A
+Train step of epoch 0:  55%|█████▍    | 2480/4533 [6:45:17<5:25:43,  9.52s/it, gpt_loss=0.247, loss_mean=0.303][A2026-01-26 20:33:21.278 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  55%|█████▍    | 2480/4533 [6:45:28<5:25:43,  9.52s/it, gpt_loss=0.452, loss_mean=0.317][A
+Train step of epoch 0:  55%|█████▍    | 2481/4533 [6:45:28<5:46:22, 10.13s/it, gpt_loss=0.452, loss_mean=0.317][A2026-01-26 20:33:33.160 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  55%|█████▍    | 2481/4533 [6:45:38<5:46:22, 10.13s/it, gpt_loss=0.292, loss_mean=0.315][A
+Train step of epoch 0:  55%|█████▍    | 2482/4533 [6:45:38<5:38:16,  9.90s/it, gpt_loss=0.292, loss_mean=0.315][A2026-01-26 20:33:42.360 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  55%|█████▍    | 2482/4533 [6:45:47<5:38:16,  9.90s/it, gpt_loss=0.251, loss_mean=0.309][A
+Train step of epoch 0:  55%|█████▍    | 2483/4533 [6:45:47<5:30:22,  9.67s/it, gpt_loss=0.251, loss_mean=0.309][A2026-01-26 20:33:51.288 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  55%|█████▍    | 2483/4533 [6:45:56<5:30:22,  9.67s/it, gpt_loss=0.213, loss_mean=0.299][A
+Train step of epoch 0:  55%|█████▍    | 2484/4533 [6:45:56<5:21:54,  9.43s/it, gpt_loss=0.213, loss_mean=0.299][A2026-01-26 20:34:00.087 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  55%|█████▍    | 2484/4533 [6:46:05<5:21:54,  9.43s/it, gpt_loss=0.355, loss_mean=0.305][A
+Train step of epoch 0:  55%|█████▍    | 2485/4533 [6:46:05<5:18:49,  9.34s/it, gpt_loss=0.355, loss_mean=0.305][A2026-01-26 20:34:09.668 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  55%|█████▍    | 2485/4533 [6:46:17<5:18:49,  9.34s/it, gpt_loss=0.34, loss_mean=0.308] [A
+Train step of epoch 0:  55%|█████▍    | 2486/4533 [6:46:17<5:45:10, 10.12s/it, gpt_loss=0.34, loss_mean=0.308][A2026-01-26 20:34:21.503 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  55%|█████▍    | 2486/4533 [6:46:27<5:45:10, 10.12s/it, gpt_loss=0.308, loss_mean=0.308][A
+Train step of epoch 0:  55%|█████▍    | 2487/4533 [6:46:27<5:40:14,  9.98s/it, gpt_loss=0.308, loss_mean=0.308][A2026-01-26 20:34:31.080 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  55%|█████▍    | 2487/4533 [6:46:36<5:40:14,  9.98s/it, gpt_loss=0.262, loss_mean=0.303][A
+Train step of epoch 0:  55%|█████▍    | 2488/4533 [6:46:36<5:31:13,  9.72s/it, gpt_loss=0.262, loss_mean=0.303][A2026-01-26 20:34:40.286 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  55%|█████▍    | 2488/4533 [6:46:46<5:31:13,  9.72s/it, gpt_loss=0.323, loss_mean=0.305][A
+Train step of epoch 0:  55%|█████▍    | 2489/4533 [6:46:46<5:32:48,  9.77s/it, gpt_loss=0.323, loss_mean=0.305][A
+[LID Router Debug] Step: 2490
+Batch Size: 14
+Audio Batch Size: 126
+LID Assignments: [9, 1, 9, 4, 9, 2, 0, 6, 5, 0, 1, 0, 5, 5]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-26 20:34:49.770 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  55%|█████▍    | 2489/4533 [6:46:54<5:32:48,  9.77s/it, gpt_loss=0.315, loss_mean=0.306][A
+Train step of epoch 0:  55%|█████▍    | 2490/4533 [6:46:54<5:22:18,  9.47s/it, gpt_loss=0.315, loss_mean=0.306][A2026-01-26 20:34:58.868 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  55%|█████▍    | 2490/4533 [6:47:03<5:22:18,  9.47s/it, gpt_loss=0.347, loss_mean=0.31] [A
+Train step of epoch 0:  55%|█████▍    | 2491/4533 [6:47:03<5:15:39,  9.27s/it, gpt_loss=0.347, loss_mean=0.31][A2026-01-26 20:35:07.590 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  55%|█████▍    | 2491/4533 [6:47:12<5:15:39,  9.27s/it, gpt_loss=0.321, loss_mean=0.311][A
+Train step of epoch 0:  55%|█████▍    | 2492/4533 [6:47:12<5:11:26,  9.16s/it, gpt_loss=0.321, loss_mean=0.311][A2026-01-26 20:35:16.677 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  55%|█████▍    | 2492/4533 [6:47:22<5:11:26,  9.16s/it, gpt_loss=0.222, loss_mean=0.302][A
+Train step of epoch 0:  55%|█████▍    | 2493/4533 [6:47:22<5:17:25,  9.34s/it, gpt_loss=0.222, loss_mean=0.302][A2026-01-26 20:35:26.385 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  55%|█████▍    | 2493/4533 [6:47:32<5:17:25,  9.34s/it, gpt_loss=0.26, loss_mean=0.298] [A
+Train step of epoch 0:  55%|█████▌    | 2494/4533 [6:47:32<5:21:41,  9.47s/it, gpt_loss=0.26, loss_mean=0.298][A2026-01-26 20:35:36.187 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  55%|█████▌    | 2494/4533 [6:47:40<5:21:41,  9.47s/it, gpt_loss=0.318, loss_mean=0.3] [A
+Train step of epoch 0:  55%|█████▌    | 2495/4533 [6:47:40<5:15:14,  9.28s/it, gpt_loss=0.318, loss_mean=0.3][A2026-01-26 20:35:44.903 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  55%|█████▌    | 2495/4533 [6:47:53<5:15:14,  9.28s/it, gpt_loss=0.417, loss_mean=0.312][A
+Train step of epoch 0:  55%|█████▌    | 2496/4533 [6:47:53<5:44:23, 10.14s/it, gpt_loss=0.417, loss_mean=0.312][A2026-01-26 20:35:57.187 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  55%|█████▌    | 2496/4533 [6:48:02<5:44:23, 10.14s/it, gpt_loss=0.278, loss_mean=0.309][A
+Train step of epoch 0:  55%|█████▌    | 2497/4533 [6:48:02<5:38:31,  9.98s/it, gpt_loss=0.278, loss_mean=0.309][A2026-01-26 20:36:06.864 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  55%|█████▌    | 2497/4533 [6:48:14<5:38:31,  9.98s/it, gpt_loss=0.39, loss_mean=0.317] [A
+Train step of epoch 0:  55%|█████▌    | 2498/4533 [6:48:14<6:00:59, 10.64s/it, gpt_loss=0.39, loss_mean=0.317][A2026-01-26 20:36:18.885 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  55%|█████▌    | 2498/4533 [6:48:26<6:00:59, 10.64s/it, gpt_loss=0.553, loss_mean=0.34][A
+Train step of epoch 0:  55%|█████▌    | 2499/4533 [6:48:26<6:14:29, 11.05s/it, gpt_loss=0.553, loss_mean=0.34][A
+[LID Router Debug] Step: 2500
+Batch Size: 14
+Audio Batch Size: 176
+LID Assignments: [0, 4, 5, 9, 1, 2, 5, 3, 1, 9, 3, 9, 5, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 20:36:30.876 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+[2026-01-26 20:36:38,801] [INFO] [logging.py:96:log_dist] [Rank 0] step=2500, skipped=0, lr=[1.8516663357935765e-05, 1.8516663357935765e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 20:36:38,801] [INFO] [timer.py:260:stop] epoch=0/micro_step=2500/global_step=2500, RunningAvgSamplesPerSec=5.731670206781979, CurrSamplesPerSec=6.532455549570464, MemAllocated=14.62GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  55%|█████▌    | 2499/4533 [6:48:35<6:14:29, 11.05s/it, gpt_loss=0.302, loss_mean=0.337][A
+Train step of epoch 0:  55%|█████▌    | 2500/4533 [6:48:35<5:49:21, 10.31s/it, gpt_loss=0.302, loss_mean=0.337][A2026-01-26 20:36:38.879 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  55%|█████▌    | 2500/4533 [6:48:44<5:49:21, 10.31s/it, gpt_loss=0.323, loss_mean=0.335][A
+Train step of epoch 0:  55%|█████▌    | 2501/4533 [6:48:44<5:39:33, 10.03s/it, gpt_loss=0.323, loss_mean=0.335][A2026-01-26 20:36:48.860 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  55%|█████▌    | 2501/4533 [6:48:56<5:39:33, 10.03s/it, gpt_loss=0.386, loss_mean=0.34] [A
+Train step of epoch 0:  55%|█████▌    | 2502/4533 [6:48:56<5:59:09, 10.61s/it, gpt_loss=0.386, loss_mean=0.34][A2026-01-26 20:37:00.883 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  55%|█████▌    | 2502/4533 [6:49:08<5:59:09, 10.61s/it, gpt_loss=0.442, loss_mean=0.351][A
+Train step of epoch 0:  55%|█████▌    | 2503/4533 [6:49:08<6:11:48, 10.99s/it, gpt_loss=0.442, loss_mean=0.351][A2026-01-26 20:37:12.773 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  55%|█████▌    | 2503/4533 [6:49:18<6:11:48, 10.99s/it, gpt_loss=0.256, loss_mean=0.341][A
+Train step of epoch 0:  55%|█████▌    | 2504/4533 [6:49:18<5:59:26, 10.63s/it, gpt_loss=0.256, loss_mean=0.341][A2026-01-26 20:37:22.481 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  55%|█████▌    | 2504/4533 [6:49:27<5:59:26, 10.63s/it, gpt_loss=0.307, loss_mean=0.338][A
+Train step of epoch 0:  55%|█████▌    | 2505/4533 [6:49:27<5:44:12, 10.18s/it, gpt_loss=0.307, loss_mean=0.338][A2026-01-26 20:37:31.492 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  55%|█████▌    | 2505/4533 [6:49:36<5:44:12, 10.18s/it, gpt_loss=0.289, loss_mean=0.333][A
+Train step of epoch 0:  55%|█████▌    | 2506/4533 [6:49:36<5:31:09,  9.80s/it, gpt_loss=0.289, loss_mean=0.333][A2026-01-26 20:37:40.500 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  55%|█████▌    | 2506/4533 [6:49:45<5:31:09,  9.80s/it, gpt_loss=0.282, loss_mean=0.328][A
+Train step of epoch 0:  55%|█████▌    | 2507/4533 [6:49:45<5:22:37,  9.55s/it, gpt_loss=0.282, loss_mean=0.328][A2026-01-26 20:37:49.570 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  55%|█████▌    | 2507/4533 [6:49:55<5:22:37,  9.55s/it, gpt_loss=0.259, loss_mean=0.321][A
+Train step of epoch 0:  55%|█████▌    | 2508/4533 [6:49:55<5:23:59,  9.60s/it, gpt_loss=0.259, loss_mean=0.321][A2026-01-26 20:37:59.279 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  55%|█████▌    | 2508/4533 [6:50:07<5:23:59,  9.60s/it, gpt_loss=0.399, loss_mean=0.329][A
+Train step of epoch 0:  55%|█████▌    | 2509/4533 [6:50:07<5:47:07, 10.29s/it, gpt_loss=0.399, loss_mean=0.329][A
+[LID Router Debug] Step: 2510
+Batch Size: 14
+Audio Batch Size: 145
+LID Assignments: [1, 1, 5, 4, 3, 6, 0, 4, 4, 3, 1, 5, 3, 0]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6}
+2026-01-26 20:38:11.063 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  55%|█████▌    | 2509/4533 [6:50:16<5:47:07, 10.29s/it, gpt_loss=0.318, loss_mean=0.328][A
+Train step of epoch 0:  55%|█████▌    | 2510/4533 [6:50:16<5:39:35, 10.07s/it, gpt_loss=0.318, loss_mean=0.328][A2026-01-26 20:38:20.585 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  55%|█████▌    | 2510/4533 [6:50:25<5:39:35, 10.07s/it, gpt_loss=0.333, loss_mean=0.328][A
+Train step of epoch 0:  55%|█████▌    | 2511/4533 [6:50:25<5:31:41,  9.84s/it, gpt_loss=0.333, loss_mean=0.328][A2026-01-26 20:38:30.077 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  55%|█████▌    | 2511/4533 [6:50:34<5:31:41,  9.84s/it, gpt_loss=0.283, loss_mean=0.324][A
+Train step of epoch 0:  55%|█████▌    | 2512/4533 [6:50:34<5:22:05,  9.56s/it, gpt_loss=0.283, loss_mean=0.324][A2026-01-26 20:38:38.982 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  55%|█████▌    | 2512/4533 [6:50:43<5:22:05,  9.56s/it, gpt_loss=0.296, loss_mean=0.321][A
+Train step of epoch 0:  55%|█████▌    | 2513/4533 [6:50:43<5:16:11,  9.39s/it, gpt_loss=0.296, loss_mean=0.321][A2026-01-26 20:38:47.978 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  55%|█████▌    | 2513/4533 [6:50:52<5:16:11,  9.39s/it, gpt_loss=0.264, loss_mean=0.315][A
+Train step of epoch 0:  55%|█████▌    | 2514/4533 [6:50:52<5:09:37,  9.20s/it, gpt_loss=0.264, loss_mean=0.315][A2026-01-26 20:38:56.374 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  55%|█████▌    | 2514/4533 [6:51:04<5:09:37,  9.20s/it, gpt_loss=0.365, loss_mean=0.32] [A
+Train step of epoch 0:  55%|█████▌    | 2515/4533 [6:51:04<5:33:13,  9.91s/it, gpt_loss=0.365, loss_mean=0.32][A2026-01-26 20:39:07.985 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  55%|█████▌    | 2515/4533 [6:51:12<5:33:13,  9.91s/it, gpt_loss=0.276, loss_mean=0.316][A
+Train step of epoch 0:  56%|█████▌    | 2516/4533 [6:51:12<5:22:19,  9.59s/it, gpt_loss=0.276, loss_mean=0.316][A2026-01-26 20:39:16.983 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  56%|█████▌    | 2516/4533 [6:51:21<5:22:19,  9.59s/it, gpt_loss=0.255, loss_mean=0.31] [A
+Train step of epoch 0:  56%|█████▌    | 2517/4533 [6:51:21<5:13:37,  9.33s/it, gpt_loss=0.255, loss_mean=0.31][A2026-01-26 20:39:25.767 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  56%|█████▌    | 2517/4533 [6:51:30<5:13:37,  9.33s/it, gpt_loss=0.293, loss_mean=0.308][A
+Train step of epoch 0:  56%|█████▌    | 2518/4533 [6:51:30<5:10:25,  9.24s/it, gpt_loss=0.293, loss_mean=0.308][A2026-01-26 20:39:34.797 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  56%|█████▌    | 2518/4533 [6:51:40<5:10:25,  9.24s/it, gpt_loss=0.309, loss_mean=0.308][A
+Train step of epoch 0:  56%|█████▌    | 2519/4533 [6:51:40<5:12:20,  9.31s/it, gpt_loss=0.309, loss_mean=0.308][A
+[LID Router Debug] Step: 2520
+Batch Size: 14
+Audio Batch Size: 142
+LID Assignments: [4, 5, 0, 2, 1, 9, 3, 5, 5, 1, 6, 2, 9, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 20:39:44.361 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  56%|█████▌    | 2519/4533 [6:51:49<5:12:20,  9.31s/it, gpt_loss=0.283, loss_mean=0.306][A
+Train step of epoch 0:  56%|█████▌    | 2520/4533 [6:51:49<5:09:57,  9.24s/it, gpt_loss=0.283, loss_mean=0.306][A2026-01-26 20:39:53.453 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  56%|█████▌    | 2520/4533 [6:52:01<5:09:57,  9.24s/it, gpt_loss=0.347, loss_mean=0.31] [A
+Train step of epoch 0:  56%|█████▌    | 2521/4533 [6:52:01<5:38:20, 10.09s/it, gpt_loss=0.347, loss_mean=0.31][A2026-01-26 20:40:05.501 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  56%|█████▌    | 2521/4533 [6:52:10<5:38:20, 10.09s/it, gpt_loss=0.232, loss_mean=0.302][A
+Train step of epoch 0:  56%|█████▌    | 2522/4533 [6:52:10<5:28:03,  9.79s/it, gpt_loss=0.232, loss_mean=0.302][A2026-01-26 20:40:14.395 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  56%|█████▌    | 2522/4533 [6:52:19<5:28:03,  9.79s/it, gpt_loss=0.297, loss_mean=0.302][A
+Train step of epoch 0:  56%|█████▌    | 2523/4533 [6:52:19<5:15:53,  9.43s/it, gpt_loss=0.297, loss_mean=0.302][A2026-01-26 20:40:23.188 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  56%|█████▌    | 2523/4533 [6:52:31<5:15:53,  9.43s/it, gpt_loss=0.423, loss_mean=0.314][A
+Train step of epoch 0:  56%|█████▌    | 2524/4533 [6:52:31<5:42:40, 10.23s/it, gpt_loss=0.423, loss_mean=0.314][A2026-01-26 20:40:35.287 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  56%|█████▌    | 2524/4533 [6:52:40<5:42:40, 10.23s/it, gpt_loss=0.254, loss_mean=0.308][A
+Train step of epoch 0:  56%|█████▌    | 2525/4533 [6:52:40<5:32:02,  9.92s/it, gpt_loss=0.254, loss_mean=0.308][A2026-01-26 20:40:44.569 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  56%|█████▌    | 2525/4533 [6:52:49<5:32:02,  9.92s/it, gpt_loss=0.303, loss_mean=0.307][A
+Train step of epoch 0:  56%|█████▌    | 2526/4533 [6:52:49<5:21:34,  9.61s/it, gpt_loss=0.303, loss_mean=0.307][A2026-01-26 20:40:53.460 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  56%|█████▌    | 2526/4533 [6:53:01<5:21:34,  9.61s/it, gpt_loss=0.363, loss_mean=0.313][A
+Train step of epoch 0:  56%|█████▌    | 2527/4533 [6:53:01<5:45:11, 10.32s/it, gpt_loss=0.363, loss_mean=0.313][A2026-01-26 20:41:05.366 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  56%|█████▌    | 2527/4533 [6:53:10<5:45:11, 10.32s/it, gpt_loss=0.362, loss_mean=0.318][A
+Train step of epoch 0:  56%|█████▌    | 2528/4533 [6:53:10<5:39:01, 10.15s/it, gpt_loss=0.362, loss_mean=0.318][A2026-01-26 20:41:15.099 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  56%|█████▌    | 2528/4533 [6:53:20<5:39:01, 10.15s/it, gpt_loss=0.339, loss_mean=0.32] [A
+Train step of epoch 0:  56%|█████▌    | 2529/4533 [6:53:20<5:35:30, 10.05s/it, gpt_loss=0.339, loss_mean=0.32][A
+[LID Router Debug] Step: 2530
+Batch Size: 14
+Audio Batch Size: 148
+LID Assignments: [4, 9, 2, 3, 9, 1, 0, 5, 6, 2, 5, 2, 6, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 20:41:24.874 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  56%|█████▌    | 2529/4533 [6:53:29<5:35:30, 10.05s/it, gpt_loss=0.307, loss_mean=0.319][A
+Train step of epoch 0:  56%|█████▌    | 2530/4533 [6:53:29<5:24:12,  9.71s/it, gpt_loss=0.307, loss_mean=0.319][A2026-01-26 20:41:33.678 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  56%|█████▌    | 2530/4533 [6:53:39<5:24:12,  9.71s/it, gpt_loss=0.298, loss_mean=0.317][A
+Train step of epoch 0:  56%|█████▌    | 2531/4533 [6:53:39<5:22:37,  9.67s/it, gpt_loss=0.298, loss_mean=0.317][A2026-01-26 20:41:43.183 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  56%|█████▌    | 2531/4533 [6:53:48<5:22:37,  9.67s/it, gpt_loss=0.29, loss_mean=0.314] [A
+Train step of epoch 0:  56%|█████▌    | 2532/4533 [6:53:48<5:13:40,  9.41s/it, gpt_loss=0.29, loss_mean=0.314][A2026-01-26 20:41:52.080 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  56%|█████▌    | 2532/4533 [6:53:59<5:13:40,  9.41s/it, gpt_loss=0.36, loss_mean=0.318][A
+Train step of epoch 0:  56%|█████▌    | 2533/4533 [6:53:59<5:38:42, 10.16s/it, gpt_loss=0.36, loss_mean=0.318][A2026-01-26 20:42:04.075 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  56%|█████▌    | 2533/4533 [6:54:09<5:38:42, 10.16s/it, gpt_loss=0.34, loss_mean=0.321][A
+Train step of epoch 0:  56%|█████▌    | 2534/4533 [6:54:09<5:32:29,  9.98s/it, gpt_loss=0.34, loss_mean=0.321][A2026-01-26 20:42:13.478 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  56%|█████▌    | 2534/4533 [6:54:21<5:32:29,  9.98s/it, gpt_loss=0.377, loss_mean=0.326][A
+Train step of epoch 0:  56%|█████▌    | 2535/4533 [6:54:21<5:50:18, 10.52s/it, gpt_loss=0.377, loss_mean=0.326][A2026-01-26 20:42:25.163 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  56%|█████▌    | 2535/4533 [6:54:30<5:50:18, 10.52s/it, gpt_loss=0.277, loss_mean=0.321][A
+Train step of epoch 0:  56%|█████▌    | 2536/4533 [6:54:30<5:33:43, 10.03s/it, gpt_loss=0.277, loss_mean=0.321][A2026-01-26 20:42:34.351 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  56%|█████▌    | 2536/4533 [6:54:39<5:33:43, 10.03s/it, gpt_loss=0.266, loss_mean=0.316][A
+Train step of epoch 0:  56%|█████▌    | 2537/4533 [6:54:39<5:26:00,  9.80s/it, gpt_loss=0.266, loss_mean=0.316][A2026-01-26 20:42:43.489 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  56%|█████▌    | 2537/4533 [6:54:51<5:26:00,  9.80s/it, gpt_loss=0.39, loss_mean=0.323] [A
+Train step of epoch 0:  56%|█████▌    | 2538/4533 [6:54:51<5:46:27, 10.42s/it, gpt_loss=0.39, loss_mean=0.323][A2026-01-26 20:42:55.161 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  56%|█████▌    | 2538/4533 [6:55:00<5:46:27, 10.42s/it, gpt_loss=0.293, loss_mean=0.32][A
+Train step of epoch 0:  56%|█████▌    | 2539/4533 [6:55:00<5:29:13,  9.91s/it, gpt_loss=0.293, loss_mean=0.32][A
+[LID Router Debug] Step: 2540
+Batch Size: 14
+Audio Batch Size: 171
+LID Assignments: [1, 9, 9, 3, 5, 0, 5, 6, 1, 0, 1, 3, 2, 1]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-26 20:43:04.182 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  56%|█████▌    | 2539/4533 [6:55:09<5:29:13,  9.91s/it, gpt_loss=0.334, loss_mean=0.322][A
+Train step of epoch 0:  56%|█████▌    | 2540/4533 [6:55:09<5:26:23,  9.83s/it, gpt_loss=0.334, loss_mean=0.322][A2026-01-26 20:43:13.601 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  56%|█████▌    | 2540/4533 [6:55:21<5:26:23,  9.83s/it, gpt_loss=0.364, loss_mean=0.326][A
+Train step of epoch 0:  56%|█████▌    | 2541/4533 [6:55:21<5:45:06, 10.39s/it, gpt_loss=0.364, loss_mean=0.326][A2026-01-26 20:43:25.483 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  56%|█████▌    | 2541/4533 [6:55:31<5:45:06, 10.39s/it, gpt_loss=0.331, loss_mean=0.326][A
+Train step of epoch 0:  56%|█████▌    | 2542/4533 [6:55:31<5:37:40, 10.18s/it, gpt_loss=0.331, loss_mean=0.326][A2026-01-26 20:43:34.969 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  56%|█████▌    | 2542/4533 [6:55:39<5:37:40, 10.18s/it, gpt_loss=0.256, loss_mean=0.319][A
+Train step of epoch 0:  56%|█████▌    | 2543/4533 [6:55:39<5:21:23,  9.69s/it, gpt_loss=0.256, loss_mean=0.319][A2026-01-26 20:43:43.675 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  56%|█████▌    | 2543/4533 [6:55:48<5:21:23,  9.69s/it, gpt_loss=0.25, loss_mean=0.312] [A
+Train step of epoch 0:  56%|█████▌    | 2544/4533 [6:55:48<5:12:52,  9.44s/it, gpt_loss=0.25, loss_mean=0.312][A2026-01-26 20:43:52.357 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  56%|█████▌    | 2544/4533 [6:55:57<5:12:52,  9.44s/it, gpt_loss=0.374, loss_mean=0.318][A
+Train step of epoch 0:  56%|█████▌    | 2545/4533 [6:55:57<5:12:02,  9.42s/it, gpt_loss=0.374, loss_mean=0.318][A2026-01-26 20:44:02.058 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  56%|█████▌    | 2545/4533 [6:56:06<5:12:02,  9.42s/it, gpt_loss=0.253, loss_mean=0.312][A
+Train step of epoch 0:  56%|█████▌    | 2546/4533 [6:56:06<5:09:35,  9.35s/it, gpt_loss=0.253, loss_mean=0.312][A2026-01-26 20:44:11.184 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  56%|█████▌    | 2546/4533 [6:56:15<5:09:35,  9.35s/it, gpt_loss=0.239, loss_mean=0.305][A
+Train step of epoch 0:  56%|█████▌    | 2547/4533 [6:56:15<5:03:07,  9.16s/it, gpt_loss=0.239, loss_mean=0.305][A2026-01-26 20:44:19.878 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  56%|█████▌    | 2547/4533 [6:56:27<5:03:07,  9.16s/it, gpt_loss=0.397, loss_mean=0.314][A
+Train step of epoch 0:  56%|█████▌    | 2548/4533 [6:56:27<5:33:28, 10.08s/it, gpt_loss=0.397, loss_mean=0.314][A2026-01-26 20:44:31.994 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  56%|█████▌    | 2548/4533 [6:56:37<5:33:28, 10.08s/it, gpt_loss=0.217, loss_mean=0.304][A
+Train step of epoch 0:  56%|█████▌    | 2549/4533 [6:56:37<5:23:38,  9.79s/it, gpt_loss=0.217, loss_mean=0.304][A
+[LID Router Debug] Step: 2550
+Batch Size: 14
+Audio Batch Size: 142
+LID Assignments: [4, 4, 4, 1, 1, 6, 9, 9, 9, 9, 9, 6, 5, 9]
+Active Experts in Batch: {1, 4, 5, 6, 9}
+2026-01-26 20:44:40.966 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  56%|█████▌    | 2549/4533 [6:56:45<5:23:38,  9.79s/it, gpt_loss=0.363, loss_mean=0.31] [A
+Train step of epoch 0:  56%|█████▋    | 2550/4533 [6:56:45<5:11:28,  9.42s/it, gpt_loss=0.363, loss_mean=0.31][A2026-01-26 20:44:49.800 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  56%|█████▋    | 2550/4533 [6:56:54<5:11:28,  9.42s/it, gpt_loss=0.328, loss_mean=0.312][A
+Train step of epoch 0:  56%|█████▋    | 2551/4533 [6:56:54<5:06:53,  9.29s/it, gpt_loss=0.328, loss_mean=0.312][A2026-01-26 20:44:58.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  56%|█████▋    | 2551/4533 [6:57:03<5:06:53,  9.29s/it, gpt_loss=0.314, loss_mean=0.312][A
+Train step of epoch 0:  56%|█████▋    | 2552/4533 [6:57:03<5:02:12,  9.15s/it, gpt_loss=0.314, loss_mean=0.312][A2026-01-26 20:45:07.570 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  56%|█████▋    | 2552/4533 [6:57:15<5:02:12,  9.15s/it, gpt_loss=0.36, loss_mean=0.317] [A
+Train step of epoch 0:  56%|█████▋    | 2553/4533 [6:57:15<5:26:53,  9.91s/it, gpt_loss=0.36, loss_mean=0.317][A2026-01-26 20:45:19.169 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  56%|█████▋    | 2553/4533 [6:57:24<5:26:53,  9.91s/it, gpt_loss=0.315, loss_mean=0.317][A
+Train step of epoch 0:  56%|█████▋    | 2554/4533 [6:57:24<5:16:52,  9.61s/it, gpt_loss=0.315, loss_mean=0.317][A2026-01-26 20:45:27.873 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  56%|█████▋    | 2554/4533 [6:57:33<5:16:52,  9.61s/it, gpt_loss=0.339, loss_mean=0.319][A
+Train step of epoch 0:  56%|█████▋    | 2555/4533 [6:57:33<5:15:40,  9.58s/it, gpt_loss=0.339, loss_mean=0.319][A2026-01-26 20:45:37.056 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  56%|█████▋    | 2555/4533 [6:57:45<5:15:40,  9.58s/it, gpt_loss=0.369, loss_mean=0.324][A
+Train step of epoch 0:  56%|█████▋    | 2556/4533 [6:57:45<5:37:13, 10.23s/it, gpt_loss=0.369, loss_mean=0.324][A2026-01-26 20:45:49.385 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  56%|█████▋    | 2556/4533 [6:57:57<5:37:13, 10.23s/it, gpt_loss=0.423, loss_mean=0.334][A
+Train step of epoch 0:  56%|█████▋    | 2557/4533 [6:57:57<5:57:47, 10.86s/it, gpt_loss=0.423, loss_mean=0.334][A2026-01-26 20:46:01.770 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  56%|█████▋    | 2557/4533 [6:58:07<5:57:47, 10.86s/it, gpt_loss=0.29, loss_mean=0.329] [A
+Train step of epoch 0:  56%|█████▋    | 2558/4533 [6:58:07<5:47:55, 10.57s/it, gpt_loss=0.29, loss_mean=0.329][A2026-01-26 20:46:11.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  56%|█████▋    | 2558/4533 [6:58:17<5:47:55, 10.57s/it, gpt_loss=0.329, loss_mean=0.329][A
+Train step of epoch 0:  56%|█████▋    | 2559/4533 [6:58:17<5:39:49, 10.33s/it, gpt_loss=0.329, loss_mean=0.329][A
+[LID Router Debug] Step: 2560
+Batch Size: 14
+Audio Batch Size: 140
+LID Assignments: [2, 0, 1, 5, 3, 0, 1, 4, 3, 9, 5, 4, 2, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 20:46:21.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  56%|█████▋    | 2559/4533 [6:58:28<5:39:49, 10.33s/it, gpt_loss=0.367, loss_mean=0.333][A
+Train step of epoch 0:  56%|█████▋    | 2560/4533 [6:58:28<5:52:59, 10.73s/it, gpt_loss=0.367, loss_mean=0.333][A2026-01-26 20:46:33.177 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  56%|█████▋    | 2560/4533 [6:58:40<5:52:59, 10.73s/it, gpt_loss=0.399, loss_mean=0.34] [A
+Train step of epoch 0:  56%|█████▋    | 2561/4533 [6:58:40<6:03:33, 11.06s/it, gpt_loss=0.399, loss_mean=0.34][A2026-01-26 20:46:44.770 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  56%|█████▋    | 2561/4533 [6:58:50<6:03:33, 11.06s/it, gpt_loss=0.269, loss_mean=0.333][A
+Train step of epoch 0:  57%|█████▋    | 2562/4533 [6:58:50<5:48:06, 10.60s/it, gpt_loss=0.269, loss_mean=0.333][A2026-01-26 20:46:54.376 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  57%|█████▋    | 2562/4533 [6:58:59<5:48:06, 10.60s/it, gpt_loss=0.299, loss_mean=0.329][A
+Train step of epoch 0:  57%|█████▋    | 2563/4533 [6:58:59<5:32:05, 10.11s/it, gpt_loss=0.299, loss_mean=0.329][A2026-01-26 20:47:03.398 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  57%|█████▋    | 2563/4533 [6:59:08<5:32:05, 10.11s/it, gpt_loss=0.224, loss_mean=0.319][A
+Train step of epoch 0:  57%|█████▋    | 2564/4533 [6:59:08<5:20:17,  9.76s/it, gpt_loss=0.224, loss_mean=0.319][A2026-01-26 20:47:12.385 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  57%|█████▋    | 2564/4533 [6:59:19<5:20:17,  9.76s/it, gpt_loss=0.443, loss_mean=0.331][A
+Train step of epoch 0:  57%|█████▋    | 2565/4533 [6:59:19<5:39:24, 10.35s/it, gpt_loss=0.443, loss_mean=0.331][A2026-01-26 20:47:23.795 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  57%|█████▋    | 2565/4533 [6:59:29<5:39:24, 10.35s/it, gpt_loss=0.351, loss_mean=0.333][A
+Train step of epoch 0:  57%|█████▋    | 2566/4533 [6:59:29<5:33:19, 10.17s/it, gpt_loss=0.351, loss_mean=0.333][A2026-01-26 20:47:33.470 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  57%|█████▋    | 2566/4533 [6:59:38<5:33:19, 10.17s/it, gpt_loss=0.33, loss_mean=0.333] [A
+Train step of epoch 0:  57%|█████▋    | 2567/4533 [6:59:38<5:17:23,  9.69s/it, gpt_loss=0.33, loss_mean=0.333][A2026-01-26 20:47:41.985 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  57%|█████▋    | 2567/4533 [6:59:50<5:17:23,  9.69s/it, gpt_loss=0.443, loss_mean=0.344][A
+Train step of epoch 0:  57%|█████▋    | 2568/4533 [6:59:50<5:37:58, 10.32s/it, gpt_loss=0.443, loss_mean=0.344][A2026-01-26 20:47:54.102 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  57%|█████▋    | 2568/4533 [6:59:59<5:37:58, 10.32s/it, gpt_loss=0.248, loss_mean=0.334][A
+Train step of epoch 0:  57%|█████▋    | 2569/4533 [6:59:59<5:26:40,  9.98s/it, gpt_loss=0.248, loss_mean=0.334][A
+[LID Router Debug] Step: 2570
+Batch Size: 14
+Audio Batch Size: 175
+LID Assignments: [3, 4, 5, 2, 3, 4, 5, 2, 5, 4, 3, 0, 5, 3]
+Active Experts in Batch: {0, 2, 3, 4, 5}
+2026-01-26 20:48:03.466 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  57%|█████▋    | 2569/4533 [7:00:08<5:26:40,  9.98s/it, gpt_loss=0.241, loss_mean=0.325][A
+Train step of epoch 0:  57%|█████▋    | 2570/4533 [7:00:08<5:19:17,  9.76s/it, gpt_loss=0.241, loss_mean=0.325][A2026-01-26 20:48:12.391 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  57%|█████▋    | 2570/4533 [7:00:17<5:19:17,  9.76s/it, gpt_loss=0.26, loss_mean=0.318] [A
+Train step of epoch 0:  57%|█████▋    | 2571/4533 [7:00:17<5:10:00,  9.48s/it, gpt_loss=0.26, loss_mean=0.318][A2026-01-26 20:48:21.395 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  57%|█████▋    | 2571/4533 [7:00:27<5:10:00,  9.48s/it, gpt_loss=0.306, loss_mean=0.317][A
+Train step of epoch 0:  57%|█████▋    | 2572/4533 [7:00:27<5:14:15,  9.62s/it, gpt_loss=0.306, loss_mean=0.317][A2026-01-26 20:48:31.294 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  57%|█████▋    | 2572/4533 [7:00:36<5:14:15,  9.62s/it, gpt_loss=0.299, loss_mean=0.315][A
+Train step of epoch 0:  57%|█████▋    | 2573/4533 [7:00:36<5:08:27,  9.44s/it, gpt_loss=0.299, loss_mean=0.315][A2026-01-26 20:48:40.279 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  57%|█████▋    | 2573/4533 [7:00:48<5:08:27,  9.44s/it, gpt_loss=0.335, loss_mean=0.317][A
+Train step of epoch 0:  57%|█████▋    | 2574/4533 [7:00:48<5:31:48, 10.16s/it, gpt_loss=0.335, loss_mean=0.317][A2026-01-26 20:48:52.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  57%|█████▋    | 2574/4533 [7:00:57<5:31:48, 10.16s/it, gpt_loss=0.264, loss_mean=0.312][A
+Train step of epoch 0:  57%|█████▋    | 2575/4533 [7:00:57<5:21:04,  9.84s/it, gpt_loss=0.264, loss_mean=0.312][A2026-01-26 20:49:01.063 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  57%|█████▋    | 2575/4533 [7:01:05<5:21:04,  9.84s/it, gpt_loss=0.4, loss_mean=0.321]  [A
+Train step of epoch 0:  57%|█████▋    | 2576/4533 [7:01:05<5:09:33,  9.49s/it, gpt_loss=0.4, loss_mean=0.321][A2026-01-26 20:49:10.063 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  57%|█████▋    | 2576/4533 [7:01:14<5:09:33,  9.49s/it, gpt_loss=0.269, loss_mean=0.316][A
+Train step of epoch 0:  57%|█████▋    | 2577/4533 [7:01:14<5:05:41,  9.38s/it, gpt_loss=0.269, loss_mean=0.316][A2026-01-26 20:49:18.969 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  57%|█████▋    | 2577/4533 [7:01:23<5:05:41,  9.38s/it, gpt_loss=0.278, loss_mean=0.312][A
+Train step of epoch 0:  57%|█████▋    | 2578/4533 [7:01:23<4:58:56,  9.17s/it, gpt_loss=0.278, loss_mean=0.312][A2026-01-26 20:49:27.583 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  57%|█████▋    | 2578/4533 [7:01:35<4:58:56,  9.17s/it, gpt_loss=0.362, loss_mean=0.317][A
+Train step of epoch 0:  57%|█████▋    | 2579/4533 [7:01:35<5:25:59, 10.01s/it, gpt_loss=0.362, loss_mean=0.317][A
+[LID Router Debug] Step: 2580
+Batch Size: 14
+Audio Batch Size: 143
+LID Assignments: [4, 6, 9, 0, 5, 4, 1, 9, 1, 1, 2, 3, 9, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 20:49:39.592 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  57%|█████▋    | 2579/4533 [7:01:45<5:25:59, 10.01s/it, gpt_loss=0.375, loss_mean=0.323][A
+Train step of epoch 0:  57%|█████▋    | 2580/4533 [7:01:45<5:20:29,  9.85s/it, gpt_loss=0.375, loss_mean=0.323][A2026-01-26 20:49:49.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  57%|█████▋    | 2580/4533 [7:01:53<5:20:29,  9.85s/it, gpt_loss=0.39, loss_mean=0.329] [A
+Train step of epoch 0:  57%|█████▋    | 2581/4533 [7:01:53<5:10:22,  9.54s/it, gpt_loss=0.39, loss_mean=0.329][A2026-01-26 20:49:58.153 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  57%|█████▋    | 2581/4533 [7:02:03<5:10:22,  9.54s/it, gpt_loss=0.303, loss_mean=0.327][A
+Train step of epoch 0:  57%|█████▋    | 2582/4533 [7:02:03<5:11:26,  9.58s/it, gpt_loss=0.303, loss_mean=0.327][A2026-01-26 20:50:07.570 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  57%|█████▋    | 2582/4533 [7:02:12<5:11:26,  9.58s/it, gpt_loss=0.275, loss_mean=0.322][A
+Train step of epoch 0:  57%|█████▋    | 2583/4533 [7:02:12<5:06:23,  9.43s/it, gpt_loss=0.275, loss_mean=0.322][A2026-01-26 20:50:16.372 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  57%|█████▋    | 2583/4533 [7:02:21<5:06:23,  9.43s/it, gpt_loss=0.313, loss_mean=0.321][A
+Train step of epoch 0:  57%|█████▋    | 2584/4533 [7:02:21<5:00:37,  9.25s/it, gpt_loss=0.313, loss_mean=0.321][A2026-01-26 20:50:25.556 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  57%|█████▋    | 2584/4533 [7:02:31<5:00:37,  9.25s/it, gpt_loss=0.328, loss_mean=0.321][A
+Train step of epoch 0:  57%|█████▋    | 2585/4533 [7:02:31<5:05:28,  9.41s/it, gpt_loss=0.328, loss_mean=0.321][A2026-01-26 20:50:35.468 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  57%|█████▋    | 2585/4533 [7:02:41<5:05:28,  9.41s/it, gpt_loss=0.256, loss_mean=0.315][A
+Train step of epoch 0:  57%|█████▋    | 2586/4533 [7:02:41<5:08:26,  9.51s/it, gpt_loss=0.256, loss_mean=0.315][A2026-01-26 20:50:45.178 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  57%|█████▋    | 2586/4533 [7:02:50<5:08:26,  9.51s/it, gpt_loss=0.251, loss_mean=0.308][A
+Train step of epoch 0:  57%|█████▋    | 2587/4533 [7:02:50<5:11:18,  9.60s/it, gpt_loss=0.251, loss_mean=0.308][A2026-01-26 20:50:54.898 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  57%|█████▋    | 2587/4533 [7:02:59<5:11:18,  9.60s/it, gpt_loss=0.279, loss_mean=0.305][A
+Train step of epoch 0:  57%|█████▋    | 2588/4533 [7:02:59<5:04:49,  9.40s/it, gpt_loss=0.279, loss_mean=0.305][A2026-01-26 20:51:03.766 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  57%|█████▋    | 2588/4533 [7:03:08<5:04:49,  9.40s/it, gpt_loss=0.27, loss_mean=0.302] [A
+Train step of epoch 0:  57%|█████▋    | 2589/4533 [7:03:08<4:59:15,  9.24s/it, gpt_loss=0.27, loss_mean=0.302][A
+[LID Router Debug] Step: 2590
+Batch Size: 14
+Audio Batch Size: 165
+LID Assignments: [9, 1, 4, 1, 0, 3, 2, 1, 6, 9, 4, 3, 3, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-26 20:51:12.391 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  57%|█████▋    | 2589/4533 [7:03:19<4:59:15,  9.24s/it, gpt_loss=0.357, loss_mean=0.307][A
+Train step of epoch 0:  57%|█████▋    | 2590/4533 [7:03:19<5:19:23,  9.86s/it, gpt_loss=0.357, loss_mean=0.307][A2026-01-26 20:51:23.881 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  57%|█████▋    | 2590/4533 [7:03:31<5:19:23,  9.86s/it, gpt_loss=0.381, loss_mean=0.315][A
+Train step of epoch 0:  57%|█████▋    | 2591/4533 [7:03:31<5:34:04, 10.32s/it, gpt_loss=0.381, loss_mean=0.315][A2026-01-26 20:51:35.264 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  57%|█████▋    | 2591/4533 [7:03:43<5:34:04, 10.32s/it, gpt_loss=0.357, loss_mean=0.319][A
+Train step of epoch 0:  57%|█████▋    | 2592/4533 [7:03:43<5:48:44, 10.78s/it, gpt_loss=0.357, loss_mean=0.319][A2026-01-26 20:51:47.257 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  57%|█████▋    | 2592/4533 [7:03:55<5:48:44, 10.78s/it, gpt_loss=0.471, loss_mean=0.334][A
+Train step of epoch 0:  57%|█████▋    | 2593/4533 [7:03:55<5:59:32, 11.12s/it, gpt_loss=0.471, loss_mean=0.334][A2026-01-26 20:51:58.890 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  57%|█████▋    | 2593/4533 [7:04:03<5:59:32, 11.12s/it, gpt_loss=0.291, loss_mean=0.33] [A
+Train step of epoch 0:  57%|█████▋    | 2594/4533 [7:04:03<5:33:45, 10.33s/it, gpt_loss=0.291, loss_mean=0.33][A2026-01-26 20:52:07.579 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  57%|█████▋    | 2594/4533 [7:04:15<5:33:45, 10.33s/it, gpt_loss=0.43, loss_mean=0.34] [A
+Train step of epoch 0:  57%|█████▋    | 2595/4533 [7:04:15<5:44:36, 10.67s/it, gpt_loss=0.43, loss_mean=0.34][A2026-01-26 20:52:18.963 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  57%|█████▋    | 2595/4533 [7:04:24<5:44:36, 10.67s/it, gpt_loss=0.37, loss_mean=0.343][A
+Train step of epoch 0:  57%|█████▋    | 2596/4533 [7:04:24<5:31:47, 10.28s/it, gpt_loss=0.37, loss_mean=0.343][A2026-01-26 20:52:28.096 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  57%|█████▋    | 2596/4533 [7:04:35<5:31:47, 10.28s/it, gpt_loss=0.32, loss_mean=0.341][A
+Train step of epoch 0:  57%|█████▋    | 2597/4533 [7:04:35<5:43:17, 10.64s/it, gpt_loss=0.32, loss_mean=0.341][A2026-01-26 20:52:40.058 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  57%|█████▋    | 2597/4533 [7:04:48<5:43:17, 10.64s/it, gpt_loss=0.394, loss_mean=0.346][A
+Train step of epoch 0:  57%|█████▋    | 2598/4533 [7:04:48<5:57:56, 11.10s/it, gpt_loss=0.394, loss_mean=0.346][A2026-01-26 20:52:52.073 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  57%|█████▋    | 2598/4533 [7:04:59<5:57:56, 11.10s/it, gpt_loss=0.323, loss_mean=0.344][A
+Train step of epoch 0:  57%|█████▋    | 2599/4533 [7:04:59<6:03:21, 11.27s/it, gpt_loss=0.323, loss_mean=0.344][A
+[LID Router Debug] Step: 2600
+Batch Size: 14
+Audio Batch Size: 155
+LID Assignments: [3, 4, 2, 5, 6, 5, 3, 0, 9, 0, 0, 3, 3, 0]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-26 20:53:03.570 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+[2026-01-26 20:53:11,590] [INFO] [logging.py:96:log_dist] [Rank 0] step=2600, skipped=0, lr=[1.839206064712933e-05, 1.839206064712933e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 20:53:11,591] [INFO] [timer.py:260:stop] epoch=0/micro_step=2600/global_step=2600, RunningAvgSamplesPerSec=5.7285445084696125, CurrSamplesPerSec=6.665304099200905, MemAllocated=14.62GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  57%|█████▋    | 2599/4533 [7:05:08<6:03:21, 11.27s/it, gpt_loss=0.331, loss_mean=0.342][A
+Train step of epoch 0:  57%|█████▋    | 2600/4533 [7:05:08<5:35:36, 10.42s/it, gpt_loss=0.331, loss_mean=0.342][A2026-01-26 20:53:12.369 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  57%|█████▋    | 2600/4533 [7:05:17<5:35:36, 10.42s/it, gpt_loss=0.277, loss_mean=0.336][A
+Train step of epoch 0:  57%|█████▋    | 2601/4533 [7:05:17<5:20:36,  9.96s/it, gpt_loss=0.277, loss_mean=0.336][A2026-01-26 20:53:21.073 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  57%|█████▋    | 2601/4533 [7:05:29<5:20:36,  9.96s/it, gpt_loss=0.405, loss_mean=0.343][A
+Train step of epoch 0:  57%|█████▋    | 2602/4533 [7:05:29<5:40:05, 10.57s/it, gpt_loss=0.405, loss_mean=0.343][A2026-01-26 20:53:33.257 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  57%|█████▋    | 2602/4533 [7:05:38<5:40:05, 10.57s/it, gpt_loss=0.366, loss_mean=0.345][A
+Train step of epoch 0:  57%|█████▋    | 2603/4533 [7:05:38<5:31:06, 10.29s/it, gpt_loss=0.366, loss_mean=0.345][A2026-01-26 20:53:42.763 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  57%|█████▋    | 2603/4533 [7:05:47<5:31:06, 10.29s/it, gpt_loss=0.373, loss_mean=0.348][A
+Train step of epoch 0:  57%|█████▋    | 2604/4533 [7:05:47<5:21:07,  9.99s/it, gpt_loss=0.373, loss_mean=0.348][A2026-01-26 20:53:52.170 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  57%|█████▋    | 2604/4533 [7:05:57<5:21:07,  9.99s/it, gpt_loss=0.293, loss_mean=0.342][A
+Train step of epoch 0:  57%|█████▋    | 2605/4533 [7:05:57<5:11:52,  9.71s/it, gpt_loss=0.293, loss_mean=0.342][A2026-01-26 20:54:01.058 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  57%|█████▋    | 2605/4533 [7:06:06<5:11:52,  9.71s/it, gpt_loss=0.26, loss_mean=0.334] [A
+Train step of epoch 0:  57%|█████▋    | 2606/4533 [7:06:06<5:04:52,  9.49s/it, gpt_loss=0.26, loss_mean=0.334][A2026-01-26 20:54:10.193 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  57%|█████▋    | 2606/4533 [7:06:15<5:04:52,  9.49s/it, gpt_loss=0.266, loss_mean=0.327][A
+Train step of epoch 0:  58%|█████▊    | 2607/4533 [7:06:15<5:06:19,  9.54s/it, gpt_loss=0.266, loss_mean=0.327][A2026-01-26 20:54:19.371 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  58%|█████▊    | 2607/4533 [7:06:24<5:06:19,  9.54s/it, gpt_loss=0.336, loss_mean=0.328][A
+Train step of epoch 0:  58%|█████▊    | 2608/4533 [7:06:24<4:54:58,  9.19s/it, gpt_loss=0.336, loss_mean=0.328][A2026-01-26 20:54:28.151 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  58%|█████▊    | 2608/4533 [7:06:32<4:54:58,  9.19s/it, gpt_loss=0.266, loss_mean=0.322][A
+Train step of epoch 0:  58%|█████▊    | 2609/4533 [7:06:32<4:49:57,  9.04s/it, gpt_loss=0.266, loss_mean=0.322][A
+[LID Router Debug] Step: 2610
+Batch Size: 14
+Audio Batch Size: 189
+LID Assignments: [3, 0, 3, 0, 0, 4, 2, 5, 3, 1, 6, 9, 9, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 20:54:36.897 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  58%|█████▊    | 2609/4533 [7:06:41<4:49:57,  9.04s/it, gpt_loss=0.278, loss_mean=0.317][A
+Train step of epoch 0:  58%|█████▊    | 2610/4533 [7:06:41<4:50:42,  9.07s/it, gpt_loss=0.278, loss_mean=0.317][A2026-01-26 20:54:45.866 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  58%|█████▊    | 2610/4533 [7:06:50<4:50:42,  9.07s/it, gpt_loss=0.235, loss_mean=0.309][A
+Train step of epoch 0:  58%|█████▊    | 2611/4533 [7:06:50<4:48:59,  9.02s/it, gpt_loss=0.235, loss_mean=0.309][A2026-01-26 20:54:54.877 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  58%|█████▊    | 2611/4533 [7:07:02<4:48:59,  9.02s/it, gpt_loss=0.374, loss_mean=0.316][A
+Train step of epoch 0:  58%|█████▊    | 2612/4533 [7:07:02<5:16:24,  9.88s/it, gpt_loss=0.374, loss_mean=0.316][A2026-01-26 20:55:06.602 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  58%|█████▊    | 2612/4533 [7:07:11<5:16:24,  9.88s/it, gpt_loss=0.22, loss_mean=0.306] [A
+Train step of epoch 0:  58%|█████▊    | 2613/4533 [7:07:11<5:04:34,  9.52s/it, gpt_loss=0.22, loss_mean=0.306][A2026-01-26 20:55:15.492 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  58%|█████▊    | 2613/4533 [7:07:20<5:04:34,  9.52s/it, gpt_loss=0.282, loss_mean=0.304][A
+Train step of epoch 0:  58%|█████▊    | 2614/4533 [7:07:20<4:56:59,  9.29s/it, gpt_loss=0.282, loss_mean=0.304][A2026-01-26 20:55:24.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  58%|█████▊    | 2614/4533 [7:07:28<4:56:59,  9.29s/it, gpt_loss=0.27, loss_mean=0.3]   [A
+Train step of epoch 0:  58%|█████▊    | 2615/4533 [7:07:28<4:52:10,  9.14s/it, gpt_loss=0.27, loss_mean=0.3][A2026-01-26 20:55:32.991 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  58%|█████▊    | 2615/4533 [7:07:37<4:52:10,  9.14s/it, gpt_loss=0.4, loss_mean=0.31][A
+Train step of epoch 0:  58%|█████▊    | 2616/4533 [7:07:37<4:47:58,  9.01s/it, gpt_loss=0.4, loss_mean=0.31][A2026-01-26 20:55:41.694 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  58%|█████▊    | 2616/4533 [7:07:47<4:47:58,  9.01s/it, gpt_loss=0.261, loss_mean=0.305][A
+Train step of epoch 0:  58%|█████▊    | 2617/4533 [7:07:47<4:54:42,  9.23s/it, gpt_loss=0.261, loss_mean=0.305][A2026-01-26 20:55:51.477 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  58%|█████▊    | 2617/4533 [7:07:59<4:54:42,  9.23s/it, gpt_loss=0.408, loss_mean=0.316][A
+Train step of epoch 0:  58%|█████▊    | 2618/4533 [7:07:59<5:18:49,  9.99s/it, gpt_loss=0.408, loss_mean=0.316][A2026-01-26 20:56:02.963 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  58%|█████▊    | 2618/4533 [7:08:07<5:18:49,  9.99s/it, gpt_loss=0.285, loss_mean=0.313][A
+Train step of epoch 0:  58%|█████▊    | 2619/4533 [7:08:07<5:06:11,  9.60s/it, gpt_loss=0.285, loss_mean=0.313][A
+[LID Router Debug] Step: 2620
+Batch Size: 14
+Audio Batch Size: 172
+LID Assignments: [5, 1, 4, 5, 9, 3, 6, 3, 0, 0, 3, 3, 2, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 20:56:11.789 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  58%|█████▊    | 2619/4533 [7:08:19<5:06:11,  9.60s/it, gpt_loss=0.392, loss_mean=0.321][A
+Train step of epoch 0:  58%|█████▊    | 2620/4533 [7:08:19<5:24:49, 10.19s/it, gpt_loss=0.392, loss_mean=0.321][A2026-01-26 20:56:23.464 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  58%|█████▊    | 2620/4533 [7:08:28<5:24:49, 10.19s/it, gpt_loss=0.269, loss_mean=0.315][A
+Train step of epoch 0:  58%|█████▊    | 2621/4533 [7:08:28<5:19:12, 10.02s/it, gpt_loss=0.269, loss_mean=0.315][A2026-01-26 20:56:33.169 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  58%|█████▊    | 2621/4533 [7:08:40<5:19:12, 10.02s/it, gpt_loss=0.375, loss_mean=0.321][A
+Train step of epoch 0:  58%|█████▊    | 2622/4533 [7:08:40<5:38:07, 10.62s/it, gpt_loss=0.375, loss_mean=0.321][A2026-01-26 20:56:45.100 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  58%|█████▊    | 2622/4533 [7:08:49<5:38:07, 10.62s/it, gpt_loss=0.36, loss_mean=0.325] [A
+Train step of epoch 0:  58%|█████▊    | 2623/4533 [7:08:49<5:22:03, 10.12s/it, gpt_loss=0.36, loss_mean=0.325][A2026-01-26 20:56:53.869 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  58%|█████▊    | 2623/4533 [7:09:01<5:22:03, 10.12s/it, gpt_loss=0.353, loss_mean=0.328][A
+Train step of epoch 0:  58%|█████▊    | 2624/4533 [7:09:01<5:35:50, 10.56s/it, gpt_loss=0.353, loss_mean=0.328][A2026-01-26 20:57:05.561 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  58%|█████▊    | 2624/4533 [7:09:11<5:35:50, 10.56s/it, gpt_loss=0.312, loss_mean=0.326][A
+Train step of epoch 0:  58%|█████▊    | 2625/4533 [7:09:11<5:25:53, 10.25s/it, gpt_loss=0.312, loss_mean=0.326][A2026-01-26 20:57:15.173 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  58%|█████▊    | 2625/4533 [7:09:19<5:25:53, 10.25s/it, gpt_loss=0.257, loss_mean=0.319][A
+Train step of epoch 0:  58%|█████▊    | 2626/4533 [7:09:19<5:12:01,  9.82s/it, gpt_loss=0.257, loss_mean=0.319][A2026-01-26 20:57:23.777 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  58%|█████▊    | 2626/4533 [7:09:28<5:12:01,  9.82s/it, gpt_loss=0.376, loss_mean=0.325][A
+Train step of epoch 0:  58%|█████▊    | 2627/4533 [7:09:28<5:00:55,  9.47s/it, gpt_loss=0.376, loss_mean=0.325][A2026-01-26 20:57:32.689 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  58%|█████▊    | 2627/4533 [7:09:37<5:00:55,  9.47s/it, gpt_loss=0.288, loss_mean=0.321][A
+Train step of epoch 0:  58%|█████▊    | 2628/4533 [7:09:37<4:56:22,  9.33s/it, gpt_loss=0.288, loss_mean=0.321][A2026-01-26 20:57:41.566 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  58%|█████▊    | 2628/4533 [7:09:49<4:56:22,  9.33s/it, gpt_loss=0.392, loss_mean=0.329][A
+Train step of epoch 0:  58%|█████▊    | 2629/4533 [7:09:49<5:19:24, 10.07s/it, gpt_loss=0.392, loss_mean=0.329][A
+[LID Router Debug] Step: 2630
+Batch Size: 14
+Audio Batch Size: 185
+LID Assignments: [2, 6, 1, 1, 3, 3, 9, 1, 1, 9, 9, 4, 0, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-26 20:57:53.491 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  58%|█████▊    | 2629/4533 [7:09:59<5:19:24, 10.07s/it, gpt_loss=0.291, loss_mean=0.325][A
+Train step of epoch 0:  58%|█████▊    | 2630/4533 [7:09:59<5:18:18, 10.04s/it, gpt_loss=0.291, loss_mean=0.325][A2026-01-26 20:58:03.391 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  58%|█████▊    | 2630/4533 [7:10:08<5:18:18, 10.04s/it, gpt_loss=0.323, loss_mean=0.325][A
+Train step of epoch 0:  58%|█████▊    | 2631/4533 [7:10:08<5:09:33,  9.77s/it, gpt_loss=0.323, loss_mean=0.325][A2026-01-26 20:58:12.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  58%|█████▊    | 2631/4533 [7:10:16<5:09:33,  9.77s/it, gpt_loss=0.257, loss_mean=0.318][A
+Train step of epoch 0:  58%|█████▊    | 2632/4533 [7:10:16<4:57:32,  9.39s/it, gpt_loss=0.257, loss_mean=0.318][A2026-01-26 20:58:20.675 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  58%|█████▊    | 2632/4533 [7:10:28<4:57:32,  9.39s/it, gpt_loss=0.383, loss_mean=0.324][A
+Train step of epoch 0:  58%|█████▊    | 2633/4533 [7:10:28<5:16:47, 10.00s/it, gpt_loss=0.383, loss_mean=0.324][A2026-01-26 20:58:32.381 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  58%|█████▊    | 2633/4533 [7:10:36<5:16:47, 10.00s/it, gpt_loss=0.281, loss_mean=0.32] [A
+Train step of epoch 0:  58%|█████▊    | 2634/4533 [7:10:36<5:03:20,  9.58s/it, gpt_loss=0.281, loss_mean=0.32][A2026-01-26 20:58:41.096 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  58%|█████▊    | 2634/4533 [7:10:45<5:03:20,  9.58s/it, gpt_loss=0.308, loss_mean=0.319][A
+Train step of epoch 0:  58%|█████▊    | 2635/4533 [7:10:45<4:55:58,  9.36s/it, gpt_loss=0.308, loss_mean=0.319][A2026-01-26 20:58:49.786 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  58%|█████▊    | 2635/4533 [7:10:55<4:55:58,  9.36s/it, gpt_loss=0.333, loss_mean=0.32] [A
+Train step of epoch 0:  58%|█████▊    | 2636/4533 [7:10:55<4:54:19,  9.31s/it, gpt_loss=0.333, loss_mean=0.32][A2026-01-26 20:58:58.980 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  58%|█████▊    | 2636/4533 [7:11:06<4:54:19,  9.31s/it, gpt_loss=0.305, loss_mean=0.319][A
+Train step of epoch 0:  58%|█████▊    | 2637/4533 [7:11:06<5:13:59,  9.94s/it, gpt_loss=0.305, loss_mean=0.319][A2026-01-26 20:59:09.972 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  58%|█████▊    | 2637/4533 [7:11:14<5:13:59,  9.94s/it, gpt_loss=0.286, loss_mean=0.315][A
+Train step of epoch 0:  58%|█████▊    | 2638/4533 [7:11:14<5:00:08,  9.50s/it, gpt_loss=0.286, loss_mean=0.315][A2026-01-26 20:59:19.056 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  58%|█████▊    | 2638/4533 [7:11:26<5:00:08,  9.50s/it, gpt_loss=0.401, loss_mean=0.324][A
+Train step of epoch 0:  58%|█████▊    | 2639/4533 [7:11:26<5:21:47, 10.19s/it, gpt_loss=0.401, loss_mean=0.324][A
+[LID Router Debug] Step: 2640
+Batch Size: 14
+Audio Batch Size: 140
+LID Assignments: [5, 3, 4, 1, 1, 3, 1, 1, 1, 1, 4, 5, 1, 2]
+Active Experts in Batch: {1, 2, 3, 4, 5}
+2026-01-26 20:59:30.660 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  58%|█████▊    | 2639/4533 [7:11:35<5:21:47, 10.19s/it, gpt_loss=0.258, loss_mean=0.317][A
+Train step of epoch 0:  58%|█████▊    | 2640/4533 [7:11:35<5:10:51,  9.85s/it, gpt_loss=0.258, loss_mean=0.317][A2026-01-26 20:59:39.968 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  58%|█████▊    | 2640/4533 [7:11:47<5:10:51,  9.85s/it, gpt_loss=0.314, loss_mean=0.317][A
+Train step of epoch 0:  58%|█████▊    | 2641/4533 [7:11:47<5:28:20, 10.41s/it, gpt_loss=0.314, loss_mean=0.317][A2026-01-26 20:59:51.572 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  58%|█████▊    | 2641/4533 [7:11:56<5:28:20, 10.41s/it, gpt_loss=0.308, loss_mean=0.316][A
+Train step of epoch 0:  58%|█████▊    | 2642/4533 [7:11:56<5:11:50,  9.89s/it, gpt_loss=0.308, loss_mean=0.316][A2026-01-26 21:00:00.281 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  58%|█████▊    | 2642/4533 [7:12:08<5:11:50,  9.89s/it, gpt_loss=0.396, loss_mean=0.324][A
+Train step of epoch 0:  58%|█████▊    | 2643/4533 [7:12:08<5:32:49, 10.57s/it, gpt_loss=0.396, loss_mean=0.324][A2026-01-26 21:00:12.353 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  58%|█████▊    | 2643/4533 [7:12:17<5:32:49, 10.57s/it, gpt_loss=0.312, loss_mean=0.323][A
+Train step of epoch 0:  58%|█████▊    | 2644/4533 [7:12:17<5:15:48, 10.03s/it, gpt_loss=0.312, loss_mean=0.323][A2026-01-26 21:00:21.181 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  58%|█████▊    | 2644/4533 [7:12:28<5:15:48, 10.03s/it, gpt_loss=0.255, loss_mean=0.316][A
+Train step of epoch 0:  58%|█████▊    | 2645/4533 [7:12:28<5:33:15, 10.59s/it, gpt_loss=0.255, loss_mean=0.316][A2026-01-26 21:00:32.797 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  58%|█████▊    | 2645/4533 [7:12:38<5:33:15, 10.59s/it, gpt_loss=0.319, loss_mean=0.316][A
+Train step of epoch 0:  58%|█████▊    | 2646/4533 [7:12:38<5:21:01, 10.21s/it, gpt_loss=0.319, loss_mean=0.316][A2026-01-26 21:00:42.484 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  58%|█████▊    | 2646/4533 [7:12:47<5:21:01, 10.21s/it, gpt_loss=0.272, loss_mean=0.312][A
+Train step of epoch 0:  58%|█████▊    | 2647/4533 [7:12:47<5:10:24,  9.88s/it, gpt_loss=0.272, loss_mean=0.312][A2026-01-26 21:00:51.298 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  58%|█████▊    | 2647/4533 [7:12:56<5:10:24,  9.88s/it, gpt_loss=0.252, loss_mean=0.306][A
+Train step of epoch 0:  58%|█████▊    | 2648/4533 [7:12:56<4:59:07,  9.52s/it, gpt_loss=0.252, loss_mean=0.306][A2026-01-26 21:00:59.889 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  58%|█████▊    | 2648/4533 [7:13:07<4:59:07,  9.52s/it, gpt_loss=0.343, loss_mean=0.31] [A
+Train step of epoch 0:  58%|█████▊    | 2649/4533 [7:13:07<5:18:23, 10.14s/it, gpt_loss=0.343, loss_mean=0.31][A
+[LID Router Debug] Step: 2650
+Batch Size: 14
+Audio Batch Size: 147
+LID Assignments: [1, 2, 2, 2, 3, 2, 4, 4, 5, 1, 6, 4, 1, 6]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6}
+2026-01-26 21:01:11.591 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  58%|█████▊    | 2649/4533 [7:13:16<5:18:23, 10.14s/it, gpt_loss=0.408, loss_mean=0.319][A
+Train step of epoch 0:  58%|█████▊    | 2650/4533 [7:13:16<5:06:11,  9.76s/it, gpt_loss=0.408, loss_mean=0.319][A2026-01-26 21:01:20.703 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  58%|█████▊    | 2650/4533 [7:13:25<5:06:11,  9.76s/it, gpt_loss=0.294, loss_mean=0.317][A
+Train step of epoch 0:  58%|█████▊    | 2651/4533 [7:13:25<4:58:11,  9.51s/it, gpt_loss=0.294, loss_mean=0.317][A2026-01-26 21:01:29.665 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  58%|█████▊    | 2651/4533 [7:13:35<4:58:11,  9.51s/it, gpt_loss=0.385, loss_mean=0.324][A
+Train step of epoch 0:  59%|█████▊    | 2652/4533 [7:13:35<5:01:25,  9.61s/it, gpt_loss=0.385, loss_mean=0.324][A2026-01-26 21:01:39.492 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  59%|█████▊    | 2652/4533 [7:13:47<5:01:25,  9.61s/it, gpt_loss=0.373, loss_mean=0.329][A
+Train step of epoch 0:  59%|█████▊    | 2653/4533 [7:13:47<5:24:03, 10.34s/it, gpt_loss=0.373, loss_mean=0.329][A2026-01-26 21:01:51.379 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  59%|█████▊    | 2653/4533 [7:13:56<5:24:03, 10.34s/it, gpt_loss=0.292, loss_mean=0.325][A
+Train step of epoch 0:  59%|█████▊    | 2654/4533 [7:13:56<5:08:04,  9.84s/it, gpt_loss=0.292, loss_mean=0.325][A2026-01-26 21:02:00.174 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  59%|█████▊    | 2654/4533 [7:14:07<5:08:04,  9.84s/it, gpt_loss=0.389, loss_mean=0.331][A
+Train step of epoch 0:  59%|█████▊    | 2655/4533 [7:14:07<5:27:01, 10.45s/it, gpt_loss=0.389, loss_mean=0.331][A2026-01-26 21:02:11.692 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  59%|█████▊    | 2655/4533 [7:14:17<5:27:01, 10.45s/it, gpt_loss=0.292, loss_mean=0.327][A
+Train step of epoch 0:  59%|█████▊    | 2656/4533 [7:14:17<5:14:37, 10.06s/it, gpt_loss=0.292, loss_mean=0.327][A2026-01-26 21:02:21.198 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  59%|█████▊    | 2656/4533 [7:14:29<5:14:37, 10.06s/it, gpt_loss=0.417, loss_mean=0.336][A
+Train step of epoch 0:  59%|█████▊    | 2657/4533 [7:14:29<5:33:42, 10.67s/it, gpt_loss=0.417, loss_mean=0.336][A2026-01-26 21:02:33.076 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  59%|█████▊    | 2657/4533 [7:14:38<5:33:42, 10.67s/it, gpt_loss=0.352, loss_mean=0.338][A
+Train step of epoch 0:  59%|█████▊    | 2658/4533 [7:14:38<5:23:02, 10.34s/it, gpt_loss=0.352, loss_mean=0.338][A2026-01-26 21:02:42.787 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  59%|█████▊    | 2658/4533 [7:14:47<5:23:02, 10.34s/it, gpt_loss=0.308, loss_mean=0.335][A
+Train step of epoch 0:  59%|█████▊    | 2659/4533 [7:14:47<5:07:36,  9.85s/it, gpt_loss=0.308, loss_mean=0.335][A
+[LID Router Debug] Step: 2660
+Batch Size: 14
+Audio Batch Size: 148
+LID Assignments: [2, 5, 3, 2, 6, 4, 1, 3, 5, 2, 1, 5, 1, 4]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6}
+2026-01-26 21:02:51.352 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  59%|█████▊    | 2659/4533 [7:14:59<5:07:36,  9.85s/it, gpt_loss=0.384, loss_mean=0.34] [A
+Train step of epoch 0:  59%|█████▊    | 2660/4533 [7:14:59<5:27:06, 10.48s/it, gpt_loss=0.384, loss_mean=0.34][A2026-01-26 21:03:03.560 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  59%|█████▊    | 2660/4533 [7:15:11<5:27:06, 10.48s/it, gpt_loss=0.348, loss_mean=0.341][A
+Train step of epoch 0:  59%|█████▊    | 2661/4533 [7:15:11<5:39:31, 10.88s/it, gpt_loss=0.348, loss_mean=0.341][A2026-01-26 21:03:15.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  59%|█████▊    | 2661/4533 [7:15:23<5:39:31, 10.88s/it, gpt_loss=0.387, loss_mean=0.345][A
+Train step of epoch 0:  59%|█████▊    | 2662/4533 [7:15:23<5:52:15, 11.30s/it, gpt_loss=0.387, loss_mean=0.345][A2026-01-26 21:03:27.473 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  59%|█████▊    | 2662/4533 [7:15:32<5:52:15, 11.30s/it, gpt_loss=0.311, loss_mean=0.342][A
+Train step of epoch 0:  59%|█████▊    | 2663/4533 [7:15:32<5:27:33, 10.51s/it, gpt_loss=0.311, loss_mean=0.342][A2026-01-26 21:03:36.193 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  59%|█████▊    | 2663/4533 [7:15:41<5:27:33, 10.51s/it, gpt_loss=0.208, loss_mean=0.328][A
+Train step of epoch 0:  59%|█████▉    | 2664/4533 [7:15:41<5:19:19, 10.25s/it, gpt_loss=0.208, loss_mean=0.328][A2026-01-26 21:03:45.661 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  59%|█████▉    | 2664/4533 [7:15:53<5:19:19, 10.25s/it, gpt_loss=0.375, loss_mean=0.333][A
+Train step of epoch 0:  59%|█████▉    | 2665/4533 [7:15:53<5:34:52, 10.76s/it, gpt_loss=0.375, loss_mean=0.333][A2026-01-26 21:03:57.593 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  59%|█████▉    | 2665/4533 [7:16:02<5:34:52, 10.76s/it, gpt_loss=0.354, loss_mean=0.335][A
+Train step of epoch 0:  59%|█████▉    | 2666/4533 [7:16:02<5:17:42, 10.21s/it, gpt_loss=0.354, loss_mean=0.335][A2026-01-26 21:04:06.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  59%|█████▉    | 2666/4533 [7:16:14<5:17:42, 10.21s/it, gpt_loss=0.435, loss_mean=0.345][A
+Train step of epoch 0:  59%|█████▉    | 2667/4533 [7:16:14<5:34:12, 10.75s/it, gpt_loss=0.435, loss_mean=0.345][A2026-01-26 21:04:18.872 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  59%|█████▉    | 2667/4533 [7:16:23<5:34:12, 10.75s/it, gpt_loss=0.312, loss_mean=0.342][A
+Train step of epoch 0:  59%|█████▉    | 2668/4533 [7:16:23<5:17:43, 10.22s/it, gpt_loss=0.312, loss_mean=0.342][A2026-01-26 21:04:27.860 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  59%|█████▉    | 2668/4533 [7:16:32<5:17:43, 10.22s/it, gpt_loss=0.271, loss_mean=0.335][A
+Train step of epoch 0:  59%|█████▉    | 2669/4533 [7:16:32<5:04:23,  9.80s/it, gpt_loss=0.271, loss_mean=0.335][A
+[LID Router Debug] Step: 2670
+Batch Size: 14
+Audio Batch Size: 114
+LID Assignments: [6, 5, 5, 5, 9, 0, 0, 0, 1, 5, 0, 5, 9, 1]
+Active Experts in Batch: {0, 1, 5, 6, 9}
+2026-01-26 21:04:36.482 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  59%|█████▉    | 2669/4533 [7:16:41<5:04:23,  9.80s/it, gpt_loss=0.315, loss_mean=0.333][A
+Train step of epoch 0:  59%|█████▉    | 2670/4533 [7:16:41<4:56:14,  9.54s/it, gpt_loss=0.315, loss_mean=0.333][A2026-01-26 21:04:45.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  59%|█████▉    | 2670/4533 [7:16:50<4:56:14,  9.54s/it, gpt_loss=0.29, loss_mean=0.329] [A
+Train step of epoch 0:  59%|█████▉    | 2671/4533 [7:16:50<4:50:41,  9.37s/it, gpt_loss=0.29, loss_mean=0.329][A2026-01-26 21:04:54.369 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  59%|█████▉    | 2671/4533 [7:16:59<4:50:41,  9.37s/it, gpt_loss=0.275, loss_mean=0.323][A
+Train step of epoch 0:  59%|█████▉    | 2672/4533 [7:16:59<4:46:41,  9.24s/it, gpt_loss=0.275, loss_mean=0.323][A2026-01-26 21:05:03.474 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  59%|█████▉    | 2672/4533 [7:17:11<4:46:41,  9.24s/it, gpt_loss=0.333, loss_mean=0.324][A
+Train step of epoch 0:  59%|█████▉    | 2673/4533 [7:17:11<5:11:51, 10.06s/it, gpt_loss=0.333, loss_mean=0.324][A2026-01-26 21:05:15.061 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  59%|█████▉    | 2673/4533 [7:17:19<5:11:51, 10.06s/it, gpt_loss=0.252, loss_mean=0.317][A
+Train step of epoch 0:  59%|█████▉    | 2674/4533 [7:17:19<4:57:49,  9.61s/it, gpt_loss=0.252, loss_mean=0.317][A2026-01-26 21:05:23.992 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  59%|█████▉    | 2674/4533 [7:17:29<4:57:49,  9.61s/it, gpt_loss=0.37, loss_mean=0.322] [A
+Train step of epoch 0:  59%|█████▉    | 2675/4533 [7:17:29<4:58:12,  9.63s/it, gpt_loss=0.37, loss_mean=0.322][A2026-01-26 21:05:33.684 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  59%|█████▉    | 2675/4533 [7:17:38<4:58:12,  9.63s/it, gpt_loss=0.317, loss_mean=0.322][A
+Train step of epoch 0:  59%|█████▉    | 2676/4533 [7:17:38<4:54:24,  9.51s/it, gpt_loss=0.317, loss_mean=0.322][A2026-01-26 21:05:42.664 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  59%|█████▉    | 2676/4533 [7:17:47<4:54:24,  9.51s/it, gpt_loss=0.328, loss_mean=0.322][A
+Train step of epoch 0:  59%|█████▉    | 2677/4533 [7:17:47<4:45:45,  9.24s/it, gpt_loss=0.328, loss_mean=0.322][A2026-01-26 21:05:51.486 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  59%|█████▉    | 2677/4533 [7:17:57<4:45:45,  9.24s/it, gpt_loss=0.377, loss_mean=0.328][A
+Train step of epoch 0:  59%|█████▉    | 2678/4533 [7:17:57<4:50:54,  9.41s/it, gpt_loss=0.377, loss_mean=0.328][A2026-01-26 21:06:01.283 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  59%|█████▉    | 2678/4533 [7:18:05<4:50:54,  9.41s/it, gpt_loss=0.304, loss_mean=0.325][A
+Train step of epoch 0:  59%|█████▉    | 2679/4533 [7:18:05<4:45:33,  9.24s/it, gpt_loss=0.304, loss_mean=0.325][A
+[LID Router Debug] Step: 2680
+Batch Size: 14
+Audio Batch Size: 178
+LID Assignments: [6, 3, 1, 2, 9, 9, 9, 4, 1, 2, 5, 2, 3, 6]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-26 21:06:10.175 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  59%|█████▉    | 2679/4533 [7:18:17<4:45:33,  9.24s/it, gpt_loss=0.352, loss_mean=0.328][A
+Train step of epoch 0:  59%|█████▉    | 2680/4533 [7:18:17<5:10:10, 10.04s/it, gpt_loss=0.352, loss_mean=0.328][A2026-01-26 21:06:22.091 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  59%|█████▉    | 2680/4533 [7:18:27<5:10:10, 10.04s/it, gpt_loss=0.282, loss_mean=0.323][A
+Train step of epoch 0:  59%|█████▉    | 2681/4533 [7:18:27<5:05:42,  9.90s/it, gpt_loss=0.282, loss_mean=0.323][A2026-01-26 21:06:31.379 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  59%|█████▉    | 2681/4533 [7:18:36<5:05:42,  9.90s/it, gpt_loss=0.319, loss_mean=0.323][A
+Train step of epoch 0:  59%|█████▉    | 2682/4533 [7:18:36<4:55:12,  9.57s/it, gpt_loss=0.319, loss_mean=0.323][A2026-01-26 21:06:40.089 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  59%|█████▉    | 2682/4533 [7:18:47<4:55:12,  9.57s/it, gpt_loss=0.339, loss_mean=0.325][A
+Train step of epoch 0:  59%|█████▉    | 2683/4533 [7:18:47<5:13:15, 10.16s/it, gpt_loss=0.339, loss_mean=0.325][A2026-01-26 21:06:51.785 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  59%|█████▉    | 2683/4533 [7:18:56<5:13:15, 10.16s/it, gpt_loss=0.303, loss_mean=0.322][A
+Train step of epoch 0:  59%|█████▉    | 2684/4533 [7:18:56<5:03:54,  9.86s/it, gpt_loss=0.303, loss_mean=0.322][A2026-01-26 21:07:01.103 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  59%|█████▉    | 2684/4533 [7:19:06<5:03:54,  9.86s/it, gpt_loss=0.292, loss_mean=0.319][A
+Train step of epoch 0:  59%|█████▉    | 2685/4533 [7:19:06<4:57:56,  9.67s/it, gpt_loss=0.292, loss_mean=0.319][A2026-01-26 21:07:10.364 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  59%|█████▉    | 2685/4533 [7:19:15<4:57:56,  9.67s/it, gpt_loss=0.325, loss_mean=0.32] [A
+Train step of epoch 0:  59%|█████▉    | 2686/4533 [7:19:15<4:52:00,  9.49s/it, gpt_loss=0.325, loss_mean=0.32][A2026-01-26 21:07:18.994 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  59%|█████▉    | 2686/4533 [7:19:26<4:52:00,  9.49s/it, gpt_loss=0.362, loss_mean=0.324][A
+Train step of epoch 0:  59%|█████▉    | 2687/4533 [7:19:26<5:11:55, 10.14s/it, gpt_loss=0.362, loss_mean=0.324][A2026-01-26 21:07:30.900 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  59%|█████▉    | 2687/4533 [7:19:35<5:11:55, 10.14s/it, gpt_loss=0.243, loss_mean=0.316][A
+Train step of epoch 0:  59%|█████▉    | 2688/4533 [7:19:35<4:58:37,  9.71s/it, gpt_loss=0.243, loss_mean=0.316][A2026-01-26 21:07:39.470 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  59%|█████▉    | 2688/4533 [7:19:44<4:58:37,  9.71s/it, gpt_loss=0.307, loss_mean=0.315][A
+Train step of epoch 0:  59%|█████▉    | 2689/4533 [7:19:44<4:47:24,  9.35s/it, gpt_loss=0.307, loss_mean=0.315][A
+[LID Router Debug] Step: 2690
+Batch Size: 14
+Audio Batch Size: 191
+LID Assignments: [0, 9, 3, 6, 2, 6, 2, 2, 0, 3, 9, 3, 1, 3]
+Active Experts in Batch: {0, 1, 2, 3, 6, 9}
+2026-01-26 21:07:48.198 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  59%|█████▉    | 2689/4533 [7:19:53<4:47:24,  9.35s/it, gpt_loss=0.332, loss_mean=0.317][A
+Train step of epoch 0:  59%|█████▉    | 2690/4533 [7:19:53<4:49:53,  9.44s/it, gpt_loss=0.332, loss_mean=0.317][A2026-01-26 21:07:57.973 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  59%|█████▉    | 2690/4533 [7:20:02<4:49:53,  9.44s/it, gpt_loss=0.442, loss_mean=0.329][A
+Train step of epoch 0:  59%|█████▉    | 2691/4533 [7:20:02<4:46:16,  9.32s/it, gpt_loss=0.442, loss_mean=0.329][A2026-01-26 21:08:06.884 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  59%|█████▉    | 2691/4533 [7:20:11<4:46:16,  9.32s/it, gpt_loss=0.233, loss_mean=0.32] [A
+Train step of epoch 0:  59%|█████▉    | 2692/4533 [7:20:11<4:41:43,  9.18s/it, gpt_loss=0.233, loss_mean=0.32][A2026-01-26 21:08:15.888 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  59%|█████▉    | 2692/4533 [7:20:23<4:41:43,  9.18s/it, gpt_loss=0.391, loss_mean=0.327][A
+Train step of epoch 0:  59%|█████▉    | 2693/4533 [7:20:23<5:06:35, 10.00s/it, gpt_loss=0.391, loss_mean=0.327][A2026-01-26 21:08:27.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  59%|█████▉    | 2693/4533 [7:20:33<5:06:35, 10.00s/it, gpt_loss=0.261, loss_mean=0.32] [A
+Train step of epoch 0:  59%|█████▉    | 2694/4533 [7:20:33<5:03:00,  9.89s/it, gpt_loss=0.261, loss_mean=0.32][A2026-01-26 21:08:37.066 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  59%|█████▉    | 2694/4533 [7:20:41<5:03:00,  9.89s/it, gpt_loss=0.269, loss_mean=0.315][A
+Train step of epoch 0:  59%|█████▉    | 2695/4533 [7:20:41<4:49:24,  9.45s/it, gpt_loss=0.269, loss_mean=0.315][A2026-01-26 21:08:45.262 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  59%|█████▉    | 2695/4533 [7:20:50<4:49:24,  9.45s/it, gpt_loss=0.274, loss_mean=0.311][A
+Train step of epoch 0:  59%|█████▉    | 2696/4533 [7:20:50<4:40:06,  9.15s/it, gpt_loss=0.274, loss_mean=0.311][A2026-01-26 21:08:54.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  59%|█████▉    | 2696/4533 [7:20:59<4:40:06,  9.15s/it, gpt_loss=0.307, loss_mean=0.31] [A
+Train step of epoch 0:  59%|█████▉    | 2697/4533 [7:20:59<4:43:16,  9.26s/it, gpt_loss=0.307, loss_mean=0.31][A2026-01-26 21:09:03.575 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  59%|█████▉    | 2697/4533 [7:21:08<4:43:16,  9.26s/it, gpt_loss=0.343, loss_mean=0.314][A
+Train step of epoch 0:  60%|█████▉    | 2698/4533 [7:21:08<4:41:25,  9.20s/it, gpt_loss=0.343, loss_mean=0.314][A2026-01-26 21:09:12.783 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  60%|█████▉    | 2698/4533 [7:21:17<4:41:25,  9.20s/it, gpt_loss=0.28, loss_mean=0.31]  [A
+Train step of epoch 0:  60%|█████▉    | 2699/4533 [7:21:17<4:37:57,  9.09s/it, gpt_loss=0.28, loss_mean=0.31][A
+[LID Router Debug] Step: 2700
+Batch Size: 14
+Audio Batch Size: 118
+LID Assignments: [4, 9, 4, 6, 2, 9, 1, 1, 5, 0, 2, 3, 5, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 21:09:21.570 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+[2026-01-26 21:09:30,466] [INFO] [logging.py:96:log_dist] [Rank 0] step=2700, skipped=0, lr=[1.8262888475475526e-05, 1.8262888475475526e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 21:09:30,467] [INFO] [timer.py:260:stop] epoch=0/micro_step=2700/global_step=2700, RunningAvgSamplesPerSec=5.728777138185633, CurrSamplesPerSec=5.893506990969058, MemAllocated=14.59GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  60%|█████▉    | 2699/4533 [7:21:27<4:37:57,  9.09s/it, gpt_loss=0.345, loss_mean=0.314][A
+Train step of epoch 0:  60%|█████▉    | 2700/4533 [7:21:27<4:41:43,  9.22s/it, gpt_loss=0.345, loss_mean=0.314][A2026-01-26 21:09:31.255 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  60%|█████▉    | 2700/4533 [7:21:36<4:41:43,  9.22s/it, gpt_loss=0.337, loss_mean=0.316][A
+Train step of epoch 0:  60%|█████▉    | 2701/4533 [7:21:36<4:47:21,  9.41s/it, gpt_loss=0.337, loss_mean=0.316][A2026-01-26 21:09:41.078 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  60%|█████▉    | 2701/4533 [7:21:46<4:47:21,  9.41s/it, gpt_loss=0.293, loss_mean=0.314][A
+Train step of epoch 0:  60%|█████▉    | 2702/4533 [7:21:46<4:50:10,  9.51s/it, gpt_loss=0.293, loss_mean=0.314][A2026-01-26 21:09:50.774 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  60%|█████▉    | 2702/4533 [7:21:55<4:50:10,  9.51s/it, gpt_loss=0.309, loss_mean=0.313][A
+Train step of epoch 0:  60%|█████▉    | 2703/4533 [7:21:55<4:46:59,  9.41s/it, gpt_loss=0.309, loss_mean=0.313][A2026-01-26 21:09:59.999 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  60%|█████▉    | 2703/4533 [7:22:05<4:46:59,  9.41s/it, gpt_loss=0.285, loss_mean=0.31] [A
+Train step of epoch 0:  60%|█████▉    | 2704/4533 [7:22:05<4:49:05,  9.48s/it, gpt_loss=0.285, loss_mean=0.31][A2026-01-26 21:10:09.654 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  60%|█████▉    | 2704/4533 [7:22:17<4:49:05,  9.48s/it, gpt_loss=0.395, loss_mean=0.319][A
+Train step of epoch 0:  60%|█████▉    | 2705/4533 [7:22:17<5:13:58, 10.31s/it, gpt_loss=0.395, loss_mean=0.319][A2026-01-26 21:10:21.686 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  60%|█████▉    | 2705/4533 [7:22:27<5:13:58, 10.31s/it, gpt_loss=0.286, loss_mean=0.316][A
+Train step of epoch 0:  60%|█████▉    | 2706/4533 [7:22:27<5:07:43, 10.11s/it, gpt_loss=0.286, loss_mean=0.316][A2026-01-26 21:10:31.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  60%|█████▉    | 2706/4533 [7:22:36<5:07:43, 10.11s/it, gpt_loss=0.242, loss_mean=0.308][A
+Train step of epoch 0:  60%|█████▉    | 2707/4533 [7:22:36<4:56:10,  9.73s/it, gpt_loss=0.242, loss_mean=0.308][A2026-01-26 21:10:40.152 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  60%|█████▉    | 2707/4533 [7:22:45<4:56:10,  9.73s/it, gpt_loss=0.331, loss_mean=0.311][A
+Train step of epoch 0:  60%|█████▉    | 2708/4533 [7:22:45<4:54:32,  9.68s/it, gpt_loss=0.331, loss_mean=0.311][A2026-01-26 21:10:49.978 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  60%|█████▉    | 2708/4533 [7:22:55<4:54:32,  9.68s/it, gpt_loss=0.245, loss_mean=0.304][A
+Train step of epoch 0:  60%|█████▉    | 2709/4533 [7:22:55<4:52:33,  9.62s/it, gpt_loss=0.245, loss_mean=0.304][A
+[LID Router Debug] Step: 2710
+Batch Size: 14
+Audio Batch Size: 190
+LID Assignments: [0, 3, 3, 4, 9, 3, 1, 2, 9, 1, 0, 0, 4, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 9}
+2026-01-26 21:10:59.401 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  60%|█████▉    | 2709/4533 [7:23:04<4:52:33,  9.62s/it, gpt_loss=0.272, loss_mean=0.301][A
+Train step of epoch 0:  60%|█████▉    | 2710/4533 [7:23:04<4:50:39,  9.57s/it, gpt_loss=0.272, loss_mean=0.301][A2026-01-26 21:11:08.664 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  60%|█████▉    | 2710/4533 [7:23:13<4:50:39,  9.57s/it, gpt_loss=0.302, loss_mean=0.301][A
+Train step of epoch 0:  60%|█████▉    | 2711/4533 [7:23:13<4:44:34,  9.37s/it, gpt_loss=0.302, loss_mean=0.301][A2026-01-26 21:11:17.793 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  60%|█████▉    | 2711/4533 [7:23:23<4:44:34,  9.37s/it, gpt_loss=0.347, loss_mean=0.306][A
+Train step of epoch 0:  60%|█████▉    | 2712/4533 [7:23:23<4:46:58,  9.46s/it, gpt_loss=0.347, loss_mean=0.306][A2026-01-26 21:11:27.189 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  60%|█████▉    | 2712/4533 [7:23:31<4:46:58,  9.46s/it, gpt_loss=0.358, loss_mean=0.311][A
+Train step of epoch 0:  60%|█████▉    | 2713/4533 [7:23:31<4:39:23,  9.21s/it, gpt_loss=0.358, loss_mean=0.311][A2026-01-26 21:11:36.084 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  60%|█████▉    | 2713/4533 [7:23:41<4:39:23,  9.21s/it, gpt_loss=0.295, loss_mean=0.309][A
+Train step of epoch 0:  60%|█████▉    | 2714/4533 [7:23:41<4:43:33,  9.35s/it, gpt_loss=0.295, loss_mean=0.309][A2026-01-26 21:11:45.678 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  60%|█████▉    | 2714/4533 [7:23:53<4:43:33,  9.35s/it, gpt_loss=0.333, loss_mean=0.312][A
+Train step of epoch 0:  60%|█████▉    | 2715/4533 [7:23:53<5:06:36, 10.12s/it, gpt_loss=0.333, loss_mean=0.312][A2026-01-26 21:11:57.588 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  60%|█████▉    | 2715/4533 [7:24:02<5:06:36, 10.12s/it, gpt_loss=0.387, loss_mean=0.319][A
+Train step of epoch 0:  60%|█████▉    | 2716/4533 [7:24:02<4:54:37,  9.73s/it, gpt_loss=0.387, loss_mean=0.319][A2026-01-26 21:12:05.985 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  60%|█████▉    | 2716/4533 [7:24:11<4:54:37,  9.73s/it, gpt_loss=0.278, loss_mean=0.315][A
+Train step of epoch 0:  60%|█████▉    | 2717/4533 [7:24:11<4:49:13,  9.56s/it, gpt_loss=0.278, loss_mean=0.315][A2026-01-26 21:12:15.495 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  60%|█████▉    | 2717/4533 [7:24:20<4:49:13,  9.56s/it, gpt_loss=0.271, loss_mean=0.311][A
+Train step of epoch 0:  60%|█████▉    | 2718/4533 [7:24:20<4:42:15,  9.33s/it, gpt_loss=0.271, loss_mean=0.311][A2026-01-26 21:12:24.464 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  60%|█████▉    | 2718/4533 [7:24:29<4:42:15,  9.33s/it, gpt_loss=0.256, loss_mean=0.305][A
+Train step of epoch 0:  60%|█████▉    | 2719/4533 [7:24:29<4:37:51,  9.19s/it, gpt_loss=0.256, loss_mean=0.305][A
+[LID Router Debug] Step: 2720
+Batch Size: 14
+Audio Batch Size: 150
+LID Assignments: [0, 4, 2, 1, 5, 9, 5, 6, 0, 6, 3, 3, 3, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 21:12:33.176 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  60%|█████▉    | 2719/4533 [7:24:41<4:37:51,  9.19s/it, gpt_loss=0.417, loss_mean=0.316][A
+Train step of epoch 0:  60%|██████    | 2720/4533 [7:24:41<5:05:27, 10.11s/it, gpt_loss=0.417, loss_mean=0.316][A2026-01-26 21:12:45.473 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  60%|██████    | 2720/4533 [7:24:53<5:05:27, 10.11s/it, gpt_loss=0.418, loss_mean=0.327][A
+Train step of epoch 0:  60%|██████    | 2721/4533 [7:24:53<5:22:51, 10.69s/it, gpt_loss=0.418, loss_mean=0.327][A2026-01-26 21:12:57.476 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  60%|██████    | 2721/4533 [7:25:02<5:22:51, 10.69s/it, gpt_loss=0.267, loss_mean=0.321][A
+Train step of epoch 0:  60%|██████    | 2722/4533 [7:25:02<5:11:15, 10.31s/it, gpt_loss=0.267, loss_mean=0.321][A2026-01-26 21:13:07.059 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  60%|██████    | 2722/4533 [7:25:14<5:11:15, 10.31s/it, gpt_loss=0.446, loss_mean=0.333][A
+Train step of epoch 0:  60%|██████    | 2723/4533 [7:25:14<5:26:41, 10.83s/it, gpt_loss=0.446, loss_mean=0.333][A2026-01-26 21:13:19.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  60%|██████    | 2723/4533 [7:25:24<5:26:41, 10.83s/it, gpt_loss=0.277, loss_mean=0.328][A
+Train step of epoch 0:  60%|██████    | 2724/4533 [7:25:24<5:11:24, 10.33s/it, gpt_loss=0.277, loss_mean=0.328][A2026-01-26 21:13:28.100 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  60%|██████    | 2724/4533 [7:25:32<5:11:24, 10.33s/it, gpt_loss=0.315, loss_mean=0.326][A
+Train step of epoch 0:  60%|██████    | 2725/4533 [7:25:32<4:57:14,  9.86s/it, gpt_loss=0.315, loss_mean=0.326][A2026-01-26 21:13:36.989 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  60%|██████    | 2725/4533 [7:25:42<4:57:14,  9.86s/it, gpt_loss=0.322, loss_mean=0.326][A
+Train step of epoch 0:  60%|██████    | 2726/4533 [7:25:42<4:55:30,  9.81s/it, gpt_loss=0.322, loss_mean=0.326][A2026-01-26 21:13:46.586 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  60%|██████    | 2726/4533 [7:25:54<4:55:30,  9.81s/it, gpt_loss=0.396, loss_mean=0.333][A
+Train step of epoch 0:  60%|██████    | 2727/4533 [7:25:54<5:12:40, 10.39s/it, gpt_loss=0.396, loss_mean=0.333][A2026-01-26 21:13:58.381 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  60%|██████    | 2727/4533 [7:26:03<5:12:40, 10.39s/it, gpt_loss=0.255, loss_mean=0.325][A
+Train step of epoch 0:  60%|██████    | 2728/4533 [7:26:03<5:00:13,  9.98s/it, gpt_loss=0.255, loss_mean=0.325][A2026-01-26 21:14:06.857 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  60%|██████    | 2728/4533 [7:26:14<5:00:13,  9.98s/it, gpt_loss=0.448, loss_mean=0.337][A
+Train step of epoch 0:  60%|██████    | 2729/4533 [7:26:14<5:14:53, 10.47s/it, gpt_loss=0.448, loss_mean=0.337][A
+[LID Router Debug] Step: 2730
+Batch Size: 14
+Audio Batch Size: 180
+LID Assignments: [4, 5, 3, 9, 5, 0, 1, 3, 6, 2, 9, 5, 3, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 21:14:18.903 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  60%|██████    | 2729/4533 [7:26:23<5:14:53, 10.47s/it, gpt_loss=0.304, loss_mean=0.334][A
+Train step of epoch 0:  60%|██████    | 2730/4533 [7:26:23<4:59:54,  9.98s/it, gpt_loss=0.304, loss_mean=0.334][A2026-01-26 21:14:27.764 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  60%|██████    | 2730/4533 [7:26:32<4:59:54,  9.98s/it, gpt_loss=0.349, loss_mean=0.335][A
+Train step of epoch 0:  60%|██████    | 2731/4533 [7:26:32<4:49:42,  9.65s/it, gpt_loss=0.349, loss_mean=0.335][A2026-01-26 21:14:36.791 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  60%|██████    | 2731/4533 [7:26:42<4:49:42,  9.65s/it, gpt_loss=0.284, loss_mean=0.33] [A
+Train step of epoch 0:  60%|██████    | 2732/4533 [7:26:42<4:50:42,  9.69s/it, gpt_loss=0.284, loss_mean=0.33][A2026-01-26 21:14:46.181 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  60%|██████    | 2732/4533 [7:26:51<4:50:42,  9.69s/it, gpt_loss=0.365, loss_mean=0.334][A
+Train step of epoch 0:  60%|██████    | 2733/4533 [7:26:51<4:47:10,  9.57s/it, gpt_loss=0.365, loss_mean=0.334][A2026-01-26 21:14:55.597 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  60%|██████    | 2733/4533 [7:27:00<4:47:10,  9.57s/it, gpt_loss=0.319, loss_mean=0.332][A
+Train step of epoch 0:  60%|██████    | 2734/4533 [7:27:00<4:39:01,  9.31s/it, gpt_loss=0.319, loss_mean=0.332][A2026-01-26 21:15:04.178 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  60%|██████    | 2734/4533 [7:27:08<4:39:01,  9.31s/it, gpt_loss=0.331, loss_mean=0.332][A
+Train step of epoch 0:  60%|██████    | 2735/4533 [7:27:08<4:32:14,  9.09s/it, gpt_loss=0.331, loss_mean=0.332][A2026-01-26 21:15:13.091 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  60%|██████    | 2735/4533 [7:27:17<4:32:14,  9.09s/it, gpt_loss=0.307, loss_mean=0.33] [A
+Train step of epoch 0:  60%|██████    | 2736/4533 [7:27:17<4:29:45,  9.01s/it, gpt_loss=0.307, loss_mean=0.33][A2026-01-26 21:15:21.895 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  60%|██████    | 2736/4533 [7:27:26<4:29:45,  9.01s/it, gpt_loss=0.255, loss_mean=0.322][A
+Train step of epoch 0:  60%|██████    | 2737/4533 [7:27:26<4:28:38,  8.97s/it, gpt_loss=0.255, loss_mean=0.322][A2026-01-26 21:15:30.653 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  60%|██████    | 2737/4533 [7:27:35<4:28:38,  8.97s/it, gpt_loss=0.298, loss_mean=0.32] [A
+Train step of epoch 0:  60%|██████    | 2738/4533 [7:27:35<4:25:41,  8.88s/it, gpt_loss=0.298, loss_mean=0.32][A2026-01-26 21:15:39.475 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  60%|██████    | 2738/4533 [7:27:44<4:25:41,  8.88s/it, gpt_loss=0.225, loss_mean=0.31][A
+Train step of epoch 0:  60%|██████    | 2739/4533 [7:27:44<4:26:33,  8.92s/it, gpt_loss=0.225, loss_mean=0.31][A
+[LID Router Debug] Step: 2740
+Batch Size: 14
+Audio Batch Size: 179
+LID Assignments: [9, 3, 3, 2, 6, 0, 2, 2, 3, 4, 6, 3, 1, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 21:15:48.401 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  60%|██████    | 2739/4533 [7:27:53<4:26:33,  8.92s/it, gpt_loss=0.247, loss_mean=0.304][A
+Train step of epoch 0:  60%|██████    | 2740/4533 [7:27:53<4:28:16,  8.98s/it, gpt_loss=0.247, loss_mean=0.304][A2026-01-26 21:15:57.554 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  60%|██████    | 2740/4533 [7:28:03<4:28:16,  8.98s/it, gpt_loss=0.266, loss_mean=0.3]  [A
+Train step of epoch 0:  60%|██████    | 2741/4533 [7:28:03<4:36:37,  9.26s/it, gpt_loss=0.266, loss_mean=0.3][A2026-01-26 21:16:07.304 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  60%|██████    | 2741/4533 [7:28:12<4:36:37,  9.26s/it, gpt_loss=0.309, loss_mean=0.301][A
+Train step of epoch 0:  60%|██████    | 2742/4533 [7:28:12<4:31:03,  9.08s/it, gpt_loss=0.309, loss_mean=0.301][A2026-01-26 21:16:16.095 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  60%|██████    | 2742/4533 [7:28:24<4:31:03,  9.08s/it, gpt_loss=0.442, loss_mean=0.315][A
+Train step of epoch 0:  61%|██████    | 2743/4533 [7:28:24<4:58:02,  9.99s/it, gpt_loss=0.442, loss_mean=0.315][A2026-01-26 21:16:27.796 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  61%|██████    | 2743/4533 [7:28:32<4:58:02,  9.99s/it, gpt_loss=0.357, loss_mean=0.319][A
+Train step of epoch 0:  61%|██████    | 2744/4533 [7:28:32<4:47:21,  9.64s/it, gpt_loss=0.357, loss_mean=0.319][A2026-01-26 21:16:37.076 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  61%|██████    | 2744/4533 [7:28:42<4:47:21,  9.64s/it, gpt_loss=0.262, loss_mean=0.313][A
+Train step of epoch 0:  61%|██████    | 2745/4533 [7:28:42<4:46:18,  9.61s/it, gpt_loss=0.262, loss_mean=0.313][A2026-01-26 21:16:46.682 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  61%|██████    | 2745/4533 [7:28:52<4:46:18,  9.61s/it, gpt_loss=0.279, loss_mean=0.31] [A
+Train step of epoch 0:  61%|██████    | 2746/4533 [7:28:52<4:47:13,  9.64s/it, gpt_loss=0.279, loss_mean=0.31][A2026-01-26 21:16:56.461 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  61%|██████    | 2746/4533 [7:29:01<4:47:13,  9.64s/it, gpt_loss=0.269, loss_mean=0.306][A
+Train step of epoch 0:  61%|██████    | 2747/4533 [7:29:01<4:41:32,  9.46s/it, gpt_loss=0.269, loss_mean=0.306][A2026-01-26 21:17:05.262 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  61%|██████    | 2747/4533 [7:29:10<4:41:32,  9.46s/it, gpt_loss=0.317, loss_mean=0.307][A
+Train step of epoch 0:  61%|██████    | 2748/4533 [7:29:10<4:35:36,  9.26s/it, gpt_loss=0.317, loss_mean=0.307][A2026-01-26 21:17:14.253 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  61%|██████    | 2748/4533 [7:29:19<4:35:36,  9.26s/it, gpt_loss=0.298, loss_mean=0.306][A
+Train step of epoch 0:  61%|██████    | 2749/4533 [7:29:19<4:33:10,  9.19s/it, gpt_loss=0.298, loss_mean=0.306][A
+[LID Router Debug] Step: 2750
+Batch Size: 14
+Audio Batch Size: 147
+LID Assignments: [9, 9, 0, 5, 1, 4, 2, 5, 9, 2, 1, 1, 1, 2]
+Active Experts in Batch: {0, 1, 2, 4, 5, 9}
+2026-01-26 21:17:23.084 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  61%|██████    | 2749/4533 [7:29:28<4:33:10,  9.19s/it, gpt_loss=0.331, loss_mean=0.309][A
+Train step of epoch 0:  61%|██████    | 2750/4533 [7:29:28<4:37:20,  9.33s/it, gpt_loss=0.331, loss_mean=0.309][A2026-01-26 21:17:32.682 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  61%|██████    | 2750/4533 [7:29:37<4:37:20,  9.33s/it, gpt_loss=0.324, loss_mean=0.31] [A
+Train step of epoch 0:  61%|██████    | 2751/4533 [7:29:37<4:32:21,  9.17s/it, gpt_loss=0.324, loss_mean=0.31][A2026-01-26 21:17:41.693 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  61%|██████    | 2751/4533 [7:29:47<4:32:21,  9.17s/it, gpt_loss=0.298, loss_mean=0.309][A
+Train step of epoch 0:  61%|██████    | 2752/4533 [7:29:47<4:36:45,  9.32s/it, gpt_loss=0.298, loss_mean=0.309][A2026-01-26 21:17:51.378 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  61%|██████    | 2752/4533 [7:29:56<4:36:45,  9.32s/it, gpt_loss=0.301, loss_mean=0.308][A
+Train step of epoch 0:  61%|██████    | 2753/4533 [7:29:56<4:33:34,  9.22s/it, gpt_loss=0.301, loss_mean=0.308][A2026-01-26 21:18:00.384 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  61%|██████    | 2753/4533 [7:30:05<4:33:34,  9.22s/it, gpt_loss=0.275, loss_mean=0.305][A
+Train step of epoch 0:  61%|██████    | 2754/4533 [7:30:05<4:32:43,  9.20s/it, gpt_loss=0.275, loss_mean=0.305][A2026-01-26 21:18:09.466 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  61%|██████    | 2754/4533 [7:30:14<4:32:43,  9.20s/it, gpt_loss=0.27, loss_mean=0.301] [A
+Train step of epoch 0:  61%|██████    | 2755/4533 [7:30:14<4:28:56,  9.08s/it, gpt_loss=0.27, loss_mean=0.301][A2026-01-26 21:18:18.094 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  61%|██████    | 2755/4533 [7:30:23<4:28:56,  9.08s/it, gpt_loss=0.316, loss_mean=0.303][A
+Train step of epoch 0:  61%|██████    | 2756/4533 [7:30:23<4:32:59,  9.22s/it, gpt_loss=0.316, loss_mean=0.303][A2026-01-26 21:18:27.475 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  61%|██████    | 2756/4533 [7:30:33<4:32:59,  9.22s/it, gpt_loss=0.384, loss_mean=0.311][A
+Train step of epoch 0:  61%|██████    | 2757/4533 [7:30:33<4:35:06,  9.29s/it, gpt_loss=0.384, loss_mean=0.311][A2026-01-26 21:18:36.957 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  61%|██████    | 2757/4533 [7:30:44<4:35:06,  9.29s/it, gpt_loss=0.336, loss_mean=0.314][A
+Train step of epoch 0:  61%|██████    | 2758/4533 [7:30:44<4:56:50, 10.03s/it, gpt_loss=0.336, loss_mean=0.314][A2026-01-26 21:18:48.758 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  61%|██████    | 2758/4533 [7:30:53<4:56:50, 10.03s/it, gpt_loss=0.265, loss_mean=0.309][A
+Train step of epoch 0:  61%|██████    | 2759/4533 [7:30:53<4:43:43,  9.60s/it, gpt_loss=0.265, loss_mean=0.309][A
+[LID Router Debug] Step: 2760
+Batch Size: 14
+Audio Batch Size: 132
+LID Assignments: [4, 2, 6, 3, 4, 9, 2, 3, 1, 9, 5, 6, 1, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 21:18:57.585 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  61%|██████    | 2759/4533 [7:31:03<4:43:43,  9.60s/it, gpt_loss=0.339, loss_mean=0.312][A
+Train step of epoch 0:  61%|██████    | 2760/4533 [7:31:03<4:45:03,  9.65s/it, gpt_loss=0.339, loss_mean=0.312][A2026-01-26 21:19:07.266 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  61%|██████    | 2760/4533 [7:31:12<4:45:03,  9.65s/it, gpt_loss=0.24, loss_mean=0.305] [A
+Train step of epoch 0:  61%|██████    | 2761/4533 [7:31:12<4:37:38,  9.40s/it, gpt_loss=0.24, loss_mean=0.305][A2026-01-26 21:19:16.263 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  61%|██████    | 2761/4533 [7:31:21<4:37:38,  9.40s/it, gpt_loss=0.284, loss_mean=0.303][A
+Train step of epoch 0:  61%|██████    | 2762/4533 [7:31:21<4:34:05,  9.29s/it, gpt_loss=0.284, loss_mean=0.303][A2026-01-26 21:19:25.265 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  61%|██████    | 2762/4533 [7:31:30<4:34:05,  9.29s/it, gpt_loss=0.335, loss_mean=0.306][A
+Train step of epoch 0:  61%|██████    | 2763/4533 [7:31:30<4:37:54,  9.42s/it, gpt_loss=0.335, loss_mean=0.306][A2026-01-26 21:19:34.594 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  61%|██████    | 2763/4533 [7:31:39<4:37:54,  9.42s/it, gpt_loss=0.321, loss_mean=0.307][A
+Train step of epoch 0:  61%|██████    | 2764/4533 [7:31:39<4:35:10,  9.33s/it, gpt_loss=0.321, loss_mean=0.307][A2026-01-26 21:19:43.685 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  61%|██████    | 2764/4533 [7:31:51<4:35:10,  9.33s/it, gpt_loss=0.357, loss_mean=0.312][A
+Train step of epoch 0:  61%|██████    | 2765/4533 [7:31:51<4:55:26, 10.03s/it, gpt_loss=0.357, loss_mean=0.312][A2026-01-26 21:19:55.755 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  61%|██████    | 2765/4533 [7:32:01<4:55:26, 10.03s/it, gpt_loss=0.26, loss_mean=0.307] [A
+Train step of epoch 0:  61%|██████    | 2766/4533 [7:32:01<4:53:20,  9.96s/it, gpt_loss=0.26, loss_mean=0.307][A2026-01-26 21:20:05.591 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  61%|██████    | 2766/4533 [7:32:13<4:53:20,  9.96s/it, gpt_loss=0.346, loss_mean=0.311][A
+Train step of epoch 0:  61%|██████    | 2767/4533 [7:32:13<5:11:04, 10.57s/it, gpt_loss=0.346, loss_mean=0.311][A2026-01-26 21:20:17.401 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  61%|██████    | 2767/4533 [7:32:23<5:11:04, 10.57s/it, gpt_loss=0.266, loss_mean=0.307][A
+Train step of epoch 0:  61%|██████    | 2768/4533 [7:32:23<5:02:24, 10.28s/it, gpt_loss=0.266, loss_mean=0.307][A2026-01-26 21:20:27.190 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  61%|██████    | 2768/4533 [7:32:34<5:02:24, 10.28s/it, gpt_loss=0.37, loss_mean=0.313] [A
+Train step of epoch 0:  61%|██████    | 2769/4533 [7:32:34<5:15:23, 10.73s/it, gpt_loss=0.37, loss_mean=0.313][A
+[LID Router Debug] Step: 2770
+Batch Size: 14
+Audio Batch Size: 113
+LID Assignments: [5, 2, 5, 4, 5, 5, 9, 0, 4, 1, 5, 5, 4, 2]
+Active Experts in Batch: {0, 1, 2, 4, 5, 9}
+2026-01-26 21:20:38.878 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  61%|██████    | 2769/4533 [7:32:44<5:15:23, 10.73s/it, gpt_loss=0.327, loss_mean=0.314][A
+Train step of epoch 0:  61%|██████    | 2770/4533 [7:32:44<5:07:10, 10.45s/it, gpt_loss=0.327, loss_mean=0.314][A2026-01-26 21:20:48.667 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  61%|██████    | 2770/4533 [7:32:56<5:07:10, 10.45s/it, gpt_loss=0.315, loss_mean=0.314][A
+Train step of epoch 0:  61%|██████    | 2771/4533 [7:32:56<5:18:27, 10.84s/it, gpt_loss=0.315, loss_mean=0.314][A2026-01-26 21:21:00.488 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  61%|██████    | 2771/4533 [7:33:06<5:18:27, 10.84s/it, gpt_loss=0.285, loss_mean=0.311][A
+Train step of epoch 0:  61%|██████    | 2772/4533 [7:33:06<5:10:11, 10.57s/it, gpt_loss=0.285, loss_mean=0.311][A2026-01-26 21:21:10.461 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  61%|██████    | 2772/4533 [7:33:15<5:10:11, 10.57s/it, gpt_loss=0.322, loss_mean=0.313][A
+Train step of epoch 0:  61%|██████    | 2773/4533 [7:33:15<4:57:48, 10.15s/it, gpt_loss=0.322, loss_mean=0.313][A2026-01-26 21:21:19.301 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  61%|██████    | 2773/4533 [7:33:24<4:57:48, 10.15s/it, gpt_loss=0.296, loss_mean=0.311][A
+Train step of epoch 0:  61%|██████    | 2774/4533 [7:33:24<4:46:13,  9.76s/it, gpt_loss=0.296, loss_mean=0.311][A2026-01-26 21:21:28.354 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  61%|██████    | 2774/4533 [7:33:33<4:46:13,  9.76s/it, gpt_loss=0.276, loss_mean=0.307][A
+Train step of epoch 0:  61%|██████    | 2775/4533 [7:33:33<4:45:04,  9.73s/it, gpt_loss=0.276, loss_mean=0.307][A2026-01-26 21:21:38.157 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  61%|██████    | 2775/4533 [7:33:46<4:45:04,  9.73s/it, gpt_loss=0.362, loss_mean=0.313][A
+Train step of epoch 0:  61%|██████    | 2776/4533 [7:33:46<5:06:05, 10.45s/it, gpt_loss=0.362, loss_mean=0.313][A2026-01-26 21:21:50.168 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  61%|██████    | 2776/4533 [7:33:57<5:06:05, 10.45s/it, gpt_loss=0.313, loss_mean=0.313][A
+Train step of epoch 0:  61%|██████▏   | 2777/4533 [7:33:57<5:16:15, 10.81s/it, gpt_loss=0.313, loss_mean=0.313][A2026-01-26 21:22:01.895 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  61%|██████▏   | 2777/4533 [7:34:09<5:16:15, 10.81s/it, gpt_loss=0.402, loss_mean=0.322][A
+Train step of epoch 0:  61%|██████▏   | 2778/4533 [7:34:09<5:27:45, 11.21s/it, gpt_loss=0.402, loss_mean=0.322][A2026-01-26 21:22:13.567 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  61%|██████▏   | 2778/4533 [7:34:21<5:27:45, 11.21s/it, gpt_loss=0.401, loss_mean=0.33] [A
+Train step of epoch 0:  61%|██████▏   | 2779/4533 [7:34:21<5:28:53, 11.25s/it, gpt_loss=0.401, loss_mean=0.33][A
+[LID Router Debug] Step: 2780
+Batch Size: 14
+Audio Batch Size: 169
+LID Assignments: [2, 1, 5, 2, 3, 1, 1, 4, 9, 3, 1, 9, 0, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 21:22:24.965 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  61%|██████▏   | 2779/4533 [7:34:29<5:28:53, 11.25s/it, gpt_loss=0.269, loss_mean=0.324][A
+Train step of epoch 0:  61%|██████▏   | 2780/4533 [7:34:29<5:04:32, 10.42s/it, gpt_loss=0.269, loss_mean=0.324][A2026-01-26 21:22:33.882 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  61%|██████▏   | 2780/4533 [7:34:38<5:04:32, 10.42s/it, gpt_loss=0.311, loss_mean=0.322][A
+Train step of epoch 0:  61%|██████▏   | 2781/4533 [7:34:38<4:49:44,  9.92s/it, gpt_loss=0.311, loss_mean=0.322][A2026-01-26 21:22:42.489 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  61%|██████▏   | 2781/4533 [7:34:47<4:49:44,  9.92s/it, gpt_loss=0.321, loss_mean=0.322][A
+Train step of epoch 0:  61%|██████▏   | 2782/4533 [7:34:47<4:41:19,  9.64s/it, gpt_loss=0.321, loss_mean=0.322][A2026-01-26 21:22:51.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  61%|██████▏   | 2782/4533 [7:34:56<4:41:19,  9.64s/it, gpt_loss=0.26, loss_mean=0.316] [A
+Train step of epoch 0:  61%|██████▏   | 2783/4533 [7:34:56<4:34:34,  9.41s/it, gpt_loss=0.26, loss_mean=0.316][A2026-01-26 21:23:00.078 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  61%|██████▏   | 2783/4533 [7:35:07<4:34:34,  9.41s/it, gpt_loss=0.399, loss_mean=0.324][A
+Train step of epoch 0:  61%|██████▏   | 2784/4533 [7:35:07<4:53:00, 10.05s/it, gpt_loss=0.399, loss_mean=0.324][A2026-01-26 21:23:11.897 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  61%|██████▏   | 2784/4533 [7:35:17<4:53:00, 10.05s/it, gpt_loss=0.317, loss_mean=0.324][A
+Train step of epoch 0:  61%|██████▏   | 2785/4533 [7:35:17<4:47:24,  9.87s/it, gpt_loss=0.317, loss_mean=0.324][A2026-01-26 21:23:21.286 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  61%|██████▏   | 2785/4533 [7:35:25<4:47:24,  9.87s/it, gpt_loss=0.234, loss_mean=0.315][A
+Train step of epoch 0:  61%|██████▏   | 2786/4533 [7:35:25<4:36:39,  9.50s/it, gpt_loss=0.234, loss_mean=0.315][A2026-01-26 21:23:29.985 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  61%|██████▏   | 2786/4533 [7:35:35<4:36:39,  9.50s/it, gpt_loss=0.317, loss_mean=0.315][A
+Train step of epoch 0:  61%|██████▏   | 2787/4533 [7:35:35<4:35:51,  9.48s/it, gpt_loss=0.317, loss_mean=0.315][A2026-01-26 21:23:39.375 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  61%|██████▏   | 2787/4533 [7:35:44<4:35:51,  9.48s/it, gpt_loss=0.286, loss_mean=0.312][A
+Train step of epoch 0:  62%|██████▏   | 2788/4533 [7:35:44<4:28:21,  9.23s/it, gpt_loss=0.286, loss_mean=0.312][A2026-01-26 21:23:47.954 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  62%|██████▏   | 2788/4533 [7:35:53<4:28:21,  9.23s/it, gpt_loss=0.38, loss_mean=0.319] [A
+Train step of epoch 0:  62%|██████▏   | 2789/4533 [7:35:53<4:30:42,  9.31s/it, gpt_loss=0.38, loss_mean=0.319][A
+[LID Router Debug] Step: 2790
+Batch Size: 14
+Audio Batch Size: 127
+LID Assignments: [1, 0, 5, 6, 2, 5, 2, 2, 0, 3, 0, 6, 0, 6]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6}
+2026-01-26 21:23:57.670 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  62%|██████▏   | 2789/4533 [7:36:03<4:30:42,  9.31s/it, gpt_loss=0.252, loss_mean=0.312][A
+Train step of epoch 0:  62%|██████▏   | 2790/4533 [7:36:03<4:34:28,  9.45s/it, gpt_loss=0.252, loss_mean=0.312][A2026-01-26 21:24:07.275 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  62%|██████▏   | 2790/4533 [7:36:13<4:34:28,  9.45s/it, gpt_loss=0.405, loss_mean=0.321][A
+Train step of epoch 0:  62%|██████▏   | 2791/4533 [7:36:13<4:38:02,  9.58s/it, gpt_loss=0.405, loss_mean=0.321][A2026-01-26 21:24:16.757 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  62%|██████▏   | 2791/4533 [7:36:24<4:38:02,  9.58s/it, gpt_loss=0.346, loss_mean=0.324][A
+Train step of epoch 0:  62%|██████▏   | 2792/4533 [7:36:24<4:55:16, 10.18s/it, gpt_loss=0.346, loss_mean=0.324][A2026-01-26 21:24:28.759 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  62%|██████▏   | 2792/4533 [7:36:33<4:55:16, 10.18s/it, gpt_loss=0.334, loss_mean=0.325][A
+Train step of epoch 0:  62%|██████▏   | 2793/4533 [7:36:33<4:43:52,  9.79s/it, gpt_loss=0.334, loss_mean=0.325][A2026-01-26 21:24:37.863 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  62%|██████▏   | 2793/4533 [7:36:43<4:43:52,  9.79s/it, gpt_loss=0.346, loss_mean=0.327][A
+Train step of epoch 0:  62%|██████▏   | 2794/4533 [7:36:43<4:44:57,  9.83s/it, gpt_loss=0.346, loss_mean=0.327][A2026-01-26 21:24:47.498 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  62%|██████▏   | 2794/4533 [7:36:55<4:44:57,  9.83s/it, gpt_loss=0.314, loss_mean=0.326][A
+Train step of epoch 0:  62%|██████▏   | 2795/4533 [7:36:55<5:01:58, 10.43s/it, gpt_loss=0.314, loss_mean=0.326][A2026-01-26 21:24:59.275 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  62%|██████▏   | 2795/4533 [7:37:04<5:01:58, 10.43s/it, gpt_loss=0.424, loss_mean=0.335][A
+Train step of epoch 0:  62%|██████▏   | 2796/4533 [7:37:04<4:53:24, 10.13s/it, gpt_loss=0.424, loss_mean=0.335][A2026-01-26 21:25:08.866 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  62%|██████▏   | 2796/4533 [7:37:14<4:53:24, 10.13s/it, gpt_loss=0.316, loss_mean=0.334][A
+Train step of epoch 0:  62%|██████▏   | 2797/4533 [7:37:14<4:50:01, 10.02s/it, gpt_loss=0.316, loss_mean=0.334][A2026-01-26 21:25:18.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  62%|██████▏   | 2797/4533 [7:37:26<4:50:01, 10.02s/it, gpt_loss=0.399, loss_mean=0.34] [A
+Train step of epoch 0:  62%|██████▏   | 2798/4533 [7:37:26<5:04:30, 10.53s/it, gpt_loss=0.399, loss_mean=0.34][A2026-01-26 21:25:30.490 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  62%|██████▏   | 2798/4533 [7:37:35<5:04:30, 10.53s/it, gpt_loss=0.276, loss_mean=0.334][A
+Train step of epoch 0:  62%|██████▏   | 2799/4533 [7:37:35<4:51:32, 10.09s/it, gpt_loss=0.276, loss_mean=0.334][A
+[LID Router Debug] Step: 2800
+Batch Size: 14
+Audio Batch Size: 131
+LID Assignments: [6, 0, 5, 5, 1, 9, 1, 5, 4, 9, 2, 9, 0, 5]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-26 21:25:39.161 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+[2026-01-26 21:25:50,345] [INFO] [logging.py:96:log_dist] [Rank 0] step=2800, skipped=0, lr=[1.8129217176972846e-05, 1.8129217176972846e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 21:25:50,346] [INFO] [timer.py:260:stop] epoch=0/micro_step=2800/global_step=2800, RunningAvgSamplesPerSec=5.728677477824523, CurrSamplesPerSec=4.852411735009149, MemAllocated=14.54GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  62%|██████▏   | 2799/4533 [7:37:46<4:51:32, 10.09s/it, gpt_loss=0.45, loss_mean=0.345] [A
+Train step of epoch 0:  62%|██████▏   | 2800/4533 [7:37:46<5:04:07, 10.53s/it, gpt_loss=0.45, loss_mean=0.345][A2026-01-26 21:25:50.892 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  62%|██████▏   | 2800/4533 [7:37:58<5:04:07, 10.53s/it, gpt_loss=0.363, loss_mean=0.347][A
+Train step of epoch 0:  62%|██████▏   | 2801/4533 [7:37:58<5:13:04, 10.85s/it, gpt_loss=0.363, loss_mean=0.347][A2026-01-26 21:26:02.756 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  62%|██████▏   | 2801/4533 [7:38:07<5:13:04, 10.85s/it, gpt_loss=0.321, loss_mean=0.345][A
+Train step of epoch 0:  62%|██████▏   | 2802/4533 [7:38:07<4:57:29, 10.31s/it, gpt_loss=0.321, loss_mean=0.345][A2026-01-26 21:26:11.575 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  62%|██████▏   | 2802/4533 [7:38:19<4:57:29, 10.31s/it, gpt_loss=0.47, loss_mean=0.357] [A
+Train step of epoch 0:  62%|██████▏   | 2803/4533 [7:38:19<5:07:45, 10.67s/it, gpt_loss=0.47, loss_mean=0.357][A2026-01-26 21:26:23.252 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  62%|██████▏   | 2803/4533 [7:38:28<5:07:45, 10.67s/it, gpt_loss=0.333, loss_mean=0.355][A
+Train step of epoch 0:  62%|██████▏   | 2804/4533 [7:38:28<4:59:02, 10.38s/it, gpt_loss=0.333, loss_mean=0.355][A2026-01-26 21:26:32.773 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  62%|██████▏   | 2804/4533 [7:38:37<4:59:02, 10.38s/it, gpt_loss=0.27, loss_mean=0.346] [A
+Train step of epoch 0:  62%|██████▏   | 2805/4533 [7:38:37<4:47:43,  9.99s/it, gpt_loss=0.27, loss_mean=0.346][A2026-01-26 21:26:41.896 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  62%|██████▏   | 2805/4533 [7:38:49<4:47:43,  9.99s/it, gpt_loss=0.362, loss_mean=0.348][A
+Train step of epoch 0:  62%|██████▏   | 2806/4533 [7:38:49<5:01:53, 10.49s/it, gpt_loss=0.362, loss_mean=0.348][A2026-01-26 21:26:53.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  62%|██████▏   | 2806/4533 [7:38:58<5:01:53, 10.49s/it, gpt_loss=0.242, loss_mean=0.337][A
+Train step of epoch 0:  62%|██████▏   | 2807/4533 [7:38:58<4:51:20, 10.13s/it, gpt_loss=0.242, loss_mean=0.337][A2026-01-26 21:27:02.984 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  62%|██████▏   | 2807/4533 [7:39:07<4:51:20, 10.13s/it, gpt_loss=0.3, loss_mean=0.333]  [A
+Train step of epoch 0:  62%|██████▏   | 2808/4533 [7:39:07<4:40:08,  9.74s/it, gpt_loss=0.3, loss_mean=0.333][A2026-01-26 21:27:11.296 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  62%|██████▏   | 2808/4533 [7:39:18<4:40:08,  9.74s/it, gpt_loss=0.431, loss_mean=0.343][A
+Train step of epoch 0:  62%|██████▏   | 2809/4533 [7:39:18<4:53:01, 10.20s/it, gpt_loss=0.431, loss_mean=0.343][A
+[LID Router Debug] Step: 2810
+Batch Size: 14
+Audio Batch Size: 126
+LID Assignments: [9, 1, 1, 0, 9, 0, 5, 3, 9, 4, 6, 0, 4, 5]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6, 9}
+2026-01-26 21:27:22.670 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  62%|██████▏   | 2809/4533 [7:39:27<4:53:01, 10.20s/it, gpt_loss=0.279, loss_mean=0.337][A
+Train step of epoch 0:  62%|██████▏   | 2810/4533 [7:39:27<4:38:58,  9.72s/it, gpt_loss=0.279, loss_mean=0.337][A2026-01-26 21:27:30.974 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  62%|██████▏   | 2810/4533 [7:39:39<4:38:58,  9.72s/it, gpt_loss=0.305, loss_mean=0.334][A
+Train step of epoch 0:  62%|██████▏   | 2811/4533 [7:39:39<4:54:37, 10.27s/it, gpt_loss=0.305, loss_mean=0.334][A2026-01-26 21:27:43.150 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  62%|██████▏   | 2811/4533 [7:39:48<4:54:37, 10.27s/it, gpt_loss=0.283, loss_mean=0.329][A
+Train step of epoch 0:  62%|██████▏   | 2812/4533 [7:39:48<4:46:28,  9.99s/it, gpt_loss=0.283, loss_mean=0.329][A2026-01-26 21:27:52.260 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  62%|██████▏   | 2812/4533 [7:39:59<4:46:28,  9.99s/it, gpt_loss=0.375, loss_mean=0.333][A
+Train step of epoch 0:  62%|██████▏   | 2813/4533 [7:39:59<4:59:54, 10.46s/it, gpt_loss=0.375, loss_mean=0.333][A2026-01-26 21:28:03.964 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  62%|██████▏   | 2813/4533 [7:40:08<4:59:54, 10.46s/it, gpt_loss=0.279, loss_mean=0.328][A
+Train step of epoch 0:  62%|██████▏   | 2814/4533 [7:40:08<4:45:56,  9.98s/it, gpt_loss=0.279, loss_mean=0.328][A2026-01-26 21:28:12.785 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  62%|██████▏   | 2814/4533 [7:40:17<4:45:56,  9.98s/it, gpt_loss=0.285, loss_mean=0.323][A
+Train step of epoch 0:  62%|██████▏   | 2815/4533 [7:40:17<4:37:24,  9.69s/it, gpt_loss=0.285, loss_mean=0.323][A2026-01-26 21:28:21.970 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  62%|██████▏   | 2815/4533 [7:40:27<4:37:24,  9.69s/it, gpt_loss=0.271, loss_mean=0.318][A
+Train step of epoch 0:  62%|██████▏   | 2816/4533 [7:40:27<4:38:17,  9.72s/it, gpt_loss=0.271, loss_mean=0.318][A2026-01-26 21:28:31.262 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  62%|██████▏   | 2816/4533 [7:40:35<4:38:17,  9.72s/it, gpt_loss=0.325, loss_mean=0.319][A
+Train step of epoch 0:  62%|██████▏   | 2817/4533 [7:40:35<4:26:00,  9.30s/it, gpt_loss=0.325, loss_mean=0.319][A2026-01-26 21:28:39.979 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  62%|██████▏   | 2817/4533 [7:40:44<4:26:00,  9.30s/it, gpt_loss=0.239, loss_mean=0.311][A
+Train step of epoch 0:  62%|██████▏   | 2818/4533 [7:40:44<4:20:02,  9.10s/it, gpt_loss=0.239, loss_mean=0.311][A2026-01-26 21:28:48.674 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  62%|██████▏   | 2818/4533 [7:40:53<4:20:02,  9.10s/it, gpt_loss=0.292, loss_mean=0.309][A
+Train step of epoch 0:  62%|██████▏   | 2819/4533 [7:40:53<4:19:01,  9.07s/it, gpt_loss=0.292, loss_mean=0.309][A
+[LID Router Debug] Step: 2820
+Batch Size: 14
+Audio Batch Size: 154
+LID Assignments: [4, 9, 2, 1, 5, 0, 2, 4, 9, 3, 2, 3, 4, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 21:28:57.696 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  62%|██████▏   | 2819/4533 [7:41:02<4:19:01,  9.07s/it, gpt_loss=0.271, loss_mean=0.305][A
+Train step of epoch 0:  62%|██████▏   | 2820/4533 [7:41:02<4:19:31,  9.09s/it, gpt_loss=0.271, loss_mean=0.305][A2026-01-26 21:29:06.683 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  62%|██████▏   | 2820/4533 [7:41:14<4:19:31,  9.09s/it, gpt_loss=0.377, loss_mean=0.312][A
+Train step of epoch 0:  62%|██████▏   | 2821/4533 [7:41:14<4:39:19,  9.79s/it, gpt_loss=0.377, loss_mean=0.312][A2026-01-26 21:29:18.278 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  62%|██████▏   | 2821/4533 [7:41:25<4:39:19,  9.79s/it, gpt_loss=0.412, loss_mean=0.322][A
+Train step of epoch 0:  62%|██████▏   | 2822/4533 [7:41:25<4:56:31, 10.40s/it, gpt_loss=0.412, loss_mean=0.322][A2026-01-26 21:29:29.980 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  62%|██████▏   | 2822/4533 [7:41:34<4:56:31, 10.40s/it, gpt_loss=0.306, loss_mean=0.321][A
+Train step of epoch 0:  62%|██████▏   | 2823/4533 [7:41:34<4:42:26,  9.91s/it, gpt_loss=0.306, loss_mean=0.321][A2026-01-26 21:29:38.897 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  62%|██████▏   | 2823/4533 [7:41:47<4:42:26,  9.91s/it, gpt_loss=0.346, loss_mean=0.323][A
+Train step of epoch 0:  62%|██████▏   | 2824/4533 [7:41:47<5:03:19, 10.65s/it, gpt_loss=0.346, loss_mean=0.323][A2026-01-26 21:29:51.259 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  62%|██████▏   | 2824/4533 [7:41:59<5:03:19, 10.65s/it, gpt_loss=0.471, loss_mean=0.338][A
+Train step of epoch 0:  62%|██████▏   | 2825/4533 [7:41:59<5:16:40, 11.12s/it, gpt_loss=0.471, loss_mean=0.338][A2026-01-26 21:30:03.460 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  62%|██████▏   | 2825/4533 [7:42:08<5:16:40, 11.12s/it, gpt_loss=0.301, loss_mean=0.334][A
+Train step of epoch 0:  62%|██████▏   | 2826/4533 [7:42:08<4:56:26, 10.42s/it, gpt_loss=0.301, loss_mean=0.334][A2026-01-26 21:30:11.902 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  62%|██████▏   | 2826/4533 [7:42:16<4:56:26, 10.42s/it, gpt_loss=0.277, loss_mean=0.329][A
+Train step of epoch 0:  62%|██████▏   | 2827/4533 [7:42:16<4:39:31,  9.83s/it, gpt_loss=0.277, loss_mean=0.329][A2026-01-26 21:30:20.690 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  62%|██████▏   | 2827/4533 [7:42:25<4:39:31,  9.83s/it, gpt_loss=0.301, loss_mean=0.326][A
+Train step of epoch 0:  62%|██████▏   | 2828/4533 [7:42:25<4:34:09,  9.65s/it, gpt_loss=0.301, loss_mean=0.326][A2026-01-26 21:30:29.960 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  62%|██████▏   | 2828/4533 [7:42:35<4:34:09,  9.65s/it, gpt_loss=0.262, loss_mean=0.319][A
+Train step of epoch 0:  62%|██████▏   | 2829/4533 [7:42:35<4:30:28,  9.52s/it, gpt_loss=0.262, loss_mean=0.319][A
+[LID Router Debug] Step: 2830
+Batch Size: 14
+Audio Batch Size: 145
+LID Assignments: [9, 5, 4, 5, 9, 2, 4, 9, 5, 5, 3, 1, 1, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 21:30:38.967 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  62%|██████▏   | 2829/4533 [7:42:43<4:30:28,  9.52s/it, gpt_loss=0.291, loss_mean=0.317][A
+Train step of epoch 0:  62%|██████▏   | 2830/4533 [7:42:43<4:22:46,  9.26s/it, gpt_loss=0.291, loss_mean=0.317][A2026-01-26 21:30:47.587 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  62%|██████▏   | 2830/4533 [7:42:52<4:22:46,  9.26s/it, gpt_loss=0.268, loss_mean=0.312][A
+Train step of epoch 0:  62%|██████▏   | 2831/4533 [7:42:52<4:19:56,  9.16s/it, gpt_loss=0.268, loss_mean=0.312][A2026-01-26 21:30:56.682 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  62%|██████▏   | 2831/4533 [7:43:02<4:19:56,  9.16s/it, gpt_loss=0.29, loss_mean=0.31]  [A
+Train step of epoch 0:  62%|██████▏   | 2832/4533 [7:43:02<4:23:51,  9.31s/it, gpt_loss=0.29, loss_mean=0.31][A2026-01-26 21:31:05.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  62%|██████▏   | 2832/4533 [7:43:10<4:23:51,  9.31s/it, gpt_loss=0.348, loss_mean=0.313][A
+Train step of epoch 0:  62%|██████▏   | 2833/4533 [7:43:10<4:17:45,  9.10s/it, gpt_loss=0.348, loss_mean=0.313][A2026-01-26 21:31:14.556 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  62%|██████▏   | 2833/4533 [7:43:19<4:17:45,  9.10s/it, gpt_loss=0.288, loss_mean=0.311][A
+Train step of epoch 0:  63%|██████▎   | 2834/4533 [7:43:19<4:14:52,  9.00s/it, gpt_loss=0.288, loss_mean=0.311][A2026-01-26 21:31:23.294 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  63%|██████▎   | 2834/4533 [7:43:31<4:14:52,  9.00s/it, gpt_loss=0.402, loss_mean=0.32] [A
+Train step of epoch 0:  63%|██████▎   | 2835/4533 [7:43:31<4:39:11,  9.87s/it, gpt_loss=0.402, loss_mean=0.32][A2026-01-26 21:31:35.476 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  63%|██████▎   | 2835/4533 [7:43:40<4:39:11,  9.87s/it, gpt_loss=0.267, loss_mean=0.315][A
+Train step of epoch 0:  63%|██████▎   | 2836/4533 [7:43:40<4:28:07,  9.48s/it, gpt_loss=0.267, loss_mean=0.315][A2026-01-26 21:31:44.260 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  63%|██████▎   | 2836/4533 [7:43:50<4:28:07,  9.48s/it, gpt_loss=0.347, loss_mean=0.318][A
+Train step of epoch 0:  63%|██████▎   | 2837/4533 [7:43:50<4:33:54,  9.69s/it, gpt_loss=0.347, loss_mean=0.318][A2026-01-26 21:31:54.372 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  63%|██████▎   | 2837/4533 [7:44:00<4:33:54,  9.69s/it, gpt_loss=0.288, loss_mean=0.315][A
+Train step of epoch 0:  63%|██████▎   | 2838/4533 [7:44:00<4:34:58,  9.73s/it, gpt_loss=0.288, loss_mean=0.315][A2026-01-26 21:32:04.278 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  63%|██████▎   | 2838/4533 [7:44:09<4:34:58,  9.73s/it, gpt_loss=0.315, loss_mean=0.315][A
+Train step of epoch 0:  63%|██████▎   | 2839/4533 [7:44:09<4:34:23,  9.72s/it, gpt_loss=0.315, loss_mean=0.315][A
+[LID Router Debug] Step: 2840
+Batch Size: 14
+Audio Batch Size: 157
+LID Assignments: [5, 5, 2, 1, 2, 0, 2, 4, 3, 5, 0, 0, 5, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5}
+2026-01-26 21:32:13.764 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  63%|██████▎   | 2839/4533 [7:44:18<4:34:23,  9.72s/it, gpt_loss=0.227, loss_mean=0.306][A
+Train step of epoch 0:  63%|██████▎   | 2840/4533 [7:44:18<4:25:54,  9.42s/it, gpt_loss=0.227, loss_mean=0.306][A2026-01-26 21:32:22.670 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  63%|██████▎   | 2840/4533 [7:44:30<4:25:54,  9.42s/it, gpt_loss=0.353, loss_mean=0.311][A
+Train step of epoch 0:  63%|██████▎   | 2841/4533 [7:44:30<4:46:16, 10.15s/it, gpt_loss=0.353, loss_mean=0.311][A2026-01-26 21:32:34.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  63%|██████▎   | 2841/4533 [7:44:39<4:46:16, 10.15s/it, gpt_loss=0.29, loss_mean=0.309] [A
+Train step of epoch 0:  63%|██████▎   | 2842/4533 [7:44:39<4:37:16,  9.84s/it, gpt_loss=0.29, loss_mean=0.309][A2026-01-26 21:32:43.400 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  63%|██████▎   | 2842/4533 [7:44:48<4:37:16,  9.84s/it, gpt_loss=0.304, loss_mean=0.308][A
+Train step of epoch 0:  63%|██████▎   | 2843/4533 [7:44:48<4:26:45,  9.47s/it, gpt_loss=0.304, loss_mean=0.308][A2026-01-26 21:32:52.084 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  63%|██████▎   | 2843/4533 [7:45:00<4:26:45,  9.47s/it, gpt_loss=0.354, loss_mean=0.313][A
+Train step of epoch 0:  63%|██████▎   | 2844/4533 [7:45:00<4:47:45, 10.22s/it, gpt_loss=0.354, loss_mean=0.313][A2026-01-26 21:33:04.155 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  63%|██████▎   | 2844/4533 [7:45:09<4:47:45, 10.22s/it, gpt_loss=0.356, loss_mean=0.317][A
+Train step of epoch 0:  63%|██████▎   | 2845/4533 [7:45:09<4:42:44, 10.05s/it, gpt_loss=0.356, loss_mean=0.317][A2026-01-26 21:33:13.689 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  63%|██████▎   | 2845/4533 [7:45:18<4:42:44, 10.05s/it, gpt_loss=0.338, loss_mean=0.319][A
+Train step of epoch 0:  63%|██████▎   | 2846/4533 [7:45:18<4:34:41,  9.77s/it, gpt_loss=0.338, loss_mean=0.319][A2026-01-26 21:33:22.767 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  63%|██████▎   | 2846/4533 [7:45:28<4:34:41,  9.77s/it, gpt_loss=0.311, loss_mean=0.318][A
+Train step of epoch 0:  63%|██████▎   | 2847/4533 [7:45:28<4:32:23,  9.69s/it, gpt_loss=0.311, loss_mean=0.318][A2026-01-26 21:33:32.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  63%|██████▎   | 2847/4533 [7:45:37<4:32:23,  9.69s/it, gpt_loss=0.253, loss_mean=0.312][A
+Train step of epoch 0:  63%|██████▎   | 2848/4533 [7:45:37<4:29:25,  9.59s/it, gpt_loss=0.253, loss_mean=0.312][A2026-01-26 21:33:41.591 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  63%|██████▎   | 2848/4533 [7:45:46<4:29:25,  9.59s/it, gpt_loss=0.309, loss_mean=0.312][A
+Train step of epoch 0:  63%|██████▎   | 2849/4533 [7:45:46<4:20:23,  9.28s/it, gpt_loss=0.309, loss_mean=0.312][A
+[LID Router Debug] Step: 2850
+Batch Size: 14
+Audio Batch Size: 131
+LID Assignments: [3, 9, 4, 0, 9, 9, 1, 5, 5, 1, 0, 9, 5, 4]
+Active Experts in Batch: {0, 1, 3, 4, 5, 9}
+2026-01-26 21:33:50.195 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  63%|██████▎   | 2849/4533 [7:45:55<4:20:23,  9.28s/it, gpt_loss=0.308, loss_mean=0.311][A
+Train step of epoch 0:  63%|██████▎   | 2850/4533 [7:45:55<4:17:19,  9.17s/it, gpt_loss=0.308, loss_mean=0.311][A2026-01-26 21:33:59.355 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  63%|██████▎   | 2850/4533 [7:46:04<4:17:19,  9.17s/it, gpt_loss=0.252, loss_mean=0.305][A
+Train step of epoch 0:  63%|██████▎   | 2851/4533 [7:46:04<4:17:09,  9.17s/it, gpt_loss=0.252, loss_mean=0.305][A2026-01-26 21:34:08.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  63%|██████▎   | 2851/4533 [7:46:13<4:17:09,  9.17s/it, gpt_loss=0.326, loss_mean=0.307][A
+Train step of epoch 0:  63%|██████▎   | 2852/4533 [7:46:13<4:12:46,  9.02s/it, gpt_loss=0.326, loss_mean=0.307][A2026-01-26 21:34:17.096 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  63%|██████▎   | 2852/4533 [7:46:21<4:12:46,  9.02s/it, gpt_loss=0.32, loss_mean=0.309] [A
+Train step of epoch 0:  63%|██████▎   | 2853/4533 [7:46:21<4:11:08,  8.97s/it, gpt_loss=0.32, loss_mean=0.309][A2026-01-26 21:34:25.785 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  63%|██████▎   | 2853/4533 [7:46:33<4:11:08,  8.97s/it, gpt_loss=0.397, loss_mean=0.317][A
+Train step of epoch 0:  63%|██████▎   | 2854/4533 [7:46:33<4:32:26,  9.74s/it, gpt_loss=0.397, loss_mean=0.317][A2026-01-26 21:34:37.484 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  63%|██████▎   | 2854/4533 [7:46:42<4:32:26,  9.74s/it, gpt_loss=0.387, loss_mean=0.324][A
+Train step of epoch 0:  63%|██████▎   | 2855/4533 [7:46:42<4:23:32,  9.42s/it, gpt_loss=0.387, loss_mean=0.324][A2026-01-26 21:34:46.167 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  63%|██████▎   | 2855/4533 [7:46:51<4:23:32,  9.42s/it, gpt_loss=0.36, loss_mean=0.328] [A
+Train step of epoch 0:  63%|██████▎   | 2856/4533 [7:46:51<4:25:14,  9.49s/it, gpt_loss=0.36, loss_mean=0.328][A2026-01-26 21:34:55.891 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  63%|██████▎   | 2856/4533 [7:47:00<4:25:14,  9.49s/it, gpt_loss=0.236, loss_mean=0.319][A
+Train step of epoch 0:  63%|██████▎   | 2857/4533 [7:47:00<4:19:49,  9.30s/it, gpt_loss=0.236, loss_mean=0.319][A2026-01-26 21:35:04.789 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  63%|██████▎   | 2857/4533 [7:47:09<4:19:49,  9.30s/it, gpt_loss=0.302, loss_mean=0.317][A
+Train step of epoch 0:  63%|██████▎   | 2858/4533 [7:47:09<4:18:49,  9.27s/it, gpt_loss=0.302, loss_mean=0.317][A2026-01-26 21:35:13.977 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  63%|██████▎   | 2858/4533 [7:47:18<4:18:49,  9.27s/it, gpt_loss=0.311, loss_mean=0.317][A
+Train step of epoch 0:  63%|██████▎   | 2859/4533 [7:47:18<4:17:41,  9.24s/it, gpt_loss=0.311, loss_mean=0.317][A
+[LID Router Debug] Step: 2860
+Batch Size: 14
+Audio Batch Size: 143
+LID Assignments: [9, 5, 3, 4, 0, 6, 2, 6, 1, 2, 2, 2, 9, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 21:35:22.978 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  63%|██████▎   | 2859/4533 [7:47:30<4:17:41,  9.24s/it, gpt_loss=0.441, loss_mean=0.329][A
+Train step of epoch 0:  63%|██████▎   | 2860/4533 [7:47:30<4:39:16, 10.02s/it, gpt_loss=0.441, loss_mean=0.329][A2026-01-26 21:35:34.878 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  63%|██████▎   | 2860/4533 [7:47:40<4:39:16, 10.02s/it, gpt_loss=0.302, loss_mean=0.326][A
+Train step of epoch 0:  63%|██████▎   | 2861/4533 [7:47:40<4:38:25,  9.99s/it, gpt_loss=0.302, loss_mean=0.326][A2026-01-26 21:35:44.594 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  63%|██████▎   | 2861/4533 [7:47:52<4:38:25,  9.99s/it, gpt_loss=0.395, loss_mean=0.333][A
+Train step of epoch 0:  63%|██████▎   | 2862/4533 [7:47:52<4:52:20, 10.50s/it, gpt_loss=0.395, loss_mean=0.333][A2026-01-26 21:35:56.594 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  63%|██████▎   | 2862/4533 [7:48:01<4:52:20, 10.50s/it, gpt_loss=0.32, loss_mean=0.332] [A
+Train step of epoch 0:  63%|██████▎   | 2863/4533 [7:48:01<4:41:01, 10.10s/it, gpt_loss=0.32, loss_mean=0.332][A2026-01-26 21:36:05.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  63%|██████▎   | 2863/4533 [7:48:13<4:41:01, 10.10s/it, gpt_loss=0.393, loss_mean=0.338][A
+Train step of epoch 0:  63%|██████▎   | 2864/4533 [7:48:13<4:57:18, 10.69s/it, gpt_loss=0.393, loss_mean=0.338][A2026-01-26 21:36:17.769 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  63%|██████▎   | 2864/4533 [7:48:22<4:57:18, 10.69s/it, gpt_loss=0.282, loss_mean=0.332][A
+Train step of epoch 0:  63%|██████▎   | 2865/4533 [7:48:22<4:42:36, 10.17s/it, gpt_loss=0.282, loss_mean=0.332][A2026-01-26 21:36:26.596 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  63%|██████▎   | 2865/4533 [7:48:31<4:42:36, 10.17s/it, gpt_loss=0.253, loss_mean=0.324][A
+Train step of epoch 0:  63%|██████▎   | 2866/4533 [7:48:31<4:31:45,  9.78s/it, gpt_loss=0.253, loss_mean=0.324][A2026-01-26 21:36:35.571 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  63%|██████▎   | 2866/4533 [7:48:40<4:31:45,  9.78s/it, gpt_loss=0.275, loss_mean=0.319][A
+Train step of epoch 0:  63%|██████▎   | 2867/4533 [7:48:40<4:27:37,  9.64s/it, gpt_loss=0.275, loss_mean=0.319][A2026-01-26 21:36:44.695 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  63%|██████▎   | 2867/4533 [7:48:50<4:27:37,  9.64s/it, gpt_loss=0.271, loss_mean=0.315][A
+Train step of epoch 0:  63%|██████▎   | 2868/4533 [7:48:50<4:25:40,  9.57s/it, gpt_loss=0.271, loss_mean=0.315][A2026-01-26 21:36:54.360 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  63%|██████▎   | 2868/4533 [7:48:59<4:25:40,  9.57s/it, gpt_loss=0.375, loss_mean=0.321][A
+Train step of epoch 0:  63%|██████▎   | 2869/4533 [7:48:59<4:27:00,  9.63s/it, gpt_loss=0.375, loss_mean=0.321][A
+[LID Router Debug] Step: 2870
+Batch Size: 14
+Audio Batch Size: 173
+LID Assignments: [4, 9, 0, 3, 4, 0, 5, 3, 2, 9, 6, 9, 2, 2]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-26 21:37:04.099 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  63%|██████▎   | 2869/4533 [7:49:08<4:27:00,  9.63s/it, gpt_loss=0.26, loss_mean=0.315] [A
+Train step of epoch 0:  63%|██████▎   | 2870/4533 [7:49:08<4:21:03,  9.42s/it, gpt_loss=0.26, loss_mean=0.315][A2026-01-26 21:37:12.877 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  63%|██████▎   | 2870/4533 [7:49:18<4:21:03,  9.42s/it, gpt_loss=0.328, loss_mean=0.316][A
+Train step of epoch 0:  63%|██████▎   | 2871/4533 [7:49:18<4:21:45,  9.45s/it, gpt_loss=0.328, loss_mean=0.316][A2026-01-26 21:37:22.559 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  63%|██████▎   | 2871/4533 [7:49:28<4:21:45,  9.45s/it, gpt_loss=0.293, loss_mean=0.314][A
+Train step of epoch 0:  63%|██████▎   | 2872/4533 [7:49:28<4:24:12,  9.54s/it, gpt_loss=0.293, loss_mean=0.314][A2026-01-26 21:37:31.865 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  63%|██████▎   | 2872/4533 [7:49:36<4:24:12,  9.54s/it, gpt_loss=0.303, loss_mean=0.313][A
+Train step of epoch 0:  63%|██████▎   | 2873/4533 [7:49:36<4:17:10,  9.30s/it, gpt_loss=0.303, loss_mean=0.313][A2026-01-26 21:37:40.980 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  63%|██████▎   | 2873/4533 [7:49:46<4:17:10,  9.30s/it, gpt_loss=0.339, loss_mean=0.315][A
+Train step of epoch 0:  63%|██████▎   | 2874/4533 [7:49:46<4:19:00,  9.37s/it, gpt_loss=0.339, loss_mean=0.315][A2026-01-26 21:37:50.575 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  63%|██████▎   | 2874/4533 [7:49:56<4:19:00,  9.37s/it, gpt_loss=0.344, loss_mean=0.318][A
+Train step of epoch 0:  63%|██████▎   | 2875/4533 [7:49:56<4:21:35,  9.47s/it, gpt_loss=0.344, loss_mean=0.318][A2026-01-26 21:37:59.994 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  63%|██████▎   | 2875/4533 [7:50:04<4:21:35,  9.47s/it, gpt_loss=0.311, loss_mean=0.317][A
+Train step of epoch 0:  63%|██████▎   | 2876/4533 [7:50:04<4:12:46,  9.15s/it, gpt_loss=0.311, loss_mean=0.317][A2026-01-26 21:38:08.588 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  63%|██████▎   | 2876/4533 [7:50:13<4:12:46,  9.15s/it, gpt_loss=0.236, loss_mean=0.309][A
+Train step of epoch 0:  63%|██████▎   | 2877/4533 [7:50:13<4:14:35,  9.22s/it, gpt_loss=0.236, loss_mean=0.309][A2026-01-26 21:38:17.979 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  63%|██████▎   | 2877/4533 [7:50:22<4:14:35,  9.22s/it, gpt_loss=0.28, loss_mean=0.306] [A
+Train step of epoch 0:  63%|██████▎   | 2878/4533 [7:50:22<4:12:35,  9.16s/it, gpt_loss=0.28, loss_mean=0.306][A2026-01-26 21:38:26.877 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  63%|██████▎   | 2878/4533 [7:50:31<4:12:35,  9.16s/it, gpt_loss=0.292, loss_mean=0.305][A
+Train step of epoch 0:  64%|██████▎   | 2879/4533 [7:50:31<4:07:24,  8.97s/it, gpt_loss=0.292, loss_mean=0.305][A
+[LID Router Debug] Step: 2880
+Batch Size: 14
+Audio Batch Size: 150
+LID Assignments: [9, 4, 0, 2, 5, 4, 9, 4, 1, 9, 3, 1, 3, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 21:38:35.280 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  64%|██████▎   | 2879/4533 [7:50:39<4:07:24,  8.97s/it, gpt_loss=0.248, loss_mean=0.299][A
+Train step of epoch 0:  64%|██████▎   | 2880/4533 [7:50:39<4:03:22,  8.83s/it, gpt_loss=0.248, loss_mean=0.299][A2026-01-26 21:38:43.892 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  64%|██████▎   | 2880/4533 [7:50:51<4:03:22,  8.83s/it, gpt_loss=0.357, loss_mean=0.305][A
+Train step of epoch 0:  64%|██████▎   | 2881/4533 [7:50:51<4:25:14,  9.63s/it, gpt_loss=0.357, loss_mean=0.305][A2026-01-26 21:38:55.662 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  64%|██████▎   | 2881/4533 [7:51:01<4:25:14,  9.63s/it, gpt_loss=0.317, loss_mean=0.306][A
+Train step of epoch 0:  64%|██████▎   | 2882/4533 [7:51:01<4:25:32,  9.65s/it, gpt_loss=0.317, loss_mean=0.306][A2026-01-26 21:39:05.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  64%|██████▎   | 2882/4533 [7:51:10<4:25:32,  9.65s/it, gpt_loss=0.362, loss_mean=0.312][A
+Train step of epoch 0:  64%|██████▎   | 2883/4533 [7:51:10<4:24:40,  9.62s/it, gpt_loss=0.362, loss_mean=0.312][A2026-01-26 21:39:14.858 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  64%|██████▎   | 2883/4533 [7:51:20<4:24:40,  9.62s/it, gpt_loss=0.305, loss_mean=0.311][A
+Train step of epoch 0:  64%|██████▎   | 2884/4533 [7:51:20<4:26:17,  9.69s/it, gpt_loss=0.305, loss_mean=0.311][A2026-01-26 21:39:24.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  64%|██████▎   | 2884/4533 [7:51:29<4:26:17,  9.69s/it, gpt_loss=0.33, loss_mean=0.313] [A
+Train step of epoch 0:  64%|██████▎   | 2885/4533 [7:51:29<4:22:06,  9.54s/it, gpt_loss=0.33, loss_mean=0.313][A2026-01-26 21:39:33.791 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  64%|██████▎   | 2885/4533 [7:51:38<4:22:06,  9.54s/it, gpt_loss=0.222, loss_mean=0.304][A
+Train step of epoch 0:  64%|██████▎   | 2886/4533 [7:51:38<4:17:36,  9.38s/it, gpt_loss=0.222, loss_mean=0.304][A2026-01-26 21:39:42.964 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  64%|██████▎   | 2886/4533 [7:51:50<4:17:36,  9.38s/it, gpt_loss=0.35, loss_mean=0.308] [A
+Train step of epoch 0:  64%|██████▎   | 2887/4533 [7:51:50<4:38:06, 10.14s/it, gpt_loss=0.35, loss_mean=0.308][A2026-01-26 21:39:54.861 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  64%|██████▎   | 2887/4533 [7:51:59<4:38:06, 10.14s/it, gpt_loss=0.252, loss_mean=0.303][A
+Train step of epoch 0:  64%|██████▎   | 2888/4533 [7:51:59<4:28:05,  9.78s/it, gpt_loss=0.252, loss_mean=0.303][A2026-01-26 21:40:03.658 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  64%|██████▎   | 2888/4533 [7:52:11<4:28:05,  9.78s/it, gpt_loss=0.302, loss_mean=0.303][A
+Train step of epoch 0:  64%|██████▎   | 2889/4533 [7:52:11<4:44:42, 10.39s/it, gpt_loss=0.302, loss_mean=0.303][A
+[LID Router Debug] Step: 2890
+Batch Size: 14
+Audio Batch Size: 123
+LID Assignments: [4, 2, 5, 9, 1, 2, 1, 5, 6, 1, 1, 4, 4, 0]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-26 21:40:15.478 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  64%|██████▎   | 2889/4533 [7:52:20<4:44:42, 10.39s/it, gpt_loss=0.281, loss_mean=0.301][A
+Train step of epoch 0:  64%|██████▍   | 2890/4533 [7:52:20<4:31:24,  9.91s/it, gpt_loss=0.281, loss_mean=0.301][A2026-01-26 21:40:24.400 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  64%|██████▍   | 2890/4533 [7:52:29<4:31:24,  9.91s/it, gpt_loss=0.238, loss_mean=0.294][A
+Train step of epoch 0:  64%|██████▍   | 2891/4533 [7:52:29<4:25:30,  9.70s/it, gpt_loss=0.238, loss_mean=0.294][A2026-01-26 21:40:33.558 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  64%|██████▍   | 2891/4533 [7:52:41<4:25:30,  9.70s/it, gpt_loss=0.449, loss_mean=0.31] [A
+Train step of epoch 0:  64%|██████▍   | 2892/4533 [7:52:41<4:42:34, 10.33s/it, gpt_loss=0.449, loss_mean=0.31][A2026-01-26 21:40:45.395 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  64%|██████▍   | 2892/4533 [7:52:50<4:42:34, 10.33s/it, gpt_loss=0.233, loss_mean=0.302][A
+Train step of epoch 0:  64%|██████▍   | 2893/4533 [7:52:50<4:33:27, 10.00s/it, gpt_loss=0.233, loss_mean=0.302][A2026-01-26 21:40:54.486 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  64%|██████▍   | 2893/4533 [7:52:59<4:33:27, 10.00s/it, gpt_loss=0.293, loss_mean=0.301][A
+Train step of epoch 0:  64%|██████▍   | 2894/4533 [7:52:59<4:22:45,  9.62s/it, gpt_loss=0.293, loss_mean=0.301][A2026-01-26 21:41:03.269 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  64%|██████▍   | 2894/4533 [7:53:09<4:22:45,  9.62s/it, gpt_loss=0.328, loss_mean=0.304][A
+Train step of epoch 0:  64%|██████▍   | 2895/4533 [7:53:09<4:24:03,  9.67s/it, gpt_loss=0.328, loss_mean=0.304][A2026-01-26 21:41:13.173 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  64%|██████▍   | 2895/4533 [7:53:21<4:24:03,  9.67s/it, gpt_loss=0.378, loss_mean=0.311][A
+Train step of epoch 0:  64%|██████▍   | 2896/4533 [7:53:21<4:43:07, 10.38s/it, gpt_loss=0.378, loss_mean=0.311][A2026-01-26 21:41:25.076 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  64%|██████▍   | 2896/4533 [7:53:30<4:43:07, 10.38s/it, gpt_loss=0.278, loss_mean=0.308][A
+Train step of epoch 0:  64%|██████▍   | 2897/4533 [7:53:30<4:39:04, 10.23s/it, gpt_loss=0.278, loss_mean=0.308][A2026-01-26 21:41:35.087 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  64%|██████▍   | 2897/4533 [7:53:42<4:39:04, 10.23s/it, gpt_loss=0.372, loss_mean=0.314][A
+Train step of epoch 0:  64%|██████▍   | 2898/4533 [7:53:42<4:53:13, 10.76s/it, gpt_loss=0.372, loss_mean=0.314][A2026-01-26 21:41:47.083 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  64%|██████▍   | 2898/4533 [7:53:55<4:53:13, 10.76s/it, gpt_loss=0.341, loss_mean=0.317][A
+Train step of epoch 0:  64%|██████▍   | 2899/4533 [7:53:55<5:04:34, 11.18s/it, gpt_loss=0.341, loss_mean=0.317][A
+[LID Router Debug] Step: 2900
+Batch Size: 14
+Audio Batch Size: 146
+LID Assignments: [1, 2, 0, 0, 1, 3, 4, 5, 9, 5, 2, 1, 1, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 21:41:58.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+[2026-01-26 21:42:08,053] [INFO] [logging.py:96:log_dist] [Rank 0] step=2900, skipped=0, lr=[1.7991119535385687e-05, 1.7991119535385687e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 21:42:08,054] [INFO] [timer.py:260:stop] epoch=0/micro_step=2900/global_step=2900, RunningAvgSamplesPerSec=5.72902711521039, CurrSamplesPerSec=5.8742523822217905, MemAllocated=14.65GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  64%|██████▍   | 2899/4533 [7:54:04<5:04:34, 11.18s/it, gpt_loss=0.341, loss_mean=0.319][A
+Train step of epoch 0:  64%|██████▍   | 2900/4533 [7:54:04<4:51:03, 10.69s/it, gpt_loss=0.341, loss_mean=0.319][A2026-01-26 21:42:08.582 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  64%|██████▍   | 2900/4533 [7:54:16<4:51:03, 10.69s/it, gpt_loss=0.4, loss_mean=0.327]  [A
+Train step of epoch 0:  64%|██████▍   | 2901/4533 [7:54:16<4:58:01, 10.96s/it, gpt_loss=0.4, loss_mean=0.327][A2026-01-26 21:42:20.389 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  64%|██████▍   | 2901/4533 [7:54:25<4:58:01, 10.96s/it, gpt_loss=0.256, loss_mean=0.32][A
+Train step of epoch 0:  64%|██████▍   | 2902/4533 [7:54:25<4:40:25, 10.32s/it, gpt_loss=0.256, loss_mean=0.32][A2026-01-26 21:42:29.170 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  64%|██████▍   | 2902/4533 [7:54:34<4:40:25, 10.32s/it, gpt_loss=0.359, loss_mean=0.324][A
+Train step of epoch 0:  64%|██████▍   | 2903/4533 [7:54:34<4:37:21, 10.21s/it, gpt_loss=0.359, loss_mean=0.324][A2026-01-26 21:42:39.097 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  64%|██████▍   | 2903/4533 [7:54:43<4:37:21, 10.21s/it, gpt_loss=0.326, loss_mean=0.324][A
+Train step of epoch 0:  64%|██████▍   | 2904/4533 [7:54:43<4:26:15,  9.81s/it, gpt_loss=0.326, loss_mean=0.324][A2026-01-26 21:42:47.977 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  64%|██████▍   | 2904/4533 [7:54:55<4:26:15,  9.81s/it, gpt_loss=0.399, loss_mean=0.332][A
+Train step of epoch 0:  64%|██████▍   | 2905/4533 [7:54:55<4:42:32, 10.41s/it, gpt_loss=0.399, loss_mean=0.332][A2026-01-26 21:42:59.596 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  64%|██████▍   | 2905/4533 [7:55:07<4:42:32, 10.41s/it, gpt_loss=0.371, loss_mean=0.336][A
+Train step of epoch 0:  64%|██████▍   | 2906/4533 [7:55:07<4:52:12, 10.78s/it, gpt_loss=0.371, loss_mean=0.336][A2026-01-26 21:43:11.482 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  64%|██████▍   | 2906/4533 [7:55:15<4:52:12, 10.78s/it, gpt_loss=0.261, loss_mean=0.328][A
+Train step of epoch 0:  64%|██████▍   | 2907/4533 [7:55:15<4:34:49, 10.14s/it, gpt_loss=0.261, loss_mean=0.328][A2026-01-26 21:43:19.971 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  64%|██████▍   | 2907/4533 [7:55:25<4:34:49, 10.14s/it, gpt_loss=0.256, loss_mean=0.321][A
+Train step of epoch 0:  64%|██████▍   | 2908/4533 [7:55:25<4:26:11,  9.83s/it, gpt_loss=0.256, loss_mean=0.321][A2026-01-26 21:43:29.269 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  64%|██████▍   | 2908/4533 [7:55:37<4:26:11,  9.83s/it, gpt_loss=0.409, loss_mean=0.33] [A
+Train step of epoch 0:  64%|██████▍   | 2909/4533 [7:55:37<4:43:32, 10.48s/it, gpt_loss=0.409, loss_mean=0.33][A
+[LID Router Debug] Step: 2910
+Batch Size: 14
+Audio Batch Size: 143
+LID Assignments: [0, 9, 3, 4, 2, 2, 4, 1, 1, 4, 1, 5, 0, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 21:43:41.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  64%|██████▍   | 2909/4533 [7:55:46<4:43:32, 10.48s/it, gpt_loss=0.248, loss_mean=0.322][A
+Train step of epoch 0:  64%|██████▍   | 2910/4533 [7:55:46<4:31:02, 10.02s/it, gpt_loss=0.248, loss_mean=0.322][A2026-01-26 21:43:50.070 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  64%|██████▍   | 2910/4533 [7:55:54<4:31:02, 10.02s/it, gpt_loss=0.292, loss_mean=0.319][A
+Train step of epoch 0:  64%|██████▍   | 2911/4533 [7:55:54<4:19:18,  9.59s/it, gpt_loss=0.292, loss_mean=0.319][A2026-01-26 21:43:58.784 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  64%|██████▍   | 2911/4533 [7:56:06<4:19:18,  9.59s/it, gpt_loss=0.345, loss_mean=0.321][A
+Train step of epoch 0:  64%|██████▍   | 2912/4533 [7:56:06<4:38:55, 10.32s/it, gpt_loss=0.345, loss_mean=0.321][A2026-01-26 21:44:10.867 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  64%|██████▍   | 2912/4533 [7:56:18<4:38:55, 10.32s/it, gpt_loss=0.485, loss_mean=0.338][A
+Train step of epoch 0:  64%|██████▍   | 2913/4533 [7:56:18<4:54:30, 10.91s/it, gpt_loss=0.485, loss_mean=0.338][A2026-01-26 21:44:23.090 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  64%|██████▍   | 2913/4533 [7:56:27<4:54:30, 10.91s/it, gpt_loss=0.25, loss_mean=0.329] [A
+Train step of epoch 0:  64%|██████▍   | 2914/4533 [7:56:27<4:37:57, 10.30s/it, gpt_loss=0.25, loss_mean=0.329][A2026-01-26 21:44:31.700 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  64%|██████▍   | 2914/4533 [7:56:37<4:37:57, 10.30s/it, gpt_loss=0.353, loss_mean=0.331][A
+Train step of epoch 0:  64%|██████▍   | 2915/4533 [7:56:37<4:30:24, 10.03s/it, gpt_loss=0.353, loss_mean=0.331][A2026-01-26 21:44:40.893 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  64%|██████▍   | 2915/4533 [7:56:48<4:30:24, 10.03s/it, gpt_loss=0.387, loss_mean=0.337][A
+Train step of epoch 0:  64%|██████▍   | 2916/4533 [7:56:48<4:42:54, 10.50s/it, gpt_loss=0.387, loss_mean=0.337][A2026-01-26 21:44:52.962 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  64%|██████▍   | 2916/4533 [7:56:58<4:42:54, 10.50s/it, gpt_loss=0.307, loss_mean=0.334][A
+Train step of epoch 0:  64%|██████▍   | 2917/4533 [7:56:58<4:36:49, 10.28s/it, gpt_loss=0.307, loss_mean=0.334][A2026-01-26 21:45:02.591 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  64%|██████▍   | 2917/4533 [7:57:10<4:36:49, 10.28s/it, gpt_loss=0.329, loss_mean=0.333][A
+Train step of epoch 0:  64%|██████▍   | 2918/4533 [7:57:10<4:48:24, 10.71s/it, gpt_loss=0.329, loss_mean=0.333][A2026-01-26 21:45:14.383 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  64%|██████▍   | 2918/4533 [7:57:20<4:48:24, 10.71s/it, gpt_loss=0.298, loss_mean=0.33] [A
+Train step of epoch 0:  64%|██████▍   | 2919/4533 [7:57:20<4:41:12, 10.45s/it, gpt_loss=0.298, loss_mean=0.33][A
+[LID Router Debug] Step: 2920
+Batch Size: 14
+Audio Batch Size: 141
+LID Assignments: [5, 1, 9, 2, 3, 4, 1, 1, 4, 1, 5, 1, 9, 3]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-26 21:45:24.001 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  64%|██████▍   | 2919/4533 [7:57:32<4:41:12, 10.45s/it, gpt_loss=0.415, loss_mean=0.338][A
+Train step of epoch 0:  64%|██████▍   | 2920/4533 [7:57:32<4:53:43, 10.93s/it, gpt_loss=0.415, loss_mean=0.338][A2026-01-26 21:45:36.064 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  64%|██████▍   | 2920/4533 [7:57:40<4:53:43, 10.93s/it, gpt_loss=0.238, loss_mean=0.328][A
+Train step of epoch 0:  64%|██████▍   | 2921/4533 [7:57:40<4:34:21, 10.21s/it, gpt_loss=0.238, loss_mean=0.328][A2026-01-26 21:45:44.668 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  64%|██████▍   | 2921/4533 [7:57:50<4:34:21, 10.21s/it, gpt_loss=0.277, loss_mean=0.323][A
+Train step of epoch 0:  64%|██████▍   | 2922/4533 [7:57:50<4:28:52, 10.01s/it, gpt_loss=0.277, loss_mean=0.323][A2026-01-26 21:45:54.294 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  64%|██████▍   | 2922/4533 [7:57:59<4:28:52, 10.01s/it, gpt_loss=0.291, loss_mean=0.32] [A
+Train step of epoch 0:  64%|██████▍   | 2923/4533 [7:57:59<4:24:07,  9.84s/it, gpt_loss=0.291, loss_mean=0.32][A2026-01-26 21:46:03.873 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  64%|██████▍   | 2923/4533 [7:58:11<4:24:07,  9.84s/it, gpt_loss=0.413, loss_mean=0.329][A
+Train step of epoch 0:  65%|██████▍   | 2924/4533 [7:58:11<4:41:11, 10.49s/it, gpt_loss=0.413, loss_mean=0.329][A2026-01-26 21:46:15.866 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  65%|██████▍   | 2924/4533 [7:58:21<4:41:11, 10.49s/it, gpt_loss=0.383, loss_mean=0.335][A
+Train step of epoch 0:  65%|██████▍   | 2925/4533 [7:58:21<4:34:45, 10.25s/it, gpt_loss=0.383, loss_mean=0.335][A2026-01-26 21:46:25.472 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  65%|██████▍   | 2925/4533 [7:58:33<4:34:45, 10.25s/it, gpt_loss=0.433, loss_mean=0.344][A
+Train step of epoch 0:  65%|██████▍   | 2926/4533 [7:58:33<4:50:18, 10.84s/it, gpt_loss=0.433, loss_mean=0.344][A2026-01-26 21:46:37.670 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  65%|██████▍   | 2926/4533 [7:58:45<4:50:18, 10.84s/it, gpt_loss=0.391, loss_mean=0.349][A
+Train step of epoch 0:  65%|██████▍   | 2927/4533 [7:58:45<4:59:00, 11.17s/it, gpt_loss=0.391, loss_mean=0.349][A2026-01-26 21:46:49.389 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  65%|██████▍   | 2927/4533 [7:58:54<4:59:00, 11.17s/it, gpt_loss=0.337, loss_mean=0.348][A
+Train step of epoch 0:  65%|██████▍   | 2928/4533 [7:58:54<4:39:27, 10.45s/it, gpt_loss=0.337, loss_mean=0.348][A2026-01-26 21:46:58.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  65%|██████▍   | 2928/4533 [7:59:03<4:39:27, 10.45s/it, gpt_loss=0.299, loss_mean=0.343][A
+Train step of epoch 0:  65%|██████▍   | 2929/4533 [7:59:03<4:28:05, 10.03s/it, gpt_loss=0.299, loss_mean=0.343][A
+[LID Router Debug] Step: 2930
+Batch Size: 14
+Audio Batch Size: 131
+LID Assignments: [5, 2, 4, 0, 2, 9, 6, 2, 5, 5, 5, 3, 6, 4]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-26 21:47:07.498 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  65%|██████▍   | 2929/4533 [7:59:12<4:28:05, 10.03s/it, gpt_loss=0.328, loss_mean=0.342][A
+Train step of epoch 0:  65%|██████▍   | 2930/4533 [7:59:12<4:22:39,  9.83s/it, gpt_loss=0.328, loss_mean=0.342][A2026-01-26 21:47:16.800 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  65%|██████▍   | 2930/4533 [7:59:21<4:22:39,  9.83s/it, gpt_loss=0.278, loss_mean=0.335][A
+Train step of epoch 0:  65%|██████▍   | 2931/4533 [7:59:21<4:14:42,  9.54s/it, gpt_loss=0.278, loss_mean=0.335][A2026-01-26 21:47:25.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  65%|██████▍   | 2931/4533 [7:59:30<4:14:42,  9.54s/it, gpt_loss=0.328, loss_mean=0.334][A
+Train step of epoch 0:  65%|██████▍   | 2932/4533 [7:59:30<4:13:25,  9.50s/it, gpt_loss=0.328, loss_mean=0.334][A2026-01-26 21:47:34.983 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  65%|██████▍   | 2932/4533 [7:59:40<4:13:25,  9.50s/it, gpt_loss=0.327, loss_mean=0.334][A
+Train step of epoch 0:  65%|██████▍   | 2933/4533 [7:59:40<4:13:46,  9.52s/it, gpt_loss=0.327, loss_mean=0.334][A2026-01-26 21:47:44.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  65%|██████▍   | 2933/4533 [7:59:49<4:13:46,  9.52s/it, gpt_loss=0.275, loss_mean=0.328][A
+Train step of epoch 0:  65%|██████▍   | 2934/4533 [7:59:49<4:09:06,  9.35s/it, gpt_loss=0.275, loss_mean=0.328][A2026-01-26 21:47:53.685 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  65%|██████▍   | 2934/4533 [7:59:58<4:09:06,  9.35s/it, gpt_loss=0.298, loss_mean=0.325][A
+Train step of epoch 0:  65%|██████▍   | 2935/4533 [7:59:58<4:06:13,  9.25s/it, gpt_loss=0.298, loss_mean=0.325][A2026-01-26 21:48:02.681 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  65%|██████▍   | 2935/4533 [8:00:08<4:06:13,  9.25s/it, gpt_loss=0.4, loss_mean=0.332]  [A
+Train step of epoch 0:  65%|██████▍   | 2936/4533 [8:00:08<4:08:11,  9.32s/it, gpt_loss=0.4, loss_mean=0.332][A2026-01-26 21:48:12.186 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  65%|██████▍   | 2936/4533 [8:00:17<4:08:11,  9.32s/it, gpt_loss=0.294, loss_mean=0.329][A
+Train step of epoch 0:  65%|██████▍   | 2937/4533 [8:00:17<4:06:37,  9.27s/it, gpt_loss=0.294, loss_mean=0.329][A2026-01-26 21:48:21.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  65%|██████▍   | 2937/4533 [8:00:26<4:06:37,  9.27s/it, gpt_loss=0.363, loss_mean=0.332][A
+Train step of epoch 0:  65%|██████▍   | 2938/4533 [8:00:26<4:09:49,  9.40s/it, gpt_loss=0.363, loss_mean=0.332][A2026-01-26 21:48:30.968 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  65%|██████▍   | 2938/4533 [8:00:35<4:09:49,  9.40s/it, gpt_loss=0.211, loss_mean=0.32] [A
+Train step of epoch 0:  65%|██████▍   | 2939/4533 [8:00:35<4:05:34,  9.24s/it, gpt_loss=0.211, loss_mean=0.32][A
+[LID Router Debug] Step: 2940
+Batch Size: 14
+Audio Batch Size: 109
+LID Assignments: [4, 0, 6, 6, 0, 4, 0, 6, 5, 2, 1, 0, 6, 5]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6}
+2026-01-26 21:48:39.889 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  65%|██████▍   | 2939/4533 [8:00:44<4:05:34,  9.24s/it, gpt_loss=0.238, loss_mean=0.312][A
+Train step of epoch 0:  65%|██████▍   | 2940/4533 [8:00:44<4:02:46,  9.14s/it, gpt_loss=0.238, loss_mean=0.312][A2026-01-26 21:48:48.757 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  65%|██████▍   | 2940/4533 [8:00:53<4:02:46,  9.14s/it, gpt_loss=0.331, loss_mean=0.314][A
+Train step of epoch 0:  65%|██████▍   | 2941/4533 [8:00:53<4:00:25,  9.06s/it, gpt_loss=0.331, loss_mean=0.314][A2026-01-26 21:48:57.587 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  65%|██████▍   | 2941/4533 [8:01:02<4:00:25,  9.06s/it, gpt_loss=0.261, loss_mean=0.308][A
+Train step of epoch 0:  65%|██████▍   | 2942/4533 [8:01:02<3:58:57,  9.01s/it, gpt_loss=0.261, loss_mean=0.308][A2026-01-26 21:49:06.565 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  65%|██████▍   | 2942/4533 [8:01:11<3:58:57,  9.01s/it, gpt_loss=0.286, loss_mean=0.306][A
+Train step of epoch 0:  65%|██████▍   | 2943/4533 [8:01:11<4:01:46,  9.12s/it, gpt_loss=0.286, loss_mean=0.306][A2026-01-26 21:49:15.776 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  65%|██████▍   | 2943/4533 [8:01:20<4:01:46,  9.12s/it, gpt_loss=0.261, loss_mean=0.302][A
+Train step of epoch 0:  65%|██████▍   | 2944/4533 [8:01:20<3:58:20,  9.00s/it, gpt_loss=0.261, loss_mean=0.302][A2026-01-26 21:49:24.566 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  65%|██████▍   | 2944/4533 [8:01:30<3:58:20,  9.00s/it, gpt_loss=0.306, loss_mean=0.302][A
+Train step of epoch 0:  65%|██████▍   | 2945/4533 [8:01:30<4:03:22,  9.20s/it, gpt_loss=0.306, loss_mean=0.302][A2026-01-26 21:49:34.266 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  65%|██████▍   | 2945/4533 [8:01:41<4:03:22,  9.20s/it, gpt_loss=0.304, loss_mean=0.302][A
+Train step of epoch 0:  65%|██████▍   | 2946/4533 [8:01:41<4:23:44,  9.97s/it, gpt_loss=0.304, loss_mean=0.302][A2026-01-26 21:49:45.974 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  65%|██████▍   | 2946/4533 [8:01:50<4:23:44,  9.97s/it, gpt_loss=0.356, loss_mean=0.308][A
+Train step of epoch 0:  65%|██████▌   | 2947/4533 [8:01:50<4:13:55,  9.61s/it, gpt_loss=0.356, loss_mean=0.308][A2026-01-26 21:49:54.885 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  65%|██████▌   | 2947/4533 [8:02:00<4:13:55,  9.61s/it, gpt_loss=0.327, loss_mean=0.31] [A
+Train step of epoch 0:  65%|██████▌   | 2948/4533 [8:02:00<4:15:15,  9.66s/it, gpt_loss=0.327, loss_mean=0.31][A2026-01-26 21:50:04.477 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  65%|██████▌   | 2948/4533 [8:02:09<4:15:15,  9.66s/it, gpt_loss=0.316, loss_mean=0.31][A
+Train step of epoch 0:  65%|██████▌   | 2949/4533 [8:02:09<4:13:07,  9.59s/it, gpt_loss=0.316, loss_mean=0.31][A
+[LID Router Debug] Step: 2950
+Batch Size: 14
+Audio Batch Size: 137
+LID Assignments: [2, 6, 1, 5, 9, 1, 3, 0, 4, 0, 1, 0, 9, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 21:50:14.068 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  65%|██████▌   | 2949/4533 [8:02:19<4:13:07,  9.59s/it, gpt_loss=0.392, loss_mean=0.318][A
+Train step of epoch 0:  65%|██████▌   | 2950/4533 [8:02:19<4:13:51,  9.62s/it, gpt_loss=0.392, loss_mean=0.318][A2026-01-26 21:50:23.776 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  65%|██████▌   | 2950/4533 [8:02:28<4:13:51,  9.62s/it, gpt_loss=0.348, loss_mean=0.321][A
+Train step of epoch 0:  65%|██████▌   | 2951/4533 [8:02:28<4:07:57,  9.40s/it, gpt_loss=0.348, loss_mean=0.321][A2026-01-26 21:50:32.463 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  65%|██████▌   | 2951/4533 [8:02:40<4:07:57,  9.40s/it, gpt_loss=0.378, loss_mean=0.327][A
+Train step of epoch 0:  65%|██████▌   | 2952/4533 [8:02:40<4:26:09, 10.10s/it, gpt_loss=0.378, loss_mean=0.327][A2026-01-26 21:50:44.399 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  65%|██████▌   | 2952/4533 [8:02:49<4:26:09, 10.10s/it, gpt_loss=0.249, loss_mean=0.319][A
+Train step of epoch 0:  65%|██████▌   | 2953/4533 [8:02:49<4:20:03,  9.88s/it, gpt_loss=0.249, loss_mean=0.319][A2026-01-26 21:50:53.484 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  65%|██████▌   | 2953/4533 [8:03:01<4:20:03,  9.88s/it, gpt_loss=0.365, loss_mean=0.324][A
+Train step of epoch 0:  65%|██████▌   | 2954/4533 [8:03:01<4:33:55, 10.41s/it, gpt_loss=0.365, loss_mean=0.324][A2026-01-26 21:51:04.989 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  65%|██████▌   | 2954/4533 [8:03:09<4:33:55, 10.41s/it, gpt_loss=0.265, loss_mean=0.318][A
+Train step of epoch 0:  65%|██████▌   | 2955/4533 [8:03:09<4:19:06,  9.85s/it, gpt_loss=0.265, loss_mean=0.318][A2026-01-26 21:51:13.966 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  65%|██████▌   | 2955/4533 [8:03:21<4:19:06,  9.85s/it, gpt_loss=0.392, loss_mean=0.325][A
+Train step of epoch 0:  65%|██████▌   | 2956/4533 [8:03:21<4:32:38, 10.37s/it, gpt_loss=0.392, loss_mean=0.325][A2026-01-26 21:51:25.561 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  65%|██████▌   | 2956/4533 [8:03:30<4:32:38, 10.37s/it, gpt_loss=0.353, loss_mean=0.328][A
+Train step of epoch 0:  65%|██████▌   | 2957/4533 [8:03:30<4:22:00,  9.97s/it, gpt_loss=0.353, loss_mean=0.328][A2026-01-26 21:51:34.667 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  65%|██████▌   | 2957/4533 [8:03:40<4:22:00,  9.97s/it, gpt_loss=0.348, loss_mean=0.33] [A
+Train step of epoch 0:  65%|██████▌   | 2958/4533 [8:03:40<4:19:55,  9.90s/it, gpt_loss=0.348, loss_mean=0.33][A2026-01-26 21:51:43.998 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  65%|██████▌   | 2958/4533 [8:03:49<4:19:55,  9.90s/it, gpt_loss=0.336, loss_mean=0.331][A
+Train step of epoch 0:  65%|██████▌   | 2959/4533 [8:03:49<4:16:32,  9.78s/it, gpt_loss=0.336, loss_mean=0.331][A
+[LID Router Debug] Step: 2960
+Batch Size: 14
+Audio Batch Size: 169
+LID Assignments: [0, 5, 9, 1, 4, 3, 4, 4, 2, 6, 2, 3, 9, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 21:51:53.380 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  65%|██████▌   | 2959/4533 [8:04:01<4:16:32,  9.78s/it, gpt_loss=0.335, loss_mean=0.331][A
+Train step of epoch 0:  65%|██████▌   | 2960/4533 [8:04:01<4:29:58, 10.30s/it, gpt_loss=0.335, loss_mean=0.331][A2026-01-26 21:52:05.092 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  65%|██████▌   | 2960/4533 [8:04:12<4:29:58, 10.30s/it, gpt_loss=0.376, loss_mean=0.336][A
+Train step of epoch 0:  65%|██████▌   | 2961/4533 [8:04:12<4:39:53, 10.68s/it, gpt_loss=0.376, loss_mean=0.336][A2026-01-26 21:52:16.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  65%|██████▌   | 2961/4533 [8:04:21<4:39:53, 10.68s/it, gpt_loss=0.386, loss_mean=0.341][A
+Train step of epoch 0:  65%|██████▌   | 2962/4533 [8:04:21<4:24:43, 10.11s/it, gpt_loss=0.386, loss_mean=0.341][A2026-01-26 21:52:25.095 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  65%|██████▌   | 2962/4533 [8:04:30<4:24:43, 10.11s/it, gpt_loss=0.224, loss_mean=0.329][A
+Train step of epoch 0:  65%|██████▌   | 2963/4533 [8:04:30<4:14:23,  9.72s/it, gpt_loss=0.224, loss_mean=0.329][A2026-01-26 21:52:34.474 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  65%|██████▌   | 2963/4533 [8:04:42<4:14:23,  9.72s/it, gpt_loss=0.348, loss_mean=0.331][A
+Train step of epoch 0:  65%|██████▌   | 2964/4533 [8:04:42<4:30:22, 10.34s/it, gpt_loss=0.348, loss_mean=0.331][A2026-01-26 21:52:46.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  65%|██████▌   | 2964/4533 [8:04:51<4:30:22, 10.34s/it, gpt_loss=0.308, loss_mean=0.329][A
+Train step of epoch 0:  65%|██████▌   | 2965/4533 [8:04:51<4:26:02, 10.18s/it, gpt_loss=0.308, loss_mean=0.329][A2026-01-26 21:52:55.853 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  65%|██████▌   | 2965/4533 [8:05:00<4:26:02, 10.18s/it, gpt_loss=0.312, loss_mean=0.327][A
+Train step of epoch 0:  65%|██████▌   | 2966/4533 [8:05:00<4:13:58,  9.72s/it, gpt_loss=0.312, loss_mean=0.327][A2026-01-26 21:53:04.483 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  65%|██████▌   | 2966/4533 [8:05:10<4:13:58,  9.72s/it, gpt_loss=0.329, loss_mean=0.327][A
+Train step of epoch 0:  65%|██████▌   | 2967/4533 [8:05:10<4:11:56,  9.65s/it, gpt_loss=0.329, loss_mean=0.327][A2026-01-26 21:53:14.200 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  65%|██████▌   | 2967/4533 [8:05:21<4:11:56,  9.65s/it, gpt_loss=0.356, loss_mean=0.33] [A
+Train step of epoch 0:  65%|██████▌   | 2968/4533 [8:05:21<4:28:39, 10.30s/it, gpt_loss=0.356, loss_mean=0.33][A2026-01-26 21:53:25.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  65%|██████▌   | 2968/4533 [8:05:31<4:28:39, 10.30s/it, gpt_loss=0.287, loss_mean=0.326][A
+Train step of epoch 0:  65%|██████▌   | 2969/4533 [8:05:31<4:21:08, 10.02s/it, gpt_loss=0.287, loss_mean=0.326][A
+[LID Router Debug] Step: 2970
+Batch Size: 14
+Audio Batch Size: 134
+LID Assignments: [1, 3, 4, 9, 3, 1, 9, 2, 0, 9, 2, 0, 6, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-26 21:53:35.366 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  65%|██████▌   | 2969/4533 [8:05:40<4:21:08, 10.02s/it, gpt_loss=0.29, loss_mean=0.322] [A
+Train step of epoch 0:  66%|██████▌   | 2970/4533 [8:05:40<4:12:40,  9.70s/it, gpt_loss=0.29, loss_mean=0.322][A2026-01-26 21:53:44.288 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  66%|██████▌   | 2970/4533 [8:05:49<4:12:40,  9.70s/it, gpt_loss=0.333, loss_mean=0.323][A
+Train step of epoch 0:  66%|██████▌   | 2971/4533 [8:05:49<4:06:04,  9.45s/it, gpt_loss=0.333, loss_mean=0.323][A2026-01-26 21:53:53.273 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  66%|██████▌   | 2971/4533 [8:05:57<4:06:04,  9.45s/it, gpt_loss=0.337, loss_mean=0.325][A
+Train step of epoch 0:  66%|██████▌   | 2972/4533 [8:05:57<4:00:35,  9.25s/it, gpt_loss=0.337, loss_mean=0.325][A2026-01-26 21:54:01.871 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  66%|██████▌   | 2972/4533 [8:06:06<4:00:35,  9.25s/it, gpt_loss=0.28, loss_mean=0.32]  [A
+Train step of epoch 0:  66%|██████▌   | 2973/4533 [8:06:06<3:57:23,  9.13s/it, gpt_loss=0.28, loss_mean=0.32][A2026-01-26 21:54:10.555 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  66%|██████▌   | 2973/4533 [8:06:18<3:57:23,  9.13s/it, gpt_loss=0.408, loss_mean=0.329][A
+Train step of epoch 0:  66%|██████▌   | 2974/4533 [8:06:18<4:16:05,  9.86s/it, gpt_loss=0.408, loss_mean=0.329][A2026-01-26 21:54:22.193 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  66%|██████▌   | 2974/4533 [8:06:27<4:16:05,  9.86s/it, gpt_loss=0.316, loss_mean=0.328][A
+Train step of epoch 0:  66%|██████▌   | 2975/4533 [8:06:27<4:08:00,  9.55s/it, gpt_loss=0.316, loss_mean=0.328][A2026-01-26 21:54:31.271 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  66%|██████▌   | 2975/4533 [8:06:36<4:08:00,  9.55s/it, gpt_loss=0.335, loss_mean=0.328][A
+Train step of epoch 0:  66%|██████▌   | 2976/4533 [8:06:36<4:10:05,  9.64s/it, gpt_loss=0.335, loss_mean=0.328][A2026-01-26 21:54:40.878 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  66%|██████▌   | 2976/4533 [8:06:45<4:10:05,  9.64s/it, gpt_loss=0.281, loss_mean=0.324][A
+Train step of epoch 0:  66%|██████▌   | 2977/4533 [8:06:45<4:03:16,  9.38s/it, gpt_loss=0.281, loss_mean=0.324][A2026-01-26 21:54:49.662 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  66%|██████▌   | 2977/4533 [8:06:54<4:03:16,  9.38s/it, gpt_loss=0.314, loss_mean=0.323][A
+Train step of epoch 0:  66%|██████▌   | 2978/4533 [8:06:54<3:57:17,  9.16s/it, gpt_loss=0.314, loss_mean=0.323][A2026-01-26 21:54:58.486 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  66%|██████▌   | 2978/4533 [8:07:02<3:57:17,  9.16s/it, gpt_loss=0.298, loss_mean=0.32] [A
+Train step of epoch 0:  66%|██████▌   | 2979/4533 [8:07:02<3:53:19,  9.01s/it, gpt_loss=0.298, loss_mean=0.32][A
+[LID Router Debug] Step: 2980
+Batch Size: 14
+Audio Batch Size: 139
+LID Assignments: [0, 4, 9, 1, 9, 0, 4, 0, 1, 5, 5, 3, 0, 4]
+Active Experts in Batch: {0, 1, 3, 4, 5, 9}
+2026-01-26 21:55:07.060 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  66%|██████▌   | 2979/4533 [8:07:11<3:53:19,  9.01s/it, gpt_loss=0.297, loss_mean=0.318][A
+Train step of epoch 0:  66%|██████▌   | 2980/4533 [8:07:11<3:51:57,  8.96s/it, gpt_loss=0.297, loss_mean=0.318][A2026-01-26 21:55:15.595 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  66%|██████▌   | 2980/4533 [8:07:23<3:51:57,  8.96s/it, gpt_loss=0.387, loss_mean=0.325][A
+Train step of epoch 0:  66%|██████▌   | 2981/4533 [8:07:23<4:11:01,  9.70s/it, gpt_loss=0.387, loss_mean=0.325][A2026-01-26 21:55:27.261 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  66%|██████▌   | 2981/4533 [8:07:32<4:11:01,  9.70s/it, gpt_loss=0.284, loss_mean=0.321][A
+Train step of epoch 0:  66%|██████▌   | 2982/4533 [8:07:32<4:10:29,  9.69s/it, gpt_loss=0.284, loss_mean=0.321][A2026-01-26 21:55:36.960 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  66%|██████▌   | 2982/4533 [8:07:41<4:10:29,  9.69s/it, gpt_loss=0.325, loss_mean=0.321][A
+Train step of epoch 0:  66%|██████▌   | 2983/4533 [8:07:41<4:04:01,  9.45s/it, gpt_loss=0.325, loss_mean=0.321][A2026-01-26 21:55:45.792 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  66%|██████▌   | 2983/4533 [8:07:50<4:04:01,  9.45s/it, gpt_loss=0.354, loss_mean=0.324][A
+Train step of epoch 0:  66%|██████▌   | 2984/4533 [8:07:50<4:00:17,  9.31s/it, gpt_loss=0.354, loss_mean=0.324][A2026-01-26 21:55:54.389 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  66%|██████▌   | 2984/4533 [8:07:59<4:00:17,  9.31s/it, gpt_loss=0.325, loss_mean=0.325][A
+Train step of epoch 0:  66%|██████▌   | 2985/4533 [8:07:59<3:54:41,  9.10s/it, gpt_loss=0.325, loss_mean=0.325][A2026-01-26 21:56:03.495 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  66%|██████▌   | 2985/4533 [8:08:08<3:54:41,  9.10s/it, gpt_loss=0.307, loss_mean=0.323][A
+Train step of epoch 0:  66%|██████▌   | 2986/4533 [8:08:08<3:57:05,  9.20s/it, gpt_loss=0.307, loss_mean=0.323][A2026-01-26 21:56:12.885 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  66%|██████▌   | 2986/4533 [8:08:18<3:57:05,  9.20s/it, gpt_loss=0.304, loss_mean=0.321][A
+Train step of epoch 0:  66%|██████▌   | 2987/4533 [8:08:18<4:00:23,  9.33s/it, gpt_loss=0.304, loss_mean=0.321][A2026-01-26 21:56:22.666 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  66%|██████▌   | 2987/4533 [8:08:28<4:00:23,  9.33s/it, gpt_loss=0.29, loss_mean=0.318] [A
+Train step of epoch 0:  66%|██████▌   | 2988/4533 [8:08:28<4:04:52,  9.51s/it, gpt_loss=0.29, loss_mean=0.318][A2026-01-26 21:56:32.286 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  66%|██████▌   | 2988/4533 [8:08:38<4:04:52,  9.51s/it, gpt_loss=0.301, loss_mean=0.316][A
+Train step of epoch 0:  66%|██████▌   | 2989/4533 [8:08:38<4:05:28,  9.54s/it, gpt_loss=0.301, loss_mean=0.316][A
+[LID Router Debug] Step: 2990
+Batch Size: 14
+Audio Batch Size: 149
+LID Assignments: [2, 9, 0, 5, 0, 9, 4, 1, 1, 9, 4, 3, 2, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 21:56:42.164 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  66%|██████▌   | 2989/4533 [8:08:49<4:05:28,  9.54s/it, gpt_loss=0.365, loss_mean=0.321][A
+Train step of epoch 0:  66%|██████▌   | 2990/4533 [8:08:49<4:22:48, 10.22s/it, gpt_loss=0.365, loss_mean=0.321][A2026-01-26 21:56:53.767 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  66%|██████▌   | 2990/4533 [8:08:59<4:22:48, 10.22s/it, gpt_loss=0.426, loss_mean=0.331][A
+Train step of epoch 0:  66%|██████▌   | 2991/4533 [8:08:59<4:18:24, 10.05s/it, gpt_loss=0.426, loss_mean=0.331][A2026-01-26 21:57:03.500 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  66%|██████▌   | 2991/4533 [8:09:08<4:18:24, 10.05s/it, gpt_loss=0.299, loss_mean=0.328][A
+Train step of epoch 0:  66%|██████▌   | 2992/4533 [8:09:08<4:09:05,  9.70s/it, gpt_loss=0.299, loss_mean=0.328][A2026-01-26 21:57:12.453 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  66%|██████▌   | 2992/4533 [8:09:17<4:09:05,  9.70s/it, gpt_loss=0.219, loss_mean=0.317][A
+Train step of epoch 0:  66%|██████▌   | 2993/4533 [8:09:17<4:04:25,  9.52s/it, gpt_loss=0.219, loss_mean=0.317][A2026-01-26 21:57:21.601 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  66%|██████▌   | 2993/4533 [8:09:27<4:04:25,  9.52s/it, gpt_loss=0.367, loss_mean=0.322][A
+Train step of epoch 0:  66%|██████▌   | 2994/4533 [8:09:27<4:07:41,  9.66s/it, gpt_loss=0.367, loss_mean=0.322][A2026-01-26 21:57:31.599 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  66%|██████▌   | 2994/4533 [8:09:39<4:07:41,  9.66s/it, gpt_loss=0.334, loss_mean=0.323][A
+Train step of epoch 0:  66%|██████▌   | 2995/4533 [8:09:39<4:24:07, 10.30s/it, gpt_loss=0.334, loss_mean=0.323][A2026-01-26 21:57:43.307 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  66%|██████▌   | 2995/4533 [8:09:50<4:24:07, 10.30s/it, gpt_loss=0.43, loss_mean=0.334] [A
+Train step of epoch 0:  66%|██████▌   | 2996/4533 [8:09:50<4:34:54, 10.73s/it, gpt_loss=0.43, loss_mean=0.334][A2026-01-26 21:57:54.888 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  66%|██████▌   | 2996/4533 [8:09:59<4:34:54, 10.73s/it, gpt_loss=0.25, loss_mean=0.326][A
+Train step of epoch 0:  66%|██████▌   | 2997/4533 [8:09:59<4:19:25, 10.13s/it, gpt_loss=0.25, loss_mean=0.326][A2026-01-26 21:58:03.788 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  66%|██████▌   | 2997/4533 [8:10:08<4:19:25, 10.13s/it, gpt_loss=0.307, loss_mean=0.324][A
+Train step of epoch 0:  66%|██████▌   | 2998/4533 [8:10:08<4:09:48,  9.76s/it, gpt_loss=0.307, loss_mean=0.324][A2026-01-26 21:58:12.680 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  66%|██████▌   | 2998/4533 [8:10:20<4:09:48,  9.76s/it, gpt_loss=0.385, loss_mean=0.33] [A
+Train step of epoch 0:  66%|██████▌   | 2999/4533 [8:10:20<4:24:27, 10.34s/it, gpt_loss=0.385, loss_mean=0.33][A
+[LID Router Debug] Step: 3000
+Batch Size: 14
+Audio Batch Size: 126
+LID Assignments: [5, 4, 2, 4, 5, 9, 2, 4, 5, 0, 2, 3, 9, 0]
+Active Experts in Batch: {0, 2, 3, 4, 5, 9}
+2026-01-26 21:58:24.090 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+[2026-01-26 21:58:35,236] [INFO] [logging.py:96:log_dist] [Rank 0] step=3000, skipped=0, lr=[1.784867074461372e-05, 1.784867074461372e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 21:58:35,237] [INFO] [timer.py:260:stop] epoch=0/micro_step=3000/global_step=3000, RunningAvgSamplesPerSec=5.727554811669258, CurrSamplesPerSec=4.87157244538804, MemAllocated=14.57GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  66%|██████▌   | 2999/4533 [8:10:32<4:24:27, 10.34s/it, gpt_loss=0.498, loss_mean=0.347][A[2026-01-26 21:58:35,481] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step3000 is about to be saved!
+[2026-01-26 21:58:37,079] [INFO] [logging.py:96:log_dist] [Rank 0] Saving model checkpoint: /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step3000/mp_rank_00_model_states.pt
+[2026-01-26 21:58:37,080] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step3000/mp_rank_00_model_states.pt...
+[2026-01-26 21:58:43,597] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step3000/mp_rank_00_model_states.pt.
+[2026-01-26 21:58:43,607] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step3000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt...
+[2026-01-26 21:58:43,607] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step3000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt...
+[2026-01-26 21:58:43,607] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step3000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt...
+[2026-01-26 21:58:43,607] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step3000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt...
+[2026-01-26 21:58:44,293] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step3000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt.
+[2026-01-26 21:58:44,293] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step3000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
+[2026-01-26 21:58:44,293] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step3000 is ready now!
+[2026-01-26 21:58:44,354] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step3000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt.
+[2026-01-26 21:58:44,354] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step3000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
+[2026-01-26 21:58:44,354] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step3000 is ready now!
+[2026-01-26 21:58:44,362] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step3000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt.
+[2026-01-26 21:58:44,362] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step3000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
+[2026-01-26 21:58:44,362] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step3000 is ready now!
+[2026-01-26 21:58:44,394] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step3000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt.
+[2026-01-26 21:58:44,397] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step3000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
+[2026-01-26 21:58:44,397] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step3000 is ready now!
+
+Train step of epoch 0:  66%|██████▌   | 3000/4533 [8:10:40<5:43:27, 13.44s/it, gpt_loss=0.498, loss_mean=0.347][A2026-01-26 21:58:45.001 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  66%|██████▌   | 3000/4533 [8:10:50<5:43:27, 13.44s/it, gpt_loss=0.289, loss_mean=0.341][A
+Train step of epoch 0:  66%|██████▌   | 3001/4533 [8:10:50<5:10:49, 12.17s/it, gpt_loss=0.289, loss_mean=0.341][A2026-01-26 21:58:54.277 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  66%|██████▌   | 3001/4533 [8:10:59<5:10:49, 12.17s/it, gpt_loss=0.237, loss_mean=0.33] [A
+Train step of epoch 0:  66%|██████▌   | 3002/4533 [8:10:59<4:45:40, 11.20s/it, gpt_loss=0.237, loss_mean=0.33][A2026-01-26 21:59:03.296 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  66%|██████▌   | 3002/4533 [8:11:11<4:45:40, 11.20s/it, gpt_loss=0.362, loss_mean=0.334][A
+Train step of epoch 0:  66%|██████▌   | 3003/4533 [8:11:11<4:51:35, 11.44s/it, gpt_loss=0.362, loss_mean=0.334][A2026-01-26 21:59:15.276 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  66%|██████▌   | 3003/4533 [8:11:23<4:51:35, 11.44s/it, gpt_loss=0.362, loss_mean=0.336][A
+Train step of epoch 0:  66%|██████▋   | 3004/4533 [8:11:23<4:56:04, 11.62s/it, gpt_loss=0.362, loss_mean=0.336][A2026-01-26 21:59:27.306 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  66%|██████▋   | 3004/4533 [8:11:33<4:56:04, 11.62s/it, gpt_loss=0.257, loss_mean=0.328][A
+Train step of epoch 0:  66%|██████▋   | 3005/4533 [8:11:33<4:42:30, 11.09s/it, gpt_loss=0.257, loss_mean=0.328][A2026-01-26 21:59:37.265 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  66%|██████▋   | 3005/4533 [8:11:41<4:42:30, 11.09s/it, gpt_loss=0.303, loss_mean=0.326][A
+Train step of epoch 0:  66%|██████▋   | 3006/4533 [8:11:41<4:26:07, 10.46s/it, gpt_loss=0.303, loss_mean=0.326][A2026-01-26 21:59:45.686 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  66%|██████▋   | 3006/4533 [8:11:50<4:26:07, 10.46s/it, gpt_loss=0.335, loss_mean=0.327][A
+Train step of epoch 0:  66%|██████▋   | 3007/4533 [8:11:50<4:11:24,  9.88s/it, gpt_loss=0.335, loss_mean=0.327][A2026-01-26 21:59:54.282 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  66%|██████▋   | 3007/4533 [8:12:02<4:11:24,  9.88s/it, gpt_loss=0.441, loss_mean=0.338][A
+Train step of epoch 0:  66%|██████▋   | 3008/4533 [8:12:02<4:25:55, 10.46s/it, gpt_loss=0.441, loss_mean=0.338][A2026-01-26 22:00:06.472 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  66%|██████▋   | 3008/4533 [8:12:13<4:25:55, 10.46s/it, gpt_loss=0.306, loss_mean=0.335][A
+Train step of epoch 0:  66%|██████▋   | 3009/4533 [8:12:13<4:34:48, 10.82s/it, gpt_loss=0.306, loss_mean=0.335][A
+[LID Router Debug] Step: 3010
+Batch Size: 14
+Audio Batch Size: 134
+LID Assignments: [1, 5, 0, 9, 2, 5, 4, 2, 1, 3, 5, 9, 1, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 22:00:18.175 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  66%|██████▋   | 3009/4533 [8:12:25<4:34:48, 10.82s/it, gpt_loss=0.388, loss_mean=0.34] [A
+Train step of epoch 0:  66%|██████▋   | 3010/4533 [8:12:25<4:41:03, 11.07s/it, gpt_loss=0.388, loss_mean=0.34][A2026-01-26 22:00:29.864 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  66%|██████▋   | 3010/4533 [8:12:34<4:41:03, 11.07s/it, gpt_loss=0.254, loss_mean=0.332][A
+Train step of epoch 0:  66%|██████▋   | 3011/4533 [8:12:34<4:25:07, 10.45s/it, gpt_loss=0.254, loss_mean=0.332][A2026-01-26 22:00:38.605 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  66%|██████▋   | 3011/4533 [8:12:43<4:25:07, 10.45s/it, gpt_loss=0.258, loss_mean=0.324][A
+Train step of epoch 0:  66%|██████▋   | 3012/4533 [8:12:43<4:10:47,  9.89s/it, gpt_loss=0.258, loss_mean=0.324][A2026-01-26 22:00:47.371 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  66%|██████▋   | 3012/4533 [8:12:55<4:10:47,  9.89s/it, gpt_loss=0.313, loss_mean=0.323][A
+Train step of epoch 0:  66%|██████▋   | 3013/4533 [8:12:55<4:25:45, 10.49s/it, gpt_loss=0.313, loss_mean=0.323][A2026-01-26 22:00:59.172 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  66%|██████▋   | 3013/4533 [8:13:04<4:25:45, 10.49s/it, gpt_loss=0.295, loss_mean=0.32] [A
+Train step of epoch 0:  66%|██████▋   | 3014/4533 [8:13:04<4:14:33, 10.06s/it, gpt_loss=0.295, loss_mean=0.32][A2026-01-26 22:01:08.359 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  66%|██████▋   | 3014/4533 [8:13:13<4:14:33, 10.06s/it, gpt_loss=0.244, loss_mean=0.313][A
+Train step of epoch 0:  67%|██████▋   | 3015/4533 [8:13:13<4:10:12,  9.89s/it, gpt_loss=0.244, loss_mean=0.313][A2026-01-26 22:01:17.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  67%|██████▋   | 3015/4533 [8:13:22<4:10:12,  9.89s/it, gpt_loss=0.339, loss_mean=0.315][A
+Train step of epoch 0:  67%|██████▋   | 3016/4533 [8:13:22<4:04:44,  9.68s/it, gpt_loss=0.339, loss_mean=0.315][A2026-01-26 22:01:26.864 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  67%|██████▋   | 3016/4533 [8:13:32<4:04:44,  9.68s/it, gpt_loss=0.345, loss_mean=0.318][A
+Train step of epoch 0:  67%|██████▋   | 3017/4533 [8:13:32<4:04:45,  9.69s/it, gpt_loss=0.345, loss_mean=0.318][A2026-01-26 22:01:36.702 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  67%|██████▋   | 3017/4533 [8:13:41<4:04:45,  9.69s/it, gpt_loss=0.307, loss_mean=0.317][A
+Train step of epoch 0:  67%|██████▋   | 3018/4533 [8:13:41<3:57:51,  9.42s/it, gpt_loss=0.307, loss_mean=0.317][A2026-01-26 22:01:45.159 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  67%|██████▋   | 3018/4533 [8:13:49<3:57:51,  9.42s/it, gpt_loss=0.298, loss_mean=0.315][A
+Train step of epoch 0:  67%|██████▋   | 3019/4533 [8:13:49<3:51:18,  9.17s/it, gpt_loss=0.298, loss_mean=0.315][A
+[LID Router Debug] Step: 3020
+Batch Size: 14
+Audio Batch Size: 166
+LID Assignments: [2, 3, 9, 1, 4, 9, 5, 3, 0, 5, 9, 4, 4, 6]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 22:01:54.085 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  67%|██████▋   | 3019/4533 [8:14:01<3:51:18,  9.17s/it, gpt_loss=0.379, loss_mean=0.322][A
+Train step of epoch 0:  67%|██████▋   | 3020/4533 [8:14:01<4:08:30,  9.85s/it, gpt_loss=0.379, loss_mean=0.322][A2026-01-26 22:02:05.482 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  67%|██████▋   | 3020/4533 [8:14:13<4:08:30,  9.85s/it, gpt_loss=0.363, loss_mean=0.326][A
+Train step of epoch 0:  67%|██████▋   | 3021/4533 [8:14:13<4:24:12, 10.48s/it, gpt_loss=0.363, loss_mean=0.326][A2026-01-26 22:02:17.463 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  67%|██████▋   | 3021/4533 [8:14:25<4:24:12, 10.48s/it, gpt_loss=0.358, loss_mean=0.329][A
+Train step of epoch 0:  67%|██████▋   | 3022/4533 [8:14:25<4:34:58, 10.92s/it, gpt_loss=0.358, loss_mean=0.329][A2026-01-26 22:02:29.186 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  67%|██████▋   | 3022/4533 [8:14:34<4:34:58, 10.92s/it, gpt_loss=0.439, loss_mean=0.34] [A
+Train step of epoch 0:  67%|██████▋   | 3023/4533 [8:14:34<4:18:04, 10.25s/it, gpt_loss=0.439, loss_mean=0.34][A2026-01-26 22:02:38.167 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  67%|██████▋   | 3023/4533 [8:14:43<4:18:04, 10.25s/it, gpt_loss=0.226, loss_mean=0.329][A
+Train step of epoch 0:  67%|██████▋   | 3024/4533 [8:14:43<4:08:48,  9.89s/it, gpt_loss=0.226, loss_mean=0.329][A2026-01-26 22:02:47.095 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  67%|██████▋   | 3024/4533 [8:14:52<4:08:48,  9.89s/it, gpt_loss=0.232, loss_mean=0.319][A
+Train step of epoch 0:  67%|██████▋   | 3025/4533 [8:14:52<4:06:46,  9.82s/it, gpt_loss=0.232, loss_mean=0.319][A2026-01-26 22:02:56.859 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  67%|██████▋   | 3025/4533 [8:15:04<4:06:46,  9.82s/it, gpt_loss=0.304, loss_mean=0.317][A
+Train step of epoch 0:  67%|██████▋   | 3026/4533 [8:15:04<4:21:33, 10.41s/it, gpt_loss=0.304, loss_mean=0.317][A2026-01-26 22:03:08.576 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  67%|██████▋   | 3026/4533 [8:15:13<4:21:33, 10.41s/it, gpt_loss=0.3, loss_mean=0.316]  [A
+Train step of epoch 0:  67%|██████▋   | 3027/4533 [8:15:13<4:07:41,  9.87s/it, gpt_loss=0.3, loss_mean=0.316][A2026-01-26 22:03:17.194 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  67%|██████▋   | 3027/4533 [8:15:22<4:07:41,  9.87s/it, gpt_loss=0.384, loss_mean=0.323][A
+Train step of epoch 0:  67%|██████▋   | 3028/4533 [8:15:22<4:06:35,  9.83s/it, gpt_loss=0.384, loss_mean=0.323][A2026-01-26 22:03:26.894 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  67%|██████▋   | 3028/4533 [8:15:31<4:06:35,  9.83s/it, gpt_loss=0.267, loss_mean=0.317][A
+Train step of epoch 0:  67%|██████▋   | 3029/4533 [8:15:31<3:58:16,  9.51s/it, gpt_loss=0.267, loss_mean=0.317][A
+[LID Router Debug] Step: 3030
+Batch Size: 14
+Audio Batch Size: 110
+LID Assignments: [1, 9, 5, 1, 9, 5, 1, 1, 0, 4, 1, 0, 5, 6]
+Active Experts in Batch: {0, 1, 4, 5, 6, 9}
+2026-01-26 22:03:35.590 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  67%|██████▋   | 3029/4533 [8:15:43<3:58:16,  9.51s/it, gpt_loss=0.412, loss_mean=0.326][A
+Train step of epoch 0:  67%|██████▋   | 3030/4533 [8:15:43<4:15:18, 10.19s/it, gpt_loss=0.412, loss_mean=0.326][A2026-01-26 22:03:47.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  67%|██████▋   | 3030/4533 [8:15:52<4:15:18, 10.19s/it, gpt_loss=0.25, loss_mean=0.319] [A
+Train step of epoch 0:  67%|██████▋   | 3031/4533 [8:15:52<4:10:51, 10.02s/it, gpt_loss=0.25, loss_mean=0.319][A2026-01-26 22:03:57.094 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  67%|██████▋   | 3031/4533 [8:16:02<4:10:51, 10.02s/it, gpt_loss=0.291, loss_mean=0.316][A
+Train step of epoch 0:  67%|██████▋   | 3032/4533 [8:16:02<4:08:02,  9.92s/it, gpt_loss=0.291, loss_mean=0.316][A2026-01-26 22:04:06.482 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  67%|██████▋   | 3032/4533 [8:16:14<4:08:02,  9.92s/it, gpt_loss=0.365, loss_mean=0.321][A
+Train step of epoch 0:  67%|██████▋   | 3033/4533 [8:16:14<4:21:33, 10.46s/it, gpt_loss=0.365, loss_mean=0.321][A2026-01-26 22:04:18.359 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  67%|██████▋   | 3033/4533 [8:16:23<4:21:33, 10.46s/it, gpt_loss=0.268, loss_mean=0.316][A
+Train step of epoch 0:  67%|██████▋   | 3034/4533 [8:16:23<4:09:48, 10.00s/it, gpt_loss=0.268, loss_mean=0.316][A2026-01-26 22:04:27.493 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  67%|██████▋   | 3034/4533 [8:16:35<4:09:48, 10.00s/it, gpt_loss=0.343, loss_mean=0.318][A
+Train step of epoch 0:  67%|██████▋   | 3035/4533 [8:16:35<4:24:52, 10.61s/it, gpt_loss=0.343, loss_mean=0.318][A2026-01-26 22:04:39.471 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  67%|██████▋   | 3035/4533 [8:16:44<4:24:52, 10.61s/it, gpt_loss=0.286, loss_mean=0.315][A
+Train step of epoch 0:  67%|██████▋   | 3036/4533 [8:16:44<4:17:19, 10.31s/it, gpt_loss=0.286, loss_mean=0.315][A2026-01-26 22:04:48.696 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  67%|██████▋   | 3036/4533 [8:16:54<4:17:19, 10.31s/it, gpt_loss=0.443, loss_mean=0.328][A
+Train step of epoch 0:  67%|██████▋   | 3037/4533 [8:16:54<4:10:29, 10.05s/it, gpt_loss=0.443, loss_mean=0.328][A2026-01-26 22:04:58.259 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  67%|██████▋   | 3037/4533 [8:17:02<4:10:29, 10.05s/it, gpt_loss=0.336, loss_mean=0.329][A
+Train step of epoch 0:  67%|██████▋   | 3038/4533 [8:17:02<3:58:44,  9.58s/it, gpt_loss=0.336, loss_mean=0.329][A2026-01-26 22:05:07.087 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  67%|██████▋   | 3038/4533 [8:17:11<3:58:44,  9.58s/it, gpt_loss=0.291, loss_mean=0.325][A
+Train step of epoch 0:  67%|██████▋   | 3039/4533 [8:17:11<3:52:53,  9.35s/it, gpt_loss=0.291, loss_mean=0.325][A
+[LID Router Debug] Step: 3040
+Batch Size: 14
+Audio Batch Size: 118
+LID Assignments: [4, 0, 4, 2, 0, 1, 5, 3, 1, 0, 5, 6, 2, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6}
+2026-01-26 22:05:15.882 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  67%|██████▋   | 3039/4533 [8:17:20<3:52:53,  9.35s/it, gpt_loss=0.269, loss_mean=0.319][A
+Train step of epoch 0:  67%|██████▋   | 3040/4533 [8:17:20<3:48:22,  9.18s/it, gpt_loss=0.269, loss_mean=0.319][A2026-01-26 22:05:24.677 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  67%|██████▋   | 3040/4533 [8:17:29<3:48:22,  9.18s/it, gpt_loss=0.278, loss_mean=0.315][A
+Train step of epoch 0:  67%|██████▋   | 3041/4533 [8:17:29<3:45:32,  9.07s/it, gpt_loss=0.278, loss_mean=0.315][A2026-01-26 22:05:32.999 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  67%|██████▋   | 3041/4533 [8:17:37<3:45:32,  9.07s/it, gpt_loss=0.23, loss_mean=0.307] [A
+Train step of epoch 0:  67%|██████▋   | 3042/4533 [8:17:37<3:41:05,  8.90s/it, gpt_loss=0.23, loss_mean=0.307][A2026-01-26 22:05:41.888 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  67%|██████▋   | 3042/4533 [8:17:49<3:41:05,  8.90s/it, gpt_loss=0.375, loss_mean=0.314][A
+Train step of epoch 0:  67%|██████▋   | 3043/4533 [8:17:49<4:02:04,  9.75s/it, gpt_loss=0.375, loss_mean=0.314][A2026-01-26 22:05:53.767 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  67%|██████▋   | 3043/4533 [8:17:59<4:02:04,  9.75s/it, gpt_loss=0.322, loss_mean=0.314][A
+Train step of epoch 0:  67%|██████▋   | 3044/4533 [8:17:59<4:02:42,  9.78s/it, gpt_loss=0.322, loss_mean=0.314][A2026-01-26 22:06:03.561 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  67%|██████▋   | 3044/4533 [8:18:08<4:02:42,  9.78s/it, gpt_loss=0.26, loss_mean=0.309] [A
+Train step of epoch 0:  67%|██████▋   | 3045/4533 [8:18:08<3:56:20,  9.53s/it, gpt_loss=0.26, loss_mean=0.309][A2026-01-26 22:06:12.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  67%|██████▋   | 3045/4533 [8:18:20<3:56:20,  9.53s/it, gpt_loss=0.366, loss_mean=0.315][A
+Train step of epoch 0:  67%|██████▋   | 3046/4533 [8:18:20<4:12:24, 10.18s/it, gpt_loss=0.366, loss_mean=0.315][A2026-01-26 22:06:24.095 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  67%|██████▋   | 3046/4533 [8:18:28<4:12:24, 10.18s/it, gpt_loss=0.272, loss_mean=0.311][A
+Train step of epoch 0:  67%|██████▋   | 3047/4533 [8:18:28<4:02:54,  9.81s/it, gpt_loss=0.272, loss_mean=0.311][A2026-01-26 22:06:32.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  67%|██████▋   | 3047/4533 [8:18:40<4:02:54,  9.81s/it, gpt_loss=0.395, loss_mean=0.319][A
+Train step of epoch 0:  67%|██████▋   | 3048/4533 [8:18:40<4:13:45, 10.25s/it, gpt_loss=0.395, loss_mean=0.319][A2026-01-26 22:06:44.172 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  67%|██████▋   | 3048/4533 [8:18:48<4:13:45, 10.25s/it, gpt_loss=0.328, loss_mean=0.32] [A
+Train step of epoch 0:  67%|██████▋   | 3049/4533 [8:18:49<4:02:17,  9.80s/it, gpt_loss=0.328, loss_mean=0.32][A
+[LID Router Debug] Step: 3050
+Batch Size: 14
+Audio Batch Size: 142
+LID Assignments: [3, 0, 4, 1, 1, 2, 2, 4, 1, 9, 4, 2, 5, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 22:06:53.174 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  67%|██████▋   | 3049/4533 [8:18:58<4:02:17,  9.80s/it, gpt_loss=0.233, loss_mean=0.311][A
+Train step of epoch 0:  67%|██████▋   | 3050/4533 [8:18:58<3:56:18,  9.56s/it, gpt_loss=0.233, loss_mean=0.311][A2026-01-26 22:07:02.086 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  67%|██████▋   | 3050/4533 [8:19:06<3:56:18,  9.56s/it, gpt_loss=0.331, loss_mean=0.313][A
+Train step of epoch 0:  67%|██████▋   | 3051/4533 [8:19:06<3:51:10,  9.36s/it, gpt_loss=0.331, loss_mean=0.313][A2026-01-26 22:07:10.986 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  67%|██████▋   | 3051/4533 [8:19:16<3:51:10,  9.36s/it, gpt_loss=0.33, loss_mean=0.315] [A
+Train step of epoch 0:  67%|██████▋   | 3052/4533 [8:19:16<3:53:35,  9.46s/it, gpt_loss=0.33, loss_mean=0.315][A2026-01-26 22:07:20.580 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  67%|██████▋   | 3052/4533 [8:19:25<3:53:35,  9.46s/it, gpt_loss=0.219, loss_mean=0.305][A
+Train step of epoch 0:  67%|██████▋   | 3053/4533 [8:19:25<3:50:56,  9.36s/it, gpt_loss=0.219, loss_mean=0.305][A2026-01-26 22:07:29.780 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  67%|██████▋   | 3053/4533 [8:19:35<3:50:56,  9.36s/it, gpt_loss=0.266, loss_mean=0.301][A
+Train step of epoch 0:  67%|██████▋   | 3054/4533 [8:19:35<3:51:32,  9.39s/it, gpt_loss=0.266, loss_mean=0.301][A2026-01-26 22:07:39.195 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  67%|██████▋   | 3054/4533 [8:19:44<3:51:32,  9.39s/it, gpt_loss=0.406, loss_mean=0.312][A
+Train step of epoch 0:  67%|██████▋   | 3055/4533 [8:19:44<3:53:17,  9.47s/it, gpt_loss=0.406, loss_mean=0.312][A2026-01-26 22:07:48.969 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  67%|██████▋   | 3055/4533 [8:19:53<3:53:17,  9.47s/it, gpt_loss=0.232, loss_mean=0.304][A
+Train step of epoch 0:  67%|██████▋   | 3056/4533 [8:19:53<3:50:27,  9.36s/it, gpt_loss=0.232, loss_mean=0.304][A2026-01-26 22:07:57.995 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  67%|██████▋   | 3056/4533 [8:20:02<3:50:27,  9.36s/it, gpt_loss=0.265, loss_mean=0.3]  [A
+Train step of epoch 0:  67%|██████▋   | 3057/4533 [8:20:02<3:46:05,  9.19s/it, gpt_loss=0.265, loss_mean=0.3][A2026-01-26 22:08:06.770 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  67%|██████▋   | 3057/4533 [8:20:12<3:46:05,  9.19s/it, gpt_loss=0.319, loss_mean=0.302][A
+Train step of epoch 0:  67%|██████▋   | 3058/4533 [8:20:12<3:49:35,  9.34s/it, gpt_loss=0.319, loss_mean=0.302][A2026-01-26 22:08:16.086 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  67%|██████▋   | 3058/4533 [8:20:21<3:49:35,  9.34s/it, gpt_loss=0.382, loss_mean=0.31] [A
+Train step of epoch 0:  67%|██████▋   | 3059/4533 [8:20:21<3:49:03,  9.32s/it, gpt_loss=0.382, loss_mean=0.31][A
+[LID Router Debug] Step: 3060
+Batch Size: 14
+Audio Batch Size: 148
+LID Assignments: [3, 1, 5, 9, 9, 0, 2, 1, 2, 4, 6, 4, 3, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 22:08:25.874 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  67%|██████▋   | 3059/4533 [8:20:31<3:49:03,  9.32s/it, gpt_loss=0.304, loss_mean=0.309][A
+Train step of epoch 0:  68%|██████▊   | 3060/4533 [8:20:31<3:52:12,  9.46s/it, gpt_loss=0.304, loss_mean=0.309][A2026-01-26 22:08:35.286 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  68%|██████▊   | 3060/4533 [8:20:40<3:52:12,  9.46s/it, gpt_loss=0.323, loss_mean=0.311][A
+Train step of epoch 0:  68%|██████▊   | 3061/4533 [8:20:40<3:45:18,  9.18s/it, gpt_loss=0.323, loss_mean=0.311][A2026-01-26 22:08:44.067 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  68%|██████▊   | 3061/4533 [8:20:48<3:45:18,  9.18s/it, gpt_loss=0.359, loss_mean=0.315][A
+Train step of epoch 0:  68%|██████▊   | 3062/4533 [8:20:48<3:42:34,  9.08s/it, gpt_loss=0.359, loss_mean=0.315][A2026-01-26 22:08:52.875 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  68%|██████▊   | 3062/4533 [8:20:57<3:42:34,  9.08s/it, gpt_loss=0.257, loss_mean=0.31] [A
+Train step of epoch 0:  68%|██████▊   | 3063/4533 [8:20:57<3:41:53,  9.06s/it, gpt_loss=0.257, loss_mean=0.31][A2026-01-26 22:09:01.863 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  68%|██████▊   | 3063/4533 [8:21:09<3:41:53,  9.06s/it, gpt_loss=0.319, loss_mean=0.311][A
+Train step of epoch 0:  68%|██████▊   | 3064/4533 [8:21:09<4:00:12,  9.81s/it, gpt_loss=0.319, loss_mean=0.311][A2026-01-26 22:09:13.452 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  68%|██████▊   | 3064/4533 [8:21:18<4:00:12,  9.81s/it, gpt_loss=0.335, loss_mean=0.313][A
+Train step of epoch 0:  68%|██████▊   | 3065/4533 [8:21:18<3:52:35,  9.51s/it, gpt_loss=0.335, loss_mean=0.313][A2026-01-26 22:09:22.101 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  68%|██████▊   | 3065/4533 [8:21:30<3:52:35,  9.51s/it, gpt_loss=0.403, loss_mean=0.322][A
+Train step of epoch 0:  68%|██████▊   | 3066/4533 [8:21:30<4:09:00, 10.18s/it, gpt_loss=0.403, loss_mean=0.322][A2026-01-26 22:09:34.078 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  68%|██████▊   | 3066/4533 [8:21:39<4:09:00, 10.18s/it, gpt_loss=0.332, loss_mean=0.323][A
+Train step of epoch 0:  68%|██████▊   | 3067/4533 [8:21:39<4:02:03,  9.91s/it, gpt_loss=0.332, loss_mean=0.323][A2026-01-26 22:09:43.380 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  68%|██████▊   | 3067/4533 [8:21:51<4:02:03,  9.91s/it, gpt_loss=0.377, loss_mean=0.328][A
+Train step of epoch 0:  68%|██████▊   | 3068/4533 [8:21:51<4:16:42, 10.51s/it, gpt_loss=0.377, loss_mean=0.328][A2026-01-26 22:09:55.364 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  68%|██████▊   | 3068/4533 [8:22:00<4:16:42, 10.51s/it, gpt_loss=0.233, loss_mean=0.319][A
+Train step of epoch 0:  68%|██████▊   | 3069/4533 [8:22:00<4:05:31, 10.06s/it, gpt_loss=0.233, loss_mean=0.319][A
+[LID Router Debug] Step: 3070
+Batch Size: 14
+Audio Batch Size: 179
+LID Assignments: [6, 3, 9, 3, 9, 6, 2, 0, 3, 6, 9, 0, 5, 4]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-26 22:10:04.375 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  68%|██████▊   | 3069/4533 [8:22:08<4:05:31, 10.06s/it, gpt_loss=0.28, loss_mean=0.315] [A
+Train step of epoch 0:  68%|██████▊   | 3070/4533 [8:22:08<3:55:33,  9.66s/it, gpt_loss=0.28, loss_mean=0.315][A2026-01-26 22:10:13.002 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  68%|██████▊   | 3070/4533 [8:22:17<3:55:33,  9.66s/it, gpt_loss=0.293, loss_mean=0.313][A
+Train step of epoch 0:  68%|██████▊   | 3071/4533 [8:22:17<3:50:10,  9.45s/it, gpt_loss=0.293, loss_mean=0.313][A2026-01-26 22:10:21.968 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  68%|██████▊   | 3071/4533 [8:22:29<3:50:10,  9.45s/it, gpt_loss=0.379, loss_mean=0.319][A
+Train step of epoch 0:  68%|██████▊   | 3072/4533 [8:22:29<4:07:01, 10.14s/it, gpt_loss=0.379, loss_mean=0.319][A2026-01-26 22:10:33.787 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  68%|██████▊   | 3072/4533 [8:22:39<4:07:01, 10.14s/it, gpt_loss=0.313, loss_mean=0.319][A
+Train step of epoch 0:  68%|██████▊   | 3073/4533 [8:22:39<4:03:21, 10.00s/it, gpt_loss=0.313, loss_mean=0.319][A2026-01-26 22:10:43.453 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  68%|██████▊   | 3073/4533 [8:22:51<4:03:21, 10.00s/it, gpt_loss=0.401, loss_mean=0.327][A
+Train step of epoch 0:  68%|██████▊   | 3074/4533 [8:22:51<4:17:05, 10.57s/it, gpt_loss=0.401, loss_mean=0.327][A2026-01-26 22:10:55.387 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  68%|██████▊   | 3074/4533 [8:23:03<4:17:05, 10.57s/it, gpt_loss=0.391, loss_mean=0.333][A
+Train step of epoch 0:  68%|██████▊   | 3075/4533 [8:23:03<4:25:50, 10.94s/it, gpt_loss=0.391, loss_mean=0.333][A2026-01-26 22:11:07.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  68%|██████▊   | 3075/4533 [8:23:12<4:25:50, 10.94s/it, gpt_loss=0.292, loss_mean=0.329][A
+Train step of epoch 0:  68%|██████▊   | 3076/4533 [8:23:12<4:16:01, 10.54s/it, gpt_loss=0.292, loss_mean=0.329][A2026-01-26 22:11:16.775 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  68%|██████▊   | 3076/4533 [8:23:22<4:16:01, 10.54s/it, gpt_loss=0.265, loss_mean=0.323][A
+Train step of epoch 0:  68%|██████▊   | 3077/4533 [8:23:22<4:12:09, 10.39s/it, gpt_loss=0.265, loss_mean=0.323][A2026-01-26 22:11:26.384 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  68%|██████▊   | 3077/4533 [8:23:31<4:12:09, 10.39s/it, gpt_loss=0.284, loss_mean=0.319][A
+Train step of epoch 0:  68%|██████▊   | 3078/4533 [8:23:31<3:59:11,  9.86s/it, gpt_loss=0.284, loss_mean=0.319][A2026-01-26 22:11:35.458 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  68%|██████▊   | 3078/4533 [8:23:40<3:59:11,  9.86s/it, gpt_loss=0.362, loss_mean=0.323][A
+Train step of epoch 0:  68%|██████▊   | 3079/4533 [8:23:40<3:50:45,  9.52s/it, gpt_loss=0.362, loss_mean=0.323][A
+[LID Router Debug] Step: 3080
+Batch Size: 14
+Audio Batch Size: 125
+LID Assignments: [4, 3, 0, 2, 5, 4, 9, 4, 5, 2, 4, 0, 2, 6]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-26 22:11:43.899 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  68%|██████▊   | 3079/4533 [8:23:48<3:50:45,  9.52s/it, gpt_loss=0.304, loss_mean=0.321][A
+Train step of epoch 0:  68%|██████▊   | 3080/4533 [8:23:48<3:44:06,  9.25s/it, gpt_loss=0.304, loss_mean=0.321][A2026-01-26 22:11:52.383 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  68%|██████▊   | 3080/4533 [8:24:00<3:44:06,  9.25s/it, gpt_loss=0.385, loss_mean=0.328][A
+Train step of epoch 0:  68%|██████▊   | 3081/4533 [8:24:00<3:59:13,  9.89s/it, gpt_loss=0.385, loss_mean=0.328][A2026-01-26 22:12:04.271 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  68%|██████▊   | 3081/4533 [8:24:08<3:59:13,  9.89s/it, gpt_loss=0.22, loss_mean=0.317] [A
+Train step of epoch 0:  68%|██████▊   | 3082/4533 [8:24:08<3:51:58,  9.59s/it, gpt_loss=0.22, loss_mean=0.317][A2026-01-26 22:12:13.095 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  68%|██████▊   | 3082/4533 [8:24:20<3:51:58,  9.59s/it, gpt_loss=0.413, loss_mean=0.327][A
+Train step of epoch 0:  68%|██████▊   | 3083/4533 [8:24:20<4:08:26, 10.28s/it, gpt_loss=0.413, loss_mean=0.327][A2026-01-26 22:12:24.857 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  68%|██████▊   | 3083/4533 [8:24:29<4:08:26, 10.28s/it, gpt_loss=0.224, loss_mean=0.316][A
+Train step of epoch 0:  68%|██████▊   | 3084/4533 [8:24:29<3:58:06,  9.86s/it, gpt_loss=0.224, loss_mean=0.316][A2026-01-26 22:12:33.870 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  68%|██████▊   | 3084/4533 [8:24:38<3:58:06,  9.86s/it, gpt_loss=0.257, loss_mean=0.31] [A
+Train step of epoch 0:  68%|██████▊   | 3085/4533 [8:24:38<3:51:06,  9.58s/it, gpt_loss=0.257, loss_mean=0.31][A2026-01-26 22:12:42.588 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  68%|██████▊   | 3085/4533 [8:24:48<3:51:06,  9.58s/it, gpt_loss=0.298, loss_mean=0.309][A
+Train step of epoch 0:  68%|██████▊   | 3086/4533 [8:24:48<3:51:57,  9.62s/it, gpt_loss=0.298, loss_mean=0.309][A2026-01-26 22:12:52.475 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  68%|██████▊   | 3086/4533 [8:25:00<3:51:57,  9.62s/it, gpt_loss=0.357, loss_mean=0.314][A
+Train step of epoch 0:  68%|██████▊   | 3087/4533 [8:25:00<4:08:19, 10.30s/it, gpt_loss=0.357, loss_mean=0.314][A2026-01-26 22:13:04.387 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  68%|██████▊   | 3087/4533 [8:25:09<4:08:19, 10.30s/it, gpt_loss=0.339, loss_mean=0.316][A
+Train step of epoch 0:  68%|██████▊   | 3088/4533 [8:25:09<4:00:03,  9.97s/it, gpt_loss=0.339, loss_mean=0.316][A2026-01-26 22:13:13.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  68%|██████▊   | 3088/4533 [8:25:17<4:00:03,  9.97s/it, gpt_loss=0.281, loss_mean=0.313][A
+Train step of epoch 0:  68%|██████▊   | 3089/4533 [8:25:17<3:49:09,  9.52s/it, gpt_loss=0.281, loss_mean=0.313][A
+[LID Router Debug] Step: 3090
+Batch Size: 14
+Audio Batch Size: 160
+LID Assignments: [6, 6, 6, 9, 2, 6, 0, 9, 3, 3, 4, 9, 2, 5]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-26 22:13:21.675 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  68%|██████▊   | 3089/4533 [8:25:26<3:49:09,  9.52s/it, gpt_loss=0.233, loss_mean=0.305][A
+Train step of epoch 0:  68%|██████▊   | 3090/4533 [8:25:26<3:42:05,  9.23s/it, gpt_loss=0.233, loss_mean=0.305][A2026-01-26 22:13:30.357 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  68%|██████▊   | 3090/4533 [8:25:35<3:42:05,  9.23s/it, gpt_loss=0.264, loss_mean=0.301][A
+Train step of epoch 0:  68%|██████▊   | 3091/4533 [8:25:35<3:37:42,  9.06s/it, gpt_loss=0.264, loss_mean=0.301][A2026-01-26 22:13:39.265 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  68%|██████▊   | 3091/4533 [8:25:44<3:37:42,  9.06s/it, gpt_loss=0.279, loss_mean=0.299][A
+Train step of epoch 0:  68%|██████▊   | 3092/4533 [8:25:44<3:42:39,  9.27s/it, gpt_loss=0.279, loss_mean=0.299][A2026-01-26 22:13:48.853 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  68%|██████▊   | 3092/4533 [8:25:54<3:42:39,  9.27s/it, gpt_loss=0.341, loss_mean=0.303][A
+Train step of epoch 0:  68%|██████▊   | 3093/4533 [8:25:54<3:41:32,  9.23s/it, gpt_loss=0.341, loss_mean=0.303][A2026-01-26 22:13:57.975 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  68%|██████▊   | 3093/4533 [8:26:02<3:41:32,  9.23s/it, gpt_loss=0.218, loss_mean=0.294][A
+Train step of epoch 0:  68%|██████▊   | 3094/4533 [8:26:02<3:37:11,  9.06s/it, gpt_loss=0.218, loss_mean=0.294][A2026-01-26 22:14:06.558 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  68%|██████▊   | 3094/4533 [8:26:11<3:37:11,  9.06s/it, gpt_loss=0.233, loss_mean=0.288][A
+Train step of epoch 0:  68%|██████▊   | 3095/4533 [8:26:11<3:35:02,  8.97s/it, gpt_loss=0.233, loss_mean=0.288][A2026-01-26 22:14:15.490 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  68%|██████▊   | 3095/4533 [8:26:20<3:35:02,  8.97s/it, gpt_loss=0.244, loss_mean=0.284][A
+Train step of epoch 0:  68%|██████▊   | 3096/4533 [8:26:20<3:33:02,  8.90s/it, gpt_loss=0.244, loss_mean=0.284][A2026-01-26 22:14:24.298 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  68%|██████▊   | 3096/4533 [8:26:29<3:33:02,  8.90s/it, gpt_loss=0.34, loss_mean=0.289] [A
+Train step of epoch 0:  68%|██████▊   | 3097/4533 [8:26:29<3:38:03,  9.11s/it, gpt_loss=0.34, loss_mean=0.289][A2026-01-26 22:14:33.763 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  68%|██████▊   | 3097/4533 [8:26:38<3:38:03,  9.11s/it, gpt_loss=0.274, loss_mean=0.288][A
+Train step of epoch 0:  68%|██████▊   | 3098/4533 [8:26:38<3:36:12,  9.04s/it, gpt_loss=0.274, loss_mean=0.288][A2026-01-26 22:14:42.687 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  68%|██████▊   | 3098/4533 [8:26:48<3:36:12,  9.04s/it, gpt_loss=0.312, loss_mean=0.29] [A
+Train step of epoch 0:  68%|██████▊   | 3099/4533 [8:26:48<3:40:15,  9.22s/it, gpt_loss=0.312, loss_mean=0.29][A
+[LID Router Debug] Step: 3100
+Batch Size: 14
+Audio Batch Size: 167
+LID Assignments: [3, 2, 4, 3, 5, 2, 2, 4, 3, 0, 4, 9, 0, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 22:14:52.475 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+[2026-01-26 22:15:00,615] [INFO] [logging.py:96:log_dist] [Rank 0] step=3100, skipped=0, lr=[1.7701948367748968e-05, 1.7701948367748968e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 22:15:00,616] [INFO] [timer.py:260:stop] epoch=0/micro_step=3100/global_step=3100, RunningAvgSamplesPerSec=5.728240463396684, CurrSamplesPerSec=6.282326881565816, MemAllocated=14.74GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  68%|██████▊   | 3099/4533 [8:26:57<3:40:15,  9.22s/it, gpt_loss=0.29, loss_mean=0.29] [A
+Train step of epoch 0:  68%|██████▊   | 3100/4533 [8:26:57<3:38:04,  9.13s/it, gpt_loss=0.29, loss_mean=0.29][A2026-01-26 22:15:01.390 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  68%|██████▊   | 3100/4533 [8:27:07<3:38:04,  9.13s/it, gpt_loss=0.405, loss_mean=0.302][A
+Train step of epoch 0:  68%|██████▊   | 3101/4533 [8:27:07<3:43:00,  9.34s/it, gpt_loss=0.405, loss_mean=0.302][A2026-01-26 22:15:11.180 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  68%|██████▊   | 3101/4533 [8:27:19<3:43:00,  9.34s/it, gpt_loss=0.396, loss_mean=0.311][A
+Train step of epoch 0:  68%|██████▊   | 3102/4533 [8:27:19<4:02:16, 10.16s/it, gpt_loss=0.396, loss_mean=0.311][A2026-01-26 22:15:23.191 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  68%|██████▊   | 3102/4533 [8:27:28<4:02:16, 10.16s/it, gpt_loss=0.324, loss_mean=0.312][A
+Train step of epoch 0:  68%|██████▊   | 3103/4533 [8:27:28<3:53:16,  9.79s/it, gpt_loss=0.324, loss_mean=0.312][A2026-01-26 22:15:32.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  68%|██████▊   | 3103/4533 [8:27:36<3:53:16,  9.79s/it, gpt_loss=0.341, loss_mean=0.315][A
+Train step of epoch 0:  68%|██████▊   | 3104/4533 [8:27:36<3:45:14,  9.46s/it, gpt_loss=0.341, loss_mean=0.315][A2026-01-26 22:15:40.471 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  68%|██████▊   | 3104/4533 [8:27:45<3:45:14,  9.46s/it, gpt_loss=0.388, loss_mean=0.323][A
+Train step of epoch 0:  68%|██████▊   | 3105/4533 [8:27:45<3:39:17,  9.21s/it, gpt_loss=0.388, loss_mean=0.323][A2026-01-26 22:15:49.501 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  68%|██████▊   | 3105/4533 [8:27:54<3:39:17,  9.21s/it, gpt_loss=0.292, loss_mean=0.32] [A
+Train step of epoch 0:  69%|██████▊   | 3106/4533 [8:27:54<3:36:36,  9.11s/it, gpt_loss=0.292, loss_mean=0.32][A2026-01-26 22:15:58.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  69%|██████▊   | 3106/4533 [8:28:03<3:36:36,  9.11s/it, gpt_loss=0.311, loss_mean=0.319][A
+Train step of epoch 0:  69%|██████▊   | 3107/4533 [8:28:03<3:40:39,  9.28s/it, gpt_loss=0.311, loss_mean=0.319][A2026-01-26 22:16:07.895 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  69%|██████▊   | 3107/4533 [8:28:13<3:40:39,  9.28s/it, gpt_loss=0.291, loss_mean=0.316][A
+Train step of epoch 0:  69%|██████▊   | 3108/4533 [8:28:13<3:42:50,  9.38s/it, gpt_loss=0.291, loss_mean=0.316][A2026-01-26 22:16:17.374 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  69%|██████▊   | 3108/4533 [8:28:23<3:42:50,  9.38s/it, gpt_loss=0.383, loss_mean=0.323][A
+Train step of epoch 0:  69%|██████▊   | 3109/4533 [8:28:23<3:43:25,  9.41s/it, gpt_loss=0.383, loss_mean=0.323][A
+[LID Router Debug] Step: 3110
+Batch Size: 14
+Audio Batch Size: 148
+LID Assignments: [1, 3, 5, 1, 9, 0, 5, 1, 2, 9, 0, 4, 3, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 22:16:27.095 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  69%|██████▊   | 3109/4533 [8:28:34<3:43:25,  9.41s/it, gpt_loss=0.505, loss_mean=0.341][A
+Train step of epoch 0:  69%|██████▊   | 3110/4533 [8:28:34<4:00:26, 10.14s/it, gpt_loss=0.505, loss_mean=0.341][A2026-01-26 22:16:38.783 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  69%|██████▊   | 3110/4533 [8:28:44<4:00:26, 10.14s/it, gpt_loss=0.272, loss_mean=0.334][A
+Train step of epoch 0:  69%|██████▊   | 3111/4533 [8:28:44<3:54:36,  9.90s/it, gpt_loss=0.272, loss_mean=0.334][A2026-01-26 22:16:48.280 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  69%|██████▊   | 3111/4533 [8:28:53<3:54:36,  9.90s/it, gpt_loss=0.234, loss_mean=0.324][A
+Train step of epoch 0:  69%|██████▊   | 3112/4533 [8:28:53<3:52:46,  9.83s/it, gpt_loss=0.234, loss_mean=0.324][A2026-01-26 22:16:57.871 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  69%|██████▊   | 3112/4533 [8:29:02<3:52:46,  9.83s/it, gpt_loss=0.251, loss_mean=0.317][A
+Train step of epoch 0:  69%|██████▊   | 3113/4533 [8:29:02<3:47:24,  9.61s/it, gpt_loss=0.251, loss_mean=0.317][A2026-01-26 22:17:06.874 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  69%|██████▊   | 3113/4533 [8:29:15<3:47:24,  9.61s/it, gpt_loss=0.316, loss_mean=0.317][A
+Train step of epoch 0:  69%|██████▊   | 3114/4533 [8:29:15<4:05:24, 10.38s/it, gpt_loss=0.316, loss_mean=0.317][A2026-01-26 22:17:19.286 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  69%|██████▊   | 3114/4533 [8:29:24<4:05:24, 10.38s/it, gpt_loss=0.256, loss_mean=0.311][A
+Train step of epoch 0:  69%|██████▊   | 3115/4533 [8:29:24<3:54:45,  9.93s/it, gpt_loss=0.256, loss_mean=0.311][A2026-01-26 22:17:28.195 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  69%|██████▊   | 3115/4533 [8:29:33<3:54:45,  9.93s/it, gpt_loss=0.286, loss_mean=0.308][A
+Train step of epoch 0:  69%|██████▊   | 3116/4533 [8:29:33<3:52:59,  9.87s/it, gpt_loss=0.286, loss_mean=0.308][A2026-01-26 22:17:37.872 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  69%|██████▊   | 3116/4533 [8:29:42<3:52:59,  9.87s/it, gpt_loss=0.296, loss_mean=0.307][A
+Train step of epoch 0:  69%|██████▉   | 3117/4533 [8:29:42<3:45:43,  9.56s/it, gpt_loss=0.296, loss_mean=0.307][A2026-01-26 22:17:46.258 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  69%|██████▉   | 3117/4533 [8:29:54<3:45:43,  9.56s/it, gpt_loss=0.367, loss_mean=0.313][A
+Train step of epoch 0:  69%|██████▉   | 3118/4533 [8:29:54<4:00:24, 10.19s/it, gpt_loss=0.367, loss_mean=0.313][A2026-01-26 22:17:58.377 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  69%|██████▉   | 3118/4533 [8:30:05<4:00:24, 10.19s/it, gpt_loss=0.314, loss_mean=0.313][A
+Train step of epoch 0:  69%|██████▉   | 3119/4533 [8:30:05<4:11:14, 10.66s/it, gpt_loss=0.314, loss_mean=0.313][A
+[LID Router Debug] Step: 3120
+Batch Size: 14
+Audio Batch Size: 142
+LID Assignments: [9, 0, 2, 0, 5, 4, 1, 3, 2, 0, 0, 5, 3, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 22:18:09.884 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  69%|██████▉   | 3119/4533 [8:30:14<4:11:14, 10.66s/it, gpt_loss=0.254, loss_mean=0.307][A
+Train step of epoch 0:  69%|██████▉   | 3120/4533 [8:30:14<3:56:39, 10.05s/it, gpt_loss=0.254, loss_mean=0.307][A2026-01-26 22:18:18.582 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  69%|██████▉   | 3120/4533 [8:30:23<3:56:39, 10.05s/it, gpt_loss=0.284, loss_mean=0.305][A
+Train step of epoch 0:  69%|██████▉   | 3121/4533 [8:30:23<3:46:33,  9.63s/it, gpt_loss=0.284, loss_mean=0.305][A2026-01-26 22:18:27.282 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  69%|██████▉   | 3121/4533 [8:30:32<3:46:33,  9.63s/it, gpt_loss=0.267, loss_mean=0.301][A
+Train step of epoch 0:  69%|██████▉   | 3122/4533 [8:30:32<3:41:21,  9.41s/it, gpt_loss=0.267, loss_mean=0.301][A2026-01-26 22:18:36.070 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  69%|██████▉   | 3122/4533 [8:30:40<3:41:21,  9.41s/it, gpt_loss=0.318, loss_mean=0.303][A
+Train step of epoch 0:  69%|██████▉   | 3123/4533 [8:30:40<3:35:47,  9.18s/it, gpt_loss=0.318, loss_mean=0.303][A2026-01-26 22:18:44.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  69%|██████▉   | 3123/4533 [8:30:50<3:35:47,  9.18s/it, gpt_loss=0.371, loss_mean=0.31] [A
+Train step of epoch 0:  69%|██████▉   | 3124/4533 [8:30:50<3:39:22,  9.34s/it, gpt_loss=0.371, loss_mean=0.31][A2026-01-26 22:18:54.591 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  69%|██████▉   | 3124/4533 [8:31:00<3:39:22,  9.34s/it, gpt_loss=0.267, loss_mean=0.305][A
+Train step of epoch 0:  69%|██████▉   | 3125/4533 [8:31:00<3:40:58,  9.42s/it, gpt_loss=0.267, loss_mean=0.305][A2026-01-26 22:19:04.074 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  69%|██████▉   | 3125/4533 [8:31:11<3:40:58,  9.42s/it, gpt_loss=0.397, loss_mean=0.315][A
+Train step of epoch 0:  69%|██████▉   | 3126/4533 [8:31:11<3:56:24, 10.08s/it, gpt_loss=0.397, loss_mean=0.315][A2026-01-26 22:19:15.381 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  69%|██████▉   | 3126/4533 [8:31:20<3:56:24, 10.08s/it, gpt_loss=0.244, loss_mean=0.308][A
+Train step of epoch 0:  69%|██████▉   | 3127/4533 [8:31:20<3:43:54,  9.55s/it, gpt_loss=0.244, loss_mean=0.308][A2026-01-26 22:19:23.990 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  69%|██████▉   | 3127/4533 [8:31:28<3:43:54,  9.55s/it, gpt_loss=0.355, loss_mean=0.312][A
+Train step of epoch 0:  69%|██████▉   | 3128/4533 [8:31:28<3:37:39,  9.30s/it, gpt_loss=0.355, loss_mean=0.312][A2026-01-26 22:19:32.964 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  69%|██████▉   | 3128/4533 [8:31:37<3:37:39,  9.30s/it, gpt_loss=0.281, loss_mean=0.309][A
+Train step of epoch 0:  69%|██████▉   | 3129/4533 [8:31:37<3:36:41,  9.26s/it, gpt_loss=0.281, loss_mean=0.309][A
+[LID Router Debug] Step: 3130
+Batch Size: 14
+Audio Batch Size: 129
+LID Assignments: [1, 4, 0, 9, 0, 0, 5, 9, 1, 9, 9, 4, 2, 5]
+Active Experts in Batch: {0, 1, 2, 4, 5, 9}
+2026-01-26 22:19:42.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  69%|██████▉   | 3129/4533 [8:31:46<3:36:41,  9.26s/it, gpt_loss=0.324, loss_mean=0.311][A
+Train step of epoch 0:  69%|██████▉   | 3130/4533 [8:31:46<3:34:27,  9.17s/it, gpt_loss=0.324, loss_mean=0.311][A2026-01-26 22:19:51.094 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  69%|██████▉   | 3130/4533 [8:31:55<3:34:27,  9.17s/it, gpt_loss=0.282, loss_mean=0.308][A
+Train step of epoch 0:  69%|██████▉   | 3131/4533 [8:31:55<3:33:09,  9.12s/it, gpt_loss=0.282, loss_mean=0.308][A2026-01-26 22:20:00.072 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  69%|██████▉   | 3131/4533 [8:32:05<3:33:09,  9.12s/it, gpt_loss=0.334, loss_mean=0.31] [A
+Train step of epoch 0:  69%|██████▉   | 3132/4533 [8:32:05<3:33:01,  9.12s/it, gpt_loss=0.334, loss_mean=0.31][A2026-01-26 22:20:09.103 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  69%|██████▉   | 3132/4533 [8:32:13<3:33:01,  9.12s/it, gpt_loss=0.214, loss_mean=0.301][A
+Train step of epoch 0:  69%|██████▉   | 3133/4533 [8:32:13<3:29:56,  9.00s/it, gpt_loss=0.214, loss_mean=0.301][A2026-01-26 22:20:17.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  69%|██████▉   | 3133/4533 [8:32:22<3:29:56,  9.00s/it, gpt_loss=0.304, loss_mean=0.301][A
+Train step of epoch 0:  69%|██████▉   | 3134/4533 [8:32:22<3:26:17,  8.85s/it, gpt_loss=0.304, loss_mean=0.301][A2026-01-26 22:20:26.398 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  69%|██████▉   | 3134/4533 [8:32:34<3:26:17,  8.85s/it, gpt_loss=0.345, loss_mean=0.306][A
+Train step of epoch 0:  69%|██████▉   | 3135/4533 [8:32:34<3:49:43,  9.86s/it, gpt_loss=0.345, loss_mean=0.306][A2026-01-26 22:20:38.479 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  69%|██████▉   | 3135/4533 [8:32:44<3:49:43,  9.86s/it, gpt_loss=0.277, loss_mean=0.303][A
+Train step of epoch 0:  69%|██████▉   | 3136/4533 [8:32:44<3:47:35,  9.78s/it, gpt_loss=0.277, loss_mean=0.303][A2026-01-26 22:20:47.879 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  69%|██████▉   | 3136/4533 [8:32:53<3:47:35,  9.78s/it, gpt_loss=0.348, loss_mean=0.307][A
+Train step of epoch 0:  69%|██████▉   | 3137/4533 [8:32:53<3:43:09,  9.59s/it, gpt_loss=0.348, loss_mean=0.307][A2026-01-26 22:20:57.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  69%|██████▉   | 3137/4533 [8:33:01<3:43:09,  9.59s/it, gpt_loss=0.294, loss_mean=0.306][A
+Train step of epoch 0:  69%|██████▉   | 3138/4533 [8:33:01<3:37:05,  9.34s/it, gpt_loss=0.294, loss_mean=0.306][A2026-01-26 22:21:05.885 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  69%|██████▉   | 3138/4533 [8:33:13<3:37:05,  9.34s/it, gpt_loss=0.413, loss_mean=0.317][A
+Train step of epoch 0:  69%|██████▉   | 3139/4533 [8:33:13<3:52:32, 10.01s/it, gpt_loss=0.413, loss_mean=0.317][A
+[LID Router Debug] Step: 3140
+Batch Size: 14
+Audio Batch Size: 136
+LID Assignments: [1, 0, 3, 9, 9, 5, 3, 4, 4, 4, 6, 5, 5, 6]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6, 9}
+2026-01-26 22:21:17.695 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  69%|██████▉   | 3139/4533 [8:33:22<3:52:32, 10.01s/it, gpt_loss=0.23, loss_mean=0.308] [A
+Train step of epoch 0:  69%|██████▉   | 3140/4533 [8:33:22<3:44:44,  9.68s/it, gpt_loss=0.23, loss_mean=0.308][A2026-01-26 22:21:26.590 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  69%|██████▉   | 3140/4533 [8:33:31<3:44:44,  9.68s/it, gpt_loss=0.269, loss_mean=0.304][A
+Train step of epoch 0:  69%|██████▉   | 3141/4533 [8:33:31<3:38:13,  9.41s/it, gpt_loss=0.269, loss_mean=0.304][A2026-01-26 22:21:35.180 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  69%|██████▉   | 3141/4533 [8:33:43<3:38:13,  9.41s/it, gpt_loss=0.407, loss_mean=0.314][A
+Train step of epoch 0:  69%|██████▉   | 3142/4533 [8:33:43<3:54:41, 10.12s/it, gpt_loss=0.407, loss_mean=0.314][A2026-01-26 22:21:47.069 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  69%|██████▉   | 3142/4533 [8:33:54<3:54:41, 10.12s/it, gpt_loss=0.317, loss_mean=0.315][A
+Train step of epoch 0:  69%|██████▉   | 3143/4533 [8:33:54<4:06:15, 10.63s/it, gpt_loss=0.317, loss_mean=0.315][A2026-01-26 22:21:58.905 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  69%|██████▉   | 3143/4533 [8:34:03<4:06:15, 10.63s/it, gpt_loss=0.329, loss_mean=0.316][A
+Train step of epoch 0:  69%|██████▉   | 3144/4533 [8:34:03<3:54:44, 10.14s/it, gpt_loss=0.329, loss_mean=0.316][A2026-01-26 22:22:07.963 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  69%|██████▉   | 3144/4533 [8:34:15<3:54:44, 10.14s/it, gpt_loss=0.414, loss_mean=0.326][A
+Train step of epoch 0:  69%|██████▉   | 3145/4533 [8:34:15<4:08:44, 10.75s/it, gpt_loss=0.414, loss_mean=0.326][A2026-01-26 22:22:20.182 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  69%|██████▉   | 3145/4533 [8:34:25<4:08:44, 10.75s/it, gpt_loss=0.34, loss_mean=0.327] [A
+Train step of epoch 0:  69%|██████▉   | 3146/4533 [8:34:25<3:59:04, 10.34s/it, gpt_loss=0.34, loss_mean=0.327][A2026-01-26 22:22:29.491 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  69%|██████▉   | 3146/4533 [8:34:34<3:59:04, 10.34s/it, gpt_loss=0.242, loss_mean=0.319][A
+Train step of epoch 0:  69%|██████▉   | 3147/4533 [8:34:34<3:47:43,  9.86s/it, gpt_loss=0.242, loss_mean=0.319][A2026-01-26 22:22:38.263 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  69%|██████▉   | 3147/4533 [8:34:45<3:47:43,  9.86s/it, gpt_loss=0.403, loss_mean=0.327][A
+Train step of epoch 0:  69%|██████▉   | 3148/4533 [8:34:45<4:01:38, 10.47s/it, gpt_loss=0.403, loss_mean=0.327][A2026-01-26 22:22:49.870 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  69%|██████▉   | 3148/4533 [8:34:55<4:01:38, 10.47s/it, gpt_loss=0.339, loss_mean=0.328][A
+Train step of epoch 0:  69%|██████▉   | 3149/4533 [8:34:55<3:56:14, 10.24s/it, gpt_loss=0.339, loss_mean=0.328][A
+[LID Router Debug] Step: 3150
+Batch Size: 14
+Audio Batch Size: 124
+LID Assignments: [1, 2, 1, 0, 5, 1, 0, 6, 1, 0, 4, 9, 9, 1]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-26 22:22:59.758 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  69%|██████▉   | 3149/4533 [8:35:04<3:56:14, 10.24s/it, gpt_loss=0.312, loss_mean=0.327][A
+Train step of epoch 0:  69%|██████▉   | 3150/4533 [8:35:04<3:45:32,  9.79s/it, gpt_loss=0.312, loss_mean=0.327][A2026-01-26 22:23:08.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  69%|██████▉   | 3150/4533 [8:35:13<3:45:32,  9.79s/it, gpt_loss=0.393, loss_mean=0.333][A
+Train step of epoch 0:  70%|██████▉   | 3151/4533 [8:35:13<3:38:41,  9.49s/it, gpt_loss=0.393, loss_mean=0.333][A2026-01-26 22:23:17.377 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  70%|██████▉   | 3151/4533 [8:35:25<3:38:41,  9.49s/it, gpt_loss=0.335, loss_mean=0.334][A
+Train step of epoch 0:  70%|██████▉   | 3152/4533 [8:35:25<3:56:17, 10.27s/it, gpt_loss=0.335, loss_mean=0.334][A2026-01-26 22:23:29.567 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  70%|██████▉   | 3152/4533 [8:35:37<3:56:17, 10.27s/it, gpt_loss=0.323, loss_mean=0.333][A
+Train step of epoch 0:  70%|██████▉   | 3153/4533 [8:35:37<4:08:08, 10.79s/it, gpt_loss=0.323, loss_mean=0.333][A2026-01-26 22:23:41.561 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  70%|██████▉   | 3153/4533 [8:35:47<4:08:08, 10.79s/it, gpt_loss=0.319, loss_mean=0.331][A
+Train step of epoch 0:  70%|██████▉   | 3154/4533 [8:35:47<4:01:21, 10.50s/it, gpt_loss=0.319, loss_mean=0.331][A2026-01-26 22:23:51.291 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  70%|██████▉   | 3154/4533 [8:35:59<4:01:21, 10.50s/it, gpt_loss=0.502, loss_mean=0.348][A
+Train step of epoch 0:  70%|██████▉   | 3155/4533 [8:35:59<4:14:49, 11.10s/it, gpt_loss=0.502, loss_mean=0.348][A2026-01-26 22:24:03.779 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  70%|██████▉   | 3155/4533 [8:36:08<4:14:49, 11.10s/it, gpt_loss=0.306, loss_mean=0.344][A
+Train step of epoch 0:  70%|██████▉   | 3156/4533 [8:36:08<3:59:42, 10.45s/it, gpt_loss=0.306, loss_mean=0.344][A2026-01-26 22:24:12.701 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  70%|██████▉   | 3156/4533 [8:36:17<3:59:42, 10.45s/it, gpt_loss=0.274, loss_mean=0.337][A
+Train step of epoch 0:  70%|██████▉   | 3157/4533 [8:36:17<3:50:16, 10.04s/it, gpt_loss=0.274, loss_mean=0.337][A2026-01-26 22:24:21.792 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  70%|██████▉   | 3157/4533 [8:36:29<3:50:16, 10.04s/it, gpt_loss=0.441, loss_mean=0.348][A
+Train step of epoch 0:  70%|██████▉   | 3158/4533 [8:36:29<4:03:05, 10.61s/it, gpt_loss=0.441, loss_mean=0.348][A2026-01-26 22:24:33.787 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  70%|██████▉   | 3158/4533 [8:36:38<4:03:05, 10.61s/it, gpt_loss=0.254, loss_mean=0.338][A
+Train step of epoch 0:  70%|██████▉   | 3159/4533 [8:36:38<3:51:21, 10.10s/it, gpt_loss=0.254, loss_mean=0.338][A
+[LID Router Debug] Step: 3160
+Batch Size: 14
+Audio Batch Size: 132
+LID Assignments: [4, 6, 6, 5, 5, 0, 3, 4, 1, 1, 4, 3, 2, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 22:24:42.757 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  70%|██████▉   | 3159/4533 [8:36:50<3:51:21, 10.10s/it, gpt_loss=0.346, loss_mean=0.339][A
+Train step of epoch 0:  70%|██████▉   | 3160/4533 [8:36:50<4:03:06, 10.62s/it, gpt_loss=0.346, loss_mean=0.339][A2026-01-26 22:24:54.561 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  70%|██████▉   | 3160/4533 [8:37:00<4:03:06, 10.62s/it, gpt_loss=0.383, loss_mean=0.343][A
+Train step of epoch 0:  70%|██████▉   | 3161/4533 [8:37:00<3:56:31, 10.34s/it, gpt_loss=0.383, loss_mean=0.343][A2026-01-26 22:25:04.195 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  70%|██████▉   | 3161/4533 [8:37:09<3:56:31, 10.34s/it, gpt_loss=0.268, loss_mean=0.336][A
+Train step of epoch 0:  70%|██████▉   | 3162/4533 [8:37:09<3:52:54, 10.19s/it, gpt_loss=0.268, loss_mean=0.336][A2026-01-26 22:25:13.689 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  70%|██████▉   | 3162/4533 [8:37:21<3:52:54, 10.19s/it, gpt_loss=0.417, loss_mean=0.344][A
+Train step of epoch 0:  70%|██████▉   | 3163/4533 [8:37:21<4:00:47, 10.55s/it, gpt_loss=0.417, loss_mean=0.344][A2026-01-26 22:25:24.992 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  70%|██████▉   | 3163/4533 [8:37:30<4:00:47, 10.55s/it, gpt_loss=0.326, loss_mean=0.342][A
+Train step of epoch 0:  70%|██████▉   | 3164/4533 [8:37:30<3:51:38, 10.15s/it, gpt_loss=0.326, loss_mean=0.342][A2026-01-26 22:25:34.574 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  70%|██████▉   | 3164/4533 [8:37:39<3:51:38, 10.15s/it, gpt_loss=0.373, loss_mean=0.345][A
+Train step of epoch 0:  70%|██████▉   | 3165/4533 [8:37:39<3:44:36,  9.85s/it, gpt_loss=0.373, loss_mean=0.345][A2026-01-26 22:25:43.855 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  70%|██████▉   | 3165/4533 [8:37:51<3:44:36,  9.85s/it, gpt_loss=0.406, loss_mean=0.351][A
+Train step of epoch 0:  70%|██████▉   | 3166/4533 [8:37:51<4:00:00, 10.53s/it, gpt_loss=0.406, loss_mean=0.351][A2026-01-26 22:25:55.894 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  70%|██████▉   | 3166/4533 [8:38:01<4:00:00, 10.53s/it, gpt_loss=0.321, loss_mean=0.348][A
+Train step of epoch 0:  70%|██████▉   | 3167/4533 [8:38:01<3:53:57, 10.28s/it, gpt_loss=0.321, loss_mean=0.348][A2026-01-26 22:26:05.600 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  70%|██████▉   | 3167/4533 [8:38:10<3:53:57, 10.28s/it, gpt_loss=0.282, loss_mean=0.342][A
+Train step of epoch 0:  70%|██████▉   | 3168/4533 [8:38:10<3:47:00,  9.98s/it, gpt_loss=0.282, loss_mean=0.342][A2026-01-26 22:26:14.965 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  70%|██████▉   | 3168/4533 [8:38:19<3:47:00,  9.98s/it, gpt_loss=0.274, loss_mean=0.335][A
+Train step of epoch 0:  70%|██████▉   | 3169/4533 [8:38:19<3:41:02,  9.72s/it, gpt_loss=0.274, loss_mean=0.335][A
+[LID Router Debug] Step: 3170
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [5, 2, 3, 0, 3, 2, 6, 0, 2, 1, 9, 1, 2, 2]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-26 22:26:23.983 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  70%|██████▉   | 3169/4533 [8:38:28<3:41:02,  9.72s/it, gpt_loss=0.252, loss_mean=0.327][A
+Train step of epoch 0:  70%|██████▉   | 3170/4533 [8:38:28<3:35:47,  9.50s/it, gpt_loss=0.252, loss_mean=0.327][A2026-01-26 22:26:32.982 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  70%|██████▉   | 3170/4533 [8:38:37<3:35:47,  9.50s/it, gpt_loss=0.293, loss_mean=0.323][A
+Train step of epoch 0:  70%|██████▉   | 3171/4533 [8:38:37<3:31:08,  9.30s/it, gpt_loss=0.293, loss_mean=0.323][A2026-01-26 22:26:41.790 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  70%|██████▉   | 3171/4533 [8:38:47<3:31:08,  9.30s/it, gpt_loss=0.336, loss_mean=0.325][A
+Train step of epoch 0:  70%|██████▉   | 3172/4533 [8:38:47<3:35:47,  9.51s/it, gpt_loss=0.336, loss_mean=0.325][A2026-01-26 22:26:51.793 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  70%|██████▉   | 3172/4533 [8:38:56<3:35:47,  9.51s/it, gpt_loss=0.314, loss_mean=0.323][A
+Train step of epoch 0:  70%|██████▉   | 3173/4533 [8:38:56<3:29:57,  9.26s/it, gpt_loss=0.314, loss_mean=0.323][A2026-01-26 22:27:00.358 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  70%|██████▉   | 3173/4533 [8:39:05<3:29:57,  9.26s/it, gpt_loss=0.385, loss_mean=0.33] [A
+Train step of epoch 0:  70%|███████   | 3174/4533 [8:39:05<3:30:50,  9.31s/it, gpt_loss=0.385, loss_mean=0.33][A2026-01-26 22:27:09.688 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  70%|███████   | 3174/4533 [8:39:14<3:30:50,  9.31s/it, gpt_loss=0.293, loss_mean=0.326][A
+Train step of epoch 0:  70%|███████   | 3175/4533 [8:39:14<3:27:03,  9.15s/it, gpt_loss=0.293, loss_mean=0.326][A2026-01-26 22:27:18.667 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  70%|███████   | 3175/4533 [8:39:23<3:27:03,  9.15s/it, gpt_loss=0.229, loss_mean=0.316][A
+Train step of epoch 0:  70%|███████   | 3176/4533 [8:39:23<3:26:28,  9.13s/it, gpt_loss=0.229, loss_mean=0.316][A2026-01-26 22:27:27.863 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  70%|███████   | 3176/4533 [8:39:32<3:26:28,  9.13s/it, gpt_loss=0.26, loss_mean=0.311] [A
+Train step of epoch 0:  70%|███████   | 3177/4533 [8:39:32<3:27:52,  9.20s/it, gpt_loss=0.26, loss_mean=0.311][A2026-01-26 22:27:37.083 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  70%|███████   | 3177/4533 [8:39:41<3:27:52,  9.20s/it, gpt_loss=0.268, loss_mean=0.306][A
+Train step of epoch 0:  70%|███████   | 3178/4533 [8:39:41<3:24:26,  9.05s/it, gpt_loss=0.268, loss_mean=0.306][A2026-01-26 22:27:45.559 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  70%|███████   | 3178/4533 [8:39:50<3:24:26,  9.05s/it, gpt_loss=0.232, loss_mean=0.299][A
+Train step of epoch 0:  70%|███████   | 3179/4533 [8:39:50<3:20:23,  8.88s/it, gpt_loss=0.232, loss_mean=0.299][A
+[LID Router Debug] Step: 3180
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [5, 2, 9, 0, 0, 0, 6, 3, 5, 4, 5, 0, 2, 6]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-26 22:27:54.371 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  70%|███████   | 3179/4533 [8:40:02<3:20:23,  8.88s/it, gpt_loss=0.366, loss_mean=0.306][A
+Train step of epoch 0:  70%|███████   | 3180/4533 [8:40:02<3:41:39,  9.83s/it, gpt_loss=0.366, loss_mean=0.306][A2026-01-26 22:28:06.192 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  70%|███████   | 3180/4533 [8:40:11<3:41:39,  9.83s/it, gpt_loss=0.218, loss_mean=0.297][A
+Train step of epoch 0:  70%|███████   | 3181/4533 [8:40:11<3:35:01,  9.54s/it, gpt_loss=0.218, loss_mean=0.297][A2026-01-26 22:28:15.279 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  70%|███████   | 3181/4533 [8:40:23<3:35:01,  9.54s/it, gpt_loss=0.32, loss_mean=0.299] [A
+Train step of epoch 0:  70%|███████   | 3182/4533 [8:40:23<3:53:00, 10.35s/it, gpt_loss=0.32, loss_mean=0.299][A2026-01-26 22:28:27.266 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  70%|███████   | 3182/4533 [8:40:32<3:53:00, 10.35s/it, gpt_loss=0.25, loss_mean=0.294][A
+Train step of epoch 0:  70%|███████   | 3183/4533 [8:40:32<3:43:21,  9.93s/it, gpt_loss=0.25, loss_mean=0.294][A2026-01-26 22:28:36.152 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  70%|███████   | 3183/4533 [8:40:43<3:43:21,  9.93s/it, gpt_loss=0.433, loss_mean=0.308][A
+Train step of epoch 0:  70%|███████   | 3184/4533 [8:40:43<3:53:43, 10.40s/it, gpt_loss=0.433, loss_mean=0.308][A2026-01-26 22:28:47.951 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  70%|███████   | 3184/4533 [8:40:52<3:53:43, 10.40s/it, gpt_loss=0.263, loss_mean=0.304][A
+Train step of epoch 0:  70%|███████   | 3185/4533 [8:40:52<3:43:34,  9.95s/it, gpt_loss=0.263, loss_mean=0.304][A2026-01-26 22:28:56.690 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  70%|███████   | 3185/4533 [8:41:02<3:43:34,  9.95s/it, gpt_loss=0.296, loss_mean=0.303][A
+Train step of epoch 0:  70%|███████   | 3186/4533 [8:41:02<3:40:51,  9.84s/it, gpt_loss=0.296, loss_mean=0.303][A2026-01-26 22:29:06.469 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  70%|███████   | 3186/4533 [8:41:11<3:40:51,  9.84s/it, gpt_loss=0.235, loss_mean=0.296][A
+Train step of epoch 0:  70%|███████   | 3187/4533 [8:41:11<3:35:43,  9.62s/it, gpt_loss=0.235, loss_mean=0.296][A2026-01-26 22:29:15.191 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  70%|███████   | 3187/4533 [8:41:22<3:35:43,  9.62s/it, gpt_loss=0.374, loss_mean=0.304][A
+Train step of epoch 0:  70%|███████   | 3188/4533 [8:41:22<3:48:35, 10.20s/it, gpt_loss=0.374, loss_mean=0.304][A2026-01-26 22:29:26.870 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  70%|███████   | 3188/4533 [8:41:34<3:48:35, 10.20s/it, gpt_loss=0.426, loss_mean=0.316][A
+Train step of epoch 0:  70%|███████   | 3189/4533 [8:41:34<4:00:56, 10.76s/it, gpt_loss=0.426, loss_mean=0.316][A
+[LID Router Debug] Step: 3190
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [3, 5, 0, 5, 0, 1, 4, 1, 2, 5, 5, 4, 3, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5}
+2026-01-26 22:29:39.081 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  70%|███████   | 3189/4533 [8:41:44<4:00:56, 10.76s/it, gpt_loss=0.272, loss_mean=0.312][A
+Train step of epoch 0:  70%|███████   | 3190/4533 [8:41:44<3:53:38, 10.44s/it, gpt_loss=0.272, loss_mean=0.312][A2026-01-26 22:29:48.575 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  70%|███████   | 3190/4533 [8:41:53<3:53:38, 10.44s/it, gpt_loss=0.233, loss_mean=0.304][A
+Train step of epoch 0:  70%|███████   | 3191/4533 [8:41:53<3:42:29,  9.95s/it, gpt_loss=0.233, loss_mean=0.304][A2026-01-26 22:29:57.572 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  70%|███████   | 3191/4533 [8:42:05<3:42:29,  9.95s/it, gpt_loss=0.384, loss_mean=0.312][A
+Train step of epoch 0:  70%|███████   | 3192/4533 [8:42:05<3:54:55, 10.51s/it, gpt_loss=0.384, loss_mean=0.312][A2026-01-26 22:30:09.187 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  70%|███████   | 3192/4533 [8:42:14<3:54:55, 10.51s/it, gpt_loss=0.33, loss_mean=0.314] [A
+Train step of epoch 0:  70%|███████   | 3193/4533 [8:42:14<3:44:08, 10.04s/it, gpt_loss=0.33, loss_mean=0.314][A2026-01-26 22:30:18.391 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  70%|███████   | 3193/4533 [8:42:23<3:44:08, 10.04s/it, gpt_loss=0.329, loss_mean=0.315][A
+Train step of epoch 0:  70%|███████   | 3194/4533 [8:42:23<3:41:06,  9.91s/it, gpt_loss=0.329, loss_mean=0.315][A2026-01-26 22:30:27.973 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  70%|███████   | 3194/4533 [8:42:33<3:41:06,  9.91s/it, gpt_loss=0.365, loss_mean=0.32] [A
+Train step of epoch 0:  70%|███████   | 3195/4533 [8:42:33<3:39:06,  9.83s/it, gpt_loss=0.365, loss_mean=0.32][A2026-01-26 22:30:37.556 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  70%|███████   | 3195/4533 [8:42:45<3:39:06,  9.83s/it, gpt_loss=0.41, loss_mean=0.329][A
+Train step of epoch 0:  71%|███████   | 3196/4533 [8:42:45<3:51:53, 10.41s/it, gpt_loss=0.41, loss_mean=0.329][A2026-01-26 22:30:49.152 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  71%|███████   | 3196/4533 [8:42:57<3:51:53, 10.41s/it, gpt_loss=0.4, loss_mean=0.336] [A
+Train step of epoch 0:  71%|███████   | 3197/4533 [8:42:57<4:01:17, 10.84s/it, gpt_loss=0.4, loss_mean=0.336][A2026-01-26 22:31:01.062 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  71%|███████   | 3197/4533 [8:43:06<4:01:17, 10.84s/it, gpt_loss=0.368, loss_mean=0.339][A
+Train step of epoch 0:  71%|███████   | 3198/4533 [8:43:06<3:54:39, 10.55s/it, gpt_loss=0.368, loss_mean=0.339][A2026-01-26 22:31:10.861 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  71%|███████   | 3198/4533 [8:43:16<3:54:39, 10.55s/it, gpt_loss=0.299, loss_mean=0.335][A
+Train step of epoch 0:  71%|███████   | 3199/4533 [8:43:16<3:48:05, 10.26s/it, gpt_loss=0.299, loss_mean=0.335][A
+[LID Router Debug] Step: 3200
+Batch Size: 14
+Audio Batch Size: 183
+LID Assignments: [3, 6, 2, 1, 1, 1, 1, 3, 3, 9, 9, 1, 3, 0]
+Active Experts in Batch: {0, 1, 2, 3, 6, 9}
+2026-01-26 22:31:20.480 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+[2026-01-26 22:31:29,498] [INFO] [logging.py:96:log_dist] [Rank 0] step=3200, skipped=0, lr=[1.7551032294842824e-05, 1.7551032294842824e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 22:31:29,498] [INFO] [timer.py:260:stop] epoch=0/micro_step=3200/global_step=3200, RunningAvgSamplesPerSec=5.7265722377306645, CurrSamplesPerSec=5.8614073674834355, MemAllocated=14.52GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  71%|███████   | 3199/4533 [8:43:26<3:48:05, 10.26s/it, gpt_loss=0.298, loss_mean=0.332][A
+Train step of epoch 0:  71%|███████   | 3200/4533 [8:43:26<3:43:21, 10.05s/it, gpt_loss=0.298, loss_mean=0.332][A2026-01-26 22:31:30.072 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  71%|███████   | 3200/4533 [8:43:35<3:43:21, 10.05s/it, gpt_loss=0.342, loss_mean=0.333][A
+Train step of epoch 0:  71%|███████   | 3201/4533 [8:43:35<3:39:29,  9.89s/it, gpt_loss=0.342, loss_mean=0.333][A2026-01-26 22:31:39.750 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  71%|███████   | 3201/4533 [8:43:44<3:39:29,  9.89s/it, gpt_loss=0.281, loss_mean=0.327][A
+Train step of epoch 0:  71%|███████   | 3202/4533 [8:43:44<3:33:05,  9.61s/it, gpt_loss=0.281, loss_mean=0.327][A2026-01-26 22:31:48.654 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  71%|███████   | 3202/4533 [8:43:53<3:33:05,  9.61s/it, gpt_loss=0.332, loss_mean=0.328][A
+Train step of epoch 0:  71%|███████   | 3203/4533 [8:43:53<3:28:40,  9.41s/it, gpt_loss=0.332, loss_mean=0.328][A2026-01-26 22:31:57.604 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  71%|███████   | 3203/4533 [8:44:02<3:28:40,  9.41s/it, gpt_loss=0.357, loss_mean=0.331][A
+Train step of epoch 0:  71%|███████   | 3204/4533 [8:44:02<3:25:29,  9.28s/it, gpt_loss=0.357, loss_mean=0.331][A2026-01-26 22:32:06.480 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  71%|███████   | 3204/4533 [8:44:12<3:25:29,  9.28s/it, gpt_loss=0.294, loss_mean=0.327][A
+Train step of epoch 0:  71%|███████   | 3205/4533 [8:44:12<3:27:30,  9.38s/it, gpt_loss=0.294, loss_mean=0.327][A2026-01-26 22:32:16.162 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  71%|███████   | 3205/4533 [8:44:20<3:27:30,  9.38s/it, gpt_loss=0.292, loss_mean=0.324][A
+Train step of epoch 0:  71%|███████   | 3206/4533 [8:44:20<3:24:15,  9.24s/it, gpt_loss=0.292, loss_mean=0.324][A2026-01-26 22:32:25.163 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  71%|███████   | 3206/4533 [8:44:29<3:24:15,  9.24s/it, gpt_loss=0.302, loss_mean=0.321][A
+Train step of epoch 0:  71%|███████   | 3207/4533 [8:44:29<3:22:27,  9.16s/it, gpt_loss=0.302, loss_mean=0.321][A2026-01-26 22:32:34.055 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  71%|███████   | 3207/4533 [8:44:41<3:22:27,  9.16s/it, gpt_loss=0.359, loss_mean=0.325][A
+Train step of epoch 0:  71%|███████   | 3208/4533 [8:44:41<3:39:53,  9.96s/it, gpt_loss=0.359, loss_mean=0.325][A2026-01-26 22:32:45.868 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  71%|███████   | 3208/4533 [8:44:50<3:39:53,  9.96s/it, gpt_loss=0.296, loss_mean=0.322][A
+Train step of epoch 0:  71%|███████   | 3209/4533 [8:44:50<3:31:31,  9.59s/it, gpt_loss=0.296, loss_mean=0.322][A
+[LID Router Debug] Step: 3210
+Batch Size: 14
+Audio Batch Size: 148
+LID Assignments: [9, 9, 9, 1, 2, 3, 0, 3, 5, 6, 0, 0, 2, 1]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-26 22:32:54.481 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  71%|███████   | 3209/4533 [8:44:59<3:31:31,  9.59s/it, gpt_loss=0.333, loss_mean=0.323][A
+Train step of epoch 0:  71%|███████   | 3210/4533 [8:44:59<3:25:55,  9.34s/it, gpt_loss=0.333, loss_mean=0.323][A2026-01-26 22:33:03.277 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  71%|███████   | 3210/4533 [8:45:08<3:25:55,  9.34s/it, gpt_loss=0.314, loss_mean=0.322][A
+Train step of epoch 0:  71%|███████   | 3211/4533 [8:45:08<3:26:36,  9.38s/it, gpt_loss=0.314, loss_mean=0.322][A2026-01-26 22:33:12.903 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  71%|███████   | 3211/4533 [8:45:17<3:26:36,  9.38s/it, gpt_loss=0.363, loss_mean=0.326][A
+Train step of epoch 0:  71%|███████   | 3212/4533 [8:45:17<3:24:52,  9.31s/it, gpt_loss=0.363, loss_mean=0.326][A2026-01-26 22:33:21.575 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  71%|███████   | 3212/4533 [8:45:26<3:24:52,  9.31s/it, gpt_loss=0.219, loss_mean=0.316][A
+Train step of epoch 0:  71%|███████   | 3213/4533 [8:45:26<3:18:20,  9.02s/it, gpt_loss=0.219, loss_mean=0.316][A2026-01-26 22:33:30.376 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  71%|███████   | 3213/4533 [8:45:38<3:18:20,  9.02s/it, gpt_loss=0.42, loss_mean=0.326] [A
+Train step of epoch 0:  71%|███████   | 3214/4533 [8:45:38<3:36:54,  9.87s/it, gpt_loss=0.42, loss_mean=0.326][A2026-01-26 22:33:42.084 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  71%|███████   | 3214/4533 [8:45:47<3:36:54,  9.87s/it, gpt_loss=0.296, loss_mean=0.323][A
+Train step of epoch 0:  71%|███████   | 3215/4533 [8:45:47<3:34:30,  9.77s/it, gpt_loss=0.296, loss_mean=0.323][A2026-01-26 22:33:51.477 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  71%|███████   | 3215/4533 [8:45:57<3:34:30,  9.77s/it, gpt_loss=0.287, loss_mean=0.319][A
+Train step of epoch 0:  71%|███████   | 3216/4533 [8:45:57<3:33:19,  9.72s/it, gpt_loss=0.287, loss_mean=0.319][A2026-01-26 22:34:01.182 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  71%|███████   | 3216/4533 [8:46:08<3:33:19,  9.72s/it, gpt_loss=0.372, loss_mean=0.325][A
+Train step of epoch 0:  71%|███████   | 3217/4533 [8:46:08<3:45:51, 10.30s/it, gpt_loss=0.372, loss_mean=0.325][A2026-01-26 22:34:12.603 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  71%|███████   | 3217/4533 [8:46:17<3:45:51, 10.30s/it, gpt_loss=0.264, loss_mean=0.319][A
+Train step of epoch 0:  71%|███████   | 3218/4533 [8:46:17<3:36:13,  9.87s/it, gpt_loss=0.264, loss_mean=0.319][A2026-01-26 22:34:21.867 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  71%|███████   | 3218/4533 [8:46:26<3:36:13,  9.87s/it, gpt_loss=0.326, loss_mean=0.319][A
+Train step of epoch 0:  71%|███████   | 3219/4533 [8:46:26<3:32:12,  9.69s/it, gpt_loss=0.326, loss_mean=0.319][A
+[LID Router Debug] Step: 3220
+Batch Size: 14
+Audio Batch Size: 159
+LID Assignments: [9, 2, 0, 5, 9, 2, 1, 2, 1, 5, 2, 9, 3, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 22:34:30.974 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  71%|███████   | 3219/4533 [8:46:36<3:32:12,  9.69s/it, gpt_loss=0.338, loss_mean=0.321][A
+Train step of epoch 0:  71%|███████   | 3220/4533 [8:46:36<3:29:39,  9.58s/it, gpt_loss=0.338, loss_mean=0.321][A2026-01-26 22:34:40.490 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  71%|███████   | 3220/4533 [8:46:48<3:29:39,  9.58s/it, gpt_loss=0.375, loss_mean=0.327][A
+Train step of epoch 0:  71%|███████   | 3221/4533 [8:46:48<3:45:18, 10.30s/it, gpt_loss=0.375, loss_mean=0.327][A2026-01-26 22:34:52.283 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  71%|███████   | 3221/4533 [8:47:00<3:45:18, 10.30s/it, gpt_loss=0.348, loss_mean=0.329][A
+Train step of epoch 0:  71%|███████   | 3222/4533 [8:47:00<3:55:18, 10.77s/it, gpt_loss=0.348, loss_mean=0.329][A2026-01-26 22:35:04.355 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  71%|███████   | 3222/4533 [8:47:12<3:55:18, 10.77s/it, gpt_loss=0.36, loss_mean=0.332] [A
+Train step of epoch 0:  71%|███████   | 3223/4533 [8:47:12<4:02:26, 11.10s/it, gpt_loss=0.36, loss_mean=0.332][A2026-01-26 22:35:15.985 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  71%|███████   | 3223/4533 [8:47:21<4:02:26, 11.10s/it, gpt_loss=0.249, loss_mean=0.324][A
+Train step of epoch 0:  71%|███████   | 3224/4533 [8:47:21<3:51:23, 10.61s/it, gpt_loss=0.249, loss_mean=0.324][A2026-01-26 22:35:25.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  71%|███████   | 3224/4533 [8:47:33<3:51:23, 10.61s/it, gpt_loss=0.327, loss_mean=0.324][A
+Train step of epoch 0:  71%|███████   | 3225/4533 [8:47:33<4:02:17, 11.11s/it, gpt_loss=0.327, loss_mean=0.324][A2026-01-26 22:35:37.884 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  71%|███████   | 3225/4533 [8:47:45<4:02:17, 11.11s/it, gpt_loss=0.366, loss_mean=0.328][A
+Train step of epoch 0:  71%|███████   | 3226/4533 [8:47:45<4:07:46, 11.37s/it, gpt_loss=0.366, loss_mean=0.328][A2026-01-26 22:35:49.859 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  71%|███████   | 3226/4533 [8:47:55<4:07:46, 11.37s/it, gpt_loss=0.265, loss_mean=0.322][A
+Train step of epoch 0:  71%|███████   | 3227/4533 [8:47:55<3:57:45, 10.92s/it, gpt_loss=0.265, loss_mean=0.322][A2026-01-26 22:35:59.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  71%|███████   | 3227/4533 [8:48:04<3:57:45, 10.92s/it, gpt_loss=0.25, loss_mean=0.315] [A
+Train step of epoch 0:  71%|███████   | 3228/4533 [8:48:04<3:42:21, 10.22s/it, gpt_loss=0.25, loss_mean=0.315][A2026-01-26 22:36:08.076 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  71%|███████   | 3228/4533 [8:48:16<3:42:21, 10.22s/it, gpt_loss=0.398, loss_mean=0.323][A
+Train step of epoch 0:  71%|███████   | 3229/4533 [8:48:16<3:52:52, 10.72s/it, gpt_loss=0.398, loss_mean=0.323][A
+[LID Router Debug] Step: 3230
+Batch Size: 14
+Audio Batch Size: 149
+LID Assignments: [5, 0, 4, 9, 9, 3, 5, 0, 6, 0, 0, 9, 9, 5]
+Active Experts in Batch: {0, 3, 4, 5, 6, 9}
+2026-01-26 22:36:20.081 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  71%|███████   | 3229/4533 [8:48:25<3:52:52, 10.72s/it, gpt_loss=0.314, loss_mean=0.322][A
+Train step of epoch 0:  71%|███████▏  | 3230/4533 [8:48:25<3:45:08, 10.37s/it, gpt_loss=0.314, loss_mean=0.322][A2026-01-26 22:36:29.585 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  71%|███████▏  | 3230/4533 [8:48:35<3:45:08, 10.37s/it, gpt_loss=0.278, loss_mean=0.318][A
+Train step of epoch 0:  71%|███████▏  | 3231/4533 [8:48:35<3:38:56, 10.09s/it, gpt_loss=0.278, loss_mean=0.318][A2026-01-26 22:36:39.061 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  71%|███████▏  | 3231/4533 [8:48:43<3:38:56, 10.09s/it, gpt_loss=0.267, loss_mean=0.313][A
+Train step of epoch 0:  71%|███████▏  | 3232/4533 [8:48:43<3:29:18,  9.65s/it, gpt_loss=0.267, loss_mean=0.313][A2026-01-26 22:36:47.893 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  71%|███████▏  | 3232/4533 [8:48:52<3:29:18,  9.65s/it, gpt_loss=0.283, loss_mean=0.31] [A
+Train step of epoch 0:  71%|███████▏  | 3233/4533 [8:48:52<3:25:11,  9.47s/it, gpt_loss=0.283, loss_mean=0.31][A2026-01-26 22:36:56.683 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  71%|███████▏  | 3233/4533 [8:49:04<3:25:11,  9.47s/it, gpt_loss=0.347, loss_mean=0.313][A
+Train step of epoch 0:  71%|███████▏  | 3234/4533 [8:49:04<3:39:00, 10.12s/it, gpt_loss=0.347, loss_mean=0.313][A2026-01-26 22:37:07.874 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  71%|███████▏  | 3234/4533 [8:49:12<3:39:00, 10.12s/it, gpt_loss=0.306, loss_mean=0.313][A
+Train step of epoch 0:  71%|███████▏  | 3235/4533 [8:49:12<3:28:10,  9.62s/it, gpt_loss=0.306, loss_mean=0.313][A2026-01-26 22:37:16.891 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  71%|███████▏  | 3235/4533 [8:49:22<3:28:10,  9.62s/it, gpt_loss=0.246, loss_mean=0.306][A
+Train step of epoch 0:  71%|███████▏  | 3236/4533 [8:49:22<3:25:01,  9.48s/it, gpt_loss=0.246, loss_mean=0.306][A2026-01-26 22:37:26.004 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  71%|███████▏  | 3236/4533 [8:49:30<3:25:01,  9.48s/it, gpt_loss=0.257, loss_mean=0.301][A
+Train step of epoch 0:  71%|███████▏  | 3237/4533 [8:49:30<3:19:29,  9.24s/it, gpt_loss=0.257, loss_mean=0.301][A2026-01-26 22:37:34.588 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  71%|███████▏  | 3237/4533 [8:49:42<3:19:29,  9.24s/it, gpt_loss=0.427, loss_mean=0.314][A
+Train step of epoch 0:  71%|███████▏  | 3238/4533 [8:49:42<3:35:13,  9.97s/it, gpt_loss=0.427, loss_mean=0.314][A2026-01-26 22:37:46.468 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  71%|███████▏  | 3238/4533 [8:49:51<3:35:13,  9.97s/it, gpt_loss=0.237, loss_mean=0.306][A
+Train step of epoch 0:  71%|███████▏  | 3239/4533 [8:49:51<3:30:22,  9.75s/it, gpt_loss=0.237, loss_mean=0.306][A
+[LID Router Debug] Step: 3240
+Batch Size: 14
+Audio Batch Size: 173
+LID Assignments: [3, 4, 2, 9, 2, 9, 9, 2, 9, 9, 6, 6, 4, 9]
+Active Experts in Batch: {2, 3, 4, 6, 9}
+2026-01-26 22:37:55.657 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  71%|███████▏  | 3239/4533 [8:50:00<3:30:22,  9.75s/it, gpt_loss=0.274, loss_mean=0.303][A
+Train step of epoch 0:  71%|███████▏  | 3240/4533 [8:50:00<3:25:08,  9.52s/it, gpt_loss=0.274, loss_mean=0.303][A2026-01-26 22:38:04.763 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  71%|███████▏  | 3240/4533 [8:50:10<3:25:08,  9.52s/it, gpt_loss=0.335, loss_mean=0.306][A
+Train step of epoch 0:  71%|███████▏  | 3241/4533 [8:50:10<3:27:06,  9.62s/it, gpt_loss=0.335, loss_mean=0.306][A2026-01-26 22:38:14.200 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  71%|███████▏  | 3241/4533 [8:50:21<3:27:06,  9.62s/it, gpt_loss=0.308, loss_mean=0.306][A
+Train step of epoch 0:  72%|███████▏  | 3242/4533 [8:50:21<3:39:26, 10.20s/it, gpt_loss=0.308, loss_mean=0.306][A2026-01-26 22:38:26.080 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  72%|███████▏  | 3242/4533 [8:50:34<3:39:26, 10.20s/it, gpt_loss=0.336, loss_mean=0.309][A
+Train step of epoch 0:  72%|███████▏  | 3243/4533 [8:50:34<3:52:42, 10.82s/it, gpt_loss=0.336, loss_mean=0.309][A2026-01-26 22:38:37.877 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3243/4533 [8:50:43<3:52:42, 10.82s/it, gpt_loss=0.283, loss_mean=0.307][A
+Train step of epoch 0:  72%|███████▏  | 3244/4533 [8:50:43<3:41:43, 10.32s/it, gpt_loss=0.283, loss_mean=0.307][A2026-01-26 22:38:47.597 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3244/4533 [8:50:52<3:41:43, 10.32s/it, gpt_loss=0.32, loss_mean=0.308] [A
+Train step of epoch 0:  72%|███████▏  | 3245/4533 [8:50:52<3:33:27,  9.94s/it, gpt_loss=0.32, loss_mean=0.308][A2026-01-26 22:38:56.593 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  72%|███████▏  | 3245/4533 [8:51:01<3:33:27,  9.94s/it, gpt_loss=0.272, loss_mean=0.304][A
+Train step of epoch 0:  72%|███████▏  | 3246/4533 [8:51:01<3:25:40,  9.59s/it, gpt_loss=0.272, loss_mean=0.304][A2026-01-26 22:39:05.462 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  72%|███████▏  | 3246/4533 [8:51:10<3:25:40,  9.59s/it, gpt_loss=0.318, loss_mean=0.306][A
+Train step of epoch 0:  72%|███████▏  | 3247/4533 [8:51:10<3:21:12,  9.39s/it, gpt_loss=0.318, loss_mean=0.306][A2026-01-26 22:39:14.300 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  72%|███████▏  | 3247/4533 [8:51:22<3:21:12,  9.39s/it, gpt_loss=0.305, loss_mean=0.306][A
+Train step of epoch 0:  72%|███████▏  | 3248/4533 [8:51:22<3:37:07, 10.14s/it, gpt_loss=0.305, loss_mean=0.306][A2026-01-26 22:39:26.259 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  72%|███████▏  | 3248/4533 [8:51:31<3:37:07, 10.14s/it, gpt_loss=0.315, loss_mean=0.307][A
+Train step of epoch 0:  72%|███████▏  | 3249/4533 [8:51:31<3:31:33,  9.89s/it, gpt_loss=0.315, loss_mean=0.307][A
+[LID Router Debug] Step: 3250
+Batch Size: 14
+Audio Batch Size: 178
+LID Assignments: [3, 4, 2, 3, 5, 2, 2, 3, 4, 4, 4, 2, 9, 4]
+Active Experts in Batch: {2, 3, 4, 5, 9}
+2026-01-26 22:39:35.388 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3249/4533 [8:51:40<3:31:33,  9.89s/it, gpt_loss=0.265, loss_mean=0.302][A
+Train step of epoch 0:  72%|███████▏  | 3250/4533 [8:51:40<3:24:45,  9.58s/it, gpt_loss=0.265, loss_mean=0.302][A2026-01-26 22:39:44.365 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3250/4533 [8:51:51<3:24:45,  9.58s/it, gpt_loss=0.494, loss_mean=0.322][A
+Train step of epoch 0:  72%|███████▏  | 3251/4533 [8:51:51<3:38:42, 10.24s/it, gpt_loss=0.494, loss_mean=0.322][A2026-01-26 22:39:56.078 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3251/4533 [8:52:00<3:38:42, 10.24s/it, gpt_loss=0.227, loss_mean=0.312][A
+Train step of epoch 0:  72%|███████▏  | 3252/4533 [8:52:00<3:30:07,  9.84s/it, gpt_loss=0.227, loss_mean=0.312][A2026-01-26 22:40:04.965 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  72%|███████▏  | 3252/4533 [8:52:09<3:30:07,  9.84s/it, gpt_loss=0.229, loss_mean=0.304][A
+Train step of epoch 0:  72%|███████▏  | 3253/4533 [8:52:09<3:24:53,  9.60s/it, gpt_loss=0.229, loss_mean=0.304][A2026-01-26 22:40:14.099 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3253/4533 [8:52:18<3:24:53,  9.60s/it, gpt_loss=0.285, loss_mean=0.302][A
+Train step of epoch 0:  72%|███████▏  | 3254/4533 [8:52:18<3:20:08,  9.39s/it, gpt_loss=0.285, loss_mean=0.302][A2026-01-26 22:40:22.967 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  72%|███████▏  | 3254/4533 [8:52:28<3:20:08,  9.39s/it, gpt_loss=0.276, loss_mean=0.299][A
+Train step of epoch 0:  72%|███████▏  | 3255/4533 [8:52:28<3:21:17,  9.45s/it, gpt_loss=0.276, loss_mean=0.299][A2026-01-26 22:40:32.657 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  72%|███████▏  | 3255/4533 [8:52:38<3:21:17,  9.45s/it, gpt_loss=0.31, loss_mean=0.3]   [A
+Train step of epoch 0:  72%|███████▏  | 3256/4533 [8:52:38<3:22:39,  9.52s/it, gpt_loss=0.31, loss_mean=0.3][A2026-01-26 22:40:42.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3256/4533 [8:52:50<3:22:39,  9.52s/it, gpt_loss=0.371, loss_mean=0.307][A
+Train step of epoch 0:  72%|███████▏  | 3257/4533 [8:52:50<3:38:33, 10.28s/it, gpt_loss=0.371, loss_mean=0.307][A2026-01-26 22:40:54.288 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  72%|███████▏  | 3257/4533 [8:52:58<3:38:33, 10.28s/it, gpt_loss=0.276, loss_mean=0.304][A
+Train step of epoch 0:  72%|███████▏  | 3258/4533 [8:52:58<3:28:31,  9.81s/it, gpt_loss=0.276, loss_mean=0.304][A2026-01-26 22:41:02.992 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  72%|███████▏  | 3258/4533 [8:53:11<3:28:31,  9.81s/it, gpt_loss=0.301, loss_mean=0.304][A
+Train step of epoch 0:  72%|███████▏  | 3259/4533 [8:53:11<3:43:28, 10.52s/it, gpt_loss=0.301, loss_mean=0.304][A
+[LID Router Debug] Step: 3260
+Batch Size: 14
+Audio Batch Size: 151
+LID Assignments: [4, 2, 5, 1, 3, 4, 2, 1, 4, 9, 0, 1, 4, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 22:41:14.990 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3259/4533 [8:53:22<3:43:28, 10.52s/it, gpt_loss=0.368, loss_mean=0.31] [A
+Train step of epoch 0:  72%|███████▏  | 3260/4533 [8:53:22<3:49:03, 10.80s/it, gpt_loss=0.368, loss_mean=0.31][A2026-01-26 22:41:26.491 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  72%|███████▏  | 3260/4533 [8:53:32<3:49:03, 10.80s/it, gpt_loss=0.314, loss_mean=0.311][A
+Train step of epoch 0:  72%|███████▏  | 3261/4533 [8:53:32<3:40:56, 10.42s/it, gpt_loss=0.314, loss_mean=0.311][A2026-01-26 22:41:36.088 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3261/4533 [8:53:44<3:40:56, 10.42s/it, gpt_loss=0.382, loss_mean=0.318][A
+Train step of epoch 0:  72%|███████▏  | 3262/4533 [8:53:44<3:50:48, 10.90s/it, gpt_loss=0.382, loss_mean=0.318][A2026-01-26 22:41:48.183 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  72%|███████▏  | 3262/4533 [8:53:56<3:50:48, 10.90s/it, gpt_loss=0.296, loss_mean=0.316][A
+Train step of epoch 0:  72%|███████▏  | 3263/4533 [8:53:56<4:00:47, 11.38s/it, gpt_loss=0.296, loss_mean=0.316][A2026-01-26 22:42:00.681 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  72%|███████▏  | 3263/4533 [8:54:08<4:00:47, 11.38s/it, gpt_loss=0.361, loss_mean=0.32] [A
+Train step of epoch 0:  72%|███████▏  | 3264/4533 [8:54:08<4:04:20, 11.55s/it, gpt_loss=0.361, loss_mean=0.32][A2026-01-26 22:42:12.578 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  72%|███████▏  | 3264/4533 [8:54:18<4:04:20, 11.55s/it, gpt_loss=0.354, loss_mean=0.324][A
+Train step of epoch 0:  72%|███████▏  | 3265/4533 [8:54:18<3:51:28, 10.95s/it, gpt_loss=0.354, loss_mean=0.324][A2026-01-26 22:42:22.103 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3265/4533 [8:54:26<3:51:28, 10.95s/it, gpt_loss=0.279, loss_mean=0.319][A
+Train step of epoch 0:  72%|███████▏  | 3266/4533 [8:54:26<3:37:30, 10.30s/it, gpt_loss=0.279, loss_mean=0.319][A2026-01-26 22:42:30.994 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  72%|███████▏  | 3266/4533 [8:54:36<3:37:30, 10.30s/it, gpt_loss=0.268, loss_mean=0.314][A
+Train step of epoch 0:  72%|███████▏  | 3267/4533 [8:54:36<3:31:05, 10.00s/it, gpt_loss=0.268, loss_mean=0.314][A2026-01-26 22:42:40.351 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3267/4533 [8:54:48<3:31:05, 10.00s/it, gpt_loss=0.386, loss_mean=0.321][A
+Train step of epoch 0:  72%|███████▏  | 3268/4533 [8:54:48<3:42:52, 10.57s/it, gpt_loss=0.386, loss_mean=0.321][A2026-01-26 22:42:52.190 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3268/4533 [8:54:57<3:42:52, 10.57s/it, gpt_loss=0.418, loss_mean=0.331][A
+Train step of epoch 0:  72%|███████▏  | 3269/4533 [8:54:57<3:38:17, 10.36s/it, gpt_loss=0.418, loss_mean=0.331][A
+[LID Router Debug] Step: 3270
+Batch Size: 14
+Audio Batch Size: 119
+LID Assignments: [2, 4, 4, 4, 0, 4, 2, 5, 5, 2, 2, 0, 1, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5}
+2026-01-26 22:43:02.079 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3269/4533 [8:55:10<3:38:17, 10.36s/it, gpt_loss=0.39, loss_mean=0.337] [A
+Train step of epoch 0:  72%|███████▏  | 3270/4533 [8:55:10<3:49:18, 10.89s/it, gpt_loss=0.39, loss_mean=0.337][A2026-01-26 22:43:14.185 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3270/4533 [8:55:18<3:49:18, 10.89s/it, gpt_loss=0.25, loss_mean=0.328][A
+Train step of epoch 0:  72%|███████▏  | 3271/4533 [8:55:18<3:35:56, 10.27s/it, gpt_loss=0.25, loss_mean=0.328][A2026-01-26 22:43:22.881 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  72%|███████▏  | 3271/4533 [8:55:30<3:35:56, 10.27s/it, gpt_loss=0.356, loss_mean=0.331][A
+Train step of epoch 0:  72%|███████▏  | 3272/4533 [8:55:30<3:46:28, 10.78s/it, gpt_loss=0.356, loss_mean=0.331][A2026-01-26 22:43:34.987 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3272/4533 [8:55:42<3:46:28, 10.78s/it, gpt_loss=0.381, loss_mean=0.336][A
+Train step of epoch 0:  72%|███████▏  | 3273/4533 [8:55:42<3:52:47, 11.09s/it, gpt_loss=0.381, loss_mean=0.336][A2026-01-26 22:43:46.479 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  72%|███████▏  | 3273/4533 [8:55:51<3:52:47, 11.09s/it, gpt_loss=0.272, loss_mean=0.33] [A
+Train step of epoch 0:  72%|███████▏  | 3274/4533 [8:55:51<3:39:54, 10.48s/it, gpt_loss=0.272, loss_mean=0.33][A2026-01-26 22:43:55.499 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  72%|███████▏  | 3274/4533 [8:56:03<3:39:54, 10.48s/it, gpt_loss=0.349, loss_mean=0.331][A
+Train step of epoch 0:  72%|███████▏  | 3275/4533 [8:56:03<3:46:37, 10.81s/it, gpt_loss=0.349, loss_mean=0.331][A2026-01-26 22:44:07.474 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3275/4533 [8:56:12<3:46:37, 10.81s/it, gpt_loss=0.335, loss_mean=0.332][A
+Train step of epoch 0:  72%|███████▏  | 3276/4533 [8:56:12<3:36:29, 10.33s/it, gpt_loss=0.335, loss_mean=0.332][A2026-01-26 22:44:16.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3276/4533 [8:56:21<3:36:29, 10.33s/it, gpt_loss=0.319, loss_mean=0.331][A
+Train step of epoch 0:  72%|███████▏  | 3277/4533 [8:56:21<3:25:00,  9.79s/it, gpt_loss=0.319, loss_mean=0.331][A2026-01-26 22:44:25.180 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3277/4533 [8:56:30<3:25:00,  9.79s/it, gpt_loss=0.267, loss_mean=0.324][A
+Train step of epoch 0:  72%|███████▏  | 3278/4533 [8:56:30<3:23:58,  9.75s/it, gpt_loss=0.267, loss_mean=0.324][A2026-01-26 22:44:34.684 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  72%|███████▏  | 3278/4533 [8:56:42<3:23:58,  9.75s/it, gpt_loss=0.431, loss_mean=0.335][A
+Train step of epoch 0:  72%|███████▏  | 3279/4533 [8:56:42<3:36:23, 10.35s/it, gpt_loss=0.431, loss_mean=0.335][A
+[LID Router Debug] Step: 3280
+Batch Size: 14
+Audio Batch Size: 156
+LID Assignments: [2, 3, 4, 0, 1, 1, 9, 1, 9, 3, 5, 3, 9, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 22:44:46.664 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  72%|███████▏  | 3279/4533 [8:56:54<3:36:23, 10.35s/it, gpt_loss=0.407, loss_mean=0.342][A
+Train step of epoch 0:  72%|███████▏  | 3280/4533 [8:56:54<3:46:20, 10.84s/it, gpt_loss=0.407, loss_mean=0.342][A2026-01-26 22:44:58.065 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  72%|███████▏  | 3280/4533 [8:57:02<3:46:20, 10.84s/it, gpt_loss=0.272, loss_mean=0.335][A
+Train step of epoch 0:  72%|███████▏  | 3281/4533 [8:57:02<3:31:02, 10.11s/it, gpt_loss=0.272, loss_mean=0.335][A2026-01-26 22:45:06.886 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3281/4533 [8:57:12<3:31:02, 10.11s/it, gpt_loss=0.373, loss_mean=0.339][A
+Train step of epoch 0:  72%|███████▏  | 3282/4533 [8:57:12<3:29:00, 10.02s/it, gpt_loss=0.373, loss_mean=0.339][A2026-01-26 22:45:16.686 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3282/4533 [8:57:22<3:29:00, 10.02s/it, gpt_loss=0.27, loss_mean=0.332] [A
+Train step of epoch 0:  72%|███████▏  | 3283/4533 [8:57:22<3:26:22,  9.91s/it, gpt_loss=0.27, loss_mean=0.332][A2026-01-26 22:45:26.257 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  72%|███████▏  | 3283/4533 [8:57:31<3:26:22,  9.91s/it, gpt_loss=0.212, loss_mean=0.32][A
+Train step of epoch 0:  72%|███████▏  | 3284/4533 [8:57:31<3:23:16,  9.76s/it, gpt_loss=0.212, loss_mean=0.32][A2026-01-26 22:45:35.955 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  72%|███████▏  | 3284/4533 [8:57:41<3:23:16,  9.76s/it, gpt_loss=0.314, loss_mean=0.319][A
+Train step of epoch 0:  72%|███████▏  | 3285/4533 [8:57:41<3:23:36,  9.79s/it, gpt_loss=0.314, loss_mean=0.319][A2026-01-26 22:45:45.765 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  72%|███████▏  | 3285/4533 [8:57:53<3:23:36,  9.79s/it, gpt_loss=0.452, loss_mean=0.333][A
+Train step of epoch 0:  72%|███████▏  | 3286/4533 [8:57:53<3:38:14, 10.50s/it, gpt_loss=0.452, loss_mean=0.333][A2026-01-26 22:45:57.699 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  72%|███████▏  | 3286/4533 [8:58:03<3:38:14, 10.50s/it, gpt_loss=0.33, loss_mean=0.332] [A
+Train step of epoch 0:  73%|███████▎  | 3287/4533 [8:58:03<3:31:57, 10.21s/it, gpt_loss=0.33, loss_mean=0.332][A2026-01-26 22:46:07.387 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  73%|███████▎  | 3287/4533 [8:58:12<3:31:57, 10.21s/it, gpt_loss=0.291, loss_mean=0.328][A
+Train step of epoch 0:  73%|███████▎  | 3288/4533 [8:58:12<3:28:31, 10.05s/it, gpt_loss=0.291, loss_mean=0.328][A2026-01-26 22:46:16.962 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  73%|███████▎  | 3288/4533 [8:58:22<3:28:31, 10.05s/it, gpt_loss=0.282, loss_mean=0.324][A
+Train step of epoch 0:  73%|███████▎  | 3289/4533 [8:58:22<3:25:36,  9.92s/it, gpt_loss=0.282, loss_mean=0.324][A
+[LID Router Debug] Step: 3290
+Batch Size: 14
+Audio Batch Size: 199
+LID Assignments: [3, 6, 3, 1, 3, 5, 9, 6, 6, 3, 9, 9, 3, 3]
+Active Experts in Batch: {1, 3, 5, 6, 9}
+2026-01-26 22:46:26.583 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  73%|███████▎  | 3289/4533 [8:58:31<3:25:36,  9.92s/it, gpt_loss=0.258, loss_mean=0.317][A
+Train step of epoch 0:  73%|███████▎  | 3290/4533 [8:58:31<3:21:07,  9.71s/it, gpt_loss=0.258, loss_mean=0.317][A2026-01-26 22:46:35.892 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  73%|███████▎  | 3290/4533 [8:58:40<3:21:07,  9.71s/it, gpt_loss=0.358, loss_mean=0.321][A
+Train step of epoch 0:  73%|███████▎  | 3291/4533 [8:58:40<3:16:22,  9.49s/it, gpt_loss=0.358, loss_mean=0.321][A2026-01-26 22:46:44.892 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  73%|███████▎  | 3291/4533 [8:58:49<3:16:22,  9.49s/it, gpt_loss=0.317, loss_mean=0.321][A
+Train step of epoch 0:  73%|███████▎  | 3292/4533 [8:58:49<3:14:19,  9.40s/it, gpt_loss=0.317, loss_mean=0.321][A2026-01-26 22:46:54.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  73%|███████▎  | 3292/4533 [8:58:59<3:14:19,  9.40s/it, gpt_loss=0.366, loss_mean=0.325][A
+Train step of epoch 0:  73%|███████▎  | 3293/4533 [8:58:59<3:16:19,  9.50s/it, gpt_loss=0.366, loss_mean=0.325][A2026-01-26 22:47:03.696 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  73%|███████▎  | 3293/4533 [8:59:08<3:16:19,  9.50s/it, gpt_loss=0.271, loss_mean=0.32] [A
+Train step of epoch 0:  73%|███████▎  | 3294/4533 [8:59:08<3:13:21,  9.36s/it, gpt_loss=0.271, loss_mean=0.32][A2026-01-26 22:47:12.561 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  73%|███████▎  | 3294/4533 [8:59:17<3:13:21,  9.36s/it, gpt_loss=0.237, loss_mean=0.312][A
+Train step of epoch 0:  73%|███████▎  | 3295/4533 [8:59:17<3:10:14,  9.22s/it, gpt_loss=0.237, loss_mean=0.312][A2026-01-26 22:47:21.571 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  73%|███████▎  | 3295/4533 [8:59:26<3:10:14,  9.22s/it, gpt_loss=0.266, loss_mean=0.307][A
+Train step of epoch 0:  73%|███████▎  | 3296/4533 [8:59:26<3:06:16,  9.03s/it, gpt_loss=0.266, loss_mean=0.307][A2026-01-26 22:47:30.362 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  73%|███████▎  | 3296/4533 [8:59:35<3:06:16,  9.03s/it, gpt_loss=0.278, loss_mean=0.304][A
+Train step of epoch 0:  73%|███████▎  | 3297/4533 [8:59:35<3:09:17,  9.19s/it, gpt_loss=0.278, loss_mean=0.304][A2026-01-26 22:47:39.954 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  73%|███████▎  | 3297/4533 [8:59:44<3:09:17,  9.19s/it, gpt_loss=0.266, loss_mean=0.3]  [A
+Train step of epoch 0:  73%|███████▎  | 3298/4533 [8:59:44<3:08:04,  9.14s/it, gpt_loss=0.266, loss_mean=0.3][A2026-01-26 22:47:48.859 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  73%|███████▎  | 3298/4533 [8:59:54<3:08:04,  9.14s/it, gpt_loss=0.305, loss_mean=0.301][A
+Train step of epoch 0:  73%|███████▎  | 3299/4533 [8:59:54<3:10:43,  9.27s/it, gpt_loss=0.305, loss_mean=0.301][A
+[LID Router Debug] Step: 3300
+Batch Size: 14
+Audio Batch Size: 172
+LID Assignments: [3, 1, 5, 9, 2, 2, 2, 3, 0, 4, 3, 3, 1, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 22:47:58.372 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+[2026-01-26 22:48:07,391] [INFO] [logging.py:96:log_dist] [Rank 0] step=3300, skipped=0, lr=[1.7396004699406125e-05, 1.7396004699406125e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 22:48:07,392] [INFO] [timer.py:260:stop] epoch=0/micro_step=3300/global_step=3300, RunningAvgSamplesPerSec=5.723363305272355, CurrSamplesPerSec=5.821523880338067, MemAllocated=14.65GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  73%|███████▎  | 3299/4533 [9:00:03<3:10:43,  9.27s/it, gpt_loss=0.309, loss_mean=0.302][A
+Train step of epoch 0:  73%|███████▎  | 3300/4533 [9:00:03<3:12:50,  9.38s/it, gpt_loss=0.309, loss_mean=0.302][A2026-01-26 22:48:08.161 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  73%|███████▎  | 3300/4533 [9:00:13<3:12:50,  9.38s/it, gpt_loss=0.251, loss_mean=0.297][A
+Train step of epoch 0:  73%|███████▎  | 3301/4533 [9:00:13<3:10:31,  9.28s/it, gpt_loss=0.251, loss_mean=0.297][A2026-01-26 22:48:17.103 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  73%|███████▎  | 3301/4533 [9:00:22<3:10:31,  9.28s/it, gpt_loss=0.258, loss_mean=0.293][A
+Train step of epoch 0:  73%|███████▎  | 3302/4533 [9:00:22<3:10:08,  9.27s/it, gpt_loss=0.258, loss_mean=0.293][A2026-01-26 22:48:26.186 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  73%|███████▎  | 3302/4533 [9:00:31<3:10:08,  9.27s/it, gpt_loss=0.338, loss_mean=0.297][A
+Train step of epoch 0:  73%|███████▎  | 3303/4533 [9:00:31<3:12:44,  9.40s/it, gpt_loss=0.338, loss_mean=0.297][A2026-01-26 22:48:35.598 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  73%|███████▎  | 3303/4533 [9:00:40<3:12:44,  9.40s/it, gpt_loss=0.251, loss_mean=0.293][A
+Train step of epoch 0:  73%|███████▎  | 3304/4533 [9:00:40<3:06:35,  9.11s/it, gpt_loss=0.251, loss_mean=0.293][A2026-01-26 22:48:44.360 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  73%|███████▎  | 3304/4533 [9:00:49<3:06:35,  9.11s/it, gpt_loss=0.23, loss_mean=0.286] [A
+Train step of epoch 0:  73%|███████▎  | 3305/4533 [9:00:49<3:04:53,  9.03s/it, gpt_loss=0.23, loss_mean=0.286][A2026-01-26 22:48:53.381 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  73%|███████▎  | 3305/4533 [9:01:01<3:04:53,  9.03s/it, gpt_loss=0.486, loss_mean=0.306][A
+Train step of epoch 0:  73%|███████▎  | 3306/4533 [9:01:01<3:22:36,  9.91s/it, gpt_loss=0.486, loss_mean=0.306][A2026-01-26 22:49:05.278 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  73%|███████▎  | 3306/4533 [9:01:10<3:22:36,  9.91s/it, gpt_loss=0.282, loss_mean=0.304][A
+Train step of epoch 0:  73%|███████▎  | 3307/4533 [9:01:10<3:20:40,  9.82s/it, gpt_loss=0.282, loss_mean=0.304][A2026-01-26 22:49:14.802 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  73%|███████▎  | 3307/4533 [9:01:20<3:20:40,  9.82s/it, gpt_loss=0.345, loss_mean=0.308][A
+Train step of epoch 0:  73%|███████▎  | 3308/4533 [9:01:20<3:18:39,  9.73s/it, gpt_loss=0.345, loss_mean=0.308][A2026-01-26 22:49:24.478 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  73%|███████▎  | 3308/4533 [9:01:29<3:18:39,  9.73s/it, gpt_loss=0.255, loss_mean=0.303][A
+Train step of epoch 0:  73%|███████▎  | 3309/4533 [9:01:29<3:15:49,  9.60s/it, gpt_loss=0.255, loss_mean=0.303][A
+[LID Router Debug] Step: 3310
+Batch Size: 14
+Audio Batch Size: 159
+LID Assignments: [0, 3, 2, 2, 9, 9, 3, 2, 5, 6, 1, 4, 1, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 22:49:33.760 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  73%|███████▎  | 3309/4533 [9:01:38<3:15:49,  9.60s/it, gpt_loss=0.275, loss_mean=0.3]  [A
+Train step of epoch 0:  73%|███████▎  | 3310/4533 [9:01:38<3:12:14,  9.43s/it, gpt_loss=0.275, loss_mean=0.3][A2026-01-26 22:49:42.794 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  73%|███████▎  | 3310/4533 [9:01:50<3:12:14,  9.43s/it, gpt_loss=0.475, loss_mean=0.317][A
+Train step of epoch 0:  73%|███████▎  | 3311/4533 [9:01:50<3:28:13, 10.22s/it, gpt_loss=0.475, loss_mean=0.317][A2026-01-26 22:49:54.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  73%|███████▎  | 3311/4533 [9:01:59<3:28:13, 10.22s/it, gpt_loss=0.269, loss_mean=0.313][A
+Train step of epoch 0:  73%|███████▎  | 3312/4533 [9:01:59<3:18:57,  9.78s/it, gpt_loss=0.269, loss_mean=0.313][A2026-01-26 22:50:03.476 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  73%|███████▎  | 3312/4533 [9:02:08<3:18:57,  9.78s/it, gpt_loss=0.222, loss_mean=0.304][A
+Train step of epoch 0:  73%|███████▎  | 3313/4533 [9:02:08<3:13:39,  9.52s/it, gpt_loss=0.222, loss_mean=0.304][A2026-01-26 22:50:12.495 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  73%|███████▎  | 3313/4533 [9:02:17<3:13:39,  9.52s/it, gpt_loss=0.222, loss_mean=0.295][A
+Train step of epoch 0:  73%|███████▎  | 3314/4533 [9:02:17<3:09:08,  9.31s/it, gpt_loss=0.222, loss_mean=0.295][A2026-01-26 22:50:21.366 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  73%|███████▎  | 3314/4533 [9:02:26<3:09:08,  9.31s/it, gpt_loss=0.247, loss_mean=0.291][A
+Train step of epoch 0:  73%|███████▎  | 3315/4533 [9:02:26<3:06:40,  9.20s/it, gpt_loss=0.247, loss_mean=0.291][A2026-01-26 22:50:30.295 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  73%|███████▎  | 3315/4533 [9:02:38<3:06:40,  9.20s/it, gpt_loss=0.32, loss_mean=0.293] [A
+Train step of epoch 0:  73%|███████▎  | 3316/4533 [9:02:38<3:24:38, 10.09s/it, gpt_loss=0.32, loss_mean=0.293][A2026-01-26 22:50:42.452 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  73%|███████▎  | 3316/4533 [9:02:47<3:24:38, 10.09s/it, gpt_loss=0.318, loss_mean=0.296][A
+Train step of epoch 0:  73%|███████▎  | 3317/4533 [9:02:47<3:20:20,  9.89s/it, gpt_loss=0.318, loss_mean=0.296][A2026-01-26 22:50:51.897 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  73%|███████▎  | 3317/4533 [9:02:59<3:20:20,  9.89s/it, gpt_loss=0.384, loss_mean=0.305][A
+Train step of epoch 0:  73%|███████▎  | 3318/4533 [9:02:59<3:33:03, 10.52s/it, gpt_loss=0.384, loss_mean=0.305][A2026-01-26 22:51:03.881 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  73%|███████▎  | 3318/4533 [9:03:09<3:33:03, 10.52s/it, gpt_loss=0.282, loss_mean=0.302][A
+Train step of epoch 0:  73%|███████▎  | 3319/4533 [9:03:09<3:28:44, 10.32s/it, gpt_loss=0.282, loss_mean=0.302][A
+[LID Router Debug] Step: 3320
+Batch Size: 14
+Audio Batch Size: 140
+LID Assignments: [4, 5, 5, 4, 9, 0, 5, 1, 5, 2, 3, 9, 2, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 22:51:13.678 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  73%|███████▎  | 3319/4533 [9:03:18<3:28:44, 10.32s/it, gpt_loss=0.246, loss_mean=0.297][A
+Train step of epoch 0:  73%|███████▎  | 3320/4533 [9:03:18<3:19:26,  9.87s/it, gpt_loss=0.246, loss_mean=0.297][A2026-01-26 22:51:22.563 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  73%|███████▎  | 3320/4533 [9:03:27<3:19:26,  9.87s/it, gpt_loss=0.291, loss_mean=0.296][A
+Train step of epoch 0:  73%|███████▎  | 3321/4533 [9:03:27<3:15:18,  9.67s/it, gpt_loss=0.291, loss_mean=0.296][A2026-01-26 22:51:31.766 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  73%|███████▎  | 3321/4533 [9:03:37<3:15:18,  9.67s/it, gpt_loss=0.344, loss_mean=0.301][A
+Train step of epoch 0:  73%|███████▎  | 3322/4533 [9:03:37<3:15:34,  9.69s/it, gpt_loss=0.344, loss_mean=0.301][A2026-01-26 22:51:41.483 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  73%|███████▎  | 3322/4533 [9:03:49<3:15:34,  9.69s/it, gpt_loss=0.412, loss_mean=0.312][A
+Train step of epoch 0:  73%|███████▎  | 3323/4533 [9:03:49<3:28:52, 10.36s/it, gpt_loss=0.412, loss_mean=0.312][A2026-01-26 22:51:53.373 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  73%|███████▎  | 3323/4533 [9:03:58<3:28:52, 10.36s/it, gpt_loss=0.357, loss_mean=0.317][A
+Train step of epoch 0:  73%|███████▎  | 3324/4533 [9:03:58<3:24:22, 10.14s/it, gpt_loss=0.357, loss_mean=0.317][A2026-01-26 22:52:03.066 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  73%|███████▎  | 3324/4533 [9:04:07<3:24:22, 10.14s/it, gpt_loss=0.254, loss_mean=0.31] [A
+Train step of epoch 0:  73%|███████▎  | 3325/4533 [9:04:07<3:17:25,  9.81s/it, gpt_loss=0.254, loss_mean=0.31][A2026-01-26 22:52:11.876 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  73%|███████▎  | 3325/4533 [9:04:17<3:17:25,  9.81s/it, gpt_loss=0.288, loss_mean=0.308][A
+Train step of epoch 0:  73%|███████▎  | 3326/4533 [9:04:17<3:14:19,  9.66s/it, gpt_loss=0.288, loss_mean=0.308][A2026-01-26 22:52:21.265 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  73%|███████▎  | 3326/4533 [9:04:26<3:14:19,  9.66s/it, gpt_loss=0.315, loss_mean=0.309][A
+Train step of epoch 0:  73%|███████▎  | 3327/4533 [9:04:26<3:12:13,  9.56s/it, gpt_loss=0.315, loss_mean=0.309][A2026-01-26 22:52:30.689 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  73%|███████▎  | 3327/4533 [9:04:35<3:12:13,  9.56s/it, gpt_loss=0.291, loss_mean=0.307][A
+Train step of epoch 0:  73%|███████▎  | 3328/4533 [9:04:35<3:07:51,  9.35s/it, gpt_loss=0.291, loss_mean=0.307][A2026-01-26 22:52:39.652 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  73%|███████▎  | 3328/4533 [9:04:44<3:07:51,  9.35s/it, gpt_loss=0.279, loss_mean=0.304][A
+Train step of epoch 0:  73%|███████▎  | 3329/4533 [9:04:44<3:08:55,  9.41s/it, gpt_loss=0.279, loss_mean=0.304][A
+[LID Router Debug] Step: 3330
+Batch Size: 14
+Audio Batch Size: 135
+LID Assignments: [1, 0, 4, 3, 2, 6, 2, 3, 1, 0, 2, 4, 6, 6]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6}
+2026-01-26 22:52:49.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  73%|███████▎  | 3329/4533 [9:04:53<3:08:55,  9.41s/it, gpt_loss=0.268, loss_mean=0.301][A
+Train step of epoch 0:  73%|███████▎  | 3330/4533 [9:04:53<3:06:12,  9.29s/it, gpt_loss=0.268, loss_mean=0.301][A2026-01-26 22:52:57.893 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  73%|███████▎  | 3330/4533 [9:05:03<3:06:12,  9.29s/it, gpt_loss=0.3, loss_mean=0.301]  [A
+Train step of epoch 0:  73%|███████▎  | 3331/4533 [9:05:03<3:08:18,  9.40s/it, gpt_loss=0.3, loss_mean=0.301][A2026-01-26 22:53:07.660 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  73%|███████▎  | 3331/4533 [9:05:12<3:08:18,  9.40s/it, gpt_loss=0.26, loss_mean=0.297][A
+Train step of epoch 0:  74%|███████▎  | 3332/4533 [9:05:12<3:07:16,  9.36s/it, gpt_loss=0.26, loss_mean=0.297][A2026-01-26 22:53:17.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  74%|███████▎  | 3332/4533 [9:05:21<3:07:16,  9.36s/it, gpt_loss=0.319, loss_mean=0.299][A
+Train step of epoch 0:  74%|███████▎  | 3333/4533 [9:05:21<3:04:01,  9.20s/it, gpt_loss=0.319, loss_mean=0.299][A2026-01-26 22:53:25.876 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  74%|███████▎  | 3333/4533 [9:05:30<3:04:01,  9.20s/it, gpt_loss=0.322, loss_mean=0.301][A
+Train step of epoch 0:  74%|███████▎  | 3334/4533 [9:05:30<3:01:32,  9.08s/it, gpt_loss=0.322, loss_mean=0.301][A2026-01-26 22:53:34.693 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  74%|███████▎  | 3334/4533 [9:05:40<3:01:32,  9.08s/it, gpt_loss=0.312, loss_mean=0.302][A
+Train step of epoch 0:  74%|███████▎  | 3335/4533 [9:05:40<3:05:06,  9.27s/it, gpt_loss=0.312, loss_mean=0.302][A2026-01-26 22:53:44.366 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  74%|███████▎  | 3335/4533 [9:05:52<3:05:06,  9.27s/it, gpt_loss=0.343, loss_mean=0.306][A
+Train step of epoch 0:  74%|███████▎  | 3336/4533 [9:05:52<3:20:42, 10.06s/it, gpt_loss=0.343, loss_mean=0.306][A2026-01-26 22:53:56.200 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  74%|███████▎  | 3336/4533 [9:06:01<3:20:42, 10.06s/it, gpt_loss=0.309, loss_mean=0.306][A
+Train step of epoch 0:  74%|███████▎  | 3337/4533 [9:06:01<3:14:12,  9.74s/it, gpt_loss=0.309, loss_mean=0.306][A2026-01-26 22:54:05.284 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  74%|███████▎  | 3337/4533 [9:06:10<3:14:12,  9.74s/it, gpt_loss=0.323, loss_mean=0.308][A
+Train step of epoch 0:  74%|███████▎  | 3338/4533 [9:06:10<3:13:44,  9.73s/it, gpt_loss=0.323, loss_mean=0.308][A2026-01-26 22:54:14.972 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  74%|███████▎  | 3338/4533 [9:06:20<3:13:44,  9.73s/it, gpt_loss=0.334, loss_mean=0.311][A
+Train step of epoch 0:  74%|███████▎  | 3339/4533 [9:06:20<3:13:23,  9.72s/it, gpt_loss=0.334, loss_mean=0.311][A
+[LID Router Debug] Step: 3340
+Batch Size: 14
+Audio Batch Size: 154
+LID Assignments: [2, 9, 0, 9, 9, 3, 5, 2, 5, 9, 9, 4, 6, 2]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-26 22:54:24.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  74%|███████▎  | 3339/4533 [9:06:32<3:13:23,  9.72s/it, gpt_loss=0.432, loss_mean=0.323][A
+Train step of epoch 0:  74%|███████▎  | 3340/4533 [9:06:32<3:25:05, 10.31s/it, gpt_loss=0.432, loss_mean=0.323][A2026-01-26 22:54:36.188 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  74%|███████▎  | 3340/4533 [9:06:41<3:25:05, 10.31s/it, gpt_loss=0.317, loss_mean=0.322][A
+Train step of epoch 0:  74%|███████▎  | 3341/4533 [9:06:41<3:19:23, 10.04s/it, gpt_loss=0.317, loss_mean=0.322][A2026-01-26 22:54:45.578 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  74%|███████▎  | 3341/4533 [9:06:51<3:19:23, 10.04s/it, gpt_loss=0.365, loss_mean=0.327][A
+Train step of epoch 0:  74%|███████▎  | 3342/4533 [9:06:51<3:16:14,  9.89s/it, gpt_loss=0.365, loss_mean=0.327][A2026-01-26 22:54:54.751 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  74%|███████▎  | 3342/4533 [9:07:02<3:16:14,  9.89s/it, gpt_loss=0.342, loss_mean=0.328][A
+Train step of epoch 0:  74%|███████▎  | 3343/4533 [9:07:02<3:25:05, 10.34s/it, gpt_loss=0.342, loss_mean=0.328][A2026-01-26 22:55:06.692 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  74%|███████▎  | 3343/4533 [9:07:14<3:25:05, 10.34s/it, gpt_loss=0.33, loss_mean=0.328] [A
+Train step of epoch 0:  74%|███████▍  | 3344/4533 [9:07:14<3:32:49, 10.74s/it, gpt_loss=0.33, loss_mean=0.328][A2026-01-26 22:55:18.172 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  74%|███████▍  | 3344/4533 [9:07:25<3:32:49, 10.74s/it, gpt_loss=0.339, loss_mean=0.329][A
+Train step of epoch 0:  74%|███████▍  | 3345/4533 [9:07:25<3:38:07, 11.02s/it, gpt_loss=0.339, loss_mean=0.329][A2026-01-26 22:55:29.865 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  74%|███████▍  | 3345/4533 [9:07:35<3:38:07, 11.02s/it, gpt_loss=0.234, loss_mean=0.32] [A
+Train step of epoch 0:  74%|███████▍  | 3346/4533 [9:07:35<3:27:34, 10.49s/it, gpt_loss=0.234, loss_mean=0.32][A2026-01-26 22:55:39.205 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  74%|███████▍  | 3346/4533 [9:07:44<3:27:34, 10.49s/it, gpt_loss=0.252, loss_mean=0.313][A
+Train step of epoch 0:  74%|███████▍  | 3347/4533 [9:07:44<3:21:54, 10.21s/it, gpt_loss=0.252, loss_mean=0.313][A2026-01-26 22:55:48.883 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  74%|███████▍  | 3347/4533 [9:07:54<3:21:54, 10.21s/it, gpt_loss=0.389, loss_mean=0.321][A
+Train step of epoch 0:  74%|███████▍  | 3348/4533 [9:07:54<3:18:09, 10.03s/it, gpt_loss=0.389, loss_mean=0.321][A2026-01-26 22:55:58.464 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  74%|███████▍  | 3348/4533 [9:08:03<3:18:09, 10.03s/it, gpt_loss=0.346, loss_mean=0.323][A
+Train step of epoch 0:  74%|███████▍  | 3349/4533 [9:08:03<3:10:55,  9.67s/it, gpt_loss=0.346, loss_mean=0.323][A
+[LID Router Debug] Step: 3350
+Batch Size: 14
+Audio Batch Size: 113
+LID Assignments: [6, 1, 5, 0, 1, 9, 9, 4, 9, 4, 4, 1, 9, 9]
+Active Experts in Batch: {0, 1, 4, 5, 6, 9}
+2026-01-26 22:56:07.355 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  74%|███████▍  | 3349/4533 [9:08:13<3:10:55,  9.67s/it, gpt_loss=0.414, loss_mean=0.332][A
+Train step of epoch 0:  74%|███████▍  | 3350/4533 [9:08:13<3:11:51,  9.73s/it, gpt_loss=0.414, loss_mean=0.332][A2026-01-26 22:56:16.895 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  74%|███████▍  | 3350/4533 [9:08:22<3:11:51,  9.73s/it, gpt_loss=0.282, loss_mean=0.327][A
+Train step of epoch 0:  74%|███████▍  | 3351/4533 [9:08:22<3:09:50,  9.64s/it, gpt_loss=0.282, loss_mean=0.327][A2026-01-26 22:56:26.661 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  74%|███████▍  | 3351/4533 [9:08:32<3:09:50,  9.64s/it, gpt_loss=0.417, loss_mean=0.336][A
+Train step of epoch 0:  74%|███████▍  | 3352/4533 [9:08:32<3:11:18,  9.72s/it, gpt_loss=0.417, loss_mean=0.336][A2026-01-26 22:56:36.391 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  74%|███████▍  | 3352/4533 [9:08:41<3:11:18,  9.72s/it, gpt_loss=0.304, loss_mean=0.333][A
+Train step of epoch 0:  74%|███████▍  | 3353/4533 [9:08:41<3:07:03,  9.51s/it, gpt_loss=0.304, loss_mean=0.333][A2026-01-26 22:56:45.496 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  74%|███████▍  | 3353/4533 [9:08:51<3:07:03,  9.51s/it, gpt_loss=0.355, loss_mean=0.335][A
+Train step of epoch 0:  74%|███████▍  | 3354/4533 [9:08:51<3:07:58,  9.57s/it, gpt_loss=0.355, loss_mean=0.335][A2026-01-26 22:56:55.259 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  74%|███████▍  | 3354/4533 [9:09:02<3:07:58,  9.57s/it, gpt_loss=0.383, loss_mean=0.34] [A
+Train step of epoch 0:  74%|███████▍  | 3355/4533 [9:09:02<3:21:07, 10.24s/it, gpt_loss=0.383, loss_mean=0.34][A2026-01-26 22:57:06.704 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  74%|███████▍  | 3355/4533 [9:09:14<3:21:07, 10.24s/it, gpt_loss=0.328, loss_mean=0.339][A
+Train step of epoch 0:  74%|███████▍  | 3356/4533 [9:09:14<3:30:29, 10.73s/it, gpt_loss=0.328, loss_mean=0.339][A2026-01-26 22:57:18.882 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  74%|███████▍  | 3356/4533 [9:09:26<3:30:29, 10.73s/it, gpt_loss=0.34, loss_mean=0.339] [A
+Train step of epoch 0:  74%|███████▍  | 3357/4533 [9:09:26<3:38:00, 11.12s/it, gpt_loss=0.34, loss_mean=0.339][A2026-01-26 22:57:30.986 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  74%|███████▍  | 3357/4533 [9:09:38<3:38:00, 11.12s/it, gpt_loss=0.33, loss_mean=0.338][A
+Train step of epoch 0:  74%|███████▍  | 3358/4533 [9:09:38<3:41:21, 11.30s/it, gpt_loss=0.33, loss_mean=0.338][A2026-01-26 22:57:42.284 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  74%|███████▍  | 3358/4533 [9:09:47<3:41:21, 11.30s/it, gpt_loss=0.25, loss_mean=0.329][A
+Train step of epoch 0:  74%|███████▍  | 3359/4533 [9:09:47<3:25:15, 10.49s/it, gpt_loss=0.25, loss_mean=0.329][A
+[LID Router Debug] Step: 3360
+Batch Size: 14
+Audio Batch Size: 162
+LID Assignments: [5, 5, 5, 3, 9, 3, 4, 4, 5, 9, 3, 2, 2, 2]
+Active Experts in Batch: {2, 3, 4, 5, 9}
+2026-01-26 22:57:51.188 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  74%|███████▍  | 3359/4533 [9:09:58<3:25:15, 10.49s/it, gpt_loss=0.327, loss_mean=0.329][A
+Train step of epoch 0:  74%|███████▍  | 3360/4533 [9:09:58<3:32:33, 10.87s/it, gpt_loss=0.327, loss_mean=0.329][A2026-01-26 22:58:02.688 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  74%|███████▍  | 3360/4533 [9:10:07<3:32:33, 10.87s/it, gpt_loss=0.319, loss_mean=0.328][A
+Train step of epoch 0:  74%|███████▍  | 3361/4533 [9:10:07<3:18:15, 10.15s/it, gpt_loss=0.319, loss_mean=0.328][A2026-01-26 22:58:11.380 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  74%|███████▍  | 3361/4533 [9:10:19<3:18:15, 10.15s/it, gpt_loss=0.358, loss_mean=0.331][A
+Train step of epoch 0:  74%|███████▍  | 3362/4533 [9:10:19<3:28:21, 10.68s/it, gpt_loss=0.358, loss_mean=0.331][A2026-01-26 22:58:23.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  74%|███████▍  | 3362/4533 [9:10:30<3:28:21, 10.68s/it, gpt_loss=0.336, loss_mean=0.331][A
+Train step of epoch 0:  74%|███████▍  | 3363/4533 [9:10:30<3:33:51, 10.97s/it, gpt_loss=0.336, loss_mean=0.331][A2026-01-26 22:58:35.070 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  74%|███████▍  | 3363/4533 [9:10:40<3:33:51, 10.97s/it, gpt_loss=0.345, loss_mean=0.333][A
+Train step of epoch 0:  74%|███████▍  | 3364/4533 [9:10:40<3:26:35, 10.60s/it, gpt_loss=0.345, loss_mean=0.333][A2026-01-26 22:58:44.780 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  74%|███████▍  | 3364/4533 [9:10:50<3:26:35, 10.60s/it, gpt_loss=0.278, loss_mean=0.327][A
+Train step of epoch 0:  74%|███████▍  | 3365/4533 [9:10:50<3:19:07, 10.23s/it, gpt_loss=0.278, loss_mean=0.327][A2026-01-26 22:58:53.888 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  74%|███████▍  | 3365/4533 [9:10:58<3:19:07, 10.23s/it, gpt_loss=0.29, loss_mean=0.324] [A
+Train step of epoch 0:  74%|███████▍  | 3366/4533 [9:10:58<3:10:05,  9.77s/it, gpt_loss=0.29, loss_mean=0.324][A2026-01-26 22:59:02.755 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  74%|███████▍  | 3366/4533 [9:11:07<3:10:05,  9.77s/it, gpt_loss=0.252, loss_mean=0.316][A
+Train step of epoch 0:  74%|███████▍  | 3367/4533 [9:11:07<3:04:31,  9.50s/it, gpt_loss=0.252, loss_mean=0.316][A2026-01-26 22:59:11.759 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  74%|███████▍  | 3367/4533 [9:11:19<3:04:31,  9.50s/it, gpt_loss=0.314, loss_mean=0.316][A
+Train step of epoch 0:  74%|███████▍  | 3368/4533 [9:11:19<3:16:54, 10.14s/it, gpt_loss=0.314, loss_mean=0.316][A2026-01-26 22:59:23.193 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  74%|███████▍  | 3368/4533 [9:11:28<3:16:54, 10.14s/it, gpt_loss=0.252, loss_mean=0.31] [A
+Train step of epoch 0:  74%|███████▍  | 3369/4533 [9:11:28<3:09:36,  9.77s/it, gpt_loss=0.252, loss_mean=0.31][A
+[LID Router Debug] Step: 3370
+Batch Size: 14
+Audio Batch Size: 167
+LID Assignments: [2, 3, 0, 2, 6, 5, 2, 2, 1, 3, 1, 2, 5, 3]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6}
+2026-01-26 22:59:32.296 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  74%|███████▍  | 3369/4533 [9:11:37<3:09:36,  9.77s/it, gpt_loss=0.309, loss_mean=0.31][A
+Train step of epoch 0:  74%|███████▍  | 3370/4533 [9:11:37<3:04:10,  9.50s/it, gpt_loss=0.309, loss_mean=0.31][A2026-01-26 22:59:40.796 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  74%|███████▍  | 3370/4533 [9:11:45<3:04:10,  9.50s/it, gpt_loss=0.271, loss_mean=0.306][A
+Train step of epoch 0:  74%|███████▍  | 3371/4533 [9:11:45<2:59:38,  9.28s/it, gpt_loss=0.271, loss_mean=0.306][A2026-01-26 22:59:49.655 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  74%|███████▍  | 3371/4533 [9:11:54<2:59:38,  9.28s/it, gpt_loss=0.269, loss_mean=0.302][A
+Train step of epoch 0:  74%|███████▍  | 3372/4533 [9:11:54<2:57:11,  9.16s/it, gpt_loss=0.269, loss_mean=0.302][A2026-01-26 22:59:58.777 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  74%|███████▍  | 3372/4533 [9:12:06<2:57:11,  9.16s/it, gpt_loss=0.392, loss_mean=0.311][A
+Train step of epoch 0:  74%|███████▍  | 3373/4533 [9:12:06<3:11:44,  9.92s/it, gpt_loss=0.392, loss_mean=0.311][A2026-01-26 23:00:10.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  74%|███████▍  | 3373/4533 [9:12:15<3:11:44,  9.92s/it, gpt_loss=0.393, loss_mean=0.319][A
+Train step of epoch 0:  74%|███████▍  | 3374/4533 [9:12:15<3:05:12,  9.59s/it, gpt_loss=0.393, loss_mean=0.319][A2026-01-26 23:00:19.283 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  74%|███████▍  | 3374/4533 [9:12:24<3:05:12,  9.59s/it, gpt_loss=0.3, loss_mean=0.317]  [A
+Train step of epoch 0:  74%|███████▍  | 3375/4533 [9:12:24<3:06:09,  9.65s/it, gpt_loss=0.3, loss_mean=0.317][A2026-01-26 23:00:28.958 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  74%|███████▍  | 3375/4533 [9:12:34<3:06:09,  9.65s/it, gpt_loss=0.377, loss_mean=0.323][A
+Train step of epoch 0:  74%|███████▍  | 3376/4533 [9:12:34<3:05:41,  9.63s/it, gpt_loss=0.377, loss_mean=0.323][A2026-01-26 23:00:38.592 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  74%|███████▍  | 3376/4533 [9:12:43<3:05:41,  9.63s/it, gpt_loss=0.279, loss_mean=0.319][A
+Train step of epoch 0:  74%|███████▍  | 3377/4533 [9:12:43<3:02:02,  9.45s/it, gpt_loss=0.279, loss_mean=0.319][A2026-01-26 23:00:47.461 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  74%|███████▍  | 3377/4533 [9:12:52<3:02:02,  9.45s/it, gpt_loss=0.287, loss_mean=0.316][A
+Train step of epoch 0:  75%|███████▍  | 3378/4533 [9:12:52<2:57:39,  9.23s/it, gpt_loss=0.287, loss_mean=0.316][A2026-01-26 23:00:56.187 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  75%|███████▍  | 3378/4533 [9:13:01<2:57:39,  9.23s/it, gpt_loss=0.265, loss_mean=0.311][A
+Train step of epoch 0:  75%|███████▍  | 3379/4533 [9:13:01<2:56:11,  9.16s/it, gpt_loss=0.265, loss_mean=0.311][A
+[LID Router Debug] Step: 3380
+Batch Size: 14
+Audio Batch Size: 132
+LID Assignments: [5, 5, 1, 5, 1, 4, 5, 0, 0, 0, 4, 3, 2, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5}
+2026-01-26 23:01:05.392 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  75%|███████▍  | 3379/4533 [9:13:10<2:56:11,  9.16s/it, gpt_loss=0.264, loss_mean=0.306][A
+Train step of epoch 0:  75%|███████▍  | 3380/4533 [9:13:10<2:55:41,  9.14s/it, gpt_loss=0.264, loss_mean=0.306][A2026-01-26 23:01:14.465 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  75%|███████▍  | 3380/4533 [9:13:19<2:55:41,  9.14s/it, gpt_loss=0.259, loss_mean=0.301][A
+Train step of epoch 0:  75%|███████▍  | 3381/4533 [9:13:19<2:55:39,  9.15s/it, gpt_loss=0.259, loss_mean=0.301][A2026-01-26 23:01:23.585 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  75%|███████▍  | 3381/4533 [9:13:28<2:55:39,  9.15s/it, gpt_loss=0.33, loss_mean=0.304] [A
+Train step of epoch 0:  75%|███████▍  | 3382/4533 [9:13:28<2:54:05,  9.07s/it, gpt_loss=0.33, loss_mean=0.304][A2026-01-26 23:01:32.496 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  75%|███████▍  | 3382/4533 [9:13:40<2:54:05,  9.07s/it, gpt_loss=0.322, loss_mean=0.306][A
+Train step of epoch 0:  75%|███████▍  | 3383/4533 [9:13:40<3:09:52,  9.91s/it, gpt_loss=0.322, loss_mean=0.306][A2026-01-26 23:01:44.379 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  75%|███████▍  | 3383/4533 [9:13:52<3:09:52,  9.91s/it, gpt_loss=0.372, loss_mean=0.313][A
+Train step of epoch 0:  75%|███████▍  | 3384/4533 [9:13:52<3:20:15, 10.46s/it, gpt_loss=0.372, loss_mean=0.313][A2026-01-26 23:01:55.886 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  75%|███████▍  | 3384/4533 [9:14:03<3:20:15, 10.46s/it, gpt_loss=0.275, loss_mean=0.309][A
+Train step of epoch 0:  75%|███████▍  | 3385/4533 [9:14:03<3:28:06, 10.88s/it, gpt_loss=0.275, loss_mean=0.309][A2026-01-26 23:02:07.967 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  75%|███████▍  | 3385/4533 [9:14:15<3:28:06, 10.88s/it, gpt_loss=0.397, loss_mean=0.318][A
+Train step of epoch 0:  75%|███████▍  | 3386/4533 [9:14:15<3:34:29, 11.22s/it, gpt_loss=0.397, loss_mean=0.318][A2026-01-26 23:02:20.096 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  75%|███████▍  | 3386/4533 [9:14:24<3:34:29, 11.22s/it, gpt_loss=0.33, loss_mean=0.319] [A
+Train step of epoch 0:  75%|███████▍  | 3387/4533 [9:14:24<3:21:09, 10.53s/it, gpt_loss=0.33, loss_mean=0.319][A2026-01-26 23:02:28.976 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  75%|███████▍  | 3387/4533 [9:14:33<3:21:09, 10.53s/it, gpt_loss=0.312, loss_mean=0.318][A
+Train step of epoch 0:  75%|███████▍  | 3388/4533 [9:14:33<3:11:22, 10.03s/it, gpt_loss=0.312, loss_mean=0.318][A2026-01-26 23:02:37.798 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  75%|███████▍  | 3388/4533 [9:14:45<3:11:22, 10.03s/it, gpt_loss=0.327, loss_mean=0.319][A
+Train step of epoch 0:  75%|███████▍  | 3389/4533 [9:14:45<3:23:46, 10.69s/it, gpt_loss=0.327, loss_mean=0.319][A
+[LID Router Debug] Step: 3390
+Batch Size: 14
+Audio Batch Size: 179
+LID Assignments: [5, 4, 2, 1, 9, 5, 9, 3, 4, 2, 9, 3, 4, 3]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-26 23:02:49.782 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  75%|███████▍  | 3389/4533 [9:14:57<3:23:46, 10.69s/it, gpt_loss=0.308, loss_mean=0.318][A
+Train step of epoch 0:  75%|███████▍  | 3390/4533 [9:14:57<3:30:08, 11.03s/it, gpt_loss=0.308, loss_mean=0.318][A2026-01-26 23:03:01.896 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  75%|███████▍  | 3390/4533 [9:15:07<3:30:08, 11.03s/it, gpt_loss=0.266, loss_mean=0.313][A
+Train step of epoch 0:  75%|███████▍  | 3391/4533 [9:15:07<3:21:24, 10.58s/it, gpt_loss=0.266, loss_mean=0.313][A2026-01-26 23:03:11.395 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  75%|███████▍  | 3391/4533 [9:15:19<3:21:24, 10.58s/it, gpt_loss=0.309, loss_mean=0.312][A
+Train step of epoch 0:  75%|███████▍  | 3392/4533 [9:15:19<3:27:48, 10.93s/it, gpt_loss=0.309, loss_mean=0.312][A2026-01-26 23:03:23.088 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  75%|███████▍  | 3392/4533 [9:15:28<3:27:48, 10.93s/it, gpt_loss=0.306, loss_mean=0.312][A
+Train step of epoch 0:  75%|███████▍  | 3393/4533 [9:15:28<3:18:28, 10.45s/it, gpt_loss=0.306, loss_mean=0.312][A2026-01-26 23:03:32.103 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  75%|███████▍  | 3393/4533 [9:15:39<3:18:28, 10.45s/it, gpt_loss=0.396, loss_mean=0.32] [A
+Train step of epoch 0:  75%|███████▍  | 3394/4533 [9:15:39<3:23:48, 10.74s/it, gpt_loss=0.396, loss_mean=0.32][A2026-01-26 23:03:43.898 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  75%|███████▍  | 3394/4533 [9:15:49<3:23:48, 10.74s/it, gpt_loss=0.279, loss_mean=0.316][A
+Train step of epoch 0:  75%|███████▍  | 3395/4533 [9:15:49<3:17:50, 10.43s/it, gpt_loss=0.279, loss_mean=0.316][A2026-01-26 23:03:53.577 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  75%|███████▍  | 3395/4533 [9:15:58<3:17:50, 10.43s/it, gpt_loss=0.275, loss_mean=0.312][A
+Train step of epoch 0:  75%|███████▍  | 3396/4533 [9:15:58<3:09:25, 10.00s/it, gpt_loss=0.275, loss_mean=0.312][A2026-01-26 23:04:02.588 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  75%|███████▍  | 3396/4533 [9:16:08<3:09:25, 10.00s/it, gpt_loss=0.227, loss_mean=0.303][A
+Train step of epoch 0:  75%|███████▍  | 3397/4533 [9:16:08<3:08:22,  9.95s/it, gpt_loss=0.227, loss_mean=0.303][A2026-01-26 23:04:12.497 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  75%|███████▍  | 3397/4533 [9:16:17<3:08:22,  9.95s/it, gpt_loss=0.348, loss_mean=0.308][A
+Train step of epoch 0:  75%|███████▍  | 3398/4533 [9:16:17<3:03:32,  9.70s/it, gpt_loss=0.348, loss_mean=0.308][A2026-01-26 23:04:21.662 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  75%|███████▍  | 3398/4533 [9:16:27<3:03:32,  9.70s/it, gpt_loss=0.295, loss_mean=0.307][A
+Train step of epoch 0:  75%|███████▍  | 3399/4533 [9:16:27<3:03:32,  9.71s/it, gpt_loss=0.295, loss_mean=0.307][A
+[LID Router Debug] Step: 3400
+Batch Size: 14
+Audio Batch Size: 164
+LID Assignments: [3, 1, 1, 4, 2, 2, 3, 4, 5, 1, 3, 6, 11, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 11}
+2026-01-26 23:04:31.363 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-26 23:04:42,700] [INFO] [logging.py:96:log_dist] [Rank 0] step=3400, skipped=0, lr=[1.7236949993665773e-05, 1.7236949993665773e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 23:04:42,701] [INFO] [timer.py:260:stop] epoch=0/micro_step=3400/global_step=3400, RunningAvgSamplesPerSec=5.720824304462506, CurrSamplesPerSec=4.626573612694327, MemAllocated=14.48GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  75%|███████▍  | 3399/4533 [9:16:39<3:03:32,  9.71s/it, gpt_loss=0.371, loss_mean=0.313][A
+Train step of epoch 0:  75%|███████▌  | 3400/4533 [9:16:39<3:17:02, 10.43s/it, gpt_loss=0.371, loss_mean=0.313][A2026-01-26 23:04:43.070 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  75%|███████▌  | 3400/4533 [9:16:48<3:17:02, 10.43s/it, gpt_loss=0.33, loss_mean=0.315] [A
+Train step of epoch 0:  75%|███████▌  | 3401/4533 [9:16:48<3:07:58,  9.96s/it, gpt_loss=0.33, loss_mean=0.315][A2026-01-26 23:04:52.373 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  75%|███████▌  | 3401/4533 [9:16:57<3:07:58,  9.96s/it, gpt_loss=0.252, loss_mean=0.308][A
+Train step of epoch 0:  75%|███████▌  | 3402/4533 [9:16:57<3:04:50,  9.81s/it, gpt_loss=0.252, loss_mean=0.308][A2026-01-26 23:05:01.684 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  75%|███████▌  | 3402/4533 [9:17:09<3:04:50,  9.81s/it, gpt_loss=0.374, loss_mean=0.315][A
+Train step of epoch 0:  75%|███████▌  | 3403/4533 [9:17:09<3:15:53, 10.40s/it, gpt_loss=0.374, loss_mean=0.315][A2026-01-26 23:05:13.369 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  75%|███████▌  | 3403/4533 [9:17:18<3:15:53, 10.40s/it, gpt_loss=0.268, loss_mean=0.31] [A
+Train step of epoch 0:  75%|███████▌  | 3404/4533 [9:17:18<3:10:42, 10.13s/it, gpt_loss=0.268, loss_mean=0.31][A2026-01-26 23:05:22.784 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  75%|███████▌  | 3404/4533 [9:17:27<3:10:42, 10.13s/it, gpt_loss=0.269, loss_mean=0.306][A
+Train step of epoch 0:  75%|███████▌  | 3405/4533 [9:17:27<3:01:55,  9.68s/it, gpt_loss=0.269, loss_mean=0.306][A2026-01-26 23:05:31.052 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  75%|███████▌  | 3405/4533 [9:17:35<3:01:55,  9.68s/it, gpt_loss=0.245, loss_mean=0.3]  [A
+Train step of epoch 0:  75%|███████▌  | 3406/4533 [9:17:35<2:54:26,  9.29s/it, gpt_loss=0.245, loss_mean=0.3][A2026-01-26 23:05:39.369 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  75%|███████▌  | 3406/4533 [9:17:45<2:54:26,  9.29s/it, gpt_loss=0.332, loss_mean=0.303][A
+Train step of epoch 0:  75%|███████▌  | 3407/4533 [9:17:45<2:53:46,  9.26s/it, gpt_loss=0.332, loss_mean=0.303][A2026-01-26 23:05:48.888 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  75%|███████▌  | 3407/4533 [9:17:53<2:53:46,  9.26s/it, gpt_loss=0.292, loss_mean=0.302][A
+Train step of epoch 0:  75%|███████▌  | 3408/4533 [9:17:53<2:50:11,  9.08s/it, gpt_loss=0.292, loss_mean=0.302][A2026-01-26 23:05:57.674 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  75%|███████▌  | 3408/4533 [9:18:03<2:50:11,  9.08s/it, gpt_loss=0.299, loss_mean=0.302][A
+Train step of epoch 0:  75%|███████▌  | 3409/4533 [9:18:03<2:52:24,  9.20s/it, gpt_loss=0.299, loss_mean=0.302][A
+[LID Router Debug] Step: 3410
+Batch Size: 14
+Audio Batch Size: 189
+LID Assignments: [3, 3, 0, 9, 9, 0, 3, 0, 9, 9, 1, 2, 5, 1]
+Active Experts in Batch: {0, 1, 2, 3, 5, 9}
+2026-01-26 23:06:07.398 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  75%|███████▌  | 3409/4533 [9:18:15<2:52:24,  9.20s/it, gpt_loss=0.384, loss_mean=0.31] [A
+Train step of epoch 0:  75%|███████▌  | 3410/4533 [9:18:15<3:07:11, 10.00s/it, gpt_loss=0.384, loss_mean=0.31][A2026-01-26 23:06:19.087 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  75%|███████▌  | 3410/4533 [9:18:23<3:07:11, 10.00s/it, gpt_loss=0.242, loss_mean=0.303][A
+Train step of epoch 0:  75%|███████▌  | 3411/4533 [9:18:23<2:59:50,  9.62s/it, gpt_loss=0.242, loss_mean=0.303][A2026-01-26 23:06:27.980 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  75%|███████▌  | 3411/4533 [9:18:36<2:59:50,  9.62s/it, gpt_loss=0.389, loss_mean=0.312][A
+Train step of epoch 0:  75%|███████▌  | 3412/4533 [9:18:36<3:14:18, 10.40s/it, gpt_loss=0.389, loss_mean=0.312][A2026-01-26 23:06:40.180 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  75%|███████▌  | 3412/4533 [9:18:44<3:14:18, 10.40s/it, gpt_loss=0.293, loss_mean=0.31] [A
+Train step of epoch 0:  75%|███████▌  | 3413/4533 [9:18:44<3:05:24,  9.93s/it, gpt_loss=0.293, loss_mean=0.31][A2026-01-26 23:06:48.853 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  75%|███████▌  | 3413/4533 [9:18:53<3:05:24,  9.93s/it, gpt_loss=0.265, loss_mean=0.305][A
+Train step of epoch 0:  75%|███████▌  | 3414/4533 [9:18:53<2:57:52,  9.54s/it, gpt_loss=0.265, loss_mean=0.305][A2026-01-26 23:06:57.586 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  75%|███████▌  | 3414/4533 [9:19:02<2:57:52,  9.54s/it, gpt_loss=0.266, loss_mean=0.301][A
+Train step of epoch 0:  75%|███████▌  | 3415/4533 [9:19:02<2:56:44,  9.48s/it, gpt_loss=0.266, loss_mean=0.301][A2026-01-26 23:07:06.894 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  75%|███████▌  | 3415/4533 [9:19:12<2:56:44,  9.48s/it, gpt_loss=0.277, loss_mean=0.299][A
+Train step of epoch 0:  75%|███████▌  | 3416/4533 [9:19:12<2:55:13,  9.41s/it, gpt_loss=0.277, loss_mean=0.299][A2026-01-26 23:07:16.281 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  75%|███████▌  | 3416/4533 [9:19:21<2:55:13,  9.41s/it, gpt_loss=0.277, loss_mean=0.297][A
+Train step of epoch 0:  75%|███████▌  | 3417/4533 [9:19:21<2:56:45,  9.50s/it, gpt_loss=0.277, loss_mean=0.297][A2026-01-26 23:07:25.982 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  75%|███████▌  | 3417/4533 [9:19:30<2:56:45,  9.50s/it, gpt_loss=0.236, loss_mean=0.291][A
+Train step of epoch 0:  75%|███████▌  | 3418/4533 [9:19:30<2:53:06,  9.32s/it, gpt_loss=0.236, loss_mean=0.291][A2026-01-26 23:07:34.476 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  75%|███████▌  | 3418/4533 [9:19:39<2:53:06,  9.32s/it, gpt_loss=0.273, loss_mean=0.289][A
+Train step of epoch 0:  75%|███████▌  | 3419/4533 [9:19:39<2:48:55,  9.10s/it, gpt_loss=0.273, loss_mean=0.289][A
+[LID Router Debug] Step: 3420
+Batch Size: 14
+Audio Batch Size: 131
+LID Assignments: [5, 1, 2, 3, 2, 9, 5, 1, 0, 5, 9, 9, 5, 0]
+Active Experts in Batch: {0, 1, 2, 3, 5, 9}
+2026-01-26 23:07:43.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  75%|███████▌  | 3419/4533 [9:19:47<2:48:55,  9.10s/it, gpt_loss=0.388, loss_mean=0.299][A
+Train step of epoch 0:  75%|███████▌  | 3420/4533 [9:19:47<2:45:10,  8.90s/it, gpt_loss=0.388, loss_mean=0.299][A2026-01-26 23:07:51.653 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  75%|███████▌  | 3420/4533 [9:19:56<2:45:10,  8.90s/it, gpt_loss=0.331, loss_mean=0.302][A
+Train step of epoch 0:  75%|███████▌  | 3421/4533 [9:19:56<2:44:32,  8.88s/it, gpt_loss=0.331, loss_mean=0.302][A2026-01-26 23:08:00.462 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  75%|███████▌  | 3421/4533 [9:20:05<2:44:32,  8.88s/it, gpt_loss=0.294, loss_mean=0.301][A
+Train step of epoch 0:  75%|███████▌  | 3422/4533 [9:20:05<2:43:20,  8.82s/it, gpt_loss=0.294, loss_mean=0.301][A2026-01-26 23:08:09.397 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  75%|███████▌  | 3422/4533 [9:20:14<2:43:20,  8.82s/it, gpt_loss=0.287, loss_mean=0.3]  [A
+Train step of epoch 0:  76%|███████▌  | 3423/4533 [9:20:14<2:44:58,  8.92s/it, gpt_loss=0.287, loss_mean=0.3][A2026-01-26 23:08:18.569 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  76%|███████▌  | 3423/4533 [9:20:26<2:44:58,  8.92s/it, gpt_loss=0.377, loss_mean=0.308][A
+Train step of epoch 0:  76%|███████▌  | 3424/4533 [9:20:26<3:00:46,  9.78s/it, gpt_loss=0.377, loss_mean=0.308][A2026-01-26 23:08:30.359 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  76%|███████▌  | 3424/4533 [9:20:35<3:00:46,  9.78s/it, gpt_loss=0.26, loss_mean=0.303] [A
+Train step of epoch 0:  76%|███████▌  | 3425/4533 [9:20:35<2:57:19,  9.60s/it, gpt_loss=0.26, loss_mean=0.303][A2026-01-26 23:08:39.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  76%|███████▌  | 3425/4533 [9:20:47<2:57:19,  9.60s/it, gpt_loss=0.406, loss_mean=0.313][A
+Train step of epoch 0:  76%|███████▌  | 3426/4533 [9:20:47<3:09:19, 10.26s/it, gpt_loss=0.406, loss_mean=0.313][A2026-01-26 23:08:50.985 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  76%|███████▌  | 3426/4533 [9:20:56<3:09:19, 10.26s/it, gpt_loss=0.281, loss_mean=0.31] [A
+Train step of epoch 0:  76%|███████▌  | 3427/4533 [9:20:56<3:04:16, 10.00s/it, gpt_loss=0.281, loss_mean=0.31][A2026-01-26 23:09:00.698 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  76%|███████▌  | 3427/4533 [9:21:08<3:04:16, 10.00s/it, gpt_loss=0.346, loss_mean=0.314][A
+Train step of epoch 0:  76%|███████▌  | 3428/4533 [9:21:08<3:14:27, 10.56s/it, gpt_loss=0.346, loss_mean=0.314][A2026-01-26 23:09:12.464 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  76%|███████▌  | 3428/4533 [9:21:20<3:14:27, 10.56s/it, gpt_loss=0.444, loss_mean=0.327][A
+Train step of epoch 0:  76%|███████▌  | 3429/4533 [9:21:20<3:20:57, 10.92s/it, gpt_loss=0.444, loss_mean=0.327][A
+[LID Router Debug] Step: 3430
+Batch Size: 14
+Audio Batch Size: 166
+LID Assignments: [1, 5, 9, 0, 0, 6, 2, 9, 6, 4, 9, 4, 0, 4]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-26 23:09:24.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  76%|███████▌  | 3429/4533 [9:21:29<3:20:57, 10.92s/it, gpt_loss=0.331, loss_mean=0.327][A
+Train step of epoch 0:  76%|███████▌  | 3430/4533 [9:21:29<3:14:16, 10.57s/it, gpt_loss=0.331, loss_mean=0.327][A2026-01-26 23:09:33.900 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  76%|███████▌  | 3430/4533 [9:21:38<3:14:16, 10.57s/it, gpt_loss=0.274, loss_mean=0.322][A
+Train step of epoch 0:  76%|███████▌  | 3431/4533 [9:21:38<3:04:06, 10.02s/it, gpt_loss=0.274, loss_mean=0.322][A2026-01-26 23:09:42.595 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  76%|███████▌  | 3431/4533 [9:21:48<3:04:06, 10.02s/it, gpt_loss=0.305, loss_mean=0.32] [A
+Train step of epoch 0:  76%|███████▌  | 3432/4533 [9:21:48<3:00:06,  9.82s/it, gpt_loss=0.305, loss_mean=0.32][A2026-01-26 23:09:51.979 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  76%|███████▌  | 3432/4533 [9:21:57<3:00:06,  9.82s/it, gpt_loss=0.315, loss_mean=0.32][A
+Train step of epoch 0:  76%|███████▌  | 3433/4533 [9:21:57<2:58:07,  9.72s/it, gpt_loss=0.315, loss_mean=0.32][A2026-01-26 23:10:01.605 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  76%|███████▌  | 3433/4533 [9:22:06<2:58:07,  9.72s/it, gpt_loss=0.27, loss_mean=0.315][A
+Train step of epoch 0:  76%|███████▌  | 3434/4533 [9:22:06<2:55:16,  9.57s/it, gpt_loss=0.27, loss_mean=0.315][A2026-01-26 23:10:10.889 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  76%|███████▌  | 3434/4533 [9:22:19<2:55:16,  9.57s/it, gpt_loss=0.398, loss_mean=0.323][A
+Train step of epoch 0:  76%|███████▌  | 3435/4533 [9:22:19<3:10:11, 10.39s/it, gpt_loss=0.398, loss_mean=0.323][A2026-01-26 23:10:22.951 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  76%|███████▌  | 3435/4533 [9:22:27<3:10:11, 10.39s/it, gpt_loss=0.297, loss_mean=0.32] [A
+Train step of epoch 0:  76%|███████▌  | 3436/4533 [9:22:27<3:00:53,  9.89s/it, gpt_loss=0.297, loss_mean=0.32][A2026-01-26 23:10:31.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  76%|███████▌  | 3436/4533 [9:22:36<3:00:53,  9.89s/it, gpt_loss=0.252, loss_mean=0.314][A
+Train step of epoch 0:  76%|███████▌  | 3437/4533 [9:22:36<2:52:41,  9.45s/it, gpt_loss=0.252, loss_mean=0.314][A2026-01-26 23:10:40.067 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  76%|███████▌  | 3437/4533 [9:22:45<2:52:41,  9.45s/it, gpt_loss=0.23, loss_mean=0.305] [A
+Train step of epoch 0:  76%|███████▌  | 3438/4533 [9:22:45<2:49:33,  9.29s/it, gpt_loss=0.23, loss_mean=0.305][A2026-01-26 23:10:49.195 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  76%|███████▌  | 3438/4533 [9:22:56<2:49:33,  9.29s/it, gpt_loss=0.402, loss_mean=0.315][A
+Train step of epoch 0:  76%|███████▌  | 3439/4533 [9:22:56<3:03:34, 10.07s/it, gpt_loss=0.402, loss_mean=0.315][A
+[LID Router Debug] Step: 3440
+Batch Size: 14
+Audio Batch Size: 160
+LID Assignments: [9, 0, 5, 9, 2, 6, 5, 1, 9, 5, 3, 9, 0, 3]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-26 23:11:01.173 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  76%|███████▌  | 3439/4533 [9:23:06<3:03:34, 10.07s/it, gpt_loss=0.291, loss_mean=0.312][A
+Train step of epoch 0:  76%|███████▌  | 3440/4533 [9:23:06<3:00:34,  9.91s/it, gpt_loss=0.291, loss_mean=0.312][A2026-01-26 23:11:10.670 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  76%|███████▌  | 3440/4533 [9:23:15<3:00:34,  9.91s/it, gpt_loss=0.293, loss_mean=0.311][A
+Train step of epoch 0:  76%|███████▌  | 3441/4533 [9:23:15<2:55:00,  9.62s/it, gpt_loss=0.293, loss_mean=0.311][A2026-01-26 23:11:19.663 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  76%|███████▌  | 3441/4533 [9:23:25<2:55:00,  9.62s/it, gpt_loss=0.287, loss_mean=0.308][A
+Train step of epoch 0:  76%|███████▌  | 3442/4533 [9:23:25<2:55:37,  9.66s/it, gpt_loss=0.287, loss_mean=0.308][A2026-01-26 23:11:29.277 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  76%|███████▌  | 3442/4533 [9:23:37<2:55:37,  9.66s/it, gpt_loss=0.386, loss_mean=0.316][A
+Train step of epoch 0:  76%|███████▌  | 3443/4533 [9:23:37<3:08:12, 10.36s/it, gpt_loss=0.386, loss_mean=0.316][A2026-01-26 23:11:41.361 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  76%|███████▌  | 3443/4533 [9:23:46<3:08:12, 10.36s/it, gpt_loss=0.272, loss_mean=0.312][A
+Train step of epoch 0:  76%|███████▌  | 3444/4533 [9:23:46<3:03:33, 10.11s/it, gpt_loss=0.272, loss_mean=0.312][A2026-01-26 23:11:50.869 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  76%|███████▌  | 3444/4533 [9:23:55<3:03:33, 10.11s/it, gpt_loss=0.267, loss_mean=0.307][A
+Train step of epoch 0:  76%|███████▌  | 3445/4533 [9:23:55<2:55:36,  9.68s/it, gpt_loss=0.267, loss_mean=0.307][A2026-01-26 23:11:59.554 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  76%|███████▌  | 3445/4533 [9:24:04<2:55:36,  9.68s/it, gpt_loss=0.346, loss_mean=0.311][A
+Train step of epoch 0:  76%|███████▌  | 3446/4533 [9:24:04<2:51:33,  9.47s/it, gpt_loss=0.346, loss_mean=0.311][A2026-01-26 23:12:08.361 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  76%|███████▌  | 3446/4533 [9:24:13<2:51:33,  9.47s/it, gpt_loss=0.293, loss_mean=0.309][A
+Train step of epoch 0:  76%|███████▌  | 3447/4533 [9:24:13<2:48:56,  9.33s/it, gpt_loss=0.293, loss_mean=0.309][A2026-01-26 23:12:17.657 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  76%|███████▌  | 3447/4533 [9:24:22<2:48:56,  9.33s/it, gpt_loss=0.266, loss_mean=0.305][A
+Train step of epoch 0:  76%|███████▌  | 3448/4533 [9:24:22<2:46:07,  9.19s/it, gpt_loss=0.266, loss_mean=0.305][A2026-01-26 23:12:26.377 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  76%|███████▌  | 3448/4533 [9:24:31<2:46:07,  9.19s/it, gpt_loss=0.264, loss_mean=0.301][A
+Train step of epoch 0:  76%|███████▌  | 3449/4533 [9:24:31<2:44:14,  9.09s/it, gpt_loss=0.264, loss_mean=0.301][A
+[LID Router Debug] Step: 3450
+Batch Size: 14
+Audio Batch Size: 172
+LID Assignments: [2, 3, 5, 3, 5, 0, 5, 5, 9, 6, 1, 1, 0, 3]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-26 23:12:35.089 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  76%|███████▌  | 3449/4533 [9:24:39<2:44:14,  9.09s/it, gpt_loss=0.339, loss_mean=0.305][A
+Train step of epoch 0:  76%|███████▌  | 3450/4533 [9:24:39<2:42:08,  8.98s/it, gpt_loss=0.339, loss_mean=0.305][A2026-01-26 23:12:43.466 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  76%|███████▌  | 3450/4533 [9:24:48<2:42:08,  8.98s/it, gpt_loss=0.305, loss_mean=0.305][A
+Train step of epoch 0:  76%|███████▌  | 3451/4533 [9:24:48<2:38:50,  8.81s/it, gpt_loss=0.305, loss_mean=0.305][A2026-01-26 23:12:52.076 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  76%|███████▌  | 3451/4533 [9:25:00<2:38:50,  8.81s/it, gpt_loss=0.37, loss_mean=0.311] [A
+Train step of epoch 0:  76%|███████▌  | 3452/4533 [9:25:00<2:56:30,  9.80s/it, gpt_loss=0.37, loss_mean=0.311][A2026-01-26 23:13:04.275 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  76%|███████▌  | 3452/4533 [9:25:09<2:56:30,  9.80s/it, gpt_loss=0.278, loss_mean=0.308][A
+Train step of epoch 0:  76%|███████▌  | 3453/4533 [9:25:09<2:51:05,  9.51s/it, gpt_loss=0.278, loss_mean=0.308][A2026-01-26 23:13:13.361 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  76%|███████▌  | 3453/4533 [9:25:21<2:51:05,  9.51s/it, gpt_loss=0.395, loss_mean=0.317][A
+Train step of epoch 0:  76%|███████▌  | 3454/4533 [9:25:21<3:04:26, 10.26s/it, gpt_loss=0.395, loss_mean=0.317][A2026-01-26 23:13:25.058 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  76%|███████▌  | 3454/4533 [9:25:30<3:04:26, 10.26s/it, gpt_loss=0.298, loss_mean=0.315][A
+Train step of epoch 0:  76%|███████▌  | 3455/4533 [9:25:30<2:58:56,  9.96s/it, gpt_loss=0.298, loss_mean=0.315][A2026-01-26 23:13:34.589 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  76%|███████▌  | 3455/4533 [9:25:40<2:58:56,  9.96s/it, gpt_loss=0.351, loss_mean=0.318][A
+Train step of epoch 0:  76%|███████▌  | 3456/4533 [9:25:40<2:57:25,  9.88s/it, gpt_loss=0.351, loss_mean=0.318][A2026-01-26 23:13:44.284 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  76%|███████▌  | 3456/4533 [9:25:49<2:57:25,  9.88s/it, gpt_loss=0.258, loss_mean=0.312][A
+Train step of epoch 0:  76%|███████▋  | 3457/4533 [9:25:49<2:56:42,  9.85s/it, gpt_loss=0.258, loss_mean=0.312][A2026-01-26 23:13:54.168 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  76%|███████▋  | 3457/4533 [9:25:58<2:56:42,  9.85s/it, gpt_loss=0.266, loss_mean=0.308][A
+Train step of epoch 0:  76%|███████▋  | 3458/4533 [9:25:58<2:51:12,  9.56s/it, gpt_loss=0.266, loss_mean=0.308][A2026-01-26 23:14:02.887 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  76%|███████▋  | 3458/4533 [9:26:07<2:51:12,  9.56s/it, gpt_loss=0.248, loss_mean=0.302][A
+Train step of epoch 0:  76%|███████▋  | 3459/4533 [9:26:07<2:49:00,  9.44s/it, gpt_loss=0.248, loss_mean=0.302][A
+[LID Router Debug] Step: 3460
+Batch Size: 14
+Audio Batch Size: 133
+LID Assignments: [6, 4, 6, 0, 1, 0, 1, 5, 2, 1, 0, 3, 6, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6}
+2026-01-26 23:14:12.181 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  76%|███████▋  | 3459/4533 [9:26:19<2:49:00,  9.44s/it, gpt_loss=0.419, loss_mean=0.313][A
+Train step of epoch 0:  76%|███████▋  | 3460/4533 [9:26:19<3:02:20, 10.20s/it, gpt_loss=0.419, loss_mean=0.313][A2026-01-26 23:14:24.065 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  76%|███████▋  | 3460/4533 [9:26:29<3:02:20, 10.20s/it, gpt_loss=0.302, loss_mean=0.312][A
+Train step of epoch 0:  76%|███████▋  | 3461/4533 [9:26:29<2:56:44,  9.89s/it, gpt_loss=0.302, loss_mean=0.312][A2026-01-26 23:14:33.289 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  76%|███████▋  | 3461/4533 [9:26:41<2:56:44,  9.89s/it, gpt_loss=0.444, loss_mean=0.326][A
+Train step of epoch 0:  76%|███████▋  | 3462/4533 [9:26:41<3:09:24, 10.61s/it, gpt_loss=0.444, loss_mean=0.326][A2026-01-26 23:14:45.566 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  76%|███████▋  | 3462/4533 [9:26:53<3:09:24, 10.61s/it, gpt_loss=0.372, loss_mean=0.33] [A
+Train step of epoch 0:  76%|███████▋  | 3463/4533 [9:26:53<3:16:54, 11.04s/it, gpt_loss=0.372, loss_mean=0.33][A2026-01-26 23:14:57.389 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  76%|███████▋  | 3463/4533 [9:27:02<3:16:54, 11.04s/it, gpt_loss=0.256, loss_mean=0.323][A
+Train step of epoch 0:  76%|███████▋  | 3464/4533 [9:27:02<3:05:16, 10.40s/it, gpt_loss=0.256, loss_mean=0.323][A2026-01-26 23:15:06.503 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  76%|███████▋  | 3464/4533 [9:27:14<3:05:16, 10.40s/it, gpt_loss=0.385, loss_mean=0.329][A
+Train step of epoch 0:  76%|███████▋  | 3465/4533 [9:27:14<3:12:09, 10.80s/it, gpt_loss=0.385, loss_mean=0.329][A2026-01-26 23:15:17.995 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  76%|███████▋  | 3465/4533 [9:27:22<3:12:09, 10.80s/it, gpt_loss=0.308, loss_mean=0.327][A
+Train step of epoch 0:  76%|███████▋  | 3466/4533 [9:27:22<3:01:46, 10.22s/it, gpt_loss=0.308, loss_mean=0.327][A2026-01-26 23:15:27.170 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  76%|███████▋  | 3466/4533 [9:27:32<3:01:46, 10.22s/it, gpt_loss=0.299, loss_mean=0.324][A
+Train step of epoch 0:  76%|███████▋  | 3467/4533 [9:27:32<2:58:37, 10.05s/it, gpt_loss=0.299, loss_mean=0.324][A2026-01-26 23:15:36.586 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  76%|███████▋  | 3467/4533 [9:27:41<2:58:37, 10.05s/it, gpt_loss=0.266, loss_mean=0.318][A
+Train step of epoch 0:  77%|███████▋  | 3468/4533 [9:27:41<2:51:50,  9.68s/it, gpt_loss=0.266, loss_mean=0.318][A2026-01-26 23:15:45.483 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  77%|███████▋  | 3468/4533 [9:27:50<2:51:50,  9.68s/it, gpt_loss=0.241, loss_mean=0.311][A
+Train step of epoch 0:  77%|███████▋  | 3469/4533 [9:27:50<2:48:35,  9.51s/it, gpt_loss=0.241, loss_mean=0.311][A
+[LID Router Debug] Step: 3470
+Batch Size: 14
+Audio Batch Size: 146
+LID Assignments: [9, 5, 0, 5, 0, 9, 9, 5, 3, 9, 2, 0, 4, 9]
+Active Experts in Batch: {0, 2, 3, 4, 5, 9}
+2026-01-26 23:15:54.186 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  77%|███████▋  | 3469/4533 [9:27:58<2:48:35,  9.51s/it, gpt_loss=0.296, loss_mean=0.309][A
+Train step of epoch 0:  77%|███████▋  | 3470/4533 [9:27:58<2:42:20,  9.16s/it, gpt_loss=0.296, loss_mean=0.309][A2026-01-26 23:16:02.884 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  77%|███████▋  | 3470/4533 [9:28:07<2:42:20,  9.16s/it, gpt_loss=0.301, loss_mean=0.308][A
+Train step of epoch 0:  77%|███████▋  | 3471/4533 [9:28:07<2:41:15,  9.11s/it, gpt_loss=0.301, loss_mean=0.308][A2026-01-26 23:16:11.977 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  77%|███████▋  | 3471/4533 [9:28:16<2:41:15,  9.11s/it, gpt_loss=0.284, loss_mean=0.306][A
+Train step of epoch 0:  77%|███████▋  | 3472/4533 [9:28:16<2:40:32,  9.08s/it, gpt_loss=0.284, loss_mean=0.306][A2026-01-26 23:16:21.087 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  77%|███████▋  | 3472/4533 [9:28:25<2:40:32,  9.08s/it, gpt_loss=0.24, loss_mean=0.299] [A
+Train step of epoch 0:  77%|███████▋  | 3473/4533 [9:28:25<2:39:16,  9.02s/it, gpt_loss=0.24, loss_mean=0.299][A2026-01-26 23:16:29.888 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  77%|███████▋  | 3473/4533 [9:28:35<2:39:16,  9.02s/it, gpt_loss=0.331, loss_mean=0.302][A
+Train step of epoch 0:  77%|███████▋  | 3474/4533 [9:28:35<2:40:50,  9.11s/it, gpt_loss=0.331, loss_mean=0.302][A2026-01-26 23:16:39.067 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  77%|███████▋  | 3474/4533 [9:28:46<2:40:50,  9.11s/it, gpt_loss=0.396, loss_mean=0.312][A
+Train step of epoch 0:  77%|███████▋  | 3475/4533 [9:28:46<2:54:32,  9.90s/it, gpt_loss=0.396, loss_mean=0.312][A2026-01-26 23:16:50.982 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  77%|███████▋  | 3475/4533 [9:28:56<2:54:32,  9.90s/it, gpt_loss=0.295, loss_mean=0.31] [A
+Train step of epoch 0:  77%|███████▋  | 3476/4533 [9:28:56<2:53:13,  9.83s/it, gpt_loss=0.295, loss_mean=0.31][A2026-01-26 23:17:00.588 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  77%|███████▋  | 3476/4533 [9:29:08<2:53:13,  9.83s/it, gpt_loss=0.38, loss_mean=0.317][A
+Train step of epoch 0:  77%|███████▋  | 3477/4533 [9:29:08<3:04:19, 10.47s/it, gpt_loss=0.38, loss_mean=0.317][A2026-01-26 23:17:12.654 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  77%|███████▋  | 3477/4533 [9:29:18<3:04:19, 10.47s/it, gpt_loss=0.283, loss_mean=0.314][A
+Train step of epoch 0:  77%|███████▋  | 3478/4533 [9:29:18<2:59:18, 10.20s/it, gpt_loss=0.283, loss_mean=0.314][A2026-01-26 23:17:22.086 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  77%|███████▋  | 3478/4533 [9:29:27<2:59:18, 10.20s/it, gpt_loss=0.345, loss_mean=0.317][A
+Train step of epoch 0:  77%|███████▋  | 3479/4533 [9:29:27<2:55:03,  9.97s/it, gpt_loss=0.345, loss_mean=0.317][A
+[LID Router Debug] Step: 3480
+Batch Size: 14
+Audio Batch Size: 125
+LID Assignments: [1, 5, 5, 3, 9, 1, 9, 2, 5, 1, 0, 0, 4, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 23:17:31.383 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  77%|███████▋  | 3479/4533 [9:29:36<2:55:03,  9.97s/it, gpt_loss=0.34, loss_mean=0.319] [A
+Train step of epoch 0:  77%|███████▋  | 3480/4533 [9:29:36<2:51:43,  9.79s/it, gpt_loss=0.34, loss_mean=0.319][A2026-01-26 23:17:40.961 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  77%|███████▋  | 3480/4533 [9:29:46<2:51:43,  9.79s/it, gpt_loss=0.313, loss_mean=0.319][A
+Train step of epoch 0:  77%|███████▋  | 3481/4533 [9:29:46<2:51:08,  9.76s/it, gpt_loss=0.313, loss_mean=0.319][A2026-01-26 23:17:50.662 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  77%|███████▋  | 3481/4533 [9:29:55<2:51:08,  9.76s/it, gpt_loss=0.255, loss_mean=0.312][A
+Train step of epoch 0:  77%|███████▋  | 3482/4533 [9:29:55<2:46:11,  9.49s/it, gpt_loss=0.255, loss_mean=0.312][A2026-01-26 23:17:59.372 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  77%|███████▋  | 3482/4533 [9:30:04<2:46:11,  9.49s/it, gpt_loss=0.268, loss_mean=0.308][A
+Train step of epoch 0:  77%|███████▋  | 3483/4533 [9:30:04<2:42:03,  9.26s/it, gpt_loss=0.268, loss_mean=0.308][A2026-01-26 23:18:08.197 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  77%|███████▋  | 3483/4533 [9:30:12<2:42:03,  9.26s/it, gpt_loss=0.318, loss_mean=0.309][A
+Train step of epoch 0:  77%|███████▋  | 3484/4533 [9:30:12<2:39:37,  9.13s/it, gpt_loss=0.318, loss_mean=0.309][A2026-01-26 23:18:16.886 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  77%|███████▋  | 3484/4533 [9:30:22<2:39:37,  9.13s/it, gpt_loss=0.278, loss_mean=0.306][A
+Train step of epoch 0:  77%|███████▋  | 3485/4533 [9:30:22<2:42:22,  9.30s/it, gpt_loss=0.278, loss_mean=0.306][A2026-01-26 23:18:26.468 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  77%|███████▋  | 3485/4533 [9:30:34<2:42:22,  9.30s/it, gpt_loss=0.337, loss_mean=0.309][A
+Train step of epoch 0:  77%|███████▋  | 3486/4533 [9:30:34<2:54:34, 10.00s/it, gpt_loss=0.337, loss_mean=0.309][A2026-01-26 23:18:38.167 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  77%|███████▋  | 3486/4533 [9:30:42<2:54:34, 10.00s/it, gpt_loss=0.274, loss_mean=0.305][A
+Train step of epoch 0:  77%|███████▋  | 3487/4533 [9:30:42<2:47:15,  9.59s/it, gpt_loss=0.274, loss_mean=0.305][A2026-01-26 23:18:47.087 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  77%|███████▋  | 3487/4533 [9:30:52<2:47:15,  9.59s/it, gpt_loss=0.251, loss_mean=0.3]  [A
+Train step of epoch 0:  77%|███████▋  | 3488/4533 [9:30:52<2:47:42,  9.63s/it, gpt_loss=0.251, loss_mean=0.3][A2026-01-26 23:18:56.773 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  77%|███████▋  | 3488/4533 [9:31:01<2:47:42,  9.63s/it, gpt_loss=0.264, loss_mean=0.296][A
+Train step of epoch 0:  77%|███████▋  | 3489/4533 [9:31:01<2:44:12,  9.44s/it, gpt_loss=0.264, loss_mean=0.296][A
+[LID Router Debug] Step: 3490
+Batch Size: 14
+Audio Batch Size: 150
+LID Assignments: [2, 6, 9, 9, 5, 1, 6, 1, 1, 3, 0, 1, 2, 0]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-26 23:19:05.591 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  77%|███████▋  | 3489/4533 [9:31:10<2:44:12,  9.44s/it, gpt_loss=0.308, loss_mean=0.298][A
+Train step of epoch 0:  77%|███████▋  | 3490/4533 [9:31:10<2:40:08,  9.21s/it, gpt_loss=0.308, loss_mean=0.298][A2026-01-26 23:19:14.460 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  77%|███████▋  | 3490/4533 [9:31:22<2:40:08,  9.21s/it, gpt_loss=0.408, loss_mean=0.309][A
+Train step of epoch 0:  77%|███████▋  | 3491/4533 [9:31:22<2:54:22, 10.04s/it, gpt_loss=0.408, loss_mean=0.309][A2026-01-26 23:19:26.382 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  77%|███████▋  | 3491/4533 [9:31:32<2:54:22, 10.04s/it, gpt_loss=0.28, loss_mean=0.306] [A
+Train step of epoch 0:  77%|███████▋  | 3492/4533 [9:31:32<2:54:08, 10.04s/it, gpt_loss=0.28, loss_mean=0.306][A2026-01-26 23:19:36.307 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  77%|███████▋  | 3492/4533 [9:31:41<2:54:08, 10.04s/it, gpt_loss=0.257, loss_mean=0.301][A
+Train step of epoch 0:  77%|███████▋  | 3493/4533 [9:31:41<2:48:16,  9.71s/it, gpt_loss=0.257, loss_mean=0.301][A2026-01-26 23:19:45.281 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  77%|███████▋  | 3493/4533 [9:31:51<2:48:16,  9.71s/it, gpt_loss=0.298, loss_mean=0.301][A
+Train step of epoch 0:  77%|███████▋  | 3494/4533 [9:31:51<2:48:46,  9.75s/it, gpt_loss=0.298, loss_mean=0.301][A2026-01-26 23:19:54.868 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  77%|███████▋  | 3494/4533 [9:31:59<2:48:46,  9.75s/it, gpt_loss=0.212, loss_mean=0.292][A
+Train step of epoch 0:  77%|███████▋  | 3495/4533 [9:31:59<2:43:49,  9.47s/it, gpt_loss=0.212, loss_mean=0.292][A2026-01-26 23:20:04.089 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  77%|███████▋  | 3495/4533 [9:32:08<2:43:49,  9.47s/it, gpt_loss=0.269, loss_mean=0.289][A
+Train step of epoch 0:  77%|███████▋  | 3496/4533 [9:32:08<2:40:37,  9.29s/it, gpt_loss=0.269, loss_mean=0.289][A2026-01-26 23:20:12.695 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  77%|███████▋  | 3496/4533 [9:32:20<2:40:37,  9.29s/it, gpt_loss=0.375, loss_mean=0.298][A
+Train step of epoch 0:  77%|███████▋  | 3497/4533 [9:32:20<2:53:06, 10.03s/it, gpt_loss=0.375, loss_mean=0.298][A2026-01-26 23:20:24.690 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  77%|███████▋  | 3497/4533 [9:32:29<2:53:06, 10.03s/it, gpt_loss=0.258, loss_mean=0.294][A
+Train step of epoch 0:  77%|███████▋  | 3498/4533 [9:32:29<2:46:25,  9.65s/it, gpt_loss=0.258, loss_mean=0.294][A2026-01-26 23:20:33.460 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  77%|███████▋  | 3498/4533 [9:32:38<2:46:25,  9.65s/it, gpt_loss=0.234, loss_mean=0.288][A
+Train step of epoch 0:  77%|███████▋  | 3499/4533 [9:32:38<2:43:05,  9.46s/it, gpt_loss=0.234, loss_mean=0.288][A
+[LID Router Debug] Step: 3500
+Batch Size: 14
+Audio Batch Size: 131
+LID Assignments: [1, 5, 5, 6, 9, 0, 3, 5, 2, 4, 9, 0, 4, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 23:20:42.459 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+[2026-01-26 23:20:50,526] [INFO] [logging.py:96:log_dist] [Rank 0] step=3500, skipped=0, lr=[1.707395478260248e-05, 1.707395478260248e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 23:20:50,527] [INFO] [timer.py:260:stop] epoch=0/micro_step=3500/global_step=3500, RunningAvgSamplesPerSec=5.7229898970590165, CurrSamplesPerSec=6.3811050565255645, MemAllocated=14.56GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  77%|███████▋  | 3499/4533 [9:32:47<2:43:05,  9.46s/it, gpt_loss=0.225, loss_mean=0.282][A
+Train step of epoch 0:  77%|███████▋  | 3500/4533 [9:32:47<2:39:28,  9.26s/it, gpt_loss=0.225, loss_mean=0.282][A2026-01-26 23:20:51.359 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  77%|███████▋  | 3500/4533 [9:32:56<2:39:28,  9.26s/it, gpt_loss=0.208, loss_mean=0.274][A
+Train step of epoch 0:  77%|███████▋  | 3501/4533 [9:32:56<2:38:37,  9.22s/it, gpt_loss=0.208, loss_mean=0.274][A2026-01-26 23:21:00.466 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  77%|███████▋  | 3501/4533 [9:33:05<2:38:37,  9.22s/it, gpt_loss=0.245, loss_mean=0.271][A
+Train step of epoch 0:  77%|███████▋  | 3502/4533 [9:33:05<2:39:12,  9.26s/it, gpt_loss=0.245, loss_mean=0.271][A2026-01-26 23:21:09.773 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  77%|███████▋  | 3502/4533 [9:33:14<2:39:12,  9.26s/it, gpt_loss=0.232, loss_mean=0.268][A
+Train step of epoch 0:  77%|███████▋  | 3503/4533 [9:33:14<2:38:06,  9.21s/it, gpt_loss=0.232, loss_mean=0.268][A2026-01-26 23:21:18.388 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  77%|███████▋  | 3503/4533 [9:33:23<2:38:06,  9.21s/it, gpt_loss=0.322, loss_mean=0.273][A
+Train step of epoch 0:  77%|███████▋  | 3504/4533 [9:33:23<2:33:42,  8.96s/it, gpt_loss=0.322, loss_mean=0.273][A2026-01-26 23:21:27.169 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  77%|███████▋  | 3504/4533 [9:33:32<2:33:42,  8.96s/it, gpt_loss=0.235, loss_mean=0.269][A
+Train step of epoch 0:  77%|███████▋  | 3505/4533 [9:33:32<2:33:49,  8.98s/it, gpt_loss=0.235, loss_mean=0.269][A2026-01-26 23:21:36.261 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  77%|███████▋  | 3505/4533 [9:33:43<2:33:49,  8.98s/it, gpt_loss=0.391, loss_mean=0.281][A
+Train step of epoch 0:  77%|███████▋  | 3506/4533 [9:33:43<2:48:08,  9.82s/it, gpt_loss=0.391, loss_mean=0.281][A2026-01-26 23:21:47.794 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  77%|███████▋  | 3506/4533 [9:33:53<2:48:08,  9.82s/it, gpt_loss=0.252, loss_mean=0.278][A
+Train step of epoch 0:  77%|███████▋  | 3507/4533 [9:33:53<2:46:52,  9.76s/it, gpt_loss=0.252, loss_mean=0.278][A2026-01-26 23:21:57.289 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  77%|███████▋  | 3507/4533 [9:34:03<2:46:52,  9.76s/it, gpt_loss=0.303, loss_mean=0.281][A
+Train step of epoch 0:  77%|███████▋  | 3508/4533 [9:34:03<2:45:46,  9.70s/it, gpt_loss=0.303, loss_mean=0.281][A2026-01-26 23:22:07.086 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  77%|███████▋  | 3508/4533 [9:34:11<2:45:46,  9.70s/it, gpt_loss=0.248, loss_mean=0.278][A
+Train step of epoch 0:  77%|███████▋  | 3509/4533 [9:34:11<2:41:17,  9.45s/it, gpt_loss=0.248, loss_mean=0.278][A
+[LID Router Debug] Step: 3510
+Batch Size: 14
+Audio Batch Size: 140
+LID Assignments: [1, 0, 5, 5, 6, 2, 3, 0, 0, 2, 4, 5, 4, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6}
+2026-01-26 23:22:15.880 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  77%|███████▋  | 3509/4533 [9:34:20<2:41:17,  9.45s/it, gpt_loss=0.265, loss_mean=0.276][A
+Train step of epoch 0:  77%|███████▋  | 3510/4533 [9:34:20<2:36:40,  9.19s/it, gpt_loss=0.265, loss_mean=0.276][A2026-01-26 23:22:24.466 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  77%|███████▋  | 3510/4533 [9:34:32<2:36:40,  9.19s/it, gpt_loss=0.343, loss_mean=0.283][A
+Train step of epoch 0:  77%|███████▋  | 3511/4533 [9:34:32<2:49:51,  9.97s/it, gpt_loss=0.343, loss_mean=0.283][A2026-01-26 23:22:36.373 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  77%|███████▋  | 3511/4533 [9:34:41<2:49:51,  9.97s/it, gpt_loss=0.301, loss_mean=0.285][A
+Train step of epoch 0:  77%|███████▋  | 3512/4533 [9:34:41<2:47:39,  9.85s/it, gpt_loss=0.301, loss_mean=0.285][A2026-01-26 23:22:45.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  77%|███████▋  | 3512/4533 [9:34:51<2:47:39,  9.85s/it, gpt_loss=0.374, loss_mean=0.294][A
+Train step of epoch 0:  77%|███████▋  | 3513/4533 [9:34:51<2:46:25,  9.79s/it, gpt_loss=0.374, loss_mean=0.294][A2026-01-26 23:22:55.377 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  77%|███████▋  | 3513/4533 [9:35:00<2:46:25,  9.79s/it, gpt_loss=0.209, loss_mean=0.285][A
+Train step of epoch 0:  78%|███████▊  | 3514/4533 [9:35:00<2:42:44,  9.58s/it, gpt_loss=0.209, loss_mean=0.285][A2026-01-26 23:23:04.263 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  78%|███████▊  | 3514/4533 [9:35:09<2:42:44,  9.58s/it, gpt_loss=0.318, loss_mean=0.288][A
+Train step of epoch 0:  78%|███████▊  | 3515/4533 [9:35:09<2:38:48,  9.36s/it, gpt_loss=0.318, loss_mean=0.288][A2026-01-26 23:23:13.064 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  78%|███████▊  | 3515/4533 [9:35:21<2:38:48,  9.36s/it, gpt_loss=0.366, loss_mean=0.296][A
+Train step of epoch 0:  78%|███████▊  | 3516/4533 [9:35:21<2:50:04, 10.03s/it, gpt_loss=0.366, loss_mean=0.296][A2026-01-26 23:23:25.189 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  78%|███████▊  | 3516/4533 [9:35:33<2:50:04, 10.03s/it, gpt_loss=0.363, loss_mean=0.303][A
+Train step of epoch 0:  78%|███████▊  | 3517/4533 [9:35:33<2:59:37, 10.61s/it, gpt_loss=0.363, loss_mean=0.303][A2026-01-26 23:23:36.863 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  78%|███████▊  | 3517/4533 [9:35:44<2:59:37, 10.61s/it, gpt_loss=0.317, loss_mean=0.304][A
+Train step of epoch 0:  78%|███████▊  | 3518/4533 [9:35:44<3:04:02, 10.88s/it, gpt_loss=0.317, loss_mean=0.304][A2026-01-26 23:23:48.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  78%|███████▊  | 3518/4533 [9:35:53<3:04:02, 10.88s/it, gpt_loss=0.296, loss_mean=0.304][A
+Train step of epoch 0:  78%|███████▊  | 3519/4533 [9:35:53<2:55:53, 10.41s/it, gpt_loss=0.296, loss_mean=0.304][A
+[LID Router Debug] Step: 3520
+Batch Size: 14
+Audio Batch Size: 175
+LID Assignments: [1, 4, 3, 0, 3, 0, 9, 0, 1, 1, 0, 0, 3, 3]
+Active Experts in Batch: {0, 1, 3, 4, 9}
+2026-01-26 23:23:57.591 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  78%|███████▊  | 3519/4533 [9:36:02<2:55:53, 10.41s/it, gpt_loss=0.235, loss_mean=0.297][A
+Train step of epoch 0:  78%|███████▊  | 3520/4533 [9:36:02<2:45:37,  9.81s/it, gpt_loss=0.235, loss_mean=0.297][A2026-01-26 23:24:06.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  78%|███████▊  | 3520/4533 [9:36:11<2:45:37,  9.81s/it, gpt_loss=0.288, loss_mean=0.296][A
+Train step of epoch 0:  78%|███████▊  | 3521/4533 [9:36:11<2:44:15,  9.74s/it, gpt_loss=0.288, loss_mean=0.296][A2026-01-26 23:24:15.690 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  78%|███████▊  | 3521/4533 [9:36:23<2:44:15,  9.74s/it, gpt_loss=0.364, loss_mean=0.303][A
+Train step of epoch 0:  78%|███████▊  | 3522/4533 [9:36:23<2:52:30, 10.24s/it, gpt_loss=0.364, loss_mean=0.303][A2026-01-26 23:24:27.273 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  78%|███████▊  | 3522/4533 [9:36:31<2:52:30, 10.24s/it, gpt_loss=0.307, loss_mean=0.303][A
+Train step of epoch 0:  78%|███████▊  | 3523/4533 [9:36:31<2:44:54,  9.80s/it, gpt_loss=0.307, loss_mean=0.303][A2026-01-26 23:24:35.901 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  78%|███████▊  | 3523/4533 [9:36:40<2:44:54,  9.80s/it, gpt_loss=0.279, loss_mean=0.301][A
+Train step of epoch 0:  78%|███████▊  | 3524/4533 [9:36:40<2:38:24,  9.42s/it, gpt_loss=0.279, loss_mean=0.301][A2026-01-26 23:24:44.567 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  78%|███████▊  | 3524/4533 [9:36:49<2:38:24,  9.42s/it, gpt_loss=0.227, loss_mean=0.293][A
+Train step of epoch 0:  78%|███████▊  | 3525/4533 [9:36:49<2:34:34,  9.20s/it, gpt_loss=0.227, loss_mean=0.293][A2026-01-26 23:24:53.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  78%|███████▊  | 3525/4533 [9:36:59<2:34:34,  9.20s/it, gpt_loss=0.317, loss_mean=0.296][A
+Train step of epoch 0:  78%|███████▊  | 3526/4533 [9:36:59<2:37:52,  9.41s/it, gpt_loss=0.317, loss_mean=0.296][A2026-01-26 23:25:03.260 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  78%|███████▊  | 3526/4533 [9:37:08<2:37:52,  9.41s/it, gpt_loss=0.306, loss_mean=0.297][A
+Train step of epoch 0:  78%|███████▊  | 3527/4533 [9:37:08<2:38:56,  9.48s/it, gpt_loss=0.306, loss_mean=0.297][A2026-01-26 23:25:12.793 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  78%|███████▊  | 3527/4533 [9:37:17<2:38:56,  9.48s/it, gpt_loss=0.253, loss_mean=0.292][A
+Train step of epoch 0:  78%|███████▊  | 3528/4533 [9:37:17<2:35:17,  9.27s/it, gpt_loss=0.253, loss_mean=0.292][A2026-01-26 23:25:21.672 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  78%|███████▊  | 3528/4533 [9:37:27<2:35:17,  9.27s/it, gpt_loss=0.271, loss_mean=0.29] [A
+Train step of epoch 0:  78%|███████▊  | 3529/4533 [9:37:27<2:37:15,  9.40s/it, gpt_loss=0.271, loss_mean=0.29][A
+[LID Router Debug] Step: 3530
+Batch Size: 14
+Audio Batch Size: 130
+LID Assignments: [5, 0, 5, 2, 2, 1, 1, 5, 9, 9, 6, 3, 2, 9]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-26 23:25:31.301 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  78%|███████▊  | 3529/4533 [9:37:36<2:37:15,  9.40s/it, gpt_loss=0.23, loss_mean=0.284][A
+Train step of epoch 0:  78%|███████▊  | 3530/4533 [9:37:36<2:35:53,  9.33s/it, gpt_loss=0.23, loss_mean=0.284][A2026-01-26 23:25:40.474 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  78%|███████▊  | 3530/4533 [9:37:45<2:35:53,  9.33s/it, gpt_loss=0.253, loss_mean=0.281][A
+Train step of epoch 0:  78%|███████▊  | 3531/4533 [9:37:45<2:33:47,  9.21s/it, gpt_loss=0.253, loss_mean=0.281][A2026-01-26 23:25:49.495 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  78%|███████▊  | 3531/4533 [9:37:54<2:33:47,  9.21s/it, gpt_loss=0.301, loss_mean=0.283][A
+Train step of epoch 0:  78%|███████▊  | 3532/4533 [9:37:54<2:35:35,  9.33s/it, gpt_loss=0.301, loss_mean=0.283][A2026-01-26 23:25:58.660 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  78%|███████▊  | 3532/4533 [9:38:03<2:35:35,  9.33s/it, gpt_loss=0.273, loss_mean=0.282][A
+Train step of epoch 0:  78%|███████▊  | 3533/4533 [9:38:03<2:30:31,  9.03s/it, gpt_loss=0.273, loss_mean=0.282][A2026-01-26 23:26:07.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  78%|███████▊  | 3533/4533 [9:38:12<2:30:31,  9.03s/it, gpt_loss=0.295, loss_mean=0.283][A
+Train step of epoch 0:  78%|███████▊  | 3534/4533 [9:38:12<2:33:32,  9.22s/it, gpt_loss=0.295, loss_mean=0.283][A2026-01-26 23:26:16.977 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  78%|███████▊  | 3534/4533 [9:38:24<2:33:32,  9.22s/it, gpt_loss=0.407, loss_mean=0.296][A
+Train step of epoch 0:  78%|███████▊  | 3535/4533 [9:38:24<2:45:31,  9.95s/it, gpt_loss=0.407, loss_mean=0.296][A2026-01-26 23:26:28.662 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  78%|███████▊  | 3535/4533 [9:38:33<2:45:31,  9.95s/it, gpt_loss=0.217, loss_mean=0.288][A
+Train step of epoch 0:  78%|███████▊  | 3536/4533 [9:38:33<2:41:11,  9.70s/it, gpt_loss=0.217, loss_mean=0.288][A2026-01-26 23:26:37.859 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  78%|███████▊  | 3536/4533 [9:38:42<2:41:11,  9.70s/it, gpt_loss=0.269, loss_mean=0.286][A
+Train step of epoch 0:  78%|███████▊  | 3537/4533 [9:38:42<2:35:52,  9.39s/it, gpt_loss=0.269, loss_mean=0.286][A2026-01-26 23:26:46.277 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  78%|███████▊  | 3537/4533 [9:38:53<2:35:52,  9.39s/it, gpt_loss=0.362, loss_mean=0.294][A
+Train step of epoch 0:  78%|███████▊  | 3538/4533 [9:38:53<2:46:48, 10.06s/it, gpt_loss=0.362, loss_mean=0.294][A2026-01-26 23:26:58.083 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  78%|███████▊  | 3538/4533 [9:39:03<2:46:48, 10.06s/it, gpt_loss=0.257, loss_mean=0.29] [A
+Train step of epoch 0:  78%|███████▊  | 3539/4533 [9:39:03<2:44:26,  9.93s/it, gpt_loss=0.257, loss_mean=0.29][A
+[LID Router Debug] Step: 3540
+Batch Size: 14
+Audio Batch Size: 133
+LID Assignments: [6, 9, 5, 3, 6, 1, 9, 1, 2, 9, 4, 1, 0, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 23:27:07.778 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  78%|███████▊  | 3539/4533 [9:39:12<2:44:26,  9.93s/it, gpt_loss=0.317, loss_mean=0.293][A
+Train step of epoch 0:  78%|███████▊  | 3540/4533 [9:39:12<2:39:05,  9.61s/it, gpt_loss=0.317, loss_mean=0.293][A2026-01-26 23:27:16.553 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  78%|███████▊  | 3540/4533 [9:39:21<2:39:05,  9.61s/it, gpt_loss=0.307, loss_mean=0.294][A
+Train step of epoch 0:  78%|███████▊  | 3541/4533 [9:39:21<2:34:12,  9.33s/it, gpt_loss=0.307, loss_mean=0.294][A2026-01-26 23:27:25.080 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  78%|███████▊  | 3541/4533 [9:39:33<2:34:12,  9.33s/it, gpt_loss=0.388, loss_mean=0.304][A
+Train step of epoch 0:  78%|███████▊  | 3542/4533 [9:39:33<2:47:02, 10.11s/it, gpt_loss=0.388, loss_mean=0.304][A2026-01-26 23:27:37.166 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  78%|███████▊  | 3542/4533 [9:39:44<2:47:02, 10.11s/it, gpt_loss=0.435, loss_mean=0.317][A
+Train step of epoch 0:  78%|███████▊  | 3543/4533 [9:39:44<2:54:27, 10.57s/it, gpt_loss=0.435, loss_mean=0.317][A2026-01-26 23:27:48.883 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  78%|███████▊  | 3543/4533 [9:39:53<2:54:27, 10.57s/it, gpt_loss=0.276, loss_mean=0.313][A
+Train step of epoch 0:  78%|███████▊  | 3544/4533 [9:39:53<2:46:18, 10.09s/it, gpt_loss=0.276, loss_mean=0.313][A2026-01-26 23:27:57.883 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  78%|███████▊  | 3544/4533 [9:40:03<2:46:18, 10.09s/it, gpt_loss=0.253, loss_mean=0.307][A
+Train step of epoch 0:  78%|███████▊  | 3545/4533 [9:40:03<2:44:40, 10.00s/it, gpt_loss=0.253, loss_mean=0.307][A2026-01-26 23:28:07.683 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  78%|███████▊  | 3545/4533 [9:40:13<2:44:40, 10.00s/it, gpt_loss=0.312, loss_mean=0.307][A
+Train step of epoch 0:  78%|███████▊  | 3546/4533 [9:40:13<2:43:46,  9.96s/it, gpt_loss=0.312, loss_mean=0.307][A2026-01-26 23:28:17.557 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  78%|███████▊  | 3546/4533 [9:40:22<2:43:46,  9.96s/it, gpt_loss=0.251, loss_mean=0.302][A
+Train step of epoch 0:  78%|███████▊  | 3547/4533 [9:40:22<2:40:43,  9.78s/it, gpt_loss=0.251, loss_mean=0.302][A2026-01-26 23:28:26.695 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  78%|███████▊  | 3547/4533 [9:40:32<2:40:43,  9.78s/it, gpt_loss=0.256, loss_mean=0.297][A
+Train step of epoch 0:  78%|███████▊  | 3548/4533 [9:40:32<2:41:11,  9.82s/it, gpt_loss=0.256, loss_mean=0.297][A2026-01-26 23:28:36.461 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  78%|███████▊  | 3548/4533 [9:40:42<2:41:11,  9.82s/it, gpt_loss=0.341, loss_mean=0.302][A
+Train step of epoch 0:  78%|███████▊  | 3549/4533 [9:40:42<2:38:54,  9.69s/it, gpt_loss=0.341, loss_mean=0.302][A
+[LID Router Debug] Step: 3550
+Batch Size: 14
+Audio Batch Size: 139
+LID Assignments: [9, 5, 2, 3, 0, 2, 5, 4, 0, 0, 2, 3, 2, 0]
+Active Experts in Batch: {0, 2, 3, 4, 5, 9}
+2026-01-26 23:28:46.081 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  78%|███████▊  | 3549/4533 [9:40:51<2:38:54,  9.69s/it, gpt_loss=0.283, loss_mean=0.3]  [A
+Train step of epoch 0:  78%|███████▊  | 3550/4533 [9:40:51<2:38:06,  9.65s/it, gpt_loss=0.283, loss_mean=0.3][A2026-01-26 23:28:55.364 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  78%|███████▊  | 3550/4533 [9:41:00<2:38:06,  9.65s/it, gpt_loss=0.27, loss_mean=0.297][A
+Train step of epoch 0:  78%|███████▊  | 3551/4533 [9:41:00<2:32:50,  9.34s/it, gpt_loss=0.27, loss_mean=0.297][A2026-01-26 23:29:04.352 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  78%|███████▊  | 3551/4533 [9:41:09<2:32:50,  9.34s/it, gpt_loss=0.354, loss_mean=0.303][A
+Train step of epoch 0:  78%|███████▊  | 3552/4533 [9:41:09<2:34:39,  9.46s/it, gpt_loss=0.354, loss_mean=0.303][A2026-01-26 23:29:14.053 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  78%|███████▊  | 3552/4533 [9:41:21<2:34:39,  9.46s/it, gpt_loss=0.451, loss_mean=0.317][A
+Train step of epoch 0:  78%|███████▊  | 3553/4533 [9:41:21<2:47:15, 10.24s/it, gpt_loss=0.451, loss_mean=0.317][A2026-01-26 23:29:26.160 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  78%|███████▊  | 3553/4533 [9:41:31<2:47:15, 10.24s/it, gpt_loss=0.322, loss_mean=0.318][A
+Train step of epoch 0:  78%|███████▊  | 3554/4533 [9:41:31<2:41:53,  9.92s/it, gpt_loss=0.322, loss_mean=0.318][A2026-01-26 23:29:35.205 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  78%|███████▊  | 3554/4533 [9:41:39<2:41:53,  9.92s/it, gpt_loss=0.289, loss_mean=0.315][A
+Train step of epoch 0:  78%|███████▊  | 3555/4533 [9:41:39<2:36:11,  9.58s/it, gpt_loss=0.289, loss_mean=0.315][A2026-01-26 23:29:44.072 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  78%|███████▊  | 3555/4533 [9:41:48<2:36:11,  9.58s/it, gpt_loss=0.25, loss_mean=0.308] [A
+Train step of epoch 0:  78%|███████▊  | 3556/4533 [9:41:48<2:32:23,  9.36s/it, gpt_loss=0.25, loss_mean=0.308][A2026-01-26 23:29:52.796 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  78%|███████▊  | 3556/4533 [9:41:57<2:32:23,  9.36s/it, gpt_loss=0.332, loss_mean=0.311][A
+Train step of epoch 0:  78%|███████▊  | 3557/4533 [9:41:57<2:29:23,  9.18s/it, gpt_loss=0.332, loss_mean=0.311][A2026-01-26 23:30:01.475 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  78%|███████▊  | 3557/4533 [9:42:09<2:29:23,  9.18s/it, gpt_loss=0.354, loss_mean=0.315][A
+Train step of epoch 0:  78%|███████▊  | 3558/4533 [9:42:09<2:42:45, 10.02s/it, gpt_loss=0.354, loss_mean=0.315][A2026-01-26 23:30:13.672 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  78%|███████▊  | 3558/4533 [9:42:21<2:42:45, 10.02s/it, gpt_loss=0.331, loss_mean=0.317][A
+Train step of epoch 0:  79%|███████▊  | 3559/4533 [9:42:21<2:52:15, 10.61s/it, gpt_loss=0.331, loss_mean=0.317][A
+[LID Router Debug] Step: 3560
+Batch Size: 14
+Audio Batch Size: 146
+LID Assignments: [4, 4, 1, 2, 0, 3, 9, 2, 1, 3, 4, 5, 2, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 23:30:25.558 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  79%|███████▊  | 3559/4533 [9:42:33<2:52:15, 10.61s/it, gpt_loss=0.436, loss_mean=0.328][A
+Train step of epoch 0:  79%|███████▊  | 3560/4533 [9:42:33<2:59:15, 11.05s/it, gpt_loss=0.436, loss_mean=0.328][A2026-01-26 23:30:37.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  79%|███████▊  | 3560/4533 [9:42:45<2:59:15, 11.05s/it, gpt_loss=0.303, loss_mean=0.326][A
+Train step of epoch 0:  79%|███████▊  | 3561/4533 [9:42:45<3:02:26, 11.26s/it, gpt_loss=0.303, loss_mean=0.326][A2026-01-26 23:30:49.258 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  79%|███████▊  | 3561/4533 [9:42:56<3:02:26, 11.26s/it, gpt_loss=0.314, loss_mean=0.325][A
+Train step of epoch 0:  79%|███████▊  | 3562/4533 [9:42:56<3:02:49, 11.30s/it, gpt_loss=0.314, loss_mean=0.325][A2026-01-26 23:31:00.464 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  79%|███████▊  | 3562/4533 [9:43:05<3:02:49, 11.30s/it, gpt_loss=0.307, loss_mean=0.323][A
+Train step of epoch 0:  79%|███████▊  | 3563/4533 [9:43:05<2:48:19, 10.41s/it, gpt_loss=0.307, loss_mean=0.323][A2026-01-26 23:31:09.170 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  79%|███████▊  | 3563/4533 [9:43:16<2:48:19, 10.41s/it, gpt_loss=0.323, loss_mean=0.323][A
+Train step of epoch 0:  79%|███████▊  | 3564/4533 [9:43:16<2:54:30, 10.81s/it, gpt_loss=0.323, loss_mean=0.323][A2026-01-26 23:31:20.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  79%|███████▊  | 3564/4533 [9:43:25<2:54:30, 10.81s/it, gpt_loss=0.312, loss_mean=0.322][A
+Train step of epoch 0:  79%|███████▊  | 3565/4533 [9:43:25<2:43:37, 10.14s/it, gpt_loss=0.312, loss_mean=0.322][A2026-01-26 23:31:29.375 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  79%|███████▊  | 3565/4533 [9:43:34<2:43:37, 10.14s/it, gpt_loss=0.352, loss_mean=0.325][A
+Train step of epoch 0:  79%|███████▊  | 3566/4533 [9:43:34<2:40:05,  9.93s/it, gpt_loss=0.352, loss_mean=0.325][A2026-01-26 23:31:38.900 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  79%|███████▊  | 3566/4533 [9:43:46<2:40:05,  9.93s/it, gpt_loss=0.405, loss_mean=0.333][A
+Train step of epoch 0:  79%|███████▊  | 3567/4533 [9:43:46<2:48:10, 10.45s/it, gpt_loss=0.405, loss_mean=0.333][A2026-01-26 23:31:50.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  79%|███████▊  | 3567/4533 [9:43:58<2:48:10, 10.45s/it, gpt_loss=0.364, loss_mean=0.336][A
+Train step of epoch 0:  79%|███████▊  | 3568/4533 [9:43:58<2:55:36, 10.92s/it, gpt_loss=0.364, loss_mean=0.336][A2026-01-26 23:32:02.665 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  79%|███████▊  | 3568/4533 [9:44:08<2:55:36, 10.92s/it, gpt_loss=0.268, loss_mean=0.329][A
+Train step of epoch 0:  79%|███████▊  | 3569/4533 [9:44:08<2:49:55, 10.58s/it, gpt_loss=0.268, loss_mean=0.329][A
+[LID Router Debug] Step: 3570
+Batch Size: 14
+Audio Batch Size: 171
+LID Assignments: [3, 2, 0, 2, 4, 3, 6, 4, 9, 5, 1, 3, 3, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 23:32:12.250 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  79%|███████▊  | 3569/4533 [9:44:17<2:49:55, 10.58s/it, gpt_loss=0.302, loss_mean=0.327][A
+Train step of epoch 0:  79%|███████▉  | 3570/4533 [9:44:17<2:44:06, 10.22s/it, gpt_loss=0.302, loss_mean=0.327][A2026-01-26 23:32:21.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  79%|███████▉  | 3570/4533 [9:44:27<2:44:06, 10.22s/it, gpt_loss=0.277, loss_mean=0.322][A
+Train step of epoch 0:  79%|███████▉  | 3571/4533 [9:44:27<2:41:57, 10.10s/it, gpt_loss=0.277, loss_mean=0.322][A2026-01-26 23:32:31.567 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  79%|███████▉  | 3571/4533 [9:44:37<2:41:57, 10.10s/it, gpt_loss=0.269, loss_mean=0.316][A
+Train step of epoch 0:  79%|███████▉  | 3572/4533 [9:44:37<2:39:53,  9.98s/it, gpt_loss=0.269, loss_mean=0.316][A2026-01-26 23:32:40.987 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  79%|███████▉  | 3572/4533 [9:44:49<2:39:53,  9.98s/it, gpt_loss=0.399, loss_mean=0.325][A
+Train step of epoch 0:  79%|███████▉  | 3573/4533 [9:44:49<2:51:56, 10.75s/it, gpt_loss=0.399, loss_mean=0.325][A2026-01-26 23:32:53.864 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  79%|███████▉  | 3573/4533 [9:44:58<2:51:56, 10.75s/it, gpt_loss=0.305, loss_mean=0.323][A
+Train step of epoch 0:  79%|███████▉  | 3574/4533 [9:44:58<2:43:08, 10.21s/it, gpt_loss=0.305, loss_mean=0.323][A2026-01-26 23:33:02.879 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  79%|███████▉  | 3574/4533 [9:45:07<2:43:08, 10.21s/it, gpt_loss=0.324, loss_mean=0.323][A
+Train step of epoch 0:  79%|███████▉  | 3575/4533 [9:45:07<2:37:54,  9.89s/it, gpt_loss=0.324, loss_mean=0.323][A2026-01-26 23:33:11.955 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  79%|███████▉  | 3575/4533 [9:45:19<2:37:54,  9.89s/it, gpt_loss=0.347, loss_mean=0.325][A
+Train step of epoch 0:  79%|███████▉  | 3576/4533 [9:45:19<2:47:18, 10.49s/it, gpt_loss=0.347, loss_mean=0.325][A2026-01-26 23:33:23.869 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  79%|███████▉  | 3576/4533 [9:45:29<2:47:18, 10.49s/it, gpt_loss=0.314, loss_mean=0.324][A
+Train step of epoch 0:  79%|███████▉  | 3577/4533 [9:45:29<2:43:50, 10.28s/it, gpt_loss=0.314, loss_mean=0.324][A2026-01-26 23:33:33.763 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  79%|███████▉  | 3577/4533 [9:45:38<2:43:50, 10.28s/it, gpt_loss=0.24, loss_mean=0.316] [A
+Train step of epoch 0:  79%|███████▉  | 3578/4533 [9:45:38<2:38:42,  9.97s/it, gpt_loss=0.24, loss_mean=0.316][A2026-01-26 23:33:42.882 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  79%|███████▉  | 3578/4533 [9:45:47<2:38:42,  9.97s/it, gpt_loss=0.268, loss_mean=0.311][A
+Train step of epoch 0:  79%|███████▉  | 3579/4533 [9:45:47<2:33:24,  9.65s/it, gpt_loss=0.268, loss_mean=0.311][A
+[LID Router Debug] Step: 3580
+Batch Size: 14
+Audio Batch Size: 205
+LID Assignments: [1, 3, 5, 5, 3, 5, 1, 3, 2, 3, 2, 6, 3, 9]
+Active Experts in Batch: {1, 2, 3, 5, 6, 9}
+2026-01-26 23:33:51.568 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  79%|███████▉  | 3579/4533 [9:45:58<2:33:24,  9.65s/it, gpt_loss=0.371, loss_mean=0.317][A
+Train step of epoch 0:  79%|███████▉  | 3580/4533 [9:45:58<2:41:01, 10.14s/it, gpt_loss=0.371, loss_mean=0.317][A2026-01-26 23:34:02.969 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  79%|███████▉  | 3580/4533 [9:46:07<2:41:01, 10.14s/it, gpt_loss=0.294, loss_mean=0.315][A
+Train step of epoch 0:  79%|███████▉  | 3581/4533 [9:46:07<2:34:19,  9.73s/it, gpt_loss=0.294, loss_mean=0.315][A2026-01-26 23:34:11.872 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  79%|███████▉  | 3581/4533 [9:46:17<2:34:19,  9.73s/it, gpt_loss=0.29, loss_mean=0.312] [A
+Train step of epoch 0:  79%|███████▉  | 3582/4533 [9:46:17<2:33:50,  9.71s/it, gpt_loss=0.29, loss_mean=0.312][A2026-01-26 23:34:21.180 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  79%|███████▉  | 3582/4533 [9:46:26<2:33:50,  9.71s/it, gpt_loss=0.348, loss_mean=0.316][A
+Train step of epoch 0:  79%|███████▉  | 3583/4533 [9:46:26<2:31:33,  9.57s/it, gpt_loss=0.348, loss_mean=0.316][A2026-01-26 23:34:30.585 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  79%|███████▉  | 3583/4533 [9:46:35<2:31:33,  9.57s/it, gpt_loss=0.344, loss_mean=0.318][A
+Train step of epoch 0:  79%|███████▉  | 3584/4533 [9:46:35<2:27:18,  9.31s/it, gpt_loss=0.344, loss_mean=0.318][A2026-01-26 23:34:39.184 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  79%|███████▉  | 3584/4533 [9:46:44<2:27:18,  9.31s/it, gpt_loss=0.292, loss_mean=0.316][A
+Train step of epoch 0:  79%|███████▉  | 3585/4533 [9:46:44<2:27:39,  9.35s/it, gpt_loss=0.292, loss_mean=0.316][A2026-01-26 23:34:48.795 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  79%|███████▉  | 3585/4533 [9:46:53<2:27:39,  9.35s/it, gpt_loss=0.267, loss_mean=0.311][A
+Train step of epoch 0:  79%|███████▉  | 3586/4533 [9:46:53<2:24:25,  9.15s/it, gpt_loss=0.267, loss_mean=0.311][A2026-01-26 23:34:57.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  79%|███████▉  | 3586/4533 [9:47:02<2:24:25,  9.15s/it, gpt_loss=0.306, loss_mean=0.31] [A
+Train step of epoch 0:  79%|███████▉  | 3587/4533 [9:47:02<2:22:39,  9.05s/it, gpt_loss=0.306, loss_mean=0.31][A2026-01-26 23:35:06.281 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  79%|███████▉  | 3587/4533 [9:47:13<2:22:39,  9.05s/it, gpt_loss=0.375, loss_mean=0.317][A
+Train step of epoch 0:  79%|███████▉  | 3588/4533 [9:47:13<2:34:29,  9.81s/it, gpt_loss=0.375, loss_mean=0.317][A2026-01-26 23:35:17.776 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  79%|███████▉  | 3588/4533 [9:47:25<2:34:29,  9.81s/it, gpt_loss=0.31, loss_mean=0.316] [A
+Train step of epoch 0:  79%|███████▉  | 3589/4533 [9:47:25<2:42:37, 10.34s/it, gpt_loss=0.31, loss_mean=0.316][A
+[LID Router Debug] Step: 3590
+Batch Size: 14
+Audio Batch Size: 149
+LID Assignments: [2, 1, 0, 5, 1, 1, 3, 4, 9, 9, 2, 1, 6, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-26 23:35:29.557 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  79%|███████▉  | 3589/4533 [9:47:34<2:42:37, 10.34s/it, gpt_loss=0.268, loss_mean=0.311][A
+Train step of epoch 0:  79%|███████▉  | 3590/4533 [9:47:34<2:36:36,  9.96s/it, gpt_loss=0.268, loss_mean=0.311][A2026-01-26 23:35:38.661 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  79%|███████▉  | 3590/4533 [9:47:43<2:36:36,  9.96s/it, gpt_loss=0.327, loss_mean=0.313][A
+Train step of epoch 0:  79%|███████▉  | 3591/4533 [9:47:43<2:31:18,  9.64s/it, gpt_loss=0.327, loss_mean=0.313][A2026-01-26 23:35:47.291 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  79%|███████▉  | 3591/4533 [9:47:51<2:31:18,  9.64s/it, gpt_loss=0.264, loss_mean=0.308][A
+Train step of epoch 0:  79%|███████▉  | 3592/4533 [9:47:51<2:25:50,  9.30s/it, gpt_loss=0.264, loss_mean=0.308][A2026-01-26 23:35:56.066 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  79%|███████▉  | 3592/4533 [9:48:03<2:25:50,  9.30s/it, gpt_loss=0.444, loss_mean=0.322][A
+Train step of epoch 0:  79%|███████▉  | 3593/4533 [9:48:03<2:38:15, 10.10s/it, gpt_loss=0.444, loss_mean=0.322][A2026-01-26 23:36:07.866 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  79%|███████▉  | 3593/4533 [9:48:13<2:38:15, 10.10s/it, gpt_loss=0.264, loss_mean=0.316][A
+Train step of epoch 0:  79%|███████▉  | 3594/4533 [9:48:13<2:35:22,  9.93s/it, gpt_loss=0.264, loss_mean=0.316][A2026-01-26 23:36:17.288 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  79%|███████▉  | 3594/4533 [9:48:22<2:35:22,  9.93s/it, gpt_loss=0.312, loss_mean=0.315][A
+Train step of epoch 0:  79%|███████▉  | 3595/4533 [9:48:22<2:29:50,  9.58s/it, gpt_loss=0.312, loss_mean=0.315][A2026-01-26 23:36:26.300 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  79%|███████▉  | 3595/4533 [9:48:31<2:29:50,  9.58s/it, gpt_loss=0.239, loss_mean=0.308][A
+Train step of epoch 0:  79%|███████▉  | 3596/4533 [9:48:31<2:28:27,  9.51s/it, gpt_loss=0.239, loss_mean=0.308][A2026-01-26 23:36:35.601 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  79%|███████▉  | 3596/4533 [9:48:40<2:28:27,  9.51s/it, gpt_loss=0.349, loss_mean=0.312][A
+Train step of epoch 0:  79%|███████▉  | 3597/4533 [9:48:40<2:26:24,  9.38s/it, gpt_loss=0.349, loss_mean=0.312][A2026-01-26 23:36:44.790 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  79%|███████▉  | 3597/4533 [9:48:49<2:26:24,  9.38s/it, gpt_loss=0.255, loss_mean=0.306][A
+Train step of epoch 0:  79%|███████▉  | 3598/4533 [9:48:49<2:25:42,  9.35s/it, gpt_loss=0.255, loss_mean=0.306][A2026-01-26 23:36:53.704 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  79%|███████▉  | 3598/4533 [9:48:58<2:25:42,  9.35s/it, gpt_loss=0.293, loss_mean=0.305][A
+Train step of epoch 0:  79%|███████▉  | 3599/4533 [9:48:58<2:22:37,  9.16s/it, gpt_loss=0.293, loss_mean=0.305][A
+[LID Router Debug] Step: 3600
+Batch Size: 14
+Audio Batch Size: 157
+LID Assignments: [5, 9, 2, 0, 6, 3, 5, 5, 9, 9, 6, 1, 9, 0]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-26 23:37:02.584 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-26 23:37:10,840] [INFO] [logging.py:96:log_dist] [Rank 0] step=3600, skipped=0, lr=[1.6907107816794517e-05, 1.6907107816794517e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 23:37:10,841] [INFO] [timer.py:260:stop] epoch=0/micro_step=3600/global_step=3600, RunningAvgSamplesPerSec=5.723075039873163, CurrSamplesPerSec=6.3566674623291695, MemAllocated=14.96GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  79%|███████▉  | 3599/4533 [9:49:07<2:22:37,  9.16s/it, gpt_loss=0.271, loss_mean=0.302][A
+Train step of epoch 0:  79%|███████▉  | 3600/4533 [9:49:07<2:20:54,  9.06s/it, gpt_loss=0.271, loss_mean=0.302][A2026-01-26 23:37:11.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  79%|███████▉  | 3600/4533 [9:49:16<2:20:54,  9.06s/it, gpt_loss=0.255, loss_mean=0.297][A
+Train step of epoch 0:  79%|███████▉  | 3601/4533 [9:49:16<2:19:33,  8.98s/it, gpt_loss=0.255, loss_mean=0.297][A2026-01-26 23:37:20.397 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  79%|███████▉  | 3601/4533 [9:49:25<2:19:33,  8.98s/it, gpt_loss=0.295, loss_mean=0.297][A
+Train step of epoch 0:  79%|███████▉  | 3602/4533 [9:49:25<2:19:57,  9.02s/it, gpt_loss=0.295, loss_mean=0.297][A2026-01-26 23:37:29.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  79%|███████▉  | 3602/4533 [9:49:35<2:19:57,  9.02s/it, gpt_loss=0.278, loss_mean=0.295][A
+Train step of epoch 0:  79%|███████▉  | 3603/4533 [9:49:35<2:23:13,  9.24s/it, gpt_loss=0.278, loss_mean=0.295][A2026-01-26 23:37:38.992 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  79%|███████▉  | 3603/4533 [9:49:43<2:23:13,  9.24s/it, gpt_loss=0.277, loss_mean=0.293][A
+Train step of epoch 0:  80%|███████▉  | 3604/4533 [9:49:43<2:19:49,  9.03s/it, gpt_loss=0.277, loss_mean=0.293][A2026-01-26 23:37:47.684 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  80%|███████▉  | 3604/4533 [9:49:52<2:19:49,  9.03s/it, gpt_loss=0.244, loss_mean=0.288][A
+Train step of epoch 0:  80%|███████▉  | 3605/4533 [9:49:52<2:18:09,  8.93s/it, gpt_loss=0.244, loss_mean=0.288][A2026-01-26 23:37:56.463 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|███████▉  | 3605/4533 [9:50:01<2:18:09,  8.93s/it, gpt_loss=0.247, loss_mean=0.284][A
+Train step of epoch 0:  80%|███████▉  | 3606/4533 [9:50:01<2:17:41,  8.91s/it, gpt_loss=0.247, loss_mean=0.284][A2026-01-26 23:38:05.383 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|███████▉  | 3606/4533 [9:50:10<2:17:41,  8.91s/it, gpt_loss=0.31, loss_mean=0.287] [A
+Train step of epoch 0:  80%|███████▉  | 3607/4533 [9:50:10<2:19:27,  9.04s/it, gpt_loss=0.31, loss_mean=0.287][A2026-01-26 23:38:14.497 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  80%|███████▉  | 3607/4533 [9:50:19<2:19:27,  9.04s/it, gpt_loss=0.257, loss_mean=0.284][A
+Train step of epoch 0:  80%|███████▉  | 3608/4533 [9:50:19<2:18:34,  8.99s/it, gpt_loss=0.257, loss_mean=0.284][A2026-01-26 23:38:23.193 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|███████▉  | 3608/4533 [9:50:31<2:18:34,  8.99s/it, gpt_loss=0.388, loss_mean=0.294][A
+Train step of epoch 0:  80%|███████▉  | 3609/4533 [9:50:31<2:30:53,  9.80s/it, gpt_loss=0.388, loss_mean=0.294][A
+[LID Router Debug] Step: 3610
+Batch Size: 14
+Audio Batch Size: 164
+LID Assignments: [2, 6, 9, 3, 1, 3, 4, 5, 2, 2, 1, 4, 5, 6]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-26 23:38:34.867 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|███████▉  | 3609/4533 [9:50:39<2:30:53,  9.80s/it, gpt_loss=0.345, loss_mean=0.299][A
+Train step of epoch 0:  80%|███████▉  | 3610/4533 [9:50:39<2:24:12,  9.37s/it, gpt_loss=0.345, loss_mean=0.299][A2026-01-26 23:38:43.371 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|███████▉  | 3610/4533 [9:50:48<2:24:12,  9.37s/it, gpt_loss=0.254, loss_mean=0.295][A
+Train step of epoch 0:  80%|███████▉  | 3611/4533 [9:50:48<2:21:07,  9.18s/it, gpt_loss=0.254, loss_mean=0.295][A2026-01-26 23:38:52.457 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  80%|███████▉  | 3611/4533 [9:50:57<2:21:07,  9.18s/it, gpt_loss=0.305, loss_mean=0.296][A
+Train step of epoch 0:  80%|███████▉  | 3612/4533 [9:50:57<2:21:27,  9.22s/it, gpt_loss=0.305, loss_mean=0.296][A2026-01-26 23:39:01.597 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  80%|███████▉  | 3612/4533 [9:51:06<2:21:27,  9.22s/it, gpt_loss=0.285, loss_mean=0.295][A
+Train step of epoch 0:  80%|███████▉  | 3613/4533 [9:51:06<2:19:56,  9.13s/it, gpt_loss=0.285, loss_mean=0.295][A2026-01-26 23:39:10.463 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|███████▉  | 3613/4533 [9:51:15<2:19:56,  9.13s/it, gpt_loss=0.236, loss_mean=0.289][A
+Train step of epoch 0:  80%|███████▉  | 3614/4533 [9:51:15<2:21:29,  9.24s/it, gpt_loss=0.236, loss_mean=0.289][A2026-01-26 23:39:19.878 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  80%|███████▉  | 3614/4533 [9:51:24<2:21:29,  9.24s/it, gpt_loss=0.384, loss_mean=0.298][A
+Train step of epoch 0:  80%|███████▉  | 3615/4533 [9:51:24<2:19:59,  9.15s/it, gpt_loss=0.384, loss_mean=0.298][A2026-01-26 23:39:28.958 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  80%|███████▉  | 3615/4533 [9:51:33<2:19:59,  9.15s/it, gpt_loss=0.282, loss_mean=0.297][A
+Train step of epoch 0:  80%|███████▉  | 3616/4533 [9:51:33<2:19:14,  9.11s/it, gpt_loss=0.282, loss_mean=0.297][A2026-01-26 23:39:37.992 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  80%|███████▉  | 3616/4533 [9:51:42<2:19:14,  9.11s/it, gpt_loss=0.272, loss_mean=0.294][A
+Train step of epoch 0:  80%|███████▉  | 3617/4533 [9:51:42<2:19:06,  9.11s/it, gpt_loss=0.272, loss_mean=0.294][A2026-01-26 23:39:46.964 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  80%|███████▉  | 3617/4533 [9:51:51<2:19:06,  9.11s/it, gpt_loss=0.229, loss_mean=0.288][A
+Train step of epoch 0:  80%|███████▉  | 3618/4533 [9:51:51<2:16:57,  8.98s/it, gpt_loss=0.229, loss_mean=0.288][A2026-01-26 23:39:55.866 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|███████▉  | 3618/4533 [9:52:00<2:16:57,  8.98s/it, gpt_loss=0.225, loss_mean=0.281][A
+Train step of epoch 0:  80%|███████▉  | 3619/4533 [9:52:00<2:16:29,  8.96s/it, gpt_loss=0.225, loss_mean=0.281][A
+[LID Router Debug] Step: 3620
+Batch Size: 14
+Audio Batch Size: 157
+LID Assignments: [3, 1, 0, 0, 2, 9, 1, 9, 2, 3, 0, 2, 3, 2]
+Active Experts in Batch: {0, 1, 2, 3, 9}
+2026-01-26 23:40:04.385 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  80%|███████▉  | 3619/4533 [9:52:12<2:16:29,  8.96s/it, gpt_loss=0.385, loss_mean=0.292][A
+Train step of epoch 0:  80%|███████▉  | 3620/4533 [9:52:12<2:27:34,  9.70s/it, gpt_loss=0.385, loss_mean=0.292][A2026-01-26 23:40:15.765 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  80%|███████▉  | 3620/4533 [9:52:20<2:27:34,  9.70s/it, gpt_loss=0.287, loss_mean=0.291][A
+Train step of epoch 0:  80%|███████▉  | 3621/4533 [9:52:20<2:24:06,  9.48s/it, gpt_loss=0.287, loss_mean=0.291][A2026-01-26 23:40:24.862 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|███████▉  | 3621/4533 [9:52:32<2:24:06,  9.48s/it, gpt_loss=0.348, loss_mean=0.297][A
+Train step of epoch 0:  80%|███████▉  | 3622/4533 [9:52:32<2:33:15, 10.09s/it, gpt_loss=0.348, loss_mean=0.297][A2026-01-26 23:40:36.466 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  80%|███████▉  | 3622/4533 [9:52:41<2:33:15, 10.09s/it, gpt_loss=0.275, loss_mean=0.295][A
+Train step of epoch 0:  80%|███████▉  | 3623/4533 [9:52:41<2:26:28,  9.66s/it, gpt_loss=0.275, loss_mean=0.295][A2026-01-26 23:40:45.367 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  80%|███████▉  | 3623/4533 [9:52:50<2:26:28,  9.66s/it, gpt_loss=0.243, loss_mean=0.29] [A
+Train step of epoch 0:  80%|███████▉  | 3624/4533 [9:52:50<2:24:02,  9.51s/it, gpt_loss=0.243, loss_mean=0.29][A2026-01-26 23:40:54.491 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|███████▉  | 3624/4533 [9:53:02<2:24:02,  9.51s/it, gpt_loss=0.426, loss_mean=0.303][A
+Train step of epoch 0:  80%|███████▉  | 3625/4533 [9:53:02<2:34:30, 10.21s/it, gpt_loss=0.426, loss_mean=0.303][A2026-01-26 23:41:06.265 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|███████▉  | 3625/4533 [9:53:11<2:34:30, 10.21s/it, gpt_loss=0.245, loss_mean=0.298][A
+Train step of epoch 0:  80%|███████▉  | 3626/4533 [9:53:11<2:28:46,  9.84s/it, gpt_loss=0.245, loss_mean=0.298][A2026-01-26 23:41:14.893 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  80%|███████▉  | 3626/4533 [9:53:22<2:28:46,  9.84s/it, gpt_loss=0.354, loss_mean=0.303][A
+Train step of epoch 0:  80%|████████  | 3627/4533 [9:53:22<2:35:55, 10.33s/it, gpt_loss=0.354, loss_mean=0.303][A2026-01-26 23:41:26.505 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|████████  | 3627/4533 [9:53:31<2:35:55, 10.33s/it, gpt_loss=0.275, loss_mean=0.3]  [A
+Train step of epoch 0:  80%|████████  | 3628/4533 [9:53:31<2:29:35,  9.92s/it, gpt_loss=0.275, loss_mean=0.3][A2026-01-26 23:41:35.501 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  80%|████████  | 3628/4533 [9:53:41<2:29:35,  9.92s/it, gpt_loss=0.324, loss_mean=0.303][A
+Train step of epoch 0:  80%|████████  | 3629/4533 [9:53:41<2:28:35,  9.86s/it, gpt_loss=0.324, loss_mean=0.303][A
+[LID Router Debug] Step: 3630
+Batch Size: 14
+Audio Batch Size: 109
+LID Assignments: [1, 1, 2, 4, 4, 0, 4, 2, 1, 2, 0, 4, 4, 1]
+Active Experts in Batch: {0, 1, 2, 4}
+2026-01-26 23:41:45.095 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  80%|████████  | 3629/4533 [9:53:49<2:28:35,  9.86s/it, gpt_loss=0.244, loss_mean=0.297][A
+Train step of epoch 0:  80%|████████  | 3630/4533 [9:53:49<2:22:37,  9.48s/it, gpt_loss=0.244, loss_mean=0.297][A2026-01-26 23:41:54.066 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  80%|████████  | 3630/4533 [9:53:58<2:22:37,  9.48s/it, gpt_loss=0.232, loss_mean=0.29] [A
+Train step of epoch 0:  80%|████████  | 3631/4533 [9:53:58<2:20:38,  9.36s/it, gpt_loss=0.232, loss_mean=0.29][A2026-01-26 23:42:02.762 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|████████  | 3631/4533 [9:54:07<2:20:38,  9.36s/it, gpt_loss=0.25, loss_mean=0.286][A
+Train step of epoch 0:  80%|████████  | 3632/4533 [9:54:07<2:16:29,  9.09s/it, gpt_loss=0.25, loss_mean=0.286][A2026-01-26 23:42:11.389 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|████████  | 3632/4533 [9:54:16<2:16:29,  9.09s/it, gpt_loss=0.301, loss_mean=0.288][A
+Train step of epoch 0:  80%|████████  | 3633/4533 [9:54:16<2:15:50,  9.06s/it, gpt_loss=0.301, loss_mean=0.288][A2026-01-26 23:42:20.473 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  80%|████████  | 3633/4533 [9:54:25<2:15:50,  9.06s/it, gpt_loss=0.268, loss_mean=0.286][A
+Train step of epoch 0:  80%|████████  | 3634/4533 [9:54:25<2:18:08,  9.22s/it, gpt_loss=0.268, loss_mean=0.286][A2026-01-26 23:42:30.174 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|████████  | 3634/4533 [9:54:37<2:18:08,  9.22s/it, gpt_loss=0.355, loss_mean=0.293][A
+Train step of epoch 0:  80%|████████  | 3635/4533 [9:54:37<2:30:15, 10.04s/it, gpt_loss=0.355, loss_mean=0.293][A2026-01-26 23:42:41.976 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  80%|████████  | 3635/4533 [9:54:47<2:30:15, 10.04s/it, gpt_loss=0.258, loss_mean=0.289][A
+Train step of epoch 0:  80%|████████  | 3636/4533 [9:54:47<2:26:57,  9.83s/it, gpt_loss=0.258, loss_mean=0.289][A2026-01-26 23:42:51.377 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  80%|████████  | 3636/4533 [9:54:59<2:26:57,  9.83s/it, gpt_loss=0.454, loss_mean=0.306][A
+Train step of epoch 0:  80%|████████  | 3637/4533 [9:54:59<2:35:25, 10.41s/it, gpt_loss=0.454, loss_mean=0.306][A2026-01-26 23:43:02.993 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|████████  | 3637/4533 [9:55:07<2:35:25, 10.41s/it, gpt_loss=0.288, loss_mean=0.304][A
+Train step of epoch 0:  80%|████████  | 3638/4533 [9:55:07<2:27:18,  9.88s/it, gpt_loss=0.288, loss_mean=0.304][A2026-01-26 23:43:11.488 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|████████  | 3638/4533 [9:55:16<2:27:18,  9.88s/it, gpt_loss=0.294, loss_mean=0.303][A
+Train step of epoch 0:  80%|████████  | 3639/4533 [9:55:16<2:22:04,  9.54s/it, gpt_loss=0.294, loss_mean=0.303][A
+[LID Router Debug] Step: 3640
+Batch Size: 14
+Audio Batch Size: 144
+LID Assignments: [6, 9, 1, 1, 2, 9, 3, 9, 1, 3, 3, 9, 5, 5]
+Active Experts in Batch: {1, 2, 3, 5, 6, 9}
+2026-01-26 23:43:20.586 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|████████  | 3639/4533 [9:55:28<2:22:04,  9.54s/it, gpt_loss=0.481, loss_mean=0.321][A
+Train step of epoch 0:  80%|████████  | 3640/4533 [9:55:28<2:32:26, 10.24s/it, gpt_loss=0.481, loss_mean=0.321][A2026-01-26 23:43:32.367 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|████████  | 3640/4533 [9:55:37<2:32:26, 10.24s/it, gpt_loss=0.285, loss_mean=0.317][A
+Train step of epoch 0:  80%|████████  | 3641/4533 [9:55:37<2:26:11,  9.83s/it, gpt_loss=0.285, loss_mean=0.317][A2026-01-26 23:43:41.196 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  80%|████████  | 3641/4533 [9:55:48<2:26:11,  9.83s/it, gpt_loss=0.327, loss_mean=0.318][A
+Train step of epoch 0:  80%|████████  | 3642/4533 [9:55:48<2:33:55, 10.37s/it, gpt_loss=0.327, loss_mean=0.318][A2026-01-26 23:43:52.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  80%|████████  | 3642/4533 [9:55:57<2:33:55, 10.37s/it, gpt_loss=0.233, loss_mean=0.31] [A
+Train step of epoch 0:  80%|████████  | 3643/4533 [9:55:57<2:27:52,  9.97s/it, gpt_loss=0.233, loss_mean=0.31][A2026-01-26 23:44:02.060 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  80%|████████  | 3643/4533 [9:56:06<2:27:52,  9.97s/it, gpt_loss=0.235, loss_mean=0.302][A
+Train step of epoch 0:  80%|████████  | 3644/4533 [9:56:06<2:22:58,  9.65s/it, gpt_loss=0.235, loss_mean=0.302][A2026-01-26 23:44:10.864 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  80%|████████  | 3644/4533 [9:56:15<2:22:58,  9.65s/it, gpt_loss=0.35, loss_mean=0.307] [A
+Train step of epoch 0:  80%|████████  | 3645/4533 [9:56:15<2:19:37,  9.43s/it, gpt_loss=0.35, loss_mean=0.307][A2026-01-26 23:44:19.657 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  80%|████████  | 3645/4533 [9:56:24<2:19:37,  9.43s/it, gpt_loss=0.26, loss_mean=0.302][A
+Train step of epoch 0:  80%|████████  | 3646/4533 [9:56:24<2:16:14,  9.22s/it, gpt_loss=0.26, loss_mean=0.302][A2026-01-26 23:44:28.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  80%|████████  | 3646/4533 [9:56:33<2:16:14,  9.22s/it, gpt_loss=0.35, loss_mean=0.307][A
+Train step of epoch 0:  80%|████████  | 3647/4533 [9:56:33<2:17:52,  9.34s/it, gpt_loss=0.35, loss_mean=0.307][A2026-01-26 23:44:38.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  80%|████████  | 3647/4533 [9:56:45<2:17:52,  9.34s/it, gpt_loss=0.354, loss_mean=0.312][A
+Train step of epoch 0:  80%|████████  | 3648/4533 [9:56:45<2:27:46, 10.02s/it, gpt_loss=0.354, loss_mean=0.312][A2026-01-26 23:44:49.476 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  80%|████████  | 3648/4533 [9:56:54<2:27:46, 10.02s/it, gpt_loss=0.289, loss_mean=0.309][A
+Train step of epoch 0:  80%|████████  | 3649/4533 [9:56:54<2:21:25,  9.60s/it, gpt_loss=0.289, loss_mean=0.309][A
+[LID Router Debug] Step: 3650
+Batch Size: 14
+Audio Batch Size: 127
+LID Assignments: [2, 0, 1, 3, 1, 0, 3, 0, 4, 1, 4, 1, 4, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4}
+2026-01-26 23:44:58.383 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  80%|████████  | 3649/4533 [9:57:03<2:21:25,  9.60s/it, gpt_loss=0.296, loss_mean=0.308][A
+Train step of epoch 0:  81%|████████  | 3650/4533 [9:57:03<2:18:15,  9.40s/it, gpt_loss=0.296, loss_mean=0.308][A2026-01-26 23:45:07.196 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  81%|████████  | 3650/4533 [9:57:15<2:18:15,  9.40s/it, gpt_loss=0.29, loss_mean=0.306] [A
+Train step of epoch 0:  81%|████████  | 3651/4533 [9:57:15<2:29:27, 10.17s/it, gpt_loss=0.29, loss_mean=0.306][A2026-01-26 23:45:19.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  81%|████████  | 3651/4533 [9:57:24<2:29:27, 10.17s/it, gpt_loss=0.247, loss_mean=0.3] [A
+Train step of epoch 0:  81%|████████  | 3652/4533 [9:57:24<2:23:48,  9.79s/it, gpt_loss=0.247, loss_mean=0.3][A2026-01-26 23:45:28.186 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  81%|████████  | 3652/4533 [9:57:33<2:23:48,  9.79s/it, gpt_loss=0.301, loss_mean=0.3][A
+Train step of epoch 0:  81%|████████  | 3653/4533 [9:57:33<2:20:23,  9.57s/it, gpt_loss=0.301, loss_mean=0.3][A2026-01-26 23:45:37.151 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  81%|████████  | 3653/4533 [9:57:42<2:20:23,  9.57s/it, gpt_loss=0.275, loss_mean=0.298][A
+Train step of epoch 0:  81%|████████  | 3654/4533 [9:57:42<2:18:08,  9.43s/it, gpt_loss=0.275, loss_mean=0.298][A2026-01-26 23:45:46.270 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  81%|████████  | 3654/4533 [9:57:51<2:18:08,  9.43s/it, gpt_loss=0.268, loss_mean=0.295][A
+Train step of epoch 0:  81%|████████  | 3655/4533 [9:57:51<2:17:00,  9.36s/it, gpt_loss=0.268, loss_mean=0.295][A2026-01-26 23:45:55.572 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  81%|████████  | 3655/4533 [9:58:00<2:17:00,  9.36s/it, gpt_loss=0.254, loss_mean=0.291][A
+Train step of epoch 0:  81%|████████  | 3656/4533 [9:58:00<2:15:17,  9.26s/it, gpt_loss=0.254, loss_mean=0.291][A2026-01-26 23:46:04.380 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  81%|████████  | 3656/4533 [9:58:12<2:15:17,  9.26s/it, gpt_loss=0.457, loss_mean=0.307][A
+Train step of epoch 0:  81%|████████  | 3657/4533 [9:58:12<2:26:38, 10.04s/it, gpt_loss=0.457, loss_mean=0.307][A2026-01-26 23:46:16.374 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  81%|████████  | 3657/4533 [9:58:20<2:26:38, 10.04s/it, gpt_loss=0.268, loss_mean=0.304][A
+Train step of epoch 0:  81%|████████  | 3658/4533 [9:58:20<2:20:40,  9.65s/it, gpt_loss=0.268, loss_mean=0.304][A2026-01-26 23:46:25.080 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  81%|████████  | 3658/4533 [9:58:29<2:20:40,  9.65s/it, gpt_loss=0.342, loss_mean=0.307][A
+Train step of epoch 0:  81%|████████  | 3659/4533 [9:58:29<2:17:10,  9.42s/it, gpt_loss=0.342, loss_mean=0.307][A
+[LID Router Debug] Step: 3660
+Batch Size: 14
+Audio Batch Size: 178
+LID Assignments: [6, 3, 5, 5, 6, 6, 3, 9, 0, 3, 3, 9, 0, 1]
+Active Experts in Batch: {0, 1, 3, 5, 6, 9}
+2026-01-26 23:46:33.787 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  81%|████████  | 3659/4533 [9:58:38<2:17:10,  9.42s/it, gpt_loss=0.252, loss_mean=0.302][A
+Train step of epoch 0:  81%|████████  | 3660/4533 [9:58:38<2:14:23,  9.24s/it, gpt_loss=0.252, loss_mean=0.302][A2026-01-26 23:46:42.881 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  81%|████████  | 3660/4533 [9:58:47<2:14:23,  9.24s/it, gpt_loss=0.242, loss_mean=0.296][A
+Train step of epoch 0:  81%|████████  | 3661/4533 [9:58:47<2:12:47,  9.14s/it, gpt_loss=0.242, loss_mean=0.296][A2026-01-26 23:46:51.492 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  81%|████████  | 3661/4533 [9:58:57<2:12:47,  9.14s/it, gpt_loss=0.365, loss_mean=0.303][A
+Train step of epoch 0:  81%|████████  | 3662/4533 [9:58:57<2:14:09,  9.24s/it, gpt_loss=0.365, loss_mean=0.303][A2026-01-26 23:47:01.190 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  81%|████████  | 3662/4533 [9:59:09<2:14:09,  9.24s/it, gpt_loss=0.354, loss_mean=0.308][A
+Train step of epoch 0:  81%|████████  | 3663/4533 [9:59:09<2:27:55, 10.20s/it, gpt_loss=0.354, loss_mean=0.308][A2026-01-26 23:47:13.773 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  81%|████████  | 3663/4533 [9:59:18<2:27:55, 10.20s/it, gpt_loss=0.255, loss_mean=0.303][A
+Train step of epoch 0:  81%|████████  | 3664/4533 [9:59:18<2:23:05,  9.88s/it, gpt_loss=0.255, loss_mean=0.303][A2026-01-26 23:47:22.680 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  81%|████████  | 3664/4533 [9:59:27<2:23:05,  9.88s/it, gpt_loss=0.231, loss_mean=0.295][A
+Train step of epoch 0:  81%|████████  | 3665/4533 [9:59:27<2:18:38,  9.58s/it, gpt_loss=0.231, loss_mean=0.295][A2026-01-26 23:47:31.758 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  81%|████████  | 3665/4533 [9:59:36<2:18:38,  9.58s/it, gpt_loss=0.272, loss_mean=0.293][A
+Train step of epoch 0:  81%|████████  | 3666/4533 [9:59:36<2:17:18,  9.50s/it, gpt_loss=0.272, loss_mean=0.293][A2026-01-26 23:47:41.070 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  81%|████████  | 3666/4533 [9:59:48<2:17:18,  9.50s/it, gpt_loss=0.396, loss_mean=0.303][A
+Train step of epoch 0:  81%|████████  | 3667/4533 [9:59:48<2:27:27, 10.22s/it, gpt_loss=0.396, loss_mean=0.303][A2026-01-26 23:47:52.900 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  81%|████████  | 3667/4533 [10:00:00<2:27:27, 10.22s/it, gpt_loss=0.329, loss_mean=0.306][A
+Train step of epoch 0:  81%|████████  | 3668/4533 [10:00:00<2:34:35, 10.72s/it, gpt_loss=0.329, loss_mean=0.306][A2026-01-26 23:48:04.795 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  81%|████████  | 3668/4533 [10:00:09<2:34:35, 10.72s/it, gpt_loss=0.304, loss_mean=0.306][A
+Train step of epoch 0:  81%|████████  | 3669/4533 [10:00:09<2:26:43, 10.19s/it, gpt_loss=0.304, loss_mean=0.306][A
+[LID Router Debug] Step: 3670
+Batch Size: 14
+Audio Batch Size: 149
+LID Assignments: [2, 9, 1, 1, 4, 1, 0, 3, 9, 3, 5, 9, 4, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 23:48:13.795 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  81%|████████  | 3669/4533 [10:00:18<2:26:43, 10.19s/it, gpt_loss=0.315, loss_mean=0.307][A
+Train step of epoch 0:  81%|████████  | 3670/4533 [10:00:18<2:21:05,  9.81s/it, gpt_loss=0.315, loss_mean=0.307][A2026-01-26 23:48:22.762 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  81%|████████  | 3670/4533 [10:00:27<2:21:05,  9.81s/it, gpt_loss=0.25, loss_mean=0.301] [A
+Train step of epoch 0:  81%|████████  | 3671/4533 [10:00:27<2:17:00,  9.54s/it, gpt_loss=0.25, loss_mean=0.301][A2026-01-26 23:48:31.587 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  81%|████████  | 3671/4533 [10:00:36<2:17:00,  9.54s/it, gpt_loss=0.248, loss_mean=0.296][A
+Train step of epoch 0:  81%|████████  | 3672/4533 [10:00:36<2:15:00,  9.41s/it, gpt_loss=0.248, loss_mean=0.296][A2026-01-26 23:48:40.692 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  81%|████████  | 3672/4533 [10:00:48<2:15:00,  9.41s/it, gpt_loss=0.396, loss_mean=0.306][A
+Train step of epoch 0:  81%|████████  | 3673/4533 [10:00:48<2:24:13, 10.06s/it, gpt_loss=0.396, loss_mean=0.306][A2026-01-26 23:48:52.096 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  81%|████████  | 3673/4533 [10:00:57<2:24:13, 10.06s/it, gpt_loss=0.281, loss_mean=0.303][A
+Train step of epoch 0:  81%|████████  | 3674/4533 [10:00:57<2:21:37,  9.89s/it, gpt_loss=0.281, loss_mean=0.303][A2026-01-26 23:49:01.788 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  81%|████████  | 3674/4533 [10:01:06<2:21:37,  9.89s/it, gpt_loss=0.301, loss_mean=0.303][A
+Train step of epoch 0:  81%|████████  | 3675/4533 [10:01:06<2:17:27,  9.61s/it, gpt_loss=0.301, loss_mean=0.303][A2026-01-26 23:49:10.682 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  81%|████████  | 3675/4533 [10:01:16<2:17:27,  9.61s/it, gpt_loss=0.363, loss_mean=0.309][A
+Train step of epoch 0:  81%|████████  | 3676/4533 [10:01:16<2:17:42,  9.64s/it, gpt_loss=0.363, loss_mean=0.309][A2026-01-26 23:49:20.362 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  81%|████████  | 3676/4533 [10:01:25<2:17:42,  9.64s/it, gpt_loss=0.257, loss_mean=0.304][A
+Train step of epoch 0:  81%|████████  | 3677/4533 [10:01:25<2:13:54,  9.39s/it, gpt_loss=0.257, loss_mean=0.304][A2026-01-26 23:49:28.986 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  81%|████████  | 3677/4533 [10:01:33<2:13:54,  9.39s/it, gpt_loss=0.267, loss_mean=0.3]  [A
+Train step of epoch 0:  81%|████████  | 3678/4533 [10:01:33<2:11:03,  9.20s/it, gpt_loss=0.267, loss_mean=0.3][A2026-01-26 23:49:37.889 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  81%|████████  | 3678/4533 [10:01:42<2:11:03,  9.20s/it, gpt_loss=0.282, loss_mean=0.298][A
+Train step of epoch 0:  81%|████████  | 3679/4533 [10:01:42<2:09:40,  9.11s/it, gpt_loss=0.282, loss_mean=0.298][A
+[LID Router Debug] Step: 3680
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [6, 4, 3, 0, 9, 3, 1, 2, 3, 9, 1, 4, 0, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-26 23:49:46.760 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  81%|████████  | 3679/4533 [10:01:52<2:09:40,  9.11s/it, gpt_loss=0.306, loss_mean=0.299][A
+Train step of epoch 0:  81%|████████  | 3680/4533 [10:01:52<2:12:29,  9.32s/it, gpt_loss=0.306, loss_mean=0.299][A2026-01-26 23:49:56.265 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  81%|████████  | 3680/4533 [10:02:01<2:12:29,  9.32s/it, gpt_loss=0.208, loss_mean=0.29] [A
+Train step of epoch 0:  81%|████████  | 3681/4533 [10:02:01<2:10:55,  9.22s/it, gpt_loss=0.208, loss_mean=0.29][A2026-01-26 23:50:05.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  81%|████████  | 3681/4533 [10:02:10<2:10:55,  9.22s/it, gpt_loss=0.282, loss_mean=0.289][A
+Train step of epoch 0:  81%|████████  | 3682/4533 [10:02:10<2:10:10,  9.18s/it, gpt_loss=0.282, loss_mean=0.289][A2026-01-26 23:50:14.789 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  81%|████████  | 3682/4533 [10:02:22<2:10:10,  9.18s/it, gpt_loss=0.395, loss_mean=0.3]  [A
+Train step of epoch 0:  81%|████████  | 3683/4533 [10:02:22<2:22:11, 10.04s/it, gpt_loss=0.395, loss_mean=0.3][A2026-01-26 23:50:26.675 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  81%|████████  | 3683/4533 [10:02:34<2:22:11, 10.04s/it, gpt_loss=0.329, loss_mean=0.303][A
+Train step of epoch 0:  81%|████████▏ | 3684/4533 [10:02:34<2:30:06, 10.61s/it, gpt_loss=0.329, loss_mean=0.303][A2026-01-26 23:50:38.678 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  81%|████████▏ | 3684/4533 [10:02:46<2:30:06, 10.61s/it, gpt_loss=0.341, loss_mean=0.306][A
+Train step of epoch 0:  81%|████████▏ | 3685/4533 [10:02:46<2:35:36, 11.01s/it, gpt_loss=0.341, loss_mean=0.306][A2026-01-26 23:50:50.680 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  81%|████████▏ | 3685/4533 [10:02:55<2:35:36, 11.01s/it, gpt_loss=0.296, loss_mean=0.305][A
+Train step of epoch 0:  81%|████████▏ | 3686/4533 [10:02:55<2:26:36, 10.39s/it, gpt_loss=0.296, loss_mean=0.305][A2026-01-26 23:50:59.472 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  81%|████████▏ | 3686/4533 [10:03:04<2:26:36, 10.39s/it, gpt_loss=0.278, loss_mean=0.303][A
+Train step of epoch 0:  81%|████████▏ | 3687/4533 [10:03:04<2:20:09,  9.94s/it, gpt_loss=0.278, loss_mean=0.303][A2026-01-26 23:51:08.485 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  81%|████████▏ | 3687/4533 [10:03:13<2:20:09,  9.94s/it, gpt_loss=0.27, loss_mean=0.299] [A
+Train step of epoch 0:  81%|████████▏ | 3688/4533 [10:03:13<2:15:02,  9.59s/it, gpt_loss=0.27, loss_mean=0.299][A2026-01-26 23:51:16.994 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  81%|████████▏ | 3688/4533 [10:03:22<2:15:02,  9.59s/it, gpt_loss=0.268, loss_mean=0.296][A
+Train step of epoch 0:  81%|████████▏ | 3689/4533 [10:03:22<2:14:24,  9.56s/it, gpt_loss=0.268, loss_mean=0.296][A
+[LID Router Debug] Step: 3690
+Batch Size: 14
+Audio Batch Size: 134
+LID Assignments: [0, 1, 2, 0, 1, 4, 5, 2, 3, 4, 3, 0, 5, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5}
+2026-01-26 23:51:26.857 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  81%|████████▏ | 3689/4533 [10:03:31<2:14:24,  9.56s/it, gpt_loss=0.254, loss_mean=0.292][A
+Train step of epoch 0:  81%|████████▏ | 3690/4533 [10:03:31<2:12:08,  9.41s/it, gpt_loss=0.254, loss_mean=0.292][A2026-01-26 23:51:35.867 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  81%|████████▏ | 3690/4533 [10:03:43<2:12:08,  9.41s/it, gpt_loss=0.373, loss_mean=0.3]  [A
+Train step of epoch 0:  81%|████████▏ | 3691/4533 [10:03:43<2:23:03, 10.19s/it, gpt_loss=0.373, loss_mean=0.3][A2026-01-26 23:51:47.956 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  81%|████████▏ | 3691/4533 [10:03:52<2:23:03, 10.19s/it, gpt_loss=0.25, loss_mean=0.295][A
+Train step of epoch 0:  81%|████████▏ | 3692/4533 [10:03:52<2:17:42,  9.82s/it, gpt_loss=0.25, loss_mean=0.295][A2026-01-26 23:51:56.773 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  81%|████████▏ | 3692/4533 [10:04:01<2:17:42,  9.82s/it, gpt_loss=0.304, loss_mean=0.296][A
+Train step of epoch 0:  81%|████████▏ | 3693/4533 [10:04:01<2:14:08,  9.58s/it, gpt_loss=0.304, loss_mean=0.296][A2026-01-26 23:52:05.799 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  81%|████████▏ | 3693/4533 [10:04:13<2:14:08,  9.58s/it, gpt_loss=0.352, loss_mean=0.302][A
+Train step of epoch 0:  81%|████████▏ | 3694/4533 [10:04:13<2:23:34, 10.27s/it, gpt_loss=0.352, loss_mean=0.302][A2026-01-26 23:52:17.682 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  81%|████████▏ | 3694/4533 [10:04:22<2:23:34, 10.27s/it, gpt_loss=0.238, loss_mean=0.295][A
+Train step of epoch 0:  82%|████████▏ | 3695/4533 [10:04:22<2:19:11,  9.97s/it, gpt_loss=0.238, loss_mean=0.295][A2026-01-26 23:52:26.957 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  82%|████████▏ | 3695/4533 [10:04:32<2:19:11,  9.97s/it, gpt_loss=0.298, loss_mean=0.295][A
+Train step of epoch 0:  82%|████████▏ | 3696/4533 [10:04:32<2:16:31,  9.79s/it, gpt_loss=0.298, loss_mean=0.295][A2026-01-26 23:52:36.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  82%|████████▏ | 3696/4533 [10:04:43<2:16:31,  9.79s/it, gpt_loss=0.286, loss_mean=0.295][A
+Train step of epoch 0:  82%|████████▏ | 3697/4533 [10:04:43<2:24:37, 10.38s/it, gpt_loss=0.286, loss_mean=0.295][A2026-01-26 23:52:47.891 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  82%|████████▏ | 3697/4533 [10:04:52<2:24:37, 10.38s/it, gpt_loss=0.274, loss_mean=0.292][A
+Train step of epoch 0:  82%|████████▏ | 3698/4533 [10:04:52<2:17:24,  9.87s/it, gpt_loss=0.274, loss_mean=0.292][A2026-01-26 23:52:56.770 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  82%|████████▏ | 3698/4533 [10:05:01<2:17:24,  9.87s/it, gpt_loss=0.35, loss_mean=0.298] [A
+Train step of epoch 0:  82%|████████▏ | 3699/4533 [10:05:01<2:12:51,  9.56s/it, gpt_loss=0.35, loss_mean=0.298][A
+[LID Router Debug] Step: 3700
+Batch Size: 14
+Audio Batch Size: 129
+LID Assignments: [4, 4, 3, 1, 2, 9, 4, 2, 0, 5, 4, 0, 5, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 23:53:05.354 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+[2026-01-26 23:53:14,404] [INFO] [logging.py:96:log_dist] [Rank 0] step=3700, skipped=0, lr=[1.6736499944093174e-05, 1.6736499944093174e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-26 23:53:14,405] [INFO] [timer.py:260:stop] epoch=0/micro_step=3700/global_step=3700, RunningAvgSamplesPerSec=5.725738865185685, CurrSamplesPerSec=5.88622420286655, MemAllocated=14.56GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  82%|████████▏ | 3699/4533 [10:05:10<2:12:51,  9.56s/it, gpt_loss=0.298, loss_mean=0.298][A
+Train step of epoch 0:  82%|████████▏ | 3700/4533 [10:05:10<2:12:35,  9.55s/it, gpt_loss=0.298, loss_mean=0.298][A2026-01-26 23:53:15.094 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  82%|████████▏ | 3700/4533 [10:05:19<2:12:35,  9.55s/it, gpt_loss=0.332, loss_mean=0.302][A
+Train step of epoch 0:  82%|████████▏ | 3701/4533 [10:05:19<2:09:41,  9.35s/it, gpt_loss=0.332, loss_mean=0.302][A2026-01-26 23:53:24.000 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  82%|████████▏ | 3701/4533 [10:05:29<2:09:41,  9.35s/it, gpt_loss=0.309, loss_mean=0.302][A
+Train step of epoch 0:  82%|████████▏ | 3702/4533 [10:05:29<2:12:05,  9.54s/it, gpt_loss=0.309, loss_mean=0.302][A2026-01-26 23:53:33.886 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  82%|████████▏ | 3702/4533 [10:05:38<2:12:05,  9.54s/it, gpt_loss=0.271, loss_mean=0.299][A
+Train step of epoch 0:  82%|████████▏ | 3703/4533 [10:05:38<2:09:43,  9.38s/it, gpt_loss=0.271, loss_mean=0.299][A2026-01-26 23:53:43.067 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  82%|████████▏ | 3703/4533 [10:05:47<2:09:43,  9.38s/it, gpt_loss=0.274, loss_mean=0.297][A
+Train step of epoch 0:  82%|████████▏ | 3704/4533 [10:05:47<2:08:07,  9.27s/it, gpt_loss=0.274, loss_mean=0.297][A2026-01-26 23:53:51.976 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  82%|████████▏ | 3704/4533 [10:05:59<2:08:07,  9.27s/it, gpt_loss=0.387, loss_mean=0.306][A
+Train step of epoch 0:  82%|████████▏ | 3705/4533 [10:05:59<2:18:39, 10.05s/it, gpt_loss=0.387, loss_mean=0.306][A2026-01-26 23:54:03.862 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  82%|████████▏ | 3705/4533 [10:06:08<2:18:39, 10.05s/it, gpt_loss=0.256, loss_mean=0.301][A
+Train step of epoch 0:  82%|████████▏ | 3706/4533 [10:06:08<2:13:57,  9.72s/it, gpt_loss=0.256, loss_mean=0.301][A2026-01-26 23:54:12.885 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  82%|████████▏ | 3706/4533 [10:06:17<2:13:57,  9.72s/it, gpt_loss=0.344, loss_mean=0.305][A
+Train step of epoch 0:  82%|████████▏ | 3707/4533 [10:06:17<2:11:10,  9.53s/it, gpt_loss=0.344, loss_mean=0.305][A2026-01-26 23:54:21.692 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  82%|████████▏ | 3707/4533 [10:06:29<2:11:10,  9.53s/it, gpt_loss=0.468, loss_mean=0.321][A
+Train step of epoch 0:  82%|████████▏ | 3708/4533 [10:06:29<2:20:20, 10.21s/it, gpt_loss=0.468, loss_mean=0.321][A2026-01-26 23:54:33.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  82%|████████▏ | 3708/4533 [10:06:38<2:20:20, 10.21s/it, gpt_loss=0.222, loss_mean=0.311][A
+Train step of epoch 0:  82%|████████▏ | 3709/4533 [10:06:38<2:13:59,  9.76s/it, gpt_loss=0.222, loss_mean=0.311][A
+[LID Router Debug] Step: 3710
+Batch Size: 14
+Audio Batch Size: 163
+LID Assignments: [2, 6, 3, 5, 5, 9, 2, 2, 1, 1, 6, 3, 3, 5]
+Active Experts in Batch: {1, 2, 3, 5, 6, 9}
+2026-01-26 23:54:41.873 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  82%|████████▏ | 3709/4533 [10:06:46<2:13:59,  9.76s/it, gpt_loss=0.298, loss_mean=0.31] [A
+Train step of epoch 0:  82%|████████▏ | 3710/4533 [10:06:46<2:08:38,  9.38s/it, gpt_loss=0.298, loss_mean=0.31][A2026-01-26 23:54:50.687 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  82%|████████▏ | 3710/4533 [10:06:56<2:08:38,  9.38s/it, gpt_loss=0.232, loss_mean=0.302][A
+Train step of epoch 0:  82%|████████▏ | 3711/4533 [10:06:56<2:10:12,  9.50s/it, gpt_loss=0.232, loss_mean=0.302][A2026-01-26 23:55:00.569 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  82%|████████▏ | 3711/4533 [10:07:08<2:10:12,  9.50s/it, gpt_loss=0.302, loss_mean=0.302][A
+Train step of epoch 0:  82%|████████▏ | 3712/4533 [10:07:08<2:19:08, 10.17s/it, gpt_loss=0.302, loss_mean=0.302][A2026-01-26 23:55:12.269 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  82%|████████▏ | 3712/4533 [10:07:19<2:19:08, 10.17s/it, gpt_loss=0.446, loss_mean=0.317][A
+Train step of epoch 0:  82%|████████▏ | 3713/4533 [10:07:19<2:25:14, 10.63s/it, gpt_loss=0.446, loss_mean=0.317][A2026-01-26 23:55:23.959 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  82%|████████▏ | 3713/4533 [10:07:28<2:25:14, 10.63s/it, gpt_loss=0.25, loss_mean=0.31]  [A
+Train step of epoch 0:  82%|████████▏ | 3714/4533 [10:07:28<2:17:11, 10.05s/it, gpt_loss=0.25, loss_mean=0.31][A2026-01-26 23:55:32.656 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  82%|████████▏ | 3714/4533 [10:07:37<2:17:11, 10.05s/it, gpt_loss=0.252, loss_mean=0.304][A
+Train step of epoch 0:  82%|████████▏ | 3715/4533 [10:07:37<2:11:24,  9.64s/it, gpt_loss=0.252, loss_mean=0.304][A2026-01-26 23:55:41.192 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  82%|████████▏ | 3715/4533 [10:07:48<2:11:24,  9.64s/it, gpt_loss=0.357, loss_mean=0.309][A
+Train step of epoch 0:  82%|████████▏ | 3716/4533 [10:07:48<2:18:35, 10.18s/it, gpt_loss=0.357, loss_mean=0.309][A2026-01-26 23:55:52.990 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  82%|████████▏ | 3716/4533 [10:07:57<2:18:35, 10.18s/it, gpt_loss=0.284, loss_mean=0.307][A
+Train step of epoch 0:  82%|████████▏ | 3717/4533 [10:07:57<2:12:57,  9.78s/it, gpt_loss=0.284, loss_mean=0.307][A2026-01-26 23:56:01.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  82%|████████▏ | 3717/4533 [10:08:06<2:12:57,  9.78s/it, gpt_loss=0.277, loss_mean=0.304][A
+Train step of epoch 0:  82%|████████▏ | 3718/4533 [10:08:06<2:09:59,  9.57s/it, gpt_loss=0.277, loss_mean=0.304][A2026-01-26 23:56:10.899 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  82%|████████▏ | 3718/4533 [10:08:18<2:09:59,  9.57s/it, gpt_loss=0.29, loss_mean=0.303] [A
+Train step of epoch 0:  82%|████████▏ | 3719/4533 [10:08:18<2:19:14, 10.26s/it, gpt_loss=0.29, loss_mean=0.303][A
+[LID Router Debug] Step: 3720
+Batch Size: 14
+Audio Batch Size: 152
+LID Assignments: [0, 5, 3, 4, 9, 0, 1, 0, 0, 5, 3, 3, 2, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-26 23:56:22.498 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  82%|████████▏ | 3719/4533 [10:08:27<2:19:14, 10.26s/it, gpt_loss=0.309, loss_mean=0.303][A
+Train step of epoch 0:  82%|████████▏ | 3720/4533 [10:08:27<2:12:35,  9.79s/it, gpt_loss=0.309, loss_mean=0.303][A2026-01-26 23:56:31.168 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  82%|████████▏ | 3720/4533 [10:08:36<2:12:35,  9.79s/it, gpt_loss=0.262, loss_mean=0.299][A
+Train step of epoch 0:  82%|████████▏ | 3721/4533 [10:08:36<2:11:20,  9.71s/it, gpt_loss=0.262, loss_mean=0.299][A2026-01-26 23:56:40.694 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  82%|████████▏ | 3721/4533 [10:08:46<2:11:20,  9.71s/it, gpt_loss=0.271, loss_mean=0.296][A
+Train step of epoch 0:  82%|████████▏ | 3722/4533 [10:08:46<2:09:53,  9.61s/it, gpt_loss=0.271, loss_mean=0.296][A2026-01-26 23:56:50.102 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  82%|████████▏ | 3722/4533 [10:08:57<2:09:53,  9.61s/it, gpt_loss=0.375, loss_mean=0.304][A
+Train step of epoch 0:  82%|████████▏ | 3723/4533 [10:08:57<2:17:20, 10.17s/it, gpt_loss=0.375, loss_mean=0.304][A2026-01-26 23:57:01.693 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  82%|████████▏ | 3723/4533 [10:09:07<2:17:20, 10.17s/it, gpt_loss=0.277, loss_mean=0.301][A
+Train step of epoch 0:  82%|████████▏ | 3724/4533 [10:09:07<2:14:53, 10.00s/it, gpt_loss=0.277, loss_mean=0.301][A2026-01-26 23:57:11.402 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  82%|████████▏ | 3724/4533 [10:09:16<2:14:53, 10.00s/it, gpt_loss=0.257, loss_mean=0.297][A
+Train step of epoch 0:  82%|████████▏ | 3725/4533 [10:09:16<2:09:36,  9.62s/it, gpt_loss=0.257, loss_mean=0.297][A2026-01-26 23:57:20.267 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  82%|████████▏ | 3725/4533 [10:09:25<2:09:36,  9.62s/it, gpt_loss=0.305, loss_mean=0.298][A
+Train step of epoch 0:  82%|████████▏ | 3726/4533 [10:09:25<2:10:21,  9.69s/it, gpt_loss=0.305, loss_mean=0.298][A2026-01-26 23:57:29.785 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  82%|████████▏ | 3726/4533 [10:09:34<2:10:21,  9.69s/it, gpt_loss=0.292, loss_mean=0.297][A
+Train step of epoch 0:  82%|████████▏ | 3727/4533 [10:09:34<2:05:47,  9.36s/it, gpt_loss=0.292, loss_mean=0.297][A2026-01-26 23:57:38.392 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  82%|████████▏ | 3727/4533 [10:09:43<2:05:47,  9.36s/it, gpt_loss=0.322, loss_mean=0.3]  [A
+Train step of epoch 0:  82%|████████▏ | 3728/4533 [10:09:43<2:03:12,  9.18s/it, gpt_loss=0.322, loss_mean=0.3][A2026-01-26 23:57:47.302 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  82%|████████▏ | 3728/4533 [10:09:52<2:03:12,  9.18s/it, gpt_loss=0.287, loss_mean=0.298][A
+Train step of epoch 0:  82%|████████▏ | 3729/4533 [10:09:52<2:02:02,  9.11s/it, gpt_loss=0.287, loss_mean=0.298][A
+[LID Router Debug] Step: 3730
+Batch Size: 14
+Audio Batch Size: 193
+LID Assignments: [2, 2, 3, 6, 2, 1, 0, 4, 3, 3, 3, 2, 0, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6}
+2026-01-26 23:57:56.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  82%|████████▏ | 3729/4533 [10:10:01<2:02:02,  9.11s/it, gpt_loss=0.229, loss_mean=0.291][A
+Train step of epoch 0:  82%|████████▏ | 3730/4533 [10:10:01<2:04:01,  9.27s/it, gpt_loss=0.229, loss_mean=0.291][A2026-01-26 23:58:05.966 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  82%|████████▏ | 3730/4533 [10:10:11<2:04:01,  9.27s/it, gpt_loss=0.286, loss_mean=0.291][A
+Train step of epoch 0:  82%|████████▏ | 3731/4533 [10:10:11<2:06:17,  9.45s/it, gpt_loss=0.286, loss_mean=0.291][A2026-01-26 23:58:15.472 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  82%|████████▏ | 3731/4533 [10:10:20<2:06:17,  9.45s/it, gpt_loss=0.293, loss_mean=0.291][A
+Train step of epoch 0:  82%|████████▏ | 3732/4533 [10:10:20<2:03:03,  9.22s/it, gpt_loss=0.293, loss_mean=0.291][A2026-01-26 23:58:24.490 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  82%|████████▏ | 3732/4533 [10:10:32<2:03:03,  9.22s/it, gpt_loss=0.35, loss_mean=0.297] [A
+Train step of epoch 0:  82%|████████▏ | 3733/4533 [10:10:32<2:15:05, 10.13s/it, gpt_loss=0.35, loss_mean=0.297][A2026-01-26 23:58:36.670 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  82%|████████▏ | 3733/4533 [10:10:41<2:15:05, 10.13s/it, gpt_loss=0.265, loss_mean=0.294][A
+Train step of epoch 0:  82%|████████▏ | 3734/4533 [10:10:41<2:09:24,  9.72s/it, gpt_loss=0.265, loss_mean=0.294][A2026-01-26 23:58:45.384 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  82%|████████▏ | 3734/4533 [10:10:50<2:09:24,  9.72s/it, gpt_loss=0.202, loss_mean=0.285][A
+Train step of epoch 0:  82%|████████▏ | 3735/4533 [10:10:50<2:05:00,  9.40s/it, gpt_loss=0.202, loss_mean=0.285][A2026-01-26 23:58:54.179 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  82%|████████▏ | 3735/4533 [10:10:59<2:05:00,  9.40s/it, gpt_loss=0.259, loss_mean=0.282][A
+Train step of epoch 0:  82%|████████▏ | 3736/4533 [10:10:59<2:03:36,  9.31s/it, gpt_loss=0.259, loss_mean=0.282][A2026-01-26 23:59:03.366 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  82%|████████▏ | 3736/4533 [10:11:10<2:03:36,  9.31s/it, gpt_loss=0.405, loss_mean=0.294][A
+Train step of epoch 0:  82%|████████▏ | 3737/4533 [10:11:10<2:13:34, 10.07s/it, gpt_loss=0.405, loss_mean=0.294][A2026-01-26 23:59:15.091 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  82%|████████▏ | 3737/4533 [10:11:20<2:13:34, 10.07s/it, gpt_loss=0.281, loss_mean=0.293][A
+Train step of epoch 0:  82%|████████▏ | 3738/4533 [10:11:20<2:11:43,  9.94s/it, gpt_loss=0.281, loss_mean=0.293][A2026-01-26 23:59:24.659 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  82%|████████▏ | 3738/4533 [10:11:29<2:11:43,  9.94s/it, gpt_loss=0.266, loss_mean=0.29] [A
+Train step of epoch 0:  82%|████████▏ | 3739/4533 [10:11:29<2:06:53,  9.59s/it, gpt_loss=0.266, loss_mean=0.29][A
+[LID Router Debug] Step: 3740
+Batch Size: 14
+Audio Batch Size: 126
+LID Assignments: [6, 3, 1, 1, 9, 1, 9, 5, 1, 2, 9, 1, 2, 5]
+Active Experts in Batch: {1, 2, 3, 5, 6, 9}
+2026-01-26 23:59:33.184 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  82%|████████▏ | 3739/4533 [10:11:38<2:06:53,  9.59s/it, gpt_loss=0.273, loss_mean=0.288][A
+Train step of epoch 0:  83%|████████▎ | 3740/4533 [10:11:38<2:06:13,  9.55s/it, gpt_loss=0.273, loss_mean=0.288][A2026-01-26 23:59:43.067 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  83%|████████▎ | 3740/4533 [10:11:47<2:06:13,  9.55s/it, gpt_loss=0.321, loss_mean=0.292][A
+Train step of epoch 0:  83%|████████▎ | 3741/4533 [10:11:47<2:03:19,  9.34s/it, gpt_loss=0.321, loss_mean=0.292][A2026-01-26 23:59:51.852 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  83%|████████▎ | 3741/4533 [10:11:56<2:03:19,  9.34s/it, gpt_loss=0.278, loss_mean=0.29] [A
+Train step of epoch 0:  83%|████████▎ | 3742/4533 [10:11:56<2:01:10,  9.19s/it, gpt_loss=0.278, loss_mean=0.29][A2026-01-27 00:00:00.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  83%|████████▎ | 3742/4533 [10:12:08<2:01:10,  9.19s/it, gpt_loss=0.332, loss_mean=0.295][A
+Train step of epoch 0:  83%|████████▎ | 3743/4533 [10:12:08<2:11:53, 10.02s/it, gpt_loss=0.332, loss_mean=0.295][A2026-01-27 00:00:12.585 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  83%|████████▎ | 3743/4533 [10:12:17<2:11:53, 10.02s/it, gpt_loss=0.255, loss_mean=0.291][A
+Train step of epoch 0:  83%|████████▎ | 3744/4533 [10:12:17<2:07:27,  9.69s/it, gpt_loss=0.255, loss_mean=0.291][A2026-01-27 00:00:21.567 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  83%|████████▎ | 3744/4533 [10:12:26<2:07:27,  9.69s/it, gpt_loss=0.345, loss_mean=0.296][A
+Train step of epoch 0:  83%|████████▎ | 3745/4533 [10:12:26<2:05:33,  9.56s/it, gpt_loss=0.345, loss_mean=0.296][A2026-01-27 00:00:30.681 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  83%|████████▎ | 3745/4533 [10:12:35<2:05:33,  9.56s/it, gpt_loss=0.233, loss_mean=0.29] [A
+Train step of epoch 0:  83%|████████▎ | 3746/4533 [10:12:35<2:03:44,  9.43s/it, gpt_loss=0.233, loss_mean=0.29][A2026-01-27 00:00:39.993 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  83%|████████▎ | 3746/4533 [10:12:45<2:03:44,  9.43s/it, gpt_loss=0.274, loss_mean=0.288][A
+Train step of epoch 0:  83%|████████▎ | 3747/4533 [10:12:45<2:02:45,  9.37s/it, gpt_loss=0.274, loss_mean=0.288][A2026-01-27 00:00:48.877 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  83%|████████▎ | 3747/4533 [10:12:56<2:02:45,  9.37s/it, gpt_loss=0.343, loss_mean=0.294][A
+Train step of epoch 0:  83%|████████▎ | 3748/4533 [10:12:56<2:10:57, 10.01s/it, gpt_loss=0.343, loss_mean=0.294][A2026-01-27 00:01:00.601 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  83%|████████▎ | 3748/4533 [10:13:08<2:10:57, 10.01s/it, gpt_loss=0.386, loss_mean=0.303][A
+Train step of epoch 0:  83%|████████▎ | 3749/4533 [10:13:08<2:17:46, 10.54s/it, gpt_loss=0.386, loss_mean=0.303][A
+[LID Router Debug] Step: 3750
+Batch Size: 14
+Audio Batch Size: 201
+LID Assignments: [9, 2, 1, 3, 1, 1, 3, 6, 3, 9, 3, 4, 2, 1]
+Active Experts in Batch: {1, 2, 3, 4, 6, 9}
+2026-01-27 00:01:12.557 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  83%|████████▎ | 3749/4533 [10:13:20<2:17:46, 10.54s/it, gpt_loss=0.414, loss_mean=0.314][A
+Train step of epoch 0:  83%|████████▎ | 3750/4533 [10:13:20<2:22:45, 10.94s/it, gpt_loss=0.414, loss_mean=0.314][A2026-01-27 00:01:24.365 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  83%|████████▎ | 3750/4533 [10:13:32<2:22:45, 10.94s/it, gpt_loss=0.385, loss_mean=0.321][A
+Train step of epoch 0:  83%|████████▎ | 3751/4533 [10:13:32<2:26:58, 11.28s/it, gpt_loss=0.385, loss_mean=0.321][A2026-01-27 00:01:36.365 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  83%|████████▎ | 3751/4533 [10:13:41<2:26:58, 11.28s/it, gpt_loss=0.324, loss_mean=0.321][A
+Train step of epoch 0:  83%|████████▎ | 3752/4533 [10:13:41<2:17:27, 10.56s/it, gpt_loss=0.324, loss_mean=0.321][A2026-01-27 00:01:45.295 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  83%|████████▎ | 3752/4533 [10:13:50<2:17:27, 10.56s/it, gpt_loss=0.226, loss_mean=0.312][A
+Train step of epoch 0:  83%|████████▎ | 3753/4533 [10:13:50<2:12:18, 10.18s/it, gpt_loss=0.226, loss_mean=0.312][A2026-01-27 00:01:54.588 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  83%|████████▎ | 3753/4533 [10:14:02<2:12:18, 10.18s/it, gpt_loss=0.302, loss_mean=0.311][A
+Train step of epoch 0:  83%|████████▎ | 3754/4533 [10:14:02<2:18:34, 10.67s/it, gpt_loss=0.302, loss_mean=0.311][A2026-01-27 00:02:06.468 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  83%|████████▎ | 3754/4533 [10:14:12<2:18:34, 10.67s/it, gpt_loss=0.374, loss_mean=0.317][A
+Train step of epoch 0:  83%|████████▎ | 3755/4533 [10:14:12<2:15:21, 10.44s/it, gpt_loss=0.374, loss_mean=0.317][A2026-01-27 00:02:16.363 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  83%|████████▎ | 3755/4533 [10:14:21<2:15:21, 10.44s/it, gpt_loss=0.299, loss_mean=0.315][A
+Train step of epoch 0:  83%|████████▎ | 3756/4533 [10:14:21<2:10:27, 10.07s/it, gpt_loss=0.299, loss_mean=0.315][A2026-01-27 00:02:25.482 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  83%|████████▎ | 3756/4533 [10:14:33<2:10:27, 10.07s/it, gpt_loss=0.387, loss_mean=0.323][A
+Train step of epoch 0:  83%|████████▎ | 3757/4533 [10:14:33<2:17:12, 10.61s/it, gpt_loss=0.387, loss_mean=0.323][A2026-01-27 00:02:36.968 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  83%|████████▎ | 3757/4533 [10:14:41<2:17:12, 10.61s/it, gpt_loss=0.275, loss_mean=0.318][A
+Train step of epoch 0:  83%|████████▎ | 3758/4533 [10:14:41<2:08:50,  9.97s/it, gpt_loss=0.275, loss_mean=0.318][A2026-01-27 00:02:45.790 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  83%|████████▎ | 3758/4533 [10:14:50<2:08:50,  9.97s/it, gpt_loss=0.325, loss_mean=0.319][A
+Train step of epoch 0:  83%|████████▎ | 3759/4533 [10:14:50<2:05:36,  9.74s/it, gpt_loss=0.325, loss_mean=0.319][A
+[LID Router Debug] Step: 3760
+Batch Size: 14
+Audio Batch Size: 113
+LID Assignments: [9, 4, 0, 2, 5, 5, 0, 0, 6, 0, 1, 1, 5, 1]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-27 00:02:55.078 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  83%|████████▎ | 3759/4533 [10:15:00<2:05:36,  9.74s/it, gpt_loss=0.303, loss_mean=0.317][A
+Train step of epoch 0:  83%|████████▎ | 3760/4533 [10:15:00<2:05:23,  9.73s/it, gpt_loss=0.303, loss_mean=0.317][A2026-01-27 00:03:04.581 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  83%|████████▎ | 3760/4533 [10:15:09<2:05:23,  9.73s/it, gpt_loss=0.282, loss_mean=0.314][A
+Train step of epoch 0:  83%|████████▎ | 3761/4533 [10:15:09<2:01:49,  9.47s/it, gpt_loss=0.282, loss_mean=0.314][A2026-01-27 00:03:13.578 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  83%|████████▎ | 3761/4533 [10:15:18<2:01:49,  9.47s/it, gpt_loss=0.248, loss_mean=0.307][A
+Train step of epoch 0:  83%|████████▎ | 3762/4533 [10:15:18<2:00:52,  9.41s/it, gpt_loss=0.248, loss_mean=0.307][A2026-01-27 00:03:22.894 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  83%|████████▎ | 3762/4533 [10:15:30<2:00:52,  9.41s/it, gpt_loss=0.422, loss_mean=0.318][A
+Train step of epoch 0:  83%|████████▎ | 3763/4533 [10:15:30<2:11:29, 10.25s/it, gpt_loss=0.422, loss_mean=0.318][A2026-01-27 00:03:34.863 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  83%|████████▎ | 3763/4533 [10:15:39<2:11:29, 10.25s/it, gpt_loss=0.361, loss_mean=0.323][A
+Train step of epoch 0:  83%|████████▎ | 3764/4533 [10:15:39<2:05:31,  9.79s/it, gpt_loss=0.361, loss_mean=0.323][A2026-01-27 00:03:43.795 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  83%|████████▎ | 3764/4533 [10:15:49<2:05:31,  9.79s/it, gpt_loss=0.249, loss_mean=0.315][A
+Train step of epoch 0:  83%|████████▎ | 3765/4533 [10:15:49<2:05:11,  9.78s/it, gpt_loss=0.249, loss_mean=0.315][A2026-01-27 00:03:53.499 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  83%|████████▎ | 3765/4533 [10:15:58<2:05:11,  9.78s/it, gpt_loss=0.243, loss_mean=0.308][A
+Train step of epoch 0:  83%|████████▎ | 3766/4533 [10:15:58<2:02:06,  9.55s/it, gpt_loss=0.243, loss_mean=0.308][A2026-01-27 00:04:02.471 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  83%|████████▎ | 3766/4533 [10:16:10<2:02:06,  9.55s/it, gpt_loss=0.38, loss_mean=0.315] [A
+Train step of epoch 0:  83%|████████▎ | 3767/4533 [10:16:10<2:10:38, 10.23s/it, gpt_loss=0.38, loss_mean=0.315][A2026-01-27 00:04:14.387 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  83%|████████▎ | 3767/4533 [10:16:19<2:10:38, 10.23s/it, gpt_loss=0.298, loss_mean=0.314][A
+Train step of epoch 0:  83%|████████▎ | 3768/4533 [10:16:19<2:05:06,  9.81s/it, gpt_loss=0.298, loss_mean=0.314][A2026-01-27 00:04:22.887 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  83%|████████▎ | 3768/4533 [10:16:27<2:05:06,  9.81s/it, gpt_loss=0.241, loss_mean=0.306][A
+Train step of epoch 0:  83%|████████▎ | 3769/4533 [10:16:27<2:00:47,  9.49s/it, gpt_loss=0.241, loss_mean=0.306][A
+[LID Router Debug] Step: 3770
+Batch Size: 14
+Audio Batch Size: 107
+LID Assignments: [9, 0, 1, 9, 2, 6, 9, 4, 0, 4, 9, 4, 2, 5]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-27 00:04:31.993 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  83%|████████▎ | 3769/4533 [10:16:36<2:00:47,  9.49s/it, gpt_loss=0.288, loss_mean=0.305][A
+Train step of epoch 0:  83%|████████▎ | 3770/4533 [10:16:36<1:59:24,  9.39s/it, gpt_loss=0.288, loss_mean=0.305][A2026-01-27 00:04:41.178 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  83%|████████▎ | 3770/4533 [10:16:46<1:59:24,  9.39s/it, gpt_loss=0.312, loss_mean=0.305][A
+Train step of epoch 0:  83%|████████▎ | 3771/4533 [10:16:46<2:00:10,  9.46s/it, gpt_loss=0.312, loss_mean=0.305][A2026-01-27 00:04:50.751 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  83%|████████▎ | 3771/4533 [10:16:55<2:00:10,  9.46s/it, gpt_loss=0.339, loss_mean=0.309][A
+Train step of epoch 0:  83%|████████▎ | 3772/4533 [10:16:55<1:57:10,  9.24s/it, gpt_loss=0.339, loss_mean=0.309][A2026-01-27 00:04:59.078 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  83%|████████▎ | 3772/4533 [10:17:06<1:57:10,  9.24s/it, gpt_loss=0.383, loss_mean=0.316][A
+Train step of epoch 0:  83%|████████▎ | 3773/4533 [10:17:06<2:05:38,  9.92s/it, gpt_loss=0.383, loss_mean=0.316][A2026-01-27 00:05:10.779 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  83%|████████▎ | 3773/4533 [10:17:19<2:05:38,  9.92s/it, gpt_loss=0.419, loss_mean=0.326][A
+Train step of epoch 0:  83%|████████▎ | 3774/4533 [10:17:19<2:14:01, 10.59s/it, gpt_loss=0.419, loss_mean=0.326][A2026-01-27 00:05:22.860 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  83%|████████▎ | 3774/4533 [10:17:27<2:14:01, 10.59s/it, gpt_loss=0.293, loss_mean=0.323][A
+Train step of epoch 0:  83%|████████▎ | 3775/4533 [10:17:27<2:05:50,  9.96s/it, gpt_loss=0.293, loss_mean=0.323][A2026-01-27 00:05:31.687 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  83%|████████▎ | 3775/4533 [10:17:37<2:05:50,  9.96s/it, gpt_loss=0.381, loss_mean=0.329][A
+Train step of epoch 0:  83%|████████▎ | 3776/4533 [10:17:37<2:04:17,  9.85s/it, gpt_loss=0.381, loss_mean=0.329][A2026-01-27 00:05:41.273 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  83%|████████▎ | 3776/4533 [10:17:46<2:04:17,  9.85s/it, gpt_loss=0.245, loss_mean=0.321][A
+Train step of epoch 0:  83%|████████▎ | 3777/4533 [10:17:46<2:03:17,  9.79s/it, gpt_loss=0.245, loss_mean=0.321][A2026-01-27 00:05:50.592 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  83%|████████▎ | 3777/4533 [10:17:56<2:03:17,  9.79s/it, gpt_loss=0.287, loss_mean=0.317][A
+Train step of epoch 0:  83%|████████▎ | 3778/4533 [10:17:56<2:02:42,  9.75s/it, gpt_loss=0.287, loss_mean=0.317][A2026-01-27 00:06:00.462 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  83%|████████▎ | 3778/4533 [10:18:05<2:02:42,  9.75s/it, gpt_loss=0.25, loss_mean=0.31]  [A
+Train step of epoch 0:  83%|████████▎ | 3779/4533 [10:18:05<1:59:43,  9.53s/it, gpt_loss=0.25, loss_mean=0.31][A
+[LID Router Debug] Step: 3780
+Batch Size: 14
+Audio Batch Size: 123
+LID Assignments: [5, 1, 1, 6, 2, 5, 4, 4, 2, 5, 2, 4, 4, 4]
+Active Experts in Batch: {1, 2, 4, 5, 6}
+2026-01-27 00:06:09.453 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  83%|████████▎ | 3779/4533 [10:18:14<1:59:43,  9.53s/it, gpt_loss=0.328, loss_mean=0.312][A
+Train step of epoch 0:  83%|████████▎ | 3780/4533 [10:18:14<1:56:56,  9.32s/it, gpt_loss=0.328, loss_mean=0.312][A2026-01-27 00:06:18.251 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  83%|████████▎ | 3780/4533 [10:18:26<1:56:56,  9.32s/it, gpt_loss=0.35, loss_mean=0.316] [A
+Train step of epoch 0:  83%|████████▎ | 3781/4533 [10:18:26<2:06:24, 10.09s/it, gpt_loss=0.35, loss_mean=0.316][A2026-01-27 00:06:29.891 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  83%|████████▎ | 3781/4533 [10:18:35<2:06:24, 10.09s/it, gpt_loss=0.314, loss_mean=0.316][A
+Train step of epoch 0:  83%|████████▎ | 3782/4533 [10:18:35<2:03:14,  9.85s/it, gpt_loss=0.314, loss_mean=0.316][A2026-01-27 00:06:39.578 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  83%|████████▎ | 3782/4533 [10:18:45<2:03:14,  9.85s/it, gpt_loss=0.282, loss_mean=0.312][A
+Train step of epoch 0:  83%|████████▎ | 3783/4533 [10:18:45<2:03:31,  9.88s/it, gpt_loss=0.282, loss_mean=0.312][A2026-01-27 00:06:49.496 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  83%|████████▎ | 3783/4533 [10:18:57<2:03:31,  9.88s/it, gpt_loss=0.374, loss_mean=0.318][A
+Train step of epoch 0:  83%|████████▎ | 3784/4533 [10:18:57<2:10:45, 10.47s/it, gpt_loss=0.374, loss_mean=0.318][A2026-01-27 00:07:01.404 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  83%|████████▎ | 3784/4533 [10:19:06<2:10:45, 10.47s/it, gpt_loss=0.304, loss_mean=0.317][A
+Train step of epoch 0:  83%|████████▎ | 3785/4533 [10:19:06<2:04:30,  9.99s/it, gpt_loss=0.304, loss_mean=0.317][A2026-01-27 00:07:10.185 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  83%|████████▎ | 3785/4533 [10:19:17<2:04:30,  9.99s/it, gpt_loss=0.362, loss_mean=0.321][A
+Train step of epoch 0:  84%|████████▎ | 3786/4533 [10:19:17<2:11:33, 10.57s/it, gpt_loss=0.362, loss_mean=0.321][A2026-01-27 00:07:22.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  84%|████████▎ | 3786/4533 [10:19:29<2:11:33, 10.57s/it, gpt_loss=0.465, loss_mean=0.336][A
+Train step of epoch 0:  84%|████████▎ | 3787/4533 [10:19:29<2:15:39, 10.91s/it, gpt_loss=0.465, loss_mean=0.336][A2026-01-27 00:07:33.796 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  84%|████████▎ | 3787/4533 [10:19:38<2:15:39, 10.91s/it, gpt_loss=0.286, loss_mean=0.331][A
+Train step of epoch 0:  84%|████████▎ | 3788/4533 [10:19:38<2:08:20, 10.34s/it, gpt_loss=0.286, loss_mean=0.331][A2026-01-27 00:07:42.867 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  84%|████████▎ | 3788/4533 [10:19:47<2:08:20, 10.34s/it, gpt_loss=0.416, loss_mean=0.339][A
+Train step of epoch 0:  84%|████████▎ | 3789/4533 [10:19:47<2:02:07,  9.85s/it, gpt_loss=0.416, loss_mean=0.339][A
+[LID Router Debug] Step: 3790
+Batch Size: 14
+Audio Batch Size: 210
+LID Assignments: [3, 3, 4, 5, 9, 6, 4, 9, 3, 9, 4, 3, 2, 0]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-27 00:07:51.607 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  84%|████████▎ | 3789/4533 [10:19:56<2:02:07,  9.85s/it, gpt_loss=0.29, loss_mean=0.334] [A
+Train step of epoch 0:  84%|████████▎ | 3790/4533 [10:19:56<1:58:53,  9.60s/it, gpt_loss=0.29, loss_mean=0.334][A2026-01-27 00:08:00.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  84%|████████▎ | 3790/4533 [10:20:05<1:58:53,  9.60s/it, gpt_loss=0.238, loss_mean=0.325][A
+Train step of epoch 0:  84%|████████▎ | 3791/4533 [10:20:05<1:55:15,  9.32s/it, gpt_loss=0.238, loss_mean=0.325][A2026-01-27 00:08:09.296 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  84%|████████▎ | 3791/4533 [10:20:17<1:55:15,  9.32s/it, gpt_loss=0.313, loss_mean=0.324][A
+Train step of epoch 0:  84%|████████▎ | 3792/4533 [10:20:17<2:05:15, 10.14s/it, gpt_loss=0.313, loss_mean=0.324][A2026-01-27 00:08:20.804 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  84%|████████▎ | 3792/4533 [10:20:25<2:05:15, 10.14s/it, gpt_loss=0.315, loss_mean=0.323][A
+Train step of epoch 0:  84%|████████▎ | 3793/4533 [10:20:25<1:58:36,  9.62s/it, gpt_loss=0.315, loss_mean=0.323][A2026-01-27 00:08:29.604 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  84%|████████▎ | 3793/4533 [10:20:35<1:58:36,  9.62s/it, gpt_loss=0.314, loss_mean=0.322][A
+Train step of epoch 0:  84%|████████▎ | 3794/4533 [10:20:35<1:58:02,  9.58s/it, gpt_loss=0.314, loss_mean=0.322][A2026-01-27 00:08:39.173 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  84%|████████▎ | 3794/4533 [10:20:44<1:58:02,  9.58s/it, gpt_loss=0.266, loss_mean=0.316][A
+Train step of epoch 0:  84%|████████▎ | 3795/4533 [10:20:44<1:58:04,  9.60s/it, gpt_loss=0.266, loss_mean=0.316][A2026-01-27 00:08:48.596 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  84%|████████▎ | 3795/4533 [10:20:54<1:58:04,  9.60s/it, gpt_loss=0.35, loss_mean=0.32]  [A
+Train step of epoch 0:  84%|████████▎ | 3796/4533 [10:20:54<1:57:05,  9.53s/it, gpt_loss=0.35, loss_mean=0.32][A2026-01-27 00:08:58.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  84%|████████▎ | 3796/4533 [10:21:03<1:57:05,  9.53s/it, gpt_loss=0.253, loss_mean=0.313][A
+Train step of epoch 0:  84%|████████▍ | 3797/4533 [10:21:03<1:57:43,  9.60s/it, gpt_loss=0.253, loss_mean=0.313][A2026-01-27 00:09:07.589 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  84%|████████▍ | 3797/4533 [10:21:12<1:57:43,  9.60s/it, gpt_loss=0.234, loss_mean=0.305][A
+Train step of epoch 0:  84%|████████▍ | 3798/4533 [10:21:12<1:53:53,  9.30s/it, gpt_loss=0.234, loss_mean=0.305][A2026-01-27 00:09:16.383 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  84%|████████▍ | 3798/4533 [10:21:21<1:53:53,  9.30s/it, gpt_loss=0.382, loss_mean=0.313][A
+Train step of epoch 0:  84%|████████▍ | 3799/4533 [10:21:21<1:54:38,  9.37s/it, gpt_loss=0.382, loss_mean=0.313][A
+[LID Router Debug] Step: 3800
+Batch Size: 14
+Audio Batch Size: 146
+LID Assignments: [6, 5, 3, 0, 1, 4, 0, 6, 1, 9, 4, 3, 5, 0]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6, 9}
+2026-01-27 00:09:26.081 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+[2026-01-27 00:09:37,271] [INFO] [logging.py:96:log_dist] [Rank 0] step=3800, skipped=0, lr=[1.6562224060156308e-05, 1.6562224060156308e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 00:09:37,272] [INFO] [timer.py:260:stop] epoch=0/micro_step=3800/global_step=3800, RunningAvgSamplesPerSec=5.72528997851963, CurrSamplesPerSec=4.712597208179539, MemAllocated=14.43GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  84%|████████▍ | 3799/4533 [10:21:33<1:54:38,  9.37s/it, gpt_loss=0.319, loss_mean=0.313][A
+Train step of epoch 0:  84%|████████▍ | 3800/4533 [10:21:33<2:03:45, 10.13s/it, gpt_loss=0.319, loss_mean=0.313][A2026-01-27 00:09:37.999 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  84%|████████▍ | 3800/4533 [10:21:43<2:03:45, 10.13s/it, gpt_loss=0.285, loss_mean=0.311][A
+Train step of epoch 0:  84%|████████▍ | 3801/4533 [10:21:43<2:00:28,  9.88s/it, gpt_loss=0.285, loss_mean=0.311][A2026-01-27 00:09:47.192 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  84%|████████▍ | 3801/4533 [10:21:51<2:00:28,  9.88s/it, gpt_loss=0.312, loss_mean=0.311][A
+Train step of epoch 0:  84%|████████▍ | 3802/4533 [10:21:51<1:56:17,  9.55s/it, gpt_loss=0.312, loss_mean=0.311][A2026-01-27 00:09:56.070 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  84%|████████▍ | 3802/4533 [10:22:01<1:56:17,  9.55s/it, gpt_loss=0.243, loss_mean=0.304][A
+Train step of epoch 0:  84%|████████▍ | 3803/4533 [10:22:01<1:54:41,  9.43s/it, gpt_loss=0.243, loss_mean=0.304][A2026-01-27 00:10:05.269 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  84%|████████▍ | 3803/4533 [10:22:09<1:54:41,  9.43s/it, gpt_loss=0.297, loss_mean=0.303][A
+Train step of epoch 0:  84%|████████▍ | 3804/4533 [10:22:09<1:52:24,  9.25s/it, gpt_loss=0.297, loss_mean=0.303][A2026-01-27 00:10:13.857 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  84%|████████▍ | 3804/4533 [10:22:19<1:52:24,  9.25s/it, gpt_loss=0.285, loss_mean=0.301][A
+Train step of epoch 0:  84%|████████▍ | 3805/4533 [10:22:19<1:52:14,  9.25s/it, gpt_loss=0.285, loss_mean=0.301][A2026-01-27 00:10:23.295 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  84%|████████▍ | 3805/4533 [10:22:28<1:52:14,  9.25s/it, gpt_loss=0.306, loss_mean=0.302][A
+Train step of epoch 0:  84%|████████▍ | 3806/4533 [10:22:28<1:52:06,  9.25s/it, gpt_loss=0.306, loss_mean=0.302][A2026-01-27 00:10:32.593 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  84%|████████▍ | 3806/4533 [10:22:38<1:52:06,  9.25s/it, gpt_loss=0.23, loss_mean=0.295] [A
+Train step of epoch 0:  84%|████████▍ | 3807/4533 [10:22:38<1:53:30,  9.38s/it, gpt_loss=0.23, loss_mean=0.295][A2026-01-27 00:10:41.996 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  84%|████████▍ | 3807/4533 [10:22:49<1:53:30,  9.38s/it, gpt_loss=0.335, loss_mean=0.299][A
+Train step of epoch 0:  84%|████████▍ | 3808/4533 [10:22:49<2:01:35, 10.06s/it, gpt_loss=0.335, loss_mean=0.299][A2026-01-27 00:10:53.972 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  84%|████████▍ | 3808/4533 [10:22:59<2:01:35, 10.06s/it, gpt_loss=0.273, loss_mean=0.296][A
+Train step of epoch 0:  84%|████████▍ | 3809/4533 [10:22:59<1:58:30,  9.82s/it, gpt_loss=0.273, loss_mean=0.296][A
+[LID Router Debug] Step: 3810
+Batch Size: 14
+Audio Batch Size: 187
+LID Assignments: [3, 2, 3, 4, 0, 3, 4, 3, 6, 5, 0, 4, 0, 2]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6}
+2026-01-27 00:11:03.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  84%|████████▍ | 3809/4533 [10:23:10<1:58:30,  9.82s/it, gpt_loss=0.358, loss_mean=0.302][A
+Train step of epoch 0:  84%|████████▍ | 3810/4533 [10:23:10<2:05:24, 10.41s/it, gpt_loss=0.358, loss_mean=0.302][A2026-01-27 00:11:14.872 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  84%|████████▍ | 3810/4533 [10:23:22<2:05:24, 10.41s/it, gpt_loss=0.353, loss_mean=0.307][A
+Train step of epoch 0:  84%|████████▍ | 3811/4533 [10:23:22<2:10:27, 10.84s/it, gpt_loss=0.353, loss_mean=0.307][A2026-01-27 00:11:26.879 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  84%|████████▍ | 3811/4533 [10:23:32<2:10:27, 10.84s/it, gpt_loss=0.376, loss_mean=0.314][A
+Train step of epoch 0:  84%|████████▍ | 3812/4533 [10:23:32<2:06:26, 10.52s/it, gpt_loss=0.376, loss_mean=0.314][A2026-01-27 00:11:36.354 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  84%|████████▍ | 3812/4533 [10:23:41<2:06:26, 10.52s/it, gpt_loss=0.271, loss_mean=0.31] [A
+Train step of epoch 0:  84%|████████▍ | 3813/4533 [10:23:41<2:02:37, 10.22s/it, gpt_loss=0.271, loss_mean=0.31][A2026-01-27 00:11:45.985 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  84%|████████▍ | 3813/4533 [10:23:50<2:02:37, 10.22s/it, gpt_loss=0.258, loss_mean=0.305][A
+Train step of epoch 0:  84%|████████▍ | 3814/4533 [10:23:50<1:57:37,  9.82s/it, gpt_loss=0.258, loss_mean=0.305][A2026-01-27 00:11:54.673 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  84%|████████▍ | 3814/4533 [10:24:02<1:57:37,  9.82s/it, gpt_loss=0.379, loss_mean=0.312][A
+Train step of epoch 0:  84%|████████▍ | 3815/4533 [10:24:02<2:04:48, 10.43s/it, gpt_loss=0.379, loss_mean=0.312][A2026-01-27 00:12:06.473 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  84%|████████▍ | 3815/4533 [10:24:11<2:04:48, 10.43s/it, gpt_loss=0.384, loss_mean=0.319][A
+Train step of epoch 0:  84%|████████▍ | 3816/4533 [10:24:11<1:58:02,  9.88s/it, gpt_loss=0.384, loss_mean=0.319][A2026-01-27 00:12:15.365 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  84%|████████▍ | 3816/4533 [10:24:20<1:58:02,  9.88s/it, gpt_loss=0.317, loss_mean=0.319][A
+Train step of epoch 0:  84%|████████▍ | 3817/4533 [10:24:20<1:57:04,  9.81s/it, gpt_loss=0.317, loss_mean=0.319][A2026-01-27 00:12:25.087 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  84%|████████▍ | 3817/4533 [10:24:30<1:57:04,  9.81s/it, gpt_loss=0.288, loss_mean=0.316][A
+Train step of epoch 0:  84%|████████▍ | 3818/4533 [10:24:30<1:54:42,  9.63s/it, gpt_loss=0.288, loss_mean=0.316][A2026-01-27 00:12:34.357 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  84%|████████▍ | 3818/4533 [10:24:42<1:54:42,  9.63s/it, gpt_loss=0.353, loss_mean=0.32] [A
+Train step of epoch 0:  84%|████████▍ | 3819/4533 [10:24:42<2:03:40, 10.39s/it, gpt_loss=0.353, loss_mean=0.32][A
+[LID Router Debug] Step: 3820
+Batch Size: 14
+Audio Batch Size: 203
+LID Assignments: [4, 3, 1, 9, 9, 4, 1, 5, 3, 2, 4, 0, 3, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 00:12:46.187 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  84%|████████▍ | 3819/4533 [10:24:50<2:03:40, 10.39s/it, gpt_loss=0.264, loss_mean=0.314][A
+Train step of epoch 0:  84%|████████▍ | 3820/4533 [10:24:50<1:56:49,  9.83s/it, gpt_loss=0.264, loss_mean=0.314][A2026-01-27 00:12:54.869 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  84%|████████▍ | 3820/4533 [10:25:02<1:56:49,  9.83s/it, gpt_loss=0.359, loss_mean=0.319][A
+Train step of epoch 0:  84%|████████▍ | 3821/4533 [10:25:02<2:04:23, 10.48s/it, gpt_loss=0.359, loss_mean=0.319][A2026-01-27 00:13:06.785 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  84%|████████▍ | 3821/4533 [10:25:12<2:04:23, 10.48s/it, gpt_loss=0.278, loss_mean=0.314][A
+Train step of epoch 0:  84%|████████▍ | 3822/4533 [10:25:12<2:01:15, 10.23s/it, gpt_loss=0.278, loss_mean=0.314][A2026-01-27 00:13:16.586 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  84%|████████▍ | 3822/4533 [10:25:22<2:01:15, 10.23s/it, gpt_loss=0.34, loss_mean=0.317] [A
+Train step of epoch 0:  84%|████████▍ | 3823/4533 [10:25:22<1:58:45, 10.04s/it, gpt_loss=0.34, loss_mean=0.317][A2026-01-27 00:13:26.260 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  84%|████████▍ | 3823/4533 [10:25:30<1:58:45, 10.04s/it, gpt_loss=0.271, loss_mean=0.313][A
+Train step of epoch 0:  84%|████████▍ | 3824/4533 [10:25:30<1:54:15,  9.67s/it, gpt_loss=0.271, loss_mean=0.313][A2026-01-27 00:13:35.066 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  84%|████████▍ | 3824/4533 [10:25:39<1:54:15,  9.67s/it, gpt_loss=0.352, loss_mean=0.316][A
+Train step of epoch 0:  84%|████████▍ | 3825/4533 [10:25:39<1:51:05,  9.41s/it, gpt_loss=0.352, loss_mean=0.316][A2026-01-27 00:13:43.689 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  84%|████████▍ | 3825/4533 [10:25:51<1:51:05,  9.41s/it, gpt_loss=0.333, loss_mean=0.318][A
+Train step of epoch 0:  84%|████████▍ | 3826/4533 [10:25:51<1:59:19, 10.13s/it, gpt_loss=0.333, loss_mean=0.318][A2026-01-27 00:13:55.488 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  84%|████████▍ | 3826/4533 [10:26:03<1:59:19, 10.13s/it, gpt_loss=0.38, loss_mean=0.324] [A
+Train step of epoch 0:  84%|████████▍ | 3827/4533 [10:26:03<2:04:29, 10.58s/it, gpt_loss=0.38, loss_mean=0.324][A2026-01-27 00:14:07.004 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  84%|████████▍ | 3827/4533 [10:26:11<2:04:29, 10.58s/it, gpt_loss=0.228, loss_mean=0.315][A
+Train step of epoch 0:  84%|████████▍ | 3828/4533 [10:26:11<1:57:14,  9.98s/it, gpt_loss=0.228, loss_mean=0.315][A2026-01-27 00:14:15.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  84%|████████▍ | 3828/4533 [10:26:21<1:57:14,  9.98s/it, gpt_loss=0.261, loss_mean=0.309][A
+Train step of epoch 0:  84%|████████▍ | 3829/4533 [10:26:21<1:56:14,  9.91s/it, gpt_loss=0.261, loss_mean=0.309][A
+[LID Router Debug] Step: 3830
+Batch Size: 14
+Audio Batch Size: 129
+LID Assignments: [1, 3, 0, 1, 0, 2, 5, 5, 0, 6, 0, 0, 1, 9]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-27 00:14:25.197 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  84%|████████▍ | 3829/4533 [10:26:32<1:56:14,  9.91s/it, gpt_loss=0.365, loss_mean=0.315][A
+Train step of epoch 0:  84%|████████▍ | 3830/4533 [10:26:32<2:01:45, 10.39s/it, gpt_loss=0.365, loss_mean=0.315][A2026-01-27 00:14:37.073 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  84%|████████▍ | 3830/4533 [10:26:42<2:01:45, 10.39s/it, gpt_loss=0.386, loss_mean=0.322][A
+Train step of epoch 0:  85%|████████▍ | 3831/4533 [10:26:42<1:58:43, 10.15s/it, gpt_loss=0.386, loss_mean=0.322][A2026-01-27 00:14:46.491 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  85%|████████▍ | 3831/4533 [10:26:51<1:58:43, 10.15s/it, gpt_loss=0.357, loss_mean=0.325][A
+Train step of epoch 0:  85%|████████▍ | 3832/4533 [10:26:51<1:53:45,  9.74s/it, gpt_loss=0.357, loss_mean=0.325][A2026-01-27 00:14:55.471 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  85%|████████▍ | 3832/4533 [10:27:00<1:53:45,  9.74s/it, gpt_loss=0.319, loss_mean=0.325][A
+Train step of epoch 0:  85%|████████▍ | 3833/4533 [10:27:00<1:51:35,  9.56s/it, gpt_loss=0.319, loss_mean=0.325][A2026-01-27 00:15:04.459 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  85%|████████▍ | 3833/4533 [10:27:09<1:51:35,  9.56s/it, gpt_loss=0.303, loss_mean=0.323][A
+Train step of epoch 0:  85%|████████▍ | 3834/4533 [10:27:09<1:48:23,  9.30s/it, gpt_loss=0.303, loss_mean=0.323][A2026-01-27 00:15:13.288 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  85%|████████▍ | 3834/4533 [10:27:18<1:48:23,  9.30s/it, gpt_loss=0.318, loss_mean=0.322][A
+Train step of epoch 0:  85%|████████▍ | 3835/4533 [10:27:18<1:49:44,  9.43s/it, gpt_loss=0.318, loss_mean=0.322][A2026-01-27 00:15:23.000 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  85%|████████▍ | 3835/4533 [10:27:30<1:49:44,  9.43s/it, gpt_loss=0.324, loss_mean=0.322][A
+Train step of epoch 0:  85%|████████▍ | 3836/4533 [10:27:30<1:57:35, 10.12s/it, gpt_loss=0.324, loss_mean=0.322][A2026-01-27 00:15:34.658 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  85%|████████▍ | 3836/4533 [10:27:40<1:57:35, 10.12s/it, gpt_loss=0.273, loss_mean=0.317][A
+Train step of epoch 0:  85%|████████▍ | 3837/4533 [10:27:40<1:55:00,  9.91s/it, gpt_loss=0.273, loss_mean=0.317][A2026-01-27 00:15:44.173 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  85%|████████▍ | 3837/4533 [10:27:49<1:55:00,  9.91s/it, gpt_loss=0.341, loss_mean=0.32] [A
+Train step of epoch 0:  85%|████████▍ | 3838/4533 [10:27:49<1:54:20,  9.87s/it, gpt_loss=0.341, loss_mean=0.32][A2026-01-27 00:15:53.982 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  85%|████████▍ | 3838/4533 [10:28:01<1:54:20,  9.87s/it, gpt_loss=0.538, loss_mean=0.342][A
+Train step of epoch 0:  85%|████████▍ | 3839/4533 [10:28:01<2:00:43, 10.44s/it, gpt_loss=0.538, loss_mean=0.342][A
+[LID Router Debug] Step: 3840
+Batch Size: 14
+Audio Batch Size: 139
+LID Assignments: [0, 1, 2, 3, 9, 1, 1, 5, 3, 9, 5, 1, 5, 5]
+Active Experts in Batch: {0, 1, 2, 3, 5, 9}
+2026-01-27 00:16:05.480 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  85%|████████▍ | 3839/4533 [10:28:13<2:00:43, 10.44s/it, gpt_loss=0.34, loss_mean=0.341] [A
+Train step of epoch 0:  85%|████████▍ | 3840/4533 [10:28:13<2:04:20, 10.77s/it, gpt_loss=0.34, loss_mean=0.341][A2026-01-27 00:16:17.284 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  85%|████████▍ | 3840/4533 [10:28:25<2:04:20, 10.77s/it, gpt_loss=0.288, loss_mean=0.336][A
+Train step of epoch 0:  85%|████████▍ | 3841/4533 [10:28:25<2:09:26, 11.22s/it, gpt_loss=0.288, loss_mean=0.336][A2026-01-27 00:16:29.569 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  85%|████████▍ | 3841/4533 [10:28:37<2:09:26, 11.22s/it, gpt_loss=0.391, loss_mean=0.342][A
+Train step of epoch 0:  85%|████████▍ | 3842/4533 [10:28:37<2:11:46, 11.44s/it, gpt_loss=0.391, loss_mean=0.342][A2026-01-27 00:16:41.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  85%|████████▍ | 3842/4533 [10:28:46<2:11:46, 11.44s/it, gpt_loss=0.289, loss_mean=0.336][A
+Train step of epoch 0:  85%|████████▍ | 3843/4533 [10:28:46<2:02:11, 10.63s/it, gpt_loss=0.289, loss_mean=0.336][A2026-01-27 00:16:50.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  85%|████████▍ | 3843/4533 [10:28:54<2:02:11, 10.63s/it, gpt_loss=0.244, loss_mean=0.327][A
+Train step of epoch 0:  85%|████████▍ | 3844/4533 [10:28:54<1:55:12, 10.03s/it, gpt_loss=0.244, loss_mean=0.327][A2026-01-27 00:16:58.690 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  85%|████████▍ | 3844/4533 [10:29:04<1:55:12, 10.03s/it, gpt_loss=0.256, loss_mean=0.32] [A
+Train step of epoch 0:  85%|████████▍ | 3845/4533 [10:29:04<1:53:42,  9.92s/it, gpt_loss=0.256, loss_mean=0.32][A2026-01-27 00:17:08.385 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  85%|████████▍ | 3845/4533 [10:29:13<1:53:42,  9.92s/it, gpt_loss=0.228, loss_mean=0.311][A
+Train step of epoch 0:  85%|████████▍ | 3846/4533 [10:29:13<1:49:33,  9.57s/it, gpt_loss=0.228, loss_mean=0.311][A2026-01-27 00:17:17.298 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  85%|████████▍ | 3846/4533 [10:29:22<1:49:33,  9.57s/it, gpt_loss=0.249, loss_mean=0.305][A
+Train step of epoch 0:  85%|████████▍ | 3847/4533 [10:29:22<1:47:14,  9.38s/it, gpt_loss=0.249, loss_mean=0.305][A2026-01-27 00:17:26.076 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  85%|████████▍ | 3847/4533 [10:29:31<1:47:14,  9.38s/it, gpt_loss=0.222, loss_mean=0.296][A
+Train step of epoch 0:  85%|████████▍ | 3848/4533 [10:29:31<1:46:34,  9.33s/it, gpt_loss=0.222, loss_mean=0.296][A2026-01-27 00:17:35.011 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  85%|████████▍ | 3848/4533 [10:29:40<1:46:34,  9.33s/it, gpt_loss=0.334, loss_mean=0.3]  [A
+Train step of epoch 0:  85%|████████▍ | 3849/4533 [10:29:40<1:44:23,  9.16s/it, gpt_loss=0.334, loss_mean=0.3][A
+[LID Router Debug] Step: 3850
+Batch Size: 14
+Audio Batch Size: 159
+LID Assignments: [9, 0, 1, 4, 2, 2, 3, 2, 0, 3, 4, 1, 0, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 9}
+2026-01-27 00:17:44.065 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  85%|████████▍ | 3849/4533 [10:29:49<1:44:23,  9.16s/it, gpt_loss=0.256, loss_mean=0.296][A
+Train step of epoch 0:  85%|████████▍ | 3850/4533 [10:29:49<1:43:43,  9.11s/it, gpt_loss=0.256, loss_mean=0.296][A2026-01-27 00:17:52.772 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  85%|████████▍ | 3850/4533 [10:29:57<1:43:43,  9.11s/it, gpt_loss=0.223, loss_mean=0.288][A
+Train step of epoch 0:  85%|████████▍ | 3851/4533 [10:29:57<1:41:22,  8.92s/it, gpt_loss=0.223, loss_mean=0.288][A2026-01-27 00:18:01.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  85%|████████▍ | 3851/4533 [10:30:06<1:41:22,  8.92s/it, gpt_loss=0.265, loss_mean=0.286][A
+Train step of epoch 0:  85%|████████▍ | 3852/4533 [10:30:06<1:40:12,  8.83s/it, gpt_loss=0.265, loss_mean=0.286][A2026-01-27 00:18:10.182 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  85%|████████▍ | 3852/4533 [10:30:17<1:40:12,  8.83s/it, gpt_loss=0.358, loss_mean=0.293][A
+Train step of epoch 0:  85%|████████▍ | 3853/4533 [10:30:17<1:49:08,  9.63s/it, gpt_loss=0.358, loss_mean=0.293][A2026-01-27 00:18:21.776 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  85%|████████▍ | 3853/4533 [10:30:29<1:49:08,  9.63s/it, gpt_loss=0.354, loss_mean=0.299][A
+Train step of epoch 0:  85%|████████▌ | 3854/4533 [10:30:29<1:55:59, 10.25s/it, gpt_loss=0.354, loss_mean=0.299][A2026-01-27 00:18:33.563 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  85%|████████▌ | 3854/4533 [10:30:38<1:55:59, 10.25s/it, gpt_loss=0.249, loss_mean=0.294][A
+Train step of epoch 0:  85%|████████▌ | 3855/4533 [10:30:38<1:51:12,  9.84s/it, gpt_loss=0.249, loss_mean=0.294][A2026-01-27 00:18:42.366 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  85%|████████▌ | 3855/4533 [10:30:50<1:51:12,  9.84s/it, gpt_loss=0.39, loss_mean=0.304] [A
+Train step of epoch 0:  85%|████████▌ | 3856/4533 [10:30:50<1:58:46, 10.53s/it, gpt_loss=0.39, loss_mean=0.304][A2026-01-27 00:18:54.491 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  85%|████████▌ | 3856/4533 [10:30:59<1:58:46, 10.53s/it, gpt_loss=0.271, loss_mean=0.301][A
+Train step of epoch 0:  85%|████████▌ | 3857/4533 [10:30:59<1:54:22, 10.15s/it, gpt_loss=0.271, loss_mean=0.301][A2026-01-27 00:19:03.773 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  85%|████████▌ | 3857/4533 [10:31:11<1:54:22, 10.15s/it, gpt_loss=0.363, loss_mean=0.307][A
+Train step of epoch 0:  85%|████████▌ | 3858/4533 [10:31:11<1:59:52, 10.65s/it, gpt_loss=0.363, loss_mean=0.307][A2026-01-27 00:19:15.576 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  85%|████████▌ | 3858/4533 [10:31:24<1:59:52, 10.65s/it, gpt_loss=0.349, loss_mean=0.311][A
+Train step of epoch 0:  85%|████████▌ | 3859/4533 [10:31:24<2:06:19, 11.25s/it, gpt_loss=0.349, loss_mean=0.311][A
+[LID Router Debug] Step: 3860
+Batch Size: 14
+Audio Batch Size: 139
+LID Assignments: [5, 9, 5, 9, 9, 0, 6, 0, 0, 4, 6, 2, 1, 4]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-27 00:19:27.562 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  85%|████████▌ | 3859/4533 [10:31:35<2:06:19, 11.25s/it, gpt_loss=0.443, loss_mean=0.324][A
+Train step of epoch 0:  85%|████████▌ | 3860/4533 [10:31:35<2:07:32, 11.37s/it, gpt_loss=0.443, loss_mean=0.324][A2026-01-27 00:19:39.659 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  85%|████████▌ | 3860/4533 [10:31:44<2:07:32, 11.37s/it, gpt_loss=0.237, loss_mean=0.315][A
+Train step of epoch 0:  85%|████████▌ | 3861/4533 [10:31:44<1:58:09, 10.55s/it, gpt_loss=0.237, loss_mean=0.315][A2026-01-27 00:19:48.383 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  85%|████████▌ | 3861/4533 [10:31:53<1:58:09, 10.55s/it, gpt_loss=0.282, loss_mean=0.312][A
+Train step of epoch 0:  85%|████████▌ | 3862/4533 [10:31:53<1:53:01, 10.11s/it, gpt_loss=0.282, loss_mean=0.312][A2026-01-27 00:19:57.496 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  85%|████████▌ | 3862/4533 [10:32:05<1:53:01, 10.11s/it, gpt_loss=0.335, loss_mean=0.314][A
+Train step of epoch 0:  85%|████████▌ | 3863/4533 [10:32:05<1:59:29, 10.70s/it, gpt_loss=0.335, loss_mean=0.314][A2026-01-27 00:20:09.371 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  85%|████████▌ | 3863/4533 [10:32:14<1:59:29, 10.70s/it, gpt_loss=0.329, loss_mean=0.316][A
+Train step of epoch 0:  85%|████████▌ | 3864/4533 [10:32:14<1:52:08, 10.06s/it, gpt_loss=0.329, loss_mean=0.316][A2026-01-27 00:20:17.973 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  85%|████████▌ | 3864/4533 [10:32:22<1:52:08, 10.06s/it, gpt_loss=0.266, loss_mean=0.311][A
+Train step of epoch 0:  85%|████████▌ | 3865/4533 [10:32:22<1:47:55,  9.69s/it, gpt_loss=0.266, loss_mean=0.311][A2026-01-27 00:20:27.089 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  85%|████████▌ | 3865/4533 [10:32:32<1:47:55,  9.69s/it, gpt_loss=0.252, loss_mean=0.305][A
+Train step of epoch 0:  85%|████████▌ | 3866/4533 [10:32:32<1:47:56,  9.71s/it, gpt_loss=0.252, loss_mean=0.305][A2026-01-27 00:20:36.387 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  85%|████████▌ | 3866/4533 [10:32:41<1:47:56,  9.71s/it, gpt_loss=0.295, loss_mean=0.304][A
+Train step of epoch 0:  85%|████████▌ | 3867/4533 [10:32:41<1:44:10,  9.38s/it, gpt_loss=0.295, loss_mean=0.304][A2026-01-27 00:20:45.471 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  85%|████████▌ | 3867/4533 [10:32:50<1:44:10,  9.38s/it, gpt_loss=0.236, loss_mean=0.297][A
+Train step of epoch 0:  85%|████████▌ | 3868/4533 [10:32:50<1:42:32,  9.25s/it, gpt_loss=0.236, loss_mean=0.297][A2026-01-27 00:20:54.396 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  85%|████████▌ | 3868/4533 [10:32:59<1:42:32,  9.25s/it, gpt_loss=0.29, loss_mean=0.297] [A
+Train step of epoch 0:  85%|████████▌ | 3869/4533 [10:32:59<1:43:51,  9.38s/it, gpt_loss=0.29, loss_mean=0.297][A
+[LID Router Debug] Step: 3870
+Batch Size: 14
+Audio Batch Size: 138
+LID Assignments: [9, 0, 3, 3, 1, 4, 3, 5, 2, 9, 5, 0, 5, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 00:21:04.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  85%|████████▌ | 3869/4533 [10:33:08<1:43:51,  9.38s/it, gpt_loss=0.306, loss_mean=0.297][A
+Train step of epoch 0:  85%|████████▌ | 3870/4533 [10:33:08<1:42:33,  9.28s/it, gpt_loss=0.306, loss_mean=0.297][A2026-01-27 00:21:12.778 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  85%|████████▌ | 3870/4533 [10:33:17<1:42:33,  9.28s/it, gpt_loss=0.26, loss_mean=0.294] [A
+Train step of epoch 0:  85%|████████▌ | 3871/4533 [10:33:17<1:39:46,  9.04s/it, gpt_loss=0.26, loss_mean=0.294][A2026-01-27 00:21:21.572 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  85%|████████▌ | 3871/4533 [10:33:27<1:39:46,  9.04s/it, gpt_loss=0.245, loss_mean=0.289][A
+Train step of epoch 0:  85%|████████▌ | 3872/4533 [10:33:27<1:42:27,  9.30s/it, gpt_loss=0.245, loss_mean=0.289][A2026-01-27 00:21:31.351 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  85%|████████▌ | 3872/4533 [10:33:37<1:42:27,  9.30s/it, gpt_loss=0.327, loss_mean=0.293][A
+Train step of epoch 0:  85%|████████▌ | 3873/4533 [10:33:37<1:43:45,  9.43s/it, gpt_loss=0.327, loss_mean=0.293][A2026-01-27 00:21:41.283 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  85%|████████▌ | 3873/4533 [10:33:46<1:43:45,  9.43s/it, gpt_loss=0.295, loss_mean=0.293][A
+Train step of epoch 0:  85%|████████▌ | 3874/4533 [10:33:46<1:44:54,  9.55s/it, gpt_loss=0.295, loss_mean=0.293][A2026-01-27 00:21:51.158 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  85%|████████▌ | 3874/4533 [10:33:55<1:44:54,  9.55s/it, gpt_loss=0.267, loss_mean=0.29] [A
+Train step of epoch 0:  85%|████████▌ | 3875/4533 [10:33:55<1:42:49,  9.38s/it, gpt_loss=0.267, loss_mean=0.29][A2026-01-27 00:21:59.966 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  85%|████████▌ | 3875/4533 [10:34:08<1:42:49,  9.38s/it, gpt_loss=0.374, loss_mean=0.299][A
+Train step of epoch 0:  86%|████████▌ | 3876/4533 [10:34:08<1:52:08, 10.24s/it, gpt_loss=0.374, loss_mean=0.299][A2026-01-27 00:22:12.198 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  86%|████████▌ | 3876/4533 [10:34:17<1:52:08, 10.24s/it, gpt_loss=0.2, loss_mean=0.289]  [A
+Train step of epoch 0:  86%|████████▌ | 3877/4533 [10:34:17<1:47:43,  9.85s/it, gpt_loss=0.2, loss_mean=0.289][A2026-01-27 00:22:21.269 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  86%|████████▌ | 3877/4533 [10:34:26<1:47:43,  9.85s/it, gpt_loss=0.291, loss_mean=0.289][A
+Train step of epoch 0:  86%|████████▌ | 3878/4533 [10:34:26<1:44:34,  9.58s/it, gpt_loss=0.291, loss_mean=0.289][A2026-01-27 00:22:30.189 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  86%|████████▌ | 3878/4533 [10:34:35<1:44:34,  9.58s/it, gpt_loss=0.222, loss_mean=0.282][A
+Train step of epoch 0:  86%|████████▌ | 3879/4533 [10:34:35<1:42:39,  9.42s/it, gpt_loss=0.222, loss_mean=0.282][A
+[LID Router Debug] Step: 3880
+Batch Size: 14
+Audio Batch Size: 174
+LID Assignments: [4, 3, 5, 9, 3, 4, 9, 0, 4, 3, 4, 3, 9, 2]
+Active Experts in Batch: {0, 2, 3, 4, 5, 9}
+2026-01-27 00:22:38.978 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  86%|████████▌ | 3879/4533 [10:34:44<1:42:39,  9.42s/it, gpt_loss=0.288, loss_mean=0.283][A
+Train step of epoch 0:  86%|████████▌ | 3880/4533 [10:34:44<1:43:19,  9.49s/it, gpt_loss=0.288, loss_mean=0.283][A2026-01-27 00:22:48.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  86%|████████▌ | 3880/4533 [10:34:53<1:43:19,  9.49s/it, gpt_loss=0.253, loss_mean=0.28] [A
+Train step of epoch 0:  86%|████████▌ | 3881/4533 [10:34:53<1:41:16,  9.32s/it, gpt_loss=0.253, loss_mean=0.28][A2026-01-27 00:22:57.553 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  86%|████████▌ | 3881/4533 [10:35:05<1:41:16,  9.32s/it, gpt_loss=0.394, loss_mean=0.291][A
+Train step of epoch 0:  86%|████████▌ | 3882/4533 [10:35:05<1:48:45, 10.02s/it, gpt_loss=0.394, loss_mean=0.291][A2026-01-27 00:23:09.556 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  86%|████████▌ | 3882/4533 [10:35:15<1:48:45, 10.02s/it, gpt_loss=0.331, loss_mean=0.295][A
+Train step of epoch 0:  86%|████████▌ | 3883/4533 [10:35:15<1:47:33,  9.93s/it, gpt_loss=0.331, loss_mean=0.295][A2026-01-27 00:23:19.182 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  86%|████████▌ | 3883/4533 [10:35:23<1:47:33,  9.93s/it, gpt_loss=0.272, loss_mean=0.293][A
+Train step of epoch 0:  86%|████████▌ | 3884/4533 [10:35:23<1:44:07,  9.63s/it, gpt_loss=0.272, loss_mean=0.293][A2026-01-27 00:23:27.966 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  86%|████████▌ | 3884/4533 [10:35:35<1:44:07,  9.63s/it, gpt_loss=0.417, loss_mean=0.305][A
+Train step of epoch 0:  86%|████████▌ | 3885/4533 [10:35:35<1:50:15, 10.21s/it, gpt_loss=0.417, loss_mean=0.305][A2026-01-27 00:23:39.379 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  86%|████████▌ | 3885/4533 [10:35:43<1:50:15, 10.21s/it, gpt_loss=0.289, loss_mean=0.304][A
+Train step of epoch 0:  86%|████████▌ | 3886/4533 [10:35:43<1:44:09,  9.66s/it, gpt_loss=0.289, loss_mean=0.304][A2026-01-27 00:23:47.983 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  86%|████████▌ | 3886/4533 [10:35:53<1:44:09,  9.66s/it, gpt_loss=0.293, loss_mean=0.303][A
+Train step of epoch 0:  86%|████████▌ | 3887/4533 [10:35:53<1:43:59,  9.66s/it, gpt_loss=0.293, loss_mean=0.303][A2026-01-27 00:23:57.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  86%|████████▌ | 3887/4533 [10:36:03<1:43:59,  9.66s/it, gpt_loss=0.288, loss_mean=0.301][A
+Train step of epoch 0:  86%|████████▌ | 3888/4533 [10:36:03<1:43:47,  9.66s/it, gpt_loss=0.288, loss_mean=0.301][A2026-01-27 00:24:06.900 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  86%|████████▌ | 3888/4533 [10:36:14<1:43:47,  9.66s/it, gpt_loss=0.415, loss_mean=0.312][A
+Train step of epoch 0:  86%|████████▌ | 3889/4533 [10:36:14<1:49:21, 10.19s/it, gpt_loss=0.415, loss_mean=0.312][A
+[LID Router Debug] Step: 3890
+Batch Size: 14
+Audio Batch Size: 174
+LID Assignments: [3, 4, 0, 9, 0, 1, 6, 2, 0, 5, 0, 3, 3, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 00:24:18.854 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  86%|████████▌ | 3889/4533 [10:36:23<1:49:21, 10.19s/it, gpt_loss=0.26, loss_mean=0.307] [A
+Train step of epoch 0:  86%|████████▌ | 3890/4533 [10:36:23<1:45:12,  9.82s/it, gpt_loss=0.26, loss_mean=0.307][A2026-01-27 00:24:27.472 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  86%|████████▌ | 3890/4533 [10:36:32<1:45:12,  9.82s/it, gpt_loss=0.374, loss_mean=0.314][A
+Train step of epoch 0:  86%|████████▌ | 3891/4533 [10:36:32<1:41:10,  9.45s/it, gpt_loss=0.374, loss_mean=0.314][A2026-01-27 00:24:36.083 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  86%|████████▌ | 3891/4533 [10:36:40<1:41:10,  9.45s/it, gpt_loss=0.257, loss_mean=0.308][A
+Train step of epoch 0:  86%|████████▌ | 3892/4533 [10:36:41<1:38:55,  9.26s/it, gpt_loss=0.257, loss_mean=0.308][A2026-01-27 00:24:45.171 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  86%|████████▌ | 3892/4533 [10:36:52<1:38:55,  9.26s/it, gpt_loss=0.398, loss_mean=0.317][A
+Train step of epoch 0:  86%|████████▌ | 3893/4533 [10:36:52<1:47:03, 10.04s/it, gpt_loss=0.398, loss_mean=0.317][A2026-01-27 00:24:56.967 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  86%|████████▌ | 3893/4533 [10:37:01<1:47:03, 10.04s/it, gpt_loss=0.268, loss_mean=0.312][A
+Train step of epoch 0:  86%|████████▌ | 3894/4533 [10:37:01<1:43:25,  9.71s/it, gpt_loss=0.268, loss_mean=0.312][A2026-01-27 00:25:05.892 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  86%|████████▌ | 3894/4533 [10:37:10<1:43:25,  9.71s/it, gpt_loss=0.264, loss_mean=0.307][A
+Train step of epoch 0:  86%|████████▌ | 3895/4533 [10:37:10<1:40:32,  9.45s/it, gpt_loss=0.264, loss_mean=0.307][A2026-01-27 00:25:14.754 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  86%|████████▌ | 3895/4533 [10:37:19<1:40:32,  9.45s/it, gpt_loss=0.337, loss_mean=0.31] [A
+Train step of epoch 0:  86%|████████▌ | 3896/4533 [10:37:19<1:38:23,  9.27s/it, gpt_loss=0.337, loss_mean=0.31][A2026-01-27 00:25:23.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  86%|████████▌ | 3896/4533 [10:37:30<1:38:23,  9.27s/it, gpt_loss=0.438, loss_mean=0.323][A
+Train step of epoch 0:  86%|████████▌ | 3897/4533 [10:37:30<1:44:38,  9.87s/it, gpt_loss=0.438, loss_mean=0.323][A2026-01-27 00:25:34.756 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  86%|████████▌ | 3897/4533 [10:37:42<1:44:38,  9.87s/it, gpt_loss=0.355, loss_mean=0.326][A
+Train step of epoch 0:  86%|████████▌ | 3898/4533 [10:37:42<1:50:09, 10.41s/it, gpt_loss=0.355, loss_mean=0.326][A2026-01-27 00:25:46.271 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  86%|████████▌ | 3898/4533 [10:37:51<1:50:09, 10.41s/it, gpt_loss=0.22, loss_mean=0.316] [A
+Train step of epoch 0:  86%|████████▌ | 3899/4533 [10:37:51<1:46:26, 10.07s/it, gpt_loss=0.22, loss_mean=0.316][A
+[LID Router Debug] Step: 3900
+Batch Size: 14
+Audio Batch Size: 199
+LID Assignments: [9, 1, 9, 2, 1, 3, 9, 1, 9, 2, 3, 3, 3, 3]
+Active Experts in Batch: {9, 2, 3, 1}
+2026-01-27 00:25:55.976 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-27 00:26:04,869] [INFO] [logging.py:96:log_dist] [Rank 0] step=3900, skipped=0, lr=[1.6384375057866825e-05, 1.6384375057866825e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 00:26:04,869] [INFO] [timer.py:260:stop] epoch=0/micro_step=3900/global_step=3900, RunningAvgSamplesPerSec=5.724188179781982, CurrSamplesPerSec=5.766311239416651, MemAllocated=14.66GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  86%|████████▌ | 3899/4533 [10:38:01<1:46:26, 10.07s/it, gpt_loss=0.335, loss_mean=0.318][A
+Train step of epoch 0:  86%|████████▌ | 3900/4533 [10:38:01<1:45:11,  9.97s/it, gpt_loss=0.335, loss_mean=0.318][A2026-01-27 00:26:05.599 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  86%|████████▌ | 3900/4533 [10:38:11<1:45:11,  9.97s/it, gpt_loss=0.385, loss_mean=0.324][A
+Train step of epoch 0:  86%|████████▌ | 3901/4533 [10:38:11<1:44:08,  9.89s/it, gpt_loss=0.385, loss_mean=0.324][A2026-01-27 00:26:15.280 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  86%|████████▌ | 3901/4533 [10:38:19<1:44:08,  9.89s/it, gpt_loss=0.236, loss_mean=0.316][A
+Train step of epoch 0:  86%|████████▌ | 3902/4533 [10:38:19<1:40:39,  9.57s/it, gpt_loss=0.236, loss_mean=0.316][A2026-01-27 00:26:23.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  86%|████████▌ | 3902/4533 [10:38:32<1:40:39,  9.57s/it, gpt_loss=0.392, loss_mean=0.323][A
+Train step of epoch 0:  86%|████████▌ | 3903/4533 [10:38:32<1:48:20, 10.32s/it, gpt_loss=0.392, loss_mean=0.323][A2026-01-27 00:26:35.784 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  86%|████████▌ | 3903/4533 [10:38:43<1:48:20, 10.32s/it, gpt_loss=0.433, loss_mean=0.334][A
+Train step of epoch 0:  86%|████████▌ | 3904/4533 [10:38:43<1:52:57, 10.77s/it, gpt_loss=0.433, loss_mean=0.334][A2026-01-27 00:26:47.977 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  86%|████████▌ | 3904/4533 [10:38:52<1:52:57, 10.77s/it, gpt_loss=0.305, loss_mean=0.331][A
+Train step of epoch 0:  86%|████████▌ | 3905/4533 [10:38:52<1:46:53, 10.21s/it, gpt_loss=0.305, loss_mean=0.331][A2026-01-27 00:26:56.764 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  86%|████████▌ | 3905/4533 [10:39:04<1:46:53, 10.21s/it, gpt_loss=0.44, loss_mean=0.342] [A
+Train step of epoch 0:  86%|████████▌ | 3906/4533 [10:39:04<1:51:56, 10.71s/it, gpt_loss=0.44, loss_mean=0.342][A2026-01-27 00:27:08.380 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  86%|████████▌ | 3906/4533 [10:39:13<1:51:56, 10.71s/it, gpt_loss=0.228, loss_mean=0.331][A
+Train step of epoch 0:  86%|████████▌ | 3907/4533 [10:39:13<1:45:17, 10.09s/it, gpt_loss=0.228, loss_mean=0.331][A2026-01-27 00:27:17.454 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  86%|████████▌ | 3907/4533 [10:39:25<1:45:17, 10.09s/it, gpt_loss=0.458, loss_mean=0.343][A
+Train step of epoch 0:  86%|████████▌ | 3908/4533 [10:39:25<1:50:34, 10.62s/it, gpt_loss=0.458, loss_mean=0.343][A2026-01-27 00:27:29.369 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  86%|████████▌ | 3908/4533 [10:39:34<1:50:34, 10.62s/it, gpt_loss=0.293, loss_mean=0.338][A
+Train step of epoch 0:  86%|████████▌ | 3909/4533 [10:39:34<1:47:50, 10.37s/it, gpt_loss=0.293, loss_mean=0.338][A
+[LID Router Debug] Step: 3910
+Batch Size: 14
+Audio Batch Size: 141
+LID Assignments: [5, 5, 2, 5, 9, 4, 4, 3, 1, 3, 4, 3, 5, 1]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-27 00:27:38.963 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  86%|████████▌ | 3909/4533 [10:39:43<1:47:50, 10.37s/it, gpt_loss=0.208, loss_mean=0.325][A
+Train step of epoch 0:  86%|████████▋ | 3910/4533 [10:39:43<1:43:27,  9.96s/it, gpt_loss=0.208, loss_mean=0.325][A2026-01-27 00:27:47.878 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  86%|████████▋ | 3910/4533 [10:39:52<1:43:27,  9.96s/it, gpt_loss=0.304, loss_mean=0.323][A
+Train step of epoch 0:  86%|████████▋ | 3911/4533 [10:39:52<1:38:47,  9.53s/it, gpt_loss=0.304, loss_mean=0.323][A2026-01-27 00:27:56.660 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  86%|████████▋ | 3911/4533 [10:40:02<1:38:47,  9.53s/it, gpt_loss=0.367, loss_mean=0.328][A
+Train step of epoch 0:  86%|████████▋ | 3912/4533 [10:40:02<1:40:12,  9.68s/it, gpt_loss=0.367, loss_mean=0.328][A2026-01-27 00:28:06.380 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  86%|████████▋ | 3912/4533 [10:40:11<1:40:12,  9.68s/it, gpt_loss=0.252, loss_mean=0.32] [A
+Train step of epoch 0:  86%|████████▋ | 3913/4533 [10:40:11<1:36:35,  9.35s/it, gpt_loss=0.252, loss_mean=0.32][A2026-01-27 00:28:15.189 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  86%|████████▋ | 3913/4533 [10:40:19<1:36:35,  9.35s/it, gpt_loss=0.259, loss_mean=0.314][A
+Train step of epoch 0:  86%|████████▋ | 3914/4533 [10:40:19<1:34:36,  9.17s/it, gpt_loss=0.259, loss_mean=0.314][A2026-01-27 00:28:23.980 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  86%|████████▋ | 3914/4533 [10:40:29<1:34:36,  9.17s/it, gpt_loss=0.272, loss_mean=0.31] [A
+Train step of epoch 0:  86%|████████▋ | 3915/4533 [10:40:29<1:34:43,  9.20s/it, gpt_loss=0.272, loss_mean=0.31][A2026-01-27 00:28:32.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  86%|████████▋ | 3915/4533 [10:40:40<1:34:43,  9.20s/it, gpt_loss=0.35, loss_mean=0.314][A
+Train step of epoch 0:  86%|████████▋ | 3916/4533 [10:40:40<1:41:25,  9.86s/it, gpt_loss=0.35, loss_mean=0.314][A2026-01-27 00:28:44.356 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  86%|████████▋ | 3916/4533 [10:40:49<1:41:25,  9.86s/it, gpt_loss=0.235, loss_mean=0.306][A
+Train step of epoch 0:  86%|████████▋ | 3917/4533 [10:40:49<1:38:16,  9.57s/it, gpt_loss=0.235, loss_mean=0.306][A2026-01-27 00:28:53.374 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  86%|████████▋ | 3917/4533 [10:40:58<1:38:16,  9.57s/it, gpt_loss=0.259, loss_mean=0.301][A
+Train step of epoch 0:  86%|████████▋ | 3918/4533 [10:40:58<1:35:36,  9.33s/it, gpt_loss=0.259, loss_mean=0.301][A2026-01-27 00:29:02.262 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  86%|████████▋ | 3918/4533 [10:41:07<1:35:36,  9.33s/it, gpt_loss=0.232, loss_mean=0.294][A
+Train step of epoch 0:  86%|████████▋ | 3919/4533 [10:41:07<1:34:53,  9.27s/it, gpt_loss=0.232, loss_mean=0.294][A
+[LID Router Debug] Step: 3920
+Batch Size: 14
+Audio Batch Size: 119
+LID Assignments: [4, 0, 2, 1, 9, 5, 4, 5, 1, 4, 4, 4, 9, 1]
+Active Experts in Batch: {0, 1, 2, 4, 5, 9}
+2026-01-27 00:29:11.490 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  86%|████████▋ | 3919/4533 [10:41:19<1:34:53,  9.27s/it, gpt_loss=0.352, loss_mean=0.3]  [A
+Train step of epoch 0:  86%|████████▋ | 3920/4533 [10:41:19<1:42:39, 10.05s/it, gpt_loss=0.352, loss_mean=0.3][A2026-01-27 00:29:23.267 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  86%|████████▋ | 3920/4533 [10:41:31<1:42:39, 10.05s/it, gpt_loss=0.446, loss_mean=0.315][A
+Train step of epoch 0:  86%|████████▋ | 3921/4533 [10:41:31<1:49:21, 10.72s/it, gpt_loss=0.446, loss_mean=0.315][A2026-01-27 00:29:35.191 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  86%|████████▋ | 3921/4533 [10:41:39<1:49:21, 10.72s/it, gpt_loss=0.267, loss_mean=0.31] [A
+Train step of epoch 0:  87%|████████▋ | 3922/4533 [10:41:39<1:42:05, 10.03s/it, gpt_loss=0.267, loss_mean=0.31][A2026-01-27 00:29:44.057 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  87%|████████▋ | 3922/4533 [10:41:48<1:42:05, 10.03s/it, gpt_loss=0.32, loss_mean=0.311][A
+Train step of epoch 0:  87%|████████▋ | 3923/4533 [10:41:48<1:38:47,  9.72s/it, gpt_loss=0.32, loss_mean=0.311][A2026-01-27 00:29:52.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  87%|████████▋ | 3923/4533 [10:41:57<1:38:47,  9.72s/it, gpt_loss=0.287, loss_mean=0.308][A
+Train step of epoch 0:  87%|████████▋ | 3924/4533 [10:41:57<1:35:38,  9.42s/it, gpt_loss=0.287, loss_mean=0.308][A2026-01-27 00:30:01.766 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  87%|████████▋ | 3924/4533 [10:42:07<1:35:38,  9.42s/it, gpt_loss=0.31, loss_mean=0.309] [A
+Train step of epoch 0:  87%|████████▋ | 3925/4533 [10:42:07<1:36:18,  9.50s/it, gpt_loss=0.31, loss_mean=0.309][A2026-01-27 00:30:11.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  87%|████████▋ | 3925/4533 [10:42:19<1:36:18,  9.50s/it, gpt_loss=0.422, loss_mean=0.32][A
+Train step of epoch 0:  87%|████████▋ | 3926/4533 [10:42:19<1:43:06, 10.19s/it, gpt_loss=0.422, loss_mean=0.32][A2026-01-27 00:30:22.992 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  87%|████████▋ | 3926/4533 [10:42:31<1:43:06, 10.19s/it, gpt_loss=0.348, loss_mean=0.323][A
+Train step of epoch 0:  87%|████████▋ | 3927/4533 [10:42:31<1:48:55, 10.78s/it, gpt_loss=0.348, loss_mean=0.323][A2026-01-27 00:30:35.377 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  87%|████████▋ | 3927/4533 [10:42:43<1:48:55, 10.78s/it, gpt_loss=0.417, loss_mean=0.332][A
+Train step of epoch 0:  87%|████████▋ | 3928/4533 [10:42:43<1:52:27, 11.15s/it, gpt_loss=0.417, loss_mean=0.332][A2026-01-27 00:30:46.989 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  87%|████████▋ | 3928/4533 [10:42:52<1:52:27, 11.15s/it, gpt_loss=0.348, loss_mean=0.334][A
+Train step of epoch 0:  87%|████████▋ | 3929/4533 [10:42:52<1:46:45, 10.60s/it, gpt_loss=0.348, loss_mean=0.334][A
+[LID Router Debug] Step: 3930
+Batch Size: 14
+Audio Batch Size: 121
+LID Assignments: [4, 6, 3, 2, 9, 1, 5, 1, 4, 4, 5, 1, 1, 4]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-27 00:30:56.688 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  87%|████████▋ | 3929/4533 [10:43:02<1:46:45, 10.60s/it, gpt_loss=0.308, loss_mean=0.331][A
+Train step of epoch 0:  87%|████████▋ | 3930/4533 [10:43:02<1:43:32, 10.30s/it, gpt_loss=0.308, loss_mean=0.331][A2026-01-27 00:31:06.163 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  87%|████████▋ | 3930/4533 [10:43:11<1:43:32, 10.30s/it, gpt_loss=0.263, loss_mean=0.324][A
+Train step of epoch 0:  87%|████████▋ | 3931/4533 [10:43:11<1:39:10,  9.88s/it, gpt_loss=0.263, loss_mean=0.324][A2026-01-27 00:31:15.284 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  87%|████████▋ | 3931/4533 [10:43:22<1:39:10,  9.88s/it, gpt_loss=0.319, loss_mean=0.324][A
+Train step of epoch 0:  87%|████████▋ | 3932/4533 [10:43:22<1:44:18, 10.41s/it, gpt_loss=0.319, loss_mean=0.324][A2026-01-27 00:31:26.498 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  87%|████████▋ | 3932/4533 [10:43:31<1:44:18, 10.41s/it, gpt_loss=0.374, loss_mean=0.329][A
+Train step of epoch 0:  87%|████████▋ | 3933/4533 [10:43:31<1:40:26, 10.04s/it, gpt_loss=0.374, loss_mean=0.329][A2026-01-27 00:31:36.091 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  87%|████████▋ | 3933/4533 [10:43:44<1:40:26, 10.04s/it, gpt_loss=0.404, loss_mean=0.336][A
+Train step of epoch 0:  87%|████████▋ | 3934/4533 [10:43:44<1:46:38, 10.68s/it, gpt_loss=0.404, loss_mean=0.336][A2026-01-27 00:31:48.265 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  87%|████████▋ | 3934/4533 [10:43:53<1:46:38, 10.68s/it, gpt_loss=0.29, loss_mean=0.332] [A
+Train step of epoch 0:  87%|████████▋ | 3935/4533 [10:43:53<1:41:24, 10.17s/it, gpt_loss=0.29, loss_mean=0.332][A2026-01-27 00:31:56.784 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  87%|████████▋ | 3935/4533 [10:44:01<1:41:24, 10.17s/it, gpt_loss=0.387, loss_mean=0.337][A
+Train step of epoch 0:  87%|████████▋ | 3936/4533 [10:44:01<1:35:48,  9.63s/it, gpt_loss=0.387, loss_mean=0.337][A2026-01-27 00:32:05.475 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  87%|████████▋ | 3936/4533 [10:44:13<1:35:48,  9.63s/it, gpt_loss=0.363, loss_mean=0.34] [A
+Train step of epoch 0:  87%|████████▋ | 3937/4533 [10:44:13<1:43:04, 10.38s/it, gpt_loss=0.363, loss_mean=0.34][A2026-01-27 00:32:17.670 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  87%|████████▋ | 3937/4533 [10:44:23<1:43:04, 10.38s/it, gpt_loss=0.3, loss_mean=0.336] [A
+Train step of epoch 0:  87%|████████▋ | 3938/4533 [10:44:23<1:41:16, 10.21s/it, gpt_loss=0.3, loss_mean=0.336][A2026-01-27 00:32:27.382 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  87%|████████▋ | 3938/4533 [10:44:32<1:41:16, 10.21s/it, gpt_loss=0.339, loss_mean=0.336][A
+Train step of epoch 0:  87%|████████▋ | 3939/4533 [10:44:32<1:37:01,  9.80s/it, gpt_loss=0.339, loss_mean=0.336][A
+[LID Router Debug] Step: 3940
+Batch Size: 14
+Audio Batch Size: 155
+LID Assignments: [2, 0, 9, 3, 5, 9, 9, 5, 2, 2, 5, 9, 2, 3]
+Active Experts in Batch: {0, 2, 3, 5, 9}
+2026-01-27 00:32:36.373 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  87%|████████▋ | 3939/4533 [10:44:44<1:37:01,  9.80s/it, gpt_loss=0.467, loss_mean=0.349][A
+Train step of epoch 0:  87%|████████▋ | 3940/4533 [10:44:44<1:42:56, 10.42s/it, gpt_loss=0.467, loss_mean=0.349][A2026-01-27 00:32:48.259 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  87%|████████▋ | 3940/4533 [10:44:53<1:42:56, 10.42s/it, gpt_loss=0.261, loss_mean=0.34] [A
+Train step of epoch 0:  87%|████████▋ | 3941/4533 [10:44:53<1:39:50, 10.12s/it, gpt_loss=0.261, loss_mean=0.34][A2026-01-27 00:32:57.500 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  87%|████████▋ | 3941/4533 [10:45:02<1:39:50, 10.12s/it, gpt_loss=0.275, loss_mean=0.334][A
+Train step of epoch 0:  87%|████████▋ | 3942/4533 [10:45:02<1:36:18,  9.78s/it, gpt_loss=0.275, loss_mean=0.334][A2026-01-27 00:33:06.361 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  87%|████████▋ | 3942/4533 [10:45:11<1:36:18,  9.78s/it, gpt_loss=0.232, loss_mean=0.324][A
+Train step of epoch 0:  87%|████████▋ | 3943/4533 [10:45:11<1:35:18,  9.69s/it, gpt_loss=0.232, loss_mean=0.324][A2026-01-27 00:33:15.788 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  87%|████████▋ | 3943/4533 [10:45:23<1:35:18,  9.69s/it, gpt_loss=0.404, loss_mean=0.332][A
+Train step of epoch 0:  87%|████████▋ | 3944/4533 [10:45:23<1:40:58, 10.29s/it, gpt_loss=0.404, loss_mean=0.332][A2026-01-27 00:33:27.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  87%|████████▋ | 3944/4533 [10:45:32<1:40:58, 10.29s/it, gpt_loss=0.318, loss_mean=0.33] [A
+Train step of epoch 0:  87%|████████▋ | 3945/4533 [10:45:32<1:37:54,  9.99s/it, gpt_loss=0.318, loss_mean=0.33][A2026-01-27 00:33:36.965 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  87%|████████▋ | 3945/4533 [10:45:41<1:37:54,  9.99s/it, gpt_loss=0.292, loss_mean=0.327][A
+Train step of epoch 0:  87%|████████▋ | 3946/4533 [10:45:41<1:34:51,  9.70s/it, gpt_loss=0.292, loss_mean=0.327][A2026-01-27 00:33:45.965 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  87%|████████▋ | 3946/4533 [10:45:50<1:34:51,  9.70s/it, gpt_loss=0.275, loss_mean=0.321][A
+Train step of epoch 0:  87%|████████▋ | 3947/4533 [10:45:50<1:32:02,  9.42s/it, gpt_loss=0.275, loss_mean=0.321][A2026-01-27 00:33:54.960 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  87%|████████▋ | 3947/4533 [10:46:00<1:32:02,  9.42s/it, gpt_loss=0.302, loss_mean=0.319][A
+Train step of epoch 0:  87%|████████▋ | 3948/4533 [10:46:00<1:32:02,  9.44s/it, gpt_loss=0.302, loss_mean=0.319][A2026-01-27 00:34:04.284 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  87%|████████▋ | 3948/4533 [10:46:12<1:32:02,  9.44s/it, gpt_loss=0.325, loss_mean=0.32] [A
+Train step of epoch 0:  87%|████████▋ | 3949/4533 [10:46:12<1:39:59, 10.27s/it, gpt_loss=0.325, loss_mean=0.32][A
+[LID Router Debug] Step: 3950
+Batch Size: 14
+Audio Batch Size: 125
+LID Assignments: [1, 4, 4, 2, 0, 2, 9, 2, 5, 9, 4, 1, 6, 5]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-27 00:34:16.584 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  87%|████████▋ | 3949/4533 [10:46:24<1:39:59, 10.27s/it, gpt_loss=0.301, loss_mean=0.318][A
+Train step of epoch 0:  87%|████████▋ | 3950/4533 [10:46:24<1:44:53, 10.80s/it, gpt_loss=0.301, loss_mean=0.318][A2026-01-27 00:34:27.957 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  87%|████████▋ | 3950/4533 [10:46:33<1:44:53, 10.80s/it, gpt_loss=0.217, loss_mean=0.308][A
+Train step of epoch 0:  87%|████████▋ | 3951/4533 [10:46:33<1:39:22, 10.25s/it, gpt_loss=0.217, loss_mean=0.308][A2026-01-27 00:34:37.557 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  87%|████████▋ | 3951/4533 [10:46:42<1:39:22, 10.25s/it, gpt_loss=0.339, loss_mean=0.311][A
+Train step of epoch 0:  87%|████████▋ | 3952/4533 [10:46:42<1:36:51, 10.00s/it, gpt_loss=0.339, loss_mean=0.311][A2026-01-27 00:34:46.973 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  87%|████████▋ | 3952/4533 [10:46:54<1:36:51, 10.00s/it, gpt_loss=0.305, loss_mean=0.311][A
+Train step of epoch 0:  87%|████████▋ | 3953/4533 [10:46:54<1:41:33, 10.51s/it, gpt_loss=0.305, loss_mean=0.311][A2026-01-27 00:34:58.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  87%|████████▋ | 3953/4533 [10:47:03<1:41:33, 10.51s/it, gpt_loss=0.322, loss_mean=0.312][A
+Train step of epoch 0:  87%|████████▋ | 3954/4533 [10:47:03<1:36:22,  9.99s/it, gpt_loss=0.322, loss_mean=0.312][A2026-01-27 00:35:07.200 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  87%|████████▋ | 3954/4533 [10:47:12<1:36:22,  9.99s/it, gpt_loss=0.259, loss_mean=0.306][A
+Train step of epoch 0:  87%|████████▋ | 3955/4533 [10:47:12<1:34:36,  9.82s/it, gpt_loss=0.259, loss_mean=0.306][A2026-01-27 00:35:16.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  87%|████████▋ | 3955/4533 [10:47:25<1:34:36,  9.82s/it, gpt_loss=0.375, loss_mean=0.313][A
+Train step of epoch 0:  87%|████████▋ | 3956/4533 [10:47:25<1:42:21, 10.64s/it, gpt_loss=0.375, loss_mean=0.313][A2026-01-27 00:35:29.491 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  87%|████████▋ | 3956/4533 [10:47:34<1:42:21, 10.64s/it, gpt_loss=0.258, loss_mean=0.308][A
+Train step of epoch 0:  87%|████████▋ | 3957/4533 [10:47:34<1:37:24, 10.15s/it, gpt_loss=0.258, loss_mean=0.308][A2026-01-27 00:35:38.482 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  87%|████████▋ | 3957/4533 [10:47:43<1:37:24, 10.15s/it, gpt_loss=0.302, loss_mean=0.307][A
+Train step of epoch 0:  87%|████████▋ | 3958/4533 [10:47:43<1:33:46,  9.79s/it, gpt_loss=0.302, loss_mean=0.307][A2026-01-27 00:35:47.456 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  87%|████████▋ | 3958/4533 [10:47:55<1:33:46,  9.79s/it, gpt_loss=0.337, loss_mean=0.31] [A
+Train step of epoch 0:  87%|████████▋ | 3959/4533 [10:47:55<1:39:57, 10.45s/it, gpt_loss=0.337, loss_mean=0.31][A
+[LID Router Debug] Step: 3960
+Batch Size: 14
+Audio Batch Size: 150
+LID Assignments: [1, 9, 2, 5, 0, 9, 9, 3, 2, 4, 0, 0, 0, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 00:35:59.271 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  87%|████████▋ | 3959/4533 [10:48:07<1:39:57, 10.45s/it, gpt_loss=0.304, loss_mean=0.31][A
+Train step of epoch 0:  87%|████████▋ | 3960/4533 [10:48:07<1:43:46, 10.87s/it, gpt_loss=0.304, loss_mean=0.31][A2026-01-27 00:36:10.892 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  87%|████████▋ | 3960/4533 [10:48:15<1:43:46, 10.87s/it, gpt_loss=0.297, loss_mean=0.308][A
+Train step of epoch 0:  87%|████████▋ | 3961/4533 [10:48:15<1:37:05, 10.18s/it, gpt_loss=0.297, loss_mean=0.308][A2026-01-27 00:36:19.574 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  87%|████████▋ | 3961/4533 [10:48:26<1:37:05, 10.18s/it, gpt_loss=0.417, loss_mean=0.319][A
+Train step of epoch 0:  87%|████████▋ | 3962/4533 [10:48:26<1:39:53, 10.50s/it, gpt_loss=0.417, loss_mean=0.319][A2026-01-27 00:36:30.996 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  87%|████████▋ | 3962/4533 [10:48:36<1:39:53, 10.50s/it, gpt_loss=0.277, loss_mean=0.315][A
+Train step of epoch 0:  87%|████████▋ | 3963/4533 [10:48:36<1:37:12, 10.23s/it, gpt_loss=0.277, loss_mean=0.315][A2026-01-27 00:36:40.698 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  87%|████████▋ | 3963/4533 [10:48:45<1:37:12, 10.23s/it, gpt_loss=0.25, loss_mean=0.309] [A
+Train step of epoch 0:  87%|████████▋ | 3964/4533 [10:48:45<1:34:18,  9.95s/it, gpt_loss=0.25, loss_mean=0.309][A2026-01-27 00:36:49.964 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  87%|████████▋ | 3964/4533 [10:48:54<1:34:18,  9.95s/it, gpt_loss=0.258, loss_mean=0.303][A
+Train step of epoch 0:  87%|████████▋ | 3965/4533 [10:48:54<1:31:10,  9.63s/it, gpt_loss=0.258, loss_mean=0.303][A2026-01-27 00:36:58.799 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  87%|████████▋ | 3965/4533 [10:49:03<1:31:10,  9.63s/it, gpt_loss=0.249, loss_mean=0.298][A
+Train step of epoch 0:  87%|████████▋ | 3966/4533 [10:49:03<1:29:14,  9.44s/it, gpt_loss=0.249, loss_mean=0.298][A2026-01-27 00:37:07.773 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  87%|████████▋ | 3966/4533 [10:49:13<1:29:14,  9.44s/it, gpt_loss=0.25, loss_mean=0.293] [A
+Train step of epoch 0:  88%|████████▊ | 3967/4533 [10:49:13<1:28:47,  9.41s/it, gpt_loss=0.25, loss_mean=0.293][A2026-01-27 00:37:17.271 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  88%|████████▊ | 3967/4533 [10:49:25<1:28:47,  9.41s/it, gpt_loss=0.33, loss_mean=0.297][A
+Train step of epoch 0:  88%|████████▊ | 3968/4533 [10:49:25<1:36:24, 10.24s/it, gpt_loss=0.33, loss_mean=0.297][A2026-01-27 00:37:29.370 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  88%|████████▊ | 3968/4533 [10:49:37<1:36:24, 10.24s/it, gpt_loss=0.413, loss_mean=0.309][A
+Train step of epoch 0:  88%|████████▊ | 3969/4533 [10:49:37<1:41:40, 10.82s/it, gpt_loss=0.413, loss_mean=0.309][A
+[LID Router Debug] Step: 3970
+Batch Size: 14
+Audio Batch Size: 142
+LID Assignments: [0, 9, 5, 0, 9, 5, 1, 2, 5, 3, 1, 2, 2, 9]
+Active Experts in Batch: {0, 1, 2, 3, 5, 9}
+2026-01-27 00:37:41.499 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  88%|████████▊ | 3969/4533 [10:49:46<1:41:40, 10.82s/it, gpt_loss=0.354, loss_mean=0.313][A
+Train step of epoch 0:  88%|████████▊ | 3970/4533 [10:49:46<1:35:54, 10.22s/it, gpt_loss=0.354, loss_mean=0.313][A2026-01-27 00:37:50.056 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  88%|████████▊ | 3970/4533 [10:49:55<1:35:54, 10.22s/it, gpt_loss=0.346, loss_mean=0.316][A
+Train step of epoch 0:  88%|████████▊ | 3971/4533 [10:49:55<1:33:44, 10.01s/it, gpt_loss=0.346, loss_mean=0.316][A2026-01-27 00:37:59.797 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  88%|████████▊ | 3971/4533 [10:50:05<1:33:44, 10.01s/it, gpt_loss=0.278, loss_mean=0.313][A
+Train step of epoch 0:  88%|████████▊ | 3972/4533 [10:50:05<1:33:12,  9.97s/it, gpt_loss=0.278, loss_mean=0.313][A2026-01-27 00:38:09.678 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  88%|████████▊ | 3972/4533 [10:50:14<1:33:12,  9.97s/it, gpt_loss=0.228, loss_mean=0.304][A
+Train step of epoch 0:  88%|████████▊ | 3973/4533 [10:50:14<1:30:08,  9.66s/it, gpt_loss=0.228, loss_mean=0.304][A2026-01-27 00:38:18.566 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  88%|████████▊ | 3973/4533 [10:50:24<1:30:08,  9.66s/it, gpt_loss=0.328, loss_mean=0.306][A
+Train step of epoch 0:  88%|████████▊ | 3974/4533 [10:50:24<1:29:56,  9.65s/it, gpt_loss=0.328, loss_mean=0.306][A2026-01-27 00:38:28.202 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  88%|████████▊ | 3974/4533 [10:50:32<1:29:56,  9.65s/it, gpt_loss=0.25, loss_mean=0.301] [A
+Train step of epoch 0:  88%|████████▊ | 3975/4533 [10:50:32<1:27:17,  9.39s/it, gpt_loss=0.25, loss_mean=0.301][A2026-01-27 00:38:36.891 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  88%|████████▊ | 3975/4533 [10:50:41<1:27:17,  9.39s/it, gpt_loss=0.265, loss_mean=0.297][A
+Train step of epoch 0:  88%|████████▊ | 3976/4533 [10:50:41<1:25:30,  9.21s/it, gpt_loss=0.265, loss_mean=0.297][A2026-01-27 00:38:45.770 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  88%|████████▊ | 3976/4533 [10:50:50<1:25:30,  9.21s/it, gpt_loss=0.26, loss_mean=0.293] [A
+Train step of epoch 0:  88%|████████▊ | 3977/4533 [10:50:50<1:24:37,  9.13s/it, gpt_loss=0.26, loss_mean=0.293][A2026-01-27 00:38:54.674 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  88%|████████▊ | 3977/4533 [10:50:59<1:24:37,  9.13s/it, gpt_loss=0.228, loss_mean=0.287][A
+Train step of epoch 0:  88%|████████▊ | 3978/4533 [10:50:59<1:23:37,  9.04s/it, gpt_loss=0.228, loss_mean=0.287][A2026-01-27 00:39:03.582 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  88%|████████▊ | 3978/4533 [10:51:08<1:23:37,  9.04s/it, gpt_loss=0.307, loss_mean=0.289][A
+Train step of epoch 0:  88%|████████▊ | 3979/4533 [10:51:08<1:22:46,  8.97s/it, gpt_loss=0.307, loss_mean=0.289][A
+[LID Router Debug] Step: 3980
+Batch Size: 14
+Audio Batch Size: 139
+LID Assignments: [2, 1, 5, 5, 5, 9, 4, 0, 9, 9, 9, 4, 6, 5]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-27 00:39:12.368 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  88%|████████▊ | 3979/4533 [10:51:17<1:22:46,  8.97s/it, gpt_loss=0.25, loss_mean=0.285] [A
+Train step of epoch 0:  88%|████████▊ | 3980/4533 [10:51:17<1:21:58,  8.89s/it, gpt_loss=0.25, loss_mean=0.285][A2026-01-27 00:39:21.070 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  88%|████████▊ | 3980/4533 [10:51:29<1:21:58,  8.89s/it, gpt_loss=0.347, loss_mean=0.291][A
+Train step of epoch 0:  88%|████████▊ | 3981/4533 [10:51:29<1:30:31,  9.84s/it, gpt_loss=0.347, loss_mean=0.291][A2026-01-27 00:39:33.067 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  88%|████████▊ | 3981/4533 [10:51:37<1:30:31,  9.84s/it, gpt_loss=0.235, loss_mean=0.286][A
+Train step of epoch 0:  88%|████████▊ | 3982/4533 [10:51:37<1:27:20,  9.51s/it, gpt_loss=0.235, loss_mean=0.286][A2026-01-27 00:39:41.654 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  88%|████████▊ | 3982/4533 [10:51:46<1:27:20,  9.51s/it, gpt_loss=0.288, loss_mean=0.286][A
+Train step of epoch 0:  88%|████████▊ | 3983/4533 [10:51:46<1:24:51,  9.26s/it, gpt_loss=0.288, loss_mean=0.286][A2026-01-27 00:39:50.588 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  88%|████████▊ | 3983/4533 [10:51:56<1:24:51,  9.26s/it, gpt_loss=0.255, loss_mean=0.283][A
+Train step of epoch 0:  88%|████████▊ | 3984/4533 [10:51:56<1:25:48,  9.38s/it, gpt_loss=0.255, loss_mean=0.283][A2026-01-27 00:40:00.359 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  88%|████████▊ | 3984/4533 [10:52:04<1:25:48,  9.38s/it, gpt_loss=0.396, loss_mean=0.294][A
+Train step of epoch 0:  88%|████████▊ | 3985/4533 [10:52:04<1:24:13,  9.22s/it, gpt_loss=0.396, loss_mean=0.294][A2026-01-27 00:40:09.104 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  88%|████████▊ | 3985/4533 [10:52:13<1:24:13,  9.22s/it, gpt_loss=0.294, loss_mean=0.294][A
+Train step of epoch 0:  88%|████████▊ | 3986/4533 [10:52:13<1:23:07,  9.12s/it, gpt_loss=0.294, loss_mean=0.294][A2026-01-27 00:40:17.870 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  88%|████████▊ | 3986/4533 [10:52:25<1:23:07,  9.12s/it, gpt_loss=0.43, loss_mean=0.308] [A
+Train step of epoch 0:  88%|████████▊ | 3987/4533 [10:52:25<1:30:31,  9.95s/it, gpt_loss=0.43, loss_mean=0.308][A2026-01-27 00:40:29.875 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  88%|████████▊ | 3987/4533 [10:52:35<1:30:31,  9.95s/it, gpt_loss=0.281, loss_mean=0.305][A
+Train step of epoch 0:  88%|████████▊ | 3988/4533 [10:52:35<1:29:23,  9.84s/it, gpt_loss=0.281, loss_mean=0.305][A2026-01-27 00:40:39.460 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  88%|████████▊ | 3988/4533 [10:52:47<1:29:23,  9.84s/it, gpt_loss=0.429, loss_mean=0.317][A
+Train step of epoch 0:  88%|████████▊ | 3989/4533 [10:52:47<1:34:46, 10.45s/it, gpt_loss=0.429, loss_mean=0.317][A
+[LID Router Debug] Step: 3990
+Batch Size: 14
+Audio Batch Size: 144
+LID Assignments: [0, 5, 3, 4, 3, 1, 4, 5, 4, 4, 3, 5, 2, 6]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6}
+2026-01-27 00:40:51.283 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  88%|████████▊ | 3989/4533 [10:52:58<1:34:46, 10.45s/it, gpt_loss=0.279, loss_mean=0.314][A
+Train step of epoch 0:  88%|████████▊ | 3990/4533 [10:52:58<1:38:10, 10.85s/it, gpt_loss=0.279, loss_mean=0.314][A2026-01-27 00:41:03.073 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  88%|████████▊ | 3990/4533 [10:53:07<1:38:10, 10.85s/it, gpt_loss=0.257, loss_mean=0.308][A
+Train step of epoch 0:  88%|████████▊ | 3991/4533 [10:53:07<1:32:48, 10.27s/it, gpt_loss=0.257, loss_mean=0.308][A2026-01-27 00:41:12.075 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  88%|████████▊ | 3991/4533 [10:53:16<1:32:48, 10.27s/it, gpt_loss=0.266, loss_mean=0.304][A
+Train step of epoch 0:  88%|████████▊ | 3992/4533 [10:53:16<1:28:43,  9.84s/it, gpt_loss=0.266, loss_mean=0.304][A2026-01-27 00:41:20.675 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  88%|████████▊ | 3992/4533 [10:53:25<1:28:43,  9.84s/it, gpt_loss=0.271, loss_mean=0.3]  [A
+Train step of epoch 0:  88%|████████▊ | 3993/4533 [10:53:25<1:25:44,  9.53s/it, gpt_loss=0.271, loss_mean=0.3][A2026-01-27 00:41:29.658 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  88%|████████▊ | 3993/4533 [10:53:35<1:25:44,  9.53s/it, gpt_loss=0.337, loss_mean=0.304][A
+Train step of epoch 0:  88%|████████▊ | 3994/4533 [10:53:35<1:26:04,  9.58s/it, gpt_loss=0.337, loss_mean=0.304][A2026-01-27 00:41:39.392 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  88%|████████▊ | 3994/4533 [10:53:44<1:26:04,  9.58s/it, gpt_loss=0.255, loss_mean=0.299][A
+Train step of epoch 0:  88%|████████▊ | 3995/4533 [10:53:44<1:24:52,  9.47s/it, gpt_loss=0.255, loss_mean=0.299][A2026-01-27 00:41:48.483 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  88%|████████▊ | 3995/4533 [10:53:56<1:24:52,  9.47s/it, gpt_loss=0.365, loss_mean=0.306][A
+Train step of epoch 0:  88%|████████▊ | 3996/4533 [10:53:56<1:31:12, 10.19s/it, gpt_loss=0.365, loss_mean=0.306][A2026-01-27 00:42:00.192 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  88%|████████▊ | 3996/4533 [10:54:05<1:31:12, 10.19s/it, gpt_loss=0.307, loss_mean=0.306][A
+Train step of epoch 0:  88%|████████▊ | 3997/4533 [10:54:05<1:29:34, 10.03s/it, gpt_loss=0.307, loss_mean=0.306][A2026-01-27 00:42:09.806 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  88%|████████▊ | 3997/4533 [10:54:14<1:29:34, 10.03s/it, gpt_loss=0.254, loss_mean=0.301][A
+Train step of epoch 0:  88%|████████▊ | 3998/4533 [10:54:14<1:26:04,  9.65s/it, gpt_loss=0.254, loss_mean=0.301][A2026-01-27 00:42:18.958 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  88%|████████▊ | 3998/4533 [10:54:23<1:26:04,  9.65s/it, gpt_loss=0.263, loss_mean=0.297][A
+Train step of epoch 0:  88%|████████▊ | 3999/4533 [10:54:23<1:23:52,  9.42s/it, gpt_loss=0.263, loss_mean=0.297][A
+[LID Router Debug] Step: 4000
+Batch Size: 14
+Audio Batch Size: 123
+LID Assignments: [4, 1, 6, 4, 5, 5, 2, 1, 9, 6, 9, 1, 5, 3]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-27 00:42:27.687 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+[2026-01-27 00:42:35,820] [INFO] [logging.py:96:log_dist] [Rank 0] step=4000, skipped=0, lr=[1.6203049775663677e-05, 1.6203049775663677e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 00:42:35,821] [INFO] [timer.py:260:stop] epoch=0/micro_step=4000/global_step=4000, RunningAvgSamplesPerSec=5.7226470079546194, CurrSamplesPerSec=6.411213285434689, MemAllocated=14.67GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  88%|████████▊ | 3999/4533 [10:54:32<1:23:52,  9.42s/it, gpt_loss=0.26, loss_mean=0.293] [A[2026-01-27 00:42:35,823] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step4000 is about to be saved!
+[2026-01-27 00:42:37,446] [INFO] [logging.py:96:log_dist] [Rank 0] Saving model checkpoint: /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step4000/mp_rank_00_model_states.pt
+[2026-01-27 00:42:37,447] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step4000/mp_rank_00_model_states.pt...
+[2026-01-27 00:42:43,868] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step4000/mp_rank_00_model_states.pt.
+[2026-01-27 00:42:43,981] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step4000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt...
+[2026-01-27 00:42:43,981] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step4000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt...
+[2026-01-27 00:42:43,982] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step4000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt...
+[2026-01-27 00:42:43,982] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step4000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt...
+[2026-01-27 00:42:44,845] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step4000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt.
+[2026-01-27 00:42:44,845] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step4000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
+[2026-01-27 00:42:44,845] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step4000 is ready now!
+[2026-01-27 00:42:44,852] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step4000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt.
+[2026-01-27 00:42:44,853] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step4000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
+[2026-01-27 00:42:44,853] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step4000 is ready now!
+[2026-01-27 00:42:44,859] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step4000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt.
+[2026-01-27 00:42:44,867] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step4000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt.
+[2026-01-27 00:42:44,868] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step4000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
+[2026-01-27 00:42:44,868] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step4000 is ready now!
+[2026-01-27 00:42:44,901] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step4000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
+[2026-01-27 00:42:44,901] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step4000 is ready now!
+
+Train step of epoch 0:  88%|████████▊ | 4000/4533 [10:54:41<1:46:08, 11.95s/it, gpt_loss=0.26, loss_mean=0.293][A2026-01-27 00:42:45.586 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  88%|████████▊ | 4000/4533 [10:54:51<1:46:08, 11.95s/it, gpt_loss=0.275, loss_mean=0.291][A
+Train step of epoch 0:  88%|████████▊ | 4001/4533 [10:54:51<1:39:45, 11.25s/it, gpt_loss=0.275, loss_mean=0.291][A2026-01-27 00:42:55.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  88%|████████▊ | 4001/4533 [10:55:00<1:39:45, 11.25s/it, gpt_loss=0.33, loss_mean=0.295] [A
+Train step of epoch 0:  88%|████████▊ | 4002/4533 [10:55:00<1:34:08, 10.64s/it, gpt_loss=0.33, loss_mean=0.295][A2026-01-27 00:43:04.255 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  88%|████████▊ | 4002/4533 [10:55:09<1:34:08, 10.64s/it, gpt_loss=0.275, loss_mean=0.293][A
+Train step of epoch 0:  88%|████████▊ | 4003/4533 [10:55:09<1:30:51, 10.29s/it, gpt_loss=0.275, loss_mean=0.293][A2026-01-27 00:43:13.896 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  88%|████████▊ | 4003/4533 [10:55:18<1:30:51, 10.29s/it, gpt_loss=0.257, loss_mean=0.29] [A
+Train step of epoch 0:  88%|████████▊ | 4004/4533 [10:55:18<1:27:23,  9.91s/it, gpt_loss=0.257, loss_mean=0.29][A2026-01-27 00:43:22.991 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  88%|████████▊ | 4004/4533 [10:55:27<1:27:23,  9.91s/it, gpt_loss=0.272, loss_mean=0.288][A
+Train step of epoch 0:  88%|████████▊ | 4005/4533 [10:55:27<1:24:27,  9.60s/it, gpt_loss=0.272, loss_mean=0.288][A2026-01-27 00:43:31.556 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  88%|████████▊ | 4005/4533 [10:55:36<1:24:27,  9.60s/it, gpt_loss=0.252, loss_mean=0.284][A
+Train step of epoch 0:  88%|████████▊ | 4006/4533 [10:55:36<1:23:27,  9.50s/it, gpt_loss=0.252, loss_mean=0.284][A2026-01-27 00:43:41.075 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  88%|████████▊ | 4006/4533 [10:55:46<1:23:27,  9.50s/it, gpt_loss=0.274, loss_mean=0.283][A
+Train step of epoch 0:  88%|████████▊ | 4007/4533 [10:55:46<1:24:15,  9.61s/it, gpt_loss=0.274, loss_mean=0.283][A2026-01-27 00:43:50.966 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  88%|████████▊ | 4007/4533 [10:55:55<1:24:15,  9.61s/it, gpt_loss=0.318, loss_mean=0.287][A
+Train step of epoch 0:  88%|████████▊ | 4008/4533 [10:55:55<1:21:29,  9.31s/it, gpt_loss=0.318, loss_mean=0.287][A2026-01-27 00:43:59.475 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  88%|████████▊ | 4008/4533 [10:56:04<1:21:29,  9.31s/it, gpt_loss=0.294, loss_mean=0.288][A
+Train step of epoch 0:  88%|████████▊ | 4009/4533 [10:56:04<1:20:53,  9.26s/it, gpt_loss=0.294, loss_mean=0.288][A
+[LID Router Debug] Step: 4010
+Batch Size: 14
+Audio Batch Size: 174
+LID Assignments: [2, 5, 3, 4, 2, 9, 9, 9, 2, 0, 2, 4, 9, 5]
+Active Experts in Batch: {0, 2, 3, 4, 5, 9}
+2026-01-27 00:44:08.376 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  88%|████████▊ | 4009/4533 [10:56:13<1:20:53,  9.26s/it, gpt_loss=0.324, loss_mean=0.291][A
+Train step of epoch 0:  88%|████████▊ | 4010/4533 [10:56:13<1:19:37,  9.14s/it, gpt_loss=0.324, loss_mean=0.291][A2026-01-27 00:44:17.469 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  88%|████████▊ | 4010/4533 [10:56:22<1:19:37,  9.14s/it, gpt_loss=0.406, loss_mean=0.303][A
+Train step of epoch 0:  88%|████████▊ | 4011/4533 [10:56:22<1:20:31,  9.26s/it, gpt_loss=0.406, loss_mean=0.303][A2026-01-27 00:44:27.100 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  88%|████████▊ | 4011/4533 [10:56:32<1:20:31,  9.26s/it, gpt_loss=0.311, loss_mean=0.303][A
+Train step of epoch 0:  89%|████████▊ | 4012/4533 [10:56:32<1:20:06,  9.23s/it, gpt_loss=0.311, loss_mean=0.303][A2026-01-27 00:44:36.202 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  89%|████████▊ | 4012/4533 [10:56:41<1:20:06,  9.23s/it, gpt_loss=0.333, loss_mean=0.306][A
+Train step of epoch 0:  89%|████████▊ | 4013/4533 [10:56:41<1:21:09,  9.37s/it, gpt_loss=0.333, loss_mean=0.306][A2026-01-27 00:44:45.586 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  89%|████████▊ | 4013/4533 [10:56:51<1:21:09,  9.37s/it, gpt_loss=0.237, loss_mean=0.299][A
+Train step of epoch 0:  89%|████████▊ | 4014/4533 [10:56:51<1:21:45,  9.45s/it, gpt_loss=0.237, loss_mean=0.299][A2026-01-27 00:44:55.574 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  89%|████████▊ | 4014/4533 [10:57:03<1:21:45,  9.45s/it, gpt_loss=0.376, loss_mean=0.307][A
+Train step of epoch 0:  89%|████████▊ | 4015/4533 [10:57:03<1:27:51, 10.18s/it, gpt_loss=0.376, loss_mean=0.307][A2026-01-27 00:45:07.568 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  89%|████████▊ | 4015/4533 [10:57:15<1:27:51, 10.18s/it, gpt_loss=0.316, loss_mean=0.308][A
+Train step of epoch 0:  89%|████████▊ | 4016/4533 [10:57:15<1:32:55, 10.78s/it, gpt_loss=0.316, loss_mean=0.308][A2026-01-27 00:45:19.500 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  89%|████████▊ | 4016/4533 [10:57:27<1:32:55, 10.78s/it, gpt_loss=0.374, loss_mean=0.315][A
+Train step of epoch 0:  89%|████████▊ | 4017/4533 [10:57:27<1:34:55, 11.04s/it, gpt_loss=0.374, loss_mean=0.315][A2026-01-27 00:45:30.976 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  89%|████████▊ | 4017/4533 [10:57:38<1:34:55, 11.04s/it, gpt_loss=0.424, loss_mean=0.326][A
+Train step of epoch 0:  89%|████████▊ | 4018/4533 [10:57:38<1:36:06, 11.20s/it, gpt_loss=0.424, loss_mean=0.326][A2026-01-27 00:45:42.893 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  89%|████████▊ | 4018/4533 [10:57:48<1:36:06, 11.20s/it, gpt_loss=0.27, loss_mean=0.32]  [A
+Train step of epoch 0:  89%|████████▊ | 4019/4533 [10:57:48<1:32:31, 10.80s/it, gpt_loss=0.27, loss_mean=0.32][A
+[LID Router Debug] Step: 4020
+Batch Size: 14
+Audio Batch Size: 123
+LID Assignments: [1, 2, 9, 4, 5, 5, 1, 2, 0, 6, 4, 4, 1, 4]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-27 00:45:52.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  89%|████████▊ | 4019/4533 [10:57:57<1:32:31, 10.80s/it, gpt_loss=0.231, loss_mean=0.311][A
+Train step of epoch 0:  89%|████████▊ | 4020/4533 [10:57:57<1:26:55, 10.17s/it, gpt_loss=0.231, loss_mean=0.311][A2026-01-27 00:46:01.482 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  89%|████████▊ | 4020/4533 [10:58:07<1:26:55, 10.17s/it, gpt_loss=0.27, loss_mean=0.307] [A
+Train step of epoch 0:  89%|████████▊ | 4021/4533 [10:58:07<1:25:40, 10.04s/it, gpt_loss=0.27, loss_mean=0.307][A2026-01-27 00:46:10.987 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  89%|████████▊ | 4021/4533 [10:58:16<1:25:40, 10.04s/it, gpt_loss=0.226, loss_mean=0.299][A
+Train step of epoch 0:  89%|████████▊ | 4022/4533 [10:58:16<1:23:20,  9.79s/it, gpt_loss=0.226, loss_mean=0.299][A2026-01-27 00:46:20.183 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  89%|████████▊ | 4022/4533 [10:58:24<1:23:20,  9.79s/it, gpt_loss=0.282, loss_mean=0.297][A
+Train step of epoch 0:  89%|████████▊ | 4023/4533 [10:58:24<1:20:23,  9.46s/it, gpt_loss=0.282, loss_mean=0.297][A2026-01-27 00:46:29.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  89%|████████▊ | 4023/4533 [10:58:34<1:20:23,  9.46s/it, gpt_loss=0.264, loss_mean=0.294][A
+Train step of epoch 0:  89%|████████▉ | 4024/4533 [10:58:34<1:20:58,  9.55s/it, gpt_loss=0.264, loss_mean=0.294][A2026-01-27 00:46:38.587 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  89%|████████▉ | 4024/4533 [10:58:43<1:20:58,  9.55s/it, gpt_loss=0.27, loss_mean=0.291] [A
+Train step of epoch 0:  89%|████████▉ | 4025/4533 [10:58:43<1:19:00,  9.33s/it, gpt_loss=0.27, loss_mean=0.291][A2026-01-27 00:46:47.400 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  89%|████████▉ | 4025/4533 [10:58:52<1:19:00,  9.33s/it, gpt_loss=0.258, loss_mean=0.288][A
+Train step of epoch 0:  89%|████████▉ | 4026/4533 [10:58:52<1:16:55,  9.10s/it, gpt_loss=0.258, loss_mean=0.288][A2026-01-27 00:46:56.086 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  89%|████████▉ | 4026/4533 [10:59:01<1:16:55,  9.10s/it, gpt_loss=0.265, loss_mean=0.286][A
+Train step of epoch 0:  89%|████████▉ | 4027/4533 [10:59:01<1:17:34,  9.20s/it, gpt_loss=0.265, loss_mean=0.286][A2026-01-27 00:47:05.491 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  89%|████████▉ | 4027/4533 [10:59:10<1:17:34,  9.20s/it, gpt_loss=0.323, loss_mean=0.29] [A
+Train step of epoch 0:  89%|████████▉ | 4028/4533 [10:59:10<1:17:53,  9.25s/it, gpt_loss=0.323, loss_mean=0.29][A2026-01-27 00:47:14.896 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  89%|████████▉ | 4028/4533 [10:59:19<1:17:53,  9.25s/it, gpt_loss=0.247, loss_mean=0.285][A
+Train step of epoch 0:  89%|████████▉ | 4029/4533 [10:59:19<1:16:16,  9.08s/it, gpt_loss=0.247, loss_mean=0.285][A
+[LID Router Debug] Step: 4030
+Batch Size: 14
+Audio Batch Size: 136
+LID Assignments: [2, 3, 4, 4, 0, 4, 9, 6, 0, 5, 2, 4, 6, 6]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-27 00:47:23.583 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  89%|████████▉ | 4029/4533 [10:59:31<1:16:16,  9.08s/it, gpt_loss=0.341, loss_mean=0.291][A
+Train step of epoch 0:  89%|████████▉ | 4030/4533 [10:59:31<1:22:59,  9.90s/it, gpt_loss=0.341, loss_mean=0.291][A2026-01-27 00:47:35.166 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  89%|████████▉ | 4030/4533 [10:59:40<1:22:59,  9.90s/it, gpt_loss=0.271, loss_mean=0.289][A
+Train step of epoch 0:  89%|████████▉ | 4031/4533 [10:59:40<1:21:23,  9.73s/it, gpt_loss=0.271, loss_mean=0.289][A2026-01-27 00:47:44.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  89%|████████▉ | 4031/4533 [10:59:49<1:21:23,  9.73s/it, gpt_loss=0.291, loss_mean=0.289][A
+Train step of epoch 0:  89%|████████▉ | 4032/4533 [10:59:49<1:18:01,  9.34s/it, gpt_loss=0.291, loss_mean=0.289][A2026-01-27 00:47:53.188 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  89%|████████▉ | 4032/4533 [10:59:58<1:18:01,  9.34s/it, gpt_loss=0.341, loss_mean=0.294][A
+Train step of epoch 0:  89%|████████▉ | 4033/4533 [10:59:58<1:18:49,  9.46s/it, gpt_loss=0.341, loss_mean=0.294][A2026-01-27 00:48:02.592 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  89%|████████▉ | 4033/4533 [11:00:07<1:18:49,  9.46s/it, gpt_loss=0.305, loss_mean=0.295][A
+Train step of epoch 0:  89%|████████▉ | 4034/4533 [11:00:07<1:16:25,  9.19s/it, gpt_loss=0.305, loss_mean=0.295][A2026-01-27 00:48:11.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  89%|████████▉ | 4034/4533 [11:00:19<1:16:25,  9.19s/it, gpt_loss=0.404, loss_mean=0.306][A
+Train step of epoch 0:  89%|████████▉ | 4035/4533 [11:00:19<1:22:46,  9.97s/it, gpt_loss=0.404, loss_mean=0.306][A2026-01-27 00:48:23.369 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  89%|████████▉ | 4035/4533 [11:00:28<1:22:46,  9.97s/it, gpt_loss=0.282, loss_mean=0.304][A
+Train step of epoch 0:  89%|████████▉ | 4036/4533 [11:00:28<1:21:48,  9.88s/it, gpt_loss=0.282, loss_mean=0.304][A2026-01-27 00:48:32.970 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  89%|████████▉ | 4036/4533 [11:00:37<1:21:48,  9.88s/it, gpt_loss=0.359, loss_mean=0.309][A
+Train step of epoch 0:  89%|████████▉ | 4037/4533 [11:00:37<1:19:00,  9.56s/it, gpt_loss=0.359, loss_mean=0.309][A2026-01-27 00:48:41.566 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  89%|████████▉ | 4037/4533 [11:00:46<1:19:00,  9.56s/it, gpt_loss=0.236, loss_mean=0.302][A
+Train step of epoch 0:  89%|████████▉ | 4038/4533 [11:00:46<1:17:36,  9.41s/it, gpt_loss=0.236, loss_mean=0.302][A2026-01-27 00:48:50.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  89%|████████▉ | 4038/4533 [11:00:55<1:17:36,  9.41s/it, gpt_loss=0.323, loss_mean=0.304][A
+Train step of epoch 0:  89%|████████▉ | 4039/4533 [11:00:55<1:15:15,  9.14s/it, gpt_loss=0.323, loss_mean=0.304][A
+[LID Router Debug] Step: 4040
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [5, 9, 5, 4, 4, 3, 2, 3, 1, 1, 9, 4, 5, 4]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-27 00:48:59.360 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  89%|████████▉ | 4039/4533 [11:01:04<1:15:15,  9.14s/it, gpt_loss=0.282, loss_mean=0.302][A
+Train step of epoch 0:  89%|████████▉ | 4040/4533 [11:01:04<1:14:08,  9.02s/it, gpt_loss=0.282, loss_mean=0.302][A2026-01-27 00:49:08.268 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  89%|████████▉ | 4040/4533 [11:01:12<1:14:08,  9.02s/it, gpt_loss=0.279, loss_mean=0.3]  [A
+Train step of epoch 0:  89%|████████▉ | 4041/4533 [11:01:12<1:13:33,  8.97s/it, gpt_loss=0.279, loss_mean=0.3][A2026-01-27 00:49:16.862 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  89%|████████▉ | 4041/4533 [11:01:21<1:13:33,  8.97s/it, gpt_loss=0.298, loss_mean=0.299][A
+Train step of epoch 0:  89%|████████▉ | 4042/4533 [11:01:21<1:12:48,  8.90s/it, gpt_loss=0.298, loss_mean=0.299][A2026-01-27 00:49:25.469 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  89%|████████▉ | 4042/4533 [11:01:30<1:12:48,  8.90s/it, gpt_loss=0.322, loss_mean=0.302][A
+Train step of epoch 0:  89%|████████▉ | 4043/4533 [11:01:30<1:13:43,  9.03s/it, gpt_loss=0.322, loss_mean=0.302][A2026-01-27 00:49:35.080 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  89%|████████▉ | 4043/4533 [11:01:39<1:13:43,  9.03s/it, gpt_loss=0.25, loss_mean=0.297] [A
+Train step of epoch 0:  89%|████████▉ | 4044/4533 [11:01:39<1:12:50,  8.94s/it, gpt_loss=0.25, loss_mean=0.297][A2026-01-27 00:49:43.862 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  89%|████████▉ | 4044/4533 [11:01:48<1:12:50,  8.94s/it, gpt_loss=0.235, loss_mean=0.29][A
+Train step of epoch 0:  89%|████████▉ | 4045/4533 [11:01:48<1:12:48,  8.95s/it, gpt_loss=0.235, loss_mean=0.29][A2026-01-27 00:49:52.750 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  89%|████████▉ | 4045/4533 [11:01:57<1:12:48,  8.95s/it, gpt_loss=0.215, loss_mean=0.283][A
+Train step of epoch 0:  89%|████████▉ | 4046/4533 [11:01:57<1:12:10,  8.89s/it, gpt_loss=0.215, loss_mean=0.283][A2026-01-27 00:50:01.390 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  89%|████████▉ | 4046/4533 [11:02:06<1:12:10,  8.89s/it, gpt_loss=0.282, loss_mean=0.283][A
+Train step of epoch 0:  89%|████████▉ | 4047/4533 [11:02:06<1:11:55,  8.88s/it, gpt_loss=0.282, loss_mean=0.283][A2026-01-27 00:50:10.383 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  89%|████████▉ | 4047/4533 [11:02:16<1:11:55,  8.88s/it, gpt_loss=0.278, loss_mean=0.282][A
+Train step of epoch 0:  89%|████████▉ | 4048/4533 [11:02:16<1:13:55,  9.15s/it, gpt_loss=0.278, loss_mean=0.282][A2026-01-27 00:50:20.173 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  89%|████████▉ | 4048/4533 [11:02:24<1:13:55,  9.15s/it, gpt_loss=0.349, loss_mean=0.289][A
+Train step of epoch 0:  89%|████████▉ | 4049/4533 [11:02:24<1:12:46,  9.02s/it, gpt_loss=0.349, loss_mean=0.289][A
+[LID Router Debug] Step: 4050
+Batch Size: 14
+Audio Batch Size: 128
+LID Assignments: [0, 2, 4, 6, 0, 1, 2, 1, 2, 0, 2, 4, 1, 2]
+Active Experts in Batch: {0, 1, 2, 4, 6}
+2026-01-27 00:50:28.762 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  89%|████████▉ | 4049/4533 [11:02:33<1:12:46,  9.02s/it, gpt_loss=0.275, loss_mean=0.288][A
+Train step of epoch 0:  89%|████████▉ | 4050/4533 [11:02:33<1:12:42,  9.03s/it, gpt_loss=0.275, loss_mean=0.288][A2026-01-27 00:50:37.897 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  89%|████████▉ | 4050/4533 [11:02:42<1:12:42,  9.03s/it, gpt_loss=0.28, loss_mean=0.287] [A
+Train step of epoch 0:  89%|████████▉ | 4051/4533 [11:02:42<1:12:10,  8.98s/it, gpt_loss=0.28, loss_mean=0.287][A2026-01-27 00:50:46.658 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  89%|████████▉ | 4051/4533 [11:02:52<1:12:10,  8.98s/it, gpt_loss=0.343, loss_mean=0.292][A
+Train step of epoch 0:  89%|████████▉ | 4052/4533 [11:02:52<1:14:29,  9.29s/it, gpt_loss=0.343, loss_mean=0.292][A2026-01-27 00:50:56.853 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  89%|████████▉ | 4052/4533 [11:03:04<1:14:29,  9.29s/it, gpt_loss=0.469, loss_mean=0.31] [A
+Train step of epoch 0:  89%|████████▉ | 4053/4533 [11:03:04<1:21:08, 10.14s/it, gpt_loss=0.469, loss_mean=0.31][A2026-01-27 00:51:09.061 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  89%|████████▉ | 4053/4533 [11:03:14<1:21:08, 10.14s/it, gpt_loss=0.316, loss_mean=0.311][A
+Train step of epoch 0:  89%|████████▉ | 4054/4533 [11:03:14<1:18:41,  9.86s/it, gpt_loss=0.316, loss_mean=0.311][A2026-01-27 00:51:18.067 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  89%|████████▉ | 4054/4533 [11:03:23<1:18:41,  9.86s/it, gpt_loss=0.303, loss_mean=0.31] [A
+Train step of epoch 0:  89%|████████▉ | 4055/4533 [11:03:23<1:17:54,  9.78s/it, gpt_loss=0.303, loss_mean=0.31][A2026-01-27 00:51:27.689 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  89%|████████▉ | 4055/4533 [11:03:33<1:17:54,  9.78s/it, gpt_loss=0.252, loss_mean=0.304][A
+Train step of epoch 0:  89%|████████▉ | 4056/4533 [11:03:33<1:17:15,  9.72s/it, gpt_loss=0.252, loss_mean=0.304][A2026-01-27 00:51:37.279 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  89%|████████▉ | 4056/4533 [11:03:45<1:17:15,  9.72s/it, gpt_loss=0.369, loss_mean=0.311][A
+Train step of epoch 0:  89%|████████▉ | 4057/4533 [11:03:45<1:22:23, 10.39s/it, gpt_loss=0.369, loss_mean=0.311][A2026-01-27 00:51:48.777 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  89%|████████▉ | 4057/4533 [11:03:54<1:22:23, 10.39s/it, gpt_loss=0.283, loss_mean=0.308][A
+Train step of epoch 0:  90%|████████▉ | 4058/4533 [11:03:54<1:19:42, 10.07s/it, gpt_loss=0.283, loss_mean=0.308][A2026-01-27 00:51:58.079 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  90%|████████▉ | 4058/4533 [11:04:03<1:19:42, 10.07s/it, gpt_loss=0.281, loss_mean=0.305][A
+Train step of epoch 0:  90%|████████▉ | 4059/4533 [11:04:03<1:17:47,  9.85s/it, gpt_loss=0.281, loss_mean=0.305][A
+[LID Router Debug] Step: 4060
+Batch Size: 14
+Audio Batch Size: 141
+LID Assignments: [2, 5, 2, 9, 9, 6, 9, 4, 0, 9, 4, 1, 4, 4]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-27 00:52:07.680 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  90%|████████▉ | 4059/4533 [11:04:15<1:17:47,  9.85s/it, gpt_loss=0.368, loss_mean=0.312][A
+Train step of epoch 0:  90%|████████▉ | 4060/4533 [11:04:15<1:21:48, 10.38s/it, gpt_loss=0.368, loss_mean=0.312][A2026-01-27 00:52:19.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  90%|████████▉ | 4060/4533 [11:04:24<1:21:48, 10.38s/it, gpt_loss=0.241, loss_mean=0.304][A
+Train step of epoch 0:  90%|████████▉ | 4061/4533 [11:04:24<1:18:42, 10.01s/it, gpt_loss=0.241, loss_mean=0.304][A2026-01-27 00:52:28.370 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  90%|████████▉ | 4061/4533 [11:04:33<1:18:42, 10.01s/it, gpt_loss=0.283, loss_mean=0.302][A
+Train step of epoch 0:  90%|████████▉ | 4062/4533 [11:04:33<1:17:04,  9.82s/it, gpt_loss=0.283, loss_mean=0.302][A2026-01-27 00:52:38.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  90%|████████▉ | 4062/4533 [11:04:42<1:17:04,  9.82s/it, gpt_loss=0.256, loss_mean=0.298][A
+Train step of epoch 0:  90%|████████▉ | 4063/4533 [11:04:42<1:15:04,  9.58s/it, gpt_loss=0.256, loss_mean=0.298][A2026-01-27 00:52:47.002 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  90%|████████▉ | 4063/4533 [11:04:52<1:15:04,  9.58s/it, gpt_loss=0.288, loss_mean=0.297][A
+Train step of epoch 0:  90%|████████▉ | 4064/4533 [11:04:52<1:14:32,  9.54s/it, gpt_loss=0.288, loss_mean=0.297][A2026-01-27 00:52:56.563 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  90%|████████▉ | 4064/4533 [11:05:04<1:14:32,  9.54s/it, gpt_loss=0.405, loss_mean=0.308][A
+Train step of epoch 0:  90%|████████▉ | 4065/4533 [11:05:04<1:20:07, 10.27s/it, gpt_loss=0.405, loss_mean=0.308][A2026-01-27 00:53:08.565 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  90%|████████▉ | 4065/4533 [11:05:13<1:20:07, 10.27s/it, gpt_loss=0.275, loss_mean=0.304][A
+Train step of epoch 0:  90%|████████▉ | 4066/4533 [11:05:13<1:16:32,  9.83s/it, gpt_loss=0.275, loss_mean=0.304][A2026-01-27 00:53:17.098 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  90%|████████▉ | 4066/4533 [11:05:22<1:16:32,  9.83s/it, gpt_loss=0.298, loss_mean=0.304][A
+Train step of epoch 0:  90%|████████▉ | 4067/4533 [11:05:22<1:14:40,  9.61s/it, gpt_loss=0.298, loss_mean=0.304][A2026-01-27 00:53:26.053 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  90%|████████▉ | 4067/4533 [11:05:34<1:14:40,  9.61s/it, gpt_loss=0.368, loss_mean=0.31] [A
+Train step of epoch 0:  90%|████████▉ | 4068/4533 [11:05:34<1:19:30, 10.26s/it, gpt_loss=0.368, loss_mean=0.31][A2026-01-27 00:53:37.566 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  90%|████████▉ | 4068/4533 [11:05:43<1:19:30, 10.26s/it, gpt_loss=0.24, loss_mean=0.303][A
+Train step of epoch 0:  90%|████████▉ | 4069/4533 [11:05:43<1:16:49,  9.93s/it, gpt_loss=0.24, loss_mean=0.303][A
+[LID Router Debug] Step: 4070
+Batch Size: 14
+Audio Batch Size: 169
+LID Assignments: [3, 4, 1, 5, 6, 0, 5, 5, 9, 4, 4, 0, 3, 3]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6, 9}
+2026-01-27 00:53:47.376 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  90%|████████▉ | 4069/4533 [11:05:52<1:16:49,  9.93s/it, gpt_loss=0.24, loss_mean=0.297][A
+Train step of epoch 0:  90%|████████▉ | 4070/4533 [11:05:52<1:14:53,  9.71s/it, gpt_loss=0.24, loss_mean=0.297][A2026-01-27 00:53:56.489 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  90%|████████▉ | 4070/4533 [11:06:01<1:14:53,  9.71s/it, gpt_loss=0.216, loss_mean=0.289][A
+Train step of epoch 0:  90%|████████▉ | 4071/4533 [11:06:01<1:12:40,  9.44s/it, gpt_loss=0.216, loss_mean=0.289][A2026-01-27 00:54:05.269 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  90%|████████▉ | 4071/4533 [11:06:10<1:12:40,  9.44s/it, gpt_loss=0.242, loss_mean=0.284][A
+Train step of epoch 0:  90%|████████▉ | 4072/4533 [11:06:10<1:11:20,  9.29s/it, gpt_loss=0.242, loss_mean=0.284][A2026-01-27 00:54:14.365 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  90%|████████▉ | 4072/4533 [11:06:19<1:11:20,  9.29s/it, gpt_loss=0.337, loss_mean=0.289][A
+Train step of epoch 0:  90%|████████▉ | 4073/4533 [11:06:19<1:12:14,  9.42s/it, gpt_loss=0.337, loss_mean=0.289][A2026-01-27 00:54:23.971 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  90%|████████▉ | 4073/4533 [11:06:31<1:12:14,  9.42s/it, gpt_loss=0.415, loss_mean=0.302][A
+Train step of epoch 0:  90%|████████▉ | 4074/4533 [11:06:31<1:18:16, 10.23s/it, gpt_loss=0.415, loss_mean=0.302][A2026-01-27 00:54:35.971 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  90%|████████▉ | 4074/4533 [11:06:40<1:18:16, 10.23s/it, gpt_loss=0.277, loss_mean=0.299][A
+Train step of epoch 0:  90%|████████▉ | 4075/4533 [11:06:40<1:14:51,  9.81s/it, gpt_loss=0.277, loss_mean=0.299][A2026-01-27 00:54:44.977 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  90%|████████▉ | 4075/4533 [11:06:52<1:14:51,  9.81s/it, gpt_loss=0.285, loss_mean=0.298][A
+Train step of epoch 0:  90%|████████▉ | 4076/4533 [11:06:52<1:19:31, 10.44s/it, gpt_loss=0.285, loss_mean=0.298][A2026-01-27 00:54:56.894 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  90%|████████▉ | 4076/4533 [11:07:01<1:19:31, 10.44s/it, gpt_loss=0.27, loss_mean=0.295] [A
+Train step of epoch 0:  90%|████████▉ | 4077/4533 [11:07:01<1:15:52,  9.98s/it, gpt_loss=0.27, loss_mean=0.295][A2026-01-27 00:55:05.863 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  90%|████████▉ | 4077/4533 [11:07:11<1:15:52,  9.98s/it, gpt_loss=0.302, loss_mean=0.296][A
+Train step of epoch 0:  90%|████████▉ | 4078/4533 [11:07:11<1:14:50,  9.87s/it, gpt_loss=0.302, loss_mean=0.296][A2026-01-27 00:55:15.283 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  90%|████████▉ | 4078/4533 [11:07:20<1:14:50,  9.87s/it, gpt_loss=0.269, loss_mean=0.293][A
+Train step of epoch 0:  90%|████████▉ | 4079/4533 [11:07:20<1:13:51,  9.76s/it, gpt_loss=0.269, loss_mean=0.293][A
+[LID Router Debug] Step: 4080
+Batch Size: 14
+Audio Batch Size: 118
+LID Assignments: [2, 4, 5, 1, 9, 2, 4, 5, 6, 2, 5, 3, 1, 2]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-27 00:55:24.471 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  90%|████████▉ | 4079/4533 [11:07:29<1:13:51,  9.76s/it, gpt_loss=0.32, loss_mean=0.296] [A
+Train step of epoch 0:  90%|█████████ | 4080/4533 [11:07:29<1:11:20,  9.45s/it, gpt_loss=0.32, loss_mean=0.296][A2026-01-27 00:55:33.303 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  90%|█████████ | 4080/4533 [11:07:38<1:11:20,  9.45s/it, gpt_loss=0.287, loss_mean=0.295][A
+Train step of epoch 0:  90%|█████████ | 4081/4533 [11:07:38<1:10:56,  9.42s/it, gpt_loss=0.287, loss_mean=0.295][A2026-01-27 00:55:42.881 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  90%|█████████ | 4081/4533 [11:07:47<1:10:56,  9.42s/it, gpt_loss=0.335, loss_mean=0.299][A
+Train step of epoch 0:  90%|█████████ | 4082/4533 [11:07:47<1:09:18,  9.22s/it, gpt_loss=0.335, loss_mean=0.299][A2026-01-27 00:55:51.768 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  90%|█████████ | 4082/4533 [11:07:59<1:09:18,  9.22s/it, gpt_loss=0.418, loss_mean=0.311][A
+Train step of epoch 0:  90%|█████████ | 4083/4533 [11:07:59<1:15:47, 10.10s/it, gpt_loss=0.418, loss_mean=0.311][A2026-01-27 00:56:03.890 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  90%|█████████ | 4083/4533 [11:08:08<1:15:47, 10.10s/it, gpt_loss=0.288, loss_mean=0.309][A
+Train step of epoch 0:  90%|█████████ | 4084/4533 [11:08:08<1:12:59,  9.75s/it, gpt_loss=0.288, loss_mean=0.309][A2026-01-27 00:56:12.770 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  90%|█████████ | 4084/4533 [11:08:17<1:12:59,  9.75s/it, gpt_loss=0.224, loss_mean=0.3]  [A
+Train step of epoch 0:  90%|█████████ | 4085/4533 [11:08:17<1:10:47,  9.48s/it, gpt_loss=0.224, loss_mean=0.3][A2026-01-27 00:56:21.668 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  90%|█████████ | 4085/4533 [11:08:26<1:10:47,  9.48s/it, gpt_loss=0.231, loss_mean=0.293][A
+Train step of epoch 0:  90%|█████████ | 4086/4533 [11:08:26<1:08:57,  9.26s/it, gpt_loss=0.231, loss_mean=0.293][A2026-01-27 00:56:30.381 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  90%|█████████ | 4086/4533 [11:08:36<1:08:57,  9.26s/it, gpt_loss=0.281, loss_mean=0.292][A
+Train step of epoch 0:  90%|█████████ | 4087/4533 [11:08:36<1:10:26,  9.48s/it, gpt_loss=0.281, loss_mean=0.292][A2026-01-27 00:56:40.371 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  90%|█████████ | 4087/4533 [11:08:48<1:10:26,  9.48s/it, gpt_loss=0.408, loss_mean=0.304][A
+Train step of epoch 0:  90%|█████████ | 4088/4533 [11:08:48<1:15:30, 10.18s/it, gpt_loss=0.408, loss_mean=0.304][A2026-01-27 00:56:52.066 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  90%|█████████ | 4088/4533 [11:09:00<1:15:30, 10.18s/it, gpt_loss=0.344, loss_mean=0.308][A
+Train step of epoch 0:  90%|█████████ | 4089/4533 [11:09:00<1:19:29, 10.74s/it, gpt_loss=0.344, loss_mean=0.308][A
+[LID Router Debug] Step: 4090
+Batch Size: 14
+Audio Batch Size: 163
+LID Assignments: [2, 4, 9, 6, 1, 9, 2, 5, 9, 3, 9, 5, 0, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 00:57:04.179 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  90%|█████████ | 4089/4533 [11:09:08<1:19:29, 10.74s/it, gpt_loss=0.349, loss_mean=0.312][A
+Train step of epoch 0:  90%|█████████ | 4090/4533 [11:09:08<1:14:37, 10.11s/it, gpt_loss=0.349, loss_mean=0.312][A2026-01-27 00:57:12.359 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  90%|█████████ | 4090/4533 [11:09:17<1:14:37, 10.11s/it, gpt_loss=0.333, loss_mean=0.314][A
+Train step of epoch 0:  90%|█████████ | 4091/4533 [11:09:17<1:10:35,  9.58s/it, gpt_loss=0.333, loss_mean=0.314][A2026-01-27 00:57:21.286 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  90%|█████████ | 4091/4533 [11:09:26<1:10:35,  9.58s/it, gpt_loss=0.298, loss_mean=0.312][A
+Train step of epoch 0:  90%|█████████ | 4092/4533 [11:09:26<1:09:17,  9.43s/it, gpt_loss=0.298, loss_mean=0.312][A2026-01-27 00:57:30.280 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  90%|█████████ | 4092/4533 [11:09:35<1:09:17,  9.43s/it, gpt_loss=0.213, loss_mean=0.302][A
+Train step of epoch 0:  90%|█████████ | 4093/4533 [11:09:35<1:09:05,  9.42s/it, gpt_loss=0.213, loss_mean=0.302][A2026-01-27 00:57:39.653 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  90%|█████████ | 4093/4533 [11:09:47<1:09:05,  9.42s/it, gpt_loss=0.374, loss_mean=0.309][A
+Train step of epoch 0:  90%|█████████ | 4094/4533 [11:09:47<1:14:31, 10.19s/it, gpt_loss=0.374, loss_mean=0.309][A2026-01-27 00:57:51.755 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  90%|█████████ | 4094/4533 [11:09:56<1:14:31, 10.19s/it, gpt_loss=0.206, loss_mean=0.299][A
+Train step of epoch 0:  90%|█████████ | 4095/4533 [11:09:56<1:12:14,  9.90s/it, gpt_loss=0.206, loss_mean=0.299][A2026-01-27 00:58:00.683 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  90%|█████████ | 4095/4533 [11:10:05<1:12:14,  9.90s/it, gpt_loss=0.302, loss_mean=0.299][A
+Train step of epoch 0:  90%|█████████ | 4096/4533 [11:10:05<1:09:30,  9.54s/it, gpt_loss=0.302, loss_mean=0.299][A2026-01-27 00:58:09.568 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  90%|█████████ | 4096/4533 [11:10:14<1:09:30,  9.54s/it, gpt_loss=0.292, loss_mean=0.299][A
+Train step of epoch 0:  90%|█████████ | 4097/4533 [11:10:14<1:07:54,  9.35s/it, gpt_loss=0.292, loss_mean=0.299][A2026-01-27 00:58:18.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  90%|█████████ | 4097/4533 [11:10:23<1:07:54,  9.35s/it, gpt_loss=0.338, loss_mean=0.303][A
+Train step of epoch 0:  90%|█████████ | 4098/4533 [11:10:23<1:07:58,  9.37s/it, gpt_loss=0.338, loss_mean=0.303][A2026-01-27 00:58:27.799 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  90%|█████████ | 4098/4533 [11:10:33<1:07:58,  9.37s/it, gpt_loss=0.277, loss_mean=0.3]  [A
+Train step of epoch 0:  90%|█████████ | 4099/4533 [11:10:33<1:07:46,  9.37s/it, gpt_loss=0.277, loss_mean=0.3][A
+[LID Router Debug] Step: 4100
+Batch Size: 14
+Audio Batch Size: 144
+LID Assignments: [2, 9, 9, 2, 9, 5, 4, 5, 1, 2, 3, 9, 3, 1]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-27 00:58:37.291 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-27 00:58:46,262] [INFO] [logging.py:96:log_dist] [Rank 0] step=4100, skipped=0, lr=[1.6018346944813538e-05, 1.6018346944813538e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 00:58:46,263] [INFO] [timer.py:260:stop] epoch=0/micro_step=4100/global_step=4100, RunningAvgSamplesPerSec=5.7253743356634565, CurrSamplesPerSec=5.805911938977284, MemAllocated=14.75GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  90%|█████████ | 4099/4533 [11:10:42<1:07:46,  9.37s/it, gpt_loss=0.349, loss_mean=0.305][A
+Train step of epoch 0:  90%|█████████ | 4100/4533 [11:10:42<1:08:15,  9.46s/it, gpt_loss=0.349, loss_mean=0.305][A2026-01-27 00:58:46.964 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  90%|█████████ | 4100/4533 [11:10:54<1:08:15,  9.46s/it, gpt_loss=0.344, loss_mean=0.309][A
+Train step of epoch 0:  90%|█████████ | 4101/4533 [11:10:54<1:13:33, 10.22s/it, gpt_loss=0.344, loss_mean=0.309][A2026-01-27 00:58:58.304 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  90%|█████████ | 4101/4533 [11:11:03<1:13:33, 10.22s/it, gpt_loss=0.22, loss_mean=0.3]   [A
+Train step of epoch 0:  90%|█████████ | 4102/4533 [11:11:03<1:09:38,  9.69s/it, gpt_loss=0.22, loss_mean=0.3][A2026-01-27 00:59:07.465 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  90%|█████████ | 4102/4533 [11:11:12<1:09:38,  9.69s/it, gpt_loss=0.29, loss_mean=0.299][A
+Train step of epoch 0:  91%|█████████ | 4103/4533 [11:11:12<1:07:54,  9.48s/it, gpt_loss=0.29, loss_mean=0.299][A2026-01-27 00:59:16.190 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  91%|█████████ | 4103/4533 [11:11:21<1:07:54,  9.48s/it, gpt_loss=0.365, loss_mean=0.305][A
+Train step of epoch 0:  91%|█████████ | 4104/4533 [11:11:21<1:07:59,  9.51s/it, gpt_loss=0.365, loss_mean=0.305][A2026-01-27 00:59:25.975 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  91%|█████████ | 4104/4533 [11:11:31<1:07:59,  9.51s/it, gpt_loss=0.247, loss_mean=0.3]  [A
+Train step of epoch 0:  91%|█████████ | 4105/4533 [11:11:31<1:07:54,  9.52s/it, gpt_loss=0.247, loss_mean=0.3][A2026-01-27 00:59:35.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  91%|█████████ | 4105/4533 [11:11:40<1:07:54,  9.52s/it, gpt_loss=0.218, loss_mean=0.291][A
+Train step of epoch 0:  91%|█████████ | 4106/4533 [11:11:40<1:06:39,  9.37s/it, gpt_loss=0.218, loss_mean=0.291][A2026-01-27 00:59:44.384 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  91%|█████████ | 4106/4533 [11:11:49<1:06:39,  9.37s/it, gpt_loss=0.298, loss_mean=0.292][A
+Train step of epoch 0:  91%|█████████ | 4107/4533 [11:11:49<1:05:12,  9.18s/it, gpt_loss=0.298, loss_mean=0.292][A2026-01-27 00:59:53.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  91%|█████████ | 4107/4533 [11:11:58<1:05:12,  9.18s/it, gpt_loss=0.227, loss_mean=0.285][A
+Train step of epoch 0:  91%|█████████ | 4108/4533 [11:11:58<1:04:19,  9.08s/it, gpt_loss=0.227, loss_mean=0.285][A2026-01-27 01:00:02.078 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  91%|█████████ | 4108/4533 [11:12:06<1:04:19,  9.08s/it, gpt_loss=0.3, loss_mean=0.287]  [A
+Train step of epoch 0:  91%|█████████ | 4109/4533 [11:12:06<1:03:34,  9.00s/it, gpt_loss=0.3, loss_mean=0.287][A
+[LID Router Debug] Step: 4110
+Batch Size: 14
+Audio Batch Size: 171
+LID Assignments: [4, 5, 9, 2, 4, 2, 9, 3, 0, 2, 5, 3, 5, 9]
+Active Experts in Batch: {0, 2, 3, 4, 5, 9}
+2026-01-27 01:00:10.880 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  91%|█████████ | 4109/4533 [11:12:16<1:03:34,  9.00s/it, gpt_loss=0.276, loss_mean=0.286][A
+Train step of epoch 0:  91%|█████████ | 4110/4533 [11:12:16<1:04:33,  9.16s/it, gpt_loss=0.276, loss_mean=0.286][A2026-01-27 01:00:20.483 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  91%|█████████ | 4110/4533 [11:12:28<1:04:33,  9.16s/it, gpt_loss=0.375, loss_mean=0.295][A
+Train step of epoch 0:  91%|█████████ | 4111/4533 [11:12:28<1:10:05,  9.96s/it, gpt_loss=0.375, loss_mean=0.295][A2026-01-27 01:00:32.200 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  91%|█████████ | 4111/4533 [11:12:37<1:10:05,  9.96s/it, gpt_loss=0.266, loss_mean=0.292][A
+Train step of epoch 0:  91%|█████████ | 4112/4533 [11:12:37<1:09:01,  9.84s/it, gpt_loss=0.266, loss_mean=0.292][A2026-01-27 01:00:41.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  91%|█████████ | 4112/4533 [11:12:49<1:09:01,  9.84s/it, gpt_loss=0.38, loss_mean=0.301] [A
+Train step of epoch 0:  91%|█████████ | 4113/4533 [11:12:49<1:12:51, 10.41s/it, gpt_loss=0.38, loss_mean=0.301][A2026-01-27 01:00:53.452 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  91%|█████████ | 4113/4533 [11:13:00<1:12:51, 10.41s/it, gpt_loss=0.338, loss_mean=0.305][A
+Train step of epoch 0:  91%|█████████ | 4114/4533 [11:13:00<1:14:48, 10.71s/it, gpt_loss=0.338, loss_mean=0.305][A2026-01-27 01:01:04.986 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  91%|█████████ | 4114/4533 [11:13:10<1:14:48, 10.71s/it, gpt_loss=0.252, loss_mean=0.299][A
+Train step of epoch 0:  91%|█████████ | 4115/4533 [11:13:10<1:11:18, 10.23s/it, gpt_loss=0.252, loss_mean=0.299][A2026-01-27 01:01:13.877 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  91%|█████████ | 4115/4533 [11:13:18<1:11:18, 10.23s/it, gpt_loss=0.277, loss_mean=0.297][A
+Train step of epoch 0:  91%|█████████ | 4116/4533 [11:13:18<1:08:09,  9.81s/it, gpt_loss=0.277, loss_mean=0.297][A2026-01-27 01:01:22.657 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  91%|█████████ | 4116/4533 [11:13:28<1:08:09,  9.81s/it, gpt_loss=0.283, loss_mean=0.296][A
+Train step of epoch 0:  91%|█████████ | 4117/4533 [11:13:28<1:07:07,  9.68s/it, gpt_loss=0.283, loss_mean=0.296][A2026-01-27 01:01:32.289 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  91%|█████████ | 4117/4533 [11:13:37<1:07:07,  9.68s/it, gpt_loss=0.258, loss_mean=0.292][A
+Train step of epoch 0:  91%|█████████ | 4118/4533 [11:13:37<1:05:16,  9.44s/it, gpt_loss=0.258, loss_mean=0.292][A2026-01-27 01:01:41.272 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  91%|█████████ | 4118/4533 [11:13:45<1:05:16,  9.44s/it, gpt_loss=0.267, loss_mean=0.289][A
+Train step of epoch 0:  91%|█████████ | 4119/4533 [11:13:45<1:03:53,  9.26s/it, gpt_loss=0.267, loss_mean=0.289][A
+[LID Router Debug] Step: 4120
+Batch Size: 14
+Audio Batch Size: 171
+LID Assignments: [2, 2, 9, 0, 5, 3, 5, 3, 0, 4, 9, 2, 3, 3]
+Active Experts in Batch: {0, 2, 3, 4, 5, 9}
+2026-01-27 01:01:50.103 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  91%|█████████ | 4119/4533 [11:13:55<1:03:53,  9.26s/it, gpt_loss=0.341, loss_mean=0.294][A
+Train step of epoch 0:  91%|█████████ | 4120/4533 [11:13:55<1:04:40,  9.40s/it, gpt_loss=0.341, loss_mean=0.294][A2026-01-27 01:01:59.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  91%|█████████ | 4120/4533 [11:14:04<1:04:40,  9.40s/it, gpt_loss=0.282, loss_mean=0.293][A
+Train step of epoch 0:  91%|█████████ | 4121/4533 [11:14:04<1:02:47,  9.14s/it, gpt_loss=0.282, loss_mean=0.293][A2026-01-27 01:02:08.272 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  91%|█████████ | 4121/4533 [11:14:16<1:02:47,  9.14s/it, gpt_loss=0.447, loss_mean=0.309][A
+Train step of epoch 0:  91%|█████████ | 4122/4533 [11:14:16<1:08:38, 10.02s/it, gpt_loss=0.447, loss_mean=0.309][A2026-01-27 01:02:20.098 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  91%|█████████ | 4122/4533 [11:14:25<1:08:38, 10.02s/it, gpt_loss=0.313, loss_mean=0.309][A
+Train step of epoch 0:  91%|█████████ | 4123/4533 [11:14:25<1:07:11,  9.83s/it, gpt_loss=0.313, loss_mean=0.309][A2026-01-27 01:02:29.289 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  91%|█████████ | 4123/4533 [11:14:34<1:07:11,  9.83s/it, gpt_loss=0.266, loss_mean=0.305][A
+Train step of epoch 0:  91%|█████████ | 4124/4533 [11:14:34<1:04:01,  9.39s/it, gpt_loss=0.266, loss_mean=0.305][A2026-01-27 01:02:37.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  91%|█████████ | 4124/4533 [11:14:45<1:04:01,  9.39s/it, gpt_loss=0.385, loss_mean=0.313][A
+Train step of epoch 0:  91%|█████████ | 4125/4533 [11:14:45<1:08:31, 10.08s/it, gpt_loss=0.385, loss_mean=0.313][A2026-01-27 01:02:49.558 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  91%|█████████ | 4125/4533 [11:14:57<1:08:31, 10.08s/it, gpt_loss=0.377, loss_mean=0.319][A
+Train step of epoch 0:  91%|█████████ | 4126/4533 [11:14:57<1:11:49, 10.59s/it, gpt_loss=0.377, loss_mean=0.319][A2026-01-27 01:03:01.268 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  91%|█████████ | 4126/4533 [11:15:06<1:11:49, 10.59s/it, gpt_loss=0.219, loss_mean=0.309][A
+Train step of epoch 0:  91%|█████████ | 4127/4533 [11:15:06<1:07:51, 10.03s/it, gpt_loss=0.219, loss_mean=0.309][A2026-01-27 01:03:10.174 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  91%|█████████ | 4127/4533 [11:15:15<1:07:51, 10.03s/it, gpt_loss=0.336, loss_mean=0.312][A
+Train step of epoch 0:  91%|█████████ | 4128/4533 [11:15:15<1:05:43,  9.74s/it, gpt_loss=0.336, loss_mean=0.312][A2026-01-27 01:03:19.280 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  91%|█████████ | 4128/4533 [11:15:24<1:05:43,  9.74s/it, gpt_loss=0.37, loss_mean=0.318] [A
+Train step of epoch 0:  91%|█████████ | 4129/4533 [11:15:25<1:05:34,  9.74s/it, gpt_loss=0.37, loss_mean=0.318][A
+[LID Router Debug] Step: 4130
+Batch Size: 14
+Audio Batch Size: 160
+LID Assignments: [6, 3, 3, 0, 3, 9, 1, 6, 2, 0, 4, 6, 2, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-27 01:03:29.189 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  91%|█████████ | 4129/4533 [11:15:33<1:05:34,  9.74s/it, gpt_loss=0.293, loss_mean=0.315][A
+Train step of epoch 0:  91%|█████████ | 4130/4533 [11:15:33<1:03:33,  9.46s/it, gpt_loss=0.293, loss_mean=0.315][A2026-01-27 01:03:37.878 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  91%|█████████ | 4130/4533 [11:15:42<1:03:33,  9.46s/it, gpt_loss=0.267, loss_mean=0.31] [A
+Train step of epoch 0:  91%|█████████ | 4131/4533 [11:15:42<1:02:25,  9.32s/it, gpt_loss=0.267, loss_mean=0.31][A2026-01-27 01:03:46.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  91%|█████████ | 4131/4533 [11:15:52<1:02:25,  9.32s/it, gpt_loss=0.276, loss_mean=0.307][A
+Train step of epoch 0:  91%|█████████ | 4132/4533 [11:15:52<1:02:44,  9.39s/it, gpt_loss=0.276, loss_mean=0.307][A2026-01-27 01:03:56.470 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  91%|█████████ | 4132/4533 [11:16:01<1:02:44,  9.39s/it, gpt_loss=0.255, loss_mean=0.302][A
+Train step of epoch 0:  91%|█████████ | 4133/4533 [11:16:01<1:01:26,  9.22s/it, gpt_loss=0.255, loss_mean=0.302][A2026-01-27 01:04:05.189 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  91%|█████████ | 4133/4533 [11:16:10<1:01:26,  9.22s/it, gpt_loss=0.282, loss_mean=0.3]  [A
+Train step of epoch 0:  91%|█████████ | 4134/4533 [11:16:10<1:01:59,  9.32s/it, gpt_loss=0.282, loss_mean=0.3][A2026-01-27 01:04:14.596 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  91%|█████████ | 4134/4533 [11:16:20<1:01:59,  9.32s/it, gpt_loss=0.333, loss_mean=0.303][A
+Train step of epoch 0:  91%|█████████ | 4135/4533 [11:16:20<1:01:53,  9.33s/it, gpt_loss=0.333, loss_mean=0.303][A2026-01-27 01:04:24.269 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  91%|█████████ | 4135/4533 [11:16:29<1:01:53,  9.33s/it, gpt_loss=0.297, loss_mean=0.303][A
+Train step of epoch 0:  91%|█████████ | 4136/4533 [11:16:29<1:02:38,  9.47s/it, gpt_loss=0.297, loss_mean=0.303][A2026-01-27 01:04:34.074 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  91%|█████████ | 4136/4533 [11:16:39<1:02:38,  9.47s/it, gpt_loss=0.262, loss_mean=0.299][A
+Train step of epoch 0:  91%|█████████▏| 4137/4533 [11:16:39<1:01:54,  9.38s/it, gpt_loss=0.262, loss_mean=0.299][A2026-01-27 01:04:43.163 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  91%|█████████▏| 4137/4533 [11:16:51<1:01:54,  9.38s/it, gpt_loss=0.392, loss_mean=0.308][A
+Train step of epoch 0:  91%|█████████▏| 4138/4533 [11:16:51<1:06:59, 10.18s/it, gpt_loss=0.392, loss_mean=0.308][A2026-01-27 01:04:54.869 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  91%|█████████▏| 4138/4533 [11:17:02<1:06:59, 10.18s/it, gpt_loss=0.381, loss_mean=0.315][A
+Train step of epoch 0:  91%|█████████▏| 4139/4533 [11:17:02<1:09:46, 10.63s/it, gpt_loss=0.381, loss_mean=0.315][A
+[LID Router Debug] Step: 4140
+Batch Size: 14
+Audio Batch Size: 163
+LID Assignments: [4, 4, 2, 1, 2, 5, 5, 0, 1, 3, 2, 2, 5, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5}
+2026-01-27 01:05:06.685 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  91%|█████████▏| 4139/4533 [11:17:12<1:09:46, 10.63s/it, gpt_loss=0.275, loss_mean=0.311][A
+Train step of epoch 0:  91%|█████████▏| 4140/4533 [11:17:12<1:07:16, 10.27s/it, gpt_loss=0.275, loss_mean=0.311][A2026-01-27 01:05:16.281 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  91%|█████████▏| 4140/4533 [11:17:21<1:07:16, 10.27s/it, gpt_loss=0.345, loss_mean=0.315][A
+Train step of epoch 0:  91%|█████████▏| 4141/4533 [11:17:21<1:06:08, 10.12s/it, gpt_loss=0.345, loss_mean=0.315][A2026-01-27 01:05:25.975 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  91%|█████████▏| 4141/4533 [11:17:30<1:06:08, 10.12s/it, gpt_loss=0.299, loss_mean=0.313][A
+Train step of epoch 0:  91%|█████████▏| 4142/4533 [11:17:30<1:03:27,  9.74s/it, gpt_loss=0.299, loss_mean=0.313][A2026-01-27 01:05:35.056 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  91%|█████████▏| 4142/4533 [11:17:40<1:03:27,  9.74s/it, gpt_loss=0.286, loss_mean=0.31] [A
+Train step of epoch 0:  91%|█████████▏| 4143/4533 [11:17:40<1:02:27,  9.61s/it, gpt_loss=0.286, loss_mean=0.31][A2026-01-27 01:05:44.054 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  91%|█████████▏| 4143/4533 [11:17:49<1:02:27,  9.61s/it, gpt_loss=0.275, loss_mean=0.307][A
+Train step of epoch 0:  91%|█████████▏| 4144/4533 [11:17:49<1:02:19,  9.61s/it, gpt_loss=0.275, loss_mean=0.307][A2026-01-27 01:05:53.251 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  91%|█████████▏| 4144/4533 [11:17:58<1:02:19,  9.61s/it, gpt_loss=0.23, loss_mean=0.299] [A
+Train step of epoch 0:  91%|█████████▏| 4145/4533 [11:17:58<59:43,  9.24s/it, gpt_loss=0.23, loss_mean=0.299]  [A2026-01-27 01:06:02.007 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  91%|█████████▏| 4145/4533 [11:18:06<59:43,  9.24s/it, gpt_loss=0.243, loss_mean=0.294][A
+Train step of epoch 0:  91%|█████████▏| 4146/4533 [11:18:06<58:12,  9.03s/it, gpt_loss=0.243, loss_mean=0.294][A2026-01-27 01:06:10.463 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  91%|█████████▏| 4146/4533 [11:18:15<58:12,  9.03s/it, gpt_loss=0.269, loss_mean=0.291][A
+Train step of epoch 0:  91%|█████████▏| 4147/4533 [11:18:15<57:21,  8.92s/it, gpt_loss=0.269, loss_mean=0.291][A2026-01-27 01:06:19.457 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  91%|█████████▏| 4147/4533 [11:18:24<57:21,  8.92s/it, gpt_loss=0.32, loss_mean=0.294] [A
+Train step of epoch 0:  92%|█████████▏| 4148/4533 [11:18:24<56:59,  8.88s/it, gpt_loss=0.32, loss_mean=0.294][A2026-01-27 01:06:28.276 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  92%|█████████▏| 4148/4533 [11:18:36<56:59,  8.88s/it, gpt_loss=0.302, loss_mean=0.295][A
+Train step of epoch 0:  92%|█████████▏| 4149/4533 [11:18:36<1:02:41,  9.79s/it, gpt_loss=0.302, loss_mean=0.295][A
+[LID Router Debug] Step: 4150
+Batch Size: 14
+Audio Batch Size: 140
+LID Assignments: [2, 6, 3, 3, 4, 4, 1, 6, 1, 0, 0, 5, 9, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 01:06:40.180 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  92%|█████████▏| 4149/4533 [11:18:44<1:02:41,  9.79s/it, gpt_loss=0.26, loss_mean=0.291] [A
+Train step of epoch 0:  92%|█████████▏| 4150/4533 [11:18:44<1:00:39,  9.50s/it, gpt_loss=0.26, loss_mean=0.291][A2026-01-27 01:06:48.993 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  92%|█████████▏| 4150/4533 [11:18:54<1:00:39,  9.50s/it, gpt_loss=0.266, loss_mean=0.289][A
+Train step of epoch 0:  92%|█████████▏| 4151/4533 [11:18:54<1:00:07,  9.44s/it, gpt_loss=0.266, loss_mean=0.289][A2026-01-27 01:06:57.975 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  92%|█████████▏| 4151/4533 [11:19:02<1:00:07,  9.44s/it, gpt_loss=0.328, loss_mean=0.293][A
+Train step of epoch 0:  92%|█████████▏| 4152/4533 [11:19:02<58:00,  9.14s/it, gpt_loss=0.328, loss_mean=0.293]  [A2026-01-27 01:07:06.687 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  92%|█████████▏| 4152/4533 [11:19:14<58:00,  9.14s/it, gpt_loss=0.331, loss_mean=0.297][A
+Train step of epoch 0:  92%|█████████▏| 4153/4533 [11:19:14<1:02:39,  9.89s/it, gpt_loss=0.331, loss_mean=0.297][A2026-01-27 01:07:18.166 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  92%|█████████▏| 4153/4533 [11:19:25<1:02:39,  9.89s/it, gpt_loss=0.312, loss_mean=0.298][A
+Train step of epoch 0:  92%|█████████▏| 4154/4533 [11:19:25<1:05:52, 10.43s/it, gpt_loss=0.312, loss_mean=0.298][A2026-01-27 01:07:29.990 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  92%|█████████▏| 4154/4533 [11:19:34<1:05:52, 10.43s/it, gpt_loss=0.252, loss_mean=0.294][A
+Train step of epoch 0:  92%|█████████▏| 4155/4533 [11:19:34<1:02:26,  9.91s/it, gpt_loss=0.252, loss_mean=0.294][A2026-01-27 01:07:38.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  92%|█████████▏| 4155/4533 [11:19:43<1:02:26,  9.91s/it, gpt_loss=0.309, loss_mean=0.295][A
+Train step of epoch 0:  92%|█████████▏| 4156/4533 [11:19:43<1:00:44,  9.67s/it, gpt_loss=0.309, loss_mean=0.295][A2026-01-27 01:07:47.883 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  92%|█████████▏| 4156/4533 [11:19:52<1:00:44,  9.67s/it, gpt_loss=0.31, loss_mean=0.297] [A
+Train step of epoch 0:  92%|█████████▏| 4157/4533 [11:19:52<59:08,  9.44s/it, gpt_loss=0.31, loss_mean=0.297]  [A2026-01-27 01:07:56.665 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  92%|█████████▏| 4157/4533 [11:20:04<59:08,  9.44s/it, gpt_loss=0.384, loss_mean=0.305][A
+Train step of epoch 0:  92%|█████████▏| 4158/4533 [11:20:04<1:03:19, 10.13s/it, gpt_loss=0.384, loss_mean=0.305][A2026-01-27 01:08:08.280 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  92%|█████████▏| 4158/4533 [11:20:15<1:03:19, 10.13s/it, gpt_loss=0.307, loss_mean=0.305][A
+Train step of epoch 0:  92%|█████████▏| 4159/4533 [11:20:15<1:05:45, 10.55s/it, gpt_loss=0.307, loss_mean=0.305][A
+[LID Router Debug] Step: 4160
+Batch Size: 14
+Audio Batch Size: 155
+LID Assignments: [4, 6, 4, 2, 9, 6, 2, 9, 6, 2, 1, 2, 9, 3]
+Active Experts in Batch: {1, 2, 3, 4, 6, 9}
+2026-01-27 01:08:19.882 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  92%|█████████▏| 4159/4533 [11:20:25<1:05:45, 10.55s/it, gpt_loss=0.252, loss_mean=0.3]  [A
+Train step of epoch 0:  92%|█████████▏| 4160/4533 [11:20:25<1:03:29, 10.21s/it, gpt_loss=0.252, loss_mean=0.3][A2026-01-27 01:08:29.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  92%|█████████▏| 4160/4533 [11:20:34<1:03:29, 10.21s/it, gpt_loss=0.272, loss_mean=0.297][A
+Train step of epoch 0:  92%|█████████▏| 4161/4533 [11:20:34<1:01:25,  9.91s/it, gpt_loss=0.272, loss_mean=0.297][A2026-01-27 01:08:38.693 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  92%|█████████▏| 4161/4533 [11:20:44<1:01:25,  9.91s/it, gpt_loss=0.333, loss_mean=0.301][A
+Train step of epoch 0:  92%|█████████▏| 4162/4533 [11:20:44<1:00:50,  9.84s/it, gpt_loss=0.333, loss_mean=0.301][A2026-01-27 01:08:48.391 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  92%|█████████▏| 4162/4533 [11:20:53<1:00:50,  9.84s/it, gpt_loss=0.323, loss_mean=0.303][A
+Train step of epoch 0:  92%|█████████▏| 4163/4533 [11:20:53<1:00:03,  9.74s/it, gpt_loss=0.323, loss_mean=0.303][A2026-01-27 01:08:57.887 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  92%|█████████▏| 4163/4533 [11:21:03<1:00:03,  9.74s/it, gpt_loss=0.216, loss_mean=0.294][A
+Train step of epoch 0:  92%|█████████▏| 4164/4533 [11:21:03<59:28,  9.67s/it, gpt_loss=0.216, loss_mean=0.294]  [A2026-01-27 01:09:07.195 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  92%|█████████▏| 4164/4533 [11:21:14<59:28,  9.67s/it, gpt_loss=0.367, loss_mean=0.302][A
+Train step of epoch 0:  92%|█████████▏| 4165/4533 [11:21:14<1:02:51, 10.25s/it, gpt_loss=0.367, loss_mean=0.302][A2026-01-27 01:09:18.887 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  92%|█████████▏| 4165/4533 [11:21:26<1:02:51, 10.25s/it, gpt_loss=0.353, loss_mean=0.307][A
+Train step of epoch 0:  92%|█████████▏| 4166/4533 [11:21:26<1:05:45, 10.75s/it, gpt_loss=0.353, loss_mean=0.307][A2026-01-27 01:09:30.864 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  92%|█████████▏| 4166/4533 [11:21:36<1:05:45, 10.75s/it, gpt_loss=0.334, loss_mean=0.309][A
+Train step of epoch 0:  92%|█████████▏| 4167/4533 [11:21:36<1:03:19, 10.38s/it, gpt_loss=0.334, loss_mean=0.309][A2026-01-27 01:09:40.160 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  92%|█████████▏| 4167/4533 [11:21:45<1:03:19, 10.38s/it, gpt_loss=0.249, loss_mean=0.303][A
+Train step of epoch 0:  92%|█████████▏| 4168/4533 [11:21:45<1:00:38,  9.97s/it, gpt_loss=0.249, loss_mean=0.303][A2026-01-27 01:09:49.156 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  92%|█████████▏| 4168/4533 [11:21:57<1:00:38,  9.97s/it, gpt_loss=0.329, loss_mean=0.306][A
+Train step of epoch 0:  92%|█████████▏| 4169/4533 [11:21:57<1:03:51, 10.53s/it, gpt_loss=0.329, loss_mean=0.306][A
+[LID Router Debug] Step: 4170
+Batch Size: 14
+Audio Batch Size: 169
+LID Assignments: [4, 3, 2, 1, 3, 9, 3, 3, 5, 4, 2, 2, 1, 1]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-27 01:10:01.157 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  92%|█████████▏| 4169/4533 [11:22:06<1:03:51, 10.53s/it, gpt_loss=0.351, loss_mean=0.31] [A
+Train step of epoch 0:  92%|█████████▏| 4170/4533 [11:22:06<1:01:12, 10.12s/it, gpt_loss=0.351, loss_mean=0.31][A2026-01-27 01:10:09.995 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  92%|█████████▏| 4170/4533 [11:22:15<1:01:12, 10.12s/it, gpt_loss=0.242, loss_mean=0.304][A
+Train step of epoch 0:  92%|█████████▏| 4171/4533 [11:22:15<58:53,  9.76s/it, gpt_loss=0.242, loss_mean=0.304]  [A2026-01-27 01:10:18.900 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  92%|█████████▏| 4171/4533 [11:22:24<58:53,  9.76s/it, gpt_loss=0.344, loss_mean=0.308][A
+Train step of epoch 0:  92%|█████████▏| 4172/4533 [11:22:24<57:54,  9.62s/it, gpt_loss=0.344, loss_mean=0.308][A2026-01-27 01:10:28.664 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  92%|█████████▏| 4172/4533 [11:22:34<57:54,  9.62s/it, gpt_loss=0.303, loss_mean=0.307][A
+Train step of epoch 0:  92%|█████████▏| 4173/4533 [11:22:34<57:57,  9.66s/it, gpt_loss=0.303, loss_mean=0.307][A2026-01-27 01:10:38.470 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  92%|█████████▏| 4173/4533 [11:22:43<57:57,  9.66s/it, gpt_loss=0.361, loss_mean=0.313][A
+Train step of epoch 0:  92%|█████████▏| 4174/4533 [11:22:43<57:15,  9.57s/it, gpt_loss=0.361, loss_mean=0.313][A2026-01-27 01:10:47.381 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  92%|█████████▏| 4174/4533 [11:22:52<57:15,  9.57s/it, gpt_loss=0.276, loss_mean=0.309][A
+Train step of epoch 0:  92%|█████████▏| 4175/4533 [11:22:52<55:36,  9.32s/it, gpt_loss=0.276, loss_mean=0.309][A2026-01-27 01:10:56.559 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  92%|█████████▏| 4175/4533 [11:23:01<55:36,  9.32s/it, gpt_loss=0.292, loss_mean=0.307][A
+Train step of epoch 0:  92%|█████████▏| 4176/4533 [11:23:01<56:01,  9.42s/it, gpt_loss=0.292, loss_mean=0.307][A2026-01-27 01:11:06.163 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  92%|█████████▏| 4176/4533 [11:23:11<56:01,  9.42s/it, gpt_loss=0.316, loss_mean=0.308][A
+Train step of epoch 0:  92%|█████████▏| 4177/4533 [11:23:11<56:36,  9.54s/it, gpt_loss=0.316, loss_mean=0.308][A2026-01-27 01:11:15.763 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  92%|█████████▏| 4177/4533 [11:23:20<56:36,  9.54s/it, gpt_loss=0.255, loss_mean=0.303][A
+Train step of epoch 0:  92%|█████████▏| 4178/4533 [11:23:20<55:14,  9.34s/it, gpt_loss=0.255, loss_mean=0.303][A2026-01-27 01:11:24.770 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  92%|█████████▏| 4178/4533 [11:23:29<55:14,  9.34s/it, gpt_loss=0.227, loss_mean=0.295][A
+Train step of epoch 0:  92%|█████████▏| 4179/4533 [11:23:29<54:31,  9.24s/it, gpt_loss=0.227, loss_mean=0.295][A
+[LID Router Debug] Step: 4180
+Batch Size: 14
+Audio Batch Size: 120
+LID Assignments: [1, 9, 2, 9, 4, 9, 5, 1, 0, 3, 2, 5, 1, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 01:11:33.592 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  92%|█████████▏| 4179/4533 [11:23:38<54:31,  9.24s/it, gpt_loss=0.269, loss_mean=0.293][A
+Train step of epoch 0:  92%|█████████▏| 4180/4533 [11:23:38<54:25,  9.25s/it, gpt_loss=0.269, loss_mean=0.293][A2026-01-27 01:11:43.083 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  92%|█████████▏| 4180/4533 [11:23:48<54:25,  9.25s/it, gpt_loss=0.226, loss_mean=0.286][A
+Train step of epoch 0:  92%|█████████▏| 4181/4533 [11:23:48<54:01,  9.21s/it, gpt_loss=0.226, loss_mean=0.286][A2026-01-27 01:11:51.953 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  92%|█████████▏| 4181/4533 [11:23:57<54:01,  9.21s/it, gpt_loss=0.405, loss_mean=0.298][A
+Train step of epoch 0:  92%|█████████▏| 4182/4533 [11:23:57<54:30,  9.32s/it, gpt_loss=0.405, loss_mean=0.298][A2026-01-27 01:12:01.788 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  92%|█████████▏| 4182/4533 [11:24:07<54:30,  9.32s/it, gpt_loss=0.246, loss_mean=0.293][A
+Train step of epoch 0:  92%|█████████▏| 4183/4533 [11:24:07<55:30,  9.52s/it, gpt_loss=0.246, loss_mean=0.293][A2026-01-27 01:12:11.402 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  92%|█████████▏| 4183/4533 [11:24:16<55:30,  9.52s/it, gpt_loss=0.25, loss_mean=0.288] [A
+Train step of epoch 0:  92%|█████████▏| 4184/4533 [11:24:16<53:40,  9.23s/it, gpt_loss=0.25, loss_mean=0.288][A2026-01-27 01:12:20.101 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  92%|█████████▏| 4184/4533 [11:24:25<53:40,  9.23s/it, gpt_loss=0.307, loss_mean=0.29][A
+Train step of epoch 0:  92%|█████████▏| 4185/4533 [11:24:25<54:01,  9.31s/it, gpt_loss=0.307, loss_mean=0.29][A2026-01-27 01:12:29.667 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  92%|█████████▏| 4185/4533 [11:24:34<54:01,  9.31s/it, gpt_loss=0.268, loss_mean=0.288][A
+Train step of epoch 0:  92%|█████████▏| 4186/4533 [11:24:34<52:37,  9.10s/it, gpt_loss=0.268, loss_mean=0.288][A2026-01-27 01:12:38.087 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  92%|█████████▏| 4186/4533 [11:24:45<52:37,  9.10s/it, gpt_loss=0.384, loss_mean=0.298][A
+Train step of epoch 0:  92%|█████████▏| 4187/4533 [11:24:45<56:42,  9.83s/it, gpt_loss=0.384, loss_mean=0.298][A2026-01-27 01:12:49.985 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  92%|█████████▏| 4187/4533 [11:24:55<56:42,  9.83s/it, gpt_loss=0.311, loss_mean=0.299][A
+Train step of epoch 0:  92%|█████████▏| 4188/4533 [11:24:55<55:35,  9.67s/it, gpt_loss=0.311, loss_mean=0.299][A2026-01-27 01:12:59.166 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  92%|█████████▏| 4188/4533 [11:25:04<55:35,  9.67s/it, gpt_loss=0.292, loss_mean=0.298][A
+Train step of epoch 0:  92%|█████████▏| 4189/4533 [11:25:04<55:12,  9.63s/it, gpt_loss=0.292, loss_mean=0.298][A
+[LID Router Debug] Step: 4190
+Batch Size: 14
+Audio Batch Size: 154
+LID Assignments: [3, 5, 6, 2, 0, 1, 2, 0, 9, 9, 1, 0, 5, 9]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-27 01:13:08.586 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  92%|█████████▏| 4189/4533 [11:25:13<55:12,  9.63s/it, gpt_loss=0.348, loss_mean=0.303][A
+Train step of epoch 0:  92%|█████████▏| 4190/4533 [11:25:13<53:32,  9.37s/it, gpt_loss=0.348, loss_mean=0.303][A2026-01-27 01:13:17.465 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  92%|█████████▏| 4190/4533 [11:25:25<53:32,  9.37s/it, gpt_loss=0.321, loss_mean=0.305][A
+Train step of epoch 0:  92%|█████████▏| 4191/4533 [11:25:25<58:14, 10.22s/it, gpt_loss=0.321, loss_mean=0.305][A2026-01-27 01:13:29.768 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  92%|█████████▏| 4191/4533 [11:25:34<58:14, 10.22s/it, gpt_loss=0.365, loss_mean=0.311][A
+Train step of epoch 0:  92%|█████████▏| 4192/4533 [11:25:34<55:54,  9.84s/it, gpt_loss=0.365, loss_mean=0.311][A2026-01-27 01:13:38.571 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  92%|█████████▏| 4192/4533 [11:25:46<55:54,  9.84s/it, gpt_loss=0.312, loss_mean=0.311][A
+Train step of epoch 0:  92%|█████████▏| 4193/4533 [11:25:46<59:00, 10.41s/it, gpt_loss=0.312, loss_mean=0.311][A2026-01-27 01:13:50.397 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  92%|█████████▏| 4193/4533 [11:25:55<59:00, 10.41s/it, gpt_loss=0.266, loss_mean=0.307][A
+Train step of epoch 0:  93%|█████████▎| 4194/4533 [11:25:55<56:08,  9.94s/it, gpt_loss=0.266, loss_mean=0.307][A2026-01-27 01:13:58.983 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  93%|█████████▎| 4194/4533 [11:26:03<56:08,  9.94s/it, gpt_loss=0.293, loss_mean=0.305][A
+Train step of epoch 0:  93%|█████████▎| 4195/4533 [11:26:03<53:58,  9.58s/it, gpt_loss=0.293, loss_mean=0.305][A2026-01-27 01:14:07.967 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  93%|█████████▎| 4195/4533 [11:26:15<53:58,  9.58s/it, gpt_loss=0.375, loss_mean=0.312][A
+Train step of epoch 0:  93%|█████████▎| 4196/4533 [11:26:15<57:40, 10.27s/it, gpt_loss=0.375, loss_mean=0.312][A2026-01-27 01:14:19.785 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  93%|█████████▎| 4196/4533 [11:26:25<57:40, 10.27s/it, gpt_loss=0.291, loss_mean=0.31] [A
+Train step of epoch 0:  93%|█████████▎| 4197/4533 [11:26:25<55:56,  9.99s/it, gpt_loss=0.291, loss_mean=0.31][A2026-01-27 01:14:29.081 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  93%|█████████▎| 4197/4533 [11:26:33<55:56,  9.99s/it, gpt_loss=0.28, loss_mean=0.307][A
+Train step of epoch 0:  93%|█████████▎| 4198/4533 [11:26:33<53:31,  9.59s/it, gpt_loss=0.28, loss_mean=0.307][A2026-01-27 01:14:37.900 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  93%|█████████▎| 4198/4533 [11:26:42<53:31,  9.59s/it, gpt_loss=0.299, loss_mean=0.306][A
+Train step of epoch 0:  93%|█████████▎| 4199/4533 [11:26:42<52:31,  9.44s/it, gpt_loss=0.299, loss_mean=0.306][A
+[LID Router Debug] Step: 4200
+Batch Size: 14
+Audio Batch Size: 131
+LID Assignments: [9, 4, 0, 0, 0, 9, 0, 5, 2, 1, 3, 5, 2, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 01:14:46.794 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+[2026-01-27 01:14:58,076] [INFO] [logging.py:96:log_dist] [Rank 0] step=4200, skipped=0, lr=[1.5830367135651805e-05, 1.5830367135651805e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 01:14:58,077] [INFO] [timer.py:260:stop] epoch=0/micro_step=4200/global_step=4200, RunningAvgSamplesPerSec=5.726581955423722, CurrSamplesPerSec=4.737966061440267, MemAllocated=14.81GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  93%|█████████▎| 4199/4533 [11:26:54<52:31,  9.44s/it, gpt_loss=0.392, loss_mean=0.315][A
+Train step of epoch 0:  93%|█████████▎| 4200/4533 [11:26:54<56:22, 10.16s/it, gpt_loss=0.392, loss_mean=0.315][A2026-01-27 01:14:58.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  93%|█████████▎| 4200/4533 [11:27:06<56:22, 10.16s/it, gpt_loss=0.366, loss_mean=0.32] [A
+Train step of epoch 0:  93%|█████████▎| 4201/4533 [11:27:06<58:28, 10.57s/it, gpt_loss=0.366, loss_mean=0.32][A2026-01-27 01:15:10.304 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  93%|█████████▎| 4201/4533 [11:27:18<58:28, 10.57s/it, gpt_loss=0.369, loss_mean=0.325][A
+Train step of epoch 0:  93%|█████████▎| 4202/4533 [11:27:18<1:00:39, 11.00s/it, gpt_loss=0.369, loss_mean=0.325][A2026-01-27 01:15:22.282 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  93%|█████████▎| 4202/4533 [11:27:27<1:00:39, 11.00s/it, gpt_loss=0.262, loss_mean=0.319][A
+Train step of epoch 0:  93%|█████████▎| 4203/4533 [11:27:27<58:23, 10.62s/it, gpt_loss=0.262, loss_mean=0.319]  [A2026-01-27 01:15:32.159 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  93%|█████████▎| 4203/4533 [11:27:36<58:23, 10.62s/it, gpt_loss=0.378, loss_mean=0.325][A
+Train step of epoch 0:  93%|█████████▎| 4204/4533 [11:27:36<55:39, 10.15s/it, gpt_loss=0.378, loss_mean=0.325][A2026-01-27 01:15:41.095 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  93%|█████████▎| 4204/4533 [11:27:45<55:39, 10.15s/it, gpt_loss=0.261, loss_mean=0.318][A
+Train step of epoch 0:  93%|█████████▎| 4205/4533 [11:27:45<53:15,  9.74s/it, gpt_loss=0.261, loss_mean=0.318][A2026-01-27 01:15:49.701 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  93%|█████████▎| 4205/4533 [11:27:54<53:15,  9.74s/it, gpt_loss=0.26, loss_mean=0.312] [A
+Train step of epoch 0:  93%|█████████▎| 4206/4533 [11:27:54<51:29,  9.45s/it, gpt_loss=0.26, loss_mean=0.312][A2026-01-27 01:15:58.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  93%|█████████▎| 4206/4533 [11:28:04<51:29,  9.45s/it, gpt_loss=0.346, loss_mean=0.316][A
+Train step of epoch 0:  93%|█████████▎| 4207/4533 [11:28:04<51:40,  9.51s/it, gpt_loss=0.346, loss_mean=0.316][A2026-01-27 01:16:08.287 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  93%|█████████▎| 4207/4533 [11:28:13<51:40,  9.51s/it, gpt_loss=0.25, loss_mean=0.309] [A
+Train step of epoch 0:  93%|█████████▎| 4208/4533 [11:28:13<50:28,  9.32s/it, gpt_loss=0.25, loss_mean=0.309][A2026-01-27 01:16:16.870 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  93%|█████████▎| 4208/4533 [11:28:22<50:28,  9.32s/it, gpt_loss=0.226, loss_mean=0.301][A
+Train step of epoch 0:  93%|█████████▎| 4209/4533 [11:28:22<50:51,  9.42s/it, gpt_loss=0.226, loss_mean=0.301][A
+[LID Router Debug] Step: 4210
+Batch Size: 14
+Audio Batch Size: 138
+LID Assignments: [5, 9, 0, 3, 1, 2, 0, 1, 6, 4, 0, 3, 1, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 01:16:26.753 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  93%|█████████▎| 4209/4533 [11:28:32<50:51,  9.42s/it, gpt_loss=0.269, loss_mean=0.298][A
+Train step of epoch 0:  93%|█████████▎| 4210/4533 [11:28:32<50:51,  9.45s/it, gpt_loss=0.269, loss_mean=0.298][A2026-01-27 01:16:35.868 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  93%|█████████▎| 4210/4533 [11:28:40<50:51,  9.45s/it, gpt_loss=0.244, loss_mean=0.292][A
+Train step of epoch 0:  93%|█████████▎| 4211/4533 [11:28:40<49:27,  9.22s/it, gpt_loss=0.244, loss_mean=0.292][A2026-01-27 01:16:44.955 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  93%|█████████▎| 4211/4533 [11:28:49<49:27,  9.22s/it, gpt_loss=0.268, loss_mean=0.29] [A
+Train step of epoch 0:  93%|█████████▎| 4212/4533 [11:28:49<48:37,  9.09s/it, gpt_loss=0.268, loss_mean=0.29][A2026-01-27 01:16:53.866 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  93%|█████████▎| 4212/4533 [11:28:58<48:37,  9.09s/it, gpt_loss=0.308, loss_mean=0.292][A
+Train step of epoch 0:  93%|█████████▎| 4213/4533 [11:28:58<48:16,  9.05s/it, gpt_loss=0.308, loss_mean=0.292][A2026-01-27 01:17:02.589 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  93%|█████████▎| 4213/4533 [11:29:07<48:16,  9.05s/it, gpt_loss=0.243, loss_mean=0.287][A
+Train step of epoch 0:  93%|█████████▎| 4214/4533 [11:29:07<47:58,  9.02s/it, gpt_loss=0.243, loss_mean=0.287][A2026-01-27 01:17:11.678 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  93%|█████████▎| 4214/4533 [11:29:16<47:58,  9.02s/it, gpt_loss=0.238, loss_mean=0.282][A
+Train step of epoch 0:  93%|█████████▎| 4215/4533 [11:29:16<47:39,  8.99s/it, gpt_loss=0.238, loss_mean=0.282][A2026-01-27 01:17:20.668 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  93%|█████████▎| 4215/4533 [11:29:28<47:39,  8.99s/it, gpt_loss=0.352, loss_mean=0.289][A
+Train step of epoch 0:  93%|█████████▎| 4216/4533 [11:29:28<51:29,  9.74s/it, gpt_loss=0.352, loss_mean=0.289][A2026-01-27 01:17:31.975 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  93%|█████████▎| 4216/4533 [11:29:39<51:29,  9.74s/it, gpt_loss=0.345, loss_mean=0.295][A
+Train step of epoch 0:  93%|█████████▎| 4217/4533 [11:29:39<54:27, 10.34s/it, gpt_loss=0.345, loss_mean=0.295][A2026-01-27 01:17:43.686 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  93%|█████████▎| 4217/4533 [11:29:49<54:27, 10.34s/it, gpt_loss=0.296, loss_mean=0.295][A
+Train step of epoch 0:  93%|█████████▎| 4218/4533 [11:29:49<52:46, 10.05s/it, gpt_loss=0.296, loss_mean=0.295][A2026-01-27 01:17:53.360 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  93%|█████████▎| 4218/4533 [11:29:59<52:46, 10.05s/it, gpt_loss=0.302, loss_mean=0.295][A
+Train step of epoch 0:  93%|█████████▎| 4219/4533 [11:29:59<52:45, 10.08s/it, gpt_loss=0.302, loss_mean=0.295][A
+[LID Router Debug] Step: 4220
+Batch Size: 14
+Audio Batch Size: 141
+LID Assignments: [9, 9, 9, 2, 3, 4, 0, 1, 0, 0, 6, 0, 0, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-27 01:18:03.390 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  93%|█████████▎| 4219/4533 [11:30:09<52:45, 10.08s/it, gpt_loss=0.339, loss_mean=0.3]  [A
+Train step of epoch 0:  93%|█████████▎| 4220/4533 [11:30:09<52:06,  9.99s/it, gpt_loss=0.339, loss_mean=0.3][A2026-01-27 01:18:13.198 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  93%|█████████▎| 4220/4533 [11:30:20<52:06,  9.99s/it, gpt_loss=0.361, loss_mean=0.306][A
+Train step of epoch 0:  93%|█████████▎| 4221/4533 [11:30:20<54:52, 10.55s/it, gpt_loss=0.361, loss_mean=0.306][A2026-01-27 01:18:25.097 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  93%|█████████▎| 4221/4533 [11:30:30<54:52, 10.55s/it, gpt_loss=0.284, loss_mean=0.304][A
+Train step of epoch 0:  93%|█████████▎| 4222/4533 [11:30:30<53:20, 10.29s/it, gpt_loss=0.284, loss_mean=0.304][A2026-01-27 01:18:34.594 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  93%|█████████▎| 4222/4533 [11:30:39<53:20, 10.29s/it, gpt_loss=0.293, loss_mean=0.303][A
+Train step of epoch 0:  93%|█████████▎| 4223/4533 [11:30:39<50:46,  9.83s/it, gpt_loss=0.293, loss_mean=0.303][A2026-01-27 01:18:43.283 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  93%|█████████▎| 4223/4533 [11:30:47<50:46,  9.83s/it, gpt_loss=0.245, loss_mean=0.297][A
+Train step of epoch 0:  93%|█████████▎| 4224/4533 [11:30:47<48:37,  9.44s/it, gpt_loss=0.245, loss_mean=0.297][A2026-01-27 01:18:51.886 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  93%|█████████▎| 4224/4533 [11:31:00<48:37,  9.44s/it, gpt_loss=0.367, loss_mean=0.304][A
+Train step of epoch 0:  93%|█████████▎| 4225/4533 [11:31:00<52:38, 10.25s/it, gpt_loss=0.367, loss_mean=0.304][A2026-01-27 01:19:04.271 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  93%|█████████▎| 4225/4533 [11:31:11<52:38, 10.25s/it, gpt_loss=0.399, loss_mean=0.313][A
+Train step of epoch 0:  93%|█████████▎| 4226/4533 [11:31:11<55:01, 10.75s/it, gpt_loss=0.399, loss_mean=0.313][A2026-01-27 01:19:16.089 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  93%|█████████▎| 4226/4533 [11:31:20<55:01, 10.75s/it, gpt_loss=0.313, loss_mean=0.313][A
+Train step of epoch 0:  93%|█████████▎| 4227/4533 [11:31:20<51:58, 10.19s/it, gpt_loss=0.313, loss_mean=0.313][A2026-01-27 01:19:24.703 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  93%|█████████▎| 4227/4533 [11:31:32<51:58, 10.19s/it, gpt_loss=0.387, loss_mean=0.321][A
+Train step of epoch 0:  93%|█████████▎| 4228/4533 [11:31:32<53:45, 10.57s/it, gpt_loss=0.387, loss_mean=0.321][A2026-01-27 01:19:36.563 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  93%|█████████▎| 4228/4533 [11:31:42<53:45, 10.57s/it, gpt_loss=0.297, loss_mean=0.318][A
+Train step of epoch 0:  93%|█████████▎| 4229/4533 [11:31:42<52:32, 10.37s/it, gpt_loss=0.297, loss_mean=0.318][A
+[LID Router Debug] Step: 4230
+Batch Size: 14
+Audio Batch Size: 149
+LID Assignments: [0, 9, 3, 6, 3, 5, 4, 1, 5, 5, 1, 2, 1, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 01:19:46.185 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  93%|█████████▎| 4229/4533 [11:31:51<52:32, 10.37s/it, gpt_loss=0.227, loss_mean=0.309][A
+Train step of epoch 0:  93%|█████████▎| 4230/4533 [11:31:51<50:11,  9.94s/it, gpt_loss=0.227, loss_mean=0.309][A2026-01-27 01:19:55.269 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  93%|█████████▎| 4230/4533 [11:32:00<50:11,  9.94s/it, gpt_loss=0.283, loss_mean=0.307][A
+Train step of epoch 0:  93%|█████████▎| 4231/4533 [11:32:00<48:37,  9.66s/it, gpt_loss=0.283, loss_mean=0.307][A2026-01-27 01:20:04.359 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  93%|█████████▎| 4231/4533 [11:32:09<48:37,  9.66s/it, gpt_loss=0.299, loss_mean=0.306][A
+Train step of epoch 0:  93%|█████████▎| 4232/4533 [11:32:09<48:28,  9.66s/it, gpt_loss=0.299, loss_mean=0.306][A2026-01-27 01:20:13.896 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  93%|█████████▎| 4232/4533 [11:32:18<48:28,  9.66s/it, gpt_loss=0.233, loss_mean=0.299][A
+Train step of epoch 0:  93%|█████████▎| 4233/4533 [11:32:18<47:23,  9.48s/it, gpt_loss=0.233, loss_mean=0.299][A2026-01-27 01:20:23.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  93%|█████████▎| 4233/4533 [11:32:28<47:23,  9.48s/it, gpt_loss=0.28, loss_mean=0.297] [A
+Train step of epoch 0:  93%|█████████▎| 4234/4533 [11:32:28<47:29,  9.53s/it, gpt_loss=0.28, loss_mean=0.297][A2026-01-27 01:20:32.684 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  93%|█████████▎| 4234/4533 [11:32:37<47:29,  9.53s/it, gpt_loss=0.256, loss_mean=0.293][A
+Train step of epoch 0:  93%|█████████▎| 4235/4533 [11:32:37<46:27,  9.35s/it, gpt_loss=0.256, loss_mean=0.293][A2026-01-27 01:20:41.586 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  93%|█████████▎| 4235/4533 [11:32:49<46:27,  9.35s/it, gpt_loss=0.382, loss_mean=0.301][A
+Train step of epoch 0:  93%|█████████▎| 4236/4533 [11:32:49<50:01, 10.11s/it, gpt_loss=0.382, loss_mean=0.301][A2026-01-27 01:20:53.568 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  93%|█████████▎| 4236/4533 [11:32:59<50:01, 10.11s/it, gpt_loss=0.289, loss_mean=0.3]  [A
+Train step of epoch 0:  93%|█████████▎| 4237/4533 [11:32:59<49:23, 10.01s/it, gpt_loss=0.289, loss_mean=0.3][A2026-01-27 01:21:03.288 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  93%|█████████▎| 4237/4533 [11:33:08<49:23, 10.01s/it, gpt_loss=0.273, loss_mean=0.298][A
+Train step of epoch 0:  93%|█████████▎| 4238/4533 [11:33:08<47:38,  9.69s/it, gpt_loss=0.273, loss_mean=0.298][A2026-01-27 01:21:12.078 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  93%|█████████▎| 4238/4533 [11:33:17<47:38,  9.69s/it, gpt_loss=0.259, loss_mean=0.294][A
+Train step of epoch 0:  94%|█████████▎| 4239/4533 [11:33:17<47:15,  9.64s/it, gpt_loss=0.259, loss_mean=0.294][A
+[LID Router Debug] Step: 4240
+Batch Size: 14
+Audio Batch Size: 173
+LID Assignments: [5, 1, 3, 2, 9, 2, 9, 4, 2, 5, 2, 4, 9, 2]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-27 01:21:21.397 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  94%|█████████▎| 4239/4533 [11:33:29<47:15,  9.64s/it, gpt_loss=0.384, loss_mean=0.303][A
+Train step of epoch 0:  94%|█████████▎| 4240/4533 [11:33:29<50:02, 10.25s/it, gpt_loss=0.384, loss_mean=0.303][A2026-01-27 01:21:33.385 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  94%|█████████▎| 4240/4533 [11:33:38<50:02, 10.25s/it, gpt_loss=0.362, loss_mean=0.309][A
+Train step of epoch 0:  94%|█████████▎| 4241/4533 [11:33:38<48:32,  9.98s/it, gpt_loss=0.362, loss_mean=0.309][A2026-01-27 01:21:42.465 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  94%|█████████▎| 4241/4533 [11:33:50<48:32,  9.98s/it, gpt_loss=0.352, loss_mean=0.313][A
+Train step of epoch 0:  94%|█████████▎| 4242/4533 [11:33:50<50:54, 10.50s/it, gpt_loss=0.352, loss_mean=0.313][A2026-01-27 01:21:53.982 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  94%|█████████▎| 4242/4533 [11:34:01<50:54, 10.50s/it, gpt_loss=0.408, loss_mean=0.322][A
+Train step of epoch 0:  94%|█████████▎| 4243/4533 [11:34:01<51:58, 10.75s/it, gpt_loss=0.408, loss_mean=0.322][A2026-01-27 01:22:05.686 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  94%|█████████▎| 4243/4533 [11:34:10<51:58, 10.75s/it, gpt_loss=0.283, loss_mean=0.319][A
+Train step of epoch 0:  94%|█████████▎| 4244/4533 [11:34:10<49:20, 10.24s/it, gpt_loss=0.283, loss_mean=0.319][A2026-01-27 01:22:14.698 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  94%|█████████▎| 4244/4533 [11:34:19<49:20, 10.24s/it, gpt_loss=0.262, loss_mean=0.313][A
+Train step of epoch 0:  94%|█████████▎| 4245/4533 [11:34:19<46:59,  9.79s/it, gpt_loss=0.262, loss_mean=0.313][A2026-01-27 01:22:23.395 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  94%|█████████▎| 4245/4533 [11:34:28<46:59,  9.79s/it, gpt_loss=0.209, loss_mean=0.303][A
+Train step of epoch 0:  94%|█████████▎| 4246/4533 [11:34:28<45:38,  9.54s/it, gpt_loss=0.209, loss_mean=0.303][A2026-01-27 01:22:32.574 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  94%|█████████▎| 4246/4533 [11:34:40<45:38,  9.54s/it, gpt_loss=0.334, loss_mean=0.306][A
+Train step of epoch 0:  94%|█████████▎| 4247/4533 [11:34:40<49:04, 10.29s/it, gpt_loss=0.334, loss_mean=0.306][A2026-01-27 01:22:44.558 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  94%|█████████▎| 4247/4533 [11:34:49<49:04, 10.29s/it, gpt_loss=0.274, loss_mean=0.303][A
+Train step of epoch 0:  94%|█████████▎| 4248/4533 [11:34:49<46:49,  9.86s/it, gpt_loss=0.274, loss_mean=0.303][A2026-01-27 01:22:53.372 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  94%|█████████▎| 4248/4533 [11:34:58<46:49,  9.86s/it, gpt_loss=0.299, loss_mean=0.302][A
+Train step of epoch 0:  94%|█████████▎| 4249/4533 [11:34:58<45:02,  9.52s/it, gpt_loss=0.299, loss_mean=0.302][A
+[LID Router Debug] Step: 4250
+Batch Size: 14
+Audio Batch Size: 158
+LID Assignments: [0, 6, 4, 9, 3, 0, 3, 2, 5, 1, 2, 2, 6, 6]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 01:23:01.868 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  94%|█████████▎| 4249/4533 [11:35:09<45:02,  9.52s/it, gpt_loss=0.406, loss_mean=0.313][A
+Train step of epoch 0:  94%|█████████▍| 4250/4533 [11:35:09<48:18, 10.24s/it, gpt_loss=0.406, loss_mean=0.313][A2026-01-27 01:23:14.153 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  94%|█████████▍| 4250/4533 [11:35:18<48:18, 10.24s/it, gpt_loss=0.306, loss_mean=0.312][A
+Train step of epoch 0:  94%|█████████▍| 4251/4533 [11:35:18<46:25,  9.88s/it, gpt_loss=0.306, loss_mean=0.312][A2026-01-27 01:23:23.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  94%|█████████▍| 4251/4533 [11:35:27<46:25,  9.88s/it, gpt_loss=0.281, loss_mean=0.309][A
+Train step of epoch 0:  94%|█████████▍| 4252/4533 [11:35:27<45:02,  9.62s/it, gpt_loss=0.281, loss_mean=0.309][A2026-01-27 01:23:32.072 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  94%|█████████▍| 4252/4533 [11:35:39<45:02,  9.62s/it, gpt_loss=0.312, loss_mean=0.309][A
+Train step of epoch 0:  94%|█████████▍| 4253/4533 [11:35:39<48:05, 10.30s/it, gpt_loss=0.312, loss_mean=0.309][A2026-01-27 01:23:44.085 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  94%|█████████▍| 4253/4533 [11:35:49<48:05, 10.30s/it, gpt_loss=0.344, loss_mean=0.313][A
+Train step of epoch 0:  94%|█████████▍| 4254/4533 [11:35:49<46:20,  9.97s/it, gpt_loss=0.344, loss_mean=0.313][A2026-01-27 01:23:53.264 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  94%|█████████▍| 4254/4533 [11:35:58<46:20,  9.97s/it, gpt_loss=0.252, loss_mean=0.307][A
+Train step of epoch 0:  94%|█████████▍| 4255/4533 [11:35:58<46:02,  9.94s/it, gpt_loss=0.252, loss_mean=0.307][A2026-01-27 01:24:02.595 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  94%|█████████▍| 4255/4533 [11:36:08<46:02,  9.94s/it, gpt_loss=0.289, loss_mean=0.305][A
+Train step of epoch 0:  94%|█████████▍| 4256/4533 [11:36:08<44:58,  9.74s/it, gpt_loss=0.289, loss_mean=0.305][A2026-01-27 01:24:11.882 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  94%|█████████▍| 4256/4533 [11:36:20<44:58,  9.74s/it, gpt_loss=0.311, loss_mean=0.305][A
+Train step of epoch 0:  94%|█████████▍| 4257/4533 [11:36:20<47:42, 10.37s/it, gpt_loss=0.311, loss_mean=0.305][A2026-01-27 01:24:23.889 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  94%|█████████▍| 4257/4533 [11:36:29<47:42, 10.37s/it, gpt_loss=0.306, loss_mean=0.306][A
+Train step of epoch 0:  94%|█████████▍| 4258/4533 [11:36:29<46:36, 10.17s/it, gpt_loss=0.306, loss_mean=0.306][A2026-01-27 01:24:33.795 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  94%|█████████▍| 4258/4533 [11:36:41<46:36, 10.17s/it, gpt_loss=0.481, loss_mean=0.323][A
+Train step of epoch 0:  94%|█████████▍| 4259/4533 [11:36:41<48:34, 10.64s/it, gpt_loss=0.481, loss_mean=0.323][A
+[LID Router Debug] Step: 4260
+Batch Size: 14
+Audio Batch Size: 192
+LID Assignments: [3, 2, 3, 9, 3, 0, 3, 9, 1, 3, 4, 6, 1, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-27 01:24:45.276 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  94%|█████████▍| 4259/4533 [11:36:53<48:34, 10.64s/it, gpt_loss=0.327, loss_mean=0.323][A
+Train step of epoch 0:  94%|█████████▍| 4260/4533 [11:36:53<49:41, 10.92s/it, gpt_loss=0.327, loss_mean=0.323][A2026-01-27 01:24:57.188 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  94%|█████████▍| 4260/4533 [11:37:05<49:41, 10.92s/it, gpt_loss=0.352, loss_mean=0.326][A
+Train step of epoch 0:  94%|█████████▍| 4261/4533 [11:37:05<50:57, 11.24s/it, gpt_loss=0.352, loss_mean=0.326][A2026-01-27 01:25:09.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  94%|█████████▍| 4261/4533 [11:37:14<50:57, 11.24s/it, gpt_loss=0.349, loss_mean=0.329][A
+Train step of epoch 0:  94%|█████████▍| 4262/4533 [11:37:14<48:48, 10.81s/it, gpt_loss=0.349, loss_mean=0.329][A2026-01-27 01:25:18.777 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  94%|█████████▍| 4262/4533 [11:37:26<48:48, 10.81s/it, gpt_loss=0.344, loss_mean=0.33] [A
+Train step of epoch 0:  94%|█████████▍| 4263/4533 [11:37:26<49:57, 11.10s/it, gpt_loss=0.344, loss_mean=0.33][A2026-01-27 01:25:30.774 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  94%|█████████▍| 4263/4533 [11:37:35<49:57, 11.10s/it, gpt_loss=0.242, loss_mean=0.321][A
+Train step of epoch 0:  94%|█████████▍| 4264/4533 [11:37:35<47:02, 10.49s/it, gpt_loss=0.242, loss_mean=0.321][A2026-01-27 01:25:39.602 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  94%|█████████▍| 4264/4533 [11:37:44<47:02, 10.49s/it, gpt_loss=0.25, loss_mean=0.314] [A
+Train step of epoch 0:  94%|█████████▍| 4265/4533 [11:37:44<44:19,  9.92s/it, gpt_loss=0.25, loss_mean=0.314][A2026-01-27 01:25:48.483 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  94%|█████████▍| 4265/4533 [11:37:53<44:19,  9.92s/it, gpt_loss=0.254, loss_mean=0.308][A
+Train step of epoch 0:  94%|█████████▍| 4266/4533 [11:37:53<42:44,  9.61s/it, gpt_loss=0.254, loss_mean=0.308][A2026-01-27 01:25:57.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  94%|█████████▍| 4266/4533 [11:38:01<42:44,  9.61s/it, gpt_loss=0.289, loss_mean=0.306][A
+Train step of epoch 0:  94%|█████████▍| 4267/4533 [11:38:01<41:18,  9.32s/it, gpt_loss=0.289, loss_mean=0.306][A2026-01-27 01:26:05.772 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  94%|█████████▍| 4267/4533 [11:38:13<41:18,  9.32s/it, gpt_loss=0.33, loss_mean=0.309] [A
+Train step of epoch 0:  94%|█████████▍| 4268/4533 [11:38:13<44:15, 10.02s/it, gpt_loss=0.33, loss_mean=0.309][A2026-01-27 01:26:17.465 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  94%|█████████▍| 4268/4533 [11:38:25<44:15, 10.02s/it, gpt_loss=0.406, loss_mean=0.318][A
+Train step of epoch 0:  94%|█████████▍| 4269/4533 [11:38:25<46:21, 10.54s/it, gpt_loss=0.406, loss_mean=0.318][A
+[LID Router Debug] Step: 4270
+Batch Size: 14
+Audio Batch Size: 164
+LID Assignments: [5, 3, 3, 5, 9, 5, 5, 3, 1, 0, 6, 9, 2, 5]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-27 01:26:29.283 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  94%|█████████▍| 4269/4533 [11:38:37<46:21, 10.54s/it, gpt_loss=0.382, loss_mean=0.325][A
+Train step of epoch 0:  94%|█████████▍| 4270/4533 [11:38:37<47:49, 10.91s/it, gpt_loss=0.382, loss_mean=0.325][A2026-01-27 01:26:41.182 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  94%|█████████▍| 4270/4533 [11:38:46<47:49, 10.91s/it, gpt_loss=0.332, loss_mean=0.325][A
+Train step of epoch 0:  94%|█████████▍| 4271/4533 [11:38:46<46:12, 10.58s/it, gpt_loss=0.332, loss_mean=0.325][A2026-01-27 01:26:50.659 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  94%|█████████▍| 4271/4533 [11:38:56<46:12, 10.58s/it, gpt_loss=0.312, loss_mean=0.324][A
+Train step of epoch 0:  94%|█████████▍| 4272/4533 [11:38:56<44:38, 10.26s/it, gpt_loss=0.312, loss_mean=0.324][A2026-01-27 01:27:00.481 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  94%|█████████▍| 4272/4533 [11:39:08<44:38, 10.26s/it, gpt_loss=0.435, loss_mean=0.335][A
+Train step of epoch 0:  94%|█████████▍| 4273/4533 [11:39:08<47:00, 10.85s/it, gpt_loss=0.435, loss_mean=0.335][A2026-01-27 01:27:12.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  94%|█████████▍| 4273/4533 [11:39:20<47:00, 10.85s/it, gpt_loss=0.331, loss_mean=0.335][A
+Train step of epoch 0:  94%|█████████▍| 4274/4533 [11:39:20<48:47, 11.30s/it, gpt_loss=0.331, loss_mean=0.335][A2026-01-27 01:27:24.975 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  94%|█████████▍| 4274/4533 [11:39:30<48:47, 11.30s/it, gpt_loss=0.296, loss_mean=0.331][A
+Train step of epoch 0:  94%|█████████▍| 4275/4533 [11:39:30<46:37, 10.84s/it, gpt_loss=0.296, loss_mean=0.331][A2026-01-27 01:27:34.167 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  94%|█████████▍| 4275/4533 [11:39:40<46:37, 10.84s/it, gpt_loss=0.334, loss_mean=0.331][A
+Train step of epoch 0:  94%|█████████▍| 4276/4533 [11:39:40<44:52, 10.48s/it, gpt_loss=0.334, loss_mean=0.331][A2026-01-27 01:27:44.478 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  94%|█████████▍| 4276/4533 [11:39:49<44:52, 10.48s/it, gpt_loss=0.277, loss_mean=0.326][A
+Train step of epoch 0:  94%|█████████▍| 4277/4533 [11:39:49<42:52, 10.05s/it, gpt_loss=0.277, loss_mean=0.326][A2026-01-27 01:27:53.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  94%|█████████▍| 4277/4533 [11:39:58<42:52, 10.05s/it, gpt_loss=0.284, loss_mean=0.322][A
+Train step of epoch 0:  94%|█████████▍| 4278/4533 [11:39:58<41:35,  9.79s/it, gpt_loss=0.284, loss_mean=0.322][A2026-01-27 01:28:02.472 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  94%|█████████▍| 4278/4533 [11:40:07<41:35,  9.79s/it, gpt_loss=0.261, loss_mean=0.316][A
+Train step of epoch 0:  94%|█████████▍| 4279/4533 [11:40:07<39:52,  9.42s/it, gpt_loss=0.261, loss_mean=0.316][A
+[LID Router Debug] Step: 4280
+Batch Size: 14
+Audio Batch Size: 186
+LID Assignments: [3, 4, 4, 4, 0, 1, 9, 3, 3, 1, 6, 2, 3, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-27 01:28:11.181 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  94%|█████████▍| 4279/4533 [11:40:16<39:52,  9.42s/it, gpt_loss=0.284, loss_mean=0.312][A
+Train step of epoch 0:  94%|█████████▍| 4280/4533 [11:40:16<40:02,  9.50s/it, gpt_loss=0.284, loss_mean=0.312][A2026-01-27 01:28:20.865 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  94%|█████████▍| 4280/4533 [11:40:25<40:02,  9.50s/it, gpt_loss=0.285, loss_mean=0.31] [A
+Train step of epoch 0:  94%|█████████▍| 4281/4533 [11:40:25<38:56,  9.27s/it, gpt_loss=0.285, loss_mean=0.31][A2026-01-27 01:28:29.079 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  94%|█████████▍| 4281/4533 [11:40:33<38:56,  9.27s/it, gpt_loss=0.323, loss_mean=0.311][A
+Train step of epoch 0:  94%|█████████▍| 4282/4533 [11:40:33<37:32,  8.97s/it, gpt_loss=0.323, loss_mean=0.311][A2026-01-27 01:28:37.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  94%|█████████▍| 4282/4533 [11:40:42<37:32,  8.97s/it, gpt_loss=0.246, loss_mean=0.305][A
+Train step of epoch 0:  94%|█████████▍| 4283/4533 [11:40:42<37:15,  8.94s/it, gpt_loss=0.246, loss_mean=0.305][A2026-01-27 01:28:46.775 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  94%|█████████▍| 4283/4533 [11:40:54<37:15,  8.94s/it, gpt_loss=0.39, loss_mean=0.313] [A
+Train step of epoch 0:  95%|█████████▍| 4284/4533 [11:40:54<41:06,  9.90s/it, gpt_loss=0.39, loss_mean=0.313][A2026-01-27 01:28:58.686 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  95%|█████████▍| 4284/4533 [11:41:04<41:06,  9.90s/it, gpt_loss=0.383, loss_mean=0.32][A
+Train step of epoch 0:  95%|█████████▍| 4285/4533 [11:41:04<40:22,  9.77s/it, gpt_loss=0.383, loss_mean=0.32][A2026-01-27 01:29:08.073 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  95%|█████████▍| 4285/4533 [11:41:13<40:22,  9.77s/it, gpt_loss=0.301, loss_mean=0.318][A
+Train step of epoch 0:  95%|█████████▍| 4286/4533 [11:41:13<38:56,  9.46s/it, gpt_loss=0.301, loss_mean=0.318][A2026-01-27 01:29:16.973 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  95%|█████████▍| 4286/4533 [11:41:22<38:56,  9.46s/it, gpt_loss=0.32, loss_mean=0.318] [A
+Train step of epoch 0:  95%|█████████▍| 4287/4533 [11:41:22<38:47,  9.46s/it, gpt_loss=0.32, loss_mean=0.318][A2026-01-27 01:29:26.565 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  95%|█████████▍| 4287/4533 [11:41:31<38:47,  9.46s/it, gpt_loss=0.294, loss_mean=0.316][A
+Train step of epoch 0:  95%|█████████▍| 4288/4533 [11:41:31<37:47,  9.26s/it, gpt_loss=0.294, loss_mean=0.316][A2026-01-27 01:29:35.283 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  95%|█████████▍| 4288/4533 [11:41:40<37:47,  9.26s/it, gpt_loss=0.288, loss_mean=0.313][A
+Train step of epoch 0:  95%|█████████▍| 4289/4533 [11:41:40<37:21,  9.19s/it, gpt_loss=0.288, loss_mean=0.313][A
+[LID Router Debug] Step: 4290
+Batch Size: 14
+Audio Batch Size: 178
+LID Assignments: [0, 3, 3, 6, 0, 9, 0, 2, 5, 1, 5, 5, 3, 3]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-27 01:29:44.399 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  95%|█████████▍| 4289/4533 [11:41:49<37:21,  9.19s/it, gpt_loss=0.317, loss_mean=0.314][A
+Train step of epoch 0:  95%|█████████▍| 4290/4533 [11:41:49<36:50,  9.10s/it, gpt_loss=0.317, loss_mean=0.314][A2026-01-27 01:29:53.258 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  95%|█████████▍| 4290/4533 [11:42:01<36:50,  9.10s/it, gpt_loss=0.375, loss_mean=0.32] [A
+Train step of epoch 0:  95%|█████████▍| 4291/4533 [11:42:01<40:34, 10.06s/it, gpt_loss=0.375, loss_mean=0.32][A2026-01-27 01:30:05.498 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  95%|█████████▍| 4291/4533 [11:42:10<40:34, 10.06s/it, gpt_loss=0.25, loss_mean=0.313][A
+Train step of epoch 0:  95%|█████████▍| 4292/4533 [11:42:10<39:08,  9.74s/it, gpt_loss=0.25, loss_mean=0.313][A2026-01-27 01:30:14.601 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  95%|█████████▍| 4292/4533 [11:42:19<39:08,  9.74s/it, gpt_loss=0.292, loss_mean=0.311][A
+Train step of epoch 0:  95%|█████████▍| 4293/4533 [11:42:19<38:00,  9.50s/it, gpt_loss=0.292, loss_mean=0.311][A2026-01-27 01:30:23.492 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  95%|█████████▍| 4293/4533 [11:42:28<38:00,  9.50s/it, gpt_loss=0.356, loss_mean=0.315][A
+Train step of epoch 0:  95%|█████████▍| 4294/4533 [11:42:28<37:09,  9.33s/it, gpt_loss=0.356, loss_mean=0.315][A2026-01-27 01:30:32.556 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  95%|█████████▍| 4294/4533 [11:42:37<37:09,  9.33s/it, gpt_loss=0.28, loss_mean=0.312] [A
+Train step of epoch 0:  95%|█████████▍| 4295/4533 [11:42:37<36:39,  9.24s/it, gpt_loss=0.28, loss_mean=0.312][A2026-01-27 01:30:41.563 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  95%|█████████▍| 4295/4533 [11:42:46<36:39,  9.24s/it, gpt_loss=0.271, loss_mean=0.308][A
+Train step of epoch 0:  95%|█████████▍| 4296/4533 [11:42:46<36:09,  9.15s/it, gpt_loss=0.271, loss_mean=0.308][A2026-01-27 01:30:50.497 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  95%|█████████▍| 4296/4533 [11:42:58<36:09,  9.15s/it, gpt_loss=0.374, loss_mean=0.314][A
+Train step of epoch 0:  95%|█████████▍| 4297/4533 [11:42:58<39:04,  9.93s/it, gpt_loss=0.374, loss_mean=0.314][A2026-01-27 01:31:02.264 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  95%|█████████▍| 4297/4533 [11:43:07<39:04,  9.93s/it, gpt_loss=0.251, loss_mean=0.308][A
+Train step of epoch 0:  95%|█████████▍| 4298/4533 [11:43:07<38:14,  9.76s/it, gpt_loss=0.251, loss_mean=0.308][A2026-01-27 01:31:11.656 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  95%|█████████▍| 4298/4533 [11:43:16<38:14,  9.76s/it, gpt_loss=0.242, loss_mean=0.301][A
+Train step of epoch 0:  95%|█████████▍| 4299/4533 [11:43:16<37:40,  9.66s/it, gpt_loss=0.242, loss_mean=0.301][A
+[LID Router Debug] Step: 4300
+Batch Size: 14
+Audio Batch Size: 149
+LID Assignments: [2, 5, 3, 1, 3, 9, 1, 6, 5, 5, 9, 3, 5, 5]
+Active Experts in Batch: {1, 2, 3, 5, 6, 9}
+2026-01-27 01:31:20.895 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+[2026-01-27 01:31:29,294] [INFO] [logging.py:96:log_dist] [Rank 0] step=4300, skipped=0, lr=[1.5639212702822248e-05, 1.5639212702822248e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 01:31:29,295] [INFO] [timer.py:260:stop] epoch=0/micro_step=4300/global_step=4300, RunningAvgSamplesPerSec=5.725027937624133, CurrSamplesPerSec=6.227575476875547, MemAllocated=14.67GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  95%|█████████▍| 4299/4533 [11:43:25<37:40,  9.66s/it, gpt_loss=0.37, loss_mean=0.308] [A
+Train step of epoch 0:  95%|█████████▍| 4300/4533 [11:43:25<36:45,  9.47s/it, gpt_loss=0.37, loss_mean=0.308][A2026-01-27 01:31:29.958 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  95%|█████████▍| 4300/4533 [11:43:34<36:45,  9.47s/it, gpt_loss=0.273, loss_mean=0.305][A
+Train step of epoch 0:  95%|█████████▍| 4301/4533 [11:43:34<35:51,  9.27s/it, gpt_loss=0.273, loss_mean=0.305][A2026-01-27 01:31:38.788 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  95%|█████████▍| 4301/4533 [11:43:43<35:51,  9.27s/it, gpt_loss=0.224, loss_mean=0.297][A
+Train step of epoch 0:  95%|█████████▍| 4302/4533 [11:43:43<35:26,  9.20s/it, gpt_loss=0.224, loss_mean=0.297][A2026-01-27 01:31:47.896 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  95%|█████████▍| 4302/4533 [11:43:53<35:26,  9.20s/it, gpt_loss=0.238, loss_mean=0.291][A
+Train step of epoch 0:  95%|█████████▍| 4303/4533 [11:43:53<35:48,  9.34s/it, gpt_loss=0.238, loss_mean=0.291][A2026-01-27 01:31:57.385 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  95%|█████████▍| 4303/4533 [11:44:02<35:48,  9.34s/it, gpt_loss=0.272, loss_mean=0.289][A
+Train step of epoch 0:  95%|█████████▍| 4304/4533 [11:44:02<35:01,  9.18s/it, gpt_loss=0.272, loss_mean=0.289][A2026-01-27 01:32:06.362 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  95%|█████████▍| 4304/4533 [11:44:11<35:01,  9.18s/it, gpt_loss=0.26, loss_mean=0.286] [A
+Train step of epoch 0:  95%|█████████▍| 4305/4533 [11:44:11<34:31,  9.08s/it, gpt_loss=0.26, loss_mean=0.286][A2026-01-27 01:32:15.168 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  95%|█████████▍| 4305/4533 [11:44:20<34:31,  9.08s/it, gpt_loss=0.349, loss_mean=0.292][A
+Train step of epoch 0:  95%|█████████▍| 4306/4533 [11:44:20<34:23,  9.09s/it, gpt_loss=0.349, loss_mean=0.292][A2026-01-27 01:32:24.287 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  95%|█████████▍| 4306/4533 [11:44:31<34:23,  9.09s/it, gpt_loss=0.348, loss_mean=0.298][A
+Train step of epoch 0:  95%|█████████▌| 4307/4533 [11:44:31<37:06,  9.85s/it, gpt_loss=0.348, loss_mean=0.298][A2026-01-27 01:32:36.068 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  95%|█████████▌| 4307/4533 [11:44:43<37:06,  9.85s/it, gpt_loss=0.376, loss_mean=0.306][A
+Train step of epoch 0:  95%|█████████▌| 4308/4533 [11:44:43<39:09, 10.44s/it, gpt_loss=0.376, loss_mean=0.306][A2026-01-27 01:32:47.788 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  95%|█████████▌| 4308/4533 [11:44:55<39:09, 10.44s/it, gpt_loss=0.404, loss_mean=0.315][A
+Train step of epoch 0:  95%|█████████▌| 4309/4533 [11:44:55<40:42, 10.90s/it, gpt_loss=0.404, loss_mean=0.315][A
+[LID Router Debug] Step: 4310
+Batch Size: 14
+Audio Batch Size: 125
+LID Assignments: [9, 1, 4, 2, 0, 5, 0, 6, 1, 4, 3, 4, 5, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 01:32:59.597 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  95%|█████████▌| 4309/4533 [11:45:04<40:42, 10.90s/it, gpt_loss=0.25, loss_mean=0.309] [A
+Train step of epoch 0:  95%|█████████▌| 4310/4533 [11:45:04<37:54, 10.20s/it, gpt_loss=0.25, loss_mean=0.309][A2026-01-27 01:33:08.077 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  95%|█████████▌| 4310/4533 [11:45:13<37:54, 10.20s/it, gpt_loss=0.265, loss_mean=0.305][A
+Train step of epoch 0:  95%|█████████▌| 4311/4533 [11:45:13<36:39,  9.91s/it, gpt_loss=0.265, loss_mean=0.305][A2026-01-27 01:33:17.503 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  95%|█████████▌| 4311/4533 [11:45:22<36:39,  9.91s/it, gpt_loss=0.311, loss_mean=0.305][A
+Train step of epoch 0:  95%|█████████▌| 4312/4533 [11:45:22<36:08,  9.81s/it, gpt_loss=0.311, loss_mean=0.305][A2026-01-27 01:33:27.098 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  95%|█████████▌| 4312/4533 [11:45:32<36:08,  9.81s/it, gpt_loss=0.281, loss_mean=0.303][A
+Train step of epoch 0:  95%|█████████▌| 4313/4533 [11:45:32<35:54,  9.79s/it, gpt_loss=0.281, loss_mean=0.303][A2026-01-27 01:33:36.889 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  95%|█████████▌| 4313/4533 [11:45:41<35:54,  9.79s/it, gpt_loss=0.386, loss_mean=0.311][A
+Train step of epoch 0:  95%|█████████▌| 4314/4533 [11:45:41<34:49,  9.54s/it, gpt_loss=0.386, loss_mean=0.311][A2026-01-27 01:33:45.875 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  95%|█████████▌| 4314/4533 [11:45:51<34:49,  9.54s/it, gpt_loss=0.37, loss_mean=0.317] [A
+Train step of epoch 0:  95%|█████████▌| 4315/4533 [11:45:51<34:28,  9.49s/it, gpt_loss=0.37, loss_mean=0.317][A2026-01-27 01:33:54.987 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  95%|█████████▌| 4315/4533 [11:46:03<34:28,  9.49s/it, gpt_loss=0.381, loss_mean=0.323][A
+Train step of epoch 0:  95%|█████████▌| 4316/4533 [11:46:03<37:00, 10.23s/it, gpt_loss=0.381, loss_mean=0.323][A2026-01-27 01:34:07.189 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  95%|█████████▌| 4316/4533 [11:46:12<37:00, 10.23s/it, gpt_loss=0.283, loss_mean=0.319][A
+Train step of epoch 0:  95%|█████████▌| 4317/4533 [11:46:12<35:36,  9.89s/it, gpt_loss=0.283, loss_mean=0.319][A2026-01-27 01:34:16.287 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  95%|█████████▌| 4317/4533 [11:46:23<35:36,  9.89s/it, gpt_loss=0.426, loss_mean=0.33] [A
+Train step of epoch 0:  95%|█████████▌| 4318/4533 [11:46:23<37:34, 10.49s/it, gpt_loss=0.426, loss_mean=0.33][A2026-01-27 01:34:28.152 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  95%|█████████▌| 4318/4533 [11:46:33<37:34, 10.49s/it, gpt_loss=0.312, loss_mean=0.328][A
+Train step of epoch 0:  95%|█████████▌| 4319/4533 [11:46:33<36:12, 10.15s/it, gpt_loss=0.312, loss_mean=0.328][A
+[LID Router Debug] Step: 4320
+Batch Size: 14
+Audio Batch Size: 150
+LID Assignments: [2, 6, 6, 5, 3, 3, 5, 5, 2, 5, 2, 9, 4, 1]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-27 01:34:37.279 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  95%|█████████▌| 4319/4533 [11:46:41<36:12, 10.15s/it, gpt_loss=0.273, loss_mean=0.323][A
+Train step of epoch 0:  95%|█████████▌| 4320/4533 [11:46:41<34:20,  9.68s/it, gpt_loss=0.273, loss_mean=0.323][A2026-01-27 01:34:46.166 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  95%|█████████▌| 4320/4533 [11:46:53<34:20,  9.68s/it, gpt_loss=0.364, loss_mean=0.327][A
+Train step of epoch 0:  95%|█████████▌| 4321/4533 [11:46:53<36:44, 10.40s/it, gpt_loss=0.364, loss_mean=0.327][A2026-01-27 01:34:58.072 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  95%|█████████▌| 4321/4533 [11:47:05<36:44, 10.40s/it, gpt_loss=0.456, loss_mean=0.34] [A
+Train step of epoch 0:  95%|█████████▌| 4322/4533 [11:47:05<38:13, 10.87s/it, gpt_loss=0.456, loss_mean=0.34][A2026-01-27 01:35:10.167 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  95%|█████████▌| 4322/4533 [11:47:14<38:13, 10.87s/it, gpt_loss=0.43, loss_mean=0.349][A
+Train step of epoch 0:  95%|█████████▌| 4323/4533 [11:47:14<35:57, 10.27s/it, gpt_loss=0.43, loss_mean=0.349][A2026-01-27 01:35:18.597 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  95%|█████████▌| 4323/4533 [11:47:23<35:57, 10.27s/it, gpt_loss=0.209, loss_mean=0.335][A
+Train step of epoch 0:  95%|█████████▌| 4324/4533 [11:47:23<34:04,  9.78s/it, gpt_loss=0.209, loss_mean=0.335][A2026-01-27 01:35:27.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  95%|█████████▌| 4324/4533 [11:47:32<34:04,  9.78s/it, gpt_loss=0.311, loss_mean=0.332][A
+Train step of epoch 0:  95%|█████████▌| 4325/4533 [11:47:32<33:23,  9.63s/it, gpt_loss=0.311, loss_mean=0.332][A2026-01-27 01:35:36.887 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  95%|█████████▌| 4325/4533 [11:47:42<33:23,  9.63s/it, gpt_loss=0.252, loss_mean=0.324][A
+Train step of epoch 0:  95%|█████████▌| 4326/4533 [11:47:42<33:24,  9.68s/it, gpt_loss=0.252, loss_mean=0.324][A2026-01-27 01:35:46.755 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  95%|█████████▌| 4326/4533 [11:47:51<33:24,  9.68s/it, gpt_loss=0.274, loss_mean=0.319][A
+Train step of epoch 0:  95%|█████████▌| 4327/4533 [11:47:51<32:36,  9.50s/it, gpt_loss=0.274, loss_mean=0.319][A2026-01-27 01:35:55.686 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  95%|█████████▌| 4327/4533 [11:48:03<32:36,  9.50s/it, gpt_loss=0.33, loss_mean=0.32]  [A
+Train step of epoch 0:  95%|█████████▌| 4328/4533 [11:48:03<34:58, 10.24s/it, gpt_loss=0.33, loss_mean=0.32][A2026-01-27 01:36:07.581 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  95%|█████████▌| 4328/4533 [11:48:12<34:58, 10.24s/it, gpt_loss=0.3, loss_mean=0.318][A
+Train step of epoch 0:  95%|█████████▌| 4329/4533 [11:48:12<33:32,  9.87s/it, gpt_loss=0.3, loss_mean=0.318][A
+[LID Router Debug] Step: 4330
+Batch Size: 14
+Audio Batch Size: 192
+LID Assignments: [5, 9, 3, 2, 4, 1, 9, 0, 4, 2, 2, 3, 2, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 01:36:16.695 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  95%|█████████▌| 4329/4533 [11:48:24<33:32,  9.87s/it, gpt_loss=0.447, loss_mean=0.331][A
+Train step of epoch 0:  96%|█████████▌| 4330/4533 [11:48:24<35:25, 10.47s/it, gpt_loss=0.447, loss_mean=0.331][A2026-01-27 01:36:28.477 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  96%|█████████▌| 4330/4533 [11:48:33<35:25, 10.47s/it, gpt_loss=0.25, loss_mean=0.323] [A
+Train step of epoch 0:  96%|█████████▌| 4331/4533 [11:48:33<33:41, 10.01s/it, gpt_loss=0.25, loss_mean=0.323][A2026-01-27 01:36:37.355 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  96%|█████████▌| 4331/4533 [11:48:42<33:41, 10.01s/it, gpt_loss=0.296, loss_mean=0.32][A
+Train step of epoch 0:  96%|█████████▌| 4332/4533 [11:48:42<32:14,  9.62s/it, gpt_loss=0.296, loss_mean=0.32][A2026-01-27 01:36:46.092 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  96%|█████████▌| 4332/4533 [11:48:53<32:14,  9.62s/it, gpt_loss=0.385, loss_mean=0.327][A
+Train step of epoch 0:  96%|█████████▌| 4333/4533 [11:48:53<34:14, 10.27s/it, gpt_loss=0.385, loss_mean=0.327][A2026-01-27 01:36:57.996 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  96%|█████████▌| 4333/4533 [11:49:06<34:14, 10.27s/it, gpt_loss=0.347, loss_mean=0.329][A
+Train step of epoch 0:  96%|█████████▌| 4334/4533 [11:49:06<36:05, 10.88s/it, gpt_loss=0.347, loss_mean=0.329][A2026-01-27 01:37:10.459 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  96%|█████████▌| 4334/4533 [11:49:16<36:05, 10.88s/it, gpt_loss=0.258, loss_mean=0.322][A
+Train step of epoch 0:  96%|█████████▌| 4335/4533 [11:49:16<34:51, 10.56s/it, gpt_loss=0.258, loss_mean=0.322][A2026-01-27 01:37:20.199 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  96%|█████████▌| 4335/4533 [11:49:24<34:51, 10.56s/it, gpt_loss=0.302, loss_mean=0.32] [A
+Train step of epoch 0:  96%|█████████▌| 4336/4533 [11:49:24<33:03, 10.07s/it, gpt_loss=0.302, loss_mean=0.32][A2026-01-27 01:37:29.094 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  96%|█████████▌| 4336/4533 [11:49:33<33:03, 10.07s/it, gpt_loss=0.255, loss_mean=0.313][A
+Train step of epoch 0:  96%|█████████▌| 4337/4533 [11:49:33<31:39,  9.69s/it, gpt_loss=0.255, loss_mean=0.313][A2026-01-27 01:37:37.785 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  96%|█████████▌| 4337/4533 [11:49:43<31:39,  9.69s/it, gpt_loss=0.289, loss_mean=0.311][A
+Train step of epoch 0:  96%|█████████▌| 4338/4533 [11:49:43<31:23,  9.66s/it, gpt_loss=0.289, loss_mean=0.311][A2026-01-27 01:37:47.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  96%|█████████▌| 4338/4533 [11:49:52<31:23,  9.66s/it, gpt_loss=0.321, loss_mean=0.312][A
+Train step of epoch 0:  96%|█████████▌| 4339/4533 [11:49:52<30:22,  9.40s/it, gpt_loss=0.321, loss_mean=0.312][A
+[LID Router Debug] Step: 4340
+Batch Size: 14
+Audio Batch Size: 156
+LID Assignments: [4, 9, 9, 4, 2, 9, 1, 2, 4, 1, 3, 0, 2, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 9}
+2026-01-27 01:37:56.087 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  96%|█████████▌| 4339/4533 [11:50:01<30:22,  9.40s/it, gpt_loss=0.329, loss_mean=0.314][A
+Train step of epoch 0:  96%|█████████▌| 4340/4533 [11:50:01<30:18,  9.42s/it, gpt_loss=0.329, loss_mean=0.314][A2026-01-27 01:38:05.684 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  96%|█████████▌| 4340/4533 [11:50:10<30:18,  9.42s/it, gpt_loss=0.263, loss_mean=0.309][A
+Train step of epoch 0:  96%|█████████▌| 4341/4533 [11:50:10<29:20,  9.17s/it, gpt_loss=0.263, loss_mean=0.309][A2026-01-27 01:38:14.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  96%|█████████▌| 4341/4533 [11:50:19<29:20,  9.17s/it, gpt_loss=0.222, loss_mean=0.3]  [A
+Train step of epoch 0:  96%|█████████▌| 4342/4533 [11:50:19<29:13,  9.18s/it, gpt_loss=0.222, loss_mean=0.3][A2026-01-27 01:38:23.452 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  96%|█████████▌| 4342/4533 [11:50:28<29:13,  9.18s/it, gpt_loss=0.247, loss_mean=0.295][A
+Train step of epoch 0:  96%|█████████▌| 4343/4533 [11:50:28<28:46,  9.09s/it, gpt_loss=0.247, loss_mean=0.295][A2026-01-27 01:38:32.289 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  96%|█████████▌| 4343/4533 [11:50:37<28:46,  9.09s/it, gpt_loss=0.298, loss_mean=0.295][A
+Train step of epoch 0:  96%|█████████▌| 4344/4533 [11:50:37<29:11,  9.27s/it, gpt_loss=0.298, loss_mean=0.295][A2026-01-27 01:38:42.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  96%|█████████▌| 4344/4533 [11:50:46<29:11,  9.27s/it, gpt_loss=0.275, loss_mean=0.293][A
+Train step of epoch 0:  96%|█████████▌| 4345/4533 [11:50:46<28:43,  9.17s/it, gpt_loss=0.275, loss_mean=0.293][A2026-01-27 01:38:50.561 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  96%|█████████▌| 4345/4533 [11:50:55<28:43,  9.17s/it, gpt_loss=0.308, loss_mean=0.294][A
+Train step of epoch 0:  96%|█████████▌| 4346/4533 [11:50:55<28:00,  8.98s/it, gpt_loss=0.308, loss_mean=0.294][A2026-01-27 01:38:59.579 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  96%|█████████▌| 4346/4533 [11:51:04<28:00,  8.98s/it, gpt_loss=0.301, loss_mean=0.295][A
+Train step of epoch 0:  96%|█████████▌| 4347/4533 [11:51:04<27:40,  8.92s/it, gpt_loss=0.301, loss_mean=0.295][A2026-01-27 01:39:08.151 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  96%|█████████▌| 4347/4533 [11:51:15<27:40,  8.92s/it, gpt_loss=0.309, loss_mean=0.296][A
+Train step of epoch 0:  96%|█████████▌| 4348/4533 [11:51:15<29:58,  9.72s/it, gpt_loss=0.309, loss_mean=0.296][A2026-01-27 01:39:19.966 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  96%|█████████▌| 4348/4533 [11:51:24<29:58,  9.72s/it, gpt_loss=0.321, loss_mean=0.299][A
+Train step of epoch 0:  96%|█████████▌| 4349/4533 [11:51:24<28:57,  9.45s/it, gpt_loss=0.321, loss_mean=0.299][A
+[LID Router Debug] Step: 4350
+Batch Size: 14
+Audio Batch Size: 161
+LID Assignments: [9, 9, 2, 1, 3, 9, 1, 3, 9, 1, 6, 2, 5, 2]
+Active Experts in Batch: {1, 2, 3, 5, 6, 9}
+2026-01-27 01:39:28.785 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  96%|█████████▌| 4349/4533 [11:51:33<28:57,  9.45s/it, gpt_loss=0.31, loss_mean=0.3]   [A
+Train step of epoch 0:  96%|█████████▌| 4350/4533 [11:51:33<28:27,  9.33s/it, gpt_loss=0.31, loss_mean=0.3][A2026-01-27 01:39:37.795 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  96%|█████████▌| 4350/4533 [11:51:43<28:27,  9.33s/it, gpt_loss=0.483, loss_mean=0.318][A
+Train step of epoch 0:  96%|█████████▌| 4351/4533 [11:51:43<28:43,  9.47s/it, gpt_loss=0.483, loss_mean=0.318][A2026-01-27 01:39:47.377 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  96%|█████████▌| 4351/4533 [11:51:54<28:43,  9.47s/it, gpt_loss=0.404, loss_mean=0.327][A
+Train step of epoch 0:  96%|█████████▌| 4352/4533 [11:51:54<30:19, 10.05s/it, gpt_loss=0.404, loss_mean=0.327][A2026-01-27 01:39:58.689 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  96%|█████████▌| 4352/4533 [11:52:03<30:19, 10.05s/it, gpt_loss=0.258, loss_mean=0.32] [A
+Train step of epoch 0:  96%|█████████▌| 4353/4533 [11:52:03<28:49,  9.61s/it, gpt_loss=0.258, loss_mean=0.32][A2026-01-27 01:40:07.376 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  96%|█████████▌| 4353/4533 [11:52:12<28:49,  9.61s/it, gpt_loss=0.295, loss_mean=0.318][A
+Train step of epoch 0:  96%|█████████▌| 4354/4533 [11:52:12<28:19,  9.50s/it, gpt_loss=0.295, loss_mean=0.318][A2026-01-27 01:40:16.796 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  96%|█████████▌| 4354/4533 [11:52:21<28:19,  9.50s/it, gpt_loss=0.29, loss_mean=0.315] [A
+Train step of epoch 0:  96%|█████████▌| 4355/4533 [11:52:21<27:31,  9.28s/it, gpt_loss=0.29, loss_mean=0.315][A2026-01-27 01:40:25.356 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  96%|█████████▌| 4355/4533 [11:52:33<27:31,  9.28s/it, gpt_loss=0.32, loss_mean=0.315][A
+Train step of epoch 0:  96%|█████████▌| 4356/4533 [11:52:33<29:33, 10.02s/it, gpt_loss=0.32, loss_mean=0.315][A2026-01-27 01:40:37.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  96%|█████████▌| 4356/4533 [11:52:42<29:33, 10.02s/it, gpt_loss=0.27, loss_mean=0.311][A
+Train step of epoch 0:  96%|█████████▌| 4357/4533 [11:52:42<28:40,  9.77s/it, gpt_loss=0.27, loss_mean=0.311][A2026-01-27 01:40:46.491 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  96%|█████████▌| 4357/4533 [11:52:51<28:40,  9.77s/it, gpt_loss=0.245, loss_mean=0.304][A
+Train step of epoch 0:  96%|█████████▌| 4358/4533 [11:52:51<27:45,  9.51s/it, gpt_loss=0.245, loss_mean=0.304][A2026-01-27 01:40:55.368 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  96%|█████████▌| 4358/4533 [11:53:03<27:45,  9.51s/it, gpt_loss=0.35, loss_mean=0.309] [A
+Train step of epoch 0:  96%|█████████▌| 4359/4533 [11:53:03<29:35, 10.20s/it, gpt_loss=0.35, loss_mean=0.309][A
+[LID Router Debug] Step: 4360
+Batch Size: 14
+Audio Batch Size: 149
+LID Assignments: [1, 0, 5, 9, 0, 3, 3, 0, 2, 0, 6, 4, 0, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 01:41:07.293 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  96%|█████████▌| 4359/4533 [11:53:12<29:35, 10.20s/it, gpt_loss=0.278, loss_mean=0.306][A
+Train step of epoch 0:  96%|█████████▌| 4360/4533 [11:53:12<28:18,  9.82s/it, gpt_loss=0.278, loss_mean=0.306][A2026-01-27 01:41:16.254 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  96%|█████████▌| 4360/4533 [11:53:22<28:18,  9.82s/it, gpt_loss=0.236, loss_mean=0.299][A
+Train step of epoch 0:  96%|█████████▌| 4361/4533 [11:53:22<28:24,  9.91s/it, gpt_loss=0.236, loss_mean=0.299][A2026-01-27 01:41:26.354 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  96%|█████████▌| 4361/4533 [11:53:31<28:24,  9.91s/it, gpt_loss=0.32, loss_mean=0.301] [A
+Train step of epoch 0:  96%|█████████▌| 4362/4533 [11:53:31<28:00,  9.83s/it, gpt_loss=0.32, loss_mean=0.301][A2026-01-27 01:41:35.779 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  96%|█████████▌| 4362/4533 [11:53:40<28:00,  9.83s/it, gpt_loss=0.273, loss_mean=0.298][A
+Train step of epoch 0:  96%|█████████▌| 4363/4533 [11:53:40<26:54,  9.50s/it, gpt_loss=0.273, loss_mean=0.298][A2026-01-27 01:41:44.600 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  96%|█████████▌| 4363/4533 [11:53:52<26:54,  9.50s/it, gpt_loss=0.329, loss_mean=0.301][A
+Train step of epoch 0:  96%|█████████▋| 4364/4533 [11:53:52<28:30, 10.12s/it, gpt_loss=0.329, loss_mean=0.301][A2026-01-27 01:41:56.298 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  96%|█████████▋| 4364/4533 [11:54:03<28:30, 10.12s/it, gpt_loss=0.437, loss_mean=0.315][A
+Train step of epoch 0:  96%|█████████▋| 4365/4533 [11:54:03<29:42, 10.61s/it, gpt_loss=0.437, loss_mean=0.315][A2026-01-27 01:42:07.990 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  96%|█████████▋| 4365/4533 [11:54:15<29:42, 10.61s/it, gpt_loss=0.32, loss_mean=0.315] [A
+Train step of epoch 0:  96%|█████████▋| 4366/4533 [11:54:15<30:41, 11.03s/it, gpt_loss=0.32, loss_mean=0.315][A2026-01-27 01:42:19.792 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  96%|█████████▋| 4366/4533 [11:54:24<30:41, 11.03s/it, gpt_loss=0.275, loss_mean=0.311][A
+Train step of epoch 0:  96%|█████████▋| 4367/4533 [11:54:24<28:29, 10.30s/it, gpt_loss=0.275, loss_mean=0.311][A2026-01-27 01:42:28.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  96%|█████████▋| 4367/4533 [11:54:33<28:29, 10.30s/it, gpt_loss=0.265, loss_mean=0.307][A
+Train step of epoch 0:  96%|█████████▋| 4368/4533 [11:54:33<26:56,  9.80s/it, gpt_loss=0.265, loss_mean=0.307][A2026-01-27 01:42:37.088 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  96%|█████████▋| 4368/4533 [11:54:42<26:56,  9.80s/it, gpt_loss=0.307, loss_mean=0.307][A
+Train step of epoch 0:  96%|█████████▋| 4369/4533 [11:54:42<26:33,  9.71s/it, gpt_loss=0.307, loss_mean=0.307][A
+[LID Router Debug] Step: 4370
+Batch Size: 14
+Audio Batch Size: 104
+LID Assignments: [4, 4, 5, 1, 1, 6, 0, 4, 5, 9, 4, 2, 9, 1]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-27 01:42:46.773 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  96%|█████████▋| 4369/4533 [11:54:51<26:33,  9.71s/it, gpt_loss=0.289, loss_mean=0.305][A
+Train step of epoch 0:  96%|█████████▋| 4370/4533 [11:54:51<25:46,  9.49s/it, gpt_loss=0.289, loss_mean=0.305][A2026-01-27 01:42:55.769 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  96%|█████████▋| 4370/4533 [11:55:01<25:46,  9.49s/it, gpt_loss=0.287, loss_mean=0.303][A
+Train step of epoch 0:  96%|█████████▋| 4371/4533 [11:55:01<25:52,  9.58s/it, gpt_loss=0.287, loss_mean=0.303][A2026-01-27 01:43:05.581 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  96%|█████████▋| 4371/4533 [11:55:11<25:52,  9.58s/it, gpt_loss=0.31, loss_mean=0.304] [A
+Train step of epoch 0:  96%|█████████▋| 4372/4533 [11:55:11<25:58,  9.68s/it, gpt_loss=0.31, loss_mean=0.304][A2026-01-27 01:43:15.466 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  96%|█████████▋| 4372/4533 [11:55:21<25:58,  9.68s/it, gpt_loss=0.285, loss_mean=0.302][A
+Train step of epoch 0:  96%|█████████▋| 4373/4533 [11:55:21<26:04,  9.78s/it, gpt_loss=0.285, loss_mean=0.302][A2026-01-27 01:43:25.363 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  96%|█████████▋| 4373/4533 [11:55:33<26:04,  9.78s/it, gpt_loss=0.338, loss_mean=0.306][A
+Train step of epoch 0:  96%|█████████▋| 4374/4533 [11:55:33<27:39, 10.43s/it, gpt_loss=0.338, loss_mean=0.306][A2026-01-27 01:43:37.397 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  96%|█████████▋| 4374/4533 [11:55:45<27:39, 10.43s/it, gpt_loss=0.373, loss_mean=0.312][A
+Train step of epoch 0:  97%|█████████▋| 4375/4533 [11:55:45<29:11, 11.08s/it, gpt_loss=0.373, loss_mean=0.312][A2026-01-27 01:43:49.610 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  97%|█████████▋| 4375/4533 [11:55:57<29:11, 11.08s/it, gpt_loss=0.419, loss_mean=0.323][A
+Train step of epoch 0:  97%|█████████▋| 4376/4533 [11:55:57<29:38, 11.33s/it, gpt_loss=0.419, loss_mean=0.323][A2026-01-27 01:44:01.579 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  97%|█████████▋| 4376/4533 [11:56:06<29:38, 11.33s/it, gpt_loss=0.231, loss_mean=0.314][A
+Train step of epoch 0:  97%|█████████▋| 4377/4533 [11:56:06<27:15, 10.48s/it, gpt_loss=0.231, loss_mean=0.314][A2026-01-27 01:44:10.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  97%|█████████▋| 4377/4533 [11:56:18<27:15, 10.48s/it, gpt_loss=0.46, loss_mean=0.328] [A
+Train step of epoch 0:  97%|█████████▋| 4378/4533 [11:56:18<28:23, 10.99s/it, gpt_loss=0.46, loss_mean=0.328][A2026-01-27 01:44:22.651 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  97%|█████████▋| 4378/4533 [11:56:27<28:23, 10.99s/it, gpt_loss=0.279, loss_mean=0.324][A
+Train step of epoch 0:  97%|█████████▋| 4379/4533 [11:56:27<26:54, 10.48s/it, gpt_loss=0.279, loss_mean=0.324][A
+[LID Router Debug] Step: 4380
+Batch Size: 14
+Audio Batch Size: 151
+LID Assignments: [2, 5, 3, 3, 1, 0, 4, 2, 3, 2, 1, 0, 0, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5}
+2026-01-27 01:44:31.759 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  97%|█████████▋| 4379/4533 [11:56:36<26:54, 10.48s/it, gpt_loss=0.279, loss_mean=0.319][A
+Train step of epoch 0:  97%|█████████▋| 4380/4533 [11:56:36<25:25,  9.97s/it, gpt_loss=0.279, loss_mean=0.319][A2026-01-27 01:44:40.688 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  97%|█████████▋| 4380/4533 [11:56:48<25:25,  9.97s/it, gpt_loss=0.347, loss_mean=0.322][A
+Train step of epoch 0:  97%|█████████▋| 4381/4533 [11:56:48<26:40, 10.53s/it, gpt_loss=0.347, loss_mean=0.322][A2026-01-27 01:44:52.567 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  97%|█████████▋| 4381/4533 [11:56:58<26:40, 10.53s/it, gpt_loss=0.251, loss_mean=0.315][A
+Train step of epoch 0:  97%|█████████▋| 4382/4533 [11:56:58<25:52, 10.28s/it, gpt_loss=0.251, loss_mean=0.315][A2026-01-27 01:45:01.889 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  97%|█████████▋| 4382/4533 [11:57:10<25:52, 10.28s/it, gpt_loss=0.384, loss_mean=0.322][A
+Train step of epoch 0:  97%|█████████▋| 4383/4533 [11:57:10<26:58, 10.79s/it, gpt_loss=0.384, loss_mean=0.322][A2026-01-27 01:45:13.907 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  97%|█████████▋| 4383/4533 [11:57:19<26:58, 10.79s/it, gpt_loss=0.304, loss_mean=0.32] [A
+Train step of epoch 0:  97%|█████████▋| 4384/4533 [11:57:19<25:38, 10.33s/it, gpt_loss=0.304, loss_mean=0.32][A2026-01-27 01:45:22.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  97%|█████████▋| 4384/4533 [11:57:27<25:38, 10.33s/it, gpt_loss=0.208, loss_mean=0.309][A
+Train step of epoch 0:  97%|█████████▋| 4385/4533 [11:57:27<24:01,  9.74s/it, gpt_loss=0.208, loss_mean=0.309][A2026-01-27 01:45:31.664 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  97%|█████████▋| 4385/4533 [11:57:39<24:01,  9.74s/it, gpt_loss=0.352, loss_mean=0.313][A
+Train step of epoch 0:  97%|█████████▋| 4386/4533 [11:57:39<25:16, 10.31s/it, gpt_loss=0.352, loss_mean=0.313][A2026-01-27 01:45:43.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  97%|█████████▋| 4386/4533 [11:57:48<25:16, 10.31s/it, gpt_loss=0.265, loss_mean=0.308][A
+Train step of epoch 0:  97%|█████████▋| 4387/4533 [11:57:48<24:31, 10.08s/it, gpt_loss=0.265, loss_mean=0.308][A2026-01-27 01:45:52.981 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  97%|█████████▋| 4387/4533 [11:57:57<24:31, 10.08s/it, gpt_loss=0.221, loss_mean=0.3]  [A
+Train step of epoch 0:  97%|█████████▋| 4388/4533 [11:57:57<23:32,  9.74s/it, gpt_loss=0.221, loss_mean=0.3][A2026-01-27 01:46:01.770 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  97%|█████████▋| 4388/4533 [11:58:09<23:32,  9.74s/it, gpt_loss=0.43, loss_mean=0.313][A
+Train step of epoch 0:  97%|█████████▋| 4389/4533 [11:58:09<24:44, 10.31s/it, gpt_loss=0.43, loss_mean=0.313][A
+[LID Router Debug] Step: 4390
+Batch Size: 14
+Audio Batch Size: 151
+LID Assignments: [4, 9, 4, 0, 3, 0, 6, 3, 1, 1, 1, 2, 0, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-27 01:46:13.660 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  97%|█████████▋| 4389/4533 [11:58:21<24:44, 10.31s/it, gpt_loss=0.395, loss_mean=0.321][A
+Train step of epoch 0:  97%|█████████▋| 4390/4533 [11:58:21<25:43, 10.80s/it, gpt_loss=0.395, loss_mean=0.321][A2026-01-27 01:46:25.494 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  97%|█████████▋| 4390/4533 [11:58:30<25:43, 10.80s/it, gpt_loss=0.261, loss_mean=0.315][A
+Train step of epoch 0:  97%|█████████▋| 4391/4533 [11:58:30<24:22, 10.30s/it, gpt_loss=0.261, loss_mean=0.315][A2026-01-27 01:46:34.683 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  97%|█████████▋| 4391/4533 [11:58:40<24:22, 10.30s/it, gpt_loss=0.309, loss_mean=0.314][A
+Train step of epoch 0:  97%|█████████▋| 4392/4533 [11:58:40<23:46, 10.12s/it, gpt_loss=0.309, loss_mean=0.314][A2026-01-27 01:46:44.076 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  97%|█████████▋| 4392/4533 [11:58:48<23:46, 10.12s/it, gpt_loss=0.199, loss_mean=0.303][A
+Train step of epoch 0:  97%|█████████▋| 4393/4533 [11:58:48<22:38,  9.70s/it, gpt_loss=0.199, loss_mean=0.303][A2026-01-27 01:46:53.158 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  97%|█████████▋| 4393/4533 [11:58:57<22:38,  9.70s/it, gpt_loss=0.316, loss_mean=0.304][A
+Train step of epoch 0:  97%|█████████▋| 4394/4533 [11:58:57<21:58,  9.48s/it, gpt_loss=0.316, loss_mean=0.304][A2026-01-27 01:47:02.068 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  97%|█████████▋| 4394/4533 [11:59:09<21:58,  9.48s/it, gpt_loss=0.459, loss_mean=0.32] [A
+Train step of epoch 0:  97%|█████████▋| 4395/4533 [11:59:09<23:30, 10.22s/it, gpt_loss=0.459, loss_mean=0.32][A2026-01-27 01:47:13.491 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  97%|█████████▋| 4395/4533 [11:59:18<23:30, 10.22s/it, gpt_loss=0.265, loss_mean=0.314][A
+Train step of epoch 0:  97%|█████████▋| 4396/4533 [11:59:18<22:06,  9.68s/it, gpt_loss=0.265, loss_mean=0.314][A2026-01-27 01:47:22.459 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  97%|█████████▋| 4396/4533 [11:59:28<22:06,  9.68s/it, gpt_loss=0.296, loss_mean=0.312][A
+Train step of epoch 0:  97%|█████████▋| 4397/4533 [11:59:28<22:03,  9.73s/it, gpt_loss=0.296, loss_mean=0.312][A2026-01-27 01:47:32.085 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  97%|█████████▋| 4397/4533 [11:59:36<22:03,  9.73s/it, gpt_loss=0.241, loss_mean=0.305][A
+Train step of epoch 0:  97%|█████████▋| 4398/4533 [11:59:36<21:15,  9.45s/it, gpt_loss=0.241, loss_mean=0.305][A2026-01-27 01:47:40.865 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  97%|█████████▋| 4398/4533 [11:59:48<21:15,  9.45s/it, gpt_loss=0.344, loss_mean=0.309][A
+Train step of epoch 0:  97%|█████████▋| 4399/4533 [11:59:48<22:44, 10.18s/it, gpt_loss=0.344, loss_mean=0.309][A
+[LID Router Debug] Step: 4400
+Batch Size: 14
+Audio Batch Size: 136
+LID Assignments: [5, 2, 2, 5, 4, 1, 9, 2, 6, 2, 2, 9, 2, 3]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-27 01:47:52.974 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-27 01:48:01,148] [INFO] [logging.py:96:log_dist] [Rank 0] step=4400, skipped=0, lr=[1.544498772954511e-05, 1.544498772954511e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 01:48:01,148] [INFO] [timer.py:260:stop] epoch=0/micro_step=4400/global_step=4400, RunningAvgSamplesPerSec=5.723464012550055, CurrSamplesPerSec=6.270082910860488, MemAllocated=14.86GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  97%|█████████▋| 4399/4533 [11:59:57<22:44, 10.18s/it, gpt_loss=0.251, loss_mean=0.303][A
+Train step of epoch 0:  97%|█████████▋| 4400/4533 [11:59:57<21:44,  9.81s/it, gpt_loss=0.251, loss_mean=0.303][A2026-01-27 01:48:01.880 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  97%|█████████▋| 4400/4533 [12:00:06<21:44,  9.81s/it, gpt_loss=0.353, loss_mean=0.308][A
+Train step of epoch 0:  97%|█████████▋| 4401/4533 [12:00:06<21:03,  9.57s/it, gpt_loss=0.353, loss_mean=0.308][A2026-01-27 01:48:10.871 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  97%|█████████▋| 4401/4533 [12:00:18<21:03,  9.57s/it, gpt_loss=0.347, loss_mean=0.312][A
+Train step of epoch 0:  97%|█████████▋| 4402/4533 [12:00:18<22:21, 10.24s/it, gpt_loss=0.347, loss_mean=0.312][A2026-01-27 01:48:22.551 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  97%|█████████▋| 4402/4533 [12:00:30<22:21, 10.24s/it, gpt_loss=0.485, loss_mean=0.329][A
+Train step of epoch 0:  97%|█████████▋| 4403/4533 [12:00:30<23:10, 10.69s/it, gpt_loss=0.485, loss_mean=0.329][A2026-01-27 01:48:34.399 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  97%|█████████▋| 4403/4533 [12:00:39<23:10, 10.69s/it, gpt_loss=0.265, loss_mean=0.323][A
+Train step of epoch 0:  97%|█████████▋| 4404/4533 [12:00:39<21:56, 10.20s/it, gpt_loss=0.265, loss_mean=0.323][A2026-01-27 01:48:43.567 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  97%|█████████▋| 4404/4533 [12:00:48<21:56, 10.20s/it, gpt_loss=0.26, loss_mean=0.317] [A
+Train step of epoch 0:  97%|█████████▋| 4405/4533 [12:00:48<20:51,  9.78s/it, gpt_loss=0.26, loss_mean=0.317][A2026-01-27 01:48:52.256 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  97%|█████████▋| 4405/4533 [12:00:56<20:51,  9.78s/it, gpt_loss=0.25, loss_mean=0.31] [A
+Train step of epoch 0:  97%|█████████▋| 4406/4533 [12:00:56<20:01,  9.46s/it, gpt_loss=0.25, loss_mean=0.31][A2026-01-27 01:49:00.873 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  97%|█████████▋| 4406/4533 [12:01:05<20:01,  9.46s/it, gpt_loss=0.276, loss_mean=0.307][A
+Train step of epoch 0:  97%|█████████▋| 4407/4533 [12:01:05<19:38,  9.35s/it, gpt_loss=0.276, loss_mean=0.307][A2026-01-27 01:49:09.993 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  97%|█████████▋| 4407/4533 [12:01:15<19:38,  9.35s/it, gpt_loss=0.289, loss_mean=0.305][A
+Train step of epoch 0:  97%|█████████▋| 4408/4533 [12:01:15<19:35,  9.41s/it, gpt_loss=0.289, loss_mean=0.305][A2026-01-27 01:49:19.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  97%|█████████▋| 4408/4533 [12:01:25<19:35,  9.41s/it, gpt_loss=0.337, loss_mean=0.308][A
+Train step of epoch 0:  97%|█████████▋| 4409/4533 [12:01:25<19:49,  9.59s/it, gpt_loss=0.337, loss_mean=0.308][A
+[LID Router Debug] Step: 4410
+Batch Size: 14
+Audio Batch Size: 125
+LID Assignments: [9, 4, 3, 2, 2, 5, 1, 9, 6, 0, 0, 2, 4, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 01:49:29.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  97%|█████████▋| 4409/4533 [12:01:37<19:49,  9.59s/it, gpt_loss=0.344, loss_mean=0.312][A
+Train step of epoch 0:  97%|█████████▋| 4410/4533 [12:01:37<21:00, 10.24s/it, gpt_loss=0.344, loss_mean=0.312][A2026-01-27 01:49:41.355 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  97%|█████████▋| 4410/4533 [12:01:46<21:00, 10.24s/it, gpt_loss=0.328, loss_mean=0.313][A
+Train step of epoch 0:  97%|█████████▋| 4411/4533 [12:01:46<20:26, 10.06s/it, gpt_loss=0.328, loss_mean=0.313][A2026-01-27 01:49:51.096 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  97%|█████████▋| 4411/4533 [12:01:56<20:26, 10.06s/it, gpt_loss=0.266, loss_mean=0.308][A
+Train step of epoch 0:  97%|█████████▋| 4412/4533 [12:01:56<19:50,  9.84s/it, gpt_loss=0.266, loss_mean=0.308][A2026-01-27 01:50:00.271 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  97%|█████████▋| 4412/4533 [12:02:05<19:50,  9.84s/it, gpt_loss=0.313, loss_mean=0.309][A
+Train step of epoch 0:  97%|█████████▋| 4413/4533 [12:02:05<19:04,  9.54s/it, gpt_loss=0.313, loss_mean=0.309][A2026-01-27 01:50:09.253 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  97%|█████████▋| 4413/4533 [12:02:14<19:04,  9.54s/it, gpt_loss=0.356, loss_mean=0.314][A
+Train step of epoch 0:  97%|█████████▋| 4414/4533 [12:02:14<18:33,  9.36s/it, gpt_loss=0.356, loss_mean=0.314][A2026-01-27 01:50:18.258 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  97%|█████████▋| 4414/4533 [12:02:25<18:33,  9.36s/it, gpt_loss=0.364, loss_mean=0.319][A
+Train step of epoch 0:  97%|█████████▋| 4415/4533 [12:02:25<19:56, 10.14s/it, gpt_loss=0.364, loss_mean=0.319][A2026-01-27 01:50:29.990 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  97%|█████████▋| 4415/4533 [12:02:34<19:56, 10.14s/it, gpt_loss=0.277, loss_mean=0.315][A
+Train step of epoch 0:  97%|█████████▋| 4416/4533 [12:02:34<19:00,  9.75s/it, gpt_loss=0.277, loss_mean=0.315][A2026-01-27 01:50:38.890 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  97%|█████████▋| 4416/4533 [12:02:43<19:00,  9.75s/it, gpt_loss=0.249, loss_mean=0.308][A
+Train step of epoch 0:  97%|█████████▋| 4417/4533 [12:02:43<18:28,  9.56s/it, gpt_loss=0.249, loss_mean=0.308][A2026-01-27 01:50:48.074 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  97%|█████████▋| 4417/4533 [12:02:52<18:28,  9.56s/it, gpt_loss=0.309, loss_mean=0.308][A
+Train step of epoch 0:  97%|█████████▋| 4418/4533 [12:02:52<17:58,  9.37s/it, gpt_loss=0.309, loss_mean=0.308][A2026-01-27 01:50:56.759 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  97%|█████████▋| 4418/4533 [12:03:01<17:58,  9.37s/it, gpt_loss=0.28, loss_mean=0.305] [A
+Train step of epoch 0:  97%|█████████▋| 4419/4533 [12:03:01<17:18,  9.11s/it, gpt_loss=0.28, loss_mean=0.305][A
+[LID Router Debug] Step: 4420
+Batch Size: 14
+Audio Batch Size: 118
+LID Assignments: [1, 5, 1, 0, 9, 9, 5, 9, 9, 9, 6, 5, 1, 1]
+Active Experts in Batch: {0, 1, 5, 6, 9}
+2026-01-27 01:51:05.460 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  97%|█████████▋| 4419/4533 [12:03:10<17:18,  9.11s/it, gpt_loss=0.353, loss_mean=0.31][A
+Train step of epoch 0:  98%|█████████▊| 4420/4533 [12:03:10<16:58,  9.01s/it, gpt_loss=0.353, loss_mean=0.31][A2026-01-27 01:51:14.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  98%|█████████▊| 4420/4533 [12:03:18<16:58,  9.01s/it, gpt_loss=0.382, loss_mean=0.317][A
+Train step of epoch 0:  98%|█████████▊| 4421/4533 [12:03:18<16:40,  8.93s/it, gpt_loss=0.382, loss_mean=0.317][A2026-01-27 01:51:22.884 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  98%|█████████▊| 4421/4533 [12:03:28<16:40,  8.93s/it, gpt_loss=0.251, loss_mean=0.311][A
+Train step of epoch 0:  98%|█████████▊| 4422/4533 [12:03:28<16:48,  9.08s/it, gpt_loss=0.251, loss_mean=0.311][A2026-01-27 01:51:32.497 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  98%|█████████▊| 4422/4533 [12:03:37<16:48,  9.08s/it, gpt_loss=0.269, loss_mean=0.307][A
+Train step of epoch 0:  98%|█████████▊| 4423/4533 [12:03:37<16:40,  9.09s/it, gpt_loss=0.269, loss_mean=0.307][A2026-01-27 01:51:41.598 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  98%|█████████▊| 4423/4533 [12:03:46<16:40,  9.09s/it, gpt_loss=0.315, loss_mean=0.307][A
+Train step of epoch 0:  98%|█████████▊| 4424/4533 [12:03:46<16:21,  9.00s/it, gpt_loss=0.315, loss_mean=0.307][A2026-01-27 01:51:50.456 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  98%|█████████▊| 4424/4533 [12:03:55<16:21,  9.00s/it, gpt_loss=0.317, loss_mean=0.308][A
+Train step of epoch 0:  98%|█████████▊| 4425/4533 [12:03:55<16:16,  9.05s/it, gpt_loss=0.317, loss_mean=0.308][A2026-01-27 01:51:59.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  98%|█████████▊| 4425/4533 [12:04:05<16:16,  9.05s/it, gpt_loss=0.273, loss_mean=0.305][A
+Train step of epoch 0:  98%|█████████▊| 4426/4533 [12:04:05<16:39,  9.34s/it, gpt_loss=0.273, loss_mean=0.305][A2026-01-27 01:52:09.400 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  98%|█████████▊| 4426/4533 [12:04:15<16:39,  9.34s/it, gpt_loss=0.323, loss_mean=0.307][A
+Train step of epoch 0:  98%|█████████▊| 4427/4533 [12:04:15<16:38,  9.42s/it, gpt_loss=0.323, loss_mean=0.307][A2026-01-27 01:52:19.170 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  98%|█████████▊| 4427/4533 [12:04:24<16:38,  9.42s/it, gpt_loss=0.311, loss_mean=0.307][A
+Train step of epoch 0:  98%|█████████▊| 4428/4533 [12:04:24<16:35,  9.48s/it, gpt_loss=0.311, loss_mean=0.307][A2026-01-27 01:52:28.860 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  98%|█████████▊| 4428/4533 [12:04:33<16:35,  9.48s/it, gpt_loss=0.392, loss_mean=0.316][A
+Train step of epoch 0:  98%|█████████▊| 4429/4533 [12:04:33<16:06,  9.29s/it, gpt_loss=0.392, loss_mean=0.316][A
+[LID Router Debug] Step: 4430
+Batch Size: 14
+Audio Batch Size: 146
+LID Assignments: [9, 0, 6, 4, 3, 6, 9, 0, 5, 5, 4, 0, 1, 9]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6, 9}
+2026-01-27 01:52:37.666 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  98%|█████████▊| 4429/4533 [12:04:42<16:06,  9.29s/it, gpt_loss=0.256, loss_mean=0.31] [A
+Train step of epoch 0:  98%|█████████▊| 4430/4533 [12:04:42<15:48,  9.21s/it, gpt_loss=0.256, loss_mean=0.31][A2026-01-27 01:52:46.392 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  98%|█████████▊| 4430/4533 [12:04:51<15:48,  9.21s/it, gpt_loss=0.332, loss_mean=0.312][A
+Train step of epoch 0:  98%|█████████▊| 4431/4533 [12:04:51<15:41,  9.23s/it, gpt_loss=0.332, loss_mean=0.312][A2026-01-27 01:52:55.784 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  98%|█████████▊| 4431/4533 [12:05:00<15:41,  9.23s/it, gpt_loss=0.26, loss_mean=0.307] [A
+Train step of epoch 0:  98%|█████████▊| 4432/4533 [12:05:00<15:16,  9.07s/it, gpt_loss=0.26, loss_mean=0.307][A2026-01-27 01:53:04.680 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  98%|█████████▊| 4432/4533 [12:05:09<15:16,  9.07s/it, gpt_loss=0.26, loss_mean=0.302][A
+Train step of epoch 0:  98%|█████████▊| 4433/4533 [12:05:09<15:07,  9.08s/it, gpt_loss=0.26, loss_mean=0.302][A2026-01-27 01:53:13.656 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  98%|█████████▊| 4433/4533 [12:05:18<15:07,  9.08s/it, gpt_loss=0.322, loss_mean=0.304][A
+Train step of epoch 0:  98%|█████████▊| 4434/4533 [12:05:18<14:53,  9.02s/it, gpt_loss=0.322, loss_mean=0.304][A2026-01-27 01:53:22.598 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  98%|█████████▊| 4434/4533 [12:05:28<14:53,  9.02s/it, gpt_loss=0.29, loss_mean=0.303] [A
+Train step of epoch 0:  98%|█████████▊| 4435/4533 [12:05:28<15:04,  9.23s/it, gpt_loss=0.29, loss_mean=0.303][A2026-01-27 01:53:31.795 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  98%|█████████▊| 4435/4533 [12:05:36<15:04,  9.23s/it, gpt_loss=0.207, loss_mean=0.293][A
+Train step of epoch 0:  98%|█████████▊| 4436/4533 [12:05:36<14:38,  9.05s/it, gpt_loss=0.207, loss_mean=0.293][A2026-01-27 01:53:40.453 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  98%|█████████▊| 4436/4533 [12:05:48<14:38,  9.05s/it, gpt_loss=0.41, loss_mean=0.305] [A
+Train step of epoch 0:  98%|█████████▊| 4437/4533 [12:05:48<15:41,  9.81s/it, gpt_loss=0.41, loss_mean=0.305][A2026-01-27 01:53:52.060 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  98%|█████████▊| 4437/4533 [12:05:57<15:41,  9.81s/it, gpt_loss=0.289, loss_mean=0.303][A
+Train step of epoch 0:  98%|█████████▊| 4438/4533 [12:05:57<15:19,  9.68s/it, gpt_loss=0.289, loss_mean=0.303][A2026-01-27 01:54:01.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  98%|█████████▊| 4438/4533 [12:06:06<15:19,  9.68s/it, gpt_loss=0.228, loss_mean=0.296][A
+Train step of epoch 0:  98%|█████████▊| 4439/4533 [12:06:06<14:35,  9.32s/it, gpt_loss=0.228, loss_mean=0.296][A
+[LID Router Debug] Step: 4440
+Batch Size: 14
+Audio Batch Size: 167
+LID Assignments: [2, 9, 0, 3, 5, 5, 2, 9, 3, 5, 3, 3, 5, 2]
+Active Experts in Batch: {0, 2, 3, 5, 9}
+2026-01-27 01:54:10.373 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  98%|█████████▊| 4439/4533 [12:06:18<14:35,  9.32s/it, gpt_loss=0.383, loss_mean=0.304][A
+Train step of epoch 0:  98%|█████████▊| 4440/4533 [12:06:18<15:41, 10.12s/it, gpt_loss=0.383, loss_mean=0.304][A2026-01-27 01:54:22.096 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  98%|█████████▊| 4440/4533 [12:06:27<15:41, 10.12s/it, gpt_loss=0.312, loss_mean=0.305][A
+Train step of epoch 0:  98%|█████████▊| 4441/4533 [12:06:27<15:15,  9.95s/it, gpt_loss=0.312, loss_mean=0.305][A2026-01-27 01:54:31.976 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  98%|█████████▊| 4441/4533 [12:06:36<15:15,  9.95s/it, gpt_loss=0.274, loss_mean=0.302][A
+Train step of epoch 0:  98%|█████████▊| 4442/4533 [12:06:36<14:42,  9.70s/it, gpt_loss=0.274, loss_mean=0.302][A2026-01-27 01:54:40.976 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  98%|█████████▊| 4442/4533 [12:06:46<14:42,  9.70s/it, gpt_loss=0.296, loss_mean=0.301][A
+Train step of epoch 0:  98%|█████████▊| 4443/4533 [12:06:46<14:24,  9.61s/it, gpt_loss=0.296, loss_mean=0.301][A2026-01-27 01:54:50.454 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  98%|█████████▊| 4443/4533 [12:06:55<14:24,  9.61s/it, gpt_loss=0.304, loss_mean=0.302][A
+Train step of epoch 0:  98%|█████████▊| 4444/4533 [12:06:55<13:54,  9.38s/it, gpt_loss=0.304, loss_mean=0.302][A2026-01-27 01:54:59.190 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  98%|█████████▊| 4444/4533 [12:07:07<13:54,  9.38s/it, gpt_loss=0.383, loss_mean=0.31] [A
+Train step of epoch 0:  98%|█████████▊| 4445/4533 [12:07:07<14:52, 10.14s/it, gpt_loss=0.383, loss_mean=0.31][A2026-01-27 01:55:10.870 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  98%|█████████▊| 4445/4533 [12:07:15<14:52, 10.14s/it, gpt_loss=0.303, loss_mean=0.309][A
+Train step of epoch 0:  98%|█████████▊| 4446/4533 [12:07:15<13:58,  9.63s/it, gpt_loss=0.303, loss_mean=0.309][A2026-01-27 01:55:19.689 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  98%|█████████▊| 4446/4533 [12:07:24<13:58,  9.63s/it, gpt_loss=0.29, loss_mean=0.307] [A
+Train step of epoch 0:  98%|█████████▊| 4447/4533 [12:07:24<13:37,  9.51s/it, gpt_loss=0.29, loss_mean=0.307][A2026-01-27 01:55:28.687 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  98%|█████████▊| 4447/4533 [12:07:34<13:37,  9.51s/it, gpt_loss=0.298, loss_mean=0.306][A
+Train step of epoch 0:  98%|█████████▊| 4448/4533 [12:07:34<13:26,  9.48s/it, gpt_loss=0.298, loss_mean=0.306][A2026-01-27 01:55:38.201 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  98%|█████████▊| 4448/4533 [12:07:46<13:26,  9.48s/it, gpt_loss=0.322, loss_mean=0.308][A
+Train step of epoch 0:  98%|█████████▊| 4449/4533 [12:07:46<14:25, 10.30s/it, gpt_loss=0.322, loss_mean=0.308][A
+[LID Router Debug] Step: 4450
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [2, 5, 1, 0, 5, 0, 3, 9, 9, 0, 2, 2, 9, 1]
+Active Experts in Batch: {0, 1, 2, 3, 5, 9}
+2026-01-27 01:55:50.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  98%|█████████▊| 4449/4533 [12:07:55<14:25, 10.30s/it, gpt_loss=0.319, loss_mean=0.309][A
+Train step of epoch 0:  98%|█████████▊| 4450/4533 [12:07:55<13:34,  9.81s/it, gpt_loss=0.319, loss_mean=0.309][A2026-01-27 01:55:58.892 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  98%|█████████▊| 4450/4533 [12:08:03<13:34,  9.81s/it, gpt_loss=0.362, loss_mean=0.314][A
+Train step of epoch 0:  98%|█████████▊| 4451/4533 [12:08:03<12:56,  9.48s/it, gpt_loss=0.362, loss_mean=0.314][A2026-01-27 01:56:07.880 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  98%|█████████▊| 4451/4533 [12:08:13<12:56,  9.48s/it, gpt_loss=0.233, loss_mean=0.306][A
+Train step of epoch 0:  98%|█████████▊| 4452/4533 [12:08:13<12:52,  9.54s/it, gpt_loss=0.233, loss_mean=0.306][A2026-01-27 01:56:17.468 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  98%|█████████▊| 4452/4533 [12:08:25<12:52,  9.54s/it, gpt_loss=0.332, loss_mean=0.309][A
+Train step of epoch 0:  98%|█████████▊| 4453/4533 [12:08:25<13:45, 10.32s/it, gpt_loss=0.332, loss_mean=0.309][A2026-01-27 01:56:29.300 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  98%|█████████▊| 4453/4533 [12:08:34<13:45, 10.32s/it, gpt_loss=0.256, loss_mean=0.303][A
+Train step of epoch 0:  98%|█████████▊| 4454/4533 [12:08:34<13:09, 10.00s/it, gpt_loss=0.256, loss_mean=0.303][A2026-01-27 01:56:38.956 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  98%|█████████▊| 4454/4533 [12:08:46<13:09, 10.00s/it, gpt_loss=0.421, loss_mean=0.315][A
+Train step of epoch 0:  98%|█████████▊| 4455/4533 [12:08:46<13:50, 10.65s/it, gpt_loss=0.421, loss_mean=0.315][A2026-01-27 01:56:50.986 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  98%|█████████▊| 4455/4533 [12:08:55<13:50, 10.65s/it, gpt_loss=0.242, loss_mean=0.308][A
+Train step of epoch 0:  98%|█████████▊| 4456/4533 [12:08:55<12:57, 10.10s/it, gpt_loss=0.242, loss_mean=0.308][A2026-01-27 01:56:59.760 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  98%|█████████▊| 4456/4533 [12:09:05<12:57, 10.10s/it, gpt_loss=0.319, loss_mean=0.309][A
+Train step of epoch 0:  98%|█████████▊| 4457/4533 [12:09:05<12:34,  9.93s/it, gpt_loss=0.319, loss_mean=0.309][A2026-01-27 01:57:09.552 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  98%|█████████▊| 4457/4533 [12:09:14<12:34,  9.93s/it, gpt_loss=0.227, loss_mean=0.301][A
+Train step of epoch 0:  98%|█████████▊| 4458/4533 [12:09:14<12:05,  9.67s/it, gpt_loss=0.227, loss_mean=0.301][A2026-01-27 01:57:18.655 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  98%|█████████▊| 4458/4533 [12:09:23<12:05,  9.67s/it, gpt_loss=0.321, loss_mean=0.303][A
+Train step of epoch 0:  98%|█████████▊| 4459/4533 [12:09:23<11:40,  9.47s/it, gpt_loss=0.321, loss_mean=0.303][A
+[LID Router Debug] Step: 4460
+Batch Size: 14
+Audio Batch Size: 158
+LID Assignments: [4, 5, 2, 1, 4, 6, 4, 3, 3, 1, 2, 3, 1, 2]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6}
+2026-01-27 01:57:27.488 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  98%|█████████▊| 4459/4533 [12:09:35<11:40,  9.47s/it, gpt_loss=0.331, loss_mean=0.306][A
+Train step of epoch 0:  98%|█████████▊| 4460/4533 [12:09:35<12:22, 10.18s/it, gpt_loss=0.331, loss_mean=0.306][A2026-01-27 01:57:38.964 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  98%|█████████▊| 4460/4533 [12:09:46<12:22, 10.18s/it, gpt_loss=0.476, loss_mean=0.323][A
+Train step of epoch 0:  98%|█████████▊| 4461/4533 [12:09:46<12:37, 10.52s/it, gpt_loss=0.476, loss_mean=0.323][A2026-01-27 01:57:50.775 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  98%|█████████▊| 4461/4533 [12:09:55<12:37, 10.52s/it, gpt_loss=0.285, loss_mean=0.319][A
+Train step of epoch 0:  98%|█████████▊| 4462/4533 [12:09:55<11:54, 10.06s/it, gpt_loss=0.285, loss_mean=0.319][A2026-01-27 01:57:59.657 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  98%|█████████▊| 4462/4533 [12:10:07<11:54, 10.06s/it, gpt_loss=0.458, loss_mean=0.333][A
+Train step of epoch 0:  98%|█████████▊| 4463/4533 [12:10:07<12:24, 10.63s/it, gpt_loss=0.458, loss_mean=0.333][A2026-01-27 01:58:11.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  98%|█████████▊| 4463/4533 [12:10:16<12:24, 10.63s/it, gpt_loss=0.261, loss_mean=0.326][A
+Train step of epoch 0:  98%|█████████▊| 4464/4533 [12:10:16<11:41, 10.17s/it, gpt_loss=0.261, loss_mean=0.326][A2026-01-27 01:58:20.775 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  98%|█████████▊| 4464/4533 [12:10:25<11:41, 10.17s/it, gpt_loss=0.315, loss_mean=0.325][A
+Train step of epoch 0:  98%|█████████▊| 4465/4533 [12:10:25<11:06,  9.80s/it, gpt_loss=0.315, loss_mean=0.325][A2026-01-27 01:58:29.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  98%|█████████▊| 4465/4533 [12:10:34<11:06,  9.80s/it, gpt_loss=0.323, loss_mean=0.324][A
+Train step of epoch 0:  99%|█████████▊| 4466/4533 [12:10:34<10:42,  9.59s/it, gpt_loss=0.323, loss_mean=0.324][A2026-01-27 01:58:38.856 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  99%|█████████▊| 4466/4533 [12:10:46<10:42,  9.59s/it, gpt_loss=0.316, loss_mean=0.324][A
+Train step of epoch 0:  99%|█████████▊| 4467/4533 [12:10:46<11:20, 10.32s/it, gpt_loss=0.316, loss_mean=0.324][A2026-01-27 01:58:50.589 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  99%|█████████▊| 4467/4533 [12:10:58<11:20, 10.32s/it, gpt_loss=0.372, loss_mean=0.328][A
+Train step of epoch 0:  99%|█████████▊| 4468/4533 [12:10:58<11:36, 10.71s/it, gpt_loss=0.372, loss_mean=0.328][A2026-01-27 01:59:02.003 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  99%|█████████▊| 4468/4533 [12:11:09<11:36, 10.71s/it, gpt_loss=0.339, loss_mean=0.329][A
+Train step of epoch 0:  99%|█████████▊| 4469/4533 [12:11:09<11:38, 10.92s/it, gpt_loss=0.339, loss_mean=0.329][A
+[LID Router Debug] Step: 4470
+Batch Size: 14
+Audio Batch Size: 138
+LID Assignments: [5, 2, 2, 4, 5, 2, 9, 2, 0, 2, 3, 0, 9, 4]
+Active Experts in Batch: {0, 2, 3, 4, 5, 9}
+2026-01-27 01:59:13.395 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  99%|█████████▊| 4469/4533 [12:11:18<11:38, 10.92s/it, gpt_loss=0.297, loss_mean=0.326][A
+Train step of epoch 0:  99%|█████████▊| 4470/4533 [12:11:18<10:43, 10.22s/it, gpt_loss=0.297, loss_mean=0.326][A2026-01-27 01:59:22.458 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  99%|█████████▊| 4470/4533 [12:11:27<10:43, 10.22s/it, gpt_loss=0.311, loss_mean=0.325][A
+Train step of epoch 0:  99%|█████████▊| 4471/4533 [12:11:27<10:10,  9.84s/it, gpt_loss=0.311, loss_mean=0.325][A2026-01-27 01:59:31.389 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  99%|█████████▊| 4471/4533 [12:11:36<10:10,  9.84s/it, gpt_loss=0.341, loss_mean=0.326][A
+Train step of epoch 0:  99%|█████████▊| 4472/4533 [12:11:36<09:56,  9.79s/it, gpt_loss=0.341, loss_mean=0.326][A2026-01-27 01:59:40.994 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  99%|█████████▊| 4472/4533 [12:11:48<09:56,  9.79s/it, gpt_loss=0.404, loss_mean=0.334][A
+Train step of epoch 0:  99%|█████████▊| 4473/4533 [12:11:48<10:26, 10.45s/it, gpt_loss=0.404, loss_mean=0.334][A2026-01-27 01:59:52.468 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  99%|█████████▊| 4473/4533 [12:12:00<10:26, 10.45s/it, gpt_loss=0.381, loss_mean=0.339][A
+Train step of epoch 0:  99%|█████████▊| 4474/4533 [12:12:00<10:34, 10.75s/it, gpt_loss=0.381, loss_mean=0.339][A2026-01-27 02:00:03.972 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  99%|█████████▊| 4474/4533 [12:12:09<10:34, 10.75s/it, gpt_loss=0.274, loss_mean=0.332][A
+Train step of epoch 0:  99%|█████████▊| 4475/4533 [12:12:09<09:57, 10.30s/it, gpt_loss=0.274, loss_mean=0.332][A2026-01-27 02:00:13.173 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  99%|█████████▊| 4475/4533 [12:12:17<09:57, 10.30s/it, gpt_loss=0.234, loss_mean=0.322][A
+Train step of epoch 0:  99%|█████████▊| 4476/4533 [12:12:17<09:10,  9.66s/it, gpt_loss=0.234, loss_mean=0.322][A2026-01-27 02:00:21.577 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  99%|█████████▊| 4476/4533 [12:12:26<09:10,  9.66s/it, gpt_loss=0.273, loss_mean=0.318][A
+Train step of epoch 0:  99%|█████████▉| 4477/4533 [12:12:26<08:46,  9.40s/it, gpt_loss=0.273, loss_mean=0.318][A2026-01-27 02:00:30.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  99%|█████████▉| 4477/4533 [12:12:35<08:46,  9.40s/it, gpt_loss=0.298, loss_mean=0.316][A
+Train step of epoch 0:  99%|█████████▉| 4478/4533 [12:12:35<08:34,  9.35s/it, gpt_loss=0.298, loss_mean=0.316][A2026-01-27 02:00:39.955 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  99%|█████████▉| 4478/4533 [12:12:47<08:34,  9.35s/it, gpt_loss=0.287, loss_mean=0.313][A
+Train step of epoch 0:  99%|█████████▉| 4479/4533 [12:12:47<09:10, 10.19s/it, gpt_loss=0.287, loss_mean=0.313][A
+[LID Router Debug] Step: 4480
+Batch Size: 14
+Audio Batch Size: 205
+LID Assignments: [5, 2, 3, 6, 3, 6, 9, 1, 5, 5, 9, 3, 0, 3]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-27 02:00:52.061 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  99%|█████████▉| 4479/4533 [12:12:57<09:10, 10.19s/it, gpt_loss=0.294, loss_mean=0.311][A
+Train step of epoch 0:  99%|█████████▉| 4480/4533 [12:12:57<08:51, 10.03s/it, gpt_loss=0.294, loss_mean=0.311][A2026-01-27 02:01:01.654 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  99%|█████████▉| 4480/4533 [12:13:06<08:51, 10.03s/it, gpt_loss=0.25, loss_mean=0.305] [A
+Train step of epoch 0:  99%|█████████▉| 4481/4533 [12:13:06<08:20,  9.63s/it, gpt_loss=0.25, loss_mean=0.305][A2026-01-27 02:01:10.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  99%|█████████▉| 4481/4533 [12:13:15<08:20,  9.63s/it, gpt_loss=0.261, loss_mean=0.301][A
+Train step of epoch 0:  99%|█████████▉| 4482/4533 [12:13:15<08:10,  9.63s/it, gpt_loss=0.261, loss_mean=0.301][A2026-01-27 02:01:19.881 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  99%|█████████▉| 4482/4533 [12:13:25<08:10,  9.63s/it, gpt_loss=0.228, loss_mean=0.293][A
+Train step of epoch 0:  99%|█████████▉| 4483/4533 [12:13:25<07:54,  9.48s/it, gpt_loss=0.228, loss_mean=0.293][A2026-01-27 02:01:29.091 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  99%|█████████▉| 4483/4533 [12:13:34<07:54,  9.48s/it, gpt_loss=0.325, loss_mean=0.296][A
+Train step of epoch 0:  99%|█████████▉| 4484/4533 [12:13:34<07:47,  9.54s/it, gpt_loss=0.325, loss_mean=0.296][A2026-01-27 02:01:38.576 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  99%|█████████▉| 4484/4533 [12:13:43<07:47,  9.54s/it, gpt_loss=0.226, loss_mean=0.289][A
+Train step of epoch 0:  99%|█████████▉| 4485/4533 [12:13:43<07:26,  9.30s/it, gpt_loss=0.226, loss_mean=0.289][A2026-01-27 02:01:47.601 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  99%|█████████▉| 4485/4533 [12:13:53<07:26,  9.30s/it, gpt_loss=0.301, loss_mean=0.291][A
+Train step of epoch 0:  99%|█████████▉| 4486/4533 [12:13:53<07:23,  9.44s/it, gpt_loss=0.301, loss_mean=0.291][A2026-01-27 02:01:57.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  99%|█████████▉| 4486/4533 [12:14:02<07:23,  9.44s/it, gpt_loss=0.277, loss_mean=0.289][A
+Train step of epoch 0:  99%|█████████▉| 4487/4533 [12:14:02<07:15,  9.48s/it, gpt_loss=0.277, loss_mean=0.289][A2026-01-27 02:02:06.783 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  99%|█████████▉| 4487/4533 [12:14:11<07:15,  9.48s/it, gpt_loss=0.268, loss_mean=0.287][A
+Train step of epoch 0:  99%|█████████▉| 4488/4533 [12:14:11<06:59,  9.32s/it, gpt_loss=0.268, loss_mean=0.287][A2026-01-27 02:02:15.471 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  99%|█████████▉| 4488/4533 [12:14:20<06:59,  9.32s/it, gpt_loss=0.276, loss_mean=0.286][A
+Train step of epoch 0:  99%|█████████▉| 4489/4533 [12:14:20<06:48,  9.27s/it, gpt_loss=0.276, loss_mean=0.286][A
+[LID Router Debug] Step: 4490
+Batch Size: 14
+Audio Batch Size: 161
+LID Assignments: [6, 2, 1, 3, 5, 2, 9, 5, 1, 3, 4, 4, 4, 5]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-27 02:02:24.774 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  99%|█████████▉| 4489/4533 [12:14:30<06:48,  9.27s/it, gpt_loss=0.254, loss_mean=0.283][A
+Train step of epoch 0:  99%|█████████▉| 4490/4533 [12:14:30<06:41,  9.33s/it, gpt_loss=0.254, loss_mean=0.283][A2026-01-27 02:02:34.380 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  99%|█████████▉| 4490/4533 [12:14:39<06:41,  9.33s/it, gpt_loss=0.216, loss_mean=0.276][A
+Train step of epoch 0:  99%|█████████▉| 4491/4533 [12:14:39<06:34,  9.40s/it, gpt_loss=0.216, loss_mean=0.276][A2026-01-27 02:02:44.166 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  99%|█████████▉| 4491/4533 [12:14:49<06:34,  9.40s/it, gpt_loss=0.314, loss_mean=0.28] [A
+Train step of epoch 0:  99%|█████████▉| 4492/4533 [12:14:49<06:33,  9.59s/it, gpt_loss=0.314, loss_mean=0.28][A2026-01-27 02:02:53.990 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  99%|█████████▉| 4492/4533 [12:14:58<06:33,  9.59s/it, gpt_loss=0.277, loss_mean=0.28][A
+Train step of epoch 0:  99%|█████████▉| 4493/4533 [12:14:58<06:15,  9.40s/it, gpt_loss=0.277, loss_mean=0.28][A2026-01-27 02:03:02.983 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  99%|█████████▉| 4493/4533 [12:15:07<06:15,  9.40s/it, gpt_loss=0.304, loss_mean=0.282][A
+Train step of epoch 0:  99%|█████████▉| 4494/4533 [12:15:07<06:00,  9.24s/it, gpt_loss=0.304, loss_mean=0.282][A2026-01-27 02:03:11.769 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  99%|█████████▉| 4494/4533 [12:15:17<06:00,  9.24s/it, gpt_loss=0.224, loss_mean=0.276][A
+Train step of epoch 0:  99%|█████████▉| 4495/4533 [12:15:17<05:56,  9.37s/it, gpt_loss=0.224, loss_mean=0.276][A2026-01-27 02:03:21.589 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  99%|█████████▉| 4495/4533 [12:15:26<05:56,  9.37s/it, gpt_loss=0.348, loss_mean=0.283][A
+Train step of epoch 0:  99%|█████████▉| 4496/4533 [12:15:26<05:43,  9.28s/it, gpt_loss=0.348, loss_mean=0.283][A2026-01-27 02:03:30.656 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  99%|█████████▉| 4496/4533 [12:15:36<05:43,  9.28s/it, gpt_loss=0.244, loss_mean=0.279][A
+Train step of epoch 0:  99%|█████████▉| 4497/4533 [12:15:36<05:40,  9.46s/it, gpt_loss=0.244, loss_mean=0.279][A2026-01-27 02:03:40.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  99%|█████████▉| 4497/4533 [12:15:48<05:40,  9.46s/it, gpt_loss=0.334, loss_mean=0.285][A
+Train step of epoch 0:  99%|█████████▉| 4498/4533 [12:15:48<05:55, 10.15s/it, gpt_loss=0.334, loss_mean=0.285][A2026-01-27 02:03:52.270 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  99%|█████████▉| 4498/4533 [12:15:57<05:55, 10.15s/it, gpt_loss=0.252, loss_mean=0.282][A
+Train step of epoch 0:  99%|█████████▉| 4499/4533 [12:15:57<05:32,  9.79s/it, gpt_loss=0.252, loss_mean=0.282][A
+[LID Router Debug] Step: 4500
+Batch Size: 14
+Audio Batch Size: 171
+LID Assignments: [5, 9, 0, 0, 2, 0, 2, 5, 9, 1, 9, 3, 6, 3]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-27 02:04:01.167 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+[2026-01-27 02:04:09,933] [INFO] [logging.py:96:log_dist] [Rank 0] step=4500, skipped=0, lr=[1.5247797970943996e-05, 1.5247797970943996e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 02:04:09,934] [INFO] [timer.py:260:stop] epoch=0/micro_step=4500/global_step=4500, RunningAvgSamplesPerSec=5.725000254132999, CurrSamplesPerSec=5.956187421696687, MemAllocated=14.99GB, MaxMemAllocated=53.98GB
+
+Train step of epoch 0:  99%|█████████▉| 4499/4533 [12:16:06<05:32,  9.79s/it, gpt_loss=0.25, loss_mean=0.279] [A
+Train step of epoch 0:  99%|█████████▉| 4500/4533 [12:16:06<05:19,  9.68s/it, gpt_loss=0.25, loss_mean=0.279][A2026-01-27 02:04:10.768 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  99%|█████████▉| 4500/4533 [12:16:15<05:19,  9.68s/it, gpt_loss=0.278, loss_mean=0.278][A
+Train step of epoch 0:  99%|█████████▉| 4501/4533 [12:16:15<05:05,  9.56s/it, gpt_loss=0.278, loss_mean=0.278][A2026-01-27 02:04:19.752 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  99%|█████████▉| 4501/4533 [12:16:24<05:05,  9.56s/it, gpt_loss=0.197, loss_mean=0.27] [A
+Train step of epoch 0:  99%|█████████▉| 4502/4533 [12:16:24<04:52,  9.43s/it, gpt_loss=0.197, loss_mean=0.27][A2026-01-27 02:04:28.990 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  99%|█████████▉| 4502/4533 [12:16:34<04:52,  9.43s/it, gpt_loss=0.31, loss_mean=0.274][A
+Train step of epoch 0:  99%|█████████▉| 4503/4533 [12:16:34<04:41,  9.37s/it, gpt_loss=0.31, loss_mean=0.274][A2026-01-27 02:04:38.275 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  99%|█████████▉| 4503/4533 [12:16:46<04:41,  9.37s/it, gpt_loss=0.411, loss_mean=0.288][A
+Train step of epoch 0:  99%|█████████▉| 4504/4533 [12:16:46<04:54, 10.14s/it, gpt_loss=0.411, loss_mean=0.288][A2026-01-27 02:04:50.299 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  99%|█████████▉| 4504/4533 [12:16:55<04:54, 10.14s/it, gpt_loss=0.281, loss_mean=0.287][A
+Train step of epoch 0:  99%|█████████▉| 4505/4533 [12:16:55<04:33,  9.78s/it, gpt_loss=0.281, loss_mean=0.287][A2026-01-27 02:04:59.068 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0:  99%|█████████▉| 4505/4533 [12:17:03<04:33,  9.78s/it, gpt_loss=0.251, loss_mean=0.284][A
+Train step of epoch 0:  99%|█████████▉| 4506/4533 [12:17:03<04:15,  9.48s/it, gpt_loss=0.251, loss_mean=0.284][A2026-01-27 02:05:07.974 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  99%|█████████▉| 4506/4533 [12:17:13<04:15,  9.48s/it, gpt_loss=0.281, loss_mean=0.283][A
+Train step of epoch 0:  99%|█████████▉| 4507/4533 [12:17:13<04:06,  9.47s/it, gpt_loss=0.281, loss_mean=0.283][A2026-01-27 02:05:17.297 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  99%|█████████▉| 4507/4533 [12:17:22<04:06,  9.47s/it, gpt_loss=0.328, loss_mean=0.288][A
+Train step of epoch 0:  99%|█████████▉| 4508/4533 [12:17:22<03:57,  9.51s/it, gpt_loss=0.328, loss_mean=0.288][A2026-01-27 02:05:26.983 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0:  99%|█████████▉| 4508/4533 [12:17:34<03:57,  9.51s/it, gpt_loss=0.336, loss_mean=0.293][A
+Train step of epoch 0:  99%|█████████▉| 4509/4533 [12:17:34<04:05, 10.23s/it, gpt_loss=0.336, loss_mean=0.293][A
+[LID Router Debug] Step: 4510
+Batch Size: 14
+Audio Batch Size: 142
+LID Assignments: [9, 5, 4, 2, 5, 0, 3, 1, 4, 2, 3, 1, 5, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 02:05:38.554 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0:  99%|█████████▉| 4509/4533 [12:17:43<04:05, 10.23s/it, gpt_loss=0.278, loss_mean=0.291][A
+Train step of epoch 0:  99%|█████████▉| 4510/4533 [12:17:43<03:44,  9.76s/it, gpt_loss=0.278, loss_mean=0.291][A2026-01-27 02:05:47.474 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0:  99%|█████████▉| 4510/4533 [12:17:52<03:44,  9.76s/it, gpt_loss=0.234, loss_mean=0.285][A
+Train step of epoch 0: 100%|█████████▉| 4511/4533 [12:17:52<03:30,  9.57s/it, gpt_loss=0.234, loss_mean=0.285][A2026-01-27 02:05:56.585 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0: 100%|█████████▉| 4511/4533 [12:18:01<03:30,  9.57s/it, gpt_loss=0.296, loss_mean=0.286][A
+Train step of epoch 0: 100%|█████████▉| 4512/4533 [12:18:01<03:16,  9.37s/it, gpt_loss=0.296, loss_mean=0.286][A2026-01-27 02:06:05.495 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0: 100%|█████████▉| 4512/4533 [12:18:11<03:16,  9.37s/it, gpt_loss=0.281, loss_mean=0.286][A
+Train step of epoch 0: 100%|█████████▉| 4513/4533 [12:18:11<03:09,  9.47s/it, gpt_loss=0.281, loss_mean=0.286][A2026-01-27 02:06:15.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0: 100%|█████████▉| 4513/4533 [12:18:20<03:09,  9.47s/it, gpt_loss=0.275, loss_mean=0.285][A
+Train step of epoch 0: 100%|█████████▉| 4514/4533 [12:18:20<03:00,  9.51s/it, gpt_loss=0.275, loss_mean=0.285][A2026-01-27 02:06:24.788 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0: 100%|█████████▉| 4514/4533 [12:18:32<03:00,  9.51s/it, gpt_loss=0.382, loss_mean=0.295][A
+Train step of epoch 0: 100%|█████████▉| 4515/4533 [12:18:32<03:02, 10.16s/it, gpt_loss=0.382, loss_mean=0.295][A2026-01-27 02:06:36.079 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0: 100%|█████████▉| 4515/4533 [12:18:41<03:02, 10.16s/it, gpt_loss=0.258, loss_mean=0.291][A
+Train step of epoch 0: 100%|█████████▉| 4516/4533 [12:18:41<02:44,  9.69s/it, gpt_loss=0.258, loss_mean=0.291][A2026-01-27 02:06:44.862 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0: 100%|█████████▉| 4516/4533 [12:18:50<02:44,  9.69s/it, gpt_loss=0.272, loss_mean=0.289][A
+Train step of epoch 0: 100%|█████████▉| 4517/4533 [12:18:50<02:33,  9.60s/it, gpt_loss=0.272, loss_mean=0.289][A2026-01-27 02:06:54.495 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0: 100%|█████████▉| 4517/4533 [12:19:00<02:33,  9.60s/it, gpt_loss=0.384, loss_mean=0.298][A
+Train step of epoch 0: 100%|█████████▉| 4518/4533 [12:19:00<02:24,  9.61s/it, gpt_loss=0.384, loss_mean=0.298][A2026-01-27 02:07:04.153 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0: 100%|█████████▉| 4518/4533 [12:19:09<02:24,  9.61s/it, gpt_loss=0.239, loss_mean=0.292][A
+Train step of epoch 0: 100%|█████████▉| 4519/4533 [12:19:09<02:14,  9.58s/it, gpt_loss=0.239, loss_mean=0.292][A
+[LID Router Debug] Step: 4520
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [4, 0, 2, 5, 4, 9, 0, 6, 9, 1, 3, 5, 9, 6]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 02:07:13.590 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0: 100%|█████████▉| 4519/4533 [12:19:21<02:14,  9.58s/it, gpt_loss=0.355, loss_mean=0.299][A
+Train step of epoch 0: 100%|█████████▉| 4520/4533 [12:19:21<02:12, 10.23s/it, gpt_loss=0.355, loss_mean=0.299][A2026-01-27 02:07:25.471 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0: 100%|█████████▉| 4520/4533 [12:19:30<02:12, 10.23s/it, gpt_loss=0.291, loss_mean=0.298][A
+Train step of epoch 0: 100%|█████████▉| 4521/4533 [12:19:30<01:58,  9.83s/it, gpt_loss=0.291, loss_mean=0.298][A2026-01-27 02:07:34.370 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0: 100%|█████████▉| 4521/4533 [12:19:39<01:58,  9.83s/it, gpt_loss=0.302, loss_mean=0.298][A
+Train step of epoch 0: 100%|█████████▉| 4522/4533 [12:19:39<01:45,  9.57s/it, gpt_loss=0.302, loss_mean=0.298][A2026-01-27 02:07:43.282 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0: 100%|█████████▉| 4522/4533 [12:19:48<01:45,  9.57s/it, gpt_loss=0.317, loss_mean=0.3]  [A
+Train step of epoch 0: 100%|█████████▉| 4523/4533 [12:19:48<01:36,  9.62s/it, gpt_loss=0.317, loss_mean=0.3][A2026-01-27 02:07:52.883 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0: 100%|█████████▉| 4523/4533 [12:20:00<01:36,  9.62s/it, gpt_loss=0.337, loss_mean=0.304][A
+Train step of epoch 0: 100%|█████████▉| 4524/4533 [12:20:00<01:31, 10.18s/it, gpt_loss=0.337, loss_mean=0.304][A2026-01-27 02:08:04.495 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0: 100%|█████████▉| 4524/4533 [12:20:09<01:31, 10.18s/it, gpt_loss=0.246, loss_mean=0.298][A
+Train step of epoch 0: 100%|█████████▉| 4525/4533 [12:20:09<01:19,  9.98s/it, gpt_loss=0.246, loss_mean=0.298][A2026-01-27 02:08:13.864 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0: 100%|█████████▉| 4525/4533 [12:20:18<01:19,  9.98s/it, gpt_loss=0.255, loss_mean=0.294][A
+Train step of epoch 0: 100%|█████████▉| 4526/4533 [12:20:18<01:07,  9.62s/it, gpt_loss=0.255, loss_mean=0.294][A2026-01-27 02:08:22.677 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0: 100%|█████████▉| 4526/4533 [12:20:30<01:07,  9.62s/it, gpt_loss=0.37, loss_mean=0.301] [A
+Train step of epoch 0: 100%|█████████▉| 4527/4533 [12:20:30<01:01, 10.24s/it, gpt_loss=0.37, loss_mean=0.301][A2026-01-27 02:08:34.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+Train step of epoch 0: 100%|█████████▉| 4527/4533 [12:20:39<01:01, 10.24s/it, gpt_loss=0.282, loss_mean=0.299][A
+Train step of epoch 0: 100%|█████████▉| 4528/4533 [12:20:39<00:49,  9.86s/it, gpt_loss=0.282, loss_mean=0.299][A2026-01-27 02:08:43.493 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0: 100%|█████████▉| 4528/4533 [12:20:51<00:49,  9.86s/it, gpt_loss=0.333, loss_mean=0.303][A
+Train step of epoch 0: 100%|█████████▉| 4529/4533 [12:20:51<00:42, 10.56s/it, gpt_loss=0.333, loss_mean=0.303][A
+[LID Router Debug] Step: 4530
+Batch Size: 14
+Audio Batch Size: 158
+LID Assignments: [1, 9, 4, 0, 9, 9, 3, 5, 2, 2, 2, 3, 0, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 02:08:55.694 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+Train step of epoch 0: 100%|█████████▉| 4529/4533 [12:21:00<00:42, 10.56s/it, gpt_loss=0.259, loss_mean=0.298][A
+Train step of epoch 0: 100%|█████████▉| 4530/4533 [12:21:00<00:30, 10.05s/it, gpt_loss=0.259, loss_mean=0.298][A2026-01-27 02:09:04.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0: 100%|█████████▉| 4530/4533 [12:21:12<00:30, 10.05s/it, gpt_loss=0.337, loss_mean=0.302][A
+Train step of epoch 0: 100%|█████████▉| 4531/4533 [12:21:12<00:21, 10.53s/it, gpt_loss=0.337, loss_mean=0.302][A2026-01-27 02:09:16.171 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+Train step of epoch 0: 100%|█████████▉| 4531/4533 [12:21:20<00:21, 10.53s/it, gpt_loss=0.29, loss_mean=0.301] [A
+Train step of epoch 0: 100%|█████████▉| 4532/4533 [12:21:20<00:09,  9.99s/it, gpt_loss=0.29, loss_mean=0.301][A2026-01-27 02:09:24.889 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+Train step of epoch 0: 100%|█████████▉| 4532/4533 [12:21:29<00:09,  9.99s/it, gpt_loss=0.2, loss_mean=0.291] [A
+Train step of epoch 0: 100%|██████████| 4533/4533 [12:21:29<00:00,  9.72s/it, gpt_loss=0.2, loss_mean=0.291][ATrain epoch:  33%|███▎      | 1/3 [12:21:31<24:43:03, 44491.59s/it]
+
+Train step of epoch 1:   0%|          | 0/4533 [00:00<?, ?it/s][A[ATrain step of epoch 0: 100%|██████████| 4533/4533 [12:21:31<00:00,  9.82s/it, gpt_loss=0.2, loss_mean=0.291]
+2026-01-27 02:09:44.554 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   0%|          | 0/4533 [00:24<?, ?it/s, gpt_loss=0.321, loss_mean=0.0321][A[A
+
+Train step of epoch 1:   0%|          | 1/4533 [00:24<30:30:31, 24.23s/it, gpt_loss=0.321, loss_mean=0.0321][A[A2026-01-27 02:10:00.074 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   0%|          | 1/4533 [00:33<30:30:31, 24.23s/it, gpt_loss=0.271, loss_mean=0.056] [A[A
+
+Train step of epoch 1:   0%|          | 2/4533 [00:33<19:05:22, 15.17s/it, gpt_loss=0.271, loss_mean=0.056][A[A2026-01-27 02:10:08.659 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   0%|          | 2/4533 [00:41<19:05:22, 15.17s/it, gpt_loss=0.335, loss_mean=0.0839][A[A
+
+Train step of epoch 1:   0%|          | 3/4533 [00:41<15:19:59, 12.19s/it, gpt_loss=0.335, loss_mean=0.0839][A[A2026-01-27 02:10:17.497 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   0%|          | 3/4533 [00:53<15:19:59, 12.19s/it, gpt_loss=0.285, loss_mean=0.104] [A[A
+
+Train step of epoch 1:   0%|          | 4/4533 [00:53<15:10:51, 12.07s/it, gpt_loss=0.285, loss_mean=0.104][A[A2026-01-27 02:10:29.284 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   0%|          | 4/4533 [01:02<15:10:51, 12.07s/it, gpt_loss=0.217, loss_mean=0.115][A[A
+
+Train step of epoch 1:   0%|          | 5/4533 [01:02<13:40:45, 10.88s/it, gpt_loss=0.217, loss_mean=0.115][A[A2026-01-27 02:10:37.970 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   0%|          | 5/4533 [01:12<13:40:45, 10.88s/it, gpt_loss=0.342, loss_mean=0.138][A[A
+
+Train step of epoch 1:   0%|          | 6/4533 [01:12<13:15:38, 10.55s/it, gpt_loss=0.342, loss_mean=0.138][A[A
+[LID Router Debug] Step: 4540
+Batch Size: 14
+Audio Batch Size: 161
+LID Assignments: [4, 5, 1, 1, 5, 9, 9, 3, 0, 6, 3, 9, 2, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 02:10:47.882 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   0%|          | 6/4533 [01:21<13:15:38, 10.55s/it, gpt_loss=0.226, loss_mean=0.147][A[A
+
+Train step of epoch 1:   0%|          | 7/4533 [01:21<12:44:50, 10.14s/it, gpt_loss=0.226, loss_mean=0.147][A[A2026-01-27 02:10:57.262 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   0%|          | 7/4533 [01:30<12:44:50, 10.14s/it, gpt_loss=0.232, loss_mean=0.155][A[A
+
+Train step of epoch 1:   0%|          | 8/4533 [01:30<12:11:56,  9.71s/it, gpt_loss=0.232, loss_mean=0.155][A[A2026-01-27 02:11:05.962 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   0%|          | 8/4533 [01:39<12:11:56,  9.71s/it, gpt_loss=0.293, loss_mean=0.169][A[A
+
+Train step of epoch 1:   0%|          | 9/4533 [01:39<11:47:34,  9.38s/it, gpt_loss=0.293, loss_mean=0.169][A[A2026-01-27 02:11:14.579 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   0%|          | 9/4533 [01:47<11:47:34,  9.38s/it, gpt_loss=0.431, loss_mean=0.195][A[A
+
+Train step of epoch 1:   0%|          | 10/4533 [01:47<11:30:19,  9.16s/it, gpt_loss=0.431, loss_mean=0.195][A[A2026-01-27 02:11:23.175 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   0%|          | 10/4533 [01:56<11:30:19,  9.16s/it, gpt_loss=0.263, loss_mean=0.202][A[A
+
+Train step of epoch 1:   0%|          | 11/4533 [01:56<11:24:16,  9.08s/it, gpt_loss=0.263, loss_mean=0.202][A[A2026-01-27 02:11:32.294 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   0%|          | 11/4533 [02:05<11:24:16,  9.08s/it, gpt_loss=0.231, loss_mean=0.205][A[A
+
+Train step of epoch 1:   0%|          | 12/4533 [02:05<11:29:52,  9.16s/it, gpt_loss=0.231, loss_mean=0.205][A[A2026-01-27 02:11:40.957 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   0%|          | 12/4533 [02:17<11:29:52,  9.16s/it, gpt_loss=0.37, loss_mean=0.221] [A[A
+
+Train step of epoch 1:   0%|          | 13/4533 [02:17<12:25:24,  9.89s/it, gpt_loss=0.37, loss_mean=0.221][A[A2026-01-27 02:11:53.252 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   0%|          | 13/4533 [02:27<12:25:24,  9.89s/it, gpt_loss=0.239, loss_mean=0.223][A[A
+
+Train step of epoch 1:   0%|          | 14/4533 [02:27<12:23:31,  9.87s/it, gpt_loss=0.239, loss_mean=0.223][A[A2026-01-27 02:12:02.980 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   0%|          | 14/4533 [02:37<12:23:31,  9.87s/it, gpt_loss=0.261, loss_mean=0.227][A[A
+
+Train step of epoch 1:   0%|          | 15/4533 [02:37<12:20:46,  9.84s/it, gpt_loss=0.261, loss_mean=0.227][A[A2026-01-27 02:12:12.579 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   0%|          | 15/4533 [02:46<12:20:46,  9.84s/it, gpt_loss=0.266, loss_mean=0.231][A[A
+
+Train step of epoch 1:   0%|          | 16/4533 [02:46<12:02:14,  9.59s/it, gpt_loss=0.266, loss_mean=0.231][A[A
+[LID Router Debug] Step: 4550
+Batch Size: 14
+Audio Batch Size: 163
+LID Assignments: [5, 9, 1, 1, 1, 1, 3, 9, 0, 9, 1, 2, 3, 0]
+Active Experts in Batch: {0, 1, 2, 3, 5, 9}
+2026-01-27 02:12:21.586 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   0%|          | 16/4533 [02:57<12:02:14,  9.59s/it, gpt_loss=0.348, loss_mean=0.243][A[A
+
+Train step of epoch 1:   0%|          | 17/4533 [02:57<12:49:00, 10.22s/it, gpt_loss=0.348, loss_mean=0.243][A[A2026-01-27 02:12:33.498 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   0%|          | 17/4533 [03:06<12:49:00, 10.22s/it, gpt_loss=0.283, loss_mean=0.247][A[A
+
+Train step of epoch 1:   0%|          | 18/4533 [03:06<12:16:25,  9.79s/it, gpt_loss=0.283, loss_mean=0.247][A[A2026-01-27 02:12:42.179 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   0%|          | 18/4533 [03:15<12:16:25,  9.79s/it, gpt_loss=0.236, loss_mean=0.246][A[A
+
+Train step of epoch 1:   0%|          | 19/4533 [03:15<11:53:55,  9.49s/it, gpt_loss=0.236, loss_mean=0.246][A[A2026-01-27 02:12:50.593 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   0%|          | 19/4533 [03:23<11:53:55,  9.49s/it, gpt_loss=0.249, loss_mean=0.246][A[A
+
+Train step of epoch 1:   0%|          | 20/4533 [03:23<11:33:23,  9.22s/it, gpt_loss=0.249, loss_mean=0.246][A[A2026-01-27 02:12:59.367 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   0%|          | 20/4533 [03:33<11:33:23,  9.22s/it, gpt_loss=0.257, loss_mean=0.247][A[A
+
+Train step of epoch 1:   0%|          | 21/4533 [03:33<11:41:14,  9.32s/it, gpt_loss=0.257, loss_mean=0.247][A[A2026-01-27 02:13:09.172 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   0%|          | 21/4533 [03:45<11:41:14,  9.32s/it, gpt_loss=0.312, loss_mean=0.254][A[A
+
+Train step of epoch 1:   0%|          | 22/4533 [03:45<12:36:39, 10.06s/it, gpt_loss=0.312, loss_mean=0.254][A[A2026-01-27 02:13:20.875 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   0%|          | 22/4533 [03:54<12:36:39, 10.06s/it, gpt_loss=0.296, loss_mean=0.258][A[A
+
+Train step of epoch 1:   1%|          | 23/4533 [03:54<12:09:26,  9.70s/it, gpt_loss=0.296, loss_mean=0.258][A[A2026-01-27 02:13:29.683 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   1%|          | 23/4533 [04:05<12:09:26,  9.70s/it, gpt_loss=0.429, loss_mean=0.275][A[A
+
+Train step of epoch 1:   1%|          | 24/4533 [04:05<12:55:58, 10.33s/it, gpt_loss=0.429, loss_mean=0.275][A[A2026-01-27 02:13:41.385 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   1%|          | 24/4533 [04:15<12:55:58, 10.33s/it, gpt_loss=0.219, loss_mean=0.269][A[A
+
+Train step of epoch 1:   1%|          | 25/4533 [04:15<12:28:24,  9.96s/it, gpt_loss=0.219, loss_mean=0.269][A[A2026-01-27 02:13:50.491 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   1%|          | 25/4533 [04:24<12:28:24,  9.96s/it, gpt_loss=0.252, loss_mean=0.268][A[A
+
+Train step of epoch 1:   1%|          | 26/4533 [04:24<12:13:04,  9.76s/it, gpt_loss=0.252, loss_mean=0.268][A[A
+[LID Router Debug] Step: 4560
+Batch Size: 14
+Audio Batch Size: 148
+LID Assignments: [0, 9, 5, 0, 1, 3, 9, 3, 4, 0, 1, 0, 9, 0]
+Active Experts in Batch: {0, 1, 3, 4, 5, 9}
+2026-01-27 02:14:00.171 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   1%|          | 26/4533 [04:34<12:13:04,  9.76s/it, gpt_loss=0.352, loss_mean=0.276][A[A
+
+Train step of epoch 1:   1%|          | 27/4533 [04:34<12:14:27,  9.78s/it, gpt_loss=0.352, loss_mean=0.276][A[A2026-01-27 02:14:09.968 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   1%|          | 27/4533 [04:42<12:14:27,  9.78s/it, gpt_loss=0.266, loss_mean=0.275][A[A
+
+Train step of epoch 1:   1%|          | 28/4533 [04:42<11:52:22,  9.49s/it, gpt_loss=0.266, loss_mean=0.275][A[A2026-01-27 02:14:18.687 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   1%|          | 28/4533 [04:51<11:52:22,  9.49s/it, gpt_loss=0.257, loss_mean=0.273][A[A
+
+Train step of epoch 1:   1%|          | 29/4533 [04:51<11:39:26,  9.32s/it, gpt_loss=0.257, loss_mean=0.273][A[A2026-01-27 02:14:27.577 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   1%|          | 29/4533 [05:03<11:39:26,  9.32s/it, gpt_loss=0.395, loss_mean=0.285][A[A
+
+Train step of epoch 1:   1%|          | 30/4533 [05:03<12:41:32, 10.15s/it, gpt_loss=0.395, loss_mean=0.285][A[A2026-01-27 02:14:39.682 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   1%|          | 30/4533 [05:16<12:41:32, 10.15s/it, gpt_loss=0.322, loss_mean=0.289][A[A
+
+Train step of epoch 1:   1%|          | 31/4533 [05:16<13:26:40, 10.75s/it, gpt_loss=0.322, loss_mean=0.289][A[A2026-01-27 02:14:51.893 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   1%|          | 31/4533 [05:25<13:26:40, 10.75s/it, gpt_loss=0.33, loss_mean=0.293] [A[A
+
+Train step of epoch 1:   1%|          | 32/4533 [05:25<12:45:44, 10.21s/it, gpt_loss=0.33, loss_mean=0.293][A[A2026-01-27 02:15:00.482 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   1%|          | 32/4533 [05:36<12:45:44, 10.21s/it, gpt_loss=0.335, loss_mean=0.297][A[A
+
+Train step of epoch 1:   1%|          | 33/4533 [05:36<13:11:29, 10.55s/it, gpt_loss=0.335, loss_mean=0.297][A[A2026-01-27 02:15:11.984 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   1%|          | 33/4533 [05:45<13:11:29, 10.55s/it, gpt_loss=0.239, loss_mean=0.292][A[A
+
+Train step of epoch 1:   1%|          | 34/4533 [05:45<12:28:36,  9.98s/it, gpt_loss=0.239, loss_mean=0.292][A[A2026-01-27 02:15:20.588 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   1%|          | 34/4533 [05:54<12:28:36,  9.98s/it, gpt_loss=0.243, loss_mean=0.287][A[A
+
+Train step of epoch 1:   1%|          | 35/4533 [05:54<12:16:32,  9.83s/it, gpt_loss=0.243, loss_mean=0.287][A[A2026-01-27 02:15:30.090 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   1%|          | 35/4533 [06:03<12:16:32,  9.83s/it, gpt_loss=0.253, loss_mean=0.283][A[A
+
+Train step of epoch 1:   1%|          | 36/4533 [06:03<11:58:09,  9.58s/it, gpt_loss=0.253, loss_mean=0.283][A[A
+[LID Router Debug] Step: 4570
+Batch Size: 14
+Audio Batch Size: 180
+LID Assignments: [6, 3, 1, 0, 1, 5, 3, 3, 2, 4, 5, 5, 9, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 02:15:39.090 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   1%|          | 36/4533 [06:15<11:58:09,  9.58s/it, gpt_loss=0.358, loss_mean=0.291][A[A
+
+Train step of epoch 1:   1%|          | 37/4533 [06:15<12:40:55, 10.15s/it, gpt_loss=0.358, loss_mean=0.291][A[A2026-01-27 02:15:50.404 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   1%|          | 37/4533 [06:26<12:40:55, 10.15s/it, gpt_loss=0.269, loss_mean=0.289][A[A
+
+Train step of epoch 1:   1%|          | 38/4533 [06:26<13:15:49, 10.62s/it, gpt_loss=0.269, loss_mean=0.289][A[A2026-01-27 02:16:02.276 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   1%|          | 38/4533 [06:35<13:15:49, 10.62s/it, gpt_loss=0.199, loss_mean=0.28] [A[A
+
+Train step of epoch 1:   1%|          | 39/4533 [06:35<12:34:09, 10.07s/it, gpt_loss=0.199, loss_mean=0.28][A[A2026-01-27 02:16:11.081 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   1%|          | 39/4533 [06:44<12:34:09, 10.07s/it, gpt_loss=0.291, loss_mean=0.281][A[A
+
+Train step of epoch 1:   1%|          | 40/4533 [06:44<12:04:38,  9.68s/it, gpt_loss=0.291, loss_mean=0.281][A[A2026-01-27 02:16:19.878 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   1%|          | 40/4533 [06:55<12:04:38,  9.68s/it, gpt_loss=0.345, loss_mean=0.287][A[A
+
+Train step of epoch 1:   1%|          | 41/4533 [06:55<12:48:04, 10.26s/it, gpt_loss=0.345, loss_mean=0.287][A[A2026-01-27 02:16:31.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   1%|          | 41/4533 [07:04<12:48:04, 10.26s/it, gpt_loss=0.239, loss_mean=0.282][A[A
+
+Train step of epoch 1:   1%|          | 42/4533 [07:04<12:15:23,  9.82s/it, gpt_loss=0.239, loss_mean=0.282][A[A2026-01-27 02:16:40.468 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   1%|          | 42/4533 [07:13<12:15:23,  9.82s/it, gpt_loss=0.27, loss_mean=0.281] [A[A
+
+Train step of epoch 1:   1%|          | 43/4533 [07:13<11:50:31,  9.49s/it, gpt_loss=0.27, loss_mean=0.281][A[A2026-01-27 02:16:49.063 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   1%|          | 43/4533 [07:23<11:50:31,  9.49s/it, gpt_loss=0.243, loss_mean=0.277][A[A
+
+Train step of epoch 1:   1%|          | 44/4533 [07:23<11:53:19,  9.53s/it, gpt_loss=0.243, loss_mean=0.277][A[A2026-01-27 02:16:58.808 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   1%|          | 44/4533 [07:32<11:53:19,  9.53s/it, gpt_loss=0.317, loss_mean=0.281][A[A
+
+Train step of epoch 1:   1%|          | 45/4533 [07:32<11:57:18,  9.59s/it, gpt_loss=0.317, loss_mean=0.281][A[A2026-01-27 02:17:08.063 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   1%|          | 45/4533 [07:41<11:57:18,  9.59s/it, gpt_loss=0.267, loss_mean=0.28] [A[A
+
+Train step of epoch 1:   1%|          | 46/4533 [07:41<11:31:33,  9.25s/it, gpt_loss=0.267, loss_mean=0.28][A[A
+[LID Router Debug] Step: 4580
+Batch Size: 14
+Audio Batch Size: 187
+LID Assignments: [5, 3, 4, 3, 5, 0, 4, 4, 9, 9, 3, 3, 1, 3]
+Active Experts in Batch: {0, 1, 3, 4, 5, 9}
+2026-01-27 02:17:17.069 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   1%|          | 46/4533 [07:50<11:31:33,  9.25s/it, gpt_loss=0.225, loss_mean=0.274][A[A
+
+Train step of epoch 1:   1%|          | 47/4533 [07:50<11:34:55,  9.29s/it, gpt_loss=0.225, loss_mean=0.274][A[A2026-01-27 02:17:26.202 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   1%|          | 47/4533 [07:59<11:34:55,  9.29s/it, gpt_loss=0.29, loss_mean=0.276] [A[A
+
+Train step of epoch 1:   1%|          | 48/4533 [07:59<11:21:52,  9.12s/it, gpt_loss=0.29, loss_mean=0.276][A[A2026-01-27 02:17:34.975 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   1%|          | 48/4533 [08:11<11:21:52,  9.12s/it, gpt_loss=0.331, loss_mean=0.281][A[A
+
+Train step of epoch 1:   1%|          | 49/4533 [08:11<12:23:31,  9.95s/it, gpt_loss=0.331, loss_mean=0.281][A[A2026-01-27 02:17:46.757 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   1%|          | 49/4533 [08:23<12:23:31,  9.95s/it, gpt_loss=0.392, loss_mean=0.292][A[A
+
+Train step of epoch 1:   1%|          | 50/4533 [08:23<13:10:07, 10.57s/it, gpt_loss=0.392, loss_mean=0.292][A[A2026-01-27 02:17:58.776 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   1%|          | 50/4533 [08:32<13:10:07, 10.57s/it, gpt_loss=0.311, loss_mean=0.294][A[A
+
+Train step of epoch 1:   1%|          | 51/4533 [08:32<12:42:11, 10.20s/it, gpt_loss=0.311, loss_mean=0.294][A[A2026-01-27 02:18:08.283 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   1%|          | 51/4533 [08:44<12:42:11, 10.20s/it, gpt_loss=0.359, loss_mean=0.301][A[A
+
+Train step of epoch 1:   1%|          | 52/4533 [08:44<13:15:40, 10.65s/it, gpt_loss=0.359, loss_mean=0.301][A[A2026-01-27 02:18:20.087 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   1%|          | 52/4533 [08:53<13:15:40, 10.65s/it, gpt_loss=0.312, loss_mean=0.302][A[A
+
+Train step of epoch 1:   1%|          | 53/4533 [08:53<12:37:36, 10.15s/it, gpt_loss=0.312, loss_mean=0.302][A[A2026-01-27 02:18:28.779 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   1%|          | 53/4533 [09:05<12:37:36, 10.15s/it, gpt_loss=0.424, loss_mean=0.314][A[A
+
+Train step of epoch 1:   1%|          | 54/4533 [09:05<13:19:46, 10.71s/it, gpt_loss=0.424, loss_mean=0.314][A[A2026-01-27 02:18:41.096 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   1%|          | 54/4533 [09:15<13:19:46, 10.71s/it, gpt_loss=0.302, loss_mean=0.313][A[A
+
+Train step of epoch 1:   1%|          | 55/4533 [09:15<13:00:53, 10.46s/it, gpt_loss=0.302, loss_mean=0.313][A[A2026-01-27 02:18:50.488 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   1%|          | 55/4533 [09:23<13:00:53, 10.46s/it, gpt_loss=0.256, loss_mean=0.307][A[A
+
+Train step of epoch 1:   1%|          | 56/4533 [09:23<12:15:42,  9.86s/it, gpt_loss=0.256, loss_mean=0.307][A[A
+[LID Router Debug] Step: 4590
+Batch Size: 14
+Audio Batch Size: 164
+LID Assignments: [2, 4, 3, 5, 3, 2, 1, 9, 3, 4, 2, 0, 2, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 02:18:59.374 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   1%|          | 56/4533 [09:32<12:15:42,  9.86s/it, gpt_loss=0.228, loss_mean=0.299][A[A
+
+Train step of epoch 1:   1%|▏         | 57/4533 [09:32<12:02:21,  9.68s/it, gpt_loss=0.228, loss_mean=0.299][A[A2026-01-27 02:19:08.582 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   1%|▏         | 57/4533 [09:44<12:02:21,  9.68s/it, gpt_loss=0.416, loss_mean=0.311][A[A
+
+Train step of epoch 1:   1%|▏         | 58/4533 [09:44<12:48:50, 10.31s/it, gpt_loss=0.416, loss_mean=0.311][A[A2026-01-27 02:19:20.459 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   1%|▏         | 58/4533 [09:53<12:48:50, 10.31s/it, gpt_loss=0.291, loss_mean=0.309][A[A
+
+Train step of epoch 1:   1%|▏         | 59/4533 [09:53<12:13:59,  9.84s/it, gpt_loss=0.291, loss_mean=0.309][A[A2026-01-27 02:19:29.203 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   1%|▏         | 59/4533 [10:02<12:13:59,  9.84s/it, gpt_loss=0.455, loss_mean=0.324][A[A
+
+Train step of epoch 1:   1%|▏         | 60/4533 [10:02<11:58:46,  9.64s/it, gpt_loss=0.455, loss_mean=0.324][A[A2026-01-27 02:19:38.053 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   1%|▏         | 60/4533 [10:11<11:58:46,  9.64s/it, gpt_loss=0.266, loss_mean=0.318][A[A
+
+Train step of epoch 1:   1%|▏         | 61/4533 [10:11<11:36:01,  9.34s/it, gpt_loss=0.266, loss_mean=0.318][A[A2026-01-27 02:19:46.953 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   1%|▏         | 61/4533 [10:20<11:36:01,  9.34s/it, gpt_loss=0.206, loss_mean=0.307][A[A
+
+Train step of epoch 1:   1%|▏         | 62/4533 [10:20<11:42:52,  9.43s/it, gpt_loss=0.206, loss_mean=0.307][A[A2026-01-27 02:19:56.094 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   1%|▏         | 62/4533 [10:29<11:42:52,  9.43s/it, gpt_loss=0.315, loss_mean=0.307][A[A
+
+Train step of epoch 1:   1%|▏         | 63/4533 [10:29<11:19:11,  9.12s/it, gpt_loss=0.315, loss_mean=0.307][A[A2026-01-27 02:20:04.970 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   1%|▏         | 63/4533 [10:41<11:19:11,  9.12s/it, gpt_loss=0.316, loss_mean=0.308][A[A
+
+Train step of epoch 1:   1%|▏         | 64/4533 [10:41<12:21:22,  9.95s/it, gpt_loss=0.316, loss_mean=0.308][A[A2026-01-27 02:20:16.888 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   1%|▏         | 64/4533 [10:49<12:21:22,  9.95s/it, gpt_loss=0.266, loss_mean=0.304][A[A
+
+Train step of epoch 1:   1%|▏         | 65/4533 [10:49<11:55:38,  9.61s/it, gpt_loss=0.266, loss_mean=0.304][A[A2026-01-27 02:20:25.460 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   1%|▏         | 65/4533 [11:01<11:55:38,  9.61s/it, gpt_loss=0.351, loss_mean=0.309][A[A
+
+Train step of epoch 1:   1%|▏         | 66/4533 [11:01<12:43:26, 10.25s/it, gpt_loss=0.351, loss_mean=0.309][A[A
+[LID Router Debug] Step: 4600
+Batch Size: 14
+Audio Batch Size: 133
+LID Assignments: [3, 1, 2, 5, 1, 9, 9, 2, 5, 9, 5, 0, 1, 0]
+Active Experts in Batch: {0, 1, 2, 3, 5, 9}
+2026-01-27 02:20:37.469 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+[2026-01-27 02:20:48,733] [INFO] [logging.py:96:log_dist] [Rank 0] step=4600, skipped=0, lr=[1.504775079646239e-05, 1.504775079646239e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 02:20:48,734] [INFO] [timer.py:260:stop] epoch=0/micro_step=4600/global_step=4600, RunningAvgSamplesPerSec=5.7239930039539555, CurrSamplesPerSec=4.682451117710044, MemAllocated=14.6GB, MaxMemAllocated=53.98GB
+
+
+Train step of epoch 1:   1%|▏         | 66/4533 [11:13<12:43:26, 10.25s/it, gpt_loss=0.327, loss_mean=0.311][A[A
+
+Train step of epoch 1:   1%|▏         | 67/4533 [11:13<13:21:47, 10.77s/it, gpt_loss=0.327, loss_mean=0.311][A[A2026-01-27 02:20:49.398 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   1%|▏         | 67/4533 [11:23<13:21:47, 10.77s/it, gpt_loss=0.242, loss_mean=0.304][A[A
+
+Train step of epoch 1:   2%|▏         | 68/4533 [11:23<13:00:08, 10.48s/it, gpt_loss=0.242, loss_mean=0.304][A[A2026-01-27 02:20:59.191 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   2%|▏         | 68/4533 [11:35<13:00:08, 10.48s/it, gpt_loss=0.368, loss_mean=0.31] [A[A
+
+Train step of epoch 1:   2%|▏         | 69/4533 [11:35<13:31:22, 10.91s/it, gpt_loss=0.368, loss_mean=0.31][A[A2026-01-27 02:21:10.952 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   2%|▏         | 69/4533 [11:44<13:31:22, 10.91s/it, gpt_loss=0.288, loss_mean=0.308][A[A
+
+Train step of epoch 1:   2%|▏         | 70/4533 [11:44<12:56:26, 10.44s/it, gpt_loss=0.288, loss_mean=0.308][A[A2026-01-27 02:21:20.484 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   2%|▏         | 70/4533 [11:53<12:56:26, 10.44s/it, gpt_loss=0.277, loss_mean=0.305][A[A
+
+Train step of epoch 1:   2%|▏         | 71/4533 [11:53<12:21:50,  9.98s/it, gpt_loss=0.277, loss_mean=0.305][A[A2026-01-27 02:21:29.278 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   2%|▏         | 71/4533 [12:02<12:21:50,  9.98s/it, gpt_loss=0.257, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:   2%|▏         | 72/4533 [12:02<11:58:11,  9.66s/it, gpt_loss=0.257, loss_mean=0.3][A[A2026-01-27 02:21:38.360 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   2%|▏         | 72/4533 [12:14<11:58:11,  9.66s/it, gpt_loss=0.335, loss_mean=0.304][A[A
+
+Train step of epoch 1:   2%|▏         | 73/4533 [12:14<12:51:19, 10.38s/it, gpt_loss=0.335, loss_mean=0.304][A[A2026-01-27 02:21:50.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   2%|▏         | 73/4533 [12:23<12:51:19, 10.38s/it, gpt_loss=0.219, loss_mean=0.295][A[A
+
+Train step of epoch 1:   2%|▏         | 74/4533 [12:23<12:24:10, 10.01s/it, gpt_loss=0.219, loss_mean=0.295][A[A2026-01-27 02:21:59.597 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   2%|▏         | 74/4533 [12:32<12:24:10, 10.01s/it, gpt_loss=0.32, loss_mean=0.298] [A[A
+
+Train step of epoch 1:   2%|▏         | 75/4533 [12:32<11:56:48,  9.65s/it, gpt_loss=0.32, loss_mean=0.298][A[A2026-01-27 02:22:08.380 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   2%|▏         | 75/4533 [12:41<11:56:48,  9.65s/it, gpt_loss=0.325, loss_mean=0.3] [A[A
+
+Train step of epoch 1:   2%|▏         | 76/4533 [12:41<11:40:42,  9.43s/it, gpt_loss=0.325, loss_mean=0.3][A[A
+[LID Router Debug] Step: 4610
+Batch Size: 14
+Audio Batch Size: 156
+LID Assignments: [6, 2, 9, 3, 4, 1, 6, 0, 9, 4, 1, 3, 3, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-27 02:22:17.276 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   2%|▏         | 76/4533 [12:50<11:40:42,  9.43s/it, gpt_loss=0.278, loss_mean=0.298][A[A
+
+Train step of epoch 1:   2%|▏         | 77/4533 [12:50<11:26:47,  9.25s/it, gpt_loss=0.278, loss_mean=0.298][A[A2026-01-27 02:22:26.171 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   2%|▏         | 77/4533 [12:59<11:26:47,  9.25s/it, gpt_loss=0.225, loss_mean=0.291][A[A
+
+Train step of epoch 1:   2%|▏         | 78/4533 [12:59<11:25:42,  9.24s/it, gpt_loss=0.225, loss_mean=0.291][A[A2026-01-27 02:22:35.264 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   2%|▏         | 78/4533 [13:09<11:25:42,  9.24s/it, gpt_loss=0.296, loss_mean=0.291][A[A
+
+Train step of epoch 1:   2%|▏         | 79/4533 [13:09<11:40:57,  9.44s/it, gpt_loss=0.296, loss_mean=0.291][A[A2026-01-27 02:22:45.264 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   2%|▏         | 79/4533 [13:19<11:40:57,  9.44s/it, gpt_loss=0.257, loss_mean=0.288][A[A
+
+Train step of epoch 1:   2%|▏         | 80/4533 [13:19<11:45:25,  9.50s/it, gpt_loss=0.257, loss_mean=0.288][A[A2026-01-27 02:22:54.873 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   2%|▏         | 80/4533 [13:28<11:45:25,  9.50s/it, gpt_loss=0.306, loss_mean=0.29] [A[A
+
+Train step of epoch 1:   2%|▏         | 81/4533 [13:28<11:48:16,  9.55s/it, gpt_loss=0.306, loss_mean=0.29][A[A2026-01-27 02:23:04.565 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   2%|▏         | 81/4533 [13:38<11:48:16,  9.55s/it, gpt_loss=0.298, loss_mean=0.291][A[A
+
+Train step of epoch 1:   2%|▏         | 82/4533 [13:38<11:50:26,  9.58s/it, gpt_loss=0.298, loss_mean=0.291][A[A2026-01-27 02:23:14.200 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   2%|▏         | 82/4533 [13:48<11:50:26,  9.58s/it, gpt_loss=0.371, loss_mean=0.299][A[A
+
+Train step of epoch 1:   2%|▏         | 83/4533 [13:48<11:50:44,  9.58s/it, gpt_loss=0.371, loss_mean=0.299][A[A2026-01-27 02:23:23.577 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   2%|▏         | 83/4533 [13:56<11:50:44,  9.58s/it, gpt_loss=0.289, loss_mean=0.298][A[A
+
+Train step of epoch 1:   2%|▏         | 84/4533 [13:56<11:32:19,  9.34s/it, gpt_loss=0.289, loss_mean=0.298][A[A2026-01-27 02:23:32.560 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   2%|▏         | 84/4533 [14:08<11:32:19,  9.34s/it, gpt_loss=0.27, loss_mean=0.295] [A[A
+
+Train step of epoch 1:   2%|▏         | 85/4533 [14:08<12:35:07, 10.19s/it, gpt_loss=0.27, loss_mean=0.295][A[A2026-01-27 02:23:44.391 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   2%|▏         | 85/4533 [14:18<12:35:07, 10.19s/it, gpt_loss=0.273, loss_mean=0.293][A[A
+
+Train step of epoch 1:   2%|▏         | 86/4533 [14:18<12:19:53,  9.98s/it, gpt_loss=0.273, loss_mean=0.293][A[A
+[LID Router Debug] Step: 4620
+Batch Size: 14
+Audio Batch Size: 135
+LID Assignments: [2, 0, 2, 9, 4, 5, 2, 4, 3, 1, 4, 5, 9, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 02:23:54.256 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   2%|▏         | 86/4533 [14:27<12:19:53,  9.98s/it, gpt_loss=0.343, loss_mean=0.298][A[A
+
+Train step of epoch 1:   2%|▏         | 87/4533 [14:27<12:05:54,  9.80s/it, gpt_loss=0.343, loss_mean=0.298][A[A2026-01-27 02:24:03.269 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   2%|▏         | 87/4533 [14:36<12:05:54,  9.80s/it, gpt_loss=0.312, loss_mean=0.299][A[A
+
+Train step of epoch 1:   2%|▏         | 88/4533 [14:36<11:40:47,  9.46s/it, gpt_loss=0.312, loss_mean=0.299][A[A2026-01-27 02:24:12.271 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   2%|▏         | 88/4533 [14:46<11:40:47,  9.46s/it, gpt_loss=0.275, loss_mean=0.297][A[A
+
+Train step of epoch 1:   2%|▏         | 89/4533 [14:46<11:47:53,  9.56s/it, gpt_loss=0.275, loss_mean=0.297][A[A2026-01-27 02:24:21.584 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   2%|▏         | 89/4533 [14:57<11:47:53,  9.56s/it, gpt_loss=0.38, loss_mean=0.305] [A[A
+
+Train step of epoch 1:   2%|▏         | 90/4533 [14:57<12:34:43, 10.19s/it, gpt_loss=0.38, loss_mean=0.305][A[A2026-01-27 02:24:33.452 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   2%|▏         | 90/4533 [15:06<12:34:43, 10.19s/it, gpt_loss=0.24, loss_mean=0.298][A[A
+
+Train step of epoch 1:   2%|▏         | 91/4533 [15:06<12:07:15,  9.82s/it, gpt_loss=0.24, loss_mean=0.298][A[A2026-01-27 02:24:42.685 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   2%|▏         | 91/4533 [15:15<12:07:15,  9.82s/it, gpt_loss=0.25, loss_mean=0.294][A[A
+
+Train step of epoch 1:   2%|▏         | 92/4533 [15:15<11:45:49,  9.54s/it, gpt_loss=0.25, loss_mean=0.294][A[A2026-01-27 02:24:51.378 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   2%|▏         | 92/4533 [15:27<11:45:49,  9.54s/it, gpt_loss=0.319, loss_mean=0.296][A[A
+
+Train step of epoch 1:   2%|▏         | 93/4533 [15:27<12:40:44, 10.28s/it, gpt_loss=0.319, loss_mean=0.296][A[A2026-01-27 02:25:03.372 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   2%|▏         | 93/4533 [15:39<12:40:44, 10.28s/it, gpt_loss=0.351, loss_mean=0.302][A[A
+
+Train step of epoch 1:   2%|▏         | 94/4533 [15:39<13:14:22, 10.74s/it, gpt_loss=0.351, loss_mean=0.302][A[A2026-01-27 02:25:15.360 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   2%|▏         | 94/4533 [15:49<13:14:22, 10.74s/it, gpt_loss=0.268, loss_mean=0.298][A[A
+
+Train step of epoch 1:   2%|▏         | 95/4533 [15:49<12:45:02, 10.34s/it, gpt_loss=0.268, loss_mean=0.298][A[A2026-01-27 02:25:24.768 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   2%|▏         | 95/4533 [15:58<12:45:02, 10.34s/it, gpt_loss=0.31, loss_mean=0.299] [A[A
+
+Train step of epoch 1:   2%|▏         | 96/4533 [15:58<12:17:06,  9.97s/it, gpt_loss=0.31, loss_mean=0.299][A[A
+[LID Router Debug] Step: 4630
+Batch Size: 14
+Audio Batch Size: 154
+LID Assignments: [9, 0, 0, 5, 9, 9, 2, 4, 1, 4, 0, 3, 3, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 02:25:33.899 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   2%|▏         | 96/4533 [16:07<12:17:06,  9.97s/it, gpt_loss=0.29, loss_mean=0.299][A[A
+
+Train step of epoch 1:   2%|▏         | 97/4533 [16:07<12:11:09,  9.89s/it, gpt_loss=0.29, loss_mean=0.299][A[A2026-01-27 02:25:43.596 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   2%|▏         | 97/4533 [16:16<12:11:09,  9.89s/it, gpt_loss=0.328, loss_mean=0.301][A[A
+
+Train step of epoch 1:   2%|▏         | 98/4533 [16:16<11:54:02,  9.66s/it, gpt_loss=0.328, loss_mean=0.301][A[A2026-01-27 02:25:52.257 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   2%|▏         | 98/4533 [16:25<11:54:02,  9.66s/it, gpt_loss=0.223, loss_mean=0.294][A[A
+
+Train step of epoch 1:   2%|▏         | 99/4533 [16:25<11:28:20,  9.31s/it, gpt_loss=0.223, loss_mean=0.294][A[A2026-01-27 02:26:00.965 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   2%|▏         | 99/4533 [16:34<11:28:20,  9.31s/it, gpt_loss=0.219, loss_mean=0.286][A[A
+
+Train step of epoch 1:   2%|▏         | 100/4533 [16:34<11:28:34,  9.32s/it, gpt_loss=0.219, loss_mean=0.286][A[A2026-01-27 02:26:10.477 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   2%|▏         | 100/4533 [16:44<11:28:34,  9.32s/it, gpt_loss=0.369, loss_mean=0.294][A[A
+
+Train step of epoch 1:   2%|▏         | 101/4533 [16:44<11:41:26,  9.50s/it, gpt_loss=0.369, loss_mean=0.294][A[A2026-01-27 02:26:20.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   2%|▏         | 101/4533 [16:53<11:41:26,  9.50s/it, gpt_loss=0.275, loss_mean=0.292][A[A
+
+Train step of epoch 1:   2%|▏         | 102/4533 [16:53<11:30:36,  9.35s/it, gpt_loss=0.275, loss_mean=0.292][A[A2026-01-27 02:26:29.279 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   2%|▏         | 102/4533 [17:02<11:30:36,  9.35s/it, gpt_loss=0.306, loss_mean=0.294][A[A
+
+Train step of epoch 1:   2%|▏         | 103/4533 [17:02<11:13:08,  9.12s/it, gpt_loss=0.306, loss_mean=0.294][A[A2026-01-27 02:26:37.791 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   2%|▏         | 103/4533 [17:13<11:13:08,  9.12s/it, gpt_loss=0.35, loss_mean=0.299] [A[A
+
+Train step of epoch 1:   2%|▏         | 104/4533 [17:13<12:02:38,  9.79s/it, gpt_loss=0.35, loss_mean=0.299][A[A2026-01-27 02:26:49.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   2%|▏         | 104/4533 [17:23<12:02:38,  9.79s/it, gpt_loss=0.246, loss_mean=0.294][A[A
+
+Train step of epoch 1:   2%|▏         | 105/4533 [17:23<11:53:08,  9.66s/it, gpt_loss=0.246, loss_mean=0.294][A[A2026-01-27 02:26:58.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   2%|▏         | 105/4533 [17:32<11:53:08,  9.66s/it, gpt_loss=0.317, loss_mean=0.296][A[A
+
+Train step of epoch 1:   2%|▏         | 106/4533 [17:32<11:42:41,  9.52s/it, gpt_loss=0.317, loss_mean=0.296][A[A
+[LID Router Debug] Step: 4640
+Batch Size: 14
+Audio Batch Size: 123
+LID Assignments: [6, 2, 2, 5, 3, 2, 6, 9, 0, 1, 1, 5, 6, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 02:27:07.669 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   2%|▏         | 106/4533 [17:40<11:42:41,  9.52s/it, gpt_loss=0.234, loss_mean=0.29] [A[A
+
+Train step of epoch 1:   2%|▏         | 107/4533 [17:40<11:22:08,  9.25s/it, gpt_loss=0.234, loss_mean=0.29][A[A2026-01-27 02:27:16.480 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   2%|▏         | 107/4533 [17:52<11:22:08,  9.25s/it, gpt_loss=0.402, loss_mean=0.301][A[A
+
+Train step of epoch 1:   2%|▏         | 108/4533 [17:52<12:16:27,  9.99s/it, gpt_loss=0.402, loss_mean=0.301][A[A2026-01-27 02:27:28.000 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   2%|▏         | 108/4533 [18:04<12:16:27,  9.99s/it, gpt_loss=0.329, loss_mean=0.304][A[A
+
+Train step of epoch 1:   2%|▏         | 109/4533 [18:04<13:01:32, 10.60s/it, gpt_loss=0.329, loss_mean=0.304][A[A2026-01-27 02:27:40.170 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   2%|▏         | 109/4533 [18:13<13:01:32, 10.60s/it, gpt_loss=0.246, loss_mean=0.298][A[A
+
+Train step of epoch 1:   2%|▏         | 110/4533 [18:13<12:30:53, 10.19s/it, gpt_loss=0.246, loss_mean=0.298][A[A2026-01-27 02:27:49.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   2%|▏         | 110/4533 [18:22<12:30:53, 10.19s/it, gpt_loss=0.323, loss_mean=0.301][A[A
+
+Train step of epoch 1:   2%|▏         | 111/4533 [18:22<12:02:29,  9.80s/it, gpt_loss=0.323, loss_mean=0.301][A[A2026-01-27 02:27:58.457 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   2%|▏         | 111/4533 [18:34<12:02:29,  9.80s/it, gpt_loss=0.337, loss_mean=0.304][A[A
+
+Train step of epoch 1:   2%|▏         | 112/4533 [18:34<12:52:34, 10.49s/it, gpt_loss=0.337, loss_mean=0.304][A[A2026-01-27 02:28:10.157 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   2%|▏         | 112/4533 [18:43<12:52:34, 10.49s/it, gpt_loss=0.28, loss_mean=0.302] [A[A
+
+Train step of epoch 1:   2%|▏         | 113/4533 [18:43<12:16:24, 10.00s/it, gpt_loss=0.28, loss_mean=0.302][A[A2026-01-27 02:28:19.075 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   2%|▏         | 113/4533 [18:52<12:16:24, 10.00s/it, gpt_loss=0.241, loss_mean=0.296][A[A
+
+Train step of epoch 1:   3%|▎         | 114/4533 [18:52<11:47:14,  9.60s/it, gpt_loss=0.241, loss_mean=0.296][A[A2026-01-27 02:28:27.893 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   3%|▎         | 114/4533 [19:01<11:47:14,  9.60s/it, gpt_loss=0.213, loss_mean=0.288][A[A
+
+Train step of epoch 1:   3%|▎         | 115/4533 [19:01<11:30:52,  9.38s/it, gpt_loss=0.213, loss_mean=0.288][A[A2026-01-27 02:28:36.690 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   3%|▎         | 115/4533 [19:12<11:30:52,  9.38s/it, gpt_loss=0.382, loss_mean=0.297][A[A
+
+Train step of epoch 1:   3%|▎         | 116/4533 [19:12<12:23:45, 10.10s/it, gpt_loss=0.382, loss_mean=0.297][A[A
+[LID Router Debug] Step: 4650
+Batch Size: 14
+Audio Batch Size: 154
+LID Assignments: [3, 6, 9, 3, 5, 9, 3, 5, 4, 5, 2, 1, 5, 2]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-27 02:28:48.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   3%|▎         | 116/4533 [19:22<12:23:45, 10.10s/it, gpt_loss=0.275, loss_mean=0.295][A[A
+
+Train step of epoch 1:   3%|▎         | 117/4533 [19:22<12:00:37,  9.79s/it, gpt_loss=0.275, loss_mean=0.295][A[A2026-01-27 02:28:57.472 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   3%|▎         | 117/4533 [19:30<12:00:37,  9.79s/it, gpt_loss=0.259, loss_mean=0.291][A[A
+
+Train step of epoch 1:   3%|▎         | 118/4533 [19:30<11:33:50,  9.43s/it, gpt_loss=0.259, loss_mean=0.291][A[A2026-01-27 02:29:06.094 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   3%|▎         | 118/4533 [19:42<11:33:50,  9.43s/it, gpt_loss=0.447, loss_mean=0.307][A[A
+
+Train step of epoch 1:   3%|▎         | 119/4533 [19:42<12:31:43, 10.22s/it, gpt_loss=0.447, loss_mean=0.307][A[A2026-01-27 02:29:18.194 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   3%|▎         | 119/4533 [19:51<12:31:43, 10.22s/it, gpt_loss=0.266, loss_mean=0.303][A[A
+
+Train step of epoch 1:   3%|▎         | 120/4533 [19:51<11:59:24,  9.78s/it, gpt_loss=0.266, loss_mean=0.303][A[A2026-01-27 02:29:27.202 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   3%|▎         | 120/4533 [20:00<11:59:24,  9.78s/it, gpt_loss=0.205, loss_mean=0.293][A[A
+
+Train step of epoch 1:   3%|▎         | 121/4533 [20:00<11:38:16,  9.50s/it, gpt_loss=0.205, loss_mean=0.293][A[A2026-01-27 02:29:35.895 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   3%|▎         | 121/4533 [20:11<11:38:16,  9.50s/it, gpt_loss=0.375, loss_mean=0.301][A[A
+
+Train step of epoch 1:   3%|▎         | 122/4533 [20:11<12:19:51, 10.06s/it, gpt_loss=0.375, loss_mean=0.301][A[A2026-01-27 02:29:47.371 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   3%|▎         | 122/4533 [20:21<12:19:51, 10.06s/it, gpt_loss=0.228, loss_mean=0.294][A[A
+
+Train step of epoch 1:   3%|▎         | 123/4533 [20:21<12:17:39, 10.04s/it, gpt_loss=0.228, loss_mean=0.294][A[A2026-01-27 02:29:57.275 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   3%|▎         | 123/4533 [20:30<12:17:39, 10.04s/it, gpt_loss=0.251, loss_mean=0.29] [A[A
+
+Train step of epoch 1:   3%|▎         | 124/4533 [20:30<12:01:53,  9.82s/it, gpt_loss=0.251, loss_mean=0.29][A[A2026-01-27 02:30:06.581 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   3%|▎         | 124/4533 [20:40<12:01:53,  9.82s/it, gpt_loss=0.351, loss_mean=0.296][A[A
+
+Train step of epoch 1:   3%|▎         | 125/4533 [20:40<11:56:17,  9.75s/it, gpt_loss=0.351, loss_mean=0.296][A[A2026-01-27 02:30:16.364 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   3%|▎         | 125/4533 [20:49<11:56:17,  9.75s/it, gpt_loss=0.302, loss_mean=0.296][A[A
+
+Train step of epoch 1:   3%|▎         | 126/4533 [20:49<11:41:50,  9.56s/it, gpt_loss=0.302, loss_mean=0.296][A[A
+[LID Router Debug] Step: 4660
+Batch Size: 14
+Audio Batch Size: 178
+LID Assignments: [9, 9, 5, 9, 3, 4, 1, 5, 9, 5, 4, 4, 9, 2]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-27 02:30:25.180 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   3%|▎         | 126/4533 [20:59<11:41:50,  9.56s/it, gpt_loss=0.306, loss_mean=0.297][A[A
+
+Train step of epoch 1:   3%|▎         | 127/4533 [20:59<11:43:20,  9.58s/it, gpt_loss=0.306, loss_mean=0.297][A[A2026-01-27 02:30:34.697 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   3%|▎         | 127/4533 [21:07<11:43:20,  9.58s/it, gpt_loss=0.227, loss_mean=0.29] [A[A
+
+Train step of epoch 1:   3%|▎         | 128/4533 [21:07<11:24:51,  9.33s/it, gpt_loss=0.227, loss_mean=0.29][A[A2026-01-27 02:30:43.786 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   3%|▎         | 128/4533 [21:16<11:24:51,  9.33s/it, gpt_loss=0.307, loss_mean=0.292][A[A
+
+Train step of epoch 1:   3%|▎         | 129/4533 [21:16<11:15:54,  9.21s/it, gpt_loss=0.307, loss_mean=0.292][A[A2026-01-27 02:30:52.673 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   3%|▎         | 129/4533 [21:25<11:15:54,  9.21s/it, gpt_loss=0.257, loss_mean=0.288][A[A
+
+Train step of epoch 1:   3%|▎         | 130/4533 [21:25<11:08:15,  9.11s/it, gpt_loss=0.257, loss_mean=0.288][A[A2026-01-27 02:31:01.385 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   3%|▎         | 130/4533 [21:37<11:08:15,  9.11s/it, gpt_loss=0.288, loss_mean=0.288][A[A
+
+Train step of epoch 1:   3%|▎         | 131/4533 [21:37<12:07:56,  9.92s/it, gpt_loss=0.288, loss_mean=0.288][A[A2026-01-27 02:31:13.190 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   3%|▎         | 131/4533 [21:47<12:07:56,  9.92s/it, gpt_loss=0.301, loss_mean=0.289][A[A
+
+Train step of epoch 1:   3%|▎         | 132/4533 [21:47<11:56:41,  9.77s/it, gpt_loss=0.301, loss_mean=0.289][A[A2026-01-27 02:31:22.851 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   3%|▎         | 132/4533 [21:58<11:56:41,  9.77s/it, gpt_loss=0.31, loss_mean=0.291] [A[A
+
+Train step of epoch 1:   3%|▎         | 133/4533 [21:58<12:44:31, 10.43s/it, gpt_loss=0.31, loss_mean=0.291][A[A2026-01-27 02:31:34.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   3%|▎         | 133/4533 [22:08<12:44:31, 10.43s/it, gpt_loss=0.279, loss_mean=0.29][A[A
+
+Train step of epoch 1:   3%|▎         | 134/4533 [22:08<12:33:33, 10.28s/it, gpt_loss=0.279, loss_mean=0.29][A[A2026-01-27 02:31:44.486 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   3%|▎         | 134/4533 [22:20<12:33:33, 10.28s/it, gpt_loss=0.307, loss_mean=0.292][A[A
+
+Train step of epoch 1:   3%|▎         | 135/4533 [22:20<13:05:56, 10.72s/it, gpt_loss=0.307, loss_mean=0.292][A[A2026-01-27 02:31:56.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   3%|▎         | 135/4533 [22:32<13:05:56, 10.72s/it, gpt_loss=0.358, loss_mean=0.299][A[A
+
+Train step of epoch 1:   3%|▎         | 136/4533 [22:32<13:34:09, 11.11s/it, gpt_loss=0.358, loss_mean=0.299][A[A
+[LID Router Debug] Step: 4670
+Batch Size: 14
+Audio Batch Size: 174
+LID Assignments: [9, 2, 3, 6, 0, 1, 0, 5, 2, 9, 3, 5, 0, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 02:32:08.456 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   3%|▎         | 136/4533 [22:44<13:34:09, 11.11s/it, gpt_loss=0.387, loss_mean=0.307][A[A
+
+Train step of epoch 1:   3%|▎         | 137/4533 [22:44<13:51:19, 11.35s/it, gpt_loss=0.387, loss_mean=0.307][A[A2026-01-27 02:32:20.366 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   3%|▎         | 137/4533 [22:53<13:51:19, 11.35s/it, gpt_loss=0.277, loss_mean=0.304][A[A
+
+Train step of epoch 1:   3%|▎         | 138/4533 [22:53<12:56:40, 10.60s/it, gpt_loss=0.277, loss_mean=0.304][A[A2026-01-27 02:32:29.090 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   3%|▎         | 138/4533 [23:03<12:56:40, 10.60s/it, gpt_loss=0.284, loss_mean=0.302][A[A
+
+Train step of epoch 1:   3%|▎         | 139/4533 [23:03<12:38:49, 10.36s/it, gpt_loss=0.284, loss_mean=0.302][A[A2026-01-27 02:32:38.674 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   3%|▎         | 139/4533 [23:11<12:38:49, 10.36s/it, gpt_loss=0.193, loss_mean=0.291][A[A
+
+Train step of epoch 1:   3%|▎         | 140/4533 [23:11<11:57:30,  9.80s/it, gpt_loss=0.193, loss_mean=0.291][A[A2026-01-27 02:32:47.181 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   3%|▎         | 140/4533 [23:20<11:57:30,  9.80s/it, gpt_loss=0.273, loss_mean=0.29] [A[A
+
+Train step of epoch 1:   3%|▎         | 141/4533 [23:20<11:33:59,  9.48s/it, gpt_loss=0.273, loss_mean=0.29][A[A2026-01-27 02:32:56.192 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   3%|▎         | 141/4533 [23:29<11:33:59,  9.48s/it, gpt_loss=0.255, loss_mean=0.286][A[A
+
+Train step of epoch 1:   3%|▎         | 142/4533 [23:29<11:20:19,  9.30s/it, gpt_loss=0.255, loss_mean=0.286][A[A2026-01-27 02:33:05.080 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   3%|▎         | 142/4533 [23:38<11:20:19,  9.30s/it, gpt_loss=0.255, loss_mean=0.283][A[A
+
+Train step of epoch 1:   3%|▎         | 143/4533 [23:38<11:25:13,  9.37s/it, gpt_loss=0.255, loss_mean=0.283][A[A2026-01-27 02:33:14.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   3%|▎         | 143/4533 [23:48<11:25:13,  9.37s/it, gpt_loss=0.288, loss_mean=0.283][A[A
+
+Train step of epoch 1:   3%|▎         | 144/4533 [23:48<11:25:25,  9.37s/it, gpt_loss=0.288, loss_mean=0.283][A[A2026-01-27 02:33:23.887 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   3%|▎         | 144/4533 [23:57<11:25:25,  9.37s/it, gpt_loss=0.266, loss_mean=0.282][A[A
+
+Train step of epoch 1:   3%|▎         | 145/4533 [23:57<11:12:09,  9.19s/it, gpt_loss=0.266, loss_mean=0.282][A[A2026-01-27 02:33:32.796 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   3%|▎         | 145/4533 [24:06<11:12:09,  9.19s/it, gpt_loss=0.257, loss_mean=0.279][A[A
+
+Train step of epoch 1:   3%|▎         | 146/4533 [24:06<11:27:54,  9.41s/it, gpt_loss=0.257, loss_mean=0.279][A[A
+[LID Router Debug] Step: 4680
+Batch Size: 14
+Audio Batch Size: 150
+LID Assignments: [2, 5, 4, 3, 0, 1, 2, 9, 4, 0, 2, 4, 4, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 02:33:42.485 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   3%|▎         | 146/4533 [24:16<11:27:54,  9.41s/it, gpt_loss=0.241, loss_mean=0.275][A[A
+
+Train step of epoch 1:   3%|▎         | 147/4533 [24:16<11:28:25,  9.42s/it, gpt_loss=0.241, loss_mean=0.275][A[A2026-01-27 02:33:52.006 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   3%|▎         | 147/4533 [24:25<11:28:25,  9.42s/it, gpt_loss=0.201, loss_mean=0.268][A[A
+
+Train step of epoch 1:   3%|▎         | 148/4533 [24:25<11:21:38,  9.33s/it, gpt_loss=0.201, loss_mean=0.268][A[A2026-01-27 02:34:01.187 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   3%|▎         | 148/4533 [24:35<11:21:38,  9.33s/it, gpt_loss=0.259, loss_mean=0.267][A[A
+
+Train step of epoch 1:   3%|▎         | 149/4533 [24:35<11:28:04,  9.42s/it, gpt_loss=0.259, loss_mean=0.267][A[A2026-01-27 02:34:10.976 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   3%|▎         | 149/4533 [24:44<11:28:04,  9.42s/it, gpt_loss=0.27, loss_mean=0.267] [A[A
+
+Train step of epoch 1:   3%|▎         | 150/4533 [24:44<11:19:56,  9.31s/it, gpt_loss=0.27, loss_mean=0.267][A[A2026-01-27 02:34:19.860 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   3%|▎         | 150/4533 [24:53<11:19:56,  9.31s/it, gpt_loss=0.241, loss_mean=0.265][A[A
+
+Train step of epoch 1:   3%|▎         | 151/4533 [24:53<11:13:49,  9.23s/it, gpt_loss=0.241, loss_mean=0.265][A[A2026-01-27 02:34:28.891 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   3%|▎         | 151/4533 [25:04<11:13:49,  9.23s/it, gpt_loss=0.37, loss_mean=0.275] [A[A
+
+Train step of epoch 1:   3%|▎         | 152/4533 [25:04<12:06:53,  9.96s/it, gpt_loss=0.37, loss_mean=0.275][A[A2026-01-27 02:34:40.591 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   3%|▎         | 152/4533 [25:13<12:06:53,  9.96s/it, gpt_loss=0.262, loss_mean=0.274][A[A
+
+Train step of epoch 1:   3%|▎         | 153/4533 [25:13<11:40:01,  9.59s/it, gpt_loss=0.262, loss_mean=0.274][A[A2026-01-27 02:34:49.454 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   3%|▎         | 153/4533 [25:22<11:40:01,  9.59s/it, gpt_loss=0.226, loss_mean=0.269][A[A
+
+Train step of epoch 1:   3%|▎         | 154/4533 [25:22<11:34:26,  9.52s/it, gpt_loss=0.226, loss_mean=0.269][A[A2026-01-27 02:34:58.455 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   3%|▎         | 154/4533 [25:31<11:34:26,  9.52s/it, gpt_loss=0.296, loss_mean=0.272][A[A
+
+Train step of epoch 1:   3%|▎         | 155/4533 [25:31<11:17:06,  9.28s/it, gpt_loss=0.296, loss_mean=0.272][A[A2026-01-27 02:35:07.367 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   3%|▎         | 155/4533 [25:40<11:17:06,  9.28s/it, gpt_loss=0.215, loss_mean=0.266][A[A
+
+Train step of epoch 1:   3%|▎         | 156/4533 [25:40<11:07:32,  9.15s/it, gpt_loss=0.215, loss_mean=0.266][A[A
+[LID Router Debug] Step: 4690
+Batch Size: 14
+Audio Batch Size: 159
+LID Assignments: [0, 2, 4, 3, 9, 9, 5, 5, 9, 3, 4, 6, 2, 3]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-27 02:35:16.068 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   3%|▎         | 156/4533 [25:52<11:07:32,  9.15s/it, gpt_loss=0.32, loss_mean=0.271] [A[A
+
+Train step of epoch 1:   3%|▎         | 157/4533 [25:52<11:58:39,  9.85s/it, gpt_loss=0.32, loss_mean=0.271][A[A2026-01-27 02:35:27.583 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   3%|▎         | 157/4533 [26:01<11:58:39,  9.85s/it, gpt_loss=0.309, loss_mean=0.275][A[A
+
+Train step of epoch 1:   3%|▎         | 158/4533 [26:01<11:52:20,  9.77s/it, gpt_loss=0.309, loss_mean=0.275][A[A2026-01-27 02:35:37.368 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   3%|▎         | 158/4533 [26:11<11:52:20,  9.77s/it, gpt_loss=0.331, loss_mean=0.281][A[A
+
+Train step of epoch 1:   4%|▎         | 159/4533 [26:11<11:52:15,  9.77s/it, gpt_loss=0.331, loss_mean=0.281][A[A2026-01-27 02:35:46.672 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   4%|▎         | 159/4533 [26:22<11:52:15,  9.77s/it, gpt_loss=0.313, loss_mean=0.284][A[A
+
+Train step of epoch 1:   4%|▎         | 160/4533 [26:22<12:26:34, 10.24s/it, gpt_loss=0.313, loss_mean=0.284][A[A2026-01-27 02:35:58.363 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   4%|▎         | 160/4533 [26:32<12:26:34, 10.24s/it, gpt_loss=0.338, loss_mean=0.289][A[A
+
+Train step of epoch 1:   4%|▎         | 161/4533 [26:32<12:08:43, 10.00s/it, gpt_loss=0.338, loss_mean=0.289][A[A2026-01-27 02:36:07.752 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   4%|▎         | 161/4533 [26:41<12:08:43, 10.00s/it, gpt_loss=0.25, loss_mean=0.285] [A[A
+
+Train step of epoch 1:   4%|▎         | 162/4533 [26:41<11:58:53,  9.87s/it, gpt_loss=0.25, loss_mean=0.285][A[A2026-01-27 02:36:17.458 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   4%|▎         | 162/4533 [26:53<11:58:53,  9.87s/it, gpt_loss=0.364, loss_mean=0.293][A[A
+
+Train step of epoch 1:   4%|▎         | 163/4533 [26:53<12:42:48, 10.47s/it, gpt_loss=0.364, loss_mean=0.293][A[A2026-01-27 02:36:28.964 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   4%|▎         | 163/4533 [27:02<12:42:48, 10.47s/it, gpt_loss=0.271, loss_mean=0.291][A[A
+
+Train step of epoch 1:   4%|▎         | 164/4533 [27:02<12:13:59, 10.08s/it, gpt_loss=0.271, loss_mean=0.291][A[A2026-01-27 02:36:38.365 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   4%|▎         | 164/4533 [27:12<12:13:59, 10.08s/it, gpt_loss=0.323, loss_mean=0.294][A[A
+
+Train step of epoch 1:   4%|▎         | 165/4533 [27:12<12:03:59,  9.94s/it, gpt_loss=0.323, loss_mean=0.294][A[A2026-01-27 02:36:47.795 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   4%|▎         | 165/4533 [27:23<12:03:59,  9.94s/it, gpt_loss=0.316, loss_mean=0.296][A[A
+
+Train step of epoch 1:   4%|▎         | 166/4533 [27:23<12:40:00, 10.44s/it, gpt_loss=0.316, loss_mean=0.296][A[A
+[LID Router Debug] Step: 4700
+Batch Size: 14
+Audio Batch Size: 159
+LID Assignments: [4, 0, 2, 9, 5, 2, 4, 3, 2, 4, 2, 4, 6, 9]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-27 02:36:59.754 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+[2026-01-27 02:37:08,115] [INFO] [logging.py:96:log_dist] [Rank 0] step=4700, skipped=0, lr=[1.4844955131401224e-05, 1.4844955131401224e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 02:37:08,116] [INFO] [timer.py:260:stop] epoch=0/micro_step=4700/global_step=4700, RunningAvgSamplesPerSec=5.724130827923616, CurrSamplesPerSec=6.1564479547041735, MemAllocated=14.98GB, MaxMemAllocated=53.98GB
+
+
+Train step of epoch 1:   4%|▎         | 166/4533 [27:33<12:40:00, 10.44s/it, gpt_loss=0.24, loss_mean=0.291] [A[A
+
+Train step of epoch 1:   4%|▎         | 167/4533 [27:33<12:10:54, 10.04s/it, gpt_loss=0.24, loss_mean=0.291][A[A2026-01-27 02:37:08.900 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   4%|▎         | 167/4533 [27:45<12:10:54, 10.04s/it, gpt_loss=0.282, loss_mean=0.29][A[A
+
+Train step of epoch 1:   4%|▎         | 168/4533 [27:45<12:53:17, 10.63s/it, gpt_loss=0.282, loss_mean=0.29][A[A2026-01-27 02:37:20.665 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   4%|▎         | 168/4533 [27:54<12:53:17, 10.63s/it, gpt_loss=0.303, loss_mean=0.291][A[A
+
+Train step of epoch 1:   4%|▎         | 169/4533 [27:54<12:18:05, 10.15s/it, gpt_loss=0.303, loss_mean=0.291][A[A2026-01-27 02:37:29.493 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   4%|▎         | 169/4533 [28:02<12:18:05, 10.15s/it, gpt_loss=0.314, loss_mean=0.294][A[A
+
+Train step of epoch 1:   4%|▍         | 170/4533 [28:02<11:47:00,  9.72s/it, gpt_loss=0.314, loss_mean=0.294][A[A2026-01-27 02:37:38.273 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   4%|▍         | 170/4533 [28:11<11:47:00,  9.72s/it, gpt_loss=0.241, loss_mean=0.288][A[A
+
+Train step of epoch 1:   4%|▍         | 171/4533 [28:11<11:23:33,  9.40s/it, gpt_loss=0.241, loss_mean=0.288][A[A2026-01-27 02:37:47.091 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   4%|▍         | 171/4533 [28:21<11:23:33,  9.40s/it, gpt_loss=0.313, loss_mean=0.291][A[A
+
+Train step of epoch 1:   4%|▍         | 172/4533 [28:21<11:31:01,  9.51s/it, gpt_loss=0.313, loss_mean=0.291][A[A2026-01-27 02:37:56.880 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   4%|▍         | 172/4533 [28:30<11:31:01,  9.51s/it, gpt_loss=0.276, loss_mean=0.289][A[A
+
+Train step of epoch 1:   4%|▍         | 173/4533 [28:30<11:30:10,  9.50s/it, gpt_loss=0.276, loss_mean=0.289][A[A2026-01-27 02:38:06.563 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   4%|▍         | 173/4533 [28:39<11:30:10,  9.50s/it, gpt_loss=0.251, loss_mean=0.286][A[A
+
+Train step of epoch 1:   4%|▍         | 174/4533 [28:39<11:15:24,  9.30s/it, gpt_loss=0.251, loss_mean=0.286][A[A2026-01-27 02:38:14.981 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   4%|▍         | 174/4533 [28:51<11:15:24,  9.30s/it, gpt_loss=0.328, loss_mean=0.29] [A[A
+
+Train step of epoch 1:   4%|▍         | 175/4533 [28:51<12:12:04, 10.08s/it, gpt_loss=0.328, loss_mean=0.29][A[A2026-01-27 02:38:27.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   4%|▍         | 175/4533 [29:01<12:12:04, 10.08s/it, gpt_loss=0.362, loss_mean=0.297][A[A
+
+Train step of epoch 1:   4%|▍         | 176/4533 [29:01<12:04:03,  9.97s/it, gpt_loss=0.362, loss_mean=0.297][A[A
+[LID Router Debug] Step: 4710
+Batch Size: 14
+Audio Batch Size: 158
+LID Assignments: [9, 4, 6, 9, 4, 9, 3, 0, 0, 5, 5, 3, 5, 0]
+Active Experts in Batch: {0, 3, 4, 5, 6, 9}
+2026-01-27 02:38:36.792 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   4%|▍         | 176/4533 [29:11<12:04:03,  9.97s/it, gpt_loss=0.26, loss_mean=0.293] [A[A
+
+Train step of epoch 1:   4%|▍         | 177/4533 [29:11<12:01:29,  9.94s/it, gpt_loss=0.26, loss_mean=0.293][A[A2026-01-27 02:38:46.860 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   4%|▍         | 177/4533 [29:20<12:01:29,  9.94s/it, gpt_loss=0.266, loss_mean=0.291][A[A
+
+Train step of epoch 1:   4%|▍         | 178/4533 [29:20<11:44:17,  9.70s/it, gpt_loss=0.266, loss_mean=0.291][A[A2026-01-27 02:38:55.866 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   4%|▍         | 178/4533 [29:29<11:44:17,  9.70s/it, gpt_loss=0.337, loss_mean=0.295][A[A
+
+Train step of epoch 1:   4%|▍         | 179/4533 [29:29<11:42:24,  9.68s/it, gpt_loss=0.337, loss_mean=0.295][A[A2026-01-27 02:39:05.559 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   4%|▍         | 179/4533 [29:38<11:42:24,  9.68s/it, gpt_loss=0.19, loss_mean=0.285] [A[A
+
+Train step of epoch 1:   4%|▍         | 180/4533 [29:38<11:27:39,  9.48s/it, gpt_loss=0.19, loss_mean=0.285][A[A2026-01-27 02:39:14.669 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   4%|▍         | 180/4533 [29:48<11:27:39,  9.48s/it, gpt_loss=0.278, loss_mean=0.284][A[A
+
+Train step of epoch 1:   4%|▍         | 181/4533 [29:48<11:23:41,  9.43s/it, gpt_loss=0.278, loss_mean=0.284][A[A2026-01-27 02:39:23.880 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   4%|▍         | 181/4533 [29:57<11:23:41,  9.43s/it, gpt_loss=0.279, loss_mean=0.284][A[A
+
+Train step of epoch 1:   4%|▍         | 182/4533 [29:57<11:15:36,  9.32s/it, gpt_loss=0.279, loss_mean=0.284][A[A2026-01-27 02:39:32.777 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   4%|▍         | 182/4533 [30:05<11:15:36,  9.32s/it, gpt_loss=0.331, loss_mean=0.288][A[A
+
+Train step of epoch 1:   4%|▍         | 183/4533 [30:05<10:58:50,  9.09s/it, gpt_loss=0.331, loss_mean=0.288][A[A2026-01-27 02:39:41.080 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   4%|▍         | 183/4533 [30:15<10:58:50,  9.09s/it, gpt_loss=0.251, loss_mean=0.285][A[A
+
+Train step of epoch 1:   4%|▍         | 184/4533 [30:15<11:05:11,  9.18s/it, gpt_loss=0.251, loss_mean=0.285][A[A2026-01-27 02:39:50.651 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   4%|▍         | 184/4533 [30:24<11:05:11,  9.18s/it, gpt_loss=0.323, loss_mean=0.288][A[A
+
+Train step of epoch 1:   4%|▍         | 185/4533 [30:24<10:58:47,  9.09s/it, gpt_loss=0.323, loss_mean=0.288][A[A2026-01-27 02:39:59.799 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   4%|▍         | 185/4533 [30:35<10:58:47,  9.09s/it, gpt_loss=0.371, loss_mean=0.297][A[A
+
+Train step of epoch 1:   4%|▍         | 186/4533 [30:35<11:59:48,  9.94s/it, gpt_loss=0.371, loss_mean=0.297][A[A
+[LID Router Debug] Step: 4720
+Batch Size: 14
+Audio Batch Size: 149
+LID Assignments: [6, 1, 3, 1, 3, 9, 1, 5, 2, 1, 4, 5, 0, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 02:40:11.493 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   4%|▍         | 186/4533 [30:44<11:59:48,  9.94s/it, gpt_loss=0.268, loss_mean=0.294][A[A
+
+Train step of epoch 1:   4%|▍         | 187/4533 [30:44<11:29:40,  9.52s/it, gpt_loss=0.268, loss_mean=0.294][A[A2026-01-27 02:40:20.192 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   4%|▍         | 187/4533 [30:54<11:29:40,  9.52s/it, gpt_loss=0.251, loss_mean=0.289][A[A
+
+Train step of epoch 1:   4%|▍         | 188/4533 [30:54<11:36:40,  9.62s/it, gpt_loss=0.251, loss_mean=0.289][A[A2026-01-27 02:40:29.957 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   4%|▍         | 188/4533 [31:06<11:36:40,  9.62s/it, gpt_loss=0.347, loss_mean=0.295][A[A
+
+Train step of epoch 1:   4%|▍         | 189/4533 [31:06<12:24:16, 10.28s/it, gpt_loss=0.347, loss_mean=0.295][A[A2026-01-27 02:40:41.796 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   4%|▍         | 189/4533 [31:15<12:24:16, 10.28s/it, gpt_loss=0.233, loss_mean=0.289][A[A
+
+Train step of epoch 1:   4%|▍         | 190/4533 [31:15<11:52:52,  9.85s/it, gpt_loss=0.233, loss_mean=0.289][A[A2026-01-27 02:40:50.758 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   4%|▍         | 190/4533 [31:27<11:52:52,  9.85s/it, gpt_loss=0.378, loss_mean=0.298][A[A
+
+Train step of epoch 1:   4%|▍         | 191/4533 [31:27<12:47:34, 10.61s/it, gpt_loss=0.378, loss_mean=0.298][A[A2026-01-27 02:41:03.061 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   4%|▍         | 191/4533 [31:39<12:47:34, 10.61s/it, gpt_loss=0.313, loss_mean=0.299][A[A
+
+Train step of epoch 1:   4%|▍         | 192/4533 [31:39<13:12:03, 10.95s/it, gpt_loss=0.313, loss_mean=0.299][A[A2026-01-27 02:41:14.950 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   4%|▍         | 192/4533 [31:48<13:12:03, 10.95s/it, gpt_loss=0.259, loss_mean=0.295][A[A
+
+Train step of epoch 1:   4%|▍         | 193/4533 [31:48<12:28:02, 10.34s/it, gpt_loss=0.259, loss_mean=0.295][A[A2026-01-27 02:41:23.688 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   4%|▍         | 193/4533 [31:59<12:28:02, 10.34s/it, gpt_loss=0.366, loss_mean=0.302][A[A
+
+Train step of epoch 1:   4%|▍         | 194/4533 [31:59<12:57:39, 10.75s/it, gpt_loss=0.366, loss_mean=0.302][A[A2026-01-27 02:41:35.472 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   4%|▍         | 194/4533 [32:11<12:57:39, 10.75s/it, gpt_loss=0.356, loss_mean=0.308][A[A
+
+Train step of epoch 1:   4%|▍         | 195/4533 [32:11<13:18:55, 11.05s/it, gpt_loss=0.356, loss_mean=0.308][A[A2026-01-27 02:41:47.271 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   4%|▍         | 195/4533 [32:20<13:18:55, 11.05s/it, gpt_loss=0.279, loss_mean=0.305][A[A
+
+Train step of epoch 1:   4%|▍         | 196/4533 [32:20<12:39:01, 10.50s/it, gpt_loss=0.279, loss_mean=0.305][A[A
+[LID Router Debug] Step: 4730
+Batch Size: 14
+Audio Batch Size: 125
+LID Assignments: [9, 1, 2, 5, 2, 1, 6, 2, 1, 4, 2, 0, 0, 9]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-27 02:41:56.174 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   4%|▍         | 196/4533 [32:30<12:39:01, 10.50s/it, gpt_loss=0.342, loss_mean=0.309][A[A
+
+Train step of epoch 1:   4%|▍         | 197/4533 [32:30<12:16:16, 10.19s/it, gpt_loss=0.342, loss_mean=0.309][A[A2026-01-27 02:42:05.801 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   4%|▍         | 197/4533 [32:41<12:16:16, 10.19s/it, gpt_loss=0.341, loss_mean=0.312][A[A
+
+Train step of epoch 1:   4%|▍         | 198/4533 [32:41<12:45:18, 10.59s/it, gpt_loss=0.341, loss_mean=0.312][A[A2026-01-27 02:42:17.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   4%|▍         | 198/4533 [32:50<12:45:18, 10.59s/it, gpt_loss=0.222, loss_mean=0.303][A[A
+
+Train step of epoch 1:   4%|▍         | 199/4533 [32:50<12:00:50,  9.98s/it, gpt_loss=0.222, loss_mean=0.303][A[A2026-01-27 02:42:26.067 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   4%|▍         | 199/4533 [32:59<12:00:50,  9.98s/it, gpt_loss=0.196, loss_mean=0.292][A[A
+
+Train step of epoch 1:   4%|▍         | 200/4533 [32:59<11:41:10,  9.71s/it, gpt_loss=0.196, loss_mean=0.292][A[A2026-01-27 02:42:35.086 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   4%|▍         | 200/4533 [33:08<11:41:10,  9.71s/it, gpt_loss=0.394, loss_mean=0.302][A[A
+
+Train step of epoch 1:   4%|▍         | 201/4533 [33:08<11:21:43,  9.44s/it, gpt_loss=0.394, loss_mean=0.302][A[A2026-01-27 02:42:43.785 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   4%|▍         | 201/4533 [33:17<11:21:43,  9.44s/it, gpt_loss=0.274, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:   4%|▍         | 202/4533 [33:17<11:10:10,  9.28s/it, gpt_loss=0.274, loss_mean=0.3][A[A2026-01-27 02:42:52.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   4%|▍         | 202/4533 [33:26<11:10:10,  9.28s/it, gpt_loss=0.237, loss_mean=0.293][A[A
+
+Train step of epoch 1:   4%|▍         | 203/4533 [33:26<11:02:31,  9.18s/it, gpt_loss=0.237, loss_mean=0.293][A[A2026-01-27 02:43:01.561 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   4%|▍         | 203/4533 [33:35<11:02:31,  9.18s/it, gpt_loss=0.231, loss_mean=0.287][A[A
+
+Train step of epoch 1:   5%|▍         | 204/4533 [33:35<11:11:21,  9.31s/it, gpt_loss=0.231, loss_mean=0.287][A[A2026-01-27 02:43:10.961 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   5%|▍         | 204/4533 [33:44<11:11:21,  9.31s/it, gpt_loss=0.204, loss_mean=0.279][A[A
+
+Train step of epoch 1:   5%|▍         | 205/4533 [33:44<10:53:09,  9.05s/it, gpt_loss=0.204, loss_mean=0.279][A[A2026-01-27 02:43:19.879 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   5%|▍         | 205/4533 [33:53<10:53:09,  9.05s/it, gpt_loss=0.248, loss_mean=0.276][A[A
+
+Train step of epoch 1:   5%|▍         | 206/4533 [33:53<10:52:39,  9.05s/it, gpt_loss=0.248, loss_mean=0.276][A[A
+[LID Router Debug] Step: 4740
+Batch Size: 14
+Audio Batch Size: 136
+LID Assignments: [6, 1, 0, 4, 2, 2, 5, 3, 0, 6, 1, 5, 6, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6}
+2026-01-27 02:43:28.788 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   5%|▍         | 206/4533 [34:02<10:52:39,  9.05s/it, gpt_loss=0.265, loss_mean=0.275][A[A
+
+Train step of epoch 1:   5%|▍         | 207/4533 [34:02<10:50:24,  9.02s/it, gpt_loss=0.265, loss_mean=0.275][A[A2026-01-27 02:43:37.877 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   5%|▍         | 207/4533 [34:13<10:50:24,  9.02s/it, gpt_loss=0.405, loss_mean=0.288][A[A
+
+Train step of epoch 1:   5%|▍         | 208/4533 [34:13<11:52:27,  9.88s/it, gpt_loss=0.405, loss_mean=0.288][A[A2026-01-27 02:43:49.770 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   5%|▍         | 208/4533 [34:23<11:52:27,  9.88s/it, gpt_loss=0.279, loss_mean=0.287][A[A
+
+Train step of epoch 1:   5%|▍         | 209/4533 [34:23<11:38:36,  9.69s/it, gpt_loss=0.279, loss_mean=0.287][A[A2026-01-27 02:43:58.703 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   5%|▍         | 209/4533 [34:31<11:38:36,  9.69s/it, gpt_loss=0.25, loss_mean=0.283] [A[A
+
+Train step of epoch 1:   5%|▍         | 210/4533 [34:31<11:17:56,  9.41s/it, gpt_loss=0.25, loss_mean=0.283][A[A2026-01-27 02:44:07.494 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   5%|▍         | 210/4533 [34:40<11:17:56,  9.41s/it, gpt_loss=0.246, loss_mean=0.279][A[A
+
+Train step of epoch 1:   5%|▍         | 211/4533 [34:40<11:05:57,  9.25s/it, gpt_loss=0.246, loss_mean=0.279][A[A2026-01-27 02:44:16.385 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   5%|▍         | 211/4533 [34:49<11:05:57,  9.25s/it, gpt_loss=0.277, loss_mean=0.279][A[A
+
+Train step of epoch 1:   5%|▍         | 212/4533 [34:49<10:56:53,  9.12s/it, gpt_loss=0.277, loss_mean=0.279][A[A2026-01-27 02:44:25.362 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   5%|▍         | 212/4533 [34:59<10:56:53,  9.12s/it, gpt_loss=0.234, loss_mean=0.275][A[A
+
+Train step of epoch 1:   5%|▍         | 213/4533 [34:59<11:09:27,  9.30s/it, gpt_loss=0.234, loss_mean=0.275][A[A2026-01-27 02:44:35.003 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   5%|▍         | 213/4533 [35:09<11:09:27,  9.30s/it, gpt_loss=0.359, loss_mean=0.283][A[A
+
+Train step of epoch 1:   5%|▍         | 214/4533 [35:09<11:16:58,  9.40s/it, gpt_loss=0.359, loss_mean=0.283][A[A2026-01-27 02:44:44.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   5%|▍         | 214/4533 [35:17<11:16:58,  9.40s/it, gpt_loss=0.221, loss_mean=0.277][A[A
+
+Train step of epoch 1:   5%|▍         | 215/4533 [35:17<11:02:53,  9.21s/it, gpt_loss=0.221, loss_mean=0.277][A[A2026-01-27 02:44:53.505 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   5%|▍         | 215/4533 [35:27<11:02:53,  9.21s/it, gpt_loss=0.228, loss_mean=0.272][A[A
+
+Train step of epoch 1:   5%|▍         | 216/4533 [35:27<11:09:44,  9.31s/it, gpt_loss=0.228, loss_mean=0.272][A[A
+[LID Router Debug] Step: 4750
+Batch Size: 14
+Audio Batch Size: 185
+LID Assignments: [1, 9, 0, 5, 0, 0, 2, 3, 3, 4, 3, 4, 3, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 02:45:02.978 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   5%|▍         | 216/4533 [35:36<11:09:44,  9.31s/it, gpt_loss=0.21, loss_mean=0.266] [A[A
+
+Train step of epoch 1:   5%|▍         | 217/4533 [35:36<10:58:16,  9.15s/it, gpt_loss=0.21, loss_mean=0.266][A[A2026-01-27 02:45:11.685 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   5%|▍         | 217/4533 [35:47<10:58:16,  9.15s/it, gpt_loss=0.375, loss_mean=0.277][A[A
+
+Train step of epoch 1:   5%|▍         | 218/4533 [35:47<11:52:07,  9.90s/it, gpt_loss=0.375, loss_mean=0.277][A[A2026-01-27 02:45:23.377 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   5%|▍         | 218/4533 [35:56<11:52:07,  9.90s/it, gpt_loss=0.222, loss_mean=0.271][A[A
+
+Train step of epoch 1:   5%|▍         | 219/4533 [35:56<11:27:50,  9.57s/it, gpt_loss=0.222, loss_mean=0.271][A[A2026-01-27 02:45:32.201 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   5%|▍         | 219/4533 [36:08<11:27:50,  9.57s/it, gpt_loss=0.286, loss_mean=0.273][A[A
+
+Train step of epoch 1:   5%|▍         | 220/4533 [36:08<12:15:07, 10.23s/it, gpt_loss=0.286, loss_mean=0.273][A[A2026-01-27 02:45:44.095 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   5%|▍         | 220/4533 [36:18<12:15:07, 10.23s/it, gpt_loss=0.347, loss_mean=0.28] [A[A
+
+Train step of epoch 1:   5%|▍         | 221/4533 [36:18<12:05:14, 10.09s/it, gpt_loss=0.347, loss_mean=0.28][A[A2026-01-27 02:45:53.675 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   5%|▍         | 221/4533 [36:29<12:05:14, 10.09s/it, gpt_loss=0.303, loss_mean=0.282][A[A
+
+Train step of epoch 1:   5%|▍         | 222/4533 [36:29<12:37:41, 10.55s/it, gpt_loss=0.303, loss_mean=0.282][A[A2026-01-27 02:46:05.490 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   5%|▍         | 222/4533 [36:38<12:37:41, 10.55s/it, gpt_loss=0.231, loss_mean=0.277][A[A
+
+Train step of epoch 1:   5%|▍         | 223/4533 [36:38<12:00:48, 10.03s/it, gpt_loss=0.231, loss_mean=0.277][A[A2026-01-27 02:46:14.151 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   5%|▍         | 223/4533 [36:47<12:00:48, 10.03s/it, gpt_loss=0.236, loss_mean=0.273][A[A
+
+Train step of epoch 1:   5%|▍         | 224/4533 [36:47<11:35:22,  9.68s/it, gpt_loss=0.236, loss_mean=0.273][A[A2026-01-27 02:46:22.792 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   5%|▍         | 224/4533 [36:58<11:35:22,  9.68s/it, gpt_loss=0.353, loss_mean=0.281][A[A
+
+Train step of epoch 1:   5%|▍         | 225/4533 [36:58<12:13:26, 10.22s/it, gpt_loss=0.353, loss_mean=0.281][A[A2026-01-27 02:46:34.569 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   5%|▍         | 225/4533 [37:07<12:13:26, 10.22s/it, gpt_loss=0.23, loss_mean=0.276] [A[A
+
+Train step of epoch 1:   5%|▍         | 226/4533 [37:07<11:39:18,  9.74s/it, gpt_loss=0.23, loss_mean=0.276][A[A
+[LID Router Debug] Step: 4760
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [1, 3, 6, 5, 2, 9, 4, 2, 1, 3, 1, 5, 3, 5]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-27 02:46:43.278 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   5%|▍         | 226/4533 [37:19<11:39:18,  9.74s/it, gpt_loss=0.378, loss_mean=0.286][A[A
+
+Train step of epoch 1:   5%|▌         | 227/4533 [37:19<12:22:59, 10.35s/it, gpt_loss=0.378, loss_mean=0.286][A[A2026-01-27 02:46:54.701 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   5%|▌         | 227/4533 [37:28<12:22:59, 10.35s/it, gpt_loss=0.213, loss_mean=0.279][A[A
+
+Train step of epoch 1:   5%|▌         | 228/4533 [37:28<11:54:04,  9.95s/it, gpt_loss=0.213, loss_mean=0.279][A[A2026-01-27 02:47:03.998 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   5%|▌         | 228/4533 [37:37<11:54:04,  9.95s/it, gpt_loss=0.317, loss_mean=0.283][A[A
+
+Train step of epoch 1:   5%|▌         | 229/4533 [37:37<11:38:07,  9.73s/it, gpt_loss=0.317, loss_mean=0.283][A[A2026-01-27 02:47:13.281 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   5%|▌         | 229/4533 [37:46<11:38:07,  9.73s/it, gpt_loss=0.276, loss_mean=0.282][A[A
+
+Train step of epoch 1:   5%|▌         | 230/4533 [37:46<11:26:07,  9.57s/it, gpt_loss=0.276, loss_mean=0.282][A[A2026-01-27 02:47:22.286 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   5%|▌         | 230/4533 [37:55<11:26:07,  9.57s/it, gpt_loss=0.236, loss_mean=0.277][A[A
+
+Train step of epoch 1:   5%|▌         | 231/4533 [37:55<11:06:39,  9.30s/it, gpt_loss=0.236, loss_mean=0.277][A[A2026-01-27 02:47:30.976 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   5%|▌         | 231/4533 [38:04<11:06:39,  9.30s/it, gpt_loss=0.304, loss_mean=0.28] [A[A
+
+Train step of epoch 1:   5%|▌         | 232/4533 [38:04<11:08:23,  9.32s/it, gpt_loss=0.304, loss_mean=0.28][A[A2026-01-27 02:47:40.478 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   5%|▌         | 232/4533 [38:13<11:08:23,  9.32s/it, gpt_loss=0.266, loss_mean=0.279][A[A
+
+Train step of epoch 1:   5%|▌         | 233/4533 [38:13<10:56:27,  9.16s/it, gpt_loss=0.266, loss_mean=0.279][A[A2026-01-27 02:47:49.272 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   5%|▌         | 233/4533 [38:22<10:56:27,  9.16s/it, gpt_loss=0.255, loss_mean=0.276][A[A
+
+Train step of epoch 1:   5%|▌         | 234/4533 [38:22<10:58:11,  9.19s/it, gpt_loss=0.255, loss_mean=0.276][A[A2026-01-27 02:47:58.273 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   5%|▌         | 234/4533 [38:31<10:58:11,  9.19s/it, gpt_loss=0.223, loss_mean=0.271][A[A
+
+Train step of epoch 1:   5%|▌         | 235/4533 [38:31<10:44:10,  8.99s/it, gpt_loss=0.223, loss_mean=0.271][A[A2026-01-27 02:48:07.077 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   5%|▌         | 235/4533 [38:43<10:44:10,  8.99s/it, gpt_loss=0.368, loss_mean=0.281][A[A
+
+Train step of epoch 1:   5%|▌         | 236/4533 [38:43<11:45:04,  9.85s/it, gpt_loss=0.368, loss_mean=0.281][A[A
+[LID Router Debug] Step: 4770
+Batch Size: 14
+Audio Batch Size: 133
+LID Assignments: [2, 6, 9, 4, 0, 9, 4, 5, 2, 4, 0, 4, 2, 5]
+Active Experts in Batch: {0, 2, 4, 5, 6, 9}
+2026-01-27 02:48:18.793 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   5%|▌         | 236/4533 [38:52<11:45:04,  9.85s/it, gpt_loss=0.293, loss_mean=0.282][A[A
+
+Train step of epoch 1:   5%|▌         | 237/4533 [38:52<11:23:38,  9.55s/it, gpt_loss=0.293, loss_mean=0.282][A[A2026-01-27 02:48:27.563 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   5%|▌         | 237/4533 [39:00<11:23:38,  9.55s/it, gpt_loss=0.247, loss_mean=0.278][A[A
+
+Train step of epoch 1:   5%|▌         | 238/4533 [39:00<11:01:09,  9.24s/it, gpt_loss=0.247, loss_mean=0.278][A[A2026-01-27 02:48:36.268 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   5%|▌         | 238/4533 [39:10<11:01:09,  9.24s/it, gpt_loss=0.258, loss_mean=0.276][A[A
+
+Train step of epoch 1:   5%|▌         | 239/4533 [39:10<11:11:29,  9.38s/it, gpt_loss=0.258, loss_mean=0.276][A[A2026-01-27 02:48:45.761 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   5%|▌         | 239/4533 [39:19<11:11:29,  9.38s/it, gpt_loss=0.247, loss_mean=0.273][A[A
+
+Train step of epoch 1:   5%|▌         | 240/4533 [39:19<11:10:35,  9.37s/it, gpt_loss=0.247, loss_mean=0.273][A[A2026-01-27 02:48:55.382 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   5%|▌         | 240/4533 [39:29<11:10:35,  9.37s/it, gpt_loss=0.289, loss_mean=0.275][A[A
+
+Train step of epoch 1:   5%|▌         | 241/4533 [39:29<11:20:50,  9.52s/it, gpt_loss=0.289, loss_mean=0.275][A[A2026-01-27 02:49:05.063 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   5%|▌         | 241/4533 [39:38<11:20:50,  9.52s/it, gpt_loss=0.287, loss_mean=0.276][A[A
+
+Train step of epoch 1:   5%|▌         | 242/4533 [39:38<11:01:05,  9.24s/it, gpt_loss=0.287, loss_mean=0.276][A[A2026-01-27 02:49:13.476 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   5%|▌         | 242/4533 [39:49<11:01:05,  9.24s/it, gpt_loss=0.362, loss_mean=0.285][A[A
+
+Train step of epoch 1:   5%|▌         | 243/4533 [39:49<11:49:40,  9.93s/it, gpt_loss=0.362, loss_mean=0.285][A[A2026-01-27 02:49:25.184 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   5%|▌         | 243/4533 [39:58<11:49:40,  9.93s/it, gpt_loss=0.232, loss_mean=0.279][A[A
+
+Train step of epoch 1:   5%|▌         | 244/4533 [39:58<11:25:37,  9.59s/it, gpt_loss=0.232, loss_mean=0.279][A[A2026-01-27 02:49:34.057 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   5%|▌         | 244/4533 [40:10<11:25:37,  9.59s/it, gpt_loss=0.394, loss_mean=0.291][A[A
+
+Train step of epoch 1:   5%|▌         | 245/4533 [40:10<12:11:21, 10.23s/it, gpt_loss=0.394, loss_mean=0.291][A[A2026-01-27 02:49:45.787 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   5%|▌         | 245/4533 [40:19<12:11:21, 10.23s/it, gpt_loss=0.197, loss_mean=0.281][A[A
+
+Train step of epoch 1:   5%|▌         | 246/4533 [40:19<11:44:56,  9.87s/it, gpt_loss=0.197, loss_mean=0.281][A[A
+[LID Router Debug] Step: 4780
+Batch Size: 14
+Audio Batch Size: 174
+LID Assignments: [3, 2, 5, 3, 3, 3, 0, 1, 0, 4, 9, 2, 2, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 02:49:54.973 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   5%|▌         | 246/4533 [40:29<11:44:56,  9.87s/it, gpt_loss=0.289, loss_mean=0.282][A[A
+
+Train step of epoch 1:   5%|▌         | 247/4533 [40:29<11:46:23,  9.89s/it, gpt_loss=0.289, loss_mean=0.282][A[A2026-01-27 02:50:04.675 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   5%|▌         | 247/4533 [40:37<11:46:23,  9.89s/it, gpt_loss=0.298, loss_mean=0.284][A[A
+
+Train step of epoch 1:   5%|▌         | 248/4533 [40:37<11:21:04,  9.54s/it, gpt_loss=0.298, loss_mean=0.284][A[A2026-01-27 02:50:13.161 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   5%|▌         | 248/4533 [40:47<11:21:04,  9.54s/it, gpt_loss=0.25, loss_mean=0.28]  [A[A
+
+Train step of epoch 1:   5%|▌         | 249/4533 [40:47<11:18:39,  9.51s/it, gpt_loss=0.25, loss_mean=0.28][A[A2026-01-27 02:50:23.000 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   5%|▌         | 249/4533 [40:56<11:18:39,  9.51s/it, gpt_loss=0.335, loss_mean=0.286][A[A
+
+Train step of epoch 1:   6%|▌         | 250/4533 [40:56<11:06:51,  9.34s/it, gpt_loss=0.335, loss_mean=0.286][A[A2026-01-27 02:50:31.776 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   6%|▌         | 250/4533 [41:05<11:06:51,  9.34s/it, gpt_loss=0.274, loss_mean=0.285][A[A
+
+Train step of epoch 1:   6%|▌         | 251/4533 [41:05<11:12:16,  9.42s/it, gpt_loss=0.274, loss_mean=0.285][A[A2026-01-27 02:50:41.460 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   6%|▌         | 251/4533 [41:17<11:12:16,  9.42s/it, gpt_loss=0.367, loss_mean=0.293][A[A
+
+Train step of epoch 1:   6%|▌         | 252/4533 [41:17<12:03:53, 10.15s/it, gpt_loss=0.367, loss_mean=0.293][A[A2026-01-27 02:50:53.376 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   6%|▌         | 252/4533 [41:27<12:03:53, 10.15s/it, gpt_loss=0.259, loss_mean=0.29] [A[A
+
+Train step of epoch 1:   6%|▌         | 253/4533 [41:27<11:52:04,  9.98s/it, gpt_loss=0.259, loss_mean=0.29][A[A2026-01-27 02:51:02.759 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   6%|▌         | 253/4533 [41:36<11:52:04,  9.98s/it, gpt_loss=0.269, loss_mean=0.287][A[A
+
+Train step of epoch 1:   6%|▌         | 254/4533 [41:36<11:29:09,  9.66s/it, gpt_loss=0.269, loss_mean=0.287][A[A2026-01-27 02:51:11.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   6%|▌         | 254/4533 [41:44<11:29:09,  9.66s/it, gpt_loss=0.237, loss_mean=0.282][A[A
+
+Train step of epoch 1:   6%|▌         | 255/4533 [41:44<11:04:20,  9.32s/it, gpt_loss=0.237, loss_mean=0.282][A[A2026-01-27 02:51:20.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   6%|▌         | 255/4533 [41:54<11:04:20,  9.32s/it, gpt_loss=0.226, loss_mean=0.277][A[A
+
+Train step of epoch 1:   6%|▌         | 256/4533 [41:54<11:14:55,  9.47s/it, gpt_loss=0.226, loss_mean=0.277][A[A
+[LID Router Debug] Step: 4790
+Batch Size: 14
+Audio Batch Size: 162
+LID Assignments: [2, 6, 0, 9, 0, 1, 0, 5, 6, 3, 3, 1, 4, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 02:51:30.171 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   6%|▌         | 256/4533 [42:04<11:14:55,  9.47s/it, gpt_loss=0.227, loss_mean=0.272][A[A
+
+Train step of epoch 1:   6%|▌         | 257/4533 [42:04<11:18:37,  9.52s/it, gpt_loss=0.227, loss_mean=0.272][A[A2026-01-27 02:51:39.879 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   6%|▌         | 257/4533 [42:16<11:18:37,  9.52s/it, gpt_loss=0.391, loss_mean=0.284][A[A
+
+Train step of epoch 1:   6%|▌         | 258/4533 [42:16<12:17:20, 10.35s/it, gpt_loss=0.391, loss_mean=0.284][A[A2026-01-27 02:51:51.597 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   6%|▌         | 258/4533 [42:24<12:17:20, 10.35s/it, gpt_loss=0.252, loss_mean=0.28] [A[A
+
+Train step of epoch 1:   6%|▌         | 259/4533 [42:24<11:39:38,  9.82s/it, gpt_loss=0.252, loss_mean=0.28][A[A2026-01-27 02:52:00.679 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   6%|▌         | 259/4533 [42:34<11:39:38,  9.82s/it, gpt_loss=0.284, loss_mean=0.281][A[A
+
+Train step of epoch 1:   6%|▌         | 260/4533 [42:34<11:22:48,  9.59s/it, gpt_loss=0.284, loss_mean=0.281][A[A2026-01-27 02:52:09.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   6%|▌         | 260/4533 [42:42<11:22:48,  9.59s/it, gpt_loss=0.288, loss_mean=0.282][A[A
+
+Train step of epoch 1:   6%|▌         | 261/4533 [42:42<11:04:07,  9.33s/it, gpt_loss=0.288, loss_mean=0.282][A[A2026-01-27 02:52:18.473 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   6%|▌         | 261/4533 [42:51<11:04:07,  9.33s/it, gpt_loss=0.306, loss_mean=0.284][A[A
+
+Train step of epoch 1:   6%|▌         | 262/4533 [42:51<10:55:10,  9.20s/it, gpt_loss=0.306, loss_mean=0.284][A[A2026-01-27 02:52:27.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   6%|▌         | 262/4533 [43:00<10:55:10,  9.20s/it, gpt_loss=0.303, loss_mean=0.286][A[A
+
+Train step of epoch 1:   6%|▌         | 263/4533 [43:00<10:50:57,  9.15s/it, gpt_loss=0.303, loss_mean=0.286][A[A2026-01-27 02:52:36.353 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   6%|▌         | 263/4533 [43:09<10:50:57,  9.15s/it, gpt_loss=0.246, loss_mean=0.282][A[A
+
+Train step of epoch 1:   6%|▌         | 264/4533 [43:09<10:43:43,  9.05s/it, gpt_loss=0.246, loss_mean=0.282][A[A2026-01-27 02:52:44.700 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   6%|▌         | 264/4533 [43:17<10:43:43,  9.05s/it, gpt_loss=0.223, loss_mean=0.276][A[A
+
+Train step of epoch 1:   6%|▌         | 265/4533 [43:17<10:27:17,  8.82s/it, gpt_loss=0.223, loss_mean=0.276][A[A2026-01-27 02:52:53.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   6%|▌         | 265/4533 [43:27<10:27:17,  8.82s/it, gpt_loss=0.268, loss_mean=0.275][A[A
+
+Train step of epoch 1:   6%|▌         | 266/4533 [43:27<10:41:26,  9.02s/it, gpt_loss=0.268, loss_mean=0.275][A[A
+[LID Router Debug] Step: 4800
+Batch Size: 14
+Audio Batch Size: 128
+LID Assignments: [2, 5, 1, 4, 1, 2, 2, 5, 5, 4, 1, 9, 3, 1]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-27 02:53:02.686 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+[2026-01-27 02:53:13,870] [INFO] [logging.py:96:log_dist] [Rank 0] step=4800, skipped=0, lr=[1.4639521397609256e-05, 1.4639521397609256e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 02:53:13,871] [INFO] [timer.py:260:stop] epoch=0/micro_step=4800/global_step=4800, RunningAvgSamplesPerSec=5.725909582794828, CurrSamplesPerSec=4.8337785474764585, MemAllocated=14.73GB, MaxMemAllocated=53.98GB
+
+
+Train step of epoch 1:   6%|▌         | 266/4533 [43:38<10:41:26,  9.02s/it, gpt_loss=0.396, loss_mean=0.287][A[A
+
+Train step of epoch 1:   6%|▌         | 267/4533 [43:38<11:36:23,  9.79s/it, gpt_loss=0.396, loss_mean=0.287][A[A2026-01-27 02:53:14.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   6%|▌         | 267/4533 [43:47<11:36:23,  9.79s/it, gpt_loss=0.38, loss_mean=0.297] [A[A
+
+Train step of epoch 1:   6%|▌         | 268/4533 [43:47<11:12:04,  9.45s/it, gpt_loss=0.38, loss_mean=0.297][A[A2026-01-27 02:53:23.190 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   6%|▌         | 268/4533 [43:56<11:12:04,  9.45s/it, gpt_loss=0.299, loss_mean=0.297][A[A
+
+Train step of epoch 1:   6%|▌         | 269/4533 [43:56<10:59:36,  9.28s/it, gpt_loss=0.299, loss_mean=0.297][A[A2026-01-27 02:53:31.970 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   6%|▌         | 269/4533 [44:04<10:59:36,  9.28s/it, gpt_loss=0.248, loss_mean=0.292][A[A
+
+Train step of epoch 1:   6%|▌         | 270/4533 [44:04<10:44:30,  9.07s/it, gpt_loss=0.248, loss_mean=0.292][A[A2026-01-27 02:53:40.496 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   6%|▌         | 270/4533 [44:14<10:44:30,  9.07s/it, gpt_loss=0.262, loss_mean=0.289][A[A
+
+Train step of epoch 1:   6%|▌         | 271/4533 [44:14<10:48:29,  9.13s/it, gpt_loss=0.262, loss_mean=0.289][A[A2026-01-27 02:53:49.583 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   6%|▌         | 271/4533 [44:26<10:48:29,  9.13s/it, gpt_loss=0.399, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:   6%|▌         | 272/4533 [44:26<11:45:22,  9.93s/it, gpt_loss=0.399, loss_mean=0.3][A[A2026-01-27 02:54:01.587 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   6%|▌         | 272/4533 [44:37<11:45:22,  9.93s/it, gpt_loss=0.318, loss_mean=0.302][A[A
+
+Train step of epoch 1:   6%|▌         | 273/4533 [44:37<12:24:29, 10.49s/it, gpt_loss=0.318, loss_mean=0.302][A[A2026-01-27 02:54:13.397 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   6%|▌         | 273/4533 [44:46<12:24:29, 10.49s/it, gpt_loss=0.271, loss_mean=0.299][A[A
+
+Train step of epoch 1:   6%|▌         | 274/4533 [44:46<11:55:48, 10.08s/it, gpt_loss=0.271, loss_mean=0.299][A[A2026-01-27 02:54:22.589 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   6%|▌         | 274/4533 [44:58<11:55:48, 10.08s/it, gpt_loss=0.341, loss_mean=0.303][A[A
+
+Train step of epoch 1:   6%|▌         | 275/4533 [44:58<12:34:29, 10.63s/it, gpt_loss=0.341, loss_mean=0.303][A[A2026-01-27 02:54:34.590 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   6%|▌         | 275/4533 [45:08<12:34:29, 10.63s/it, gpt_loss=0.257, loss_mean=0.298][A[A
+
+Train step of epoch 1:   6%|▌         | 276/4533 [45:08<12:02:17, 10.18s/it, gpt_loss=0.257, loss_mean=0.298][A[A
+[LID Router Debug] Step: 4810
+Batch Size: 14
+Audio Batch Size: 152
+LID Assignments: [5, 4, 4, 0, 1, 0, 3, 9, 9, 5, 0, 9, 9, 5]
+Active Experts in Batch: {0, 1, 3, 4, 5, 9}
+2026-01-27 02:54:43.791 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   6%|▌         | 276/4533 [45:16<12:02:17, 10.18s/it, gpt_loss=0.313, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:   6%|▌         | 277/4533 [45:16<11:35:47,  9.81s/it, gpt_loss=0.313, loss_mean=0.3][A[A2026-01-27 02:54:52.494 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   6%|▌         | 277/4533 [45:26<11:35:47,  9.81s/it, gpt_loss=0.304, loss_mean=0.3][A[A
+
+Train step of epoch 1:   6%|▌         | 278/4533 [45:26<11:25:17,  9.66s/it, gpt_loss=0.304, loss_mean=0.3][A[A2026-01-27 02:55:02.067 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   6%|▌         | 278/4533 [45:35<11:25:17,  9.66s/it, gpt_loss=0.274, loss_mean=0.298][A[A
+
+Train step of epoch 1:   6%|▌         | 279/4533 [45:35<11:13:03,  9.49s/it, gpt_loss=0.274, loss_mean=0.298][A[A2026-01-27 02:55:10.882 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   6%|▌         | 279/4533 [45:44<11:13:03,  9.49s/it, gpt_loss=0.214, loss_mean=0.289][A[A
+
+Train step of epoch 1:   6%|▌         | 280/4533 [45:44<10:58:52,  9.30s/it, gpt_loss=0.214, loss_mean=0.289][A[A2026-01-27 02:55:19.682 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   6%|▌         | 280/4533 [45:52<10:58:52,  9.30s/it, gpt_loss=0.234, loss_mean=0.284][A[A
+
+Train step of epoch 1:   6%|▌         | 281/4533 [45:52<10:42:53,  9.07s/it, gpt_loss=0.234, loss_mean=0.284][A[A2026-01-27 02:55:28.497 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   6%|▌         | 281/4533 [46:02<10:42:53,  9.07s/it, gpt_loss=0.24, loss_mean=0.279] [A[A
+
+Train step of epoch 1:   6%|▌         | 282/4533 [46:02<10:51:39,  9.20s/it, gpt_loss=0.24, loss_mean=0.279][A[A2026-01-27 02:55:37.989 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   6%|▌         | 282/4533 [46:14<10:51:39,  9.20s/it, gpt_loss=0.393, loss_mean=0.291][A[A
+
+Train step of epoch 1:   6%|▌         | 283/4533 [46:14<11:53:14, 10.07s/it, gpt_loss=0.393, loss_mean=0.291][A[A2026-01-27 02:55:49.872 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   6%|▌         | 283/4533 [46:22<11:53:14, 10.07s/it, gpt_loss=0.217, loss_mean=0.283][A[A
+
+Train step of epoch 1:   6%|▋         | 284/4533 [46:22<11:21:34,  9.62s/it, gpt_loss=0.217, loss_mean=0.283][A[A2026-01-27 02:55:58.683 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   6%|▋         | 284/4533 [46:32<11:21:34,  9.62s/it, gpt_loss=0.281, loss_mean=0.283][A[A
+
+Train step of epoch 1:   6%|▋         | 285/4533 [46:32<11:21:12,  9.62s/it, gpt_loss=0.281, loss_mean=0.283][A[A2026-01-27 02:56:08.278 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   6%|▋         | 285/4533 [46:41<11:21:12,  9.62s/it, gpt_loss=0.301, loss_mean=0.285][A[A
+
+Train step of epoch 1:   6%|▋         | 286/4533 [46:41<11:15:16,  9.54s/it, gpt_loss=0.301, loss_mean=0.285][A[A
+[LID Router Debug] Step: 4820
+Batch Size: 14
+Audio Batch Size: 150
+LID Assignments: [9, 1, 3, 0, 0, 1, 3, 5, 3, 1, 4, 4, 5, 0]
+Active Experts in Batch: {0, 1, 3, 4, 5, 9}
+2026-01-27 02:56:17.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   6%|▋         | 286/4533 [46:50<11:15:16,  9.54s/it, gpt_loss=0.252, loss_mean=0.282][A[A
+
+Train step of epoch 1:   6%|▋         | 287/4533 [46:50<10:59:27,  9.32s/it, gpt_loss=0.252, loss_mean=0.282][A[A2026-01-27 02:56:26.401 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   6%|▋         | 287/4533 [47:00<10:59:27,  9.32s/it, gpt_loss=0.276, loss_mean=0.281][A[A
+
+Train step of epoch 1:   6%|▋         | 288/4533 [47:00<11:00:29,  9.34s/it, gpt_loss=0.276, loss_mean=0.281][A[A2026-01-27 02:56:35.867 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   6%|▋         | 288/4533 [47:12<11:00:29,  9.34s/it, gpt_loss=0.377, loss_mean=0.291][A[A
+
+Train step of epoch 1:   6%|▋         | 289/4533 [47:12<11:57:01, 10.14s/it, gpt_loss=0.377, loss_mean=0.291][A[A2026-01-27 02:56:47.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   6%|▋         | 289/4533 [47:20<11:57:01, 10.14s/it, gpt_loss=0.325, loss_mean=0.294][A[A
+
+Train step of epoch 1:   6%|▋         | 290/4533 [47:20<11:22:06,  9.65s/it, gpt_loss=0.325, loss_mean=0.294][A[A2026-01-27 02:56:56.192 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   6%|▋         | 290/4533 [47:29<11:22:06,  9.65s/it, gpt_loss=0.312, loss_mean=0.296][A[A
+
+Train step of epoch 1:   6%|▋         | 291/4533 [47:29<11:11:48,  9.50s/it, gpt_loss=0.312, loss_mean=0.296][A[A2026-01-27 02:57:05.485 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   6%|▋         | 291/4533 [47:39<11:11:48,  9.50s/it, gpt_loss=0.248, loss_mean=0.291][A[A
+
+Train step of epoch 1:   6%|▋         | 292/4533 [47:39<11:15:47,  9.56s/it, gpt_loss=0.248, loss_mean=0.291][A[A2026-01-27 02:57:15.186 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   6%|▋         | 292/4533 [47:48<11:15:47,  9.56s/it, gpt_loss=0.269, loss_mean=0.289][A[A
+
+Train step of epoch 1:   6%|▋         | 293/4533 [47:48<11:03:03,  9.38s/it, gpt_loss=0.269, loss_mean=0.289][A[A2026-01-27 02:57:23.888 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   6%|▋         | 293/4533 [47:57<11:03:03,  9.38s/it, gpt_loss=0.271, loss_mean=0.287][A[A
+
+Train step of epoch 1:   6%|▋         | 294/4533 [47:57<10:48:18,  9.18s/it, gpt_loss=0.271, loss_mean=0.287][A[A2026-01-27 02:57:32.883 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   6%|▋         | 294/4533 [48:06<10:48:18,  9.18s/it, gpt_loss=0.274, loss_mean=0.286][A[A
+
+Train step of epoch 1:   7%|▋         | 295/4533 [48:06<10:43:23,  9.11s/it, gpt_loss=0.274, loss_mean=0.286][A[A2026-01-27 02:57:41.690 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   7%|▋         | 295/4533 [48:15<10:43:23,  9.11s/it, gpt_loss=0.3, loss_mean=0.287]  [A[A
+
+Train step of epoch 1:   7%|▋         | 296/4533 [48:15<10:54:25,  9.27s/it, gpt_loss=0.3, loss_mean=0.287][A[A
+[LID Router Debug] Step: 4830
+Batch Size: 14
+Audio Batch Size: 189
+LID Assignments: [3, 4, 2, 5, 9, 1, 1, 9, 3, 4, 3, 6, 2, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 02:57:51.488 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   7%|▋         | 296/4533 [48:24<10:54:25,  9.27s/it, gpt_loss=0.211, loss_mean=0.28][A[A
+
+Train step of epoch 1:   7%|▋         | 297/4533 [48:24<10:51:10,  9.22s/it, gpt_loss=0.211, loss_mean=0.28][A[A2026-01-27 02:58:00.493 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   7%|▋         | 297/4533 [48:36<10:51:10,  9.22s/it, gpt_loss=0.32, loss_mean=0.284][A[A
+
+Train step of epoch 1:   7%|▋         | 298/4533 [48:36<11:41:34,  9.94s/it, gpt_loss=0.32, loss_mean=0.284][A[A2026-01-27 02:58:12.267 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   7%|▋         | 298/4533 [48:45<11:41:34,  9.94s/it, gpt_loss=0.276, loss_mean=0.283][A[A
+
+Train step of epoch 1:   7%|▋         | 299/4533 [48:45<11:24:13,  9.70s/it, gpt_loss=0.276, loss_mean=0.283][A[A2026-01-27 02:58:21.284 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   7%|▋         | 299/4533 [48:54<11:24:13,  9.70s/it, gpt_loss=0.347, loss_mean=0.289][A[A
+
+Train step of epoch 1:   7%|▋         | 300/4533 [48:54<11:06:31,  9.45s/it, gpt_loss=0.347, loss_mean=0.289][A[A2026-01-27 02:58:30.076 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   7%|▋         | 300/4533 [49:03<11:06:31,  9.45s/it, gpt_loss=0.233, loss_mean=0.284][A[A
+
+Train step of epoch 1:   7%|▋         | 301/4533 [49:03<10:49:30,  9.21s/it, gpt_loss=0.233, loss_mean=0.284][A[A2026-01-27 02:58:38.673 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   7%|▋         | 301/4533 [49:12<10:49:30,  9.21s/it, gpt_loss=0.235, loss_mean=0.279][A[A
+
+Train step of epoch 1:   7%|▋         | 302/4533 [49:12<10:45:29,  9.15s/it, gpt_loss=0.235, loss_mean=0.279][A[A2026-01-27 02:58:47.784 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   7%|▋         | 302/4533 [49:20<10:45:29,  9.15s/it, gpt_loss=0.262, loss_mean=0.277][A[A
+
+Train step of epoch 1:   7%|▋         | 303/4533 [49:20<10:36:17,  9.03s/it, gpt_loss=0.262, loss_mean=0.277][A[A2026-01-27 02:58:56.590 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   7%|▋         | 303/4533 [49:30<10:36:17,  9.03s/it, gpt_loss=0.303, loss_mean=0.28] [A[A
+
+Train step of epoch 1:   7%|▋         | 304/4533 [49:30<10:52:10,  9.25s/it, gpt_loss=0.303, loss_mean=0.28][A[A2026-01-27 02:59:06.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   7%|▋         | 304/4533 [49:42<10:52:10,  9.25s/it, gpt_loss=0.42, loss_mean=0.294][A[A
+
+Train step of epoch 1:   7%|▋         | 305/4533 [49:42<11:42:49,  9.97s/it, gpt_loss=0.42, loss_mean=0.294][A[A2026-01-27 02:59:17.489 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   7%|▋         | 305/4533 [49:50<11:42:49,  9.97s/it, gpt_loss=0.239, loss_mean=0.288][A[A
+
+Train step of epoch 1:   7%|▋         | 306/4533 [49:50<11:13:00,  9.55s/it, gpt_loss=0.239, loss_mean=0.288][A[A
+[LID Router Debug] Step: 4840
+Batch Size: 14
+Audio Batch Size: 112
+LID Assignments: [4, 9, 5, 0, 4, 2, 2, 6, 4, 9, 6, 5, 6, 1]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-27 02:59:26.585 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   7%|▋         | 306/4533 [50:00<11:13:00,  9.55s/it, gpt_loss=0.337, loss_mean=0.293][A[A
+
+Train step of epoch 1:   7%|▋         | 307/4533 [50:00<11:16:11,  9.60s/it, gpt_loss=0.337, loss_mean=0.293][A[A2026-01-27 02:59:36.171 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   7%|▋         | 307/4533 [50:10<11:16:11,  9.60s/it, gpt_loss=0.237, loss_mean=0.288][A[A
+
+Train step of epoch 1:   7%|▋         | 308/4533 [50:10<11:17:52,  9.63s/it, gpt_loss=0.237, loss_mean=0.288][A[A2026-01-27 02:59:45.879 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   7%|▋         | 308/4533 [50:21<11:17:52,  9.63s/it, gpt_loss=0.324, loss_mean=0.291][A[A
+
+Train step of epoch 1:   7%|▋         | 309/4533 [50:21<11:58:32, 10.21s/it, gpt_loss=0.324, loss_mean=0.291][A[A2026-01-27 02:59:57.567 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   7%|▋         | 309/4533 [50:33<11:58:32, 10.21s/it, gpt_loss=0.396, loss_mean=0.302][A[A
+
+Train step of epoch 1:   7%|▋         | 310/4533 [50:33<12:37:47, 10.77s/it, gpt_loss=0.396, loss_mean=0.302][A[A2026-01-27 03:00:09.668 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   7%|▋         | 310/4533 [50:46<12:37:47, 10.77s/it, gpt_loss=0.339, loss_mean=0.306][A[A
+
+Train step of epoch 1:   7%|▋         | 311/4533 [50:46<13:18:26, 11.35s/it, gpt_loss=0.339, loss_mean=0.306][A[A2026-01-27 03:00:22.173 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   7%|▋         | 311/4533 [50:55<13:18:26, 11.35s/it, gpt_loss=0.262, loss_mean=0.301][A[A
+
+Train step of epoch 1:   7%|▋         | 312/4533 [50:55<12:22:45, 10.56s/it, gpt_loss=0.262, loss_mean=0.301][A[A2026-01-27 03:00:30.685 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   7%|▋         | 312/4533 [51:07<12:22:45, 10.56s/it, gpt_loss=0.272, loss_mean=0.298][A[A
+
+Train step of epoch 1:   7%|▋         | 313/4533 [51:07<12:50:00, 10.95s/it, gpt_loss=0.272, loss_mean=0.298][A[A2026-01-27 03:00:42.669 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   7%|▋         | 313/4533 [51:15<12:50:00, 10.95s/it, gpt_loss=0.265, loss_mean=0.295][A[A
+
+Train step of epoch 1:   7%|▋         | 314/4533 [51:15<11:59:48, 10.24s/it, gpt_loss=0.265, loss_mean=0.295][A[A2026-01-27 03:00:51.495 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   7%|▋         | 314/4533 [51:27<11:59:48, 10.24s/it, gpt_loss=0.385, loss_mean=0.304][A[A
+
+Train step of epoch 1:   7%|▋         | 315/4533 [51:27<12:40:07, 10.81s/it, gpt_loss=0.385, loss_mean=0.304][A[A2026-01-27 03:01:03.481 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   7%|▋         | 315/4533 [51:36<12:40:07, 10.81s/it, gpt_loss=0.201, loss_mean=0.294][A[A
+
+Train step of epoch 1:   7%|▋         | 316/4533 [51:36<11:58:15, 10.22s/it, gpt_loss=0.201, loss_mean=0.294][A[A
+[LID Router Debug] Step: 4850
+Batch Size: 14
+Audio Batch Size: 120
+LID Assignments: [9, 2, 5, 9, 4, 2, 4, 6, 6, 5, 2, 6, 3, 0]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-27 03:01:12.391 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   7%|▋         | 316/4533 [51:48<11:58:15, 10.22s/it, gpt_loss=0.377, loss_mean=0.302][A[A
+
+Train step of epoch 1:   7%|▋         | 317/4533 [51:48<12:27:52, 10.64s/it, gpt_loss=0.377, loss_mean=0.302][A[A2026-01-27 03:01:24.159 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   7%|▋         | 317/4533 [51:57<12:27:52, 10.64s/it, gpt_loss=0.22, loss_mean=0.294] [A[A
+
+Train step of epoch 1:   7%|▋         | 318/4533 [51:57<11:50:45, 10.12s/it, gpt_loss=0.22, loss_mean=0.294][A[A2026-01-27 03:01:32.584 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   7%|▋         | 318/4533 [52:05<11:50:45, 10.12s/it, gpt_loss=0.243, loss_mean=0.289][A[A
+
+Train step of epoch 1:   7%|▋         | 319/4533 [52:05<11:19:12,  9.67s/it, gpt_loss=0.243, loss_mean=0.289][A[A2026-01-27 03:01:41.375 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   7%|▋         | 319/4533 [52:14<11:19:12,  9.67s/it, gpt_loss=0.246, loss_mean=0.285][A[A
+
+Train step of epoch 1:   7%|▋         | 320/4533 [52:14<10:58:51,  9.38s/it, gpt_loss=0.246, loss_mean=0.285][A[A2026-01-27 03:01:50.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   7%|▋         | 320/4533 [52:24<10:58:51,  9.38s/it, gpt_loss=0.315, loss_mean=0.288][A[A
+
+Train step of epoch 1:   7%|▋         | 321/4533 [52:24<11:00:07,  9.40s/it, gpt_loss=0.315, loss_mean=0.288][A[A2026-01-27 03:01:59.590 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   7%|▋         | 321/4533 [52:35<11:00:07,  9.40s/it, gpt_loss=0.391, loss_mean=0.298][A[A
+
+Train step of epoch 1:   7%|▋         | 322/4533 [52:35<11:47:40, 10.08s/it, gpt_loss=0.391, loss_mean=0.298][A[A2026-01-27 03:02:11.275 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   7%|▋         | 322/4533 [52:44<11:47:40, 10.08s/it, gpt_loss=0.252, loss_mean=0.293][A[A
+
+Train step of epoch 1:   7%|▋         | 323/4533 [52:44<11:15:33,  9.63s/it, gpt_loss=0.252, loss_mean=0.293][A[A2026-01-27 03:02:19.798 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   7%|▋         | 323/4533 [52:52<11:15:33,  9.63s/it, gpt_loss=0.362, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:   7%|▋         | 324/4533 [52:52<10:55:07,  9.34s/it, gpt_loss=0.362, loss_mean=0.3][A[A2026-01-27 03:02:28.272 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   7%|▋         | 324/4533 [53:01<10:55:07,  9.34s/it, gpt_loss=0.257, loss_mean=0.296][A[A
+
+Train step of epoch 1:   7%|▋         | 325/4533 [53:01<10:41:30,  9.15s/it, gpt_loss=0.257, loss_mean=0.296][A[A2026-01-27 03:02:37.392 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   7%|▋         | 325/4533 [53:10<10:41:30,  9.15s/it, gpt_loss=0.238, loss_mean=0.29] [A[A
+
+Train step of epoch 1:   7%|▋         | 326/4533 [53:10<10:35:07,  9.06s/it, gpt_loss=0.238, loss_mean=0.29][A[A
+[LID Router Debug] Step: 4860
+Batch Size: 14
+Audio Batch Size: 145
+LID Assignments: [9, 0, 4, 9, 5, 6, 1, 3, 3, 1, 4, 4, 2, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 03:02:45.970 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   7%|▋         | 326/4533 [53:22<10:35:07,  9.06s/it, gpt_loss=0.381, loss_mean=0.299][A[A
+
+Train step of epoch 1:   7%|▋         | 327/4533 [53:22<11:35:28,  9.92s/it, gpt_loss=0.381, loss_mean=0.299][A[A2026-01-27 03:02:58.089 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   7%|▋         | 327/4533 [53:31<11:35:28,  9.92s/it, gpt_loss=0.255, loss_mean=0.295][A[A
+
+Train step of epoch 1:   7%|▋         | 328/4533 [53:31<11:26:45,  9.80s/it, gpt_loss=0.255, loss_mean=0.295][A[A2026-01-27 03:03:07.684 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   7%|▋         | 328/4533 [53:41<11:26:45,  9.80s/it, gpt_loss=0.326, loss_mean=0.298][A[A
+
+Train step of epoch 1:   7%|▋         | 329/4533 [53:41<11:27:38,  9.81s/it, gpt_loss=0.326, loss_mean=0.298][A[A2026-01-27 03:03:17.276 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   7%|▋         | 329/4533 [53:50<11:27:38,  9.81s/it, gpt_loss=0.432, loss_mean=0.311][A[A
+
+Train step of epoch 1:   7%|▋         | 330/4533 [53:50<11:03:21,  9.47s/it, gpt_loss=0.432, loss_mean=0.311][A[A2026-01-27 03:03:26.194 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   7%|▋         | 330/4533 [54:00<11:03:21,  9.47s/it, gpt_loss=0.295, loss_mean=0.31] [A[A
+
+Train step of epoch 1:   7%|▋         | 331/4533 [54:00<11:09:44,  9.56s/it, gpt_loss=0.295, loss_mean=0.31][A[A2026-01-27 03:03:35.593 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   7%|▋         | 331/4533 [54:08<11:09:44,  9.56s/it, gpt_loss=0.288, loss_mean=0.308][A[A
+
+Train step of epoch 1:   7%|▋         | 332/4533 [54:08<10:46:36,  9.24s/it, gpt_loss=0.288, loss_mean=0.308][A[A2026-01-27 03:03:44.480 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   7%|▋         | 332/4533 [54:17<10:46:36,  9.24s/it, gpt_loss=0.317, loss_mean=0.308][A[A
+
+Train step of epoch 1:   7%|▋         | 333/4533 [54:17<10:39:02,  9.13s/it, gpt_loss=0.317, loss_mean=0.308][A[A2026-01-27 03:03:53.361 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   7%|▋         | 333/4533 [54:27<10:39:02,  9.13s/it, gpt_loss=0.307, loss_mean=0.308][A[A
+
+Train step of epoch 1:   7%|▋         | 334/4533 [54:27<10:51:44,  9.31s/it, gpt_loss=0.307, loss_mean=0.308][A[A2026-01-27 03:04:03.163 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   7%|▋         | 334/4533 [54:36<10:51:44,  9.31s/it, gpt_loss=0.297, loss_mean=0.307][A[A
+
+Train step of epoch 1:   7%|▋         | 335/4533 [54:36<10:45:35,  9.23s/it, gpt_loss=0.297, loss_mean=0.307][A[A2026-01-27 03:04:11.891 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   7%|▋         | 335/4533 [54:48<10:45:35,  9.23s/it, gpt_loss=0.311, loss_mean=0.308][A[A
+
+Train step of epoch 1:   7%|▋         | 336/4533 [54:48<11:46:51, 10.11s/it, gpt_loss=0.311, loss_mean=0.308][A[A
+[LID Router Debug] Step: 4870
+Batch Size: 14
+Audio Batch Size: 117
+LID Assignments: [5, 0, 2, 2, 5, 1, 0, 2, 4, 4, 4, 6, 0, 1]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6}
+2026-01-27 03:04:24.181 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   7%|▋         | 336/4533 [54:58<11:46:51, 10.11s/it, gpt_loss=0.237, loss_mean=0.301][A[A
+
+Train step of epoch 1:   7%|▋         | 337/4533 [54:58<11:37:18,  9.97s/it, gpt_loss=0.237, loss_mean=0.301][A[A2026-01-27 03:04:33.459 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   7%|▋         | 337/4533 [55:07<11:37:18,  9.97s/it, gpt_loss=0.289, loss_mean=0.299][A[A
+
+Train step of epoch 1:   7%|▋         | 338/4533 [55:07<11:15:24,  9.66s/it, gpt_loss=0.289, loss_mean=0.299][A[A2026-01-27 03:04:42.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   7%|▋         | 338/4533 [55:15<11:15:24,  9.66s/it, gpt_loss=0.31, loss_mean=0.3]   [A[A
+
+Train step of epoch 1:   7%|▋         | 339/4533 [55:15<10:53:45,  9.35s/it, gpt_loss=0.31, loss_mean=0.3][A[A2026-01-27 03:04:51.367 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   7%|▋         | 339/4533 [55:24<10:53:45,  9.35s/it, gpt_loss=0.28, loss_mean=0.298][A[A
+
+Train step of epoch 1:   8%|▊         | 340/4533 [55:24<10:39:58,  9.16s/it, gpt_loss=0.28, loss_mean=0.298][A[A2026-01-27 03:05:00.185 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   8%|▊         | 340/4533 [55:34<10:39:58,  9.16s/it, gpt_loss=0.325, loss_mean=0.301][A[A
+
+Train step of epoch 1:   8%|▊         | 341/4533 [55:34<10:50:34,  9.31s/it, gpt_loss=0.325, loss_mean=0.301][A[A2026-01-27 03:05:09.583 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   8%|▊         | 341/4533 [55:43<10:50:34,  9.31s/it, gpt_loss=0.323, loss_mean=0.303][A[A
+
+Train step of epoch 1:   8%|▊         | 342/4533 [55:43<10:53:36,  9.36s/it, gpt_loss=0.323, loss_mean=0.303][A[A2026-01-27 03:05:19.178 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   8%|▊         | 342/4533 [55:55<10:53:36,  9.36s/it, gpt_loss=0.417, loss_mean=0.315][A[A
+
+Train step of epoch 1:   8%|▊         | 343/4533 [55:55<11:47:24, 10.13s/it, gpt_loss=0.417, loss_mean=0.315][A[A2026-01-27 03:05:31.152 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   8%|▊         | 343/4533 [56:04<11:47:24, 10.13s/it, gpt_loss=0.222, loss_mean=0.305][A[A
+
+Train step of epoch 1:   8%|▊         | 344/4533 [56:04<11:18:33,  9.72s/it, gpt_loss=0.222, loss_mean=0.305][A[A2026-01-27 03:05:39.695 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   8%|▊         | 344/4533 [56:13<11:18:33,  9.72s/it, gpt_loss=0.26, loss_mean=0.301] [A[A
+
+Train step of epoch 1:   8%|▊         | 345/4533 [56:13<11:08:51,  9.58s/it, gpt_loss=0.26, loss_mean=0.301][A[A2026-01-27 03:05:48.856 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   8%|▊         | 345/4533 [56:22<11:08:51,  9.58s/it, gpt_loss=0.337, loss_mean=0.304][A[A
+
+Train step of epoch 1:   8%|▊         | 346/4533 [56:22<10:51:43,  9.34s/it, gpt_loss=0.337, loss_mean=0.304][A[A
+[LID Router Debug] Step: 4880
+Batch Size: 14
+Audio Batch Size: 177
+LID Assignments: [0, 0, 1, 0, 3, 1, 3, 3, 3, 5, 9, 2, 6, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 03:05:57.980 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   8%|▊         | 346/4533 [56:31<10:51:43,  9.34s/it, gpt_loss=0.222, loss_mean=0.296][A[A
+
+Train step of epoch 1:   8%|▊         | 347/4533 [56:31<10:52:53,  9.36s/it, gpt_loss=0.222, loss_mean=0.296][A[A2026-01-27 03:06:07.384 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   8%|▊         | 347/4533 [56:41<10:52:53,  9.36s/it, gpt_loss=0.242, loss_mean=0.291][A[A
+
+Train step of epoch 1:   8%|▊         | 348/4533 [56:41<11:00:02,  9.46s/it, gpt_loss=0.242, loss_mean=0.291][A[A2026-01-27 03:06:17.187 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   8%|▊         | 348/4533 [56:50<11:00:02,  9.46s/it, gpt_loss=0.249, loss_mean=0.287][A[A
+
+Train step of epoch 1:   8%|▊         | 349/4533 [56:50<10:55:12,  9.40s/it, gpt_loss=0.249, loss_mean=0.287][A[A2026-01-27 03:06:25.874 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   8%|▊         | 349/4533 [56:59<10:55:12,  9.40s/it, gpt_loss=0.23, loss_mean=0.281] [A[A
+
+Train step of epoch 1:   8%|▊         | 350/4533 [56:59<10:35:52,  9.12s/it, gpt_loss=0.23, loss_mean=0.281][A[A2026-01-27 03:06:34.695 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   8%|▊         | 350/4533 [57:07<10:35:52,  9.12s/it, gpt_loss=0.304, loss_mean=0.283][A[A
+
+Train step of epoch 1:   8%|▊         | 351/4533 [57:07<10:29:15,  9.03s/it, gpt_loss=0.304, loss_mean=0.283][A[A2026-01-27 03:06:43.566 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   8%|▊         | 351/4533 [57:16<10:29:15,  9.03s/it, gpt_loss=0.25, loss_mean=0.28]  [A[A
+
+Train step of epoch 1:   8%|▊         | 352/4533 [57:16<10:23:48,  8.95s/it, gpt_loss=0.25, loss_mean=0.28][A[A2026-01-27 03:06:52.481 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   8%|▊         | 352/4533 [57:28<10:23:48,  8.95s/it, gpt_loss=0.408, loss_mean=0.293][A[A
+
+Train step of epoch 1:   8%|▊         | 353/4533 [57:28<11:33:15,  9.95s/it, gpt_loss=0.408, loss_mean=0.293][A[A2026-01-27 03:07:04.761 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   8%|▊         | 353/4533 [57:38<11:33:15,  9.95s/it, gpt_loss=0.282, loss_mean=0.292][A[A
+
+Train step of epoch 1:   8%|▊         | 354/4533 [57:38<11:27:19,  9.87s/it, gpt_loss=0.282, loss_mean=0.292][A[A2026-01-27 03:07:14.390 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   8%|▊         | 354/4533 [57:48<11:27:19,  9.87s/it, gpt_loss=0.246, loss_mean=0.287][A[A
+
+Train step of epoch 1:   8%|▊         | 355/4533 [57:48<11:24:32,  9.83s/it, gpt_loss=0.246, loss_mean=0.287][A[A2026-01-27 03:07:23.991 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   8%|▊         | 355/4533 [58:00<11:24:32,  9.83s/it, gpt_loss=0.35, loss_mean=0.293] [A[A
+
+Train step of epoch 1:   8%|▊         | 356/4533 [58:00<12:05:15, 10.42s/it, gpt_loss=0.35, loss_mean=0.293][A[A
+[LID Router Debug] Step: 4890
+Batch Size: 14
+Audio Batch Size: 164
+LID Assignments: [3, 1, 9, 5, 9, 1, 1, 3, 2, 0, 1, 9, 5, 2]
+Active Experts in Batch: {0, 1, 2, 3, 5, 9}
+2026-01-27 03:07:35.793 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   8%|▊         | 356/4533 [58:09<12:05:15, 10.42s/it, gpt_loss=0.343, loss_mean=0.298][A[A
+
+Train step of epoch 1:   8%|▊         | 357/4533 [58:09<11:33:26,  9.96s/it, gpt_loss=0.343, loss_mean=0.298][A[A2026-01-27 03:07:44.880 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   8%|▊         | 357/4533 [58:18<11:33:26,  9.96s/it, gpt_loss=0.261, loss_mean=0.295][A[A
+
+Train step of epoch 1:   8%|▊         | 358/4533 [58:18<11:14:00,  9.69s/it, gpt_loss=0.261, loss_mean=0.295][A[A2026-01-27 03:07:53.392 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   8%|▊         | 358/4533 [58:29<11:14:00,  9.69s/it, gpt_loss=0.46, loss_mean=0.311] [A[A
+
+Train step of epoch 1:   8%|▊         | 359/4533 [58:29<11:57:14, 10.31s/it, gpt_loss=0.46, loss_mean=0.311][A[A2026-01-27 03:08:05.697 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   8%|▊         | 359/4533 [58:41<11:57:14, 10.31s/it, gpt_loss=0.415, loss_mean=0.322][A[A
+
+Train step of epoch 1:   8%|▊         | 360/4533 [58:41<12:24:36, 10.71s/it, gpt_loss=0.415, loss_mean=0.322][A[A2026-01-27 03:08:16.983 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   8%|▊         | 360/4533 [58:50<12:24:36, 10.71s/it, gpt_loss=0.291, loss_mean=0.318][A[A
+
+Train step of epoch 1:   8%|▊         | 361/4533 [58:50<11:53:07, 10.26s/it, gpt_loss=0.291, loss_mean=0.318][A[A2026-01-27 03:08:26.292 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   8%|▊         | 361/4533 [58:59<11:53:07, 10.26s/it, gpt_loss=0.264, loss_mean=0.313][A[A
+
+Train step of epoch 1:   8%|▊         | 362/4533 [58:59<11:21:04,  9.80s/it, gpt_loss=0.264, loss_mean=0.313][A[A2026-01-27 03:08:34.997 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   8%|▊         | 362/4533 [59:08<11:21:04,  9.80s/it, gpt_loss=0.203, loss_mean=0.302][A[A
+
+Train step of epoch 1:   8%|▊         | 363/4533 [59:08<10:55:08,  9.43s/it, gpt_loss=0.203, loss_mean=0.302][A[A2026-01-27 03:08:43.579 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   8%|▊         | 363/4533 [59:17<10:55:08,  9.43s/it, gpt_loss=0.35, loss_mean=0.307] [A[A
+
+Train step of epoch 1:   8%|▊         | 364/4533 [59:17<10:55:51,  9.44s/it, gpt_loss=0.35, loss_mean=0.307][A[A2026-01-27 03:08:53.286 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   8%|▊         | 364/4533 [59:26<10:55:51,  9.44s/it, gpt_loss=0.21, loss_mean=0.297][A[A
+
+Train step of epoch 1:   8%|▊         | 365/4533 [59:26<10:45:15,  9.29s/it, gpt_loss=0.21, loss_mean=0.297][A[A2026-01-27 03:09:02.193 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   8%|▊         | 365/4533 [59:36<10:45:15,  9.29s/it, gpt_loss=0.288, loss_mean=0.296][A[A
+
+Train step of epoch 1:   8%|▊         | 366/4533 [59:36<10:52:36,  9.40s/it, gpt_loss=0.288, loss_mean=0.296][A[A
+[LID Router Debug] Step: 4900
+Batch Size: 14
+Audio Batch Size: 156
+LID Assignments: [1, 3, 1, 3, 0, 4, 2, 4, 4, 5, 1, 3, 5, 6]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6}
+2026-01-27 03:09:11.596 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+[2026-01-27 03:09:19,774] [INFO] [logging.py:96:log_dist] [Rank 0] step=4900, skipped=0, lr=[1.4431561453358573e-05, 1.4431561453358573e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 03:09:19,775] [INFO] [timer.py:260:stop] epoch=0/micro_step=4900/global_step=4900, RunningAvgSamplesPerSec=5.727626159711486, CurrSamplesPerSec=6.468741625105063, MemAllocated=14.63GB, MaxMemAllocated=53.98GB
+
+
+Train step of epoch 1:   8%|▊         | 366/4533 [59:44<10:52:36,  9.40s/it, gpt_loss=0.275, loss_mean=0.294][A[A
+
+Train step of epoch 1:   8%|▊         | 367/4533 [59:44<10:37:25,  9.18s/it, gpt_loss=0.275, loss_mean=0.294][A[A2026-01-27 03:09:20.107 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   8%|▊         | 367/4533 [59:53<10:37:25,  9.18s/it, gpt_loss=0.314, loss_mean=0.296][A[A
+
+Train step of epoch 1:   8%|▊         | 368/4533 [59:53<10:23:40,  8.98s/it, gpt_loss=0.314, loss_mean=0.296][A[A2026-01-27 03:09:28.682 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   8%|▊         | 368/4533 [1:00:02<10:23:40,  8.98s/it, gpt_loss=0.253, loss_mean=0.292][A[A
+
+Train step of epoch 1:   8%|▊         | 369/4533 [1:00:02<10:22:05,  8.96s/it, gpt_loss=0.253, loss_mean=0.292][A[A2026-01-27 03:09:37.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   8%|▊         | 369/4533 [1:00:11<10:22:05,  8.96s/it, gpt_loss=0.271, loss_mean=0.29] [A[A
+
+Train step of epoch 1:   8%|▊         | 370/4533 [1:00:11<10:27:05,  9.04s/it, gpt_loss=0.271, loss_mean=0.29][A[A2026-01-27 03:09:47.103 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   8%|▊         | 370/4533 [1:00:20<10:27:05,  9.04s/it, gpt_loss=0.304, loss_mean=0.291][A[A
+
+Train step of epoch 1:   8%|▊         | 371/4533 [1:00:20<10:24:48,  9.01s/it, gpt_loss=0.304, loss_mean=0.291][A[A2026-01-27 03:09:56.064 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   8%|▊         | 371/4533 [1:00:29<10:24:48,  9.01s/it, gpt_loss=0.257, loss_mean=0.288][A[A
+
+Train step of epoch 1:   8%|▊         | 372/4533 [1:00:29<10:22:33,  8.98s/it, gpt_loss=0.257, loss_mean=0.288][A[A2026-01-27 03:10:04.889 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   8%|▊         | 372/4533 [1:00:38<10:22:33,  8.98s/it, gpt_loss=0.238, loss_mean=0.283][A[A
+
+Train step of epoch 1:   8%|▊         | 373/4533 [1:00:38<10:20:39,  8.95s/it, gpt_loss=0.238, loss_mean=0.283][A[A2026-01-27 03:10:13.802 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   8%|▊         | 373/4533 [1:00:47<10:20:39,  8.95s/it, gpt_loss=0.274, loss_mean=0.282][A[A
+
+Train step of epoch 1:   8%|▊         | 374/4533 [1:00:47<10:37:41,  9.20s/it, gpt_loss=0.274, loss_mean=0.282][A[A2026-01-27 03:10:23.595 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   8%|▊         | 374/4533 [1:00:56<10:37:41,  9.20s/it, gpt_loss=0.237, loss_mean=0.277][A[A
+
+Train step of epoch 1:   8%|▊         | 375/4533 [1:00:56<10:31:11,  9.11s/it, gpt_loss=0.237, loss_mean=0.277][A[A2026-01-27 03:10:32.593 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   8%|▊         | 375/4533 [1:01:08<10:31:11,  9.11s/it, gpt_loss=0.301, loss_mean=0.28] [A[A
+
+Train step of epoch 1:   8%|▊         | 376/4533 [1:01:08<11:23:06,  9.86s/it, gpt_loss=0.301, loss_mean=0.28][A[A
+[LID Router Debug] Step: 4910
+Batch Size: 14
+Audio Batch Size: 137
+LID Assignments: [2, 4, 4, 9, 1, 3, 4, 0, 5, 0, 4, 2, 6, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 03:10:44.262 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   8%|▊         | 376/4533 [1:01:18<11:23:06,  9.86s/it, gpt_loss=0.247, loss_mean=0.276][A[A
+
+Train step of epoch 1:   8%|▊         | 377/4533 [1:01:18<11:30:11,  9.96s/it, gpt_loss=0.247, loss_mean=0.276][A[A2026-01-27 03:10:54.284 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   8%|▊         | 377/4533 [1:01:28<11:30:11,  9.96s/it, gpt_loss=0.247, loss_mean=0.274][A[A
+
+Train step of epoch 1:   8%|▊         | 378/4533 [1:01:28<11:20:58,  9.83s/it, gpt_loss=0.247, loss_mean=0.274][A[A2026-01-27 03:11:03.963 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   8%|▊         | 378/4533 [1:01:37<11:20:58,  9.83s/it, gpt_loss=0.213, loss_mean=0.267][A[A
+
+Train step of epoch 1:   8%|▊         | 379/4533 [1:01:37<11:01:49,  9.56s/it, gpt_loss=0.213, loss_mean=0.267][A[A2026-01-27 03:11:12.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   8%|▊         | 379/4533 [1:01:46<11:01:49,  9.56s/it, gpt_loss=0.264, loss_mean=0.267][A[A
+
+Train step of epoch 1:   8%|▊         | 380/4533 [1:01:46<11:03:41,  9.59s/it, gpt_loss=0.264, loss_mean=0.267][A[A2026-01-27 03:11:22.363 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   8%|▊         | 380/4533 [1:01:56<11:03:41,  9.59s/it, gpt_loss=0.257, loss_mean=0.266][A[A
+
+Train step of epoch 1:   8%|▊         | 381/4533 [1:01:56<11:03:09,  9.58s/it, gpt_loss=0.257, loss_mean=0.266][A[A2026-01-27 03:11:31.992 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   8%|▊         | 381/4533 [1:02:05<11:03:09,  9.58s/it, gpt_loss=0.256, loss_mean=0.265][A[A
+
+Train step of epoch 1:   8%|▊         | 382/4533 [1:02:05<10:47:24,  9.36s/it, gpt_loss=0.256, loss_mean=0.265][A[A2026-01-27 03:11:40.779 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   8%|▊         | 382/4533 [1:02:13<10:47:24,  9.36s/it, gpt_loss=0.288, loss_mean=0.267][A[A
+
+Train step of epoch 1:   8%|▊         | 383/4533 [1:02:13<10:34:10,  9.17s/it, gpt_loss=0.288, loss_mean=0.267][A[A2026-01-27 03:11:49.182 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   8%|▊         | 383/4533 [1:02:25<10:34:10,  9.17s/it, gpt_loss=0.357, loss_mean=0.276][A[A
+
+Train step of epoch 1:   8%|▊         | 384/4533 [1:02:25<11:29:01,  9.96s/it, gpt_loss=0.357, loss_mean=0.276][A[A2026-01-27 03:12:00.891 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   8%|▊         | 384/4533 [1:02:33<11:29:01,  9.96s/it, gpt_loss=0.309, loss_mean=0.28] [A[A
+
+Train step of epoch 1:   8%|▊         | 385/4533 [1:02:33<10:52:56,  9.44s/it, gpt_loss=0.309, loss_mean=0.28][A[A2026-01-27 03:12:09.766 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   8%|▊         | 385/4533 [1:02:43<10:52:56,  9.44s/it, gpt_loss=0.293, loss_mean=0.281][A[A
+
+Train step of epoch 1:   9%|▊         | 386/4533 [1:02:43<10:53:18,  9.45s/it, gpt_loss=0.293, loss_mean=0.281][A[A
+[LID Router Debug] Step: 4920
+Batch Size: 14
+Audio Batch Size: 138
+LID Assignments: [5, 0, 2, 5, 0, 3, 6, 3, 1, 6, 5, 1, 2, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6}
+2026-01-27 03:12:18.789 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   9%|▊         | 386/4533 [1:02:51<10:53:18,  9.45s/it, gpt_loss=0.264, loss_mean=0.279][A[A
+
+Train step of epoch 1:   9%|▊         | 387/4533 [1:02:51<10:29:26,  9.11s/it, gpt_loss=0.264, loss_mean=0.279][A[A2026-01-27 03:12:27.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   9%|▊         | 387/4533 [1:03:03<10:29:26,  9.11s/it, gpt_loss=0.372, loss_mean=0.289][A[A
+
+Train step of epoch 1:   9%|▊         | 388/4533 [1:03:03<11:25:28,  9.92s/it, gpt_loss=0.372, loss_mean=0.289][A[A2026-01-27 03:12:39.367 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   9%|▊         | 388/4533 [1:03:12<11:25:28,  9.92s/it, gpt_loss=0.279, loss_mean=0.288][A[A
+
+Train step of epoch 1:   9%|▊         | 389/4533 [1:03:12<11:11:39,  9.72s/it, gpt_loss=0.279, loss_mean=0.288][A[A2026-01-27 03:12:48.585 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   9%|▊         | 389/4533 [1:03:22<11:11:39,  9.72s/it, gpt_loss=0.252, loss_mean=0.284][A[A
+
+Train step of epoch 1:   9%|▊         | 390/4533 [1:03:22<11:13:39,  9.76s/it, gpt_loss=0.252, loss_mean=0.284][A[A2026-01-27 03:12:58.451 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   9%|▊         | 390/4533 [1:03:34<11:13:39,  9.76s/it, gpt_loss=0.302, loss_mean=0.286][A[A
+
+Train step of epoch 1:   9%|▊         | 391/4533 [1:03:34<12:06:49, 10.53s/it, gpt_loss=0.302, loss_mean=0.286][A[A2026-01-27 03:13:10.484 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   9%|▊         | 391/4533 [1:03:43<12:06:49, 10.53s/it, gpt_loss=0.291, loss_mean=0.286][A[A
+
+Train step of epoch 1:   9%|▊         | 392/4533 [1:03:43<11:35:32, 10.08s/it, gpt_loss=0.291, loss_mean=0.286][A[A2026-01-27 03:13:19.762 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   9%|▊         | 392/4533 [1:03:53<11:35:32, 10.08s/it, gpt_loss=0.282, loss_mean=0.286][A[A
+
+Train step of epoch 1:   9%|▊         | 393/4533 [1:03:53<11:26:01,  9.94s/it, gpt_loss=0.282, loss_mean=0.286][A[A2026-01-27 03:13:29.183 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   9%|▊         | 393/4533 [1:04:05<11:26:01,  9.94s/it, gpt_loss=0.359, loss_mean=0.293][A[A
+
+Train step of epoch 1:   9%|▊         | 394/4533 [1:04:05<11:59:14, 10.43s/it, gpt_loss=0.359, loss_mean=0.293][A[A2026-01-27 03:13:40.971 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   9%|▊         | 394/4533 [1:04:17<11:59:14, 10.43s/it, gpt_loss=0.312, loss_mean=0.295][A[A
+
+Train step of epoch 1:   9%|▊         | 395/4533 [1:04:17<12:31:58, 10.90s/it, gpt_loss=0.312, loss_mean=0.295][A[A2026-01-27 03:13:52.894 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   9%|▊         | 395/4533 [1:04:25<12:31:58, 10.90s/it, gpt_loss=0.287, loss_mean=0.294][A[A
+
+Train step of epoch 1:   9%|▊         | 396/4533 [1:04:25<11:47:29, 10.26s/it, gpt_loss=0.287, loss_mean=0.294][A[A
+[LID Router Debug] Step: 4930
+Batch Size: 14
+Audio Batch Size: 168
+LID Assignments: [6, 3, 2, 1, 4, 3, 5, 3, 4, 5, 9, 9, 0, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 03:14:01.689 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   9%|▊         | 396/4533 [1:04:37<11:47:29, 10.26s/it, gpt_loss=0.317, loss_mean=0.296][A[A
+
+Train step of epoch 1:   9%|▉         | 397/4533 [1:04:37<12:17:46, 10.70s/it, gpt_loss=0.317, loss_mean=0.296][A[A2026-01-27 03:14:13.086 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   9%|▉         | 397/4533 [1:04:46<12:17:46, 10.70s/it, gpt_loss=0.24, loss_mean=0.291] [A[A
+
+Train step of epoch 1:   9%|▉         | 398/4533 [1:04:46<11:43:25, 10.21s/it, gpt_loss=0.24, loss_mean=0.291][A[A2026-01-27 03:14:22.463 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   9%|▉         | 398/4533 [1:04:56<11:43:25, 10.21s/it, gpt_loss=0.261, loss_mean=0.288][A[A
+
+Train step of epoch 1:   9%|▉         | 399/4533 [1:04:56<11:36:59, 10.12s/it, gpt_loss=0.261, loss_mean=0.288][A[A2026-01-27 03:14:32.162 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   9%|▉         | 399/4533 [1:05:06<11:36:59, 10.12s/it, gpt_loss=0.302, loss_mean=0.289][A[A
+
+Train step of epoch 1:   9%|▉         | 400/4533 [1:05:06<11:28:03,  9.99s/it, gpt_loss=0.302, loss_mean=0.289][A[A2026-01-27 03:14:41.795 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   9%|▉         | 400/4533 [1:05:17<11:28:03,  9.99s/it, gpt_loss=0.332, loss_mean=0.293][A[A
+
+Train step of epoch 1:   9%|▉         | 401/4533 [1:05:17<12:00:17, 10.46s/it, gpt_loss=0.332, loss_mean=0.293][A[A2026-01-27 03:14:53.351 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   9%|▉         | 401/4533 [1:05:26<12:00:17, 10.46s/it, gpt_loss=0.273, loss_mean=0.291][A[A
+
+Train step of epoch 1:   9%|▉         | 402/4533 [1:05:26<11:30:41, 10.03s/it, gpt_loss=0.273, loss_mean=0.291][A[A2026-01-27 03:15:02.388 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   9%|▉         | 402/4533 [1:05:35<11:30:41, 10.03s/it, gpt_loss=0.266, loss_mean=0.289][A[A
+
+Train step of epoch 1:   9%|▉         | 403/4533 [1:05:35<10:58:12,  9.56s/it, gpt_loss=0.266, loss_mean=0.289][A[A2026-01-27 03:15:11.088 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   9%|▉         | 403/4533 [1:05:44<10:58:12,  9.56s/it, gpt_loss=0.274, loss_mean=0.287][A[A
+
+Train step of epoch 1:   9%|▉         | 404/4533 [1:05:44<10:43:16,  9.35s/it, gpt_loss=0.274, loss_mean=0.287][A[A2026-01-27 03:15:20.004 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   9%|▉         | 404/4533 [1:05:53<10:43:16,  9.35s/it, gpt_loss=0.271, loss_mean=0.286][A[A
+
+Train step of epoch 1:   9%|▉         | 405/4533 [1:05:53<10:38:34,  9.28s/it, gpt_loss=0.271, loss_mean=0.286][A[A2026-01-27 03:15:28.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   9%|▉         | 405/4533 [1:06:02<10:38:34,  9.28s/it, gpt_loss=0.326, loss_mean=0.29] [A[A
+
+Train step of epoch 1:   9%|▉         | 406/4533 [1:06:02<10:43:13,  9.35s/it, gpt_loss=0.326, loss_mean=0.29][A[A
+[LID Router Debug] Step: 4940
+Batch Size: 14
+Audio Batch Size: 139
+LID Assignments: [4, 9, 6, 3, 0, 5, 3, 0, 0, 6, 5, 4, 5, 1]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6, 9}
+2026-01-27 03:15:38.463 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   9%|▉         | 406/4533 [1:06:12<10:43:13,  9.35s/it, gpt_loss=0.227, loss_mean=0.284][A[A
+
+Train step of epoch 1:   9%|▉         | 407/4533 [1:06:12<10:40:12,  9.31s/it, gpt_loss=0.227, loss_mean=0.284][A[A2026-01-27 03:15:47.863 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   9%|▉         | 407/4533 [1:06:20<10:40:12,  9.31s/it, gpt_loss=0.237, loss_mean=0.279][A[A
+
+Train step of epoch 1:   9%|▉         | 408/4533 [1:06:20<10:31:25,  9.18s/it, gpt_loss=0.237, loss_mean=0.279][A[A2026-01-27 03:15:56.688 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   9%|▉         | 408/4533 [1:06:33<10:31:25,  9.18s/it, gpt_loss=0.361, loss_mean=0.287][A[A
+
+Train step of epoch 1:   9%|▉         | 409/4533 [1:06:33<11:30:23, 10.04s/it, gpt_loss=0.361, loss_mean=0.287][A[A2026-01-27 03:16:08.778 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   9%|▉         | 409/4533 [1:06:41<11:30:23, 10.04s/it, gpt_loss=0.228, loss_mean=0.281][A[A
+
+Train step of epoch 1:   9%|▉         | 410/4533 [1:06:41<11:06:51,  9.70s/it, gpt_loss=0.228, loss_mean=0.281][A[A2026-01-27 03:16:17.664 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   9%|▉         | 410/4533 [1:06:51<11:06:51,  9.70s/it, gpt_loss=0.296, loss_mean=0.283][A[A
+
+Train step of epoch 1:   9%|▉         | 411/4533 [1:06:51<10:56:08,  9.55s/it, gpt_loss=0.296, loss_mean=0.283][A[A2026-01-27 03:16:26.475 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   9%|▉         | 411/4533 [1:06:59<10:56:08,  9.55s/it, gpt_loss=0.209, loss_mean=0.275][A[A
+
+Train step of epoch 1:   9%|▉         | 412/4533 [1:06:59<10:33:40,  9.23s/it, gpt_loss=0.209, loss_mean=0.275][A[A2026-01-27 03:16:35.397 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   9%|▉         | 412/4533 [1:07:09<10:33:40,  9.23s/it, gpt_loss=0.319, loss_mean=0.28] [A[A
+
+Train step of epoch 1:   9%|▉         | 413/4533 [1:07:09<10:44:31,  9.39s/it, gpt_loss=0.319, loss_mean=0.28][A[A2026-01-27 03:16:45.099 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   9%|▉         | 413/4533 [1:07:19<10:44:31,  9.39s/it, gpt_loss=0.362, loss_mean=0.288][A[A
+
+Train step of epoch 1:   9%|▉         | 414/4533 [1:07:19<10:50:08,  9.47s/it, gpt_loss=0.362, loss_mean=0.288][A[A2026-01-27 03:16:54.696 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   9%|▉         | 414/4533 [1:07:28<10:50:08,  9.47s/it, gpt_loss=0.307, loss_mean=0.29] [A[A
+
+Train step of epoch 1:   9%|▉         | 415/4533 [1:07:28<10:40:27,  9.33s/it, gpt_loss=0.307, loss_mean=0.29][A[A2026-01-27 03:17:03.855 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   9%|▉         | 415/4533 [1:07:37<10:40:27,  9.33s/it, gpt_loss=0.347, loss_mean=0.296][A[A
+
+Train step of epoch 1:   9%|▉         | 416/4533 [1:07:37<10:46:57,  9.43s/it, gpt_loss=0.347, loss_mean=0.296][A[A
+[LID Router Debug] Step: 4950
+Batch Size: 14
+Audio Batch Size: 135
+LID Assignments: [0, 4, 5, 2, 2, 2, 4, 6, 5, 3, 0, 4, 6, 5]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6}
+2026-01-27 03:17:13.399 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   9%|▉         | 416/4533 [1:07:49<10:46:57,  9.43s/it, gpt_loss=0.365, loss_mean=0.302][A[A
+
+Train step of epoch 1:   9%|▉         | 417/4533 [1:07:49<11:43:40, 10.26s/it, gpt_loss=0.365, loss_mean=0.302][A[A2026-01-27 03:17:25.595 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   9%|▉         | 417/4533 [1:07:59<11:43:40, 10.26s/it, gpt_loss=0.263, loss_mean=0.299][A[A
+
+Train step of epoch 1:   9%|▉         | 418/4533 [1:07:59<11:35:12, 10.14s/it, gpt_loss=0.263, loss_mean=0.299][A[A2026-01-27 03:17:35.498 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   9%|▉         | 418/4533 [1:08:09<11:35:12, 10.14s/it, gpt_loss=0.234, loss_mean=0.292][A[A
+
+Train step of epoch 1:   9%|▉         | 419/4533 [1:08:09<11:19:12,  9.91s/it, gpt_loss=0.234, loss_mean=0.292][A[A2026-01-27 03:17:44.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   9%|▉         | 419/4533 [1:08:18<11:19:12,  9.91s/it, gpt_loss=0.304, loss_mean=0.293][A[A
+
+Train step of epoch 1:   9%|▉         | 420/4533 [1:08:18<11:17:08,  9.88s/it, gpt_loss=0.304, loss_mean=0.293][A[A2026-01-27 03:17:54.575 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   9%|▉         | 420/4533 [1:08:27<11:17:08,  9.88s/it, gpt_loss=0.28, loss_mean=0.292] [A[A
+
+Train step of epoch 1:   9%|▉         | 421/4533 [1:08:27<10:55:29,  9.56s/it, gpt_loss=0.28, loss_mean=0.292][A[A2026-01-27 03:18:03.405 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   9%|▉         | 421/4533 [1:08:36<10:55:29,  9.56s/it, gpt_loss=0.379, loss_mean=0.301][A[A
+
+Train step of epoch 1:   9%|▉         | 422/4533 [1:08:36<10:39:46,  9.34s/it, gpt_loss=0.379, loss_mean=0.301][A[A2026-01-27 03:18:12.294 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   9%|▉         | 422/4533 [1:08:46<10:39:46,  9.34s/it, gpt_loss=0.345, loss_mean=0.305][A[A
+
+Train step of epoch 1:   9%|▉         | 423/4533 [1:08:46<10:48:22,  9.47s/it, gpt_loss=0.345, loss_mean=0.305][A[A2026-01-27 03:18:22.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:   9%|▉         | 423/4533 [1:08:55<10:48:22,  9.47s/it, gpt_loss=0.223, loss_mean=0.297][A[A
+
+Train step of epoch 1:   9%|▉         | 424/4533 [1:08:55<10:35:33,  9.28s/it, gpt_loss=0.223, loss_mean=0.297][A[A2026-01-27 03:18:30.706 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   9%|▉         | 424/4533 [1:09:04<10:35:33,  9.28s/it, gpt_loss=0.277, loss_mean=0.295][A[A
+
+Train step of epoch 1:   9%|▉         | 425/4533 [1:09:04<10:40:59,  9.36s/it, gpt_loss=0.277, loss_mean=0.295][A[A2026-01-27 03:18:40.451 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   9%|▉         | 425/4533 [1:09:16<10:40:59,  9.36s/it, gpt_loss=0.344, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:   9%|▉         | 426/4533 [1:09:16<11:32:19, 10.11s/it, gpt_loss=0.344, loss_mean=0.3][A[A
+[LID Router Debug] Step: 4960
+Batch Size: 14
+Audio Batch Size: 165
+LID Assignments: [5, 6, 5, 9, 1, 9, 3, 0, 0, 4, 4, 3, 6, 0]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6, 9}
+2026-01-27 03:18:52.192 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:   9%|▉         | 426/4533 [1:09:28<11:32:19, 10.11s/it, gpt_loss=0.34, loss_mean=0.304][A[A
+
+Train step of epoch 1:   9%|▉         | 427/4533 [1:09:28<12:06:39, 10.62s/it, gpt_loss=0.34, loss_mean=0.304][A[A2026-01-27 03:19:04.074 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   9%|▉         | 427/4533 [1:09:36<12:06:39, 10.62s/it, gpt_loss=0.3, loss_mean=0.303] [A[A
+
+Train step of epoch 1:   9%|▉         | 428/4533 [1:09:36<11:25:17, 10.02s/it, gpt_loss=0.3, loss_mean=0.303][A[A2026-01-27 03:19:12.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   9%|▉         | 428/4533 [1:09:45<11:25:17, 10.02s/it, gpt_loss=0.264, loss_mean=0.3][A[A
+
+Train step of epoch 1:   9%|▉         | 429/4533 [1:09:45<11:04:00,  9.71s/it, gpt_loss=0.264, loss_mean=0.3][A[A2026-01-27 03:19:21.552 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:   9%|▉         | 429/4533 [1:09:55<11:04:00,  9.71s/it, gpt_loss=0.268, loss_mean=0.296][A[A
+
+Train step of epoch 1:   9%|▉         | 430/4533 [1:09:55<11:03:26,  9.70s/it, gpt_loss=0.268, loss_mean=0.296][A[A2026-01-27 03:19:31.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:   9%|▉         | 430/4533 [1:10:05<11:03:26,  9.70s/it, gpt_loss=0.242, loss_mean=0.291][A[A
+
+Train step of epoch 1:  10%|▉         | 431/4533 [1:10:05<11:03:08,  9.70s/it, gpt_loss=0.242, loss_mean=0.291][A[A2026-01-27 03:19:41.058 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  10%|▉         | 431/4533 [1:10:14<11:03:08,  9.70s/it, gpt_loss=0.263, loss_mean=0.288][A[A
+
+Train step of epoch 1:  10%|▉         | 432/4533 [1:10:14<10:49:35,  9.50s/it, gpt_loss=0.263, loss_mean=0.288][A[A2026-01-27 03:19:50.261 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  10%|▉         | 432/4533 [1:10:24<10:49:35,  9.50s/it, gpt_loss=0.261, loss_mean=0.285][A[A
+
+Train step of epoch 1:  10%|▉         | 433/4533 [1:10:24<10:55:55,  9.60s/it, gpt_loss=0.261, loss_mean=0.285][A[A2026-01-27 03:19:59.883 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  10%|▉         | 433/4533 [1:10:34<10:55:55,  9.60s/it, gpt_loss=0.327, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  10%|▉         | 434/4533 [1:10:34<11:01:18,  9.68s/it, gpt_loss=0.327, loss_mean=0.29][A[A2026-01-27 03:20:09.884 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  10%|▉         | 434/4533 [1:10:42<11:01:18,  9.68s/it, gpt_loss=0.253, loss_mean=0.286][A[A
+
+Train step of epoch 1:  10%|▉         | 435/4533 [1:10:42<10:44:43,  9.44s/it, gpt_loss=0.253, loss_mean=0.286][A[A2026-01-27 03:20:18.778 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  10%|▉         | 435/4533 [1:10:55<10:44:43,  9.44s/it, gpt_loss=0.355, loss_mean=0.293][A[A
+
+Train step of epoch 1:  10%|▉         | 436/4533 [1:10:55<11:38:18, 10.23s/it, gpt_loss=0.355, loss_mean=0.293][A[A
+[LID Router Debug] Step: 4970
+Batch Size: 14
+Audio Batch Size: 146
+LID Assignments: [6, 1, 3, 1, 9, 2, 3, 5, 3, 5, 9, 9, 5, 2]
+Active Experts in Batch: {1, 2, 3, 5, 6, 9}
+2026-01-27 03:20:30.860 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  10%|▉         | 436/4533 [1:11:04<11:38:18, 10.23s/it, gpt_loss=0.281, loss_mean=0.292][A[A
+
+Train step of epoch 1:  10%|▉         | 437/4533 [1:11:04<11:28:38, 10.09s/it, gpt_loss=0.281, loss_mean=0.292][A[A2026-01-27 03:20:40.395 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  10%|▉         | 437/4533 [1:11:13<11:28:38, 10.09s/it, gpt_loss=0.306, loss_mean=0.293][A[A
+
+Train step of epoch 1:  10%|▉         | 438/4533 [1:11:13<11:08:22,  9.79s/it, gpt_loss=0.306, loss_mean=0.293][A[A2026-01-27 03:20:49.768 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  10%|▉         | 438/4533 [1:11:23<11:08:22,  9.79s/it, gpt_loss=0.318, loss_mean=0.296][A[A
+
+Train step of epoch 1:  10%|▉         | 439/4533 [1:11:23<10:59:20,  9.66s/it, gpt_loss=0.318, loss_mean=0.296][A[A2026-01-27 03:20:58.993 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  10%|▉         | 439/4533 [1:11:32<10:59:20,  9.66s/it, gpt_loss=0.267, loss_mean=0.293][A[A
+
+Train step of epoch 1:  10%|▉         | 440/4533 [1:11:32<10:51:16,  9.55s/it, gpt_loss=0.267, loss_mean=0.293][A[A2026-01-27 03:21:08.070 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  10%|▉         | 440/4533 [1:11:41<10:51:16,  9.55s/it, gpt_loss=0.219, loss_mean=0.285][A[A
+
+Train step of epoch 1:  10%|▉         | 441/4533 [1:11:41<10:41:58,  9.41s/it, gpt_loss=0.219, loss_mean=0.285][A[A2026-01-27 03:21:17.294 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  10%|▉         | 441/4533 [1:11:50<10:41:58,  9.41s/it, gpt_loss=0.23, loss_mean=0.28]  [A[A
+
+Train step of epoch 1:  10%|▉         | 442/4533 [1:11:50<10:26:44,  9.19s/it, gpt_loss=0.23, loss_mean=0.28][A[A2026-01-27 03:21:26.172 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  10%|▉         | 442/4533 [1:11:59<10:26:44,  9.19s/it, gpt_loss=0.254, loss_mean=0.277][A[A
+
+Train step of epoch 1:  10%|▉         | 443/4533 [1:11:59<10:22:42,  9.13s/it, gpt_loss=0.254, loss_mean=0.277][A[A2026-01-27 03:21:35.001 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  10%|▉         | 443/4533 [1:12:08<10:22:42,  9.13s/it, gpt_loss=0.272, loss_mean=0.277][A[A
+
+Train step of epoch 1:  10%|▉         | 444/4533 [1:12:08<10:14:10,  9.01s/it, gpt_loss=0.272, loss_mean=0.277][A[A2026-01-27 03:21:43.680 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  10%|▉         | 444/4533 [1:12:16<10:14:10,  9.01s/it, gpt_loss=0.275, loss_mean=0.277][A[A
+
+Train step of epoch 1:  10%|▉         | 445/4533 [1:12:16<10:11:04,  8.97s/it, gpt_loss=0.275, loss_mean=0.277][A[A2026-01-27 03:21:52.462 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  10%|▉         | 445/4533 [1:12:28<10:11:04,  8.97s/it, gpt_loss=0.36, loss_mean=0.285] [A[A
+
+Train step of epoch 1:  10%|▉         | 446/4533 [1:12:28<11:08:10,  9.81s/it, gpt_loss=0.36, loss_mean=0.285][A[A
+[LID Router Debug] Step: 4980
+Batch Size: 14
+Audio Batch Size: 135
+LID Assignments: [3, 9, 0, 0, 6, 1, 2, 5, 9, 9, 9, 0, 0, 6]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-27 03:22:04.278 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  10%|▉         | 446/4533 [1:12:37<11:08:10,  9.81s/it, gpt_loss=0.223, loss_mean=0.279][A[A
+
+Train step of epoch 1:  10%|▉         | 447/4533 [1:12:37<10:44:47,  9.47s/it, gpt_loss=0.223, loss_mean=0.279][A[A2026-01-27 03:22:13.077 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  10%|▉         | 447/4533 [1:12:49<10:44:47,  9.47s/it, gpt_loss=0.427, loss_mean=0.294][A[A
+
+Train step of epoch 1:  10%|▉         | 448/4533 [1:12:49<11:39:08, 10.27s/it, gpt_loss=0.427, loss_mean=0.294][A[A2026-01-27 03:22:25.265 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  10%|▉         | 448/4533 [1:12:59<11:39:08, 10.27s/it, gpt_loss=0.368, loss_mean=0.301][A[A
+
+Train step of epoch 1:  10%|▉         | 449/4533 [1:12:59<11:25:44, 10.07s/it, gpt_loss=0.368, loss_mean=0.301][A[A2026-01-27 03:22:34.875 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  10%|▉         | 449/4533 [1:13:08<11:25:44, 10.07s/it, gpt_loss=0.291, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  10%|▉         | 450/4533 [1:13:08<11:20:40, 10.00s/it, gpt_loss=0.291, loss_mean=0.3][A[A2026-01-27 03:22:44.260 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  10%|▉         | 450/4533 [1:13:17<11:20:40, 10.00s/it, gpt_loss=0.256, loss_mean=0.296][A[A
+
+Train step of epoch 1:  10%|▉         | 451/4533 [1:13:17<10:50:34,  9.56s/it, gpt_loss=0.256, loss_mean=0.296][A[A2026-01-27 03:22:53.185 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  10%|▉         | 451/4533 [1:13:26<10:50:34,  9.56s/it, gpt_loss=0.306, loss_mean=0.297][A[A
+
+Train step of epoch 1:  10%|▉         | 452/4533 [1:13:26<10:39:56,  9.41s/it, gpt_loss=0.306, loss_mean=0.297][A[A2026-01-27 03:23:02.297 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  10%|▉         | 452/4533 [1:13:36<10:39:56,  9.41s/it, gpt_loss=0.24, loss_mean=0.291] [A[A
+
+Train step of epoch 1:  10%|▉         | 453/4533 [1:13:36<10:42:25,  9.45s/it, gpt_loss=0.24, loss_mean=0.291][A[A2026-01-27 03:23:11.861 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  10%|▉         | 453/4533 [1:13:47<10:42:25,  9.45s/it, gpt_loss=0.301, loss_mean=0.292][A[A
+
+Train step of epoch 1:  10%|█         | 454/4533 [1:13:48<11:32:39, 10.19s/it, gpt_loss=0.301, loss_mean=0.292][A[A2026-01-27 03:23:23.759 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  10%|█         | 454/4533 [1:13:57<11:32:39, 10.19s/it, gpt_loss=0.316, loss_mean=0.294][A[A
+
+Train step of epoch 1:  10%|█         | 455/4533 [1:13:57<11:22:14, 10.04s/it, gpt_loss=0.316, loss_mean=0.294][A[A2026-01-27 03:23:33.466 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  10%|█         | 455/4533 [1:14:06<11:22:14, 10.04s/it, gpt_loss=0.25, loss_mean=0.29]  [A[A
+
+Train step of epoch 1:  10%|█         | 456/4533 [1:14:06<11:02:11,  9.75s/it, gpt_loss=0.25, loss_mean=0.29][A[A
+[LID Router Debug] Step: 4990
+Batch Size: 14
+Audio Batch Size: 139
+LID Assignments: [0, 5, 1, 5, 3, 9, 5, 9, 1, 3, 1, 5, 1, 5]
+Active Experts in Batch: {0, 1, 3, 5, 9}
+2026-01-27 03:23:42.385 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  10%|█         | 456/4533 [1:14:16<11:02:11,  9.75s/it, gpt_loss=0.341, loss_mean=0.295][A[A
+
+Train step of epoch 1:  10%|█         | 457/4533 [1:14:16<10:59:22,  9.71s/it, gpt_loss=0.341, loss_mean=0.295][A[A2026-01-27 03:23:52.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  10%|█         | 457/4533 [1:14:28<10:59:22,  9.71s/it, gpt_loss=0.376, loss_mean=0.303][A[A
+
+Train step of epoch 1:  10%|█         | 458/4533 [1:14:28<11:45:15, 10.38s/it, gpt_loss=0.376, loss_mean=0.303][A[A2026-01-27 03:24:04.103 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  10%|█         | 458/4533 [1:14:37<11:45:15, 10.38s/it, gpt_loss=0.236, loss_mean=0.296][A[A
+
+Train step of epoch 1:  10%|█         | 459/4533 [1:14:37<11:27:15, 10.12s/it, gpt_loss=0.236, loss_mean=0.296][A[A2026-01-27 03:24:13.269 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  10%|█         | 459/4533 [1:14:46<11:27:15, 10.12s/it, gpt_loss=0.287, loss_mean=0.296][A[A
+
+Train step of epoch 1:  10%|█         | 460/4533 [1:14:46<10:59:13,  9.71s/it, gpt_loss=0.287, loss_mean=0.296][A[A2026-01-27 03:24:22.370 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  10%|█         | 460/4533 [1:14:56<10:59:13,  9.71s/it, gpt_loss=0.245, loss_mean=0.291][A[A
+
+Train step of epoch 1:  10%|█         | 461/4533 [1:14:56<10:55:47,  9.66s/it, gpt_loss=0.245, loss_mean=0.291][A[A2026-01-27 03:24:31.570 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  10%|█         | 461/4533 [1:15:04<10:55:47,  9.66s/it, gpt_loss=0.25, loss_mean=0.286] [A[A
+
+Train step of epoch 1:  10%|█         | 462/4533 [1:15:04<10:34:32,  9.35s/it, gpt_loss=0.25, loss_mean=0.286][A[A2026-01-27 03:24:40.500 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  10%|█         | 462/4533 [1:15:14<10:34:32,  9.35s/it, gpt_loss=0.358, loss_mean=0.294][A[A
+
+Train step of epoch 1:  10%|█         | 463/4533 [1:15:14<10:41:28,  9.46s/it, gpt_loss=0.358, loss_mean=0.294][A[A2026-01-27 03:24:50.068 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  10%|█         | 463/4533 [1:15:26<10:41:28,  9.46s/it, gpt_loss=0.348, loss_mean=0.299][A[A
+
+Train step of epoch 1:  10%|█         | 464/4533 [1:15:26<11:27:49, 10.14s/it, gpt_loss=0.348, loss_mean=0.299][A[A2026-01-27 03:25:01.760 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  10%|█         | 464/4533 [1:15:34<11:27:49, 10.14s/it, gpt_loss=0.31, loss_mean=0.3]   [A[A
+
+Train step of epoch 1:  10%|█         | 465/4533 [1:15:34<10:54:28,  9.65s/it, gpt_loss=0.31, loss_mean=0.3][A[A2026-01-27 03:25:10.373 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  10%|█         | 465/4533 [1:15:43<10:54:28,  9.65s/it, gpt_loss=0.268, loss_mean=0.297][A[A
+
+Train step of epoch 1:  10%|█         | 466/4533 [1:15:43<10:45:33,  9.52s/it, gpt_loss=0.268, loss_mean=0.297][A[A
+[LID Router Debug] Step: 5000
+Batch Size: 14
+Audio Batch Size: 128
+LID Assignments: [1, 2, 2, 4, 6, 1, 0, 4, 9, 5, 3, 0, 4, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 03:25:19.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+[2026-01-27 03:25:27,668] [INFO] [logging.py:96:log_dist] [Rank 0] step=5000, skipped=0, lr=[1.4221188532437998e-05, 1.4221188532437998e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 03:25:27,669] [INFO] [timer.py:260:stop] epoch=0/micro_step=5000/global_step=5000, RunningAvgSamplesPerSec=5.729035881939915, CurrSamplesPerSec=6.43972203267207, MemAllocated=14.7GB, MaxMemAllocated=53.98GB
+
+
+Train step of epoch 1:  10%|█         | 466/4533 [1:15:52<10:45:33,  9.52s/it, gpt_loss=0.271, loss_mean=0.294][A[A[2026-01-27 03:25:27,672] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint global_step5000 is about to be saved!
+[2026-01-27 03:25:29,871] [INFO] [logging.py:96:log_dist] [Rank 0] Saving model checkpoint: /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step5000/mp_rank_00_model_states.pt
+[2026-01-27 03:25:29,871] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step5000/mp_rank_00_model_states.pt...
+[2026-01-27 03:25:36,497] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step5000/mp_rank_00_model_states.pt.
+[2026-01-27 03:25:36,502] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step5000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt...
+[2026-01-27 03:25:36,503] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step5000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt...
+[2026-01-27 03:25:36,503] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step5000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt...
+[2026-01-27 03:25:36,503] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step5000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt...
+[2026-01-27 03:25:37,205] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step5000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt.
+[2026-01-27 03:25:37,206] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step5000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
+[2026-01-27 03:25:37,206] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step5000 is ready now!
+[2026-01-27 03:25:37,279] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step5000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt.
+[2026-01-27 03:25:37,279] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step5000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
+[2026-01-27 03:25:37,279] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step5000 is ready now!
+[2026-01-27 03:25:37,325] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step5000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt.
+[2026-01-27 03:25:37,325] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step5000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
+[2026-01-27 03:25:37,326] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step5000 is ready now!
+[2026-01-27 03:25:37,325] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step5000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt.
+[2026-01-27 03:25:37,353] [INFO] [engine.py:3487:_save_zero_checkpoint] zero checkpoint saved /fs/nlp/common_intern/meiyuxiang/assets/multilingual/qwen3-1.7b-whisper-0126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/ckpts/global_step5000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
+[2026-01-27 03:25:37,353] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step5000 is ready now!
+
+
+Train step of epoch 1:  10%|█         | 467/4533 [1:16:02<13:45:46, 12.19s/it, gpt_loss=0.271, loss_mean=0.294][A[A2026-01-27 03:25:37.879 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  10%|█         | 467/4533 [1:16:11<13:45:46, 12.19s/it, gpt_loss=0.274, loss_mean=0.292][A[A
+
+Train step of epoch 1:  10%|█         | 468/4533 [1:16:11<12:34:44, 11.14s/it, gpt_loss=0.274, loss_mean=0.292][A[A2026-01-27 03:25:46.557 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  10%|█         | 468/4533 [1:16:20<12:34:44, 11.14s/it, gpt_loss=0.253, loss_mean=0.288][A[A
+
+Train step of epoch 1:  10%|█         | 469/4533 [1:16:20<11:58:58, 10.61s/it, gpt_loss=0.253, loss_mean=0.288][A[A2026-01-27 03:25:56.266 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  10%|█         | 469/4533 [1:16:30<11:58:58, 10.61s/it, gpt_loss=0.292, loss_mean=0.289][A[A
+
+Train step of epoch 1:  10%|█         | 470/4533 [1:16:30<11:39:54, 10.34s/it, gpt_loss=0.292, loss_mean=0.289][A[A2026-01-27 03:26:05.761 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  10%|█         | 470/4533 [1:16:41<11:39:54, 10.34s/it, gpt_loss=0.315, loss_mean=0.291][A[A
+
+Train step of epoch 1:  10%|█         | 471/4533 [1:16:41<12:07:53, 10.75s/it, gpt_loss=0.315, loss_mean=0.291][A[A2026-01-27 03:26:17.665 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  10%|█         | 471/4533 [1:16:51<12:07:53, 10.75s/it, gpt_loss=0.348, loss_mean=0.297][A[A
+
+Train step of epoch 1:  10%|█         | 472/4533 [1:16:51<11:49:38, 10.48s/it, gpt_loss=0.348, loss_mean=0.297][A[A2026-01-27 03:26:27.158 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  10%|█         | 472/4533 [1:17:03<11:49:38, 10.48s/it, gpt_loss=0.366, loss_mean=0.304][A[A
+
+Train step of epoch 1:  10%|█         | 473/4533 [1:17:03<12:07:14, 10.75s/it, gpt_loss=0.366, loss_mean=0.304][A[A2026-01-27 03:26:38.462 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  10%|█         | 473/4533 [1:17:14<12:07:14, 10.75s/it, gpt_loss=0.341, loss_mean=0.308][A[A
+
+Train step of epoch 1:  10%|█         | 474/4533 [1:17:14<12:24:13, 11.00s/it, gpt_loss=0.341, loss_mean=0.308][A[A2026-01-27 03:26:50.367 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  10%|█         | 474/4533 [1:17:23<12:24:13, 11.00s/it, gpt_loss=0.255, loss_mean=0.302][A[A
+
+Train step of epoch 1:  10%|█         | 475/4533 [1:17:23<11:40:24, 10.36s/it, gpt_loss=0.255, loss_mean=0.302][A[A2026-01-27 03:26:59.261 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  10%|█         | 475/4533 [1:17:33<11:40:24, 10.36s/it, gpt_loss=0.295, loss_mean=0.302][A[A
+
+Train step of epoch 1:  11%|█         | 476/4533 [1:17:33<11:27:03, 10.16s/it, gpt_loss=0.295, loss_mean=0.302][A[A
+[LID Router Debug] Step: 5010
+Batch Size: 14
+Audio Batch Size: 157
+LID Assignments: [3, 2, 0, 2, 3, 2, 6, 1, 2, 4, 2, 6, 4, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6}
+2026-01-27 03:27:08.991 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  11%|█         | 476/4533 [1:17:42<11:27:03, 10.16s/it, gpt_loss=0.272, loss_mean=0.299][A[A
+
+Train step of epoch 1:  11%|█         | 477/4533 [1:17:42<11:04:12,  9.83s/it, gpt_loss=0.272, loss_mean=0.299][A[A2026-01-27 03:27:17.882 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  11%|█         | 477/4533 [1:17:51<11:04:12,  9.83s/it, gpt_loss=0.255, loss_mean=0.294][A[A
+
+Train step of epoch 1:  11%|█         | 478/4533 [1:17:51<10:57:39,  9.73s/it, gpt_loss=0.255, loss_mean=0.294][A[A2026-01-27 03:27:27.458 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  11%|█         | 478/4533 [1:18:03<10:57:39,  9.73s/it, gpt_loss=0.336, loss_mean=0.299][A[A
+
+Train step of epoch 1:  11%|█         | 479/4533 [1:18:03<11:38:44, 10.34s/it, gpt_loss=0.336, loss_mean=0.299][A[A2026-01-27 03:27:39.369 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  11%|█         | 479/4533 [1:18:13<11:38:44, 10.34s/it, gpt_loss=0.314, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  11%|█         | 480/4533 [1:18:13<11:26:57, 10.17s/it, gpt_loss=0.314, loss_mean=0.3][A[A2026-01-27 03:27:49.085 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  11%|█         | 480/4533 [1:18:22<11:26:57, 10.17s/it, gpt_loss=0.257, loss_mean=0.296][A[A
+
+Train step of epoch 1:  11%|█         | 481/4533 [1:18:22<11:06:24,  9.87s/it, gpt_loss=0.257, loss_mean=0.296][A[A2026-01-27 03:27:58.183 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  11%|█         | 481/4533 [1:18:31<11:06:24,  9.87s/it, gpt_loss=0.312, loss_mean=0.298][A[A
+
+Train step of epoch 1:  11%|█         | 482/4533 [1:18:31<10:45:38,  9.56s/it, gpt_loss=0.312, loss_mean=0.298][A[A2026-01-27 03:28:06.991 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  11%|█         | 482/4533 [1:18:40<10:45:38,  9.56s/it, gpt_loss=0.341, loss_mean=0.302][A[A
+
+Train step of epoch 1:  11%|█         | 483/4533 [1:18:40<10:43:11,  9.53s/it, gpt_loss=0.341, loss_mean=0.302][A[A2026-01-27 03:28:16.189 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  11%|█         | 483/4533 [1:18:49<10:43:11,  9.53s/it, gpt_loss=0.23, loss_mean=0.295] [A[A
+
+Train step of epoch 1:  11%|█         | 484/4533 [1:18:49<10:33:46,  9.39s/it, gpt_loss=0.23, loss_mean=0.295][A[A2026-01-27 03:28:25.264 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  11%|█         | 484/4533 [1:19:01<10:33:46,  9.39s/it, gpt_loss=0.362, loss_mean=0.301][A[A
+
+Train step of epoch 1:  11%|█         | 485/4533 [1:19:01<11:25:25, 10.16s/it, gpt_loss=0.362, loss_mean=0.301][A[A2026-01-27 03:28:37.175 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  11%|█         | 485/4533 [1:19:10<11:25:25, 10.16s/it, gpt_loss=0.258, loss_mean=0.297][A[A
+
+Train step of epoch 1:  11%|█         | 486/4533 [1:19:10<10:56:23,  9.73s/it, gpt_loss=0.258, loss_mean=0.297][A[A
+[LID Router Debug] Step: 5020
+Batch Size: 14
+Audio Batch Size: 124
+LID Assignments: [0, 1, 1, 5, 9, 5, 1, 6, 2, 0, 9, 6, 4, 2]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-27 03:28:46.287 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  11%|█         | 486/4533 [1:19:23<10:56:23,  9.73s/it, gpt_loss=0.343, loss_mean=0.302][A[A
+
+Train step of epoch 1:  11%|█         | 487/4533 [1:19:23<11:52:06, 10.56s/it, gpt_loss=0.343, loss_mean=0.302][A[A2026-01-27 03:28:58.493 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  11%|█         | 487/4533 [1:19:31<11:52:06, 10.56s/it, gpt_loss=0.271, loss_mean=0.299][A[A
+
+Train step of epoch 1:  11%|█         | 488/4533 [1:19:31<11:13:52, 10.00s/it, gpt_loss=0.271, loss_mean=0.299][A[A2026-01-27 03:29:07.380 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  11%|█         | 488/4533 [1:19:40<11:13:52, 10.00s/it, gpt_loss=0.271, loss_mean=0.296][A[A
+
+Train step of epoch 1:  11%|█         | 489/4533 [1:19:40<10:55:17,  9.72s/it, gpt_loss=0.271, loss_mean=0.296][A[A2026-01-27 03:29:16.151 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  11%|█         | 489/4533 [1:19:49<10:55:17,  9.72s/it, gpt_loss=0.284, loss_mean=0.295][A[A
+
+Train step of epoch 1:  11%|█         | 490/4533 [1:19:49<10:33:40,  9.40s/it, gpt_loss=0.284, loss_mean=0.295][A[A2026-01-27 03:29:25.094 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  11%|█         | 490/4533 [1:19:58<10:33:40,  9.40s/it, gpt_loss=0.337, loss_mean=0.299][A[A
+
+Train step of epoch 1:  11%|█         | 491/4533 [1:19:58<10:25:46,  9.29s/it, gpt_loss=0.337, loss_mean=0.299][A[A2026-01-27 03:29:33.889 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  11%|█         | 491/4533 [1:20:07<10:25:46,  9.29s/it, gpt_loss=0.263, loss_mean=0.295][A[A
+
+Train step of epoch 1:  11%|█         | 492/4533 [1:20:07<10:12:32,  9.09s/it, gpt_loss=0.263, loss_mean=0.295][A[A2026-01-27 03:29:42.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  11%|█         | 492/4533 [1:20:16<10:12:32,  9.09s/it, gpt_loss=0.284, loss_mean=0.294][A[A
+
+Train step of epoch 1:  11%|█         | 493/4533 [1:20:16<10:23:22,  9.26s/it, gpt_loss=0.284, loss_mean=0.294][A[A2026-01-27 03:29:52.572 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  11%|█         | 493/4533 [1:20:28<10:23:22,  9.26s/it, gpt_loss=0.336, loss_mean=0.298][A[A
+
+Train step of epoch 1:  11%|█         | 494/4533 [1:20:28<11:19:23, 10.09s/it, gpt_loss=0.336, loss_mean=0.298][A[A2026-01-27 03:30:04.462 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  11%|█         | 494/4533 [1:20:40<11:19:23, 10.09s/it, gpt_loss=0.375, loss_mean=0.306][A[A
+
+Train step of epoch 1:  11%|█         | 495/4533 [1:20:40<11:58:05, 10.67s/it, gpt_loss=0.375, loss_mean=0.306][A[A2026-01-27 03:30:16.584 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  11%|█         | 495/4533 [1:20:50<11:58:05, 10.67s/it, gpt_loss=0.275, loss_mean=0.303][A[A
+
+Train step of epoch 1:  11%|█         | 496/4533 [1:20:50<11:29:34, 10.25s/it, gpt_loss=0.275, loss_mean=0.303][A[A
+[LID Router Debug] Step: 5030
+Batch Size: 14
+Audio Batch Size: 142
+LID Assignments: [2, 9, 4, 4, 5, 0, 2, 1, 0, 2, 3, 4, 1, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 03:30:25.686 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  11%|█         | 496/4533 [1:20:58<11:29:34, 10.25s/it, gpt_loss=0.28, loss_mean=0.301] [A[A
+
+Train step of epoch 1:  11%|█         | 497/4533 [1:20:58<11:02:02,  9.84s/it, gpt_loss=0.28, loss_mean=0.301][A[A2026-01-27 03:30:34.668 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  11%|█         | 497/4533 [1:21:08<11:02:02,  9.84s/it, gpt_loss=0.328, loss_mean=0.303][A[A
+
+Train step of epoch 1:  11%|█         | 498/4533 [1:21:08<10:56:27,  9.76s/it, gpt_loss=0.328, loss_mean=0.303][A[A2026-01-27 03:30:44.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  11%|█         | 498/4533 [1:21:17<10:56:27,  9.76s/it, gpt_loss=0.265, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  11%|█         | 499/4533 [1:21:17<10:38:41,  9.50s/it, gpt_loss=0.265, loss_mean=0.3][A[A2026-01-27 03:30:53.173 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  11%|█         | 499/4533 [1:21:29<10:38:41,  9.50s/it, gpt_loss=0.446, loss_mean=0.314][A[A
+
+Train step of epoch 1:  11%|█         | 500/4533 [1:21:29<11:30:21, 10.27s/it, gpt_loss=0.446, loss_mean=0.314][A[A2026-01-27 03:31:05.275 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  11%|█         | 500/4533 [1:21:39<11:30:21, 10.27s/it, gpt_loss=0.306, loss_mean=0.313][A[A
+
+Train step of epoch 1:  11%|█         | 501/4533 [1:21:39<11:18:01, 10.09s/it, gpt_loss=0.306, loss_mean=0.313][A[A2026-01-27 03:31:14.961 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  11%|█         | 501/4533 [1:21:47<11:18:01, 10.09s/it, gpt_loss=0.31, loss_mean=0.313] [A[A
+
+Train step of epoch 1:  11%|█         | 502/4533 [1:21:47<10:52:00,  9.70s/it, gpt_loss=0.31, loss_mean=0.313][A[A2026-01-27 03:31:23.703 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  11%|█         | 502/4533 [1:21:57<10:52:00,  9.70s/it, gpt_loss=0.28, loss_mean=0.31] [A[A
+
+Train step of epoch 1:  11%|█         | 503/4533 [1:21:57<10:53:00,  9.72s/it, gpt_loss=0.28, loss_mean=0.31][A[A2026-01-27 03:31:33.572 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  11%|█         | 503/4533 [1:22:06<10:53:00,  9.72s/it, gpt_loss=0.302, loss_mean=0.309][A[A
+
+Train step of epoch 1:  11%|█         | 504/4533 [1:22:06<10:39:10,  9.52s/it, gpt_loss=0.302, loss_mean=0.309][A[A2026-01-27 03:31:42.469 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  11%|█         | 504/4533 [1:22:15<10:39:10,  9.52s/it, gpt_loss=0.279, loss_mean=0.306][A[A
+
+Train step of epoch 1:  11%|█         | 505/4533 [1:22:15<10:29:23,  9.38s/it, gpt_loss=0.279, loss_mean=0.306][A[A2026-01-27 03:31:51.280 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  11%|█         | 505/4533 [1:22:25<10:29:23,  9.38s/it, gpt_loss=0.293, loss_mean=0.305][A[A
+
+Train step of epoch 1:  11%|█         | 506/4533 [1:22:25<10:32:50,  9.43s/it, gpt_loss=0.293, loss_mean=0.305][A[A
+[LID Router Debug] Step: 5040
+Batch Size: 14
+Audio Batch Size: 154
+LID Assignments: [3, 5, 0, 4, 6, 5, 0, 0, 0, 3, 3, 4, 1, 4]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6}
+2026-01-27 03:32:01.088 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  11%|█         | 506/4533 [1:22:34<10:32:50,  9.43s/it, gpt_loss=0.245, loss_mean=0.299][A[A
+
+Train step of epoch 1:  11%|█         | 507/4533 [1:22:34<10:21:46,  9.27s/it, gpt_loss=0.245, loss_mean=0.299][A[A2026-01-27 03:32:10.072 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  11%|█         | 507/4533 [1:22:43<10:21:46,  9.27s/it, gpt_loss=0.226, loss_mean=0.292][A[A
+
+Train step of epoch 1:  11%|█         | 508/4533 [1:22:43<10:22:08,  9.27s/it, gpt_loss=0.226, loss_mean=0.292][A[A2026-01-27 03:32:19.290 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  11%|█         | 508/4533 [1:22:53<10:22:08,  9.27s/it, gpt_loss=0.271, loss_mean=0.289][A[A
+
+Train step of epoch 1:  11%|█         | 509/4533 [1:22:53<10:31:25,  9.41s/it, gpt_loss=0.271, loss_mean=0.289][A[A2026-01-27 03:32:28.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  11%|█         | 509/4533 [1:23:05<10:31:25,  9.41s/it, gpt_loss=0.362, loss_mean=0.297][A[A
+
+Train step of epoch 1:  11%|█▏        | 510/4533 [1:23:05<11:22:17, 10.18s/it, gpt_loss=0.362, loss_mean=0.297][A[A2026-01-27 03:32:40.979 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  11%|█▏        | 510/4533 [1:23:17<11:22:17, 10.18s/it, gpt_loss=0.367, loss_mean=0.304][A[A
+
+Train step of epoch 1:  11%|█▏        | 511/4533 [1:23:17<12:03:58, 10.80s/it, gpt_loss=0.367, loss_mean=0.304][A[A2026-01-27 03:32:53.095 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  11%|█▏        | 511/4533 [1:23:26<12:03:58, 10.80s/it, gpt_loss=0.312, loss_mean=0.305][A[A
+
+Train step of epoch 1:  11%|█▏        | 512/4533 [1:23:26<11:24:51, 10.22s/it, gpt_loss=0.312, loss_mean=0.305][A[A2026-01-27 03:33:02.167 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  11%|█▏        | 512/4533 [1:23:35<11:24:51, 10.22s/it, gpt_loss=0.243, loss_mean=0.298][A[A
+
+Train step of epoch 1:  11%|█▏        | 513/4533 [1:23:35<11:05:32,  9.93s/it, gpt_loss=0.243, loss_mean=0.298][A[A2026-01-27 03:33:11.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  11%|█▏        | 513/4533 [1:23:44<11:05:32,  9.93s/it, gpt_loss=0.302, loss_mean=0.299][A[A
+
+Train step of epoch 1:  11%|█▏        | 514/4533 [1:23:44<10:52:45,  9.75s/it, gpt_loss=0.302, loss_mean=0.299][A[A2026-01-27 03:33:20.585 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  11%|█▏        | 514/4533 [1:23:53<10:52:45,  9.75s/it, gpt_loss=0.296, loss_mean=0.298][A[A
+
+Train step of epoch 1:  11%|█▏        | 515/4533 [1:23:53<10:38:00,  9.53s/it, gpt_loss=0.296, loss_mean=0.298][A[A2026-01-27 03:33:29.666 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  11%|█▏        | 515/4533 [1:24:02<10:38:00,  9.53s/it, gpt_loss=0.253, loss_mean=0.294][A[A
+
+Train step of epoch 1:  11%|█▏        | 516/4533 [1:24:02<10:27:54,  9.38s/it, gpt_loss=0.253, loss_mean=0.294][A[A
+[LID Router Debug] Step: 5050
+Batch Size: 14
+Audio Batch Size: 131
+LID Assignments: [1, 9, 9, 9, 4, 1, 6, 0, 2, 4, 5, 5, 6, 5]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-27 03:33:38.351 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  11%|█▏        | 516/4533 [1:24:12<10:27:54,  9.38s/it, gpt_loss=0.322, loss_mean=0.297][A[A
+
+Train step of epoch 1:  11%|█▏        | 517/4533 [1:24:12<10:27:03,  9.37s/it, gpt_loss=0.322, loss_mean=0.297][A[A2026-01-27 03:33:48.088 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  11%|█▏        | 517/4533 [1:24:22<10:27:03,  9.37s/it, gpt_loss=0.284, loss_mean=0.295][A[A
+
+Train step of epoch 1:  11%|█▏        | 518/4533 [1:24:22<10:38:24,  9.54s/it, gpt_loss=0.284, loss_mean=0.295][A[A2026-01-27 03:33:57.477 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  11%|█▏        | 518/4533 [1:24:34<10:38:24,  9.54s/it, gpt_loss=0.342, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  11%|█▏        | 519/4533 [1:24:34<11:25:21, 10.24s/it, gpt_loss=0.342, loss_mean=0.3][A[A2026-01-27 03:34:09.973 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  11%|█▏        | 519/4533 [1:24:43<11:25:21, 10.24s/it, gpt_loss=0.236, loss_mean=0.294][A[A
+
+Train step of epoch 1:  11%|█▏        | 520/4533 [1:24:43<11:06:25,  9.96s/it, gpt_loss=0.236, loss_mean=0.294][A[A2026-01-27 03:34:19.254 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  11%|█▏        | 520/4533 [1:24:55<11:06:25,  9.96s/it, gpt_loss=0.395, loss_mean=0.304][A[A
+
+Train step of epoch 1:  11%|█▏        | 521/4533 [1:24:55<11:43:34, 10.52s/it, gpt_loss=0.395, loss_mean=0.304][A[A2026-01-27 03:34:30.765 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  11%|█▏        | 521/4533 [1:25:03<11:43:34, 10.52s/it, gpt_loss=0.266, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  12%|█▏        | 522/4533 [1:25:03<11:02:57,  9.92s/it, gpt_loss=0.266, loss_mean=0.3][A[A2026-01-27 03:34:39.384 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  12%|█▏        | 522/4533 [1:25:12<11:02:57,  9.92s/it, gpt_loss=0.288, loss_mean=0.299][A[A
+
+Train step of epoch 1:  12%|█▏        | 523/4533 [1:25:12<10:41:55,  9.60s/it, gpt_loss=0.288, loss_mean=0.299][A[A2026-01-27 03:34:48.183 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  12%|█▏        | 523/4533 [1:25:24<10:41:55,  9.60s/it, gpt_loss=0.304, loss_mean=0.299][A[A
+
+Train step of epoch 1:  12%|█▏        | 524/4533 [1:25:24<11:22:06, 10.21s/it, gpt_loss=0.304, loss_mean=0.299][A[A2026-01-27 03:34:59.694 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  12%|█▏        | 524/4533 [1:25:33<11:22:06, 10.21s/it, gpt_loss=0.288, loss_mean=0.298][A[A
+
+Train step of epoch 1:  12%|█▏        | 525/4533 [1:25:33<11:05:40,  9.97s/it, gpt_loss=0.288, loss_mean=0.298][A[A2026-01-27 03:35:09.454 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  12%|█▏        | 525/4533 [1:25:42<11:05:40,  9.97s/it, gpt_loss=0.23, loss_mean=0.291] [A[A
+
+Train step of epoch 1:  12%|█▏        | 526/4533 [1:25:42<10:43:29,  9.64s/it, gpt_loss=0.23, loss_mean=0.291][A[A
+[LID Router Debug] Step: 5060
+Batch Size: 14
+Audio Batch Size: 109
+LID Assignments: [2, 5, 6, 5, 6, 0, 2, 9, 0, 0, 0, 1, 0, 1]
+Active Experts in Batch: {0, 1, 2, 5, 6, 9}
+2026-01-27 03:35:18.180 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  12%|█▏        | 526/4533 [1:25:51<10:43:29,  9.64s/it, gpt_loss=0.31, loss_mean=0.293][A[A
+
+Train step of epoch 1:  12%|█▏        | 527/4533 [1:25:51<10:27:57,  9.41s/it, gpt_loss=0.31, loss_mean=0.293][A[A2026-01-27 03:35:26.686 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  12%|█▏        | 527/4533 [1:26:02<10:27:57,  9.41s/it, gpt_loss=0.336, loss_mean=0.298][A[A
+
+Train step of epoch 1:  12%|█▏        | 528/4533 [1:26:02<11:09:22, 10.03s/it, gpt_loss=0.336, loss_mean=0.298][A[A2026-01-27 03:35:38.583 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  12%|█▏        | 528/4533 [1:26:11<11:09:22, 10.03s/it, gpt_loss=0.293, loss_mean=0.297][A[A
+
+Train step of epoch 1:  12%|█▏        | 529/4533 [1:26:11<10:49:42,  9.74s/it, gpt_loss=0.293, loss_mean=0.297][A[A2026-01-27 03:35:47.556 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  12%|█▏        | 529/4533 [1:26:23<10:49:42,  9.74s/it, gpt_loss=0.381, loss_mean=0.305][A[A
+
+Train step of epoch 1:  12%|█▏        | 530/4533 [1:26:23<11:28:41, 10.32s/it, gpt_loss=0.381, loss_mean=0.305][A[A2026-01-27 03:35:59.078 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  12%|█▏        | 530/4533 [1:26:35<11:28:41, 10.32s/it, gpt_loss=0.344, loss_mean=0.309][A[A
+
+Train step of epoch 1:  12%|█▏        | 531/4533 [1:26:35<11:58:42, 10.78s/it, gpt_loss=0.344, loss_mean=0.309][A[A2026-01-27 03:36:11.174 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  12%|█▏        | 531/4533 [1:26:44<11:58:42, 10.78s/it, gpt_loss=0.333, loss_mean=0.312][A[A
+
+Train step of epoch 1:  12%|█▏        | 532/4533 [1:26:44<11:27:02, 10.30s/it, gpt_loss=0.333, loss_mean=0.312][A[A2026-01-27 03:36:20.301 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  12%|█▏        | 532/4533 [1:26:56<11:27:02, 10.30s/it, gpt_loss=0.356, loss_mean=0.316][A[A
+
+Train step of epoch 1:  12%|█▏        | 533/4533 [1:26:56<11:52:37, 10.69s/it, gpt_loss=0.356, loss_mean=0.316][A[A2026-01-27 03:36:31.794 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  12%|█▏        | 533/4533 [1:27:05<11:52:37, 10.69s/it, gpt_loss=0.267, loss_mean=0.311][A[A
+
+Train step of epoch 1:  12%|█▏        | 534/4533 [1:27:05<11:18:21, 10.18s/it, gpt_loss=0.267, loss_mean=0.311][A[A2026-01-27 03:36:40.666 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  12%|█▏        | 534/4533 [1:27:14<11:18:21, 10.18s/it, gpt_loss=0.315, loss_mean=0.312][A[A
+
+Train step of epoch 1:  12%|█▏        | 535/4533 [1:27:14<11:04:59,  9.98s/it, gpt_loss=0.315, loss_mean=0.312][A[A2026-01-27 03:36:50.478 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  12%|█▏        | 535/4533 [1:27:23<11:04:59,  9.98s/it, gpt_loss=0.28, loss_mean=0.308] [A[A
+
+Train step of epoch 1:  12%|█▏        | 536/4533 [1:27:23<10:44:09,  9.67s/it, gpt_loss=0.28, loss_mean=0.308][A[A
+[LID Router Debug] Step: 5070
+Batch Size: 14
+Audio Batch Size: 140
+LID Assignments: [1, 1, 2, 2, 0, 0, 9, 3, 1, 0, 0, 1, 0, 9]
+Active Experts in Batch: {0, 1, 2, 3, 9}
+2026-01-27 03:36:59.488 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  12%|█▏        | 536/4533 [1:27:32<10:44:09,  9.67s/it, gpt_loss=0.29, loss_mean=0.307][A[A
+
+Train step of epoch 1:  12%|█▏        | 537/4533 [1:27:32<10:32:02,  9.49s/it, gpt_loss=0.29, loss_mean=0.307][A[A2026-01-27 03:37:08.464 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  12%|█▏        | 537/4533 [1:27:42<10:32:02,  9.49s/it, gpt_loss=0.321, loss_mean=0.308][A[A
+
+Train step of epoch 1:  12%|█▏        | 538/4533 [1:27:42<10:36:39,  9.56s/it, gpt_loss=0.321, loss_mean=0.308][A[A2026-01-27 03:37:18.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  12%|█▏        | 538/4533 [1:27:51<10:36:39,  9.56s/it, gpt_loss=0.259, loss_mean=0.303][A[A
+
+Train step of epoch 1:  12%|█▏        | 539/4533 [1:27:51<10:16:42,  9.26s/it, gpt_loss=0.259, loss_mean=0.303][A[A2026-01-27 03:37:26.578 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  12%|█▏        | 539/4533 [1:27:59<10:16:42,  9.26s/it, gpt_loss=0.286, loss_mean=0.301][A[A
+
+Train step of epoch 1:  12%|█▏        | 540/4533 [1:27:59<10:00:08,  9.02s/it, gpt_loss=0.286, loss_mean=0.301][A[A2026-01-27 03:37:35.283 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  12%|█▏        | 540/4533 [1:28:11<10:00:08,  9.02s/it, gpt_loss=0.386, loss_mean=0.31] [A[A
+
+Train step of epoch 1:  12%|█▏        | 541/4533 [1:28:11<10:58:36,  9.90s/it, gpt_loss=0.386, loss_mean=0.31][A[A2026-01-27 03:37:47.189 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  12%|█▏        | 541/4533 [1:28:20<10:58:36,  9.90s/it, gpt_loss=0.258, loss_mean=0.305][A[A
+
+Train step of epoch 1:  12%|█▏        | 542/4533 [1:28:20<10:42:13,  9.66s/it, gpt_loss=0.258, loss_mean=0.305][A[A2026-01-27 03:37:56.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  12%|█▏        | 542/4533 [1:28:29<10:42:13,  9.66s/it, gpt_loss=0.268, loss_mean=0.301][A[A
+
+Train step of epoch 1:  12%|█▏        | 543/4533 [1:28:29<10:25:12,  9.40s/it, gpt_loss=0.268, loss_mean=0.301][A[A2026-01-27 03:38:05.087 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  12%|█▏        | 543/4533 [1:28:38<10:25:12,  9.40s/it, gpt_loss=0.272, loss_mean=0.298][A[A
+
+Train step of epoch 1:  12%|█▏        | 544/4533 [1:28:38<10:17:28,  9.29s/it, gpt_loss=0.272, loss_mean=0.298][A[A2026-01-27 03:38:14.088 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  12%|█▏        | 544/4533 [1:28:48<10:17:28,  9.29s/it, gpt_loss=0.256, loss_mean=0.294][A[A
+
+Train step of epoch 1:  12%|█▏        | 545/4533 [1:28:48<10:25:13,  9.41s/it, gpt_loss=0.256, loss_mean=0.294][A[A2026-01-27 03:38:23.774 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  12%|█▏        | 545/4533 [1:28:57<10:25:13,  9.41s/it, gpt_loss=0.327, loss_mean=0.297][A[A
+
+Train step of epoch 1:  12%|█▏        | 546/4533 [1:28:57<10:27:43,  9.45s/it, gpt_loss=0.327, loss_mean=0.297][A[A
+[LID Router Debug] Step: 5080
+Batch Size: 14
+Audio Batch Size: 152
+LID Assignments: [5, 1, 4, 6, 2, 4, 4, 0, 5, 3, 3, 9, 3, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 03:38:33.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  12%|█▏        | 546/4533 [1:29:06<10:27:43,  9.45s/it, gpt_loss=0.222, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  12%|█▏        | 547/4533 [1:29:06<10:10:25,  9.19s/it, gpt_loss=0.222, loss_mean=0.29][A[A2026-01-27 03:38:41.391 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  12%|█▏        | 547/4533 [1:29:15<10:10:25,  9.19s/it, gpt_loss=0.251, loss_mean=0.286][A[A
+
+Train step of epoch 1:  12%|█▏        | 548/4533 [1:29:15<10:03:38,  9.09s/it, gpt_loss=0.251, loss_mean=0.286][A[A2026-01-27 03:38:50.763 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  12%|█▏        | 548/4533 [1:29:26<10:03:38,  9.09s/it, gpt_loss=0.298, loss_mean=0.287][A[A
+
+Train step of epoch 1:  12%|█▏        | 549/4533 [1:29:26<10:58:45,  9.92s/it, gpt_loss=0.298, loss_mean=0.287][A[A2026-01-27 03:39:02.685 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  12%|█▏        | 549/4533 [1:29:36<10:58:45,  9.92s/it, gpt_loss=0.331, loss_mean=0.291][A[A
+
+Train step of epoch 1:  12%|█▏        | 550/4533 [1:29:36<10:43:23,  9.69s/it, gpt_loss=0.331, loss_mean=0.291][A[A2026-01-27 03:39:11.690 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  12%|█▏        | 550/4533 [1:29:48<10:43:23,  9.69s/it, gpt_loss=0.396, loss_mean=0.302][A[A
+
+Train step of epoch 1:  12%|█▏        | 551/4533 [1:29:48<11:30:25, 10.40s/it, gpt_loss=0.396, loss_mean=0.302][A[A2026-01-27 03:39:23.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  12%|█▏        | 551/4533 [1:29:59<11:30:25, 10.40s/it, gpt_loss=0.334, loss_mean=0.305][A[A
+
+Train step of epoch 1:  12%|█▏        | 552/4533 [1:29:59<11:54:31, 10.77s/it, gpt_loss=0.334, loss_mean=0.305][A[A2026-01-27 03:39:35.569 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  12%|█▏        | 552/4533 [1:30:08<11:54:31, 10.77s/it, gpt_loss=0.246, loss_mean=0.299][A[A
+
+Train step of epoch 1:  12%|█▏        | 553/4533 [1:30:08<11:21:36, 10.28s/it, gpt_loss=0.246, loss_mean=0.299][A[A2026-01-27 03:39:44.690 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  12%|█▏        | 553/4533 [1:30:18<11:21:36, 10.28s/it, gpt_loss=0.278, loss_mean=0.297][A[A
+
+Train step of epoch 1:  12%|█▏        | 554/4533 [1:30:18<11:13:53, 10.16s/it, gpt_loss=0.278, loss_mean=0.297][A[A2026-01-27 03:39:54.582 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  12%|█▏        | 554/4533 [1:30:30<11:13:53, 10.16s/it, gpt_loss=0.36, loss_mean=0.303] [A[A
+
+Train step of epoch 1:  12%|█▏        | 555/4533 [1:30:30<11:46:57, 10.66s/it, gpt_loss=0.36, loss_mean=0.303][A[A2026-01-27 03:40:06.070 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  12%|█▏        | 555/4533 [1:30:39<11:46:57, 10.66s/it, gpt_loss=0.235, loss_mean=0.297][A[A
+
+Train step of epoch 1:  12%|█▏        | 556/4533 [1:30:39<11:12:14, 10.14s/it, gpt_loss=0.235, loss_mean=0.297][A[A
+[LID Router Debug] Step: 5090
+Batch Size: 14
+Audio Batch Size: 137
+LID Assignments: [5, 5, 0, 9, 1, 4, 1, 2, 1, 2, 0, 2, 2, 9]
+Active Experts in Batch: {0, 1, 2, 4, 5, 9}
+2026-01-27 03:40:15.282 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  12%|█▏        | 556/4533 [1:30:48<11:12:14, 10.14s/it, gpt_loss=0.291, loss_mean=0.296][A[A
+
+Train step of epoch 1:  12%|█▏        | 557/4533 [1:30:48<10:48:39,  9.79s/it, gpt_loss=0.291, loss_mean=0.296][A[A2026-01-27 03:40:23.882 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  12%|█▏        | 557/4533 [1:30:57<10:48:39,  9.79s/it, gpt_loss=0.32, loss_mean=0.298] [A[A
+
+Train step of epoch 1:  12%|█▏        | 558/4533 [1:30:57<10:39:43,  9.66s/it, gpt_loss=0.32, loss_mean=0.298][A[A2026-01-27 03:40:33.476 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  12%|█▏        | 558/4533 [1:31:09<10:39:43,  9.66s/it, gpt_loss=0.375, loss_mean=0.306][A[A
+
+Train step of epoch 1:  12%|█▏        | 559/4533 [1:31:09<11:20:56, 10.28s/it, gpt_loss=0.375, loss_mean=0.306][A[A2026-01-27 03:40:44.778 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  12%|█▏        | 559/4533 [1:31:18<11:20:56, 10.28s/it, gpt_loss=0.212, loss_mean=0.297][A[A
+
+Train step of epoch 1:  12%|█▏        | 560/4533 [1:31:18<10:50:40,  9.83s/it, gpt_loss=0.212, loss_mean=0.297][A[A2026-01-27 03:40:54.160 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  12%|█▏        | 560/4533 [1:31:28<10:50:40,  9.83s/it, gpt_loss=0.321, loss_mean=0.299][A[A
+
+Train step of epoch 1:  12%|█▏        | 561/4533 [1:31:28<10:49:07,  9.81s/it, gpt_loss=0.321, loss_mean=0.299][A[A2026-01-27 03:41:03.789 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  12%|█▏        | 561/4533 [1:31:39<10:49:07,  9.81s/it, gpt_loss=0.364, loss_mean=0.306][A[A
+
+Train step of epoch 1:  12%|█▏        | 562/4533 [1:31:39<11:28:21, 10.40s/it, gpt_loss=0.364, loss_mean=0.306][A[A2026-01-27 03:41:15.762 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  12%|█▏        | 562/4533 [1:31:48<11:28:21, 10.40s/it, gpt_loss=0.218, loss_mean=0.297][A[A
+
+Train step of epoch 1:  12%|█▏        | 563/4533 [1:31:48<10:58:34,  9.95s/it, gpt_loss=0.218, loss_mean=0.297][A[A2026-01-27 03:41:24.551 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  12%|█▏        | 563/4533 [1:31:58<10:58:34,  9.95s/it, gpt_loss=0.242, loss_mean=0.291][A[A
+
+Train step of epoch 1:  12%|█▏        | 564/4533 [1:31:58<10:43:18,  9.72s/it, gpt_loss=0.242, loss_mean=0.291][A[A2026-01-27 03:41:33.578 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  12%|█▏        | 564/4533 [1:32:07<10:43:18,  9.72s/it, gpt_loss=0.292, loss_mean=0.291][A[A
+
+Train step of epoch 1:  12%|█▏        | 565/4533 [1:32:07<10:37:59,  9.65s/it, gpt_loss=0.292, loss_mean=0.291][A[A2026-01-27 03:41:42.979 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  12%|█▏        | 565/4533 [1:32:17<10:37:59,  9.65s/it, gpt_loss=0.274, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  12%|█▏        | 566/4533 [1:32:17<10:35:28,  9.61s/it, gpt_loss=0.274, loss_mean=0.29][A[A
+[LID Router Debug] Step: 5100
+Batch Size: 14
+Audio Batch Size: 148
+LID Assignments: [3, 2, 5, 3, 2, 0, 5, 0, 2, 2, 4, 2, 5, 0]
+Active Experts in Batch: {0, 2, 3, 4, 5}
+2026-01-27 03:41:52.755 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-27 03:42:00,908] [INFO] [logging.py:96:log_dist] [Rank 0] step=5100, skipped=0, lr=[1.4008517182497499e-05, 1.4008517182497499e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 03:42:00,908] [INFO] [timer.py:260:stop] epoch=0/micro_step=5100/global_step=5100, RunningAvgSamplesPerSec=5.72863039962366, CurrSamplesPerSec=6.315259226978859, MemAllocated=14.78GB, MaxMemAllocated=53.98GB
+
+
+Train step of epoch 1:  12%|█▏        | 566/4533 [1:32:25<10:35:28,  9.61s/it, gpt_loss=0.285, loss_mean=0.289][A[A
+
+Train step of epoch 1:  13%|█▎        | 567/4533 [1:32:25<10:20:56,  9.39s/it, gpt_loss=0.285, loss_mean=0.289][A[A2026-01-27 03:42:01.381 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  13%|█▎        | 567/4533 [1:32:35<10:20:56,  9.39s/it, gpt_loss=0.254, loss_mean=0.286][A[A
+
+Train step of epoch 1:  13%|█▎        | 568/4533 [1:32:35<10:19:36,  9.38s/it, gpt_loss=0.254, loss_mean=0.286][A[A2026-01-27 03:42:10.757 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  13%|█▎        | 568/4533 [1:32:43<10:19:36,  9.38s/it, gpt_loss=0.257, loss_mean=0.283][A[A
+
+Train step of epoch 1:  13%|█▎        | 569/4533 [1:32:43<10:03:38,  9.14s/it, gpt_loss=0.257, loss_mean=0.283][A[A2026-01-27 03:42:19.596 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  13%|█▎        | 569/4533 [1:32:52<10:03:38,  9.14s/it, gpt_loss=0.229, loss_mean=0.277][A[A
+
+Train step of epoch 1:  13%|█▎        | 570/4533 [1:32:52<10:01:45,  9.11s/it, gpt_loss=0.229, loss_mean=0.277][A[A2026-01-27 03:42:28.384 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  13%|█▎        | 570/4533 [1:33:02<10:01:45,  9.11s/it, gpt_loss=0.284, loss_mean=0.278][A[A
+
+Train step of epoch 1:  13%|█▎        | 571/4533 [1:33:02<10:05:10,  9.16s/it, gpt_loss=0.284, loss_mean=0.278][A[A2026-01-27 03:42:37.886 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  13%|█▎        | 571/4533 [1:33:11<10:05:10,  9.16s/it, gpt_loss=0.235, loss_mean=0.274][A[A
+
+Train step of epoch 1:  13%|█▎        | 572/4533 [1:33:11<10:05:17,  9.17s/it, gpt_loss=0.235, loss_mean=0.274][A[A2026-01-27 03:42:47.066 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  13%|█▎        | 572/4533 [1:33:21<10:05:17,  9.17s/it, gpt_loss=0.246, loss_mean=0.271][A[A
+
+Train step of epoch 1:  13%|█▎        | 573/4533 [1:33:21<10:16:25,  9.34s/it, gpt_loss=0.246, loss_mean=0.271][A[A2026-01-27 03:42:56.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  13%|█▎        | 573/4533 [1:33:32<10:16:25,  9.34s/it, gpt_loss=0.305, loss_mean=0.274][A[A
+
+Train step of epoch 1:  13%|█▎        | 574/4533 [1:33:32<11:00:03, 10.00s/it, gpt_loss=0.305, loss_mean=0.274][A[A2026-01-27 03:43:08.087 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  13%|█▎        | 574/4533 [1:33:44<11:00:03, 10.00s/it, gpt_loss=0.346, loss_mean=0.282][A[A
+
+Train step of epoch 1:  13%|█▎        | 575/4533 [1:33:44<11:29:20, 10.45s/it, gpt_loss=0.346, loss_mean=0.282][A[A2026-01-27 03:43:19.893 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  13%|█▎        | 575/4533 [1:33:53<11:29:20, 10.45s/it, gpt_loss=0.279, loss_mean=0.281][A[A
+
+Train step of epoch 1:  13%|█▎        | 576/4533 [1:33:53<11:04:34, 10.08s/it, gpt_loss=0.279, loss_mean=0.281][A[A
+[LID Router Debug] Step: 5110
+Batch Size: 14
+Audio Batch Size: 139
+LID Assignments: [2, 9, 2, 9, 1, 3, 2, 0, 0, 1, 9, 4, 4, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 9}
+2026-01-27 03:43:28.803 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  13%|█▎        | 576/4533 [1:34:04<11:04:34, 10.08s/it, gpt_loss=0.37, loss_mean=0.29]  [A[A
+
+Train step of epoch 1:  13%|█▎        | 577/4533 [1:34:04<11:34:08, 10.53s/it, gpt_loss=0.37, loss_mean=0.29][A[A2026-01-27 03:43:40.595 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  13%|█▎        | 577/4533 [1:34:14<11:34:08, 10.53s/it, gpt_loss=0.264, loss_mean=0.287][A[A
+
+Train step of epoch 1:  13%|█▎        | 578/4533 [1:34:14<11:15:00, 10.24s/it, gpt_loss=0.264, loss_mean=0.287][A[A2026-01-27 03:43:50.279 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  13%|█▎        | 578/4533 [1:34:24<11:15:00, 10.24s/it, gpt_loss=0.304, loss_mean=0.289][A[A
+
+Train step of epoch 1:  13%|█▎        | 579/4533 [1:34:24<11:06:07, 10.11s/it, gpt_loss=0.304, loss_mean=0.289][A[A2026-01-27 03:43:59.780 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  13%|█▎        | 579/4533 [1:34:33<11:06:07, 10.11s/it, gpt_loss=0.328, loss_mean=0.293][A[A
+
+Train step of epoch 1:  13%|█▎        | 580/4533 [1:34:33<10:57:29,  9.98s/it, gpt_loss=0.328, loss_mean=0.293][A[A2026-01-27 03:44:09.484 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  13%|█▎        | 580/4533 [1:34:42<10:57:29,  9.98s/it, gpt_loss=0.247, loss_mean=0.288][A[A
+
+Train step of epoch 1:  13%|█▎        | 581/4533 [1:34:42<10:30:21,  9.57s/it, gpt_loss=0.247, loss_mean=0.288][A[A2026-01-27 03:44:18.094 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  13%|█▎        | 581/4533 [1:34:52<10:30:21,  9.57s/it, gpt_loss=0.364, loss_mean=0.296][A[A
+
+Train step of epoch 1:  13%|█▎        | 582/4533 [1:34:52<10:29:17,  9.56s/it, gpt_loss=0.364, loss_mean=0.296][A[A2026-01-27 03:44:27.659 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  13%|█▎        | 582/4533 [1:35:03<10:29:17,  9.56s/it, gpt_loss=0.43, loss_mean=0.309] [A[A
+
+Train step of epoch 1:  13%|█▎        | 583/4533 [1:35:03<11:12:07, 10.21s/it, gpt_loss=0.43, loss_mean=0.309][A[A2026-01-27 03:44:39.173 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  13%|█▎        | 583/4533 [1:35:12<11:12:07, 10.21s/it, gpt_loss=0.304, loss_mean=0.309][A[A
+
+Train step of epoch 1:  13%|█▎        | 584/4533 [1:35:12<10:37:22,  9.68s/it, gpt_loss=0.304, loss_mean=0.309][A[A2026-01-27 03:44:47.794 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  13%|█▎        | 584/4533 [1:35:21<10:37:22,  9.68s/it, gpt_loss=0.254, loss_mean=0.303][A[A
+
+Train step of epoch 1:  13%|█▎        | 585/4533 [1:35:21<10:36:22,  9.67s/it, gpt_loss=0.254, loss_mean=0.303][A[A2026-01-27 03:44:57.686 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  13%|█▎        | 585/4533 [1:35:30<10:36:22,  9.67s/it, gpt_loss=0.289, loss_mean=0.302][A[A
+
+Train step of epoch 1:  13%|█▎        | 586/4533 [1:35:30<10:22:09,  9.46s/it, gpt_loss=0.289, loss_mean=0.302][A[A
+[LID Router Debug] Step: 5120
+Batch Size: 14
+Audio Batch Size: 163
+LID Assignments: [9, 6, 4, 5, 0, 3, 2, 6, 0, 4, 4, 3, 2, 3]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-27 03:45:06.400 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  13%|█▎        | 586/4533 [1:35:39<10:22:09,  9.46s/it, gpt_loss=0.227, loss_mean=0.294][A[A
+
+Train step of epoch 1:  13%|█▎        | 587/4533 [1:35:39<10:09:16,  9.26s/it, gpt_loss=0.227, loss_mean=0.294][A[A2026-01-27 03:45:15.470 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  13%|█▎        | 587/4533 [1:35:51<10:09:16,  9.26s/it, gpt_loss=0.395, loss_mean=0.304][A[A
+
+Train step of epoch 1:  13%|█▎        | 588/4533 [1:35:51<11:02:14, 10.07s/it, gpt_loss=0.395, loss_mean=0.304][A[A2026-01-27 03:45:27.397 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  13%|█▎        | 588/4533 [1:36:03<11:02:14, 10.07s/it, gpt_loss=0.374, loss_mean=0.311][A[A
+
+Train step of epoch 1:  13%|█▎        | 589/4533 [1:36:03<11:46:01, 10.74s/it, gpt_loss=0.374, loss_mean=0.311][A[A2026-01-27 03:45:39.603 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  13%|█▎        | 589/4533 [1:36:12<11:46:01, 10.74s/it, gpt_loss=0.203, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  13%|█▎        | 590/4533 [1:36:12<11:12:23, 10.23s/it, gpt_loss=0.203, loss_mean=0.3][A[A2026-01-27 03:45:48.666 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  13%|█▎        | 590/4533 [1:36:24<11:12:23, 10.23s/it, gpt_loss=0.35, loss_mean=0.305][A[A
+
+Train step of epoch 1:  13%|█▎        | 591/4533 [1:36:24<11:41:21, 10.68s/it, gpt_loss=0.35, loss_mean=0.305][A[A2026-01-27 03:46:00.383 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  13%|█▎        | 591/4533 [1:36:36<11:41:21, 10.68s/it, gpt_loss=0.301, loss_mean=0.305][A[A
+
+Train step of epoch 1:  13%|█▎        | 592/4533 [1:36:36<12:04:07, 11.02s/it, gpt_loss=0.301, loss_mean=0.305][A[A2026-01-27 03:46:12.181 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  13%|█▎        | 592/4533 [1:36:45<12:04:07, 11.02s/it, gpt_loss=0.243, loss_mean=0.299][A[A
+
+Train step of epoch 1:  13%|█▎        | 593/4533 [1:36:45<11:18:39, 10.33s/it, gpt_loss=0.243, loss_mean=0.299][A[A2026-01-27 03:46:20.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  13%|█▎        | 593/4533 [1:36:53<11:18:39, 10.33s/it, gpt_loss=0.304, loss_mean=0.299][A[A
+
+Train step of epoch 1:  13%|█▎        | 594/4533 [1:36:53<10:41:58,  9.78s/it, gpt_loss=0.304, loss_mean=0.299][A[A2026-01-27 03:46:29.097 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  13%|█▎        | 594/4533 [1:37:02<10:41:58,  9.78s/it, gpt_loss=0.291, loss_mean=0.298][A[A
+
+Train step of epoch 1:  13%|█▎        | 595/4533 [1:37:02<10:14:46,  9.37s/it, gpt_loss=0.291, loss_mean=0.298][A[A2026-01-27 03:46:37.876 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  13%|█▎        | 595/4533 [1:37:11<10:14:46,  9.37s/it, gpt_loss=0.292, loss_mean=0.298][A[A
+
+Train step of epoch 1:  13%|█▎        | 596/4533 [1:37:11<10:21:24,  9.47s/it, gpt_loss=0.292, loss_mean=0.298][A[A
+[LID Router Debug] Step: 5130
+Batch Size: 14
+Audio Batch Size: 129
+LID Assignments: [4, 0, 5, 1, 2, 1, 0, 6, 0, 9, 2, 5, 3, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 03:46:47.572 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  13%|█▎        | 596/4533 [1:37:21<10:21:24,  9.47s/it, gpt_loss=0.259, loss_mean=0.294][A[A
+
+Train step of epoch 1:  13%|█▎        | 597/4533 [1:37:21<10:28:32,  9.58s/it, gpt_loss=0.259, loss_mean=0.294][A[A2026-01-27 03:46:57.190 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  13%|█▎        | 597/4533 [1:37:33<10:28:32,  9.58s/it, gpt_loss=0.349, loss_mean=0.299][A[A
+
+Train step of epoch 1:  13%|█▎        | 598/4533 [1:37:33<11:03:27, 10.12s/it, gpt_loss=0.349, loss_mean=0.299][A[A2026-01-27 03:47:08.860 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  13%|█▎        | 598/4533 [1:37:41<11:03:27, 10.12s/it, gpt_loss=0.262, loss_mean=0.296][A[A
+
+Train step of epoch 1:  13%|█▎        | 599/4533 [1:37:41<10:35:06,  9.69s/it, gpt_loss=0.262, loss_mean=0.296][A[A2026-01-27 03:47:17.473 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  13%|█▎        | 599/4533 [1:37:51<10:35:06,  9.69s/it, gpt_loss=0.263, loss_mean=0.292][A[A
+
+Train step of epoch 1:  13%|█▎        | 600/4533 [1:37:51<10:39:37,  9.76s/it, gpt_loss=0.263, loss_mean=0.292][A[A2026-01-27 03:47:27.459 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  13%|█▎        | 600/4533 [1:38:00<10:39:37,  9.76s/it, gpt_loss=0.272, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  13%|█▎        | 601/4533 [1:38:00<10:22:03,  9.49s/it, gpt_loss=0.272, loss_mean=0.29][A[A2026-01-27 03:47:36.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  13%|█▎        | 601/4533 [1:38:09<10:22:03,  9.49s/it, gpt_loss=0.225, loss_mean=0.284][A[A
+
+Train step of epoch 1:  13%|█▎        | 602/4533 [1:38:09<10:11:27,  9.33s/it, gpt_loss=0.225, loss_mean=0.284][A[A2026-01-27 03:47:45.270 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  13%|█▎        | 602/4533 [1:38:18<10:11:27,  9.33s/it, gpt_loss=0.244, loss_mean=0.28] [A[A
+
+Train step of epoch 1:  13%|█▎        | 603/4533 [1:38:18<10:03:10,  9.21s/it, gpt_loss=0.244, loss_mean=0.28][A[A2026-01-27 03:47:54.268 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  13%|█▎        | 603/4533 [1:38:28<10:03:10,  9.21s/it, gpt_loss=0.248, loss_mean=0.277][A[A
+
+Train step of epoch 1:  13%|█▎        | 604/4533 [1:38:28<10:18:45,  9.45s/it, gpt_loss=0.248, loss_mean=0.277][A[A2026-01-27 03:48:04.193 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  13%|█▎        | 604/4533 [1:38:37<10:18:45,  9.45s/it, gpt_loss=0.294, loss_mean=0.278][A[A
+
+Train step of epoch 1:  13%|█▎        | 605/4533 [1:38:37<10:08:31,  9.30s/it, gpt_loss=0.294, loss_mean=0.278][A[A2026-01-27 03:48:12.963 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  13%|█▎        | 605/4533 [1:38:46<10:08:31,  9.30s/it, gpt_loss=0.232, loss_mean=0.274][A[A
+
+Train step of epoch 1:  13%|█▎        | 606/4533 [1:38:46<10:01:53,  9.20s/it, gpt_loss=0.232, loss_mean=0.274][A[A
+[LID Router Debug] Step: 5140
+Batch Size: 14
+Audio Batch Size: 184
+LID Assignments: [9, 2, 4, 3, 0, 3, 0, 9, 1, 9, 9, 9, 1, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 9}
+2026-01-27 03:48:22.162 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  13%|█▎        | 606/4533 [1:38:56<10:01:53,  9.20s/it, gpt_loss=0.32, loss_mean=0.278] [A[A
+
+Train step of epoch 1:  13%|█▎        | 607/4533 [1:38:56<10:12:58,  9.37s/it, gpt_loss=0.32, loss_mean=0.278][A[A2026-01-27 03:48:31.854 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  13%|█▎        | 607/4533 [1:39:05<10:12:58,  9.37s/it, gpt_loss=0.302, loss_mean=0.281][A[A
+
+Train step of epoch 1:  13%|█▎        | 608/4533 [1:39:05<10:04:20,  9.24s/it, gpt_loss=0.302, loss_mean=0.281][A[A2026-01-27 03:48:40.571 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  13%|█▎        | 608/4533 [1:39:14<10:04:20,  9.24s/it, gpt_loss=0.3, loss_mean=0.283]  [A[A
+
+Train step of epoch 1:  13%|█▎        | 609/4533 [1:39:14<10:10:11,  9.33s/it, gpt_loss=0.3, loss_mean=0.283][A[A2026-01-27 03:48:50.377 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  13%|█▎        | 609/4533 [1:39:23<10:10:11,  9.33s/it, gpt_loss=0.33, loss_mean=0.287][A[A
+
+Train step of epoch 1:  13%|█▎        | 610/4533 [1:39:23<10:01:05,  9.19s/it, gpt_loss=0.33, loss_mean=0.287][A[A2026-01-27 03:48:59.188 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  13%|█▎        | 610/4533 [1:39:32<10:01:05,  9.19s/it, gpt_loss=0.227, loss_mean=0.281][A[A
+
+Train step of epoch 1:  13%|█▎        | 611/4533 [1:39:32<9:53:16,  9.08s/it, gpt_loss=0.227, loss_mean=0.281] [A[A2026-01-27 03:49:07.389 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  13%|█▎        | 611/4533 [1:39:41<9:53:16,  9.08s/it, gpt_loss=0.241, loss_mean=0.277][A[A
+
+Train step of epoch 1:  14%|█▎        | 612/4533 [1:39:41<9:54:20,  9.09s/it, gpt_loss=0.241, loss_mean=0.277][A[A2026-01-27 03:49:16.786 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  14%|█▎        | 612/4533 [1:39:50<9:54:20,  9.09s/it, gpt_loss=0.245, loss_mean=0.274][A[A
+
+Train step of epoch 1:  14%|█▎        | 613/4533 [1:39:50<10:02:39,  9.22s/it, gpt_loss=0.245, loss_mean=0.274][A[A2026-01-27 03:49:26.591 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  14%|█▎        | 613/4533 [1:40:02<10:02:39,  9.22s/it, gpt_loss=0.417, loss_mean=0.288][A[A
+
+Train step of epoch 1:  14%|█▎        | 614/4533 [1:40:02<10:49:06,  9.94s/it, gpt_loss=0.417, loss_mean=0.288][A[A2026-01-27 03:49:38.364 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  14%|█▎        | 614/4533 [1:40:11<10:49:06,  9.94s/it, gpt_loss=0.23, loss_mean=0.283] [A[A
+
+Train step of epoch 1:  14%|█▎        | 615/4533 [1:40:11<10:29:43,  9.64s/it, gpt_loss=0.23, loss_mean=0.283][A[A2026-01-27 03:49:47.255 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  14%|█▎        | 615/4533 [1:40:21<10:29:43,  9.64s/it, gpt_loss=0.308, loss_mean=0.285][A[A
+
+Train step of epoch 1:  14%|█▎        | 616/4533 [1:40:21<10:27:05,  9.61s/it, gpt_loss=0.308, loss_mean=0.285][A[A
+[LID Router Debug] Step: 5150
+Batch Size: 14
+Audio Batch Size: 121
+LID Assignments: [4, 5, 1, 6, 0, 0, 4, 1, 5, 4, 9, 5, 2, 9]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-27 03:49:56.651 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  14%|█▎        | 616/4533 [1:40:32<10:27:05,  9.61s/it, gpt_loss=0.388, loss_mean=0.295][A[A
+
+Train step of epoch 1:  14%|█▎        | 617/4533 [1:40:32<11:10:19, 10.27s/it, gpt_loss=0.388, loss_mean=0.295][A[A2026-01-27 03:50:08.666 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  14%|█▎        | 617/4533 [1:40:42<11:10:19, 10.27s/it, gpt_loss=0.357, loss_mean=0.302][A[A
+
+Train step of epoch 1:  14%|█▎        | 618/4533 [1:40:42<11:03:37, 10.17s/it, gpt_loss=0.357, loss_mean=0.302][A[A2026-01-27 03:50:18.477 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  14%|█▎        | 618/4533 [1:40:51<11:03:37, 10.17s/it, gpt_loss=0.245, loss_mean=0.296][A[A
+
+Train step of epoch 1:  14%|█▎        | 619/4533 [1:40:51<10:38:57,  9.79s/it, gpt_loss=0.245, loss_mean=0.296][A[A2026-01-27 03:50:27.463 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  14%|█▎        | 619/4533 [1:41:03<10:38:57,  9.79s/it, gpt_loss=0.377, loss_mean=0.304][A[A
+
+Train step of epoch 1:  14%|█▎        | 620/4533 [1:41:03<11:17:18, 10.39s/it, gpt_loss=0.377, loss_mean=0.304][A[A2026-01-27 03:50:38.977 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  14%|█▎        | 620/4533 [1:41:12<11:17:18, 10.39s/it, gpt_loss=0.243, loss_mean=0.298][A[A
+
+Train step of epoch 1:  14%|█▎        | 621/4533 [1:41:12<10:41:27,  9.84s/it, gpt_loss=0.243, loss_mean=0.298][A[A2026-01-27 03:50:47.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  14%|█▎        | 621/4533 [1:41:20<10:41:27,  9.84s/it, gpt_loss=0.213, loss_mean=0.289][A[A
+
+Train step of epoch 1:  14%|█▎        | 622/4533 [1:41:20<10:21:26,  9.53s/it, gpt_loss=0.213, loss_mean=0.289][A[A2026-01-27 03:50:56.582 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  14%|█▎        | 622/4533 [1:41:29<10:21:26,  9.53s/it, gpt_loss=0.271, loss_mean=0.288][A[A
+
+Train step of epoch 1:  14%|█▎        | 623/4533 [1:41:29<10:12:24,  9.40s/it, gpt_loss=0.271, loss_mean=0.288][A[A2026-01-27 03:51:05.676 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  14%|█▎        | 623/4533 [1:41:39<10:12:24,  9.40s/it, gpt_loss=0.263, loss_mean=0.285][A[A
+
+Train step of epoch 1:  14%|█▍        | 624/4533 [1:41:39<10:19:23,  9.51s/it, gpt_loss=0.263, loss_mean=0.285][A[A2026-01-27 03:51:15.295 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  14%|█▍        | 624/4533 [1:41:48<10:19:23,  9.51s/it, gpt_loss=0.227, loss_mean=0.279][A[A
+
+Train step of epoch 1:  14%|█▍        | 625/4533 [1:41:48<10:05:15,  9.29s/it, gpt_loss=0.227, loss_mean=0.279][A[A2026-01-27 03:51:24.256 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  14%|█▍        | 625/4533 [1:41:58<10:05:15,  9.29s/it, gpt_loss=0.326, loss_mean=0.284][A[A
+
+Train step of epoch 1:  14%|█▍        | 626/4533 [1:41:58<10:14:04,  9.43s/it, gpt_loss=0.326, loss_mean=0.284][A[A
+[LID Router Debug] Step: 5160
+Batch Size: 14
+Audio Batch Size: 169
+LID Assignments: [0, 5, 1, 6, 5, 9, 9, 3, 0, 4, 3, 3, 2, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 03:51:33.887 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  14%|█▍        | 626/4533 [1:42:07<10:14:04,  9.43s/it, gpt_loss=0.226, loss_mean=0.278][A[A
+
+Train step of epoch 1:  14%|█▍        | 627/4533 [1:42:07<10:04:16,  9.28s/it, gpt_loss=0.226, loss_mean=0.278][A[A2026-01-27 03:51:42.899 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  14%|█▍        | 627/4533 [1:42:16<10:04:16,  9.28s/it, gpt_loss=0.382, loss_mean=0.289][A[A
+
+Train step of epoch 1:  14%|█▍        | 628/4533 [1:42:16<10:13:51,  9.43s/it, gpt_loss=0.382, loss_mean=0.289][A[A2026-01-27 03:51:52.651 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  14%|█▍        | 628/4533 [1:42:26<10:13:51,  9.43s/it, gpt_loss=0.344, loss_mean=0.294][A[A
+
+Train step of epoch 1:  14%|█▍        | 629/4533 [1:42:26<10:19:23,  9.52s/it, gpt_loss=0.344, loss_mean=0.294][A[A2026-01-27 03:52:02.264 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  14%|█▍        | 629/4533 [1:42:36<10:19:23,  9.52s/it, gpt_loss=0.272, loss_mean=0.292][A[A
+
+Train step of epoch 1:  14%|█▍        | 630/4533 [1:42:36<10:21:38,  9.56s/it, gpt_loss=0.272, loss_mean=0.292][A[A2026-01-27 03:52:12.094 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  14%|█▍        | 630/4533 [1:42:48<10:21:38,  9.56s/it, gpt_loss=0.315, loss_mean=0.294][A[A
+
+Train step of epoch 1:  14%|█▍        | 631/4533 [1:42:48<11:13:05, 10.35s/it, gpt_loss=0.315, loss_mean=0.294][A[A2026-01-27 03:52:24.287 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  14%|█▍        | 631/4533 [1:43:00<11:13:05, 10.35s/it, gpt_loss=0.414, loss_mean=0.306][A[A
+
+Train step of epoch 1:  14%|█▍        | 632/4533 [1:43:00<11:44:15, 10.83s/it, gpt_loss=0.414, loss_mean=0.306][A[A2026-01-27 03:52:36.168 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  14%|█▍        | 632/4533 [1:43:09<11:44:15, 10.83s/it, gpt_loss=0.277, loss_mean=0.303][A[A
+
+Train step of epoch 1:  14%|█▍        | 633/4533 [1:43:09<11:18:17, 10.44s/it, gpt_loss=0.277, loss_mean=0.303][A[A2026-01-27 03:52:45.582 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  14%|█▍        | 633/4533 [1:43:22<11:18:17, 10.44s/it, gpt_loss=0.365, loss_mean=0.309][A[A
+
+Train step of epoch 1:  14%|█▍        | 634/4533 [1:43:22<11:50:00, 10.93s/it, gpt_loss=0.365, loss_mean=0.309][A[A2026-01-27 03:52:57.661 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  14%|█▍        | 634/4533 [1:43:31<11:50:00, 10.93s/it, gpt_loss=0.294, loss_mean=0.308][A[A
+
+Train step of epoch 1:  14%|█▍        | 635/4533 [1:43:31<11:24:43, 10.54s/it, gpt_loss=0.294, loss_mean=0.308][A[A2026-01-27 03:53:07.489 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  14%|█▍        | 635/4533 [1:43:40<11:24:43, 10.54s/it, gpt_loss=0.293, loss_mean=0.306][A[A
+
+Train step of epoch 1:  14%|█▍        | 636/4533 [1:43:40<10:51:39, 10.03s/it, gpt_loss=0.293, loss_mean=0.306][A[A
+[LID Router Debug] Step: 5170
+Batch Size: 14
+Audio Batch Size: 169
+LID Assignments: [3, 1, 2, 4, 9, 0, 2, 9, 2, 0, 9, 9, 0, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 9}
+2026-01-27 03:53:16.199 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  14%|█▍        | 636/4533 [1:43:49<10:51:39, 10.03s/it, gpt_loss=0.267, loss_mean=0.303][A[A
+
+Train step of epoch 1:  14%|█▍        | 637/4533 [1:43:49<10:32:21,  9.74s/it, gpt_loss=0.267, loss_mean=0.303][A[A2026-01-27 03:53:25.052 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  14%|█▍        | 637/4533 [1:43:58<10:32:21,  9.74s/it, gpt_loss=0.246, loss_mean=0.297][A[A
+
+Train step of epoch 1:  14%|█▍        | 638/4533 [1:43:58<10:06:47,  9.35s/it, gpt_loss=0.246, loss_mean=0.297][A[A2026-01-27 03:53:33.785 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  14%|█▍        | 638/4533 [1:44:07<10:06:47,  9.35s/it, gpt_loss=0.294, loss_mean=0.297][A[A
+
+Train step of epoch 1:  14%|█▍        | 639/4533 [1:44:07<10:18:13,  9.53s/it, gpt_loss=0.294, loss_mean=0.297][A[A2026-01-27 03:53:43.600 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  14%|█▍        | 639/4533 [1:44:19<10:18:13,  9.53s/it, gpt_loss=0.403, loss_mean=0.307][A[A
+
+Train step of epoch 1:  14%|█▍        | 640/4533 [1:44:19<10:59:09, 10.16s/it, gpt_loss=0.403, loss_mean=0.307][A[A2026-01-27 03:53:54.894 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  14%|█▍        | 640/4533 [1:44:28<10:59:09, 10.16s/it, gpt_loss=0.305, loss_mean=0.307][A[A
+
+Train step of epoch 1:  14%|█▍        | 641/4533 [1:44:28<10:25:00,  9.64s/it, gpt_loss=0.305, loss_mean=0.307][A[A2026-01-27 03:54:03.698 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  14%|█▍        | 641/4533 [1:44:37<10:25:00,  9.64s/it, gpt_loss=0.231, loss_mean=0.299][A[A
+
+Train step of epoch 1:  14%|█▍        | 642/4533 [1:44:37<10:20:43,  9.57s/it, gpt_loss=0.231, loss_mean=0.299][A[A2026-01-27 03:54:12.857 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  14%|█▍        | 642/4533 [1:44:48<10:20:43,  9.57s/it, gpt_loss=0.305, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  14%|█▍        | 643/4533 [1:44:48<10:58:12, 10.15s/it, gpt_loss=0.305, loss_mean=0.3][A[A2026-01-27 03:54:24.770 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  14%|█▍        | 643/4533 [1:44:58<10:58:12, 10.15s/it, gpt_loss=0.217, loss_mean=0.292][A[A
+
+Train step of epoch 1:  14%|█▍        | 644/4533 [1:44:58<10:43:16,  9.92s/it, gpt_loss=0.217, loss_mean=0.292][A[A2026-01-27 03:54:34.080 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  14%|█▍        | 644/4533 [1:45:07<10:43:16,  9.92s/it, gpt_loss=0.261, loss_mean=0.289][A[A
+
+Train step of epoch 1:  14%|█▍        | 645/4533 [1:45:07<10:22:16,  9.60s/it, gpt_loss=0.261, loss_mean=0.289][A[A2026-01-27 03:54:42.889 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  14%|█▍        | 645/4533 [1:45:16<10:22:16,  9.60s/it, gpt_loss=0.247, loss_mean=0.284][A[A
+
+Train step of epoch 1:  14%|█▍        | 646/4533 [1:45:16<10:09:01,  9.40s/it, gpt_loss=0.247, loss_mean=0.284][A[A
+[LID Router Debug] Step: 5180
+Batch Size: 14
+Audio Batch Size: 171
+LID Assignments: [3, 3, 4, 4, 3, 5, 2, 6, 0, 3, 1, 1, 0, 6]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6}
+2026-01-27 03:54:51.895 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  14%|█▍        | 646/4533 [1:45:27<10:09:01,  9.40s/it, gpt_loss=0.311, loss_mean=0.287][A[A
+
+Train step of epoch 1:  14%|█▍        | 647/4533 [1:45:27<10:53:12, 10.09s/it, gpt_loss=0.311, loss_mean=0.287][A[A2026-01-27 03:55:03.451 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  14%|█▍        | 647/4533 [1:45:36<10:53:12, 10.09s/it, gpt_loss=0.356, loss_mean=0.294][A[A
+
+Train step of epoch 1:  14%|█▍        | 648/4533 [1:45:36<10:33:57,  9.79s/it, gpt_loss=0.356, loss_mean=0.294][A[A2026-01-27 03:55:12.591 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  14%|█▍        | 648/4533 [1:45:45<10:33:57,  9.79s/it, gpt_loss=0.264, loss_mean=0.291][A[A
+
+Train step of epoch 1:  14%|█▍        | 649/4533 [1:45:45<10:12:46,  9.47s/it, gpt_loss=0.264, loss_mean=0.291][A[A2026-01-27 03:55:21.191 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  14%|█▍        | 649/4533 [1:45:54<10:12:46,  9.47s/it, gpt_loss=0.249, loss_mean=0.287][A[A
+
+Train step of epoch 1:  14%|█▍        | 650/4533 [1:45:54<10:01:35,  9.30s/it, gpt_loss=0.249, loss_mean=0.287][A[A2026-01-27 03:55:30.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  14%|█▍        | 650/4533 [1:46:04<10:01:35,  9.30s/it, gpt_loss=0.285, loss_mean=0.287][A[A
+
+Train step of epoch 1:  14%|█▍        | 651/4533 [1:46:04<10:16:07,  9.52s/it, gpt_loss=0.285, loss_mean=0.287][A[A2026-01-27 03:55:40.173 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  14%|█▍        | 651/4533 [1:46:13<10:16:07,  9.52s/it, gpt_loss=0.28, loss_mean=0.286] [A[A
+
+Train step of epoch 1:  14%|█▍        | 652/4533 [1:46:13<10:07:38,  9.39s/it, gpt_loss=0.28, loss_mean=0.286][A[A2026-01-27 03:55:49.367 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  14%|█▍        | 652/4533 [1:46:22<10:07:38,  9.39s/it, gpt_loss=0.272, loss_mean=0.284][A[A
+
+Train step of epoch 1:  14%|█▍        | 653/4533 [1:46:22<9:55:58,  9.22s/it, gpt_loss=0.272, loss_mean=0.284] [A[A2026-01-27 03:55:57.883 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  14%|█▍        | 653/4533 [1:46:33<9:55:58,  9.22s/it, gpt_loss=0.313, loss_mean=0.287][A[A
+
+Train step of epoch 1:  14%|█▍        | 654/4533 [1:46:33<10:40:34,  9.91s/it, gpt_loss=0.313, loss_mean=0.287][A[A2026-01-27 03:56:09.659 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  14%|█▍        | 654/4533 [1:46:45<10:40:34,  9.91s/it, gpt_loss=0.367, loss_mean=0.295][A[A
+
+Train step of epoch 1:  14%|█▍        | 655/4533 [1:46:45<11:19:25, 10.51s/it, gpt_loss=0.367, loss_mean=0.295][A[A2026-01-27 03:56:21.692 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  14%|█▍        | 655/4533 [1:46:55<11:19:25, 10.51s/it, gpt_loss=0.283, loss_mean=0.294][A[A
+
+Train step of epoch 1:  14%|█▍        | 656/4533 [1:46:55<11:07:02, 10.32s/it, gpt_loss=0.283, loss_mean=0.294][A[A
+[LID Router Debug] Step: 5190
+Batch Size: 14
+Audio Batch Size: 186
+LID Assignments: [4, 0, 9, 2, 3, 9, 2, 3, 5, 3, 3, 5, 3, 2]
+Active Experts in Batch: {0, 2, 3, 4, 5, 9}
+2026-01-27 03:56:31.551 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  14%|█▍        | 656/4533 [1:47:04<11:07:02, 10.32s/it, gpt_loss=0.288, loss_mean=0.293][A[A
+
+Train step of epoch 1:  14%|█▍        | 657/4533 [1:47:04<10:42:57,  9.95s/it, gpt_loss=0.288, loss_mean=0.293][A[A2026-01-27 03:56:40.359 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  14%|█▍        | 657/4533 [1:47:13<10:42:57,  9.95s/it, gpt_loss=0.233, loss_mean=0.287][A[A
+
+Train step of epoch 1:  15%|█▍        | 658/4533 [1:47:13<10:15:36,  9.53s/it, gpt_loss=0.233, loss_mean=0.287][A[A2026-01-27 03:56:48.871 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  15%|█▍        | 658/4533 [1:47:22<10:15:36,  9.53s/it, gpt_loss=0.292, loss_mean=0.288][A[A
+
+Train step of epoch 1:  15%|█▍        | 659/4533 [1:47:22<10:01:17,  9.31s/it, gpt_loss=0.292, loss_mean=0.288][A[A2026-01-27 03:56:57.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  15%|█▍        | 659/4533 [1:47:34<10:01:17,  9.31s/it, gpt_loss=0.362, loss_mean=0.295][A[A
+
+Train step of epoch 1:  15%|█▍        | 660/4533 [1:47:34<10:53:17, 10.12s/it, gpt_loss=0.362, loss_mean=0.295][A[A2026-01-27 03:57:10.069 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  15%|█▍        | 660/4533 [1:47:46<10:53:17, 10.12s/it, gpt_loss=0.391, loss_mean=0.305][A[A
+
+Train step of epoch 1:  15%|█▍        | 661/4533 [1:47:46<11:32:00, 10.72s/it, gpt_loss=0.391, loss_mean=0.305][A[A2026-01-27 03:57:21.767 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  15%|█▍        | 661/4533 [1:47:55<11:32:00, 10.72s/it, gpt_loss=0.248, loss_mean=0.299][A[A
+
+Train step of epoch 1:  15%|█▍        | 662/4533 [1:47:55<10:58:13, 10.20s/it, gpt_loss=0.248, loss_mean=0.299][A[A2026-01-27 03:57:30.995 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  15%|█▍        | 662/4533 [1:48:04<10:58:13, 10.20s/it, gpt_loss=0.31, loss_mean=0.3]   [A[A
+
+Train step of epoch 1:  15%|█▍        | 663/4533 [1:48:04<10:37:55,  9.89s/it, gpt_loss=0.31, loss_mean=0.3][A[A2026-01-27 03:57:40.261 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  15%|█▍        | 663/4533 [1:48:16<10:37:55,  9.89s/it, gpt_loss=0.352, loss_mean=0.305][A[A
+
+Train step of epoch 1:  15%|█▍        | 664/4533 [1:48:16<11:17:27, 10.51s/it, gpt_loss=0.352, loss_mean=0.305][A[A2026-01-27 03:57:52.087 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  15%|█▍        | 664/4533 [1:48:26<11:17:27, 10.51s/it, gpt_loss=0.24, loss_mean=0.299] [A[A
+
+Train step of epoch 1:  15%|█▍        | 665/4533 [1:48:26<11:01:44, 10.26s/it, gpt_loss=0.24, loss_mean=0.299][A[A2026-01-27 03:58:01.783 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  15%|█▍        | 665/4533 [1:48:34<11:01:44, 10.26s/it, gpt_loss=0.299, loss_mean=0.299][A[A
+
+Train step of epoch 1:  15%|█▍        | 666/4533 [1:48:34<10:32:01,  9.81s/it, gpt_loss=0.299, loss_mean=0.299][A[A
+[LID Router Debug] Step: 5200
+Batch Size: 14
+Audio Batch Size: 168
+LID Assignments: [2, 4, 3, 1, 2, 9, 3, 2, 6, 2, 0, 4, 3, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-27 03:58:10.397 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+[2026-01-27 03:58:18,330] [INFO] [logging.py:96:log_dist] [Rank 0] step=5200, skipped=0, lr=[1.3793663202677207e-05, 1.3793663202677207e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 03:58:18,330] [INFO] [timer.py:260:stop] epoch=0/micro_step=5200/global_step=5200, RunningAvgSamplesPerSec=5.728888260040629, CurrSamplesPerSec=6.659847611283448, MemAllocated=14.67GB, MaxMemAllocated=53.98GB
+
+
+Train step of epoch 1:  15%|█▍        | 666/4533 [1:48:43<10:32:01,  9.81s/it, gpt_loss=0.298, loss_mean=0.299][A[A
+
+Train step of epoch 1:  15%|█▍        | 667/4533 [1:48:43<10:05:13,  9.39s/it, gpt_loss=0.298, loss_mean=0.299][A[A2026-01-27 03:58:18.797 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  15%|█▍        | 667/4533 [1:48:54<10:05:13,  9.39s/it, gpt_loss=0.358, loss_mean=0.305][A[A
+
+Train step of epoch 1:  15%|█▍        | 668/4533 [1:48:54<10:44:50, 10.01s/it, gpt_loss=0.358, loss_mean=0.305][A[A2026-01-27 03:58:30.473 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  15%|█▍        | 668/4533 [1:49:06<10:44:50, 10.01s/it, gpt_loss=0.332, loss_mean=0.308][A[A
+
+Train step of epoch 1:  15%|█▍        | 669/4533 [1:49:06<11:18:30, 10.54s/it, gpt_loss=0.332, loss_mean=0.308][A[A2026-01-27 03:58:42.302 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  15%|█▍        | 669/4533 [1:49:16<11:18:30, 10.54s/it, gpt_loss=0.297, loss_mean=0.306][A[A
+
+Train step of epoch 1:  15%|█▍        | 670/4533 [1:49:16<11:01:37, 10.28s/it, gpt_loss=0.297, loss_mean=0.306][A[A2026-01-27 03:58:51.979 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  15%|█▍        | 670/4533 [1:49:25<11:01:37, 10.28s/it, gpt_loss=0.289, loss_mean=0.305][A[A
+
+Train step of epoch 1:  15%|█▍        | 671/4533 [1:49:25<10:38:48,  9.92s/it, gpt_loss=0.289, loss_mean=0.305][A[A2026-01-27 03:59:01.055 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  15%|█▍        | 671/4533 [1:49:34<10:38:48,  9.92s/it, gpt_loss=0.218, loss_mean=0.296][A[A
+
+Train step of epoch 1:  15%|█▍        | 672/4533 [1:49:34<10:25:54,  9.73s/it, gpt_loss=0.218, loss_mean=0.296][A[A2026-01-27 03:59:09.972 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  15%|█▍        | 672/4533 [1:49:46<10:25:54,  9.73s/it, gpt_loss=0.389, loss_mean=0.305][A[A
+
+Train step of epoch 1:  15%|█▍        | 673/4533 [1:49:46<11:05:15, 10.34s/it, gpt_loss=0.389, loss_mean=0.305][A[A2026-01-27 03:59:22.079 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  15%|█▍        | 673/4533 [1:49:55<11:05:15, 10.34s/it, gpt_loss=0.238, loss_mean=0.299][A[A
+
+Train step of epoch 1:  15%|█▍        | 674/4533 [1:49:55<10:35:44,  9.88s/it, gpt_loss=0.238, loss_mean=0.299][A[A2026-01-27 03:59:30.966 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  15%|█▍        | 674/4533 [1:50:04<10:35:44,  9.88s/it, gpt_loss=0.267, loss_mean=0.295][A[A
+
+Train step of epoch 1:  15%|█▍        | 675/4533 [1:50:04<10:18:57,  9.63s/it, gpt_loss=0.267, loss_mean=0.295][A[A2026-01-27 03:59:39.692 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  15%|█▍        | 675/4533 [1:50:12<10:18:57,  9.63s/it, gpt_loss=0.269, loss_mean=0.293][A[A
+
+Train step of epoch 1:  15%|█▍        | 676/4533 [1:50:12<10:00:28,  9.34s/it, gpt_loss=0.269, loss_mean=0.293][A[A
+[LID Router Debug] Step: 5210
+Batch Size: 14
+Audio Batch Size: 166
+LID Assignments: [1, 3, 3, 2, 3, 9, 5, 1, 9, 1, 1, 4, 3, 2]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-27 03:59:48.251 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  15%|█▍        | 676/4533 [1:50:24<10:00:28,  9.34s/it, gpt_loss=0.359, loss_mean=0.299][A[A
+
+Train step of epoch 1:  15%|█▍        | 677/4533 [1:50:24<10:39:50,  9.96s/it, gpt_loss=0.359, loss_mean=0.299][A[A2026-01-27 03:59:59.995 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  15%|█▍        | 677/4533 [1:50:33<10:39:50,  9.96s/it, gpt_loss=0.32, loss_mean=0.301] [A[A
+
+Train step of epoch 1:  15%|█▍        | 678/4533 [1:50:33<10:21:53,  9.68s/it, gpt_loss=0.32, loss_mean=0.301][A[A2026-01-27 04:00:08.954 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  15%|█▍        | 678/4533 [1:50:42<10:21:53,  9.68s/it, gpt_loss=0.33, loss_mean=0.304][A[A
+
+Train step of epoch 1:  15%|█▍        | 679/4533 [1:50:42<10:04:20,  9.41s/it, gpt_loss=0.33, loss_mean=0.304][A[A2026-01-27 04:00:17.601 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  15%|█▍        | 679/4533 [1:50:51<10:04:20,  9.41s/it, gpt_loss=0.245, loss_mean=0.298][A[A
+
+Train step of epoch 1:  15%|█▌        | 680/4533 [1:50:51<10:09:46,  9.50s/it, gpt_loss=0.245, loss_mean=0.298][A[A2026-01-27 04:00:27.097 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  15%|█▌        | 680/4533 [1:51:03<10:09:46,  9.50s/it, gpt_loss=0.411, loss_mean=0.31] [A[A
+
+Train step of epoch 1:  15%|█▌        | 681/4533 [1:51:03<10:47:03, 10.08s/it, gpt_loss=0.411, loss_mean=0.31][A[A2026-01-27 04:00:38.751 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  15%|█▌        | 681/4533 [1:51:11<10:47:03, 10.08s/it, gpt_loss=0.21, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  15%|█▌        | 682/4533 [1:51:11<10:19:09,  9.65s/it, gpt_loss=0.21, loss_mean=0.3][A[A2026-01-27 04:00:47.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  15%|█▌        | 682/4533 [1:51:23<10:19:09,  9.65s/it, gpt_loss=0.344, loss_mean=0.304][A[A
+
+Train step of epoch 1:  15%|█▌        | 683/4533 [1:51:23<11:02:22, 10.32s/it, gpt_loss=0.344, loss_mean=0.304][A[A2026-01-27 04:00:59.388 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  15%|█▌        | 683/4533 [1:51:32<11:02:22, 10.32s/it, gpt_loss=0.284, loss_mean=0.302][A[A
+
+Train step of epoch 1:  15%|█▌        | 684/4533 [1:51:32<10:30:26,  9.83s/it, gpt_loss=0.284, loss_mean=0.302][A[A2026-01-27 04:01:07.983 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  15%|█▌        | 684/4533 [1:51:41<10:30:26,  9.83s/it, gpt_loss=0.32, loss_mean=0.304] [A[A
+
+Train step of epoch 1:  15%|█▌        | 685/4533 [1:51:41<10:10:30,  9.52s/it, gpt_loss=0.32, loss_mean=0.304][A[A2026-01-27 04:01:16.976 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  15%|█▌        | 685/4533 [1:51:53<10:10:30,  9.52s/it, gpt_loss=0.409, loss_mean=0.314][A[A
+
+Train step of epoch 1:  15%|█▌        | 686/4533 [1:51:53<10:55:46, 10.23s/it, gpt_loss=0.409, loss_mean=0.314][A[A
+[LID Router Debug] Step: 5220
+Batch Size: 14
+Audio Batch Size: 131
+LID Assignments: [4, 1, 4, 6, 9, 0, 9, 4, 1, 5, 4, 5, 4, 3]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6, 9}
+2026-01-27 04:01:28.875 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  15%|█▌        | 686/4533 [1:52:01<10:55:46, 10.23s/it, gpt_loss=0.219, loss_mean=0.305][A[A
+
+Train step of epoch 1:  15%|█▌        | 687/4533 [1:52:01<10:29:02,  9.81s/it, gpt_loss=0.219, loss_mean=0.305][A[A2026-01-27 04:01:37.601 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  15%|█▌        | 687/4533 [1:52:13<10:29:02,  9.81s/it, gpt_loss=0.327, loss_mean=0.307][A[A
+
+Train step of epoch 1:  15%|█▌        | 688/4533 [1:52:13<11:05:34, 10.39s/it, gpt_loss=0.327, loss_mean=0.307][A[A2026-01-27 04:01:49.458 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  15%|█▌        | 688/4533 [1:52:23<11:05:34, 10.39s/it, gpt_loss=0.287, loss_mean=0.305][A[A
+
+Train step of epoch 1:  15%|█▌        | 689/4533 [1:52:23<10:54:00, 10.21s/it, gpt_loss=0.287, loss_mean=0.305][A[A2026-01-27 04:01:58.900 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  15%|█▌        | 689/4533 [1:52:32<10:54:00, 10.21s/it, gpt_loss=0.307, loss_mean=0.305][A[A
+
+Train step of epoch 1:  15%|█▌        | 690/4533 [1:52:32<10:26:26,  9.78s/it, gpt_loss=0.307, loss_mean=0.305][A[A2026-01-27 04:02:07.863 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  15%|█▌        | 690/4533 [1:52:44<10:26:26,  9.78s/it, gpt_loss=0.346, loss_mean=0.309][A[A
+
+Train step of epoch 1:  15%|█▌        | 691/4533 [1:52:44<11:07:09, 10.42s/it, gpt_loss=0.346, loss_mean=0.309][A[A2026-01-27 04:02:19.678 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  15%|█▌        | 691/4533 [1:52:53<11:07:09, 10.42s/it, gpt_loss=0.288, loss_mean=0.307][A[A
+
+Train step of epoch 1:  15%|█▌        | 692/4533 [1:52:53<10:39:50,  9.99s/it, gpt_loss=0.288, loss_mean=0.307][A[A2026-01-27 04:02:28.872 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  15%|█▌        | 692/4533 [1:53:02<10:39:50,  9.99s/it, gpt_loss=0.351, loss_mean=0.311][A[A
+
+Train step of epoch 1:  15%|█▌        | 693/4533 [1:53:02<10:20:07,  9.69s/it, gpt_loss=0.351, loss_mean=0.311][A[A2026-01-27 04:02:37.884 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  15%|█▌        | 693/4533 [1:53:11<10:20:07,  9.69s/it, gpt_loss=0.205, loss_mean=0.301][A[A
+
+Train step of epoch 1:  15%|█▌        | 694/4533 [1:53:11<10:11:11,  9.55s/it, gpt_loss=0.205, loss_mean=0.301][A[A2026-01-27 04:02:46.879 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  15%|█▌        | 694/4533 [1:53:20<10:11:11,  9.55s/it, gpt_loss=0.295, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  15%|█▌        | 695/4533 [1:53:20<9:56:28,  9.32s/it, gpt_loss=0.295, loss_mean=0.3] [A[A2026-01-27 04:02:55.372 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  15%|█▌        | 695/4533 [1:53:29<9:56:28,  9.32s/it, gpt_loss=0.286, loss_mean=0.299][A[A
+
+Train step of epoch 1:  15%|█▌        | 696/4533 [1:53:29<9:51:13,  9.24s/it, gpt_loss=0.286, loss_mean=0.299][A[A
+[LID Router Debug] Step: 5230
+Batch Size: 14
+Audio Batch Size: 165
+LID Assignments: [2, 4, 9, 1, 4, 2, 9, 3, 2, 4, 3, 0, 6, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-27 04:03:04.951 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  15%|█▌        | 696/4533 [1:53:38<9:51:13,  9.24s/it, gpt_loss=0.282, loss_mean=0.297][A[A
+
+Train step of epoch 1:  15%|█▌        | 697/4533 [1:53:38<9:45:16,  9.15s/it, gpt_loss=0.282, loss_mean=0.297][A[A2026-01-27 04:03:13.776 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  15%|█▌        | 697/4533 [1:53:47<9:45:16,  9.15s/it, gpt_loss=0.255, loss_mean=0.293][A[A
+
+Train step of epoch 1:  15%|█▌        | 698/4533 [1:53:47<9:39:25,  9.07s/it, gpt_loss=0.255, loss_mean=0.293][A[A2026-01-27 04:03:22.151 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  15%|█▌        | 698/4533 [1:53:55<9:39:25,  9.07s/it, gpt_loss=0.264, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  15%|█▌        | 699/4533 [1:53:55<9:36:18,  9.02s/it, gpt_loss=0.264, loss_mean=0.29][A[A2026-01-27 04:03:31.603 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  15%|█▌        | 699/4533 [1:54:04<9:36:18,  9.02s/it, gpt_loss=0.278, loss_mean=0.289][A[A
+
+Train step of epoch 1:  15%|█▌        | 700/4533 [1:54:04<9:34:34,  8.99s/it, gpt_loss=0.278, loss_mean=0.289][A[A2026-01-27 04:03:40.581 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  15%|█▌        | 700/4533 [1:54:16<9:34:34,  8.99s/it, gpt_loss=0.34, loss_mean=0.294] [A[A
+
+Train step of epoch 1:  15%|█▌        | 701/4533 [1:54:16<10:29:51,  9.86s/it, gpt_loss=0.34, loss_mean=0.294][A[A2026-01-27 04:03:52.486 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  15%|█▌        | 701/4533 [1:54:25<10:29:51,  9.86s/it, gpt_loss=0.259, loss_mean=0.29][A[A
+
+Train step of epoch 1:  15%|█▌        | 702/4533 [1:54:25<10:12:47,  9.60s/it, gpt_loss=0.259, loss_mean=0.29][A[A2026-01-27 04:04:01.253 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  15%|█▌        | 702/4533 [1:54:34<10:12:47,  9.60s/it, gpt_loss=0.303, loss_mean=0.292][A[A
+
+Train step of epoch 1:  16%|█▌        | 703/4533 [1:54:34<9:51:36,  9.27s/it, gpt_loss=0.303, loss_mean=0.292] [A[A2026-01-27 04:04:09.971 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  16%|█▌        | 703/4533 [1:54:44<9:51:36,  9.27s/it, gpt_loss=0.293, loss_mean=0.292][A[A
+
+Train step of epoch 1:  16%|█▌        | 704/4533 [1:54:44<10:03:53,  9.46s/it, gpt_loss=0.293, loss_mean=0.292][A[A2026-01-27 04:04:19.954 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  16%|█▌        | 704/4533 [1:54:53<10:03:53,  9.46s/it, gpt_loss=0.292, loss_mean=0.292][A[A
+
+Train step of epoch 1:  16%|█▌        | 705/4533 [1:54:53<9:53:19,  9.30s/it, gpt_loss=0.292, loss_mean=0.292] [A[A2026-01-27 04:04:28.668 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  16%|█▌        | 705/4533 [1:55:01<9:53:19,  9.30s/it, gpt_loss=0.29, loss_mean=0.292] [A[A
+
+Train step of epoch 1:  16%|█▌        | 706/4533 [1:55:01<9:45:50,  9.18s/it, gpt_loss=0.29, loss_mean=0.292][A[A
+[LID Router Debug] Step: 5240
+Batch Size: 14
+Audio Batch Size: 144
+LID Assignments: [1, 4, 1, 3, 5, 1, 0, 4, 0, 1, 9, 3, 4, 9]
+Active Experts in Batch: {0, 1, 3, 4, 5, 9}
+2026-01-27 04:04:37.497 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  16%|█▌        | 706/4533 [1:55:11<9:45:50,  9.18s/it, gpt_loss=0.266, loss_mean=0.289][A[A
+
+Train step of epoch 1:  16%|█▌        | 707/4533 [1:55:11<9:49:34,  9.25s/it, gpt_loss=0.266, loss_mean=0.289][A[A2026-01-27 04:04:46.971 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  16%|█▌        | 707/4533 [1:55:21<9:49:34,  9.25s/it, gpt_loss=0.24, loss_mean=0.284] [A[A
+
+Train step of epoch 1:  16%|█▌        | 708/4533 [1:55:21<9:57:00,  9.36s/it, gpt_loss=0.24, loss_mean=0.284][A[A2026-01-27 04:04:56.499 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  16%|█▌        | 708/4533 [1:55:29<9:57:00,  9.36s/it, gpt_loss=0.265, loss_mean=0.282][A[A
+
+Train step of epoch 1:  16%|█▌        | 709/4533 [1:55:29<9:49:09,  9.24s/it, gpt_loss=0.265, loss_mean=0.282][A[A2026-01-27 04:05:05.392 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  16%|█▌        | 709/4533 [1:55:39<9:49:09,  9.24s/it, gpt_loss=0.293, loss_mean=0.283][A[A
+
+Train step of epoch 1:  16%|█▌        | 710/4533 [1:55:39<9:55:07,  9.34s/it, gpt_loss=0.293, loss_mean=0.283][A[A2026-01-27 04:05:15.174 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  16%|█▌        | 710/4533 [1:55:48<9:55:07,  9.34s/it, gpt_loss=0.239, loss_mean=0.279][A[A
+
+Train step of epoch 1:  16%|█▌        | 711/4533 [1:55:48<9:39:57,  9.10s/it, gpt_loss=0.239, loss_mean=0.279][A[A2026-01-27 04:05:23.787 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  16%|█▌        | 711/4533 [1:56:00<9:39:57,  9.10s/it, gpt_loss=0.336, loss_mean=0.285][A[A
+
+Train step of epoch 1:  16%|█▌        | 712/4533 [1:56:00<10:35:45,  9.98s/it, gpt_loss=0.336, loss_mean=0.285][A[A2026-01-27 04:05:35.887 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  16%|█▌        | 712/4533 [1:56:09<10:35:45,  9.98s/it, gpt_loss=0.226, loss_mean=0.279][A[A
+
+Train step of epoch 1:  16%|█▌        | 713/4533 [1:56:09<10:15:14,  9.66s/it, gpt_loss=0.226, loss_mean=0.279][A[A2026-01-27 04:05:44.583 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  16%|█▌        | 713/4533 [1:56:18<10:15:14,  9.66s/it, gpt_loss=0.275, loss_mean=0.278][A[A
+
+Train step of epoch 1:  16%|█▌        | 714/4533 [1:56:18<10:16:33,  9.69s/it, gpt_loss=0.275, loss_mean=0.278][A[A2026-01-27 04:05:54.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  16%|█▌        | 714/4533 [1:56:28<10:16:33,  9.69s/it, gpt_loss=0.265, loss_mean=0.277][A[A
+
+Train step of epoch 1:  16%|█▌        | 715/4533 [1:56:28<10:12:13,  9.62s/it, gpt_loss=0.265, loss_mean=0.277][A[A2026-01-27 04:06:03.656 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  16%|█▌        | 715/4533 [1:56:37<10:12:13,  9.62s/it, gpt_loss=0.307, loss_mean=0.28] [A[A
+
+Train step of epoch 1:  16%|█▌        | 716/4533 [1:56:37<9:57:25,  9.39s/it, gpt_loss=0.307, loss_mean=0.28] [A[A
+[LID Router Debug] Step: 5250
+Batch Size: 14
+Audio Batch Size: 124
+LID Assignments: [2, 5, 4, 1, 5, 4, 4, 6, 2, 2, 9, 5, 3, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 04:06:12.791 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  16%|█▌        | 716/4533 [1:56:45<9:57:25,  9.39s/it, gpt_loss=0.336, loss_mean=0.286][A[A
+
+Train step of epoch 1:  16%|█▌        | 717/4533 [1:56:45<9:45:43,  9.21s/it, gpt_loss=0.336, loss_mean=0.286][A[A2026-01-27 04:06:21.556 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  16%|█▌        | 717/4533 [1:56:54<9:45:43,  9.21s/it, gpt_loss=0.292, loss_mean=0.286][A[A
+
+Train step of epoch 1:  16%|█▌        | 718/4533 [1:56:54<9:39:37,  9.12s/it, gpt_loss=0.292, loss_mean=0.286][A[A2026-01-27 04:06:30.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  16%|█▌        | 718/4533 [1:57:03<9:39:37,  9.12s/it, gpt_loss=0.261, loss_mean=0.284][A[A
+
+Train step of epoch 1:  16%|█▌        | 719/4533 [1:57:03<9:38:52,  9.11s/it, gpt_loss=0.261, loss_mean=0.284][A[A2026-01-27 04:06:39.168 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  16%|█▌        | 719/4533 [1:57:15<9:38:52,  9.11s/it, gpt_loss=0.353, loss_mean=0.291][A[A
+
+Train step of epoch 1:  16%|█▌        | 720/4533 [1:57:15<10:26:07,  9.85s/it, gpt_loss=0.353, loss_mean=0.291][A[A2026-01-27 04:06:51.065 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  16%|█▌        | 720/4533 [1:57:25<10:26:07,  9.85s/it, gpt_loss=0.264, loss_mean=0.288][A[A
+
+Train step of epoch 1:  16%|█▌        | 721/4533 [1:57:25<10:19:46,  9.76s/it, gpt_loss=0.264, loss_mean=0.288][A[A2026-01-27 04:07:00.761 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  16%|█▌        | 721/4533 [1:57:34<10:19:46,  9.76s/it, gpt_loss=0.268, loss_mean=0.286][A[A
+
+Train step of epoch 1:  16%|█▌        | 722/4533 [1:57:34<10:08:50,  9.59s/it, gpt_loss=0.268, loss_mean=0.286][A[A2026-01-27 04:07:09.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  16%|█▌        | 722/4533 [1:57:43<10:08:50,  9.59s/it, gpt_loss=0.321, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  16%|█▌        | 723/4533 [1:57:43<10:03:30,  9.50s/it, gpt_loss=0.321, loss_mean=0.29][A[A2026-01-27 04:07:18.855 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  16%|█▌        | 723/4533 [1:57:55<10:03:30,  9.50s/it, gpt_loss=0.391, loss_mean=0.3] [A[A
+
+Train step of epoch 1:  16%|█▌        | 724/4533 [1:57:55<10:41:24, 10.10s/it, gpt_loss=0.391, loss_mean=0.3][A[A2026-01-27 04:07:30.777 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  16%|█▌        | 724/4533 [1:58:04<10:41:24, 10.10s/it, gpt_loss=0.228, loss_mean=0.293][A[A
+
+Train step of epoch 1:  16%|█▌        | 725/4533 [1:58:04<10:27:01,  9.88s/it, gpt_loss=0.228, loss_mean=0.293][A[A2026-01-27 04:07:39.977 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  16%|█▌        | 725/4533 [1:58:13<10:27:01,  9.88s/it, gpt_loss=0.286, loss_mean=0.292][A[A
+
+Train step of epoch 1:  16%|█▌        | 726/4533 [1:58:13<10:20:52,  9.79s/it, gpt_loss=0.286, loss_mean=0.292][A[A
+[LID Router Debug] Step: 5260
+Batch Size: 14
+Audio Batch Size: 158
+LID Assignments: [4, 5, 3, 9, 5, 9, 1, 5, 3, 3, 0, 1, 5, 5]
+Active Experts in Batch: {0, 1, 3, 4, 5, 9}
+2026-01-27 04:07:49.706 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  16%|█▌        | 726/4533 [1:58:26<10:20:52,  9.79s/it, gpt_loss=0.347, loss_mean=0.297][A[A
+
+Train step of epoch 1:  16%|█▌        | 727/4533 [1:58:26<11:06:11, 10.50s/it, gpt_loss=0.347, loss_mean=0.297][A[A2026-01-27 04:08:01.684 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  16%|█▌        | 727/4533 [1:58:35<11:06:11, 10.50s/it, gpt_loss=0.319, loss_mean=0.299][A[A
+
+Train step of epoch 1:  16%|█▌        | 728/4533 [1:58:35<10:47:36, 10.21s/it, gpt_loss=0.319, loss_mean=0.299][A[A2026-01-27 04:08:11.397 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  16%|█▌        | 728/4533 [1:58:44<10:47:36, 10.21s/it, gpt_loss=0.196, loss_mean=0.289][A[A
+
+Train step of epoch 1:  16%|█▌        | 729/4533 [1:58:44<10:23:03,  9.83s/it, gpt_loss=0.196, loss_mean=0.289][A[A2026-01-27 04:08:19.892 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  16%|█▌        | 729/4533 [1:58:53<10:23:03,  9.83s/it, gpt_loss=0.316, loss_mean=0.292][A[A
+
+Train step of epoch 1:  16%|█▌        | 730/4533 [1:58:53<10:11:23,  9.65s/it, gpt_loss=0.316, loss_mean=0.292][A[A2026-01-27 04:08:29.582 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  16%|█▌        | 730/4533 [1:59:05<10:11:23,  9.65s/it, gpt_loss=0.327, loss_mean=0.295][A[A
+
+Train step of epoch 1:  16%|█▌        | 731/4533 [1:59:05<10:52:34, 10.30s/it, gpt_loss=0.327, loss_mean=0.295][A[A2026-01-27 04:08:41.390 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  16%|█▌        | 731/4533 [1:59:18<10:52:34, 10.30s/it, gpt_loss=0.331, loss_mean=0.299][A[A
+
+Train step of epoch 1:  16%|█▌        | 732/4533 [1:59:18<11:32:45, 10.94s/it, gpt_loss=0.331, loss_mean=0.299][A[A2026-01-27 04:08:53.653 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  16%|█▌        | 732/4533 [1:59:26<11:32:45, 10.94s/it, gpt_loss=0.248, loss_mean=0.294][A[A
+
+Train step of epoch 1:  16%|█▌        | 733/4533 [1:59:26<10:54:16, 10.33s/it, gpt_loss=0.248, loss_mean=0.294][A[A2026-01-27 04:09:02.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  16%|█▌        | 733/4533 [1:59:35<10:54:16, 10.33s/it, gpt_loss=0.249, loss_mean=0.289][A[A
+
+Train step of epoch 1:  16%|█▌        | 734/4533 [1:59:35<10:20:02,  9.79s/it, gpt_loss=0.249, loss_mean=0.289][A[A2026-01-27 04:09:11.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  16%|█▌        | 734/4533 [1:59:44<10:20:02,  9.79s/it, gpt_loss=0.232, loss_mean=0.284][A[A
+
+Train step of epoch 1:  16%|█▌        | 735/4533 [1:59:44<9:58:06,  9.45s/it, gpt_loss=0.232, loss_mean=0.284] [A[A2026-01-27 04:09:19.787 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  16%|█▌        | 735/4533 [1:59:56<9:58:06,  9.45s/it, gpt_loss=0.399, loss_mean=0.295][A[A
+
+Train step of epoch 1:  16%|█▌        | 736/4533 [1:59:56<10:44:08, 10.18s/it, gpt_loss=0.399, loss_mean=0.295][A[A
+[LID Router Debug] Step: 5270
+Batch Size: 14
+Audio Batch Size: 165
+LID Assignments: [0, 4, 4, 6, 4, 9, 3, 5, 5, 6, 2, 3, 3, 5]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-27 04:09:31.304 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  16%|█▌        | 736/4533 [2:00:04<10:44:08, 10.18s/it, gpt_loss=0.273, loss_mean=0.293][A[A
+
+Train step of epoch 1:  16%|█▋        | 737/4533 [2:00:04<10:14:35,  9.71s/it, gpt_loss=0.273, loss_mean=0.293][A[A2026-01-27 04:09:40.468 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  16%|█▋        | 737/4533 [2:00:14<10:14:35,  9.71s/it, gpt_loss=0.246, loss_mean=0.288][A[A
+
+Train step of epoch 1:  16%|█▋        | 738/4533 [2:00:14<10:15:24,  9.73s/it, gpt_loss=0.246, loss_mean=0.288][A[A2026-01-27 04:09:50.156 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  16%|█▋        | 738/4533 [2:00:23<10:15:24,  9.73s/it, gpt_loss=0.324, loss_mean=0.292][A[A
+
+Train step of epoch 1:  16%|█▋        | 739/4533 [2:00:23<10:00:01,  9.49s/it, gpt_loss=0.324, loss_mean=0.292][A[A2026-01-27 04:09:59.168 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  16%|█▋        | 739/4533 [2:00:35<10:00:01,  9.49s/it, gpt_loss=0.388, loss_mean=0.301][A[A
+
+Train step of epoch 1:  16%|█▋        | 740/4533 [2:00:35<10:46:16, 10.22s/it, gpt_loss=0.388, loss_mean=0.301][A[A2026-01-27 04:10:10.590 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  16%|█▋        | 740/4533 [2:00:46<10:46:16, 10.22s/it, gpt_loss=0.347, loss_mean=0.306][A[A
+
+Train step of epoch 1:  16%|█▋        | 741/4533 [2:00:46<11:10:40, 10.61s/it, gpt_loss=0.347, loss_mean=0.306][A[A2026-01-27 04:10:22.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  16%|█▋        | 741/4533 [2:00:55<11:10:40, 10.61s/it, gpt_loss=0.253, loss_mean=0.301][A[A
+
+Train step of epoch 1:  16%|█▋        | 742/4533 [2:00:55<10:34:14, 10.04s/it, gpt_loss=0.253, loss_mean=0.301][A[A2026-01-27 04:10:31.067 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  16%|█▋        | 742/4533 [2:01:04<10:34:14, 10.04s/it, gpt_loss=0.274, loss_mean=0.298][A[A
+
+Train step of epoch 1:  16%|█▋        | 743/4533 [2:01:04<10:11:38,  9.68s/it, gpt_loss=0.274, loss_mean=0.298][A[A2026-01-27 04:10:39.882 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  16%|█▋        | 743/4533 [2:01:12<10:11:38,  9.68s/it, gpt_loss=0.259, loss_mean=0.294][A[A
+
+Train step of epoch 1:  16%|█▋        | 744/4533 [2:01:12<9:51:38,  9.37s/it, gpt_loss=0.259, loss_mean=0.294] [A[A2026-01-27 04:10:48.677 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  16%|█▋        | 744/4533 [2:01:22<9:51:38,  9.37s/it, gpt_loss=0.216, loss_mean=0.286][A[A
+
+Train step of epoch 1:  16%|█▋        | 745/4533 [2:01:22<9:45:20,  9.27s/it, gpt_loss=0.216, loss_mean=0.286][A[A2026-01-27 04:10:57.273 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  16%|█▋        | 745/4533 [2:01:30<9:45:20,  9.27s/it, gpt_loss=0.271, loss_mean=0.285][A[A
+
+Train step of epoch 1:  16%|█▋        | 746/4533 [2:01:30<9:35:36,  9.12s/it, gpt_loss=0.271, loss_mean=0.285][A[A
+[LID Router Debug] Step: 5280
+Batch Size: 14
+Audio Batch Size: 121
+LID Assignments: [2, 1, 1, 9, 0, 1, 4, 9, 2, 9, 4, 5, 9, 2]
+Active Experts in Batch: {0, 1, 2, 4, 5, 9}
+2026-01-27 04:11:06.578 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  16%|█▋        | 746/4533 [2:01:40<9:35:36,  9.12s/it, gpt_loss=0.264, loss_mean=0.283][A[A
+
+Train step of epoch 1:  16%|█▋        | 747/4533 [2:01:40<9:42:16,  9.23s/it, gpt_loss=0.264, loss_mean=0.283][A[A2026-01-27 04:11:15.896 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  16%|█▋        | 747/4533 [2:01:49<9:42:16,  9.23s/it, gpt_loss=0.298, loss_mean=0.284][A[A
+
+Train step of epoch 1:  17%|█▋        | 748/4533 [2:01:49<9:48:11,  9.32s/it, gpt_loss=0.298, loss_mean=0.284][A[A2026-01-27 04:11:25.563 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  17%|█▋        | 748/4533 [2:01:59<9:48:11,  9.32s/it, gpt_loss=0.229, loss_mean=0.279][A[A
+
+Train step of epoch 1:  17%|█▋        | 749/4533 [2:01:59<9:54:58,  9.43s/it, gpt_loss=0.229, loss_mean=0.279][A[A2026-01-27 04:11:35.279 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  17%|█▋        | 749/4533 [2:02:11<9:54:58,  9.43s/it, gpt_loss=0.299, loss_mean=0.281][A[A
+
+Train step of epoch 1:  17%|█▋        | 750/4533 [2:02:11<10:40:50, 10.16s/it, gpt_loss=0.299, loss_mean=0.281][A[A2026-01-27 04:11:47.051 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  17%|█▋        | 750/4533 [2:02:21<10:40:50, 10.16s/it, gpt_loss=0.316, loss_mean=0.284][A[A
+
+Train step of epoch 1:  17%|█▋        | 751/4533 [2:02:21<10:37:17, 10.11s/it, gpt_loss=0.316, loss_mean=0.284][A[A2026-01-27 04:11:57.096 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  17%|█▋        | 751/4533 [2:02:30<10:37:17, 10.11s/it, gpt_loss=0.287, loss_mean=0.285][A[A
+
+Train step of epoch 1:  17%|█▋        | 752/4533 [2:02:30<10:14:14,  9.75s/it, gpt_loss=0.287, loss_mean=0.285][A[A2026-01-27 04:12:05.884 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  17%|█▋        | 752/4533 [2:02:41<10:14:14,  9.75s/it, gpt_loss=0.399, loss_mean=0.296][A[A
+
+Train step of epoch 1:  17%|█▋        | 753/4533 [2:02:41<10:51:12, 10.34s/it, gpt_loss=0.399, loss_mean=0.296][A[A2026-01-27 04:12:17.571 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  17%|█▋        | 753/4533 [2:02:50<10:51:12, 10.34s/it, gpt_loss=0.265, loss_mean=0.293][A[A
+
+Train step of epoch 1:  17%|█▋        | 754/4533 [2:02:50<10:21:27,  9.87s/it, gpt_loss=0.265, loss_mean=0.293][A[A2026-01-27 04:12:26.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  17%|█▋        | 754/4533 [2:03:00<10:21:27,  9.87s/it, gpt_loss=0.258, loss_mean=0.289][A[A
+
+Train step of epoch 1:  17%|█▋        | 755/4533 [2:03:00<10:19:12,  9.83s/it, gpt_loss=0.258, loss_mean=0.289][A[A2026-01-27 04:12:36.074 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  17%|█▋        | 755/4533 [2:03:09<10:19:12,  9.83s/it, gpt_loss=0.209, loss_mean=0.281][A[A
+
+Train step of epoch 1:  17%|█▋        | 756/4533 [2:03:09<9:58:25,  9.51s/it, gpt_loss=0.209, loss_mean=0.281] [A[A
+[LID Router Debug] Step: 5290
+Batch Size: 14
+Audio Batch Size: 139
+LID Assignments: [6, 1, 6, 1, 2, 6, 3, 6, 4, 9, 5, 3, 4, 1]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-27 04:12:44.592 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  17%|█▋        | 756/4533 [2:03:18<9:58:25,  9.51s/it, gpt_loss=0.295, loss_mean=0.283][A[A
+
+Train step of epoch 1:  17%|█▋        | 757/4533 [2:03:18<9:53:37,  9.43s/it, gpt_loss=0.295, loss_mean=0.283][A[A2026-01-27 04:12:54.358 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  17%|█▋        | 757/4533 [2:03:30<9:53:37,  9.43s/it, gpt_loss=0.399, loss_mean=0.294][A[A
+
+Train step of epoch 1:  17%|█▋        | 758/4533 [2:03:30<10:37:26, 10.13s/it, gpt_loss=0.399, loss_mean=0.294][A[A2026-01-27 04:13:06.004 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  17%|█▋        | 758/4533 [2:03:39<10:37:26, 10.13s/it, gpt_loss=0.271, loss_mean=0.292][A[A
+
+Train step of epoch 1:  17%|█▋        | 759/4533 [2:03:39<10:23:39,  9.92s/it, gpt_loss=0.271, loss_mean=0.292][A[A2026-01-27 04:13:15.474 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  17%|█▋        | 759/4533 [2:03:48<10:23:39,  9.92s/it, gpt_loss=0.306, loss_mean=0.293][A[A
+
+Train step of epoch 1:  17%|█▋        | 760/4533 [2:03:48<10:08:20,  9.67s/it, gpt_loss=0.306, loss_mean=0.293][A[A2026-01-27 04:13:24.186 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  17%|█▋        | 760/4533 [2:03:57<10:08:20,  9.67s/it, gpt_loss=0.321, loss_mean=0.296][A[A
+
+Train step of epoch 1:  17%|█▋        | 761/4533 [2:03:57<9:54:06,  9.45s/it, gpt_loss=0.321, loss_mean=0.296] [A[A2026-01-27 04:13:33.476 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  17%|█▋        | 761/4533 [2:04:09<9:54:06,  9.45s/it, gpt_loss=0.339, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  17%|█▋        | 762/4533 [2:04:09<10:38:27, 10.16s/it, gpt_loss=0.339, loss_mean=0.3][A[A2026-01-27 04:13:45.373 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  17%|█▋        | 762/4533 [2:04:19<10:38:27, 10.16s/it, gpt_loss=0.23, loss_mean=0.293][A[A
+
+Train step of epoch 1:  17%|█▋        | 763/4533 [2:04:19<10:31:53, 10.06s/it, gpt_loss=0.23, loss_mean=0.293][A[A2026-01-27 04:13:54.690 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  17%|█▋        | 763/4533 [2:04:28<10:31:53, 10.06s/it, gpt_loss=0.267, loss_mean=0.291][A[A
+
+Train step of epoch 1:  17%|█▋        | 764/4533 [2:04:28<10:17:12,  9.83s/it, gpt_loss=0.267, loss_mean=0.291][A[A2026-01-27 04:14:04.272 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  17%|█▋        | 764/4533 [2:04:37<10:17:12,  9.83s/it, gpt_loss=0.306, loss_mean=0.292][A[A
+
+Train step of epoch 1:  17%|█▋        | 765/4533 [2:04:37<10:02:43,  9.60s/it, gpt_loss=0.306, loss_mean=0.292][A[A2026-01-27 04:14:13.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  17%|█▋        | 765/4533 [2:04:49<10:02:43,  9.60s/it, gpt_loss=0.307, loss_mean=0.294][A[A
+
+Train step of epoch 1:  17%|█▋        | 766/4533 [2:04:49<10:43:10, 10.24s/it, gpt_loss=0.307, loss_mean=0.294][A[A
+[LID Router Debug] Step: 5300
+Batch Size: 14
+Audio Batch Size: 184
+LID Assignments: [3, 3, 2, 2, 1, 0, 3, 9, 9, 3, 2, 1, 9, 5]
+Active Experts in Batch: {0, 1, 2, 3, 5, 9}
+2026-01-27 04:14:24.999 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+[2026-01-27 04:14:33,451] [INFO] [logging.py:96:log_dist] [Rank 0] step=5300, skipped=0, lr=[1.3576743580555024e-05, 1.3576743580555024e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 04:14:33,452] [INFO] [timer.py:260:stop] epoch=0/micro_step=5300/global_step=5300, RunningAvgSamplesPerSec=5.729424883830746, CurrSamplesPerSec=6.247896225364635, MemAllocated=14.78GB, MaxMemAllocated=53.98GB
+
+
+Train step of epoch 1:  17%|█▋        | 766/4533 [2:04:58<10:43:10, 10.24s/it, gpt_loss=0.25, loss_mean=0.289] [A[A
+
+Train step of epoch 1:  17%|█▋        | 767/4533 [2:04:58<10:19:15,  9.87s/it, gpt_loss=0.25, loss_mean=0.289][A[A2026-01-27 04:14:33.966 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  17%|█▋        | 767/4533 [2:05:10<10:19:15,  9.87s/it, gpt_loss=0.377, loss_mean=0.298][A[A
+
+Train step of epoch 1:  17%|█▋        | 768/4533 [2:05:10<10:55:36, 10.45s/it, gpt_loss=0.377, loss_mean=0.298][A[A2026-01-27 04:14:45.864 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  17%|█▋        | 768/4533 [2:05:19<10:55:36, 10.45s/it, gpt_loss=0.291, loss_mean=0.297][A[A
+
+Train step of epoch 1:  17%|█▋        | 769/4533 [2:05:19<10:40:18, 10.21s/it, gpt_loss=0.291, loss_mean=0.297][A[A2026-01-27 04:14:55.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  17%|█▋        | 769/4533 [2:05:31<10:40:18, 10.21s/it, gpt_loss=0.354, loss_mean=0.303][A[A
+
+Train step of epoch 1:  17%|█▋        | 770/4533 [2:05:31<11:05:12, 10.61s/it, gpt_loss=0.354, loss_mean=0.303][A[A2026-01-27 04:15:06.587 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  17%|█▋        | 770/4533 [2:05:39<11:05:12, 10.61s/it, gpt_loss=0.327, loss_mean=0.305][A[A
+
+Train step of epoch 1:  17%|█▋        | 771/4533 [2:05:39<10:21:49,  9.92s/it, gpt_loss=0.327, loss_mean=0.305][A[A2026-01-27 04:15:15.480 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  17%|█▋        | 771/4533 [2:05:48<10:21:49,  9.92s/it, gpt_loss=0.297, loss_mean=0.305][A[A
+
+Train step of epoch 1:  17%|█▋        | 772/4533 [2:05:48<10:05:14,  9.66s/it, gpt_loss=0.297, loss_mean=0.305][A[A2026-01-27 04:15:24.494 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  17%|█▋        | 772/4533 [2:05:58<10:05:14,  9.66s/it, gpt_loss=0.295, loss_mean=0.304][A[A
+
+Train step of epoch 1:  17%|█▋        | 773/4533 [2:05:58<10:01:30,  9.60s/it, gpt_loss=0.295, loss_mean=0.304][A[A2026-01-27 04:15:34.058 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  17%|█▋        | 773/4533 [2:06:07<10:01:30,  9.60s/it, gpt_loss=0.274, loss_mean=0.301][A[A
+
+Train step of epoch 1:  17%|█▋        | 774/4533 [2:06:07<9:48:46,  9.40s/it, gpt_loss=0.274, loss_mean=0.301] [A[A2026-01-27 04:15:42.971 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  17%|█▋        | 774/4533 [2:06:19<9:48:46,  9.40s/it, gpt_loss=0.327, loss_mean=0.303][A[A
+
+Train step of epoch 1:  17%|█▋        | 775/4533 [2:06:19<10:39:35, 10.21s/it, gpt_loss=0.327, loss_mean=0.303][A[A2026-01-27 04:15:54.977 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  17%|█▋        | 775/4533 [2:06:31<10:39:35, 10.21s/it, gpt_loss=0.326, loss_mean=0.306][A[A
+
+Train step of epoch 1:  17%|█▋        | 776/4533 [2:06:31<11:11:09, 10.72s/it, gpt_loss=0.326, loss_mean=0.306][A[A
+[LID Router Debug] Step: 5310
+Batch Size: 14
+Audio Batch Size: 151
+LID Assignments: [3, 5, 9, 4, 5, 3, 1, 9, 9, 4, 0, 0, 9, 1]
+Active Experts in Batch: {0, 1, 3, 4, 5, 9}
+2026-01-27 04:16:06.976 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  17%|█▋        | 776/4533 [2:06:43<11:11:09, 10.72s/it, gpt_loss=0.303, loss_mean=0.305][A[A
+
+Train step of epoch 1:  17%|█▋        | 777/4533 [2:06:43<11:33:56, 11.09s/it, gpt_loss=0.303, loss_mean=0.305][A[A2026-01-27 04:16:18.856 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  17%|█▋        | 777/4533 [2:06:52<11:33:56, 11.09s/it, gpt_loss=0.279, loss_mean=0.303][A[A
+
+Train step of epoch 1:  17%|█▋        | 778/4533 [2:06:52<10:58:38, 10.52s/it, gpt_loss=0.279, loss_mean=0.303][A[A2026-01-27 04:16:27.793 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  17%|█▋        | 778/4533 [2:07:01<10:58:38, 10.52s/it, gpt_loss=0.291, loss_mean=0.301][A[A
+
+Train step of epoch 1:  17%|█▋        | 779/4533 [2:07:01<10:24:04,  9.97s/it, gpt_loss=0.291, loss_mean=0.301][A[A2026-01-27 04:16:36.665 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  17%|█▋        | 779/4533 [2:07:12<10:24:04,  9.97s/it, gpt_loss=0.302, loss_mean=0.302][A[A
+
+Train step of epoch 1:  17%|█▋        | 780/4533 [2:07:12<10:58:59, 10.54s/it, gpt_loss=0.302, loss_mean=0.302][A[A2026-01-27 04:16:48.501 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  17%|█▋        | 780/4533 [2:07:22<10:58:59, 10.54s/it, gpt_loss=0.309, loss_mean=0.302][A[A
+
+Train step of epoch 1:  17%|█▋        | 781/4533 [2:07:22<10:43:28, 10.29s/it, gpt_loss=0.309, loss_mean=0.302][A[A2026-01-27 04:16:57.966 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  17%|█▋        | 781/4533 [2:07:33<10:43:28, 10.29s/it, gpt_loss=0.362, loss_mean=0.308][A[A
+
+Train step of epoch 1:  17%|█▋        | 782/4533 [2:07:33<11:00:56, 10.57s/it, gpt_loss=0.362, loss_mean=0.308][A[A2026-01-27 04:17:09.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  17%|█▋        | 782/4533 [2:07:42<11:00:56, 10.57s/it, gpt_loss=0.265, loss_mean=0.304][A[A
+
+Train step of epoch 1:  17%|█▋        | 783/4533 [2:07:42<10:27:05, 10.03s/it, gpt_loss=0.265, loss_mean=0.304][A[A2026-01-27 04:17:18.302 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  17%|█▋        | 783/4533 [2:07:51<10:27:05, 10.03s/it, gpt_loss=0.228, loss_mean=0.296][A[A
+
+Train step of epoch 1:  17%|█▋        | 784/4533 [2:07:51<10:03:27,  9.66s/it, gpt_loss=0.228, loss_mean=0.296][A[A2026-01-27 04:17:27.166 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  17%|█▋        | 784/4533 [2:08:03<10:03:27,  9.66s/it, gpt_loss=0.342, loss_mean=0.301][A[A
+
+Train step of epoch 1:  17%|█▋        | 785/4533 [2:08:03<10:47:38, 10.37s/it, gpt_loss=0.342, loss_mean=0.301][A[A2026-01-27 04:17:38.973 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  17%|█▋        | 785/4533 [2:08:12<10:47:38, 10.37s/it, gpt_loss=0.28, loss_mean=0.299] [A[A
+
+Train step of epoch 1:  17%|█▋        | 786/4533 [2:08:12<10:16:36,  9.87s/it, gpt_loss=0.28, loss_mean=0.299][A[A
+[LID Router Debug] Step: 5320
+Batch Size: 14
+Audio Batch Size: 112
+LID Assignments: [1, 4, 1, 4, 6, 5, 1, 9, 5, 2, 0, 5, 5, 0]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-27 04:17:47.956 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  17%|█▋        | 786/4533 [2:08:24<10:16:36,  9.87s/it, gpt_loss=0.319, loss_mean=0.301][A[A
+
+Train step of epoch 1:  17%|█▋        | 787/4533 [2:08:24<10:59:14, 10.56s/it, gpt_loss=0.319, loss_mean=0.301][A[A2026-01-27 04:17:59.892 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  17%|█▋        | 787/4533 [2:08:33<10:59:14, 10.56s/it, gpt_loss=0.297, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  17%|█▋        | 788/4533 [2:08:33<10:32:34, 10.13s/it, gpt_loss=0.297, loss_mean=0.3][A[A2026-01-27 04:18:09.091 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  17%|█▋        | 788/4533 [2:08:45<10:32:34, 10.13s/it, gpt_loss=0.336, loss_mean=0.304][A[A
+
+Train step of epoch 1:  17%|█▋        | 789/4533 [2:08:45<11:02:45, 10.62s/it, gpt_loss=0.336, loss_mean=0.304][A[A2026-01-27 04:18:20.962 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  17%|█▋        | 789/4533 [2:08:57<11:02:45, 10.62s/it, gpt_loss=0.393, loss_mean=0.313][A[A
+
+Train step of epoch 1:  17%|█▋        | 790/4533 [2:08:57<11:36:19, 11.16s/it, gpt_loss=0.393, loss_mean=0.313][A[A2026-01-27 04:18:33.155 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  17%|█▋        | 790/4533 [2:09:06<11:36:19, 11.16s/it, gpt_loss=0.259, loss_mean=0.308][A[A
+
+Train step of epoch 1:  17%|█▋        | 791/4533 [2:09:06<10:50:54, 10.44s/it, gpt_loss=0.259, loss_mean=0.308][A[A2026-01-27 04:18:41.590 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  17%|█▋        | 791/4533 [2:09:14<10:50:54, 10.44s/it, gpt_loss=0.27, loss_mean=0.304] [A[A
+
+Train step of epoch 1:  17%|█▋        | 792/4533 [2:09:14<10:11:35,  9.81s/it, gpt_loss=0.27, loss_mean=0.304][A[A2026-01-27 04:18:50.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  17%|█▋        | 792/4533 [2:09:23<10:11:35,  9.81s/it, gpt_loss=0.285, loss_mean=0.302][A[A
+
+Train step of epoch 1:  17%|█▋        | 793/4533 [2:09:23<9:57:16,  9.58s/it, gpt_loss=0.285, loss_mean=0.302] [A[A2026-01-27 04:18:59.489 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  17%|█▋        | 793/4533 [2:09:32<9:57:16,  9.58s/it, gpt_loss=0.301, loss_mean=0.302][A[A
+
+Train step of epoch 1:  18%|█▊        | 794/4533 [2:09:32<9:43:41,  9.37s/it, gpt_loss=0.301, loss_mean=0.302][A[A2026-01-27 04:19:08.271 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  18%|█▊        | 794/4533 [2:09:41<9:43:41,  9.37s/it, gpt_loss=0.23, loss_mean=0.295] [A[A
+
+Train step of epoch 1:  18%|█▊        | 795/4533 [2:09:41<9:32:02,  9.18s/it, gpt_loss=0.23, loss_mean=0.295][A[A2026-01-27 04:19:16.789 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  18%|█▊        | 795/4533 [2:09:52<9:32:02,  9.18s/it, gpt_loss=0.335, loss_mean=0.299][A[A
+
+Train step of epoch 1:  18%|█▊        | 796/4533 [2:09:52<10:14:39,  9.87s/it, gpt_loss=0.335, loss_mean=0.299][A[A
+[LID Router Debug] Step: 5330
+Batch Size: 14
+Audio Batch Size: 131
+LID Assignments: [1, 9, 5, 1, 9, 3, 0, 4, 1, 2, 5, 2, 9, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 04:19:28.359 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  18%|█▊        | 796/4533 [2:10:01<10:14:39,  9.87s/it, gpt_loss=0.254, loss_mean=0.294][A[A
+
+Train step of epoch 1:  18%|█▊        | 797/4533 [2:10:01<9:51:42,  9.50s/it, gpt_loss=0.254, loss_mean=0.294] [A[A2026-01-27 04:19:37.151 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  18%|█▊        | 797/4533 [2:10:13<9:51:42,  9.50s/it, gpt_loss=0.368, loss_mean=0.302][A[A
+
+Train step of epoch 1:  18%|█▊        | 798/4533 [2:10:13<10:40:23, 10.29s/it, gpt_loss=0.368, loss_mean=0.302][A[A2026-01-27 04:19:49.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  18%|█▊        | 798/4533 [2:10:22<10:40:23, 10.29s/it, gpt_loss=0.267, loss_mean=0.298][A[A
+
+Train step of epoch 1:  18%|█▊        | 799/4533 [2:10:22<10:13:58,  9.87s/it, gpt_loss=0.267, loss_mean=0.298][A[A2026-01-27 04:19:58.088 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  18%|█▊        | 799/4533 [2:10:31<10:13:58,  9.87s/it, gpt_loss=0.207, loss_mean=0.289][A[A
+
+Train step of epoch 1:  18%|█▊        | 800/4533 [2:10:31<9:55:23,  9.57s/it, gpt_loss=0.207, loss_mean=0.289] [A[A2026-01-27 04:20:06.777 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  18%|█▊        | 800/4533 [2:10:39<9:55:23,  9.57s/it, gpt_loss=0.274, loss_mean=0.287][A[A
+
+Train step of epoch 1:  18%|█▊        | 801/4533 [2:10:39<9:34:08,  9.23s/it, gpt_loss=0.274, loss_mean=0.287][A[A2026-01-27 04:20:15.476 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  18%|█▊        | 801/4533 [2:10:51<9:34:08,  9.23s/it, gpt_loss=0.34, loss_mean=0.293] [A[A
+
+Train step of epoch 1:  18%|█▊        | 802/4533 [2:10:51<10:22:53, 10.02s/it, gpt_loss=0.34, loss_mean=0.293][A[A2026-01-27 04:20:27.259 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  18%|█▊        | 802/4533 [2:11:00<10:22:53, 10.02s/it, gpt_loss=0.277, loss_mean=0.291][A[A
+
+Train step of epoch 1:  18%|█▊        | 803/4533 [2:11:00<9:55:05,  9.57s/it, gpt_loss=0.277, loss_mean=0.291] [A[A2026-01-27 04:20:35.892 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  18%|█▊        | 803/4533 [2:11:12<9:55:05,  9.57s/it, gpt_loss=0.431, loss_mean=0.305][A[A
+
+Train step of epoch 1:  18%|█▊        | 804/4533 [2:11:12<10:41:25, 10.32s/it, gpt_loss=0.431, loss_mean=0.305][A[A2026-01-27 04:20:47.954 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  18%|█▊        | 804/4533 [2:11:21<10:41:25, 10.32s/it, gpt_loss=0.348, loss_mean=0.309][A[A
+
+Train step of epoch 1:  18%|█▊        | 805/4533 [2:11:21<10:13:22,  9.87s/it, gpt_loss=0.348, loss_mean=0.309][A[A2026-01-27 04:20:56.562 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  18%|█▊        | 805/4533 [2:11:30<10:13:22,  9.87s/it, gpt_loss=0.243, loss_mean=0.303][A[A
+
+Train step of epoch 1:  18%|█▊        | 806/4533 [2:11:30<10:02:47,  9.70s/it, gpt_loss=0.243, loss_mean=0.303][A[A
+[LID Router Debug] Step: 5340
+Batch Size: 14
+Audio Batch Size: 127
+LID Assignments: [0, 0, 4, 5, 6, 9, 0, 0, 3, 0, 2, 2, 1, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 04:21:06.167 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  18%|█▊        | 806/4533 [2:11:40<10:02:47,  9.70s/it, gpt_loss=0.313, loss_mean=0.304][A[A
+
+Train step of epoch 1:  18%|█▊        | 807/4533 [2:11:40<10:03:20,  9.72s/it, gpt_loss=0.313, loss_mean=0.304][A[A2026-01-27 04:21:15.888 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  18%|█▊        | 807/4533 [2:11:49<10:03:20,  9.72s/it, gpt_loss=0.261, loss_mean=0.299][A[A
+
+Train step of epoch 1:  18%|█▊        | 808/4533 [2:11:49<9:50:00,  9.50s/it, gpt_loss=0.261, loss_mean=0.299] [A[A2026-01-27 04:21:24.899 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  18%|█▊        | 808/4533 [2:11:58<9:50:00,  9.50s/it, gpt_loss=0.312, loss_mean=0.301][A[A
+
+Train step of epoch 1:  18%|█▊        | 809/4533 [2:11:58<9:54:35,  9.58s/it, gpt_loss=0.312, loss_mean=0.301][A[A2026-01-27 04:21:34.185 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  18%|█▊        | 809/4533 [2:12:08<9:54:35,  9.58s/it, gpt_loss=0.331, loss_mean=0.304][A[A
+
+Train step of epoch 1:  18%|█▊        | 810/4533 [2:12:08<9:51:59,  9.54s/it, gpt_loss=0.331, loss_mean=0.304][A[A2026-01-27 04:21:44.069 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  18%|█▊        | 810/4533 [2:12:18<9:51:59,  9.54s/it, gpt_loss=0.268, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  18%|█▊        | 811/4533 [2:12:18<9:58:00,  9.64s/it, gpt_loss=0.268, loss_mean=0.3][A[A2026-01-27 04:21:53.770 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  18%|█▊        | 811/4533 [2:12:27<9:58:00,  9.64s/it, gpt_loss=0.272, loss_mean=0.297][A[A
+
+Train step of epoch 1:  18%|█▊        | 812/4533 [2:12:27<9:43:58,  9.42s/it, gpt_loss=0.272, loss_mean=0.297][A[A2026-01-27 04:22:02.971 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  18%|█▊        | 812/4533 [2:12:36<9:43:58,  9.42s/it, gpt_loss=0.253, loss_mean=0.293][A[A
+
+Train step of epoch 1:  18%|█▊        | 813/4533 [2:12:36<9:38:20,  9.33s/it, gpt_loss=0.253, loss_mean=0.293][A[A2026-01-27 04:22:12.002 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  18%|█▊        | 813/4533 [2:12:46<9:38:20,  9.33s/it, gpt_loss=0.353, loss_mean=0.299][A[A
+
+Train step of epoch 1:  18%|█▊        | 814/4533 [2:12:46<9:47:49,  9.48s/it, gpt_loss=0.353, loss_mean=0.299][A[A2026-01-27 04:22:21.887 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  18%|█▊        | 814/4533 [2:12:55<9:47:49,  9.48s/it, gpt_loss=0.289, loss_mean=0.298][A[A
+
+Train step of epoch 1:  18%|█▊        | 815/4533 [2:12:55<9:51:28,  9.55s/it, gpt_loss=0.289, loss_mean=0.298][A[A2026-01-27 04:22:31.555 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  18%|█▊        | 815/4533 [2:13:07<9:51:28,  9.55s/it, gpt_loss=0.341, loss_mean=0.302][A[A
+
+Train step of epoch 1:  18%|█▊        | 816/4533 [2:13:07<10:36:49, 10.28s/it, gpt_loss=0.341, loss_mean=0.302][A[A
+[LID Router Debug] Step: 5350
+Batch Size: 14
+Audio Batch Size: 166
+LID Assignments: [0, 3, 5, 9, 1, 2, 0, 6, 3, 3, 4, 3, 1, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 04:22:43.470 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  18%|█▊        | 816/4533 [2:13:17<10:36:49, 10.28s/it, gpt_loss=0.302, loss_mean=0.302][A[A
+
+Train step of epoch 1:  18%|█▊        | 817/4533 [2:13:17<10:25:26, 10.10s/it, gpt_loss=0.302, loss_mean=0.302][A[A2026-01-27 04:22:52.991 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  18%|█▊        | 817/4533 [2:13:29<10:25:26, 10.10s/it, gpt_loss=0.41, loss_mean=0.313] [A[A
+
+Train step of epoch 1:  18%|█▊        | 818/4533 [2:13:29<10:55:27, 10.59s/it, gpt_loss=0.41, loss_mean=0.313][A[A2026-01-27 04:23:04.960 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  18%|█▊        | 818/4533 [2:13:38<10:55:27, 10.59s/it, gpt_loss=0.288, loss_mean=0.31][A[A
+
+Train step of epoch 1:  18%|█▊        | 819/4533 [2:13:38<10:39:04, 10.32s/it, gpt_loss=0.288, loss_mean=0.31][A[A2026-01-27 04:23:14.457 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  18%|█▊        | 819/4533 [2:13:48<10:39:04, 10.32s/it, gpt_loss=0.314, loss_mean=0.311][A[A
+
+Train step of epoch 1:  18%|█▊        | 820/4533 [2:13:48<10:22:52, 10.07s/it, gpt_loss=0.314, loss_mean=0.311][A[A2026-01-27 04:23:23.427 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  18%|█▊        | 820/4533 [2:13:57<10:22:52, 10.07s/it, gpt_loss=0.309, loss_mean=0.311][A[A
+
+Train step of epoch 1:  18%|█▊        | 821/4533 [2:13:57<9:56:59,  9.65s/it, gpt_loss=0.309, loss_mean=0.311] [A[A2026-01-27 04:23:32.470 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  18%|█▊        | 821/4533 [2:14:05<9:56:59,  9.65s/it, gpt_loss=0.295, loss_mean=0.309][A[A
+
+Train step of epoch 1:  18%|█▊        | 822/4533 [2:14:05<9:42:29,  9.42s/it, gpt_loss=0.295, loss_mean=0.309][A[A2026-01-27 04:23:41.668 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  18%|█▊        | 822/4533 [2:14:15<9:42:29,  9.42s/it, gpt_loss=0.298, loss_mean=0.308][A[A
+
+Train step of epoch 1:  18%|█▊        | 823/4533 [2:14:15<9:37:41,  9.34s/it, gpt_loss=0.298, loss_mean=0.308][A[A2026-01-27 04:23:50.700 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  18%|█▊        | 823/4533 [2:14:24<9:37:41,  9.34s/it, gpt_loss=0.231, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  18%|█▊        | 824/4533 [2:14:24<9:30:19,  9.23s/it, gpt_loss=0.231, loss_mean=0.3][A[A2026-01-27 04:23:59.684 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  18%|█▊        | 824/4533 [2:14:32<9:30:19,  9.23s/it, gpt_loss=0.302, loss_mean=0.301][A[A
+
+Train step of epoch 1:  18%|█▊        | 825/4533 [2:14:32<9:22:47,  9.11s/it, gpt_loss=0.302, loss_mean=0.301][A[A2026-01-27 04:24:08.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  18%|█▊        | 825/4533 [2:14:44<9:22:47,  9.11s/it, gpt_loss=0.318, loss_mean=0.302][A[A
+
+Train step of epoch 1:  18%|█▊        | 826/4533 [2:14:44<10:05:49,  9.81s/it, gpt_loss=0.318, loss_mean=0.302][A[A
+[LID Router Debug] Step: 5360
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [0, 3, 2, 5, 9, 4, 5, 5, 0, 0, 0, 0, 1, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 04:24:19.966 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  18%|█▊        | 826/4533 [2:14:53<10:05:49,  9.81s/it, gpt_loss=0.256, loss_mean=0.298][A[A
+
+Train step of epoch 1:  18%|█▊        | 827/4533 [2:14:53<9:53:31,  9.61s/it, gpt_loss=0.256, loss_mean=0.298] [A[A2026-01-27 04:24:28.983 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  18%|█▊        | 827/4533 [2:15:02<9:53:31,  9.61s/it, gpt_loss=0.328, loss_mean=0.301][A[A
+
+Train step of epoch 1:  18%|█▊        | 828/4533 [2:15:02<9:50:02,  9.56s/it, gpt_loss=0.328, loss_mean=0.301][A[A2026-01-27 04:24:38.594 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  18%|█▊        | 828/4533 [2:15:12<9:50:02,  9.56s/it, gpt_loss=0.258, loss_mean=0.296][A[A
+
+Train step of epoch 1:  18%|█▊        | 829/4533 [2:15:12<9:47:51,  9.52s/it, gpt_loss=0.258, loss_mean=0.296][A[A2026-01-27 04:24:47.661 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  18%|█▊        | 829/4533 [2:15:23<9:47:51,  9.52s/it, gpt_loss=0.306, loss_mean=0.297][A[A
+
+Train step of epoch 1:  18%|█▊        | 830/4533 [2:15:23<10:27:12, 10.16s/it, gpt_loss=0.306, loss_mean=0.297][A[A2026-01-27 04:24:59.765 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  18%|█▊        | 830/4533 [2:15:32<10:27:12, 10.16s/it, gpt_loss=0.253, loss_mean=0.293][A[A
+
+Train step of epoch 1:  18%|█▊        | 831/4533 [2:15:32<10:04:50,  9.80s/it, gpt_loss=0.253, loss_mean=0.293][A[A2026-01-27 04:25:08.702 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  18%|█▊        | 831/4533 [2:15:42<10:04:50,  9.80s/it, gpt_loss=0.257, loss_mean=0.289][A[A
+
+Train step of epoch 1:  18%|█▊        | 832/4533 [2:15:42<9:52:19,  9.60s/it, gpt_loss=0.257, loss_mean=0.289] [A[A2026-01-27 04:25:17.574 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  18%|█▊        | 832/4533 [2:15:50<9:52:19,  9.60s/it, gpt_loss=0.291, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  18%|█▊        | 833/4533 [2:15:50<9:34:36,  9.32s/it, gpt_loss=0.291, loss_mean=0.29][A[A2026-01-27 04:25:26.570 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  18%|█▊        | 833/4533 [2:16:00<9:34:36,  9.32s/it, gpt_loss=0.238, loss_mean=0.284][A[A
+
+Train step of epoch 1:  18%|█▊        | 834/4533 [2:16:00<9:37:45,  9.37s/it, gpt_loss=0.238, loss_mean=0.284][A[A2026-01-27 04:25:36.075 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  18%|█▊        | 834/4533 [2:16:09<9:37:45,  9.37s/it, gpt_loss=0.205, loss_mean=0.276][A[A
+
+Train step of epoch 1:  18%|█▊        | 835/4533 [2:16:09<9:41:22,  9.43s/it, gpt_loss=0.205, loss_mean=0.276][A[A2026-01-27 04:25:44.993 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  18%|█▊        | 835/4533 [2:16:18<9:41:22,  9.43s/it, gpt_loss=0.278, loss_mean=0.277][A[A
+
+Train step of epoch 1:  18%|█▊        | 836/4533 [2:16:18<9:27:05,  9.20s/it, gpt_loss=0.278, loss_mean=0.277][A[A
+[LID Router Debug] Step: 5370
+Batch Size: 14
+Audio Batch Size: 218
+LID Assignments: [3, 2, 3, 9, 3, 9, 9, 6, 1, 0, 2, 9, 3, 2]
+Active Experts in Batch: {0, 1, 2, 3, 6, 9}
+2026-01-27 04:25:54.195 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  18%|█▊        | 836/4533 [2:16:27<9:27:05,  9.20s/it, gpt_loss=0.249, loss_mean=0.274][A[A
+
+Train step of epoch 1:  18%|█▊        | 837/4533 [2:16:27<9:29:35,  9.25s/it, gpt_loss=0.249, loss_mean=0.274][A[A2026-01-27 04:26:03.653 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  18%|█▊        | 837/4533 [2:16:36<9:29:35,  9.25s/it, gpt_loss=0.297, loss_mean=0.276][A[A
+
+Train step of epoch 1:  18%|█▊        | 838/4533 [2:16:36<9:23:25,  9.15s/it, gpt_loss=0.297, loss_mean=0.276][A[A2026-01-27 04:26:12.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  18%|█▊        | 838/4533 [2:16:48<9:23:25,  9.15s/it, gpt_loss=0.309, loss_mean=0.279][A[A
+
+Train step of epoch 1:  19%|█▊        | 839/4533 [2:16:48<10:13:20,  9.96s/it, gpt_loss=0.309, loss_mean=0.279][A[A2026-01-27 04:26:24.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  19%|█▊        | 839/4533 [2:16:57<10:13:20,  9.96s/it, gpt_loss=0.292, loss_mean=0.281][A[A
+
+Train step of epoch 1:  19%|█▊        | 840/4533 [2:16:57<9:52:08,  9.62s/it, gpt_loss=0.292, loss_mean=0.281] [A[A2026-01-27 04:26:33.178 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  19%|█▊        | 840/4533 [2:17:06<9:52:08,  9.62s/it, gpt_loss=0.305, loss_mean=0.283][A[A
+
+Train step of epoch 1:  19%|█▊        | 841/4533 [2:17:06<9:41:10,  9.44s/it, gpt_loss=0.305, loss_mean=0.283][A[A2026-01-27 04:26:42.090 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  19%|█▊        | 841/4533 [2:17:15<9:41:10,  9.44s/it, gpt_loss=0.228, loss_mean=0.278][A[A
+
+Train step of epoch 1:  19%|█▊        | 842/4533 [2:17:15<9:27:07,  9.22s/it, gpt_loss=0.228, loss_mean=0.278][A[A2026-01-27 04:26:50.788 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  19%|█▊        | 842/4533 [2:17:27<9:27:07,  9.22s/it, gpt_loss=0.379, loss_mean=0.288][A[A
+
+Train step of epoch 1:  19%|█▊        | 843/4533 [2:17:27<10:16:31, 10.02s/it, gpt_loss=0.379, loss_mean=0.288][A[A2026-01-27 04:27:02.389 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  19%|█▊        | 843/4533 [2:17:35<10:16:31, 10.02s/it, gpt_loss=0.29, loss_mean=0.288] [A[A
+
+Train step of epoch 1:  19%|█▊        | 844/4533 [2:17:35<9:56:13,  9.70s/it, gpt_loss=0.29, loss_mean=0.288] [A[A2026-01-27 04:27:11.790 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  19%|█▊        | 844/4533 [2:17:44<9:56:13,  9.70s/it, gpt_loss=0.273, loss_mean=0.286][A[A
+
+Train step of epoch 1:  19%|█▊        | 845/4533 [2:17:44<9:40:11,  9.44s/it, gpt_loss=0.273, loss_mean=0.286][A[A2026-01-27 04:27:20.187 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  19%|█▊        | 845/4533 [2:17:54<9:40:11,  9.44s/it, gpt_loss=0.195, loss_mean=0.277][A[A
+
+Train step of epoch 1:  19%|█▊        | 846/4533 [2:17:54<9:40:40,  9.45s/it, gpt_loss=0.195, loss_mean=0.277][A[A
+[LID Router Debug] Step: 5380
+Batch Size: 14
+Audio Batch Size: 133
+LID Assignments: [1, 1, 0, 3, 1, 5, 1, 3, 4, 1, 0, 2, 5, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5}
+2026-01-27 04:27:30.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  19%|█▊        | 846/4533 [2:18:03<9:40:40,  9.45s/it, gpt_loss=0.212, loss_mean=0.271][A[A
+
+Train step of epoch 1:  19%|█▊        | 847/4533 [2:18:03<9:29:23,  9.27s/it, gpt_loss=0.212, loss_mean=0.271][A[A2026-01-27 04:27:38.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  19%|█▊        | 847/4533 [2:18:14<9:29:23,  9.27s/it, gpt_loss=0.434, loss_mean=0.287][A[A
+
+Train step of epoch 1:  19%|█▊        | 848/4533 [2:18:14<10:14:00, 10.00s/it, gpt_loss=0.434, loss_mean=0.287][A[A2026-01-27 04:27:50.579 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  19%|█▊        | 848/4533 [2:18:23<10:14:00, 10.00s/it, gpt_loss=0.267, loss_mean=0.285][A[A
+
+Train step of epoch 1:  19%|█▊        | 849/4533 [2:18:23<9:50:59,  9.63s/it, gpt_loss=0.267, loss_mean=0.285] [A[A2026-01-27 04:27:59.085 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  19%|█▊        | 849/4533 [2:18:32<9:50:59,  9.63s/it, gpt_loss=0.184, loss_mean=0.275][A[A
+
+Train step of epoch 1:  19%|█▉        | 850/4533 [2:18:32<9:40:01,  9.45s/it, gpt_loss=0.184, loss_mean=0.275][A[A2026-01-27 04:28:07.992 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  19%|█▉        | 850/4533 [2:18:42<9:40:01,  9.45s/it, gpt_loss=0.252, loss_mean=0.273][A[A
+
+Train step of epoch 1:  19%|█▉        | 851/4533 [2:18:42<9:38:27,  9.43s/it, gpt_loss=0.252, loss_mean=0.273][A[A2026-01-27 04:28:17.669 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  19%|█▉        | 851/4533 [2:18:53<9:38:27,  9.43s/it, gpt_loss=0.367, loss_mean=0.282][A[A
+
+Train step of epoch 1:  19%|█▉        | 852/4533 [2:18:53<10:21:45, 10.13s/it, gpt_loss=0.367, loss_mean=0.282][A[A2026-01-27 04:28:29.360 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  19%|█▉        | 852/4533 [2:19:03<10:21:45, 10.13s/it, gpt_loss=0.264, loss_mean=0.28] [A[A
+
+Train step of epoch 1:  19%|█▉        | 853/4533 [2:19:03<10:09:25,  9.94s/it, gpt_loss=0.264, loss_mean=0.28][A[A2026-01-27 04:28:38.468 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  19%|█▉        | 853/4533 [2:19:11<10:09:25,  9.94s/it, gpt_loss=0.337, loss_mean=0.286][A[A
+
+Train step of epoch 1:  19%|█▉        | 854/4533 [2:19:11<9:36:28,  9.40s/it, gpt_loss=0.337, loss_mean=0.286] [A[A2026-01-27 04:28:47.179 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  19%|█▉        | 854/4533 [2:19:20<9:36:28,  9.40s/it, gpt_loss=0.255, loss_mean=0.283][A[A
+
+Train step of epoch 1:  19%|█▉        | 855/4533 [2:19:20<9:31:58,  9.33s/it, gpt_loss=0.255, loss_mean=0.283][A[A2026-01-27 04:28:56.286 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  19%|█▉        | 855/4533 [2:19:32<9:31:58,  9.33s/it, gpt_loss=0.277, loss_mean=0.282][A[A
+
+Train step of epoch 1:  19%|█▉        | 856/4533 [2:19:32<10:18:55, 10.10s/it, gpt_loss=0.277, loss_mean=0.282][A[A
+[LID Router Debug] Step: 5390
+Batch Size: 14
+Audio Batch Size: 150
+LID Assignments: [9, 5, 6, 9, 4, 9, 3, 9, 2, 2, 5, 6, 5, 4]
+Active Experts in Batch: {2, 3, 4, 5, 6, 9}
+2026-01-27 04:29:08.267 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  19%|█▉        | 856/4533 [2:19:44<10:18:55, 10.10s/it, gpt_loss=0.37, loss_mean=0.291] [A[A
+
+Train step of epoch 1:  19%|█▉        | 857/4533 [2:19:44<10:52:27, 10.65s/it, gpt_loss=0.37, loss_mean=0.291][A[A2026-01-27 04:29:19.885 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  19%|█▉        | 857/4533 [2:19:52<10:52:27, 10.65s/it, gpt_loss=0.273, loss_mean=0.289][A[A
+
+Train step of epoch 1:  19%|█▉        | 858/4533 [2:19:52<10:13:34, 10.02s/it, gpt_loss=0.273, loss_mean=0.289][A[A2026-01-27 04:29:28.756 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  19%|█▉        | 858/4533 [2:20:02<10:13:34, 10.02s/it, gpt_loss=0.355, loss_mean=0.296][A[A
+
+Train step of epoch 1:  19%|█▉        | 859/4533 [2:20:02<10:00:55,  9.81s/it, gpt_loss=0.355, loss_mean=0.296][A[A2026-01-27 04:29:37.984 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  19%|█▉        | 859/4533 [2:20:11<10:00:55,  9.81s/it, gpt_loss=0.264, loss_mean=0.293][A[A
+
+Train step of epoch 1:  19%|█▉        | 860/4533 [2:20:11<9:49:03,  9.62s/it, gpt_loss=0.264, loss_mean=0.293] [A[A2026-01-27 04:29:46.797 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  19%|█▉        | 860/4533 [2:20:22<9:49:03,  9.62s/it, gpt_loss=0.292, loss_mean=0.293][A[A
+
+Train step of epoch 1:  19%|█▉        | 861/4533 [2:20:22<10:21:53, 10.16s/it, gpt_loss=0.292, loss_mean=0.293][A[A2026-01-27 04:29:58.680 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  19%|█▉        | 861/4533 [2:20:32<10:21:53, 10.16s/it, gpt_loss=0.282, loss_mean=0.291][A[A
+
+Train step of epoch 1:  19%|█▉        | 862/4533 [2:20:32<10:12:40, 10.01s/it, gpt_loss=0.282, loss_mean=0.291][A[A2026-01-27 04:30:08.299 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  19%|█▉        | 862/4533 [2:20:42<10:12:40, 10.01s/it, gpt_loss=0.294, loss_mean=0.292][A[A
+
+Train step of epoch 1:  19%|█▉        | 863/4533 [2:20:42<10:05:51,  9.90s/it, gpt_loss=0.294, loss_mean=0.292][A[A2026-01-27 04:30:17.591 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  19%|█▉        | 863/4533 [2:20:50<10:05:51,  9.90s/it, gpt_loss=0.318, loss_mean=0.294][A[A
+
+Train step of epoch 1:  19%|█▉        | 864/4533 [2:20:50<9:43:56,  9.55s/it, gpt_loss=0.318, loss_mean=0.294] [A[A2026-01-27 04:30:26.288 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  19%|█▉        | 864/4533 [2:20:59<9:43:56,  9.55s/it, gpt_loss=0.258, loss_mean=0.291][A[A
+
+Train step of epoch 1:  19%|█▉        | 865/4533 [2:20:59<9:30:51,  9.34s/it, gpt_loss=0.258, loss_mean=0.291][A[A2026-01-27 04:30:35.464 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  19%|█▉        | 865/4533 [2:21:08<9:30:51,  9.34s/it, gpt_loss=0.278, loss_mean=0.289][A[A
+
+Train step of epoch 1:  19%|█▉        | 866/4533 [2:21:08<9:22:14,  9.20s/it, gpt_loss=0.278, loss_mean=0.289][A[A
+[LID Router Debug] Step: 5400
+Batch Size: 14
+Audio Batch Size: 128
+LID Assignments: [5, 6, 4, 3, 1, 6, 1, 0, 1, 2, 5, 0, 0, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6}
+2026-01-27 04:30:43.886 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+[2026-01-27 04:30:52,227] [INFO] [logging.py:96:log_dist] [Rank 0] step=5400, skipped=0, lr=[1.3357876428447102e-05, 1.3357876428447102e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 04:30:52,228] [INFO] [timer.py:260:stop] epoch=0/micro_step=5400/global_step=5400, RunningAvgSamplesPerSec=5.729519173664251, CurrSamplesPerSec=6.557214701195634, MemAllocated=14.72GB, MaxMemAllocated=53.98GB
+
+
+Train step of epoch 1:  19%|█▉        | 866/4533 [2:21:17<9:22:14,  9.20s/it, gpt_loss=0.249, loss_mean=0.285][A[A
+
+Train step of epoch 1:  19%|█▉        | 867/4533 [2:21:17<9:10:22,  9.01s/it, gpt_loss=0.249, loss_mean=0.285][A[A2026-01-27 04:30:52.791 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  19%|█▉        | 867/4533 [2:21:26<9:10:22,  9.01s/it, gpt_loss=0.254, loss_mean=0.282][A[A
+
+Train step of epoch 1:  19%|█▉        | 868/4533 [2:21:26<9:06:51,  8.95s/it, gpt_loss=0.254, loss_mean=0.282][A[A2026-01-27 04:31:01.584 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  19%|█▉        | 868/4533 [2:21:34<9:06:51,  8.95s/it, gpt_loss=0.289, loss_mean=0.283][A[A
+
+Train step of epoch 1:  19%|█▉        | 869/4533 [2:21:34<9:00:50,  8.86s/it, gpt_loss=0.289, loss_mean=0.283][A[A2026-01-27 04:31:09.855 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  19%|█▉        | 869/4533 [2:21:43<9:00:50,  8.86s/it, gpt_loss=0.223, loss_mean=0.277][A[A
+
+Train step of epoch 1:  19%|█▉        | 870/4533 [2:21:43<8:53:45,  8.74s/it, gpt_loss=0.223, loss_mean=0.277][A[A2026-01-27 04:31:18.675 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  19%|█▉        | 870/4533 [2:21:51<8:53:45,  8.74s/it, gpt_loss=0.216, loss_mean=0.271][A[A
+
+Train step of epoch 1:  19%|█▉        | 871/4533 [2:21:51<8:49:32,  8.68s/it, gpt_loss=0.216, loss_mean=0.271][A[A2026-01-27 04:31:27.253 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  19%|█▉        | 871/4533 [2:22:00<8:49:32,  8.68s/it, gpt_loss=0.325, loss_mean=0.276][A[A
+
+Train step of epoch 1:  19%|█▉        | 872/4533 [2:22:00<8:57:17,  8.81s/it, gpt_loss=0.325, loss_mean=0.276][A[A2026-01-27 04:31:36.200 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  19%|█▉        | 872/4533 [2:22:10<8:57:17,  8.81s/it, gpt_loss=0.28, loss_mean=0.277] [A[A
+
+Train step of epoch 1:  19%|█▉        | 873/4533 [2:22:10<9:06:54,  8.97s/it, gpt_loss=0.28, loss_mean=0.277][A[A2026-01-27 04:31:45.878 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  19%|█▉        | 873/4533 [2:22:22<9:06:54,  8.97s/it, gpt_loss=0.35, loss_mean=0.284][A[A
+
+Train step of epoch 1:  19%|█▉        | 874/4533 [2:22:22<10:05:09,  9.92s/it, gpt_loss=0.35, loss_mean=0.284][A[A2026-01-27 04:31:57.968 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  19%|█▉        | 874/4533 [2:22:34<10:05:09,  9.92s/it, gpt_loss=0.374, loss_mean=0.293][A[A
+
+Train step of epoch 1:  19%|█▉        | 875/4533 [2:22:34<10:43:14, 10.55s/it, gpt_loss=0.374, loss_mean=0.293][A[A2026-01-27 04:32:09.895 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  19%|█▉        | 875/4533 [2:22:44<10:43:14, 10.55s/it, gpt_loss=0.282, loss_mean=0.292][A[A
+
+Train step of epoch 1:  19%|█▉        | 876/4533 [2:22:44<10:29:33, 10.33s/it, gpt_loss=0.282, loss_mean=0.292][A[A
+[LID Router Debug] Step: 5410
+Batch Size: 14
+Audio Batch Size: 151
+LID Assignments: [3, 0, 6, 0, 9, 0, 3, 3, 1, 4, 0, 4, 5, 4]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6, 9}
+2026-01-27 04:32:19.788 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  19%|█▉        | 876/4533 [2:22:54<10:29:33, 10.33s/it, gpt_loss=0.279, loss_mean=0.291][A[A
+
+Train step of epoch 1:  19%|█▉        | 877/4533 [2:22:54<10:23:46, 10.24s/it, gpt_loss=0.279, loss_mean=0.291][A[A2026-01-27 04:32:29.969 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  19%|█▉        | 877/4533 [2:23:03<10:23:46, 10.24s/it, gpt_loss=0.282, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  19%|█▉        | 878/4533 [2:23:03<9:59:48,  9.85s/it, gpt_loss=0.282, loss_mean=0.29] [A[A2026-01-27 04:32:38.802 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  19%|█▉        | 878/4533 [2:23:12<9:59:48,  9.85s/it, gpt_loss=0.3, loss_mean=0.291] [A[A
+
+Train step of epoch 1:  19%|█▉        | 879/4533 [2:23:12<9:55:22,  9.78s/it, gpt_loss=0.3, loss_mean=0.291][A[A2026-01-27 04:32:47.990 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  19%|█▉        | 879/4533 [2:23:21<9:55:22,  9.78s/it, gpt_loss=0.274, loss_mean=0.289][A[A
+
+Train step of epoch 1:  19%|█▉        | 880/4533 [2:23:21<9:31:40,  9.39s/it, gpt_loss=0.274, loss_mean=0.289][A[A2026-01-27 04:32:56.688 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  19%|█▉        | 880/4533 [2:23:33<9:31:40,  9.39s/it, gpt_loss=0.388, loss_mean=0.299][A[A
+
+Train step of epoch 1:  19%|█▉        | 881/4533 [2:23:33<10:17:17, 10.14s/it, gpt_loss=0.388, loss_mean=0.299][A[A2026-01-27 04:33:08.870 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  19%|█▉        | 881/4533 [2:23:42<10:17:17, 10.14s/it, gpt_loss=0.26, loss_mean=0.295] [A[A
+
+Train step of epoch 1:  19%|█▉        | 882/4533 [2:23:42<10:06:28,  9.97s/it, gpt_loss=0.26, loss_mean=0.295][A[A2026-01-27 04:33:18.358 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  19%|█▉        | 882/4533 [2:23:52<10:06:28,  9.97s/it, gpt_loss=0.315, loss_mean=0.297][A[A
+
+Train step of epoch 1:  19%|█▉        | 883/4533 [2:23:52<10:03:14,  9.92s/it, gpt_loss=0.315, loss_mean=0.297][A[A2026-01-27 04:33:28.195 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  19%|█▉        | 883/4533 [2:24:02<10:03:14,  9.92s/it, gpt_loss=0.273, loss_mean=0.295][A[A
+
+Train step of epoch 1:  20%|█▉        | 884/4533 [2:24:02<9:59:28,  9.86s/it, gpt_loss=0.273, loss_mean=0.295] [A[A2026-01-27 04:33:37.870 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  20%|█▉        | 884/4533 [2:24:10<9:59:28,  9.86s/it, gpt_loss=0.296, loss_mean=0.295][A[A
+
+Train step of epoch 1:  20%|█▉        | 885/4533 [2:24:10<9:40:29,  9.55s/it, gpt_loss=0.296, loss_mean=0.295][A[A2026-01-27 04:33:46.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  20%|█▉        | 885/4533 [2:24:22<9:40:29,  9.55s/it, gpt_loss=0.397, loss_mean=0.305][A[A
+
+Train step of epoch 1:  20%|█▉        | 886/4533 [2:24:22<10:19:08, 10.19s/it, gpt_loss=0.397, loss_mean=0.305][A[A
+[LID Router Debug] Step: 5420
+Batch Size: 14
+Audio Batch Size: 179
+LID Assignments: [9, 3, 2, 9, 3, 3, 9, 3, 9, 4, 5, 6, 5, 4]
+Active Experts in Batch: {2, 3, 4, 5, 6, 9}
+2026-01-27 04:33:58.270 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  20%|█▉        | 886/4533 [2:24:34<10:19:08, 10.19s/it, gpt_loss=0.337, loss_mean=0.308][A[A
+
+Train step of epoch 1:  20%|█▉        | 887/4533 [2:24:34<10:49:36, 10.69s/it, gpt_loss=0.337, loss_mean=0.308][A[A2026-01-27 04:34:10.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  20%|█▉        | 887/4533 [2:24:43<10:49:36, 10.69s/it, gpt_loss=0.214, loss_mean=0.299][A[A
+
+Train step of epoch 1:  20%|█▉        | 888/4533 [2:24:43<10:15:05, 10.13s/it, gpt_loss=0.214, loss_mean=0.299][A[A2026-01-27 04:34:19.054 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  20%|█▉        | 888/4533 [2:24:52<10:15:05, 10.13s/it, gpt_loss=0.311, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  20%|█▉        | 889/4533 [2:24:52<9:55:30,  9.81s/it, gpt_loss=0.311, loss_mean=0.3] [A[A2026-01-27 04:34:28.169 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  20%|█▉        | 889/4533 [2:25:02<9:55:30,  9.81s/it, gpt_loss=0.282, loss_mean=0.298][A[A
+
+Train step of epoch 1:  20%|█▉        | 890/4533 [2:25:02<9:52:23,  9.76s/it, gpt_loss=0.282, loss_mean=0.298][A[A2026-01-27 04:34:37.782 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  20%|█▉        | 890/4533 [2:25:13<9:52:23,  9.76s/it, gpt_loss=0.295, loss_mean=0.298][A[A
+
+Train step of epoch 1:  20%|█▉        | 891/4533 [2:25:13<10:28:54, 10.36s/it, gpt_loss=0.295, loss_mean=0.298][A[A2026-01-27 04:34:49.376 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  20%|█▉        | 891/4533 [2:25:25<10:28:54, 10.36s/it, gpt_loss=0.357, loss_mean=0.304][A[A
+
+Train step of epoch 1:  20%|█▉        | 892/4533 [2:25:25<10:54:00, 10.78s/it, gpt_loss=0.357, loss_mean=0.304][A[A2026-01-27 04:35:00.691 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  20%|█▉        | 892/4533 [2:25:35<10:54:00, 10.78s/it, gpt_loss=0.345, loss_mean=0.308][A[A
+
+Train step of epoch 1:  20%|█▉        | 893/4533 [2:25:35<10:30:12, 10.39s/it, gpt_loss=0.345, loss_mean=0.308][A[A2026-01-27 04:35:10.264 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  20%|█▉        | 893/4533 [2:25:46<10:30:12, 10.39s/it, gpt_loss=0.453, loss_mean=0.322][A[A
+
+Train step of epoch 1:  20%|█▉        | 894/4533 [2:25:46<10:49:55, 10.72s/it, gpt_loss=0.453, loss_mean=0.322][A[A2026-01-27 04:35:22.186 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  20%|█▉        | 894/4533 [2:25:58<10:49:55, 10.72s/it, gpt_loss=0.351, loss_mean=0.325][A[A
+
+Train step of epoch 1:  20%|█▉        | 895/4533 [2:25:58<11:08:16, 11.02s/it, gpt_loss=0.351, loss_mean=0.325][A[A2026-01-27 04:35:33.950 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  20%|█▉        | 895/4533 [2:26:08<11:08:16, 11.02s/it, gpt_loss=0.294, loss_mean=0.322][A[A
+
+Train step of epoch 1:  20%|█▉        | 896/4533 [2:26:08<10:46:51, 10.67s/it, gpt_loss=0.294, loss_mean=0.322][A[A
+[LID Router Debug] Step: 5430
+Batch Size: 14
+Audio Batch Size: 153
+LID Assignments: [4, 0, 1, 0, 5, 3, 1, 0, 3, 9, 5, 4, 2, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 04:35:43.563 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  20%|█▉        | 896/4533 [2:26:16<10:46:51, 10.67s/it, gpt_loss=0.239, loss_mean=0.314][A[A
+
+Train step of epoch 1:  20%|█▉        | 897/4533 [2:26:16<10:11:14, 10.09s/it, gpt_loss=0.239, loss_mean=0.314][A[A2026-01-27 04:35:52.570 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  20%|█▉        | 897/4533 [2:26:26<10:11:14, 10.09s/it, gpt_loss=0.251, loss_mean=0.308][A[A
+
+Train step of epoch 1:  20%|█▉        | 898/4533 [2:26:26<9:55:23,  9.83s/it, gpt_loss=0.251, loss_mean=0.308] [A[A2026-01-27 04:36:01.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  20%|█▉        | 898/4533 [2:26:37<9:55:23,  9.83s/it, gpt_loss=0.394, loss_mean=0.316][A[A
+
+Train step of epoch 1:  20%|█▉        | 899/4533 [2:26:37<10:33:04, 10.45s/it, gpt_loss=0.394, loss_mean=0.316][A[A2026-01-27 04:36:13.668 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  20%|█▉        | 899/4533 [2:26:49<10:33:04, 10.45s/it, gpt_loss=0.393, loss_mean=0.324][A[A
+
+Train step of epoch 1:  20%|█▉        | 900/4533 [2:26:49<10:56:19, 10.84s/it, gpt_loss=0.393, loss_mean=0.324][A[A2026-01-27 04:36:25.359 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  20%|█▉        | 900/4533 [2:27:01<10:56:19, 10.84s/it, gpt_loss=0.373, loss_mean=0.329][A[A
+
+Train step of epoch 1:  20%|█▉        | 901/4533 [2:27:01<11:12:32, 11.11s/it, gpt_loss=0.373, loss_mean=0.329][A[A2026-01-27 04:36:37.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  20%|█▉        | 901/4533 [2:27:10<11:12:32, 11.11s/it, gpt_loss=0.292, loss_mean=0.325][A[A
+
+Train step of epoch 1:  20%|█▉        | 902/4533 [2:27:10<10:44:18, 10.65s/it, gpt_loss=0.292, loss_mean=0.325][A[A2026-01-27 04:36:46.495 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  20%|█▉        | 902/4533 [2:27:19<10:44:18, 10.65s/it, gpt_loss=0.274, loss_mean=0.32] [A[A
+
+Train step of epoch 1:  20%|█▉        | 903/4533 [2:27:19<10:08:21, 10.06s/it, gpt_loss=0.274, loss_mean=0.32][A[A2026-01-27 04:36:55.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  20%|█▉        | 903/4533 [2:27:31<10:08:21, 10.06s/it, gpt_loss=0.331, loss_mean=0.321][A[A
+
+Train step of epoch 1:  20%|█▉        | 904/4533 [2:27:31<10:36:30, 10.52s/it, gpt_loss=0.331, loss_mean=0.321][A[A2026-01-27 04:37:07.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  20%|█▉        | 904/4533 [2:27:40<10:36:30, 10.52s/it, gpt_loss=0.288, loss_mean=0.318][A[A
+
+Train step of epoch 1:  20%|█▉        | 905/4533 [2:27:40<10:08:56, 10.07s/it, gpt_loss=0.288, loss_mean=0.318][A[A2026-01-27 04:37:15.854 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  20%|█▉        | 905/4533 [2:27:49<10:08:56, 10.07s/it, gpt_loss=0.265, loss_mean=0.312][A[A
+
+Train step of epoch 1:  20%|█▉        | 906/4533 [2:27:49<9:46:56,  9.71s/it, gpt_loss=0.265, loss_mean=0.312] [A[A
+[LID Router Debug] Step: 5440
+Batch Size: 14
+Audio Batch Size: 163
+LID Assignments: [5, 1, 1, 2, 6, 4, 1, 9, 3, 2, 9, 2, 9, 9]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-27 04:37:24.683 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  20%|█▉        | 906/4533 [2:27:57<9:46:56,  9.71s/it, gpt_loss=0.292, loss_mean=0.31] [A[A
+
+Train step of epoch 1:  20%|██        | 907/4533 [2:27:57<9:30:59,  9.45s/it, gpt_loss=0.292, loss_mean=0.31][A[A2026-01-27 04:37:33.783 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  20%|██        | 907/4533 [2:28:06<9:30:59,  9.45s/it, gpt_loss=0.232, loss_mean=0.303][A[A
+
+Train step of epoch 1:  20%|██        | 908/4533 [2:28:06<9:21:36,  9.30s/it, gpt_loss=0.232, loss_mean=0.303][A[A2026-01-27 04:37:42.667 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  20%|██        | 908/4533 [2:28:15<9:21:36,  9.30s/it, gpt_loss=0.241, loss_mean=0.296][A[A
+
+Train step of epoch 1:  20%|██        | 909/4533 [2:28:15<9:11:25,  9.13s/it, gpt_loss=0.241, loss_mean=0.296][A[A2026-01-27 04:37:51.388 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  20%|██        | 909/4533 [2:28:25<9:11:25,  9.13s/it, gpt_loss=0.315, loss_mean=0.298][A[A
+
+Train step of epoch 1:  20%|██        | 910/4533 [2:28:25<9:21:36,  9.30s/it, gpt_loss=0.315, loss_mean=0.298][A[A2026-01-27 04:38:01.169 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  20%|██        | 910/4533 [2:28:35<9:21:36,  9.30s/it, gpt_loss=0.258, loss_mean=0.294][A[A
+
+Train step of epoch 1:  20%|██        | 911/4533 [2:28:35<9:32:23,  9.48s/it, gpt_loss=0.258, loss_mean=0.294][A[A2026-01-27 04:38:10.870 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  20%|██        | 911/4533 [2:28:44<9:32:23,  9.48s/it, gpt_loss=0.26, loss_mean=0.291] [A[A
+
+Train step of epoch 1:  20%|██        | 912/4533 [2:28:44<9:18:41,  9.26s/it, gpt_loss=0.26, loss_mean=0.291][A[A2026-01-27 04:38:19.675 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  20%|██        | 912/4533 [2:28:52<9:18:41,  9.26s/it, gpt_loss=0.246, loss_mean=0.286][A[A
+
+Train step of epoch 1:  20%|██        | 913/4533 [2:28:52<9:09:46,  9.11s/it, gpt_loss=0.246, loss_mean=0.286][A[A2026-01-27 04:38:28.557 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  20%|██        | 913/4533 [2:29:02<9:09:46,  9.11s/it, gpt_loss=0.241, loss_mean=0.282][A[A
+
+Train step of epoch 1:  20%|██        | 914/4533 [2:29:02<9:12:28,  9.16s/it, gpt_loss=0.241, loss_mean=0.282][A[A2026-01-27 04:38:37.865 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  20%|██        | 914/4533 [2:29:14<9:12:28,  9.16s/it, gpt_loss=0.333, loss_mean=0.287][A[A
+
+Train step of epoch 1:  20%|██        | 915/4533 [2:29:14<10:08:30, 10.09s/it, gpt_loss=0.333, loss_mean=0.287][A[A2026-01-27 04:38:49.890 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  20%|██        | 915/4533 [2:29:23<10:08:30, 10.09s/it, gpt_loss=0.306, loss_mean=0.289][A[A
+
+Train step of epoch 1:  20%|██        | 916/4533 [2:29:23<9:46:59,  9.74s/it, gpt_loss=0.306, loss_mean=0.289] [A[A
+[LID Router Debug] Step: 5450
+Batch Size: 14
+Audio Batch Size: 160
+LID Assignments: [4, 9, 3, 6, 1, 6, 3, 0, 2, 3, 9, 4, 9, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6, 9}
+2026-01-27 04:38:58.989 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  20%|██        | 916/4533 [2:29:32<9:46:59,  9.74s/it, gpt_loss=0.246, loss_mean=0.285][A[A
+
+Train step of epoch 1:  20%|██        | 917/4533 [2:29:32<9:38:08,  9.59s/it, gpt_loss=0.246, loss_mean=0.285][A[A2026-01-27 04:39:08.185 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  20%|██        | 917/4533 [2:29:41<9:38:08,  9.59s/it, gpt_loss=0.238, loss_mean=0.28] [A[A
+
+Train step of epoch 1:  20%|██        | 918/4533 [2:29:41<9:25:00,  9.38s/it, gpt_loss=0.238, loss_mean=0.28][A[A2026-01-27 04:39:16.983 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  20%|██        | 918/4533 [2:29:51<9:25:00,  9.38s/it, gpt_loss=0.296, loss_mean=0.281][A[A
+
+Train step of epoch 1:  20%|██        | 919/4533 [2:29:51<9:31:49,  9.49s/it, gpt_loss=0.296, loss_mean=0.281][A[A2026-01-27 04:39:26.766 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  20%|██        | 919/4533 [2:30:00<9:31:49,  9.49s/it, gpt_loss=0.277, loss_mean=0.281][A[A
+
+Train step of epoch 1:  20%|██        | 920/4533 [2:30:00<9:21:15,  9.32s/it, gpt_loss=0.277, loss_mean=0.281][A[A2026-01-27 04:39:35.677 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  20%|██        | 920/4533 [2:30:09<9:21:15,  9.32s/it, gpt_loss=0.212, loss_mean=0.274][A[A
+
+Train step of epoch 1:  20%|██        | 921/4533 [2:30:09<9:19:06,  9.29s/it, gpt_loss=0.212, loss_mean=0.274][A[A2026-01-27 04:39:45.060 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  20%|██        | 921/4533 [2:30:18<9:19:06,  9.29s/it, gpt_loss=0.247, loss_mean=0.271][A[A
+
+Train step of epoch 1:  20%|██        | 922/4533 [2:30:18<9:11:17,  9.16s/it, gpt_loss=0.247, loss_mean=0.271][A[A2026-01-27 04:39:53.976 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  20%|██        | 922/4533 [2:30:30<9:11:17,  9.16s/it, gpt_loss=0.336, loss_mean=0.278][A[A
+
+Train step of epoch 1:  20%|██        | 923/4533 [2:30:30<10:08:18, 10.11s/it, gpt_loss=0.336, loss_mean=0.278][A[A2026-01-27 04:40:06.080 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  20%|██        | 923/4533 [2:30:39<10:08:18, 10.11s/it, gpt_loss=0.253, loss_mean=0.275][A[A
+
+Train step of epoch 1:  20%|██        | 924/4533 [2:30:39<9:41:58,  9.68s/it, gpt_loss=0.253, loss_mean=0.275] [A[A2026-01-27 04:40:14.861 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  20%|██        | 924/4533 [2:30:48<9:41:58,  9.68s/it, gpt_loss=0.335, loss_mean=0.281][A[A
+
+Train step of epoch 1:  20%|██        | 925/4533 [2:30:48<9:39:20,  9.63s/it, gpt_loss=0.335, loss_mean=0.281][A[A2026-01-27 04:40:24.053 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  20%|██        | 925/4533 [2:31:00<9:39:20,  9.63s/it, gpt_loss=0.321, loss_mean=0.285][A[A
+
+Train step of epoch 1:  20%|██        | 926/4533 [2:31:00<10:12:47, 10.19s/it, gpt_loss=0.321, loss_mean=0.285][A[A
+[LID Router Debug] Step: 5460
+Batch Size: 14
+Audio Batch Size: 137
+LID Assignments: [6, 6, 2, 4, 5, 3, 3, 1, 9, 4, 5, 5, 1, 2]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-27 04:40:35.957 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  20%|██        | 926/4533 [2:31:08<10:12:47, 10.19s/it, gpt_loss=0.306, loss_mean=0.287][A[A
+
+Train step of epoch 1:  20%|██        | 927/4533 [2:31:08<9:47:47,  9.78s/it, gpt_loss=0.306, loss_mean=0.287] [A[A2026-01-27 04:40:44.769 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  20%|██        | 927/4533 [2:31:18<9:47:47,  9.78s/it, gpt_loss=0.268, loss_mean=0.285][A[A
+
+Train step of epoch 1:  20%|██        | 928/4533 [2:31:18<9:46:41,  9.76s/it, gpt_loss=0.268, loss_mean=0.285][A[A2026-01-27 04:40:54.478 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  20%|██        | 928/4533 [2:31:30<9:46:41,  9.76s/it, gpt_loss=0.337, loss_mean=0.291][A[A
+
+Train step of epoch 1:  20%|██        | 929/4533 [2:31:30<10:26:21, 10.43s/it, gpt_loss=0.337, loss_mean=0.291][A[A2026-01-27 04:41:06.291 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  20%|██        | 929/4533 [2:31:40<10:26:21, 10.43s/it, gpt_loss=0.27, loss_mean=0.289] [A[A
+
+Train step of epoch 1:  21%|██        | 930/4533 [2:31:40<10:13:13, 10.21s/it, gpt_loss=0.27, loss_mean=0.289][A[A2026-01-27 04:41:15.964 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  21%|██        | 930/4533 [2:31:50<10:13:13, 10.21s/it, gpt_loss=0.274, loss_mean=0.287][A[A
+
+Train step of epoch 1:  21%|██        | 931/4533 [2:31:50<10:03:25, 10.05s/it, gpt_loss=0.274, loss_mean=0.287][A[A2026-01-27 04:41:25.673 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  21%|██        | 931/4533 [2:31:58<10:03:25, 10.05s/it, gpt_loss=0.259, loss_mean=0.284][A[A
+
+Train step of epoch 1:  21%|██        | 932/4533 [2:31:58<9:40:22,  9.67s/it, gpt_loss=0.259, loss_mean=0.284] [A[A2026-01-27 04:41:34.371 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  21%|██        | 932/4533 [2:32:07<9:40:22,  9.67s/it, gpt_loss=0.274, loss_mean=0.283][A[A
+
+Train step of epoch 1:  21%|██        | 933/4533 [2:32:07<9:22:07,  9.37s/it, gpt_loss=0.274, loss_mean=0.283][A[A2026-01-27 04:41:43.097 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  21%|██        | 933/4533 [2:32:16<9:22:07,  9.37s/it, gpt_loss=0.238, loss_mean=0.279][A[A
+
+Train step of epoch 1:  21%|██        | 934/4533 [2:32:16<9:16:23,  9.28s/it, gpt_loss=0.238, loss_mean=0.279][A[A2026-01-27 04:41:52.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  21%|██        | 934/4533 [2:32:28<9:16:23,  9.28s/it, gpt_loss=0.371, loss_mean=0.288][A[A
+
+Train step of epoch 1:  21%|██        | 935/4533 [2:32:28<10:05:50, 10.10s/it, gpt_loss=0.371, loss_mean=0.288][A[A2026-01-27 04:42:03.789 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  21%|██        | 935/4533 [2:32:38<10:05:50, 10.10s/it, gpt_loss=0.256, loss_mean=0.285][A[A
+
+Train step of epoch 1:  21%|██        | 936/4533 [2:32:38<9:57:20,  9.96s/it, gpt_loss=0.256, loss_mean=0.285] [A[A
+[LID Router Debug] Step: 5470
+Batch Size: 14
+Audio Batch Size: 120
+LID Assignments: [5, 0, 9, 1, 1, 1, 5, 5, 0, 3, 9, 5, 1, 5]
+Active Experts in Batch: {0, 1, 3, 5, 9}
+2026-01-27 04:42:13.891 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  21%|██        | 936/4533 [2:32:47<9:57:20,  9.96s/it, gpt_loss=0.254, loss_mean=0.282][A[A
+
+Train step of epoch 1:  21%|██        | 937/4533 [2:32:47<9:35:52,  9.61s/it, gpt_loss=0.254, loss_mean=0.282][A[A2026-01-27 04:42:22.572 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  21%|██        | 937/4533 [2:32:55<9:35:52,  9.61s/it, gpt_loss=0.28, loss_mean=0.281] [A[A
+
+Train step of epoch 1:  21%|██        | 938/4533 [2:32:55<9:19:44,  9.34s/it, gpt_loss=0.28, loss_mean=0.281][A[A2026-01-27 04:42:30.881 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  21%|██        | 938/4533 [2:33:07<9:19:44,  9.34s/it, gpt_loss=0.294, loss_mean=0.283][A[A
+
+Train step of epoch 1:  21%|██        | 939/4533 [2:33:07<9:57:43,  9.98s/it, gpt_loss=0.294, loss_mean=0.283][A[A2026-01-27 04:42:42.570 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  21%|██        | 939/4533 [2:33:16<9:57:43,  9.98s/it, gpt_loss=0.33, loss_mean=0.287] [A[A
+
+Train step of epoch 1:  21%|██        | 940/4533 [2:33:16<9:47:20,  9.81s/it, gpt_loss=0.33, loss_mean=0.287][A[A2026-01-27 04:42:52.250 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  21%|██        | 940/4533 [2:33:26<9:47:20,  9.81s/it, gpt_loss=0.31, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  21%|██        | 941/4533 [2:33:26<9:43:02,  9.74s/it, gpt_loss=0.31, loss_mean=0.29][A[A2026-01-27 04:43:01.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  21%|██        | 941/4533 [2:33:35<9:43:02,  9.74s/it, gpt_loss=0.332, loss_mean=0.294][A[A
+
+Train step of epoch 1:  21%|██        | 942/4533 [2:33:35<9:39:56,  9.69s/it, gpt_loss=0.332, loss_mean=0.294][A[A2026-01-27 04:43:11.478 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  21%|██        | 942/4533 [2:33:47<9:39:56,  9.69s/it, gpt_loss=0.319, loss_mean=0.296][A[A
+
+Train step of epoch 1:  21%|██        | 943/4533 [2:33:47<10:20:17, 10.37s/it, gpt_loss=0.319, loss_mean=0.296][A[A2026-01-27 04:43:23.484 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  21%|██        | 943/4533 [2:33:59<10:20:17, 10.37s/it, gpt_loss=0.349, loss_mean=0.302][A[A
+
+Train step of epoch 1:  21%|██        | 944/4533 [2:33:59<10:47:29, 10.82s/it, gpt_loss=0.349, loss_mean=0.302][A[A2026-01-27 04:43:35.280 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  21%|██        | 944/4533 [2:34:08<10:47:29, 10.82s/it, gpt_loss=0.239, loss_mean=0.295][A[A
+
+Train step of epoch 1:  21%|██        | 945/4533 [2:34:08<10:18:05, 10.34s/it, gpt_loss=0.239, loss_mean=0.295][A[A2026-01-27 04:43:44.486 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  21%|██        | 945/4533 [2:34:18<10:18:05, 10.34s/it, gpt_loss=0.258, loss_mean=0.292][A[A
+
+Train step of epoch 1:  21%|██        | 946/4533 [2:34:18<10:04:58, 10.12s/it, gpt_loss=0.258, loss_mean=0.292][A[A
+[LID Router Debug] Step: 5480
+Batch Size: 14
+Audio Batch Size: 126
+LID Assignments: [9, 5, 2, 2, 1, 6, 5, 9, 1, 3, 1, 1, 9, 4]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-27 04:43:53.898 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  21%|██        | 946/4533 [2:34:27<10:04:58, 10.12s/it, gpt_loss=0.278, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  21%|██        | 947/4533 [2:34:27<9:55:18,  9.96s/it, gpt_loss=0.278, loss_mean=0.29] [A[A2026-01-27 04:44:03.675 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  21%|██        | 947/4533 [2:34:37<9:55:18,  9.96s/it, gpt_loss=0.421, loss_mean=0.303][A[A
+
+Train step of epoch 1:  21%|██        | 948/4533 [2:34:37<9:53:49,  9.94s/it, gpt_loss=0.421, loss_mean=0.303][A[A2026-01-27 04:44:13.163 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  21%|██        | 948/4533 [2:34:46<9:53:49,  9.94s/it, gpt_loss=0.301, loss_mean=0.303][A[A
+
+Train step of epoch 1:  21%|██        | 949/4533 [2:34:46<9:30:59,  9.56s/it, gpt_loss=0.301, loss_mean=0.303][A[A2026-01-27 04:44:22.152 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  21%|██        | 949/4533 [2:34:56<9:30:59,  9.56s/it, gpt_loss=0.277, loss_mean=0.301][A[A
+
+Train step of epoch 1:  21%|██        | 950/4533 [2:34:56<9:30:07,  9.55s/it, gpt_loss=0.277, loss_mean=0.301][A[A2026-01-27 04:44:31.650 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  21%|██        | 950/4533 [2:35:05<9:30:07,  9.55s/it, gpt_loss=0.248, loss_mean=0.295][A[A
+
+Train step of epoch 1:  21%|██        | 951/4533 [2:35:05<9:28:56,  9.53s/it, gpt_loss=0.248, loss_mean=0.295][A[A2026-01-27 04:44:41.362 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  21%|██        | 951/4533 [2:35:14<9:28:56,  9.53s/it, gpt_loss=0.246, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  21%|██        | 952/4533 [2:35:14<9:16:36,  9.33s/it, gpt_loss=0.246, loss_mean=0.29][A[A2026-01-27 04:44:50.192 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  21%|██        | 952/4533 [2:35:23<9:16:36,  9.33s/it, gpt_loss=0.244, loss_mean=0.286][A[A
+
+Train step of epoch 1:  21%|██        | 953/4533 [2:35:23<9:15:11,  9.30s/it, gpt_loss=0.244, loss_mean=0.286][A[A2026-01-27 04:44:59.373 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  21%|██        | 953/4533 [2:35:32<9:15:11,  9.30s/it, gpt_loss=0.213, loss_mean=0.278][A[A
+
+Train step of epoch 1:  21%|██        | 954/4533 [2:35:32<9:13:03,  9.27s/it, gpt_loss=0.213, loss_mean=0.278][A[A2026-01-27 04:45:08.281 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  21%|██        | 954/4533 [2:35:41<9:13:03,  9.27s/it, gpt_loss=0.323, loss_mean=0.283][A[A
+
+Train step of epoch 1:  21%|██        | 955/4533 [2:35:41<9:01:54,  9.09s/it, gpt_loss=0.323, loss_mean=0.283][A[A2026-01-27 04:45:17.276 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  21%|██        | 955/4533 [2:35:51<9:01:54,  9.09s/it, gpt_loss=0.301, loss_mean=0.285][A[A
+
+Train step of epoch 1:  21%|██        | 956/4533 [2:35:51<9:13:09,  9.28s/it, gpt_loss=0.301, loss_mean=0.285][A[A
+[LID Router Debug] Step: 5490
+Batch Size: 14
+Audio Batch Size: 151
+LID Assignments: [5, 3, 9, 0, 3, 0, 4, 4, 1, 2, 5, 2, 0, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 04:45:26.581 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  21%|██        | 956/4533 [2:36:00<9:13:09,  9.28s/it, gpt_loss=0.302, loss_mean=0.286][A[A
+
+Train step of epoch 1:  21%|██        | 957/4533 [2:36:00<9:13:59,  9.30s/it, gpt_loss=0.302, loss_mean=0.286][A[A2026-01-27 04:45:36.203 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  21%|██        | 957/4533 [2:36:09<9:13:59,  9.30s/it, gpt_loss=0.278, loss_mean=0.286][A[A
+
+Train step of epoch 1:  21%|██        | 958/4533 [2:36:09<9:10:17,  9.24s/it, gpt_loss=0.278, loss_mean=0.286][A[A2026-01-27 04:45:45.468 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  21%|██        | 958/4533 [2:36:21<9:10:17,  9.24s/it, gpt_loss=0.417, loss_mean=0.299][A[A
+
+Train step of epoch 1:  21%|██        | 959/4533 [2:36:21<9:56:16, 10.01s/it, gpt_loss=0.417, loss_mean=0.299][A[A2026-01-27 04:45:57.283 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  21%|██        | 959/4533 [2:36:30<9:56:16, 10.01s/it, gpt_loss=0.252, loss_mean=0.294][A[A
+
+Train step of epoch 1:  21%|██        | 960/4533 [2:36:30<9:37:01,  9.69s/it, gpt_loss=0.252, loss_mean=0.294][A[A2026-01-27 04:46:06.083 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  21%|██        | 960/4533 [2:36:39<9:37:01,  9.69s/it, gpt_loss=0.263, loss_mean=0.291][A[A
+
+Train step of epoch 1:  21%|██        | 961/4533 [2:36:39<9:22:04,  9.44s/it, gpt_loss=0.263, loss_mean=0.291][A[A2026-01-27 04:46:14.902 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  21%|██        | 961/4533 [2:36:48<9:22:04,  9.44s/it, gpt_loss=0.271, loss_mean=0.289][A[A
+
+Train step of epoch 1:  21%|██        | 962/4533 [2:36:48<9:12:48,  9.29s/it, gpt_loss=0.271, loss_mean=0.289][A[A2026-01-27 04:46:23.986 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  21%|██        | 962/4533 [2:37:00<9:12:48,  9.29s/it, gpt_loss=0.357, loss_mean=0.296][A[A
+
+Train step of epoch 1:  21%|██        | 963/4533 [2:37:00<10:00:02, 10.08s/it, gpt_loss=0.357, loss_mean=0.296][A[A2026-01-27 04:46:35.779 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  21%|██        | 963/4533 [2:37:08<10:00:02, 10.08s/it, gpt_loss=0.271, loss_mean=0.293][A[A
+
+Train step of epoch 1:  21%|██▏       | 964/4533 [2:37:08<9:34:37,  9.66s/it, gpt_loss=0.271, loss_mean=0.293] [A[A2026-01-27 04:46:44.187 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  21%|██▏       | 964/4533 [2:37:20<9:34:37,  9.66s/it, gpt_loss=0.337, loss_mean=0.298][A[A
+
+Train step of epoch 1:  21%|██▏       | 965/4533 [2:37:20<10:08:33, 10.23s/it, gpt_loss=0.337, loss_mean=0.298][A[A2026-01-27 04:46:55.791 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  21%|██▏       | 965/4533 [2:37:29<10:08:33, 10.23s/it, gpt_loss=0.311, loss_mean=0.299][A[A
+
+Train step of epoch 1:  21%|██▏       | 966/4533 [2:37:29<9:53:46,  9.99s/it, gpt_loss=0.311, loss_mean=0.299] [A[A
+[LID Router Debug] Step: 5500
+Batch Size: 14
+Audio Batch Size: 184
+LID Assignments: [1, 1, 9, 5, 2, 5, 3, 3, 2, 0, 2, 4, 3, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 04:47:05.598 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-27 04:47:14,676] [INFO] [logging.py:96:log_dist] [Rank 0] step=5500, skipped=0, lr=[1.3137180919095914e-05, 1.3137180919095914e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 04:47:14,677] [INFO] [timer.py:260:stop] epoch=0/micro_step=5500/global_step=5500, RunningAvgSamplesPerSec=5.729191156712188, CurrSamplesPerSec=5.701612249576987, MemAllocated=14.77GB, MaxMemAllocated=53.98GB
+
+
+Train step of epoch 1:  21%|██▏       | 966/4533 [2:37:39<9:53:46,  9.99s/it, gpt_loss=0.243, loss_mean=0.293][A[A
+
+Train step of epoch 1:  21%|██▏       | 967/4533 [2:37:39<9:50:58,  9.94s/it, gpt_loss=0.243, loss_mean=0.293][A[A2026-01-27 04:47:15.261 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  21%|██▏       | 967/4533 [2:37:49<9:50:58,  9.94s/it, gpt_loss=0.205, loss_mean=0.284][A[A
+
+Train step of epoch 1:  21%|██▏       | 968/4533 [2:37:49<9:42:30,  9.80s/it, gpt_loss=0.205, loss_mean=0.284][A[A2026-01-27 04:47:24.590 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  21%|██▏       | 968/4533 [2:37:58<9:42:30,  9.80s/it, gpt_loss=0.277, loss_mean=0.284][A[A
+
+Train step of epoch 1:  21%|██▏       | 969/4533 [2:37:58<9:32:41,  9.64s/it, gpt_loss=0.277, loss_mean=0.284][A[A2026-01-27 04:47:33.998 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  21%|██▏       | 969/4533 [2:38:07<9:32:41,  9.64s/it, gpt_loss=0.279, loss_mean=0.283][A[A
+
+Train step of epoch 1:  21%|██▏       | 970/4533 [2:38:07<9:17:24,  9.39s/it, gpt_loss=0.279, loss_mean=0.283][A[A2026-01-27 04:47:42.951 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  21%|██▏       | 970/4533 [2:38:16<9:17:24,  9.39s/it, gpt_loss=0.294, loss_mean=0.284][A[A
+
+Train step of epoch 1:  21%|██▏       | 971/4533 [2:38:16<9:23:13,  9.49s/it, gpt_loss=0.294, loss_mean=0.284][A[A2026-01-27 04:47:52.593 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  21%|██▏       | 971/4533 [2:38:25<9:23:13,  9.49s/it, gpt_loss=0.324, loss_mean=0.288][A[A
+
+Train step of epoch 1:  21%|██▏       | 972/4533 [2:38:25<9:12:00,  9.30s/it, gpt_loss=0.324, loss_mean=0.288][A[A2026-01-27 04:48:01.566 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  21%|██▏       | 972/4533 [2:38:34<9:12:00,  9.30s/it, gpt_loss=0.287, loss_mean=0.288][A[A
+
+Train step of epoch 1:  21%|██▏       | 973/4533 [2:38:34<9:07:49,  9.23s/it, gpt_loss=0.287, loss_mean=0.288][A[A2026-01-27 04:48:10.377 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  21%|██▏       | 973/4533 [2:38:44<9:07:49,  9.23s/it, gpt_loss=0.259, loss_mean=0.285][A[A
+
+Train step of epoch 1:  21%|██▏       | 974/4533 [2:38:44<9:12:26,  9.31s/it, gpt_loss=0.259, loss_mean=0.285][A[A2026-01-27 04:48:20.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  21%|██▏       | 974/4533 [2:38:53<9:12:26,  9.31s/it, gpt_loss=0.253, loss_mean=0.282][A[A
+
+Train step of epoch 1:  22%|██▏       | 975/4533 [2:38:53<9:10:03,  9.28s/it, gpt_loss=0.253, loss_mean=0.282][A[A2026-01-27 04:48:29.068 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  22%|██▏       | 975/4533 [2:39:05<9:10:03,  9.28s/it, gpt_loss=0.356, loss_mean=0.289][A[A
+
+Train step of epoch 1:  22%|██▏       | 976/4533 [2:39:05<9:54:13, 10.02s/it, gpt_loss=0.356, loss_mean=0.289][A[A
+[LID Router Debug] Step: 5510
+Batch Size: 14
+Audio Batch Size: 167
+LID Assignments: [1, 6, 5, 3, 0, 2, 3, 0, 2, 9, 5, 9, 9, 2]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-27 04:48:40.783 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  22%|██▏       | 976/4533 [2:39:16<9:54:13, 10.02s/it, gpt_loss=0.356, loss_mean=0.296][A[A
+
+Train step of epoch 1:  22%|██▏       | 977/4533 [2:39:16<10:20:04, 10.46s/it, gpt_loss=0.356, loss_mean=0.296][A[A2026-01-27 04:48:52.085 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  22%|██▏       | 977/4533 [2:39:25<10:20:04, 10.46s/it, gpt_loss=0.334, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  22%|██▏       | 978/4533 [2:39:25<9:50:00,  9.96s/it, gpt_loss=0.334, loss_mean=0.3] [A[A2026-01-27 04:49:01.059 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  22%|██▏       | 978/4533 [2:39:37<9:50:00,  9.96s/it, gpt_loss=0.408, loss_mean=0.311][A[A
+
+Train step of epoch 1:  22%|██▏       | 979/4533 [2:39:37<10:20:15, 10.47s/it, gpt_loss=0.408, loss_mean=0.311][A[A2026-01-27 04:49:12.694 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  22%|██▏       | 979/4533 [2:39:49<10:20:15, 10.47s/it, gpt_loss=0.385, loss_mean=0.318][A[A
+
+Train step of epoch 1:  22%|██▏       | 980/4533 [2:39:49<10:43:41, 10.87s/it, gpt_loss=0.385, loss_mean=0.318][A[A2026-01-27 04:49:24.869 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  22%|██▏       | 980/4533 [2:39:59<10:43:41, 10.87s/it, gpt_loss=0.299, loss_mean=0.316][A[A
+
+Train step of epoch 1:  22%|██▏       | 981/4533 [2:39:59<10:27:26, 10.60s/it, gpt_loss=0.299, loss_mean=0.316][A[A2026-01-27 04:49:34.672 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  22%|██▏       | 981/4533 [2:40:10<10:27:26, 10.60s/it, gpt_loss=0.31, loss_mean=0.316] [A[A
+
+Train step of epoch 1:  22%|██▏       | 982/4533 [2:40:10<10:50:27, 10.99s/it, gpt_loss=0.31, loss_mean=0.316][A[A2026-01-27 04:49:46.693 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  22%|██▏       | 982/4533 [2:40:19<10:50:27, 10.99s/it, gpt_loss=0.307, loss_mean=0.315][A[A
+
+Train step of epoch 1:  22%|██▏       | 983/4533 [2:40:19<10:15:42, 10.41s/it, gpt_loss=0.307, loss_mean=0.315][A[A2026-01-27 04:49:55.492 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  22%|██▏       | 983/4533 [2:40:28<10:15:42, 10.41s/it, gpt_loss=0.299, loss_mean=0.313][A[A
+
+Train step of epoch 1:  22%|██▏       | 984/4533 [2:40:28<9:43:07,  9.86s/it, gpt_loss=0.299, loss_mean=0.313] [A[A2026-01-27 04:50:04.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  22%|██▏       | 984/4533 [2:40:37<9:43:07,  9.86s/it, gpt_loss=0.312, loss_mean=0.313][A[A
+
+Train step of epoch 1:  22%|██▏       | 985/4533 [2:40:37<9:32:21,  9.68s/it, gpt_loss=0.312, loss_mean=0.313][A[A2026-01-27 04:50:13.259 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  22%|██▏       | 985/4533 [2:40:46<9:32:21,  9.68s/it, gpt_loss=0.333, loss_mean=0.315][A[A
+
+Train step of epoch 1:  22%|██▏       | 986/4533 [2:40:46<9:16:06,  9.41s/it, gpt_loss=0.333, loss_mean=0.315][A[A
+[LID Router Debug] Step: 5520
+Batch Size: 14
+Audio Batch Size: 169
+LID Assignments: [2, 9, 2, 9, 4, 3, 3, 5, 2, 6, 1, 2, 3, 5]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-27 04:50:22.164 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  22%|██▏       | 986/4533 [2:40:58<9:16:06,  9.41s/it, gpt_loss=0.439, loss_mean=0.327][A[A
+
+Train step of epoch 1:  22%|██▏       | 987/4533 [2:40:58<10:00:06, 10.15s/it, gpt_loss=0.439, loss_mean=0.327][A[A2026-01-27 04:50:34.195 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  22%|██▏       | 987/4533 [2:41:08<10:00:06, 10.15s/it, gpt_loss=0.286, loss_mean=0.323][A[A
+
+Train step of epoch 1:  22%|██▏       | 988/4533 [2:41:08<9:50:55, 10.00s/it, gpt_loss=0.286, loss_mean=0.323] [A[A2026-01-27 04:50:43.883 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  22%|██▏       | 988/4533 [2:41:17<9:50:55, 10.00s/it, gpt_loss=0.291, loss_mean=0.32] [A[A
+
+Train step of epoch 1:  22%|██▏       | 989/4533 [2:41:17<9:45:40,  9.92s/it, gpt_loss=0.291, loss_mean=0.32][A[A2026-01-27 04:50:53.495 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  22%|██▏       | 989/4533 [2:41:26<9:45:40,  9.92s/it, gpt_loss=0.257, loss_mean=0.314][A[A
+
+Train step of epoch 1:  22%|██▏       | 990/4533 [2:41:26<9:29:10,  9.64s/it, gpt_loss=0.257, loss_mean=0.314][A[A2026-01-27 04:51:02.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  22%|██▏       | 990/4533 [2:41:38<9:29:10,  9.64s/it, gpt_loss=0.305, loss_mean=0.313][A[A
+
+Train step of epoch 1:  22%|██▏       | 991/4533 [2:41:38<10:08:26, 10.31s/it, gpt_loss=0.305, loss_mean=0.313][A[A2026-01-27 04:51:13.966 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  22%|██▏       | 991/4533 [2:41:47<10:08:26, 10.31s/it, gpt_loss=0.266, loss_mean=0.308][A[A
+
+Train step of epoch 1:  22%|██▏       | 992/4533 [2:41:47<9:37:01,  9.78s/it, gpt_loss=0.266, loss_mean=0.308] [A[A2026-01-27 04:51:22.990 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  22%|██▏       | 992/4533 [2:41:56<9:37:01,  9.78s/it, gpt_loss=0.261, loss_mean=0.303][A[A
+
+Train step of epoch 1:  22%|██▏       | 993/4533 [2:41:56<9:20:15,  9.50s/it, gpt_loss=0.261, loss_mean=0.303][A[A2026-01-27 04:51:31.761 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  22%|██▏       | 993/4533 [2:42:05<9:20:15,  9.50s/it, gpt_loss=0.312, loss_mean=0.304][A[A
+
+Train step of epoch 1:  22%|██▏       | 994/4533 [2:42:05<9:22:45,  9.54s/it, gpt_loss=0.312, loss_mean=0.304][A[A2026-01-27 04:51:41.084 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  22%|██▏       | 994/4533 [2:42:15<9:22:45,  9.54s/it, gpt_loss=0.321, loss_mean=0.306][A[A
+
+Train step of epoch 1:  22%|██▏       | 995/4533 [2:42:15<9:25:45,  9.59s/it, gpt_loss=0.321, loss_mean=0.306][A[A2026-01-27 04:51:51.166 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  22%|██▏       | 995/4533 [2:42:24<9:25:45,  9.59s/it, gpt_loss=0.198, loss_mean=0.295][A[A
+
+Train step of epoch 1:  22%|██▏       | 996/4533 [2:42:24<9:19:35,  9.49s/it, gpt_loss=0.198, loss_mean=0.295][A[A
+[LID Router Debug] Step: 5530
+Batch Size: 14
+Audio Batch Size: 168
+LID Assignments: [0, 0, 2, 6, 0, 2, 3, 6, 0, 2, 4, 3, 3, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6}
+2026-01-27 04:52:00.281 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  22%|██▏       | 996/4533 [2:42:34<9:19:35,  9.49s/it, gpt_loss=0.243, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  22%|██▏       | 997/4533 [2:42:34<9:22:06,  9.54s/it, gpt_loss=0.243, loss_mean=0.29][A[A2026-01-27 04:52:10.073 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  22%|██▏       | 997/4533 [2:42:44<9:22:06,  9.54s/it, gpt_loss=0.231, loss_mean=0.284][A[A
+
+Train step of epoch 1:  22%|██▏       | 998/4533 [2:42:44<9:25:18,  9.60s/it, gpt_loss=0.231, loss_mean=0.284][A[A2026-01-27 04:52:19.770 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  22%|██▏       | 998/4533 [2:42:54<9:25:18,  9.60s/it, gpt_loss=0.249, loss_mean=0.281][A[A
+
+Train step of epoch 1:  22%|██▏       | 999/4533 [2:42:54<9:33:20,  9.73s/it, gpt_loss=0.249, loss_mean=0.281][A[A2026-01-27 04:52:29.757 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  22%|██▏       | 999/4533 [2:43:02<9:33:20,  9.73s/it, gpt_loss=0.286, loss_mean=0.281][A[A
+
+Train step of epoch 1:  22%|██▏       | 1000/4533 [2:43:02<9:16:41,  9.45s/it, gpt_loss=0.286, loss_mean=0.281][A[A2026-01-27 04:52:38.368 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  22%|██▏       | 1000/4533 [2:43:11<9:16:41,  9.45s/it, gpt_loss=0.29, loss_mean=0.282] [A[A
+
+Train step of epoch 1:  22%|██▏       | 1001/4533 [2:43:11<9:05:07,  9.26s/it, gpt_loss=0.29, loss_mean=0.282][A[A2026-01-27 04:52:47.367 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  22%|██▏       | 1001/4533 [2:43:21<9:05:07,  9.26s/it, gpt_loss=0.31, loss_mean=0.285][A[A
+
+Train step of epoch 1:  22%|██▏       | 1002/4533 [2:43:21<9:09:51,  9.34s/it, gpt_loss=0.31, loss_mean=0.285][A[A2026-01-27 04:52:56.504 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  22%|██▏       | 1002/4533 [2:43:30<9:09:51,  9.34s/it, gpt_loss=0.287, loss_mean=0.285][A[A
+
+Train step of epoch 1:  22%|██▏       | 1003/4533 [2:43:30<9:11:11,  9.37s/it, gpt_loss=0.287, loss_mean=0.285][A[A2026-01-27 04:53:06.293 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  22%|██▏       | 1003/4533 [2:43:42<9:11:11,  9.37s/it, gpt_loss=0.417, loss_mean=0.298][A[A
+
+Train step of epoch 1:  22%|██▏       | 1004/4533 [2:43:42<9:53:19, 10.09s/it, gpt_loss=0.417, loss_mean=0.298][A[A2026-01-27 04:53:18.250 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  22%|██▏       | 1004/4533 [2:43:54<9:53:19, 10.09s/it, gpt_loss=0.318, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  22%|██▏       | 1005/4533 [2:43:54<10:26:22, 10.65s/it, gpt_loss=0.318, loss_mean=0.3][A[A2026-01-27 04:53:29.784 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  22%|██▏       | 1005/4533 [2:44:03<10:26:22, 10.65s/it, gpt_loss=0.249, loss_mean=0.295][A[A
+
+Train step of epoch 1:  22%|██▏       | 1006/4533 [2:44:03<10:00:51, 10.22s/it, gpt_loss=0.249, loss_mean=0.295][A[A
+[LID Router Debug] Step: 5540
+Batch Size: 14
+Audio Batch Size: 118
+LID Assignments: [5, 6, 1, 9, 4, 4, 9, 1, 4, 1, 2, 0, 4, 5]
+Active Experts in Batch: {0, 1, 2, 4, 5, 6, 9}
+2026-01-27 04:53:39.381 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  22%|██▏       | 1006/4533 [2:44:12<10:00:51, 10.22s/it, gpt_loss=0.231, loss_mean=0.289][A[A
+
+Train step of epoch 1:  22%|██▏       | 1007/4533 [2:44:12<9:42:23,  9.91s/it, gpt_loss=0.231, loss_mean=0.289] [A[A2026-01-27 04:53:48.589 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  22%|██▏       | 1007/4533 [2:44:24<9:42:23,  9.91s/it, gpt_loss=0.368, loss_mean=0.297][A[A
+
+Train step of epoch 1:  22%|██▏       | 1008/4533 [2:44:24<10:15:05, 10.47s/it, gpt_loss=0.368, loss_mean=0.297][A[A2026-01-27 04:54:00.453 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  22%|██▏       | 1008/4533 [2:44:36<10:15:05, 10.47s/it, gpt_loss=0.309, loss_mean=0.298][A[A
+
+Train step of epoch 1:  22%|██▏       | 1009/4533 [2:44:36<10:44:18, 10.97s/it, gpt_loss=0.309, loss_mean=0.298][A[A2026-01-27 04:54:12.491 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  22%|██▏       | 1009/4533 [2:44:46<10:44:18, 10.97s/it, gpt_loss=0.266, loss_mean=0.295][A[A
+
+Train step of epoch 1:  22%|██▏       | 1010/4533 [2:44:46<10:22:03, 10.59s/it, gpt_loss=0.266, loss_mean=0.295][A[A2026-01-27 04:54:21.775 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  22%|██▏       | 1010/4533 [2:44:55<10:22:03, 10.59s/it, gpt_loss=0.303, loss_mean=0.295][A[A
+
+Train step of epoch 1:  22%|██▏       | 1011/4533 [2:44:55<9:49:58, 10.05s/it, gpt_loss=0.303, loss_mean=0.295] [A[A2026-01-27 04:54:30.782 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  22%|██▏       | 1011/4533 [2:45:04<9:49:58, 10.05s/it, gpt_loss=0.262, loss_mean=0.292][A[A
+
+Train step of epoch 1:  22%|██▏       | 1012/4533 [2:45:04<9:29:11,  9.70s/it, gpt_loss=0.262, loss_mean=0.292][A[A2026-01-27 04:54:39.793 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  22%|██▏       | 1012/4533 [2:45:13<9:29:11,  9.70s/it, gpt_loss=0.348, loss_mean=0.298][A[A
+
+Train step of epoch 1:  22%|██▏       | 1013/4533 [2:45:13<9:21:08,  9.56s/it, gpt_loss=0.348, loss_mean=0.298][A[A2026-01-27 04:54:48.991 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  22%|██▏       | 1013/4533 [2:45:22<9:21:08,  9.56s/it, gpt_loss=0.293, loss_mean=0.297][A[A
+
+Train step of epoch 1:  22%|██▏       | 1014/4533 [2:45:22<9:08:06,  9.35s/it, gpt_loss=0.293, loss_mean=0.297][A[A2026-01-27 04:54:57.990 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  22%|██▏       | 1014/4533 [2:45:32<9:08:06,  9.35s/it, gpt_loss=0.325, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  22%|██▏       | 1015/4533 [2:45:32<9:17:17,  9.50s/it, gpt_loss=0.325, loss_mean=0.3][A[A2026-01-27 04:55:07.784 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  22%|██▏       | 1015/4533 [2:45:43<9:17:17,  9.50s/it, gpt_loss=0.323, loss_mean=0.302][A[A
+
+Train step of epoch 1:  22%|██▏       | 1016/4533 [2:45:43<9:53:30, 10.13s/it, gpt_loss=0.323, loss_mean=0.302][A[A
+[LID Router Debug] Step: 5550
+Batch Size: 14
+Audio Batch Size: 164
+LID Assignments: [2, 6, 3, 3, 9, 3, 5, 5, 4, 1, 0, 4, 0, 4]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 04:55:19.154 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  22%|██▏       | 1016/4533 [2:45:53<9:53:30, 10.13s/it, gpt_loss=0.318, loss_mean=0.304][A[A
+
+Train step of epoch 1:  22%|██▏       | 1017/4533 [2:45:53<9:46:37, 10.01s/it, gpt_loss=0.318, loss_mean=0.304][A[A2026-01-27 04:55:29.004 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  22%|██▏       | 1017/4533 [2:46:02<9:46:37, 10.01s/it, gpt_loss=0.209, loss_mean=0.294][A[A
+
+Train step of epoch 1:  22%|██▏       | 1018/4533 [2:46:02<9:31:14,  9.75s/it, gpt_loss=0.209, loss_mean=0.294][A[A2026-01-27 04:55:38.095 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  22%|██▏       | 1018/4533 [2:46:12<9:31:14,  9.75s/it, gpt_loss=0.297, loss_mean=0.295][A[A
+
+Train step of epoch 1:  22%|██▏       | 1019/4533 [2:46:12<9:26:38,  9.68s/it, gpt_loss=0.297, loss_mean=0.295][A[A2026-01-27 04:55:47.774 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  22%|██▏       | 1019/4533 [2:46:23<9:26:38,  9.68s/it, gpt_loss=0.359, loss_mean=0.301][A[A
+
+Train step of epoch 1:  23%|██▎       | 1020/4533 [2:46:23<10:01:35, 10.27s/it, gpt_loss=0.359, loss_mean=0.301][A[A2026-01-27 04:55:59.557 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  23%|██▎       | 1020/4533 [2:46:32<10:01:35, 10.27s/it, gpt_loss=0.199, loss_mean=0.291][A[A
+
+Train step of epoch 1:  23%|██▎       | 1021/4533 [2:46:32<9:40:15,  9.91s/it, gpt_loss=0.199, loss_mean=0.291] [A[A2026-01-27 04:56:08.486 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  23%|██▎       | 1021/4533 [2:46:42<9:40:15,  9.91s/it, gpt_loss=0.245, loss_mean=0.286][A[A
+
+Train step of epoch 1:  23%|██▎       | 1022/4533 [2:46:42<9:34:19,  9.81s/it, gpt_loss=0.245, loss_mean=0.286][A[A2026-01-27 04:56:17.885 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  23%|██▎       | 1022/4533 [2:46:54<9:34:19,  9.81s/it, gpt_loss=0.377, loss_mean=0.295][A[A
+
+Train step of epoch 1:  23%|██▎       | 1023/4533 [2:46:54<10:12:06, 10.46s/it, gpt_loss=0.377, loss_mean=0.295][A[A2026-01-27 04:56:30.052 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  23%|██▎       | 1023/4533 [2:47:03<10:12:06, 10.46s/it, gpt_loss=0.271, loss_mean=0.293][A[A
+
+Train step of epoch 1:  23%|██▎       | 1024/4533 [2:47:03<9:41:27,  9.94s/it, gpt_loss=0.271, loss_mean=0.293] [A[A2026-01-27 04:56:38.566 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  23%|██▎       | 1024/4533 [2:47:14<9:41:27,  9.94s/it, gpt_loss=0.339, loss_mean=0.298][A[A
+
+Train step of epoch 1:  23%|██▎       | 1025/4533 [2:47:14<10:15:36, 10.53s/it, gpt_loss=0.339, loss_mean=0.298][A[A2026-01-27 04:56:50.490 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  23%|██▎       | 1025/4533 [2:47:24<10:15:36, 10.53s/it, gpt_loss=0.34, loss_mean=0.302] [A[A
+
+Train step of epoch 1:  23%|██▎       | 1026/4533 [2:47:24<9:56:24, 10.20s/it, gpt_loss=0.34, loss_mean=0.302] [A[A
+[LID Router Debug] Step: 5560
+Batch Size: 14
+Audio Batch Size: 135
+LID Assignments: [9, 3, 4, 6, 5, 1, 2, 4, 6, 5, 0, 4, 1, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 04:56:59.985 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  23%|██▎       | 1026/4533 [2:47:33<9:56:24, 10.20s/it, gpt_loss=0.26, loss_mean=0.298][A[A
+
+Train step of epoch 1:  23%|██▎       | 1027/4533 [2:47:33<9:44:59, 10.01s/it, gpt_loss=0.26, loss_mean=0.298][A[A2026-01-27 04:57:09.681 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  23%|██▎       | 1027/4533 [2:47:43<9:44:59, 10.01s/it, gpt_loss=0.252, loss_mean=0.293][A[A
+
+Train step of epoch 1:  23%|██▎       | 1028/4533 [2:47:43<9:36:37,  9.87s/it, gpt_loss=0.252, loss_mean=0.293][A[A2026-01-27 04:57:18.980 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  23%|██▎       | 1028/4533 [2:47:52<9:36:37,  9.87s/it, gpt_loss=0.288, loss_mean=0.293][A[A
+
+Train step of epoch 1:  23%|██▎       | 1029/4533 [2:47:52<9:14:35,  9.50s/it, gpt_loss=0.288, loss_mean=0.293][A[A2026-01-27 04:57:27.953 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  23%|██▎       | 1029/4533 [2:48:02<9:14:35,  9.50s/it, gpt_loss=0.311, loss_mean=0.294][A[A
+
+Train step of epoch 1:  23%|██▎       | 1030/4533 [2:48:02<9:20:47,  9.61s/it, gpt_loss=0.311, loss_mean=0.294][A[A2026-01-27 04:57:37.454 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  23%|██▎       | 1030/4533 [2:48:13<9:20:47,  9.61s/it, gpt_loss=0.352, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  23%|██▎       | 1031/4533 [2:48:13<9:54:47, 10.19s/it, gpt_loss=0.352, loss_mean=0.3][A[A2026-01-27 04:57:48.989 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  23%|██▎       | 1031/4533 [2:48:23<9:54:47, 10.19s/it, gpt_loss=0.268, loss_mean=0.297][A[A
+
+Train step of epoch 1:  23%|██▎       | 1032/4533 [2:48:23<9:42:37,  9.98s/it, gpt_loss=0.268, loss_mean=0.297][A[A2026-01-27 04:57:58.471 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  23%|██▎       | 1032/4533 [2:48:34<9:42:37,  9.98s/it, gpt_loss=0.318, loss_mean=0.299][A[A
+
+Train step of epoch 1:  23%|██▎       | 1033/4533 [2:48:34<10:10:45, 10.47s/it, gpt_loss=0.318, loss_mean=0.299][A[A2026-01-27 04:58:10.384 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  23%|██▎       | 1033/4533 [2:48:43<10:10:45, 10.47s/it, gpt_loss=0.239, loss_mean=0.293][A[A
+
+Train step of epoch 1:  23%|██▎       | 1034/4533 [2:48:43<9:50:01, 10.12s/it, gpt_loss=0.239, loss_mean=0.293] [A[A2026-01-27 04:58:19.567 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  23%|██▎       | 1034/4533 [2:48:52<9:50:01, 10.12s/it, gpt_loss=0.253, loss_mean=0.289][A[A
+
+Train step of epoch 1:  23%|██▎       | 1035/4533 [2:48:52<9:28:22,  9.75s/it, gpt_loss=0.253, loss_mean=0.289][A[A2026-01-27 04:58:28.389 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  23%|██▎       | 1035/4533 [2:49:01<9:28:22,  9.75s/it, gpt_loss=0.248, loss_mean=0.285][A[A
+
+Train step of epoch 1:  23%|██▎       | 1036/4533 [2:49:01<9:11:08,  9.46s/it, gpt_loss=0.248, loss_mean=0.285][A[A
+[LID Router Debug] Step: 5570
+Batch Size: 14
+Audio Batch Size: 155
+LID Assignments: [1, 2, 5, 2, 3, 2, 1, 4, 0, 4, 2, 9, 2, 0]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 04:58:37.074 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  23%|██▎       | 1036/4533 [2:49:10<9:11:08,  9.46s/it, gpt_loss=0.319, loss_mean=0.288][A[A
+
+Train step of epoch 1:  23%|██▎       | 1037/4533 [2:49:10<9:06:53,  9.39s/it, gpt_loss=0.319, loss_mean=0.288][A[A2026-01-27 04:58:46.168 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  23%|██▎       | 1037/4533 [2:49:19<9:06:53,  9.39s/it, gpt_loss=0.332, loss_mean=0.293][A[A
+
+Train step of epoch 1:  23%|██▎       | 1038/4533 [2:49:19<9:02:12,  9.31s/it, gpt_loss=0.332, loss_mean=0.293][A[A2026-01-27 04:58:55.673 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  23%|██▎       | 1038/4533 [2:49:31<9:02:12,  9.31s/it, gpt_loss=0.393, loss_mean=0.303][A[A
+
+Train step of epoch 1:  23%|██▎       | 1039/4533 [2:49:31<9:42:10, 10.00s/it, gpt_loss=0.393, loss_mean=0.303][A[A2026-01-27 04:59:07.275 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  23%|██▎       | 1039/4533 [2:49:40<9:42:10, 10.00s/it, gpt_loss=0.266, loss_mean=0.299][A[A
+
+Train step of epoch 1:  23%|██▎       | 1040/4533 [2:49:40<9:23:41,  9.68s/it, gpt_loss=0.266, loss_mean=0.299][A[A2026-01-27 04:59:16.176 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  23%|██▎       | 1040/4533 [2:49:49<9:23:41,  9.68s/it, gpt_loss=0.28, loss_mean=0.297] [A[A
+
+Train step of epoch 1:  23%|██▎       | 1041/4533 [2:49:49<9:12:16,  9.49s/it, gpt_loss=0.28, loss_mean=0.297][A[A2026-01-27 04:59:25.291 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  23%|██▎       | 1041/4533 [2:49:59<9:12:16,  9.49s/it, gpt_loss=0.277, loss_mean=0.295][A[A
+
+Train step of epoch 1:  23%|██▎       | 1042/4533 [2:49:59<9:16:56,  9.57s/it, gpt_loss=0.277, loss_mean=0.295][A[A2026-01-27 04:59:34.765 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  23%|██▎       | 1042/4533 [2:50:08<9:16:56,  9.57s/it, gpt_loss=0.28, loss_mean=0.294] [A[A
+
+Train step of epoch 1:  23%|██▎       | 1043/4533 [2:50:08<9:02:03,  9.32s/it, gpt_loss=0.28, loss_mean=0.294][A[A2026-01-27 04:59:43.792 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  23%|██▎       | 1043/4533 [2:50:20<9:02:03,  9.32s/it, gpt_loss=0.346, loss_mean=0.299][A[A
+
+Train step of epoch 1:  23%|██▎       | 1044/4533 [2:50:20<9:48:43, 10.12s/it, gpt_loss=0.346, loss_mean=0.299][A[A2026-01-27 04:59:55.700 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  23%|██▎       | 1044/4533 [2:50:29<9:48:43, 10.12s/it, gpt_loss=0.284, loss_mean=0.297][A[A
+
+Train step of epoch 1:  23%|██▎       | 1045/4533 [2:50:29<9:27:44,  9.77s/it, gpt_loss=0.284, loss_mean=0.297][A[A2026-01-27 05:00:04.794 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  23%|██▎       | 1045/4533 [2:50:37<9:27:44,  9.77s/it, gpt_loss=0.246, loss_mean=0.292][A[A
+
+Train step of epoch 1:  23%|██▎       | 1046/4533 [2:50:37<9:10:40,  9.48s/it, gpt_loss=0.246, loss_mean=0.292][A[A
+[LID Router Debug] Step: 5580
+Batch Size: 14
+Audio Batch Size: 176
+LID Assignments: [3, 9, 9, 6, 4, 6, 9, 3, 2, 1, 1, 4, 3, 5]
+Active Experts in Batch: {1, 2, 3, 4, 5, 6, 9}
+2026-01-27 05:00:13.263 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  23%|██▎       | 1046/4533 [2:50:47<9:10:40,  9.48s/it, gpt_loss=0.335, loss_mean=0.296][A[A
+
+Train step of epoch 1:  23%|██▎       | 1047/4533 [2:50:47<9:12:43,  9.51s/it, gpt_loss=0.335, loss_mean=0.296][A[A2026-01-27 05:00:22.892 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  23%|██▎       | 1047/4533 [2:50:58<9:12:43,  9.51s/it, gpt_loss=0.359, loss_mean=0.303][A[A
+
+Train step of epoch 1:  23%|██▎       | 1048/4533 [2:50:58<9:47:28, 10.11s/it, gpt_loss=0.359, loss_mean=0.303][A[A2026-01-27 05:00:34.589 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  23%|██▎       | 1048/4533 [2:51:07<9:47:28, 10.11s/it, gpt_loss=0.225, loss_mean=0.295][A[A
+
+Train step of epoch 1:  23%|██▎       | 1049/4533 [2:51:07<9:25:59,  9.75s/it, gpt_loss=0.225, loss_mean=0.295][A[A2026-01-27 05:00:43.487 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  23%|██▎       | 1049/4533 [2:51:16<9:25:59,  9.75s/it, gpt_loss=0.24, loss_mean=0.29]  [A[A
+
+Train step of epoch 1:  23%|██▎       | 1050/4533 [2:51:16<9:11:10,  9.49s/it, gpt_loss=0.24, loss_mean=0.29][A[A2026-01-27 05:00:52.089 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  23%|██▎       | 1050/4533 [2:51:25<9:11:10,  9.49s/it, gpt_loss=0.217, loss_mean=0.282][A[A
+
+Train step of epoch 1:  23%|██▎       | 1051/4533 [2:51:25<8:57:25,  9.26s/it, gpt_loss=0.217, loss_mean=0.282][A[A2026-01-27 05:01:01.078 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  23%|██▎       | 1051/4533 [2:51:34<8:57:25,  9.26s/it, gpt_loss=0.288, loss_mean=0.283][A[A
+
+Train step of epoch 1:  23%|██▎       | 1052/4533 [2:51:34<8:48:37,  9.11s/it, gpt_loss=0.288, loss_mean=0.283][A[A2026-01-27 05:01:09.961 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  23%|██▎       | 1052/4533 [2:51:45<8:48:37,  9.11s/it, gpt_loss=0.412, loss_mean=0.296][A[A
+
+Train step of epoch 1:  23%|██▎       | 1053/4533 [2:51:45<9:34:15,  9.90s/it, gpt_loss=0.412, loss_mean=0.296][A[A2026-01-27 05:01:21.188 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  23%|██▎       | 1053/4533 [2:51:57<9:34:15,  9.90s/it, gpt_loss=0.377, loss_mean=0.304][A[A
+
+Train step of epoch 1:  23%|██▎       | 1054/4533 [2:51:57<10:04:20, 10.42s/it, gpt_loss=0.377, loss_mean=0.304][A[A2026-01-27 05:01:33.267 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  23%|██▎       | 1054/4533 [2:52:06<10:04:20, 10.42s/it, gpt_loss=0.282, loss_mean=0.302][A[A
+
+Train step of epoch 1:  23%|██▎       | 1055/4533 [2:52:06<9:39:49, 10.00s/it, gpt_loss=0.282, loss_mean=0.302] [A[A2026-01-27 05:01:41.692 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  23%|██▎       | 1055/4533 [2:52:15<9:39:49, 10.00s/it, gpt_loss=0.29, loss_mean=0.301] [A[A
+
+Train step of epoch 1:  23%|██▎       | 1056/4533 [2:52:15<9:23:04,  9.72s/it, gpt_loss=0.29, loss_mean=0.301][A[A
+[LID Router Debug] Step: 5590
+Batch Size: 14
+Audio Batch Size: 166
+LID Assignments: [3, 0, 0, 5, 1, 2, 1, 4, 9, 1, 1, 0, 3, 9]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 05:01:51.190 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  23%|██▎       | 1056/4533 [2:52:24<9:23:04,  9.72s/it, gpt_loss=0.332, loss_mean=0.304][A[A
+
+Train step of epoch 1:  23%|██▎       | 1057/4533 [2:52:24<9:03:23,  9.38s/it, gpt_loss=0.332, loss_mean=0.304][A[A2026-01-27 05:02:00.004 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  23%|██▎       | 1057/4533 [2:52:36<9:03:23,  9.38s/it, gpt_loss=0.45, loss_mean=0.318] [A[A
+
+Train step of epoch 1:  23%|██▎       | 1058/4533 [2:52:36<9:46:30, 10.13s/it, gpt_loss=0.45, loss_mean=0.318][A[A2026-01-27 05:02:11.897 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  23%|██▎       | 1058/4533 [2:52:48<9:46:30, 10.13s/it, gpt_loss=0.316, loss_mean=0.318][A[A
+
+Train step of epoch 1:  23%|██▎       | 1059/4533 [2:52:48<10:19:12, 10.69s/it, gpt_loss=0.316, loss_mean=0.318][A[A2026-01-27 05:02:23.677 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  23%|██▎       | 1059/4533 [2:52:57<10:19:12, 10.69s/it, gpt_loss=0.234, loss_mean=0.31] [A[A
+
+Train step of epoch 1:  23%|██▎       | 1060/4533 [2:52:57<9:50:55, 10.21s/it, gpt_loss=0.234, loss_mean=0.31] [A[A2026-01-27 05:02:32.700 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  23%|██▎       | 1060/4533 [2:53:06<9:50:55, 10.21s/it, gpt_loss=0.308, loss_mean=0.31][A[A
+
+Train step of epoch 1:  23%|██▎       | 1061/4533 [2:53:06<9:38:40, 10.00s/it, gpt_loss=0.308, loss_mean=0.31][A[A2026-01-27 05:02:42.380 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  23%|██▎       | 1061/4533 [2:53:15<9:38:40, 10.00s/it, gpt_loss=0.343, loss_mean=0.313][A[A
+
+Train step of epoch 1:  23%|██▎       | 1062/4533 [2:53:15<9:15:58,  9.61s/it, gpt_loss=0.343, loss_mean=0.313][A[A2026-01-27 05:02:51.174 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  23%|██▎       | 1062/4533 [2:53:25<9:15:58,  9.61s/it, gpt_loss=0.244, loss_mean=0.306][A[A
+
+Train step of epoch 1:  23%|██▎       | 1063/4533 [2:53:25<9:17:44,  9.64s/it, gpt_loss=0.244, loss_mean=0.306][A[A2026-01-27 05:03:00.961 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  23%|██▎       | 1063/4533 [2:53:37<9:17:44,  9.64s/it, gpt_loss=0.36, loss_mean=0.311] [A[A
+
+Train step of epoch 1:  23%|██▎       | 1064/4533 [2:53:37<10:02:56, 10.43s/it, gpt_loss=0.36, loss_mean=0.311][A[A2026-01-27 05:03:13.173 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  23%|██▎       | 1064/4533 [2:53:46<10:02:56, 10.43s/it, gpt_loss=0.218, loss_mean=0.302][A[A
+
+Train step of epoch 1:  23%|██▎       | 1065/4533 [2:53:46<9:34:37,  9.94s/it, gpt_loss=0.218, loss_mean=0.302] [A[A2026-01-27 05:03:21.775 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  23%|██▎       | 1065/4533 [2:53:57<9:34:37,  9.94s/it, gpt_loss=0.405, loss_mean=0.312][A[A
+
+Train step of epoch 1:  24%|██▎       | 1066/4533 [2:53:57<10:04:00, 10.45s/it, gpt_loss=0.405, loss_mean=0.312][A[A
+[LID Router Debug] Step: 5600
+Batch Size: 14
+Audio Batch Size: 138
+LID Assignments: [2, 4, 9, 4, 9, 9, 3, 5, 5, 1, 9, 2, 4, 1]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-27 05:03:33.582 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+[2026-01-27 05:03:41,928] [INFO] [logging.py:96:log_dist] [Rank 0] step=5600, skipped=0, lr=[1.291477722078093e-05, 1.291477722078093e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 05:03:41,929] [INFO] [timer.py:260:stop] epoch=0/micro_step=5600/global_step=5600, RunningAvgSamplesPerSec=5.72837220462009, CurrSamplesPerSec=6.190673656903387, MemAllocated=14.58GB, MaxMemAllocated=53.98GB
+
+
+Train step of epoch 1:  24%|██▎       | 1066/4533 [2:54:06<10:04:00, 10.45s/it, gpt_loss=0.223, loss_mean=0.303][A[A
+
+Train step of epoch 1:  24%|██▎       | 1067/4533 [2:54:06<9:39:45, 10.04s/it, gpt_loss=0.223, loss_mean=0.303] [A[A2026-01-27 05:03:42.694 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  24%|██▎       | 1067/4533 [2:54:16<9:39:45, 10.04s/it, gpt_loss=0.275, loss_mean=0.301][A[A
+
+Train step of epoch 1:  24%|██▎       | 1068/4533 [2:54:16<9:25:20,  9.79s/it, gpt_loss=0.275, loss_mean=0.301][A[A2026-01-27 05:03:51.858 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  24%|██▎       | 1068/4533 [2:54:26<9:25:20,  9.79s/it, gpt_loss=0.252, loss_mean=0.296][A[A
+
+Train step of epoch 1:  24%|██▎       | 1069/4533 [2:54:26<9:27:10,  9.82s/it, gpt_loss=0.252, loss_mean=0.296][A[A2026-01-27 05:04:01.791 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  24%|██▎       | 1069/4533 [2:54:35<9:27:10,  9.82s/it, gpt_loss=0.275, loss_mean=0.294][A[A
+
+Train step of epoch 1:  24%|██▎       | 1070/4533 [2:54:35<9:25:08,  9.79s/it, gpt_loss=0.275, loss_mean=0.294][A[A2026-01-27 05:04:11.359 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  24%|██▎       | 1070/4533 [2:54:44<9:25:08,  9.79s/it, gpt_loss=0.244, loss_mean=0.289][A[A
+
+Train step of epoch 1:  24%|██▎       | 1071/4533 [2:54:44<9:08:31,  9.51s/it, gpt_loss=0.244, loss_mean=0.289][A[A2026-01-27 05:04:20.187 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  24%|██▎       | 1071/4533 [2:54:53<9:08:31,  9.51s/it, gpt_loss=0.303, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  24%|██▎       | 1072/4533 [2:54:53<8:54:37,  9.27s/it, gpt_loss=0.303, loss_mean=0.29][A[A2026-01-27 05:04:28.707 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  24%|██▎       | 1072/4533 [2:55:01<8:54:37,  9.27s/it, gpt_loss=0.224, loss_mean=0.284][A[A
+
+Train step of epoch 1:  24%|██▎       | 1073/4533 [2:55:01<8:40:38,  9.03s/it, gpt_loss=0.224, loss_mean=0.284][A[A2026-01-27 05:04:37.386 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  24%|██▎       | 1073/4533 [2:55:10<8:40:38,  9.03s/it, gpt_loss=0.211, loss_mean=0.276][A[A
+
+Train step of epoch 1:  24%|██▎       | 1074/4533 [2:55:10<8:41:55,  9.05s/it, gpt_loss=0.211, loss_mean=0.276][A[A2026-01-27 05:04:46.483 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  24%|██▎       | 1074/4533 [2:55:19<8:41:55,  9.05s/it, gpt_loss=0.233, loss_mean=0.272][A[A
+
+Train step of epoch 1:  24%|██▎       | 1075/4533 [2:55:19<8:35:55,  8.95s/it, gpt_loss=0.233, loss_mean=0.272][A[A2026-01-27 05:04:55.296 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  24%|██▎       | 1075/4533 [2:55:28<8:35:55,  8.95s/it, gpt_loss=0.277, loss_mean=0.273][A[A
+
+Train step of epoch 1:  24%|██▎       | 1076/4533 [2:55:28<8:37:37,  8.98s/it, gpt_loss=0.277, loss_mean=0.273][A[A
+[LID Router Debug] Step: 5610
+Batch Size: 14
+Audio Batch Size: 133
+LID Assignments: [0, 5, 4, 9, 2, 0, 4, 2, 9, 5, 1, 5, 1, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 05:05:04.270 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  24%|██▎       | 1076/4533 [2:55:37<8:37:37,  8.98s/it, gpt_loss=0.286, loss_mean=0.274][A[A
+
+Train step of epoch 1:  24%|██▍       | 1077/4533 [2:55:37<8:33:42,  8.92s/it, gpt_loss=0.286, loss_mean=0.274][A[A2026-01-27 05:05:13.253 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  24%|██▍       | 1077/4533 [2:55:47<8:33:42,  8.92s/it, gpt_loss=0.254, loss_mean=0.272][A[A
+
+Train step of epoch 1:  24%|██▍       | 1078/4533 [2:55:47<8:48:10,  9.17s/it, gpt_loss=0.254, loss_mean=0.272][A[A2026-01-27 05:05:22.889 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  24%|██▍       | 1078/4533 [2:55:59<8:48:10,  9.17s/it, gpt_loss=0.293, loss_mean=0.274][A[A
+
+Train step of epoch 1:  24%|██▍       | 1079/4533 [2:55:59<9:35:08,  9.99s/it, gpt_loss=0.293, loss_mean=0.274][A[A2026-01-27 05:05:34.695 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  24%|██▍       | 1079/4533 [2:56:08<9:35:08,  9.99s/it, gpt_loss=0.252, loss_mean=0.272][A[A
+
+Train step of epoch 1:  24%|██▍       | 1080/4533 [2:56:08<9:18:46,  9.71s/it, gpt_loss=0.252, loss_mean=0.272][A[A2026-01-27 05:05:43.790 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  24%|██▍       | 1080/4533 [2:56:20<9:18:46,  9.71s/it, gpt_loss=0.321, loss_mean=0.277][A[A
+
+Train step of epoch 1:  24%|██▍       | 1081/4533 [2:56:20<9:55:49, 10.36s/it, gpt_loss=0.321, loss_mean=0.277][A[A2026-01-27 05:05:55.755 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  24%|██▍       | 1081/4533 [2:56:29<9:55:49, 10.36s/it, gpt_loss=0.274, loss_mean=0.277][A[A
+
+Train step of epoch 1:  24%|██▍       | 1082/4533 [2:56:29<9:33:03,  9.96s/it, gpt_loss=0.274, loss_mean=0.277][A[A2026-01-27 05:06:04.866 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  24%|██▍       | 1082/4533 [2:56:37<9:33:03,  9.96s/it, gpt_loss=0.259, loss_mean=0.275][A[A
+
+Train step of epoch 1:  24%|██▍       | 1083/4533 [2:56:37<9:14:12,  9.64s/it, gpt_loss=0.259, loss_mean=0.275][A[A2026-01-27 05:06:13.682 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  24%|██▍       | 1083/4533 [2:56:49<9:14:12,  9.64s/it, gpt_loss=0.377, loss_mean=0.285][A[A
+
+Train step of epoch 1:  24%|██▍       | 1084/4533 [2:56:49<9:50:30, 10.27s/it, gpt_loss=0.377, loss_mean=0.285][A[A2026-01-27 05:06:25.480 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  24%|██▍       | 1084/4533 [2:56:58<9:50:30, 10.27s/it, gpt_loss=0.328, loss_mean=0.289][A[A
+
+Train step of epoch 1:  24%|██▍       | 1085/4533 [2:56:58<9:28:25,  9.89s/it, gpt_loss=0.328, loss_mean=0.289][A[A2026-01-27 05:06:34.453 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  24%|██▍       | 1085/4533 [2:57:07<9:28:25,  9.89s/it, gpt_loss=0.308, loss_mean=0.291][A[A
+
+Train step of epoch 1:  24%|██▍       | 1086/4533 [2:57:07<9:09:58,  9.57s/it, gpt_loss=0.308, loss_mean=0.291][A[A
+[LID Router Debug] Step: 5620
+Batch Size: 14
+Audio Batch Size: 117
+LID Assignments: [1, 4, 4, 2, 5, 5, 1, 3, 1, 4, 4, 0, 4, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5}
+2026-01-27 05:06:43.264 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  24%|██▍       | 1086/4533 [2:57:19<9:09:58,  9.57s/it, gpt_loss=0.267, loss_mean=0.289][A[A
+
+Train step of epoch 1:  24%|██▍       | 1087/4533 [2:57:19<9:48:26, 10.25s/it, gpt_loss=0.267, loss_mean=0.289][A[A2026-01-27 05:06:54.962 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  24%|██▍       | 1087/4533 [2:57:31<9:48:26, 10.25s/it, gpt_loss=0.387, loss_mean=0.299][A[A
+
+Train step of epoch 1:  24%|██▍       | 1088/4533 [2:57:31<10:27:26, 10.93s/it, gpt_loss=0.387, loss_mean=0.299][A[A2026-01-27 05:07:07.482 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  24%|██▍       | 1088/4533 [2:57:40<10:27:26, 10.93s/it, gpt_loss=0.231, loss_mean=0.292][A[A
+
+Train step of epoch 1:  24%|██▍       | 1089/4533 [2:57:40<9:52:32, 10.32s/it, gpt_loss=0.231, loss_mean=0.292] [A[A2026-01-27 05:07:16.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  24%|██▍       | 1089/4533 [2:57:53<9:52:32, 10.32s/it, gpt_loss=0.41, loss_mean=0.304] [A[A
+
+Train step of epoch 1:  24%|██▍       | 1090/4533 [2:57:53<10:27:48, 10.94s/it, gpt_loss=0.41, loss_mean=0.304][A[A2026-01-27 05:07:28.897 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  24%|██▍       | 1090/4533 [2:58:01<10:27:48, 10.94s/it, gpt_loss=0.235, loss_mean=0.297][A[A
+
+Train step of epoch 1:  24%|██▍       | 1091/4533 [2:58:01<9:51:23, 10.31s/it, gpt_loss=0.235, loss_mean=0.297] [A[A2026-01-27 05:07:37.692 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  24%|██▍       | 1091/4533 [2:58:11<9:51:23, 10.31s/it, gpt_loss=0.255, loss_mean=0.293][A[A
+
+Train step of epoch 1:  24%|██▍       | 1092/4533 [2:58:11<9:41:17, 10.14s/it, gpt_loss=0.255, loss_mean=0.293][A[A2026-01-27 05:07:47.493 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  24%|██▍       | 1092/4533 [2:58:21<9:41:17, 10.14s/it, gpt_loss=0.239, loss_mean=0.287][A[A
+
+Train step of epoch 1:  24%|██▍       | 1093/4533 [2:58:21<9:36:06, 10.05s/it, gpt_loss=0.239, loss_mean=0.287][A[A2026-01-27 05:07:57.180 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  24%|██▍       | 1093/4533 [2:58:31<9:36:06, 10.05s/it, gpt_loss=0.257, loss_mean=0.284][A[A
+
+Train step of epoch 1:  24%|██▍       | 1094/4533 [2:58:31<9:33:13, 10.00s/it, gpt_loss=0.257, loss_mean=0.284][A[A2026-01-27 05:08:06.987 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  24%|██▍       | 1094/4533 [2:58:43<9:33:13, 10.00s/it, gpt_loss=0.375, loss_mean=0.293][A[A
+
+Train step of epoch 1:  24%|██▍       | 1095/4533 [2:58:43<10:02:33, 10.52s/it, gpt_loss=0.375, loss_mean=0.293][A[A2026-01-27 05:08:18.778 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  24%|██▍       | 1095/4533 [2:58:54<10:02:33, 10.52s/it, gpt_loss=0.312, loss_mean=0.295][A[A
+
+Train step of epoch 1:  24%|██▍       | 1096/4533 [2:58:54<10:23:36, 10.89s/it, gpt_loss=0.312, loss_mean=0.295][A[A
+[LID Router Debug] Step: 5630
+Batch Size: 14
+Audio Batch Size: 115
+LID Assignments: [4, 4, 2, 5, 1, 9, 4, 2, 2, 1, 0, 1, 1, 1]
+Active Experts in Batch: {0, 1, 2, 4, 5, 9}
+2026-01-27 05:08:30.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  24%|██▍       | 1096/4533 [2:59:03<10:23:36, 10.89s/it, gpt_loss=0.231, loss_mean=0.289][A[A
+
+Train step of epoch 1:  24%|██▍       | 1097/4533 [2:59:03<9:46:46, 10.25s/it, gpt_loss=0.231, loss_mean=0.289] [A[A2026-01-27 05:08:39.388 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  24%|██▍       | 1097/4533 [2:59:13<9:46:46, 10.25s/it, gpt_loss=0.249, loss_mean=0.285][A[A
+
+Train step of epoch 1:  24%|██▍       | 1098/4533 [2:59:13<9:40:36, 10.14s/it, gpt_loss=0.249, loss_mean=0.285][A[A2026-01-27 05:08:49.294 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  24%|██▍       | 1098/4533 [2:59:25<9:40:36, 10.14s/it, gpt_loss=0.314, loss_mean=0.288][A[A
+
+Train step of epoch 1:  24%|██▍       | 1099/4533 [2:59:25<10:09:52, 10.66s/it, gpt_loss=0.314, loss_mean=0.288][A[A2026-01-27 05:09:01.183 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  24%|██▍       | 1099/4533 [2:59:34<10:09:52, 10.66s/it, gpt_loss=0.213, loss_mean=0.28] [A[A
+
+Train step of epoch 1:  24%|██▍       | 1100/4533 [2:59:34<9:38:24, 10.11s/it, gpt_loss=0.213, loss_mean=0.28] [A[A2026-01-27 05:09:09.990 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  24%|██▍       | 1100/4533 [2:59:44<9:38:24, 10.11s/it, gpt_loss=0.261, loss_mean=0.278][A[A
+
+Train step of epoch 1:  24%|██▍       | 1101/4533 [2:59:44<9:32:41, 10.01s/it, gpt_loss=0.261, loss_mean=0.278][A[A2026-01-27 05:09:19.657 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  24%|██▍       | 1101/4533 [2:59:53<9:32:41, 10.01s/it, gpt_loss=0.26, loss_mean=0.277] [A[A
+
+Train step of epoch 1:  24%|██▍       | 1102/4533 [2:59:53<9:15:41,  9.72s/it, gpt_loss=0.26, loss_mean=0.277][A[A2026-01-27 05:09:28.585 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  24%|██▍       | 1102/4533 [3:00:04<9:15:41,  9.72s/it, gpt_loss=0.357, loss_mean=0.285][A[A
+
+Train step of epoch 1:  24%|██▍       | 1103/4533 [3:00:04<9:44:07, 10.22s/it, gpt_loss=0.357, loss_mean=0.285][A[A2026-01-27 05:09:39.885 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  24%|██▍       | 1103/4533 [3:00:15<9:44:07, 10.22s/it, gpt_loss=0.35, loss_mean=0.291] [A[A
+
+Train step of epoch 1:  24%|██▍       | 1104/4533 [3:00:15<10:03:23, 10.56s/it, gpt_loss=0.35, loss_mean=0.291][A[A2026-01-27 05:09:51.178 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  24%|██▍       | 1104/4533 [3:00:24<10:03:23, 10.56s/it, gpt_loss=0.296, loss_mean=0.292][A[A
+
+Train step of epoch 1:  24%|██▍       | 1105/4533 [3:00:24<9:33:00, 10.03s/it, gpt_loss=0.296, loss_mean=0.292] [A[A2026-01-27 05:09:59.999 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  24%|██▍       | 1105/4533 [3:00:34<9:33:00, 10.03s/it, gpt_loss=0.262, loss_mean=0.289][A[A
+
+Train step of epoch 1:  24%|██▍       | 1106/4533 [3:00:34<9:24:36,  9.89s/it, gpt_loss=0.262, loss_mean=0.289][A[A
+[LID Router Debug] Step: 5640
+Batch Size: 14
+Audio Batch Size: 172
+LID Assignments: [3, 2, 0, 1, 5, 3, 5, 4, 2, 2, 0, 9, 3, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 05:10:09.961 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  24%|██▍       | 1106/4533 [3:00:43<9:24:36,  9.89s/it, gpt_loss=0.235, loss_mean=0.283][A[A
+
+Train step of epoch 1:  24%|██▍       | 1107/4533 [3:00:43<9:11:05,  9.65s/it, gpt_loss=0.235, loss_mean=0.283][A[A2026-01-27 05:10:18.969 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  24%|██▍       | 1107/4533 [3:00:52<9:11:05,  9.65s/it, gpt_loss=0.312, loss_mean=0.286][A[A
+
+Train step of epoch 1:  24%|██▍       | 1108/4533 [3:00:52<9:10:57,  9.65s/it, gpt_loss=0.312, loss_mean=0.286][A[A2026-01-27 05:10:28.690 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  24%|██▍       | 1108/4533 [3:01:02<9:10:57,  9.65s/it, gpt_loss=0.246, loss_mean=0.282][A[A
+
+Train step of epoch 1:  24%|██▍       | 1109/4533 [3:01:02<9:10:17,  9.64s/it, gpt_loss=0.246, loss_mean=0.282][A[A2026-01-27 05:10:37.969 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  24%|██▍       | 1109/4533 [3:01:10<9:10:17,  9.64s/it, gpt_loss=0.224, loss_mean=0.276][A[A
+
+Train step of epoch 1:  24%|██▍       | 1110/4533 [3:01:10<8:49:40,  9.28s/it, gpt_loss=0.224, loss_mean=0.276][A[A2026-01-27 05:10:46.560 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  24%|██▍       | 1110/4533 [3:01:22<8:49:40,  9.28s/it, gpt_loss=0.367, loss_mean=0.285][A[A
+
+Train step of epoch 1:  25%|██▍       | 1111/4533 [3:01:22<9:30:42, 10.01s/it, gpt_loss=0.367, loss_mean=0.285][A[A2026-01-27 05:10:58.266 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  25%|██▍       | 1111/4533 [3:01:31<9:30:42, 10.01s/it, gpt_loss=0.33, loss_mean=0.29]  [A[A
+
+Train step of epoch 1:  25%|██▍       | 1112/4533 [3:01:31<9:07:04,  9.59s/it, gpt_loss=0.33, loss_mean=0.29][A[A2026-01-27 05:11:07.083 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  25%|██▍       | 1112/4533 [3:01:40<9:07:04,  9.59s/it, gpt_loss=0.268, loss_mean=0.288][A[A
+
+Train step of epoch 1:  25%|██▍       | 1113/4533 [3:01:40<8:57:35,  9.43s/it, gpt_loss=0.268, loss_mean=0.288][A[A2026-01-27 05:11:15.971 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  25%|██▍       | 1113/4533 [3:01:49<8:57:35,  9.43s/it, gpt_loss=0.303, loss_mean=0.289][A[A
+
+Train step of epoch 1:  25%|██▍       | 1114/4533 [3:01:49<9:00:03,  9.48s/it, gpt_loss=0.303, loss_mean=0.289][A[A2026-01-27 05:11:25.578 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  25%|██▍       | 1114/4533 [3:01:59<9:00:03,  9.48s/it, gpt_loss=0.228, loss_mean=0.283][A[A
+
+Train step of epoch 1:  25%|██▍       | 1115/4533 [3:01:59<8:52:42,  9.35s/it, gpt_loss=0.228, loss_mean=0.283][A[A2026-01-27 05:11:34.770 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  25%|██▍       | 1115/4533 [3:02:08<8:52:42,  9.35s/it, gpt_loss=0.248, loss_mean=0.28] [A[A
+
+Train step of epoch 1:  25%|██▍       | 1116/4533 [3:02:08<8:57:56,  9.45s/it, gpt_loss=0.248, loss_mean=0.28][A[A
+[LID Router Debug] Step: 5650
+Batch Size: 14
+Audio Batch Size: 126
+LID Assignments: [4, 5, 0, 0, 6, 4, 5, 3, 2, 9, 5, 2, 9, 0]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-27 05:11:44.170 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  25%|██▍       | 1116/4533 [3:02:18<8:57:56,  9.45s/it, gpt_loss=0.367, loss_mean=0.288][A[A
+
+Train step of epoch 1:  25%|██▍       | 1117/4533 [3:02:18<8:56:41,  9.43s/it, gpt_loss=0.367, loss_mean=0.288][A[A2026-01-27 05:11:53.700 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  25%|██▍       | 1117/4533 [3:02:26<8:56:41,  9.43s/it, gpt_loss=0.239, loss_mean=0.283][A[A
+
+Train step of epoch 1:  25%|██▍       | 1118/4533 [3:02:26<8:46:04,  9.24s/it, gpt_loss=0.239, loss_mean=0.283][A[A2026-01-27 05:12:02.671 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  25%|██▍       | 1118/4533 [3:02:38<8:46:04,  9.24s/it, gpt_loss=0.328, loss_mean=0.288][A[A
+
+Train step of epoch 1:  25%|██▍       | 1119/4533 [3:02:38<9:29:48, 10.01s/it, gpt_loss=0.328, loss_mean=0.288][A[A2026-01-27 05:12:14.187 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  25%|██▍       | 1119/4533 [3:02:50<9:29:48, 10.01s/it, gpt_loss=0.358, loss_mean=0.295][A[A
+
+Train step of epoch 1:  25%|██▍       | 1120/4533 [3:02:50<9:54:53, 10.46s/it, gpt_loss=0.358, loss_mean=0.295][A[A2026-01-27 05:12:25.884 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  25%|██▍       | 1120/4533 [3:03:02<9:54:53, 10.46s/it, gpt_loss=0.341, loss_mean=0.299][A[A
+
+Train step of epoch 1:  25%|██▍       | 1121/4533 [3:03:02<10:18:47, 10.88s/it, gpt_loss=0.341, loss_mean=0.299][A[A2026-01-27 05:12:37.560 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  25%|██▍       | 1121/4533 [3:03:13<10:18:47, 10.88s/it, gpt_loss=0.332, loss_mean=0.303][A[A
+
+Train step of epoch 1:  25%|██▍       | 1122/4533 [3:03:13<10:36:11, 11.19s/it, gpt_loss=0.332, loss_mean=0.303][A[A2026-01-27 05:12:49.569 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  25%|██▍       | 1122/4533 [3:03:23<10:36:11, 11.19s/it, gpt_loss=0.298, loss_mean=0.302][A[A
+
+Train step of epoch 1:  25%|██▍       | 1123/4533 [3:03:23<10:00:34, 10.57s/it, gpt_loss=0.298, loss_mean=0.302][A[A2026-01-27 05:12:58.564 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  25%|██▍       | 1123/4533 [3:03:31<10:00:34, 10.57s/it, gpt_loss=0.336, loss_mean=0.305][A[A
+
+Train step of epoch 1:  25%|██▍       | 1124/4533 [3:03:31<9:27:03,  9.98s/it, gpt_loss=0.336, loss_mean=0.305] [A[A2026-01-27 05:13:07.283 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  25%|██▍       | 1124/4533 [3:03:41<9:27:03,  9.98s/it, gpt_loss=0.327, loss_mean=0.308][A[A
+
+Train step of epoch 1:  25%|██▍       | 1125/4533 [3:03:41<9:19:20,  9.85s/it, gpt_loss=0.327, loss_mean=0.308][A[A2026-01-27 05:13:16.850 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  25%|██▍       | 1125/4533 [3:03:49<9:19:20,  9.85s/it, gpt_loss=0.266, loss_mean=0.303][A[A
+
+Train step of epoch 1:  25%|██▍       | 1126/4533 [3:03:49<8:59:32,  9.50s/it, gpt_loss=0.266, loss_mean=0.303][A[A
+[LID Router Debug] Step: 5660
+Batch Size: 14
+Audio Batch Size: 196
+LID Assignments: [0, 9, 0, 3, 9, 3, 4, 3, 3, 4, 3, 6, 0, 3]
+Active Experts in Batch: {0, 3, 4, 6, 9}
+2026-01-27 05:13:25.694 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  25%|██▍       | 1126/4533 [3:03:58<8:59:32,  9.50s/it, gpt_loss=0.251, loss_mean=0.298][A[A
+
+Train step of epoch 1:  25%|██▍       | 1127/4533 [3:03:58<8:51:24,  9.36s/it, gpt_loss=0.251, loss_mean=0.298][A[A2026-01-27 05:13:34.674 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  25%|██▍       | 1127/4533 [3:04:07<8:51:24,  9.36s/it, gpt_loss=0.292, loss_mean=0.298][A[A
+
+Train step of epoch 1:  25%|██▍       | 1128/4533 [3:04:07<8:45:14,  9.26s/it, gpt_loss=0.292, loss_mean=0.298][A[A2026-01-27 05:13:43.585 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  25%|██▍       | 1128/4533 [3:04:16<8:45:14,  9.26s/it, gpt_loss=0.269, loss_mean=0.295][A[A
+
+Train step of epoch 1:  25%|██▍       | 1129/4533 [3:04:16<8:40:31,  9.17s/it, gpt_loss=0.269, loss_mean=0.295][A[A2026-01-27 05:13:52.495 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  25%|██▍       | 1129/4533 [3:04:26<8:40:31,  9.17s/it, gpt_loss=0.291, loss_mean=0.294][A[A
+
+Train step of epoch 1:  25%|██▍       | 1130/4533 [3:04:26<8:52:15,  9.38s/it, gpt_loss=0.291, loss_mean=0.294][A[A2026-01-27 05:14:02.581 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  25%|██▍       | 1130/4533 [3:04:35<8:52:15,  9.38s/it, gpt_loss=0.246, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  25%|██▍       | 1131/4533 [3:04:35<8:42:04,  9.21s/it, gpt_loss=0.246, loss_mean=0.29][A[A2026-01-27 05:14:11.169 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  25%|██▍       | 1131/4533 [3:04:44<8:42:04,  9.21s/it, gpt_loss=0.202, loss_mean=0.281][A[A
+
+Train step of epoch 1:  25%|██▍       | 1132/4533 [3:04:44<8:38:50,  9.15s/it, gpt_loss=0.202, loss_mean=0.281][A[A2026-01-27 05:14:20.184 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  25%|██▍       | 1132/4533 [3:04:56<8:38:50,  9.15s/it, gpt_loss=0.404, loss_mean=0.293][A[A
+
+Train step of epoch 1:  25%|██▍       | 1133/4533 [3:04:56<9:23:50,  9.95s/it, gpt_loss=0.404, loss_mean=0.293][A[A2026-01-27 05:14:32.075 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  25%|██▍       | 1133/4533 [3:05:05<9:23:50,  9.95s/it, gpt_loss=0.234, loss_mean=0.287][A[A
+
+Train step of epoch 1:  25%|██▌       | 1134/4533 [3:05:05<9:01:37,  9.56s/it, gpt_loss=0.234, loss_mean=0.287][A[A2026-01-27 05:14:40.792 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  25%|██▌       | 1134/4533 [3:05:14<9:01:37,  9.56s/it, gpt_loss=0.302, loss_mean=0.289][A[A
+
+Train step of epoch 1:  25%|██▌       | 1135/4533 [3:05:14<8:53:42,  9.42s/it, gpt_loss=0.302, loss_mean=0.289][A[A2026-01-27 05:14:49.973 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  25%|██▌       | 1135/4533 [3:05:26<8:53:42,  9.42s/it, gpt_loss=0.342, loss_mean=0.294][A[A
+
+Train step of epoch 1:  25%|██▌       | 1136/4533 [3:05:26<9:34:32, 10.15s/it, gpt_loss=0.342, loss_mean=0.294][A[A
+[LID Router Debug] Step: 5670
+Batch Size: 14
+Audio Batch Size: 116
+LID Assignments: [4, 5, 5, 5, 9, 2, 2, 5, 9, 1, 4, 2, 5, 5]
+Active Experts in Batch: {1, 2, 4, 5, 9}
+2026-01-27 05:15:01.794 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  25%|██▌       | 1136/4533 [3:05:35<9:34:32, 10.15s/it, gpt_loss=0.281, loss_mean=0.293][A[A
+
+Train step of epoch 1:  25%|██▌       | 1137/4533 [3:05:35<9:23:14,  9.95s/it, gpt_loss=0.281, loss_mean=0.293][A[A2026-01-27 05:15:11.192 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  25%|██▌       | 1137/4533 [3:05:44<9:23:14,  9.95s/it, gpt_loss=0.26, loss_mean=0.289] [A[A
+
+Train step of epoch 1:  25%|██▌       | 1138/4533 [3:05:44<9:09:16,  9.71s/it, gpt_loss=0.26, loss_mean=0.289][A[A2026-01-27 05:15:20.372 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  25%|██▌       | 1138/4533 [3:05:53<9:09:16,  9.71s/it, gpt_loss=0.306, loss_mean=0.291][A[A
+
+Train step of epoch 1:  25%|██▌       | 1139/4533 [3:05:53<9:00:49,  9.56s/it, gpt_loss=0.306, loss_mean=0.291][A[A2026-01-27 05:15:29.656 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  25%|██▌       | 1139/4533 [3:06:05<9:00:49,  9.56s/it, gpt_loss=0.407, loss_mean=0.303][A[A
+
+Train step of epoch 1:  25%|██▌       | 1140/4533 [3:06:05<9:43:42, 10.32s/it, gpt_loss=0.407, loss_mean=0.303][A[A2026-01-27 05:15:41.394 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  25%|██▌       | 1140/4533 [3:06:15<9:43:42, 10.32s/it, gpt_loss=0.229, loss_mean=0.295][A[A
+
+Train step of epoch 1:  25%|██▌       | 1141/4533 [3:06:15<9:27:55, 10.05s/it, gpt_loss=0.229, loss_mean=0.295][A[A2026-01-27 05:15:51.062 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  25%|██▌       | 1141/4533 [3:06:24<9:27:55, 10.05s/it, gpt_loss=0.229, loss_mean=0.289][A[A
+
+Train step of epoch 1:  25%|██▌       | 1142/4533 [3:06:24<9:06:27,  9.67s/it, gpt_loss=0.229, loss_mean=0.289][A[A2026-01-27 05:15:59.785 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  25%|██▌       | 1142/4533 [3:06:33<9:06:27,  9.67s/it, gpt_loss=0.234, loss_mean=0.283][A[A
+
+Train step of epoch 1:  25%|██▌       | 1143/4533 [3:06:33<9:08:30,  9.71s/it, gpt_loss=0.234, loss_mean=0.283][A[A2026-01-27 05:16:09.562 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  25%|██▌       | 1143/4533 [3:06:42<9:08:30,  9.71s/it, gpt_loss=0.248, loss_mean=0.28] [A[A
+
+Train step of epoch 1:  25%|██▌       | 1144/4533 [3:06:42<8:49:56,  9.38s/it, gpt_loss=0.248, loss_mean=0.28][A[A2026-01-27 05:16:18.293 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  25%|██▌       | 1144/4533 [3:06:51<8:49:56,  9.38s/it, gpt_loss=0.249, loss_mean=0.277][A[A
+
+Train step of epoch 1:  25%|██▌       | 1145/4533 [3:06:51<8:43:13,  9.27s/it, gpt_loss=0.249, loss_mean=0.277][A[A2026-01-27 05:16:27.200 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  25%|██▌       | 1145/4533 [3:07:00<8:43:13,  9.27s/it, gpt_loss=0.229, loss_mean=0.272][A[A
+
+Train step of epoch 1:  25%|██▌       | 1146/4533 [3:07:00<8:41:51,  9.24s/it, gpt_loss=0.229, loss_mean=0.272][A[A
+[LID Router Debug] Step: 5680
+Batch Size: 14
+Audio Batch Size: 112
+LID Assignments: [1, 5, 1, 4, 1, 4, 1, 2, 1, 1, 2, 5, 5, 1]
+Active Experts in Batch: {1, 2, 4, 5}
+2026-01-27 05:16:36.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  25%|██▌       | 1146/4533 [3:07:09<8:41:51,  9.24s/it, gpt_loss=0.226, loss_mean=0.267][A[A
+
+Train step of epoch 1:  25%|██▌       | 1147/4533 [3:07:09<8:40:03,  9.22s/it, gpt_loss=0.226, loss_mean=0.267][A[A2026-01-27 05:16:45.588 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  25%|██▌       | 1147/4533 [3:07:19<8:40:03,  9.22s/it, gpt_loss=0.241, loss_mean=0.265][A[A
+
+Train step of epoch 1:  25%|██▌       | 1148/4533 [3:07:19<8:46:44,  9.34s/it, gpt_loss=0.241, loss_mean=0.265][A[A2026-01-27 05:16:55.170 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  25%|██▌       | 1148/4533 [3:07:31<8:46:44,  9.34s/it, gpt_loss=0.383, loss_mean=0.276][A[A
+
+Train step of epoch 1:  25%|██▌       | 1149/4533 [3:07:31<9:23:29,  9.99s/it, gpt_loss=0.383, loss_mean=0.276][A[A2026-01-27 05:17:06.501 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  25%|██▌       | 1149/4533 [3:07:39<9:23:29,  9.99s/it, gpt_loss=0.213, loss_mean=0.27] [A[A
+
+Train step of epoch 1:  25%|██▌       | 1150/4533 [3:07:39<9:04:26,  9.66s/it, gpt_loss=0.213, loss_mean=0.27][A[A2026-01-27 05:17:15.766 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  25%|██▌       | 1150/4533 [3:07:49<9:04:26,  9.66s/it, gpt_loss=0.336, loss_mean=0.277][A[A
+
+Train step of epoch 1:  25%|██▌       | 1151/4533 [3:07:49<9:08:00,  9.72s/it, gpt_loss=0.336, loss_mean=0.277][A[A2026-01-27 05:17:25.473 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  25%|██▌       | 1151/4533 [3:07:59<9:08:00,  9.72s/it, gpt_loss=0.266, loss_mean=0.276][A[A
+
+Train step of epoch 1:  25%|██▌       | 1152/4533 [3:07:59<9:07:41,  9.72s/it, gpt_loss=0.266, loss_mean=0.276][A[A2026-01-27 05:17:35.177 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  25%|██▌       | 1152/4533 [3:08:08<9:07:41,  9.72s/it, gpt_loss=0.306, loss_mean=0.279][A[A
+
+Train step of epoch 1:  25%|██▌       | 1153/4533 [3:08:08<8:55:13,  9.50s/it, gpt_loss=0.306, loss_mean=0.279][A[A2026-01-27 05:17:44.356 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  25%|██▌       | 1153/4533 [3:08:20<8:55:13,  9.50s/it, gpt_loss=0.316, loss_mean=0.282][A[A
+
+Train step of epoch 1:  25%|██▌       | 1154/4533 [3:08:20<9:38:42, 10.28s/it, gpt_loss=0.316, loss_mean=0.282][A[A2026-01-27 05:17:56.288 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  25%|██▌       | 1154/4533 [3:08:29<9:38:42, 10.28s/it, gpt_loss=0.22, loss_mean=0.276] [A[A
+
+Train step of epoch 1:  25%|██▌       | 1155/4533 [3:08:29<9:12:06,  9.81s/it, gpt_loss=0.22, loss_mean=0.276][A[A2026-01-27 05:18:05.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  25%|██▌       | 1155/4533 [3:08:38<9:12:06,  9.81s/it, gpt_loss=0.288, loss_mean=0.277][A[A
+
+Train step of epoch 1:  26%|██▌       | 1156/4533 [3:08:38<9:03:35,  9.66s/it, gpt_loss=0.288, loss_mean=0.277][A[A
+[LID Router Debug] Step: 5690
+Batch Size: 14
+Audio Batch Size: 150
+LID Assignments: [1, 1, 1, 9, 4, 1, 1, 1, 1, 3, 3, 1, 4, 3]
+Active Experts in Batch: {1, 3, 4, 9}
+2026-01-27 05:18:14.465 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  26%|██▌       | 1156/4533 [3:08:47<9:03:35,  9.66s/it, gpt_loss=0.267, loss_mean=0.276][A[A
+
+Train step of epoch 1:  26%|██▌       | 1157/4533 [3:08:47<8:54:14,  9.49s/it, gpt_loss=0.267, loss_mean=0.276][A[A2026-01-27 05:18:23.556 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  26%|██▌       | 1157/4533 [3:08:57<8:54:14,  9.49s/it, gpt_loss=0.195, loss_mean=0.268][A[A
+
+Train step of epoch 1:  26%|██▌       | 1158/4533 [3:08:57<8:50:10,  9.43s/it, gpt_loss=0.195, loss_mean=0.268][A[A2026-01-27 05:18:32.575 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  26%|██▌       | 1158/4533 [3:09:08<8:50:10,  9.43s/it, gpt_loss=0.302, loss_mean=0.272][A[A
+
+Train step of epoch 1:  26%|██▌       | 1159/4533 [3:09:08<9:30:32, 10.15s/it, gpt_loss=0.302, loss_mean=0.272][A[A2026-01-27 05:18:44.383 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  26%|██▌       | 1159/4533 [3:09:17<9:30:32, 10.15s/it, gpt_loss=0.271, loss_mean=0.271][A[A
+
+Train step of epoch 1:  26%|██▌       | 1160/4533 [3:09:17<9:06:03,  9.71s/it, gpt_loss=0.271, loss_mean=0.271][A[A2026-01-27 05:18:53.161 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  26%|██▌       | 1160/4533 [3:09:26<9:06:03,  9.71s/it, gpt_loss=0.248, loss_mean=0.269][A[A
+
+Train step of epoch 1:  26%|██▌       | 1161/4533 [3:09:26<8:50:00,  9.43s/it, gpt_loss=0.248, loss_mean=0.269][A[A2026-01-27 05:19:01.864 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  26%|██▌       | 1161/4533 [3:09:38<8:50:00,  9.43s/it, gpt_loss=0.325, loss_mean=0.275][A[A
+
+Train step of epoch 1:  26%|██▌       | 1162/4533 [3:09:38<9:29:16, 10.13s/it, gpt_loss=0.325, loss_mean=0.275][A[A2026-01-27 05:19:13.697 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  26%|██▌       | 1162/4533 [3:09:49<9:29:16, 10.13s/it, gpt_loss=0.382, loss_mean=0.285][A[A
+
+Train step of epoch 1:  26%|██▌       | 1163/4533 [3:09:49<9:56:21, 10.62s/it, gpt_loss=0.382, loss_mean=0.285][A[A2026-01-27 05:19:25.655 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  26%|██▌       | 1163/4533 [3:09:58<9:56:21, 10.62s/it, gpt_loss=0.278, loss_mean=0.285][A[A
+
+Train step of epoch 1:  26%|██▌       | 1164/4533 [3:09:58<9:29:19, 10.14s/it, gpt_loss=0.278, loss_mean=0.285][A[A2026-01-27 05:19:34.659 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  26%|██▌       | 1164/4533 [3:10:07<9:29:19, 10.14s/it, gpt_loss=0.281, loss_mean=0.284][A[A
+
+Train step of epoch 1:  26%|██▌       | 1165/4533 [3:10:07<9:12:04,  9.83s/it, gpt_loss=0.281, loss_mean=0.284][A[A2026-01-27 05:19:43.694 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  26%|██▌       | 1165/4533 [3:10:19<9:12:04,  9.83s/it, gpt_loss=0.343, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  26%|██▌       | 1166/4533 [3:10:19<9:45:11, 10.43s/it, gpt_loss=0.343, loss_mean=0.29][A[A
+[LID Router Debug] Step: 5700
+Batch Size: 14
+Audio Batch Size: 147
+LID Assignments: [5, 0, 9, 6, 0, 2, 1, 1, 0, 2, 0, 9, 3, 9]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-27 05:19:55.567 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-27 05:20:04,672] [INFO] [logging.py:96:log_dist] [Rank 0] step=5700, skipped=0, lr=[1.2690786431887218e-05, 1.2690786431887218e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 05:20:04,673] [INFO] [timer.py:260:stop] epoch=0/micro_step=5700/global_step=5700, RunningAvgSamplesPerSec=5.72807588470676, CurrSamplesPerSec=5.686568544895818, MemAllocated=14.7GB, MaxMemAllocated=53.98GB
+
+
+Train step of epoch 1:  26%|██▌       | 1166/4533 [3:10:29<9:45:11, 10.43s/it, gpt_loss=0.323, loss_mean=0.293][A[A
+
+Train step of epoch 1:  26%|██▌       | 1167/4533 [3:10:29<9:35:37, 10.26s/it, gpt_loss=0.323, loss_mean=0.293][A[A2026-01-27 05:20:05.266 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  26%|██▌       | 1167/4533 [3:10:41<9:35:37, 10.26s/it, gpt_loss=0.365, loss_mean=0.301][A[A
+
+Train step of epoch 1:  26%|██▌       | 1168/4533 [3:10:41<9:58:04, 10.66s/it, gpt_loss=0.365, loss_mean=0.301][A[A2026-01-27 05:20:16.987 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  26%|██▌       | 1168/4533 [3:10:53<9:58:04, 10.66s/it, gpt_loss=0.347, loss_mean=0.305][A[A
+
+Train step of epoch 1:  26%|██▌       | 1169/4533 [3:10:53<10:17:34, 11.01s/it, gpt_loss=0.347, loss_mean=0.305][A[A2026-01-27 05:20:28.565 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  26%|██▌       | 1169/4533 [3:11:01<10:17:34, 11.01s/it, gpt_loss=0.263, loss_mean=0.301][A[A
+
+Train step of epoch 1:  26%|██▌       | 1170/4533 [3:11:01<9:35:33, 10.27s/it, gpt_loss=0.263, loss_mean=0.301] [A[A2026-01-27 05:20:37.284 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  26%|██▌       | 1170/4533 [3:11:13<9:35:33, 10.27s/it, gpt_loss=0.369, loss_mean=0.308][A[A
+
+Train step of epoch 1:  26%|██▌       | 1171/4533 [3:11:13<9:59:59, 10.71s/it, gpt_loss=0.369, loss_mean=0.308][A[A2026-01-27 05:20:48.780 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  26%|██▌       | 1171/4533 [3:11:24<9:59:59, 10.71s/it, gpt_loss=0.3, loss_mean=0.307]  [A[A
+
+Train step of epoch 1:  26%|██▌       | 1172/4533 [3:11:24<10:12:49, 10.94s/it, gpt_loss=0.3, loss_mean=0.307][A[A2026-01-27 05:21:00.291 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  26%|██▌       | 1172/4533 [3:11:33<10:12:49, 10.94s/it, gpt_loss=0.244, loss_mean=0.301][A[A
+
+Train step of epoch 1:  26%|██▌       | 1173/4533 [3:11:33<9:36:40, 10.30s/it, gpt_loss=0.244, loss_mean=0.301] [A[A2026-01-27 05:21:09.100 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  26%|██▌       | 1173/4533 [3:11:45<9:36:40, 10.30s/it, gpt_loss=0.478, loss_mean=0.318][A[A
+
+Train step of epoch 1:  26%|██▌       | 1174/4533 [3:11:45<9:54:47, 10.62s/it, gpt_loss=0.478, loss_mean=0.318][A[A2026-01-27 05:21:20.573 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  26%|██▌       | 1174/4533 [3:11:54<9:54:47, 10.62s/it, gpt_loss=0.322, loss_mean=0.319][A[A
+
+Train step of epoch 1:  26%|██▌       | 1175/4533 [3:11:54<9:35:46, 10.29s/it, gpt_loss=0.322, loss_mean=0.319][A[A2026-01-27 05:21:29.983 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  26%|██▌       | 1175/4533 [3:12:03<9:35:46, 10.29s/it, gpt_loss=0.343, loss_mean=0.321][A[A
+
+Train step of epoch 1:  26%|██▌       | 1176/4533 [3:12:03<9:05:17,  9.75s/it, gpt_loss=0.343, loss_mean=0.321][A[A
+[LID Router Debug] Step: 5710
+Batch Size: 14
+Audio Batch Size: 155
+LID Assignments: [1, 2, 1, 5, 2, 0, 3, 9, 0, 2, 2, 9, 0, 9]
+Active Experts in Batch: {0, 1, 2, 3, 5, 9}
+2026-01-27 05:21:38.782 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  26%|██▌       | 1176/4533 [3:12:12<9:05:17,  9.75s/it, gpt_loss=0.27, loss_mean=0.316] [A[A
+
+Train step of epoch 1:  26%|██▌       | 1177/4533 [3:12:12<8:54:58,  9.56s/it, gpt_loss=0.27, loss_mean=0.316][A[A2026-01-27 05:21:47.866 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  26%|██▌       | 1177/4533 [3:12:21<8:54:58,  9.56s/it, gpt_loss=0.22, loss_mean=0.306][A[A
+
+Train step of epoch 1:  26%|██▌       | 1178/4533 [3:12:21<8:44:34,  9.38s/it, gpt_loss=0.22, loss_mean=0.306][A[A2026-01-27 05:21:56.499 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  26%|██▌       | 1178/4533 [3:12:29<8:44:34,  9.38s/it, gpt_loss=0.265, loss_mean=0.302][A[A
+
+Train step of epoch 1:  26%|██▌       | 1179/4533 [3:12:29<8:26:03,  9.05s/it, gpt_loss=0.265, loss_mean=0.302][A[A2026-01-27 05:22:05.063 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  26%|██▌       | 1179/4533 [3:12:38<8:26:03,  9.05s/it, gpt_loss=0.265, loss_mean=0.299][A[A
+
+Train step of epoch 1:  26%|██▌       | 1180/4533 [3:12:38<8:31:51,  9.16s/it, gpt_loss=0.265, loss_mean=0.299][A[A2026-01-27 05:22:14.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  26%|██▌       | 1180/4533 [3:12:47<8:31:51,  9.16s/it, gpt_loss=0.256, loss_mean=0.294][A[A
+
+Train step of epoch 1:  26%|██▌       | 1181/4533 [3:12:47<8:24:55,  9.04s/it, gpt_loss=0.256, loss_mean=0.294][A[A2026-01-27 05:22:23.293 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  26%|██▌       | 1181/4533 [3:12:56<8:24:55,  9.04s/it, gpt_loss=0.258, loss_mean=0.291][A[A
+
+Train step of epoch 1:  26%|██▌       | 1182/4533 [3:12:56<8:25:29,  9.05s/it, gpt_loss=0.258, loss_mean=0.291][A[A2026-01-27 05:22:32.262 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  26%|██▌       | 1182/4533 [3:13:08<8:25:29,  9.05s/it, gpt_loss=0.414, loss_mean=0.303][A[A
+
+Train step of epoch 1:  26%|██▌       | 1183/4533 [3:13:08<9:10:20,  9.86s/it, gpt_loss=0.414, loss_mean=0.303][A[A2026-01-27 05:22:43.877 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  26%|██▌       | 1183/4533 [3:13:17<9:10:20,  9.86s/it, gpt_loss=0.262, loss_mean=0.299][A[A
+
+Train step of epoch 1:  26%|██▌       | 1184/4533 [3:13:17<8:50:00,  9.50s/it, gpt_loss=0.262, loss_mean=0.299][A[A2026-01-27 05:22:52.452 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  26%|██▌       | 1184/4533 [3:13:28<8:50:00,  9.50s/it, gpt_loss=0.393, loss_mean=0.308][A[A
+
+Train step of epoch 1:  26%|██▌       | 1185/4533 [3:13:28<9:26:05, 10.14s/it, gpt_loss=0.393, loss_mean=0.308][A[A2026-01-27 05:23:04.066 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  26%|██▌       | 1185/4533 [3:13:37<9:26:05, 10.14s/it, gpt_loss=0.279, loss_mean=0.305][A[A
+
+Train step of epoch 1:  26%|██▌       | 1186/4533 [3:13:37<9:10:54,  9.88s/it, gpt_loss=0.279, loss_mean=0.305][A[A
+[LID Router Debug] Step: 5720
+Batch Size: 14
+Audio Batch Size: 146
+LID Assignments: [5, 1, 2, 3, 0, 0, 4, 6, 9, 5, 1, 4, 4, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 05:23:13.476 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  26%|██▌       | 1186/4533 [3:13:49<9:10:54,  9.88s/it, gpt_loss=0.364, loss_mean=0.311][A[A
+
+Train step of epoch 1:  26%|██▌       | 1187/4533 [3:13:49<9:38:03, 10.37s/it, gpt_loss=0.364, loss_mean=0.311][A[A2026-01-27 05:23:25.197 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  26%|██▌       | 1187/4533 [3:13:58<9:38:03, 10.37s/it, gpt_loss=0.265, loss_mean=0.307][A[A
+
+Train step of epoch 1:  26%|██▌       | 1188/4533 [3:13:58<9:12:56,  9.92s/it, gpt_loss=0.265, loss_mean=0.307][A[A2026-01-27 05:23:33.689 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  26%|██▌       | 1188/4533 [3:14:06<9:12:56,  9.92s/it, gpt_loss=0.301, loss_mean=0.306][A[A
+
+Train step of epoch 1:  26%|██▌       | 1189/4533 [3:14:06<8:47:14,  9.46s/it, gpt_loss=0.301, loss_mean=0.306][A[A2026-01-27 05:23:42.357 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  26%|██▌       | 1189/4533 [3:14:16<8:47:14,  9.46s/it, gpt_loss=0.266, loss_mean=0.302][A[A
+
+Train step of epoch 1:  26%|██▋       | 1190/4533 [3:14:16<8:48:55,  9.49s/it, gpt_loss=0.266, loss_mean=0.302][A[A2026-01-27 05:23:51.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  26%|██▋       | 1190/4533 [3:14:27<8:48:55,  9.49s/it, gpt_loss=0.325, loss_mean=0.304][A[A
+
+Train step of epoch 1:  26%|██▋       | 1191/4533 [3:14:27<9:21:00, 10.07s/it, gpt_loss=0.325, loss_mean=0.304][A[A2026-01-27 05:24:03.466 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  26%|██▋       | 1191/4533 [3:14:39<9:21:00, 10.07s/it, gpt_loss=0.397, loss_mean=0.314][A[A
+
+Train step of epoch 1:  26%|██▋       | 1192/4533 [3:14:39<9:53:17, 10.65s/it, gpt_loss=0.397, loss_mean=0.314][A[A2026-01-27 05:24:15.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  26%|██▋       | 1192/4533 [3:14:48<9:53:17, 10.65s/it, gpt_loss=0.219, loss_mean=0.304][A[A
+
+Train step of epoch 1:  26%|██▋       | 1193/4533 [3:14:48<9:18:45, 10.04s/it, gpt_loss=0.219, loss_mean=0.304][A[A2026-01-27 05:24:24.083 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  26%|██▋       | 1193/4533 [3:14:57<9:18:45, 10.04s/it, gpt_loss=0.278, loss_mean=0.302][A[A
+
+Train step of epoch 1:  26%|██▋       | 1194/4533 [3:14:57<9:05:18,  9.80s/it, gpt_loss=0.278, loss_mean=0.302][A[A2026-01-27 05:24:33.279 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  26%|██▋       | 1194/4533 [3:15:06<9:05:18,  9.80s/it, gpt_loss=0.338, loss_mean=0.305][A[A
+
+Train step of epoch 1:  26%|██▋       | 1195/4533 [3:15:06<8:46:57,  9.47s/it, gpt_loss=0.338, loss_mean=0.305][A[A2026-01-27 05:24:41.784 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  26%|██▋       | 1195/4533 [3:15:15<8:46:57,  9.47s/it, gpt_loss=0.252, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  26%|██▋       | 1196/4533 [3:15:15<8:37:02,  9.30s/it, gpt_loss=0.252, loss_mean=0.3][A[A
+[LID Router Debug] Step: 5730
+Batch Size: 14
+Audio Batch Size: 166
+LID Assignments: [6, 6, 4, 0, 3, 9, 4, 2, 4, 1, 0, 3, 5, 1]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 05:24:50.900 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  26%|██▋       | 1196/4533 [3:15:23<8:37:02,  9.30s/it, gpt_loss=0.345, loss_mean=0.304][A[A
+
+Train step of epoch 1:  26%|██▋       | 1197/4533 [3:15:23<8:27:24,  9.13s/it, gpt_loss=0.345, loss_mean=0.304][A[A2026-01-27 05:24:59.659 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  26%|██▋       | 1197/4533 [3:15:32<8:27:24,  9.13s/it, gpt_loss=0.267, loss_mean=0.301][A[A
+
+Train step of epoch 1:  26%|██▋       | 1198/4533 [3:15:32<8:22:20,  9.04s/it, gpt_loss=0.267, loss_mean=0.301][A[A2026-01-27 05:25:08.455 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  26%|██▋       | 1198/4533 [3:15:42<8:22:20,  9.04s/it, gpt_loss=0.213, loss_mean=0.292][A[A
+
+Train step of epoch 1:  26%|██▋       | 1199/4533 [3:15:42<8:28:36,  9.15s/it, gpt_loss=0.213, loss_mean=0.292][A[A2026-01-27 05:25:17.872 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  26%|██▋       | 1199/4533 [3:15:51<8:28:36,  9.15s/it, gpt_loss=0.344, loss_mean=0.297][A[A
+
+Train step of epoch 1:  26%|██▋       | 1200/4533 [3:15:51<8:36:50,  9.30s/it, gpt_loss=0.344, loss_mean=0.297][A[A2026-01-27 05:25:27.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  26%|██▋       | 1200/4533 [3:16:00<8:36:50,  9.30s/it, gpt_loss=0.262, loss_mean=0.294][A[A
+
+Train step of epoch 1:  26%|██▋       | 1201/4533 [3:16:00<8:31:52,  9.22s/it, gpt_loss=0.262, loss_mean=0.294][A[A2026-01-27 05:25:36.587 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  26%|██▋       | 1201/4533 [3:16:09<8:31:52,  9.22s/it, gpt_loss=0.218, loss_mean=0.286][A[A
+
+Train step of epoch 1:  27%|██▋       | 1202/4533 [3:16:09<8:25:01,  9.10s/it, gpt_loss=0.218, loss_mean=0.286][A[A2026-01-27 05:25:45.272 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  27%|██▋       | 1202/4533 [3:16:18<8:25:01,  9.10s/it, gpt_loss=0.286, loss_mean=0.286][A[A
+
+Train step of epoch 1:  27%|██▋       | 1203/4533 [3:16:18<8:19:32,  9.00s/it, gpt_loss=0.286, loss_mean=0.286][A[A2026-01-27 05:25:54.169 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  27%|██▋       | 1203/4533 [3:16:28<8:19:32,  9.00s/it, gpt_loss=0.302, loss_mean=0.288][A[A
+
+Train step of epoch 1:  27%|██▋       | 1204/4533 [3:16:28<8:30:18,  9.20s/it, gpt_loss=0.302, loss_mean=0.288][A[A2026-01-27 05:26:03.665 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  27%|██▋       | 1204/4533 [3:16:39<8:30:18,  9.20s/it, gpt_loss=0.313, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  27%|██▋       | 1205/4533 [3:16:39<9:10:40,  9.93s/it, gpt_loss=0.313, loss_mean=0.29][A[A2026-01-27 05:26:15.363 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  27%|██▋       | 1205/4533 [3:16:49<9:10:40,  9.93s/it, gpt_loss=0.303, loss_mean=0.291][A[A
+
+Train step of epoch 1:  27%|██▋       | 1206/4533 [3:16:49<9:09:08,  9.90s/it, gpt_loss=0.303, loss_mean=0.291][A[A
+[LID Router Debug] Step: 5740
+Batch Size: 14
+Audio Batch Size: 130
+LID Assignments: [0, 2, 3, 6, 2, 5, 9, 4, 5, 2, 0, 6, 0, 5]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-27 05:26:25.079 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  27%|██▋       | 1206/4533 [3:16:58<9:09:08,  9.90s/it, gpt_loss=0.322, loss_mean=0.294][A[A
+
+Train step of epoch 1:  27%|██▋       | 1207/4533 [3:16:58<8:49:10,  9.55s/it, gpt_loss=0.322, loss_mean=0.294][A[A2026-01-27 05:26:33.957 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  27%|██▋       | 1207/4533 [3:17:07<8:49:10,  9.55s/it, gpt_loss=0.283, loss_mean=0.293][A[A
+
+Train step of epoch 1:  27%|██▋       | 1208/4533 [3:17:07<8:37:15,  9.33s/it, gpt_loss=0.283, loss_mean=0.293][A[A2026-01-27 05:26:42.762 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  27%|██▋       | 1208/4533 [3:17:16<8:37:15,  9.33s/it, gpt_loss=0.318, loss_mean=0.296][A[A
+
+Train step of epoch 1:  27%|██▋       | 1209/4533 [3:17:16<8:46:03,  9.50s/it, gpt_loss=0.318, loss_mean=0.296][A[A2026-01-27 05:26:52.164 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  27%|██▋       | 1209/4533 [3:17:28<8:46:03,  9.50s/it, gpt_loss=0.336, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  27%|██▋       | 1210/4533 [3:17:28<9:18:30, 10.08s/it, gpt_loss=0.336, loss_mean=0.3][A[A2026-01-27 05:27:04.178 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  27%|██▋       | 1210/4533 [3:17:40<9:18:30, 10.08s/it, gpt_loss=0.344, loss_mean=0.304][A[A
+
+Train step of epoch 1:  27%|██▋       | 1211/4533 [3:17:40<9:48:34, 10.63s/it, gpt_loss=0.344, loss_mean=0.304][A[A2026-01-27 05:27:16.089 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  27%|██▋       | 1211/4533 [3:17:50<9:48:34, 10.63s/it, gpt_loss=0.324, loss_mean=0.306][A[A
+
+Train step of epoch 1:  27%|██▋       | 1212/4533 [3:17:50<9:32:36, 10.35s/it, gpt_loss=0.324, loss_mean=0.306][A[A2026-01-27 05:27:25.773 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  27%|██▋       | 1212/4533 [3:17:58<9:32:36, 10.35s/it, gpt_loss=0.274, loss_mean=0.303][A[A
+
+Train step of epoch 1:  27%|██▋       | 1213/4533 [3:17:58<9:08:37,  9.91s/it, gpt_loss=0.274, loss_mean=0.303][A[A2026-01-27 05:27:34.693 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  27%|██▋       | 1213/4533 [3:18:08<9:08:37,  9.91s/it, gpt_loss=0.307, loss_mean=0.303][A[A
+
+Train step of epoch 1:  27%|██▋       | 1214/4533 [3:18:08<9:05:05,  9.85s/it, gpt_loss=0.307, loss_mean=0.303][A[A2026-01-27 05:27:44.167 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  27%|██▋       | 1214/4533 [3:18:20<9:05:05,  9.85s/it, gpt_loss=0.35, loss_mean=0.308] [A[A
+
+Train step of epoch 1:  27%|██▋       | 1215/4533 [3:18:20<9:34:01, 10.38s/it, gpt_loss=0.35, loss_mean=0.308][A[A2026-01-27 05:27:55.970 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  27%|██▋       | 1215/4533 [3:18:29<9:34:01, 10.38s/it, gpt_loss=0.231, loss_mean=0.3] [A[A
+
+Train step of epoch 1:  27%|██▋       | 1216/4533 [3:18:29<9:09:05,  9.93s/it, gpt_loss=0.231, loss_mean=0.3][A[A
+[LID Router Debug] Step: 5750
+Batch Size: 14
+Audio Batch Size: 179
+LID Assignments: [3, 2, 6, 1, 4, 3, 1, 3, 0, 3, 0, 2, 0, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 6}
+2026-01-27 05:28:04.970 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  27%|██▋       | 1216/4533 [3:18:38<9:09:05,  9.93s/it, gpt_loss=0.222, loss_mean=0.293][A[A
+
+Train step of epoch 1:  27%|██▋       | 1217/4533 [3:18:38<9:06:23,  9.89s/it, gpt_loss=0.222, loss_mean=0.293][A[A2026-01-27 05:28:14.477 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  27%|██▋       | 1217/4533 [3:18:48<9:06:23,  9.89s/it, gpt_loss=0.291, loss_mean=0.292][A[A
+
+Train step of epoch 1:  27%|██▋       | 1218/4533 [3:18:48<9:01:18,  9.80s/it, gpt_loss=0.291, loss_mean=0.292][A[A2026-01-27 05:28:23.993 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  27%|██▋       | 1218/4533 [3:18:57<9:01:18,  9.80s/it, gpt_loss=0.322, loss_mean=0.295][A[A
+
+Train step of epoch 1:  27%|██▋       | 1219/4533 [3:18:57<8:41:47,  9.45s/it, gpt_loss=0.322, loss_mean=0.295][A[A2026-01-27 05:28:32.794 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  27%|██▋       | 1219/4533 [3:19:05<8:41:47,  9.45s/it, gpt_loss=0.232, loss_mean=0.289][A[A
+
+Train step of epoch 1:  27%|██▋       | 1220/4533 [3:19:05<8:31:50,  9.27s/it, gpt_loss=0.232, loss_mean=0.289][A[A2026-01-27 05:28:41.486 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  27%|██▋       | 1220/4533 [3:19:14<8:31:50,  9.27s/it, gpt_loss=0.234, loss_mean=0.283][A[A
+
+Train step of epoch 1:  27%|██▋       | 1221/4533 [3:19:14<8:26:46,  9.18s/it, gpt_loss=0.234, loss_mean=0.283][A[A2026-01-27 05:28:50.388 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  27%|██▋       | 1221/4533 [3:19:26<8:26:46,  9.18s/it, gpt_loss=0.295, loss_mean=0.285][A[A
+
+Train step of epoch 1:  27%|██▋       | 1222/4533 [3:19:26<9:10:15,  9.97s/it, gpt_loss=0.295, loss_mean=0.285][A[A2026-01-27 05:29:02.484 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  27%|██▋       | 1222/4533 [3:19:35<9:10:15,  9.97s/it, gpt_loss=0.335, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  27%|██▋       | 1223/4533 [3:19:35<8:50:09,  9.61s/it, gpt_loss=0.335, loss_mean=0.29][A[A2026-01-27 05:29:11.365 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  27%|██▋       | 1223/4533 [3:19:44<8:50:09,  9.61s/it, gpt_loss=0.292, loss_mean=0.29][A[A
+
+Train step of epoch 1:  27%|██▋       | 1224/4533 [3:19:44<8:40:11,  9.43s/it, gpt_loss=0.292, loss_mean=0.29][A[A2026-01-27 05:29:20.197 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  27%|██▋       | 1224/4533 [3:19:56<8:40:11,  9.43s/it, gpt_loss=0.394, loss_mean=0.3] [A[A
+
+Train step of epoch 1:  27%|██▋       | 1225/4533 [3:19:56<9:19:24, 10.15s/it, gpt_loss=0.394, loss_mean=0.3][A[A2026-01-27 05:29:31.979 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  27%|██▋       | 1225/4533 [3:20:08<9:19:24, 10.15s/it, gpt_loss=0.368, loss_mean=0.307][A[A
+
+Train step of epoch 1:  27%|██▋       | 1226/4533 [3:20:08<9:45:39, 10.63s/it, gpt_loss=0.368, loss_mean=0.307][A[A
+[LID Router Debug] Step: 5760
+Batch Size: 14
+Audio Batch Size: 141
+LID Assignments: [6, 4, 3, 1, 9, 0, 4, 6, 5, 3, 0, 4, 4, 1]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6, 9}
+2026-01-27 05:29:43.758 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  27%|██▋       | 1226/4533 [3:20:16<9:45:39, 10.63s/it, gpt_loss=0.201, loss_mean=0.297][A[A
+
+Train step of epoch 1:  27%|██▋       | 1227/4533 [3:20:16<9:15:11, 10.08s/it, gpt_loss=0.201, loss_mean=0.297][A[A2026-01-27 05:29:52.554 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  27%|██▋       | 1227/4533 [3:20:25<9:15:11, 10.08s/it, gpt_loss=0.261, loss_mean=0.293][A[A
+
+Train step of epoch 1:  27%|██▋       | 1228/4533 [3:20:25<8:55:06,  9.71s/it, gpt_loss=0.261, loss_mean=0.293][A[A2026-01-27 05:30:01.172 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  27%|██▋       | 1228/4533 [3:20:35<8:55:06,  9.71s/it, gpt_loss=0.257, loss_mean=0.289][A[A
+
+Train step of epoch 1:  27%|██▋       | 1229/4533 [3:20:35<8:51:40,  9.66s/it, gpt_loss=0.257, loss_mean=0.289][A[A2026-01-27 05:30:10.978 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  27%|██▋       | 1229/4533 [3:20:47<8:51:40,  9.66s/it, gpt_loss=0.366, loss_mean=0.297][A[A
+
+Train step of epoch 1:  27%|██▋       | 1230/4533 [3:20:47<9:25:36, 10.27s/it, gpt_loss=0.366, loss_mean=0.297][A[A2026-01-27 05:30:22.855 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  27%|██▋       | 1230/4533 [3:20:56<9:25:36, 10.27s/it, gpt_loss=0.267, loss_mean=0.294][A[A
+
+Train step of epoch 1:  27%|██▋       | 1231/4533 [3:20:56<9:19:17, 10.16s/it, gpt_loss=0.267, loss_mean=0.294][A[A2026-01-27 05:30:32.455 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  27%|██▋       | 1231/4533 [3:21:05<9:19:17, 10.16s/it, gpt_loss=0.238, loss_mean=0.288][A[A
+
+Train step of epoch 1:  27%|██▋       | 1232/4533 [3:21:05<8:53:48,  9.70s/it, gpt_loss=0.238, loss_mean=0.288][A[A2026-01-27 05:30:41.367 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  27%|██▋       | 1232/4533 [3:21:15<8:53:48,  9.70s/it, gpt_loss=0.334, loss_mean=0.293][A[A
+
+Train step of epoch 1:  27%|██▋       | 1233/4533 [3:21:15<8:55:47,  9.74s/it, gpt_loss=0.334, loss_mean=0.293][A[A2026-01-27 05:30:50.987 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  27%|██▋       | 1233/4533 [3:21:24<8:55:47,  9.74s/it, gpt_loss=0.275, loss_mean=0.291][A[A
+
+Train step of epoch 1:  27%|██▋       | 1234/4533 [3:21:24<8:43:08,  9.51s/it, gpt_loss=0.275, loss_mean=0.291][A[A2026-01-27 05:30:59.980 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  27%|██▋       | 1234/4533 [3:21:33<8:43:08,  9.51s/it, gpt_loss=0.206, loss_mean=0.283][A[A
+
+Train step of epoch 1:  27%|██▋       | 1235/4533 [3:21:33<8:41:07,  9.48s/it, gpt_loss=0.206, loss_mean=0.283][A[A2026-01-27 05:31:09.467 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  27%|██▋       | 1235/4533 [3:21:46<8:41:07,  9.48s/it, gpt_loss=0.349, loss_mean=0.289][A[A
+
+Train step of epoch 1:  27%|██▋       | 1236/4533 [3:21:46<9:28:17, 10.34s/it, gpt_loss=0.349, loss_mean=0.289][A[A
+[LID Router Debug] Step: 5770
+Batch Size: 14
+Audio Batch Size: 176
+LID Assignments: [3, 3, 4, 3, 0, 9, 2, 9, 5, 9, 2, 2, 5, 3]
+Active Experts in Batch: {0, 2, 3, 4, 5, 9}
+2026-01-27 05:31:21.883 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  27%|██▋       | 1236/4533 [3:21:57<9:28:17, 10.34s/it, gpt_loss=0.37, loss_mean=0.297] [A[A
+
+Train step of epoch 1:  27%|██▋       | 1237/4533 [3:21:57<9:52:20, 10.78s/it, gpt_loss=0.37, loss_mean=0.297][A[A2026-01-27 05:31:33.675 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  27%|██▋       | 1237/4533 [3:22:10<9:52:20, 10.78s/it, gpt_loss=0.377, loss_mean=0.305][A[A
+
+Train step of epoch 1:  27%|██▋       | 1238/4533 [3:22:10<10:14:39, 11.19s/it, gpt_loss=0.377, loss_mean=0.305][A[A2026-01-27 05:31:45.697 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  27%|██▋       | 1238/4533 [3:22:21<10:14:39, 11.19s/it, gpt_loss=0.372, loss_mean=0.312][A[A
+
+Train step of epoch 1:  27%|██▋       | 1239/4533 [3:22:21<10:20:42, 11.31s/it, gpt_loss=0.372, loss_mean=0.312][A[A2026-01-27 05:31:57.382 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  27%|██▋       | 1239/4533 [3:22:33<10:20:42, 11.31s/it, gpt_loss=0.357, loss_mean=0.316][A[A
+
+Train step of epoch 1:  27%|██▋       | 1240/4533 [3:22:33<10:29:04, 11.46s/it, gpt_loss=0.357, loss_mean=0.316][A[A2026-01-27 05:32:09.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  27%|██▋       | 1240/4533 [3:22:45<10:29:04, 11.46s/it, gpt_loss=0.34, loss_mean=0.319] [A[A
+
+Train step of epoch 1:  27%|██▋       | 1241/4533 [3:22:45<10:35:12, 11.58s/it, gpt_loss=0.34, loss_mean=0.319][A[A2026-01-27 05:32:21.085 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  27%|██▋       | 1241/4533 [3:22:54<10:35:12, 11.58s/it, gpt_loss=0.261, loss_mean=0.313][A[A
+
+Train step of epoch 1:  27%|██▋       | 1242/4533 [3:22:54<9:54:05, 10.83s/it, gpt_loss=0.261, loss_mean=0.313] [A[A2026-01-27 05:32:29.978 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  27%|██▋       | 1242/4533 [3:23:04<9:54:05, 10.83s/it, gpt_loss=0.3, loss_mean=0.312]  [A[A
+
+Train step of epoch 1:  27%|██▋       | 1243/4533 [3:23:04<9:36:26, 10.51s/it, gpt_loss=0.3, loss_mean=0.312][A[A2026-01-27 05:32:39.782 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  27%|██▋       | 1243/4533 [3:23:13<9:36:26, 10.51s/it, gpt_loss=0.262, loss_mean=0.307][A[A
+
+Train step of epoch 1:  27%|██▋       | 1244/4533 [3:23:13<9:08:53, 10.01s/it, gpt_loss=0.262, loss_mean=0.307][A[A2026-01-27 05:32:48.393 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  27%|██▋       | 1244/4533 [3:23:24<9:08:53, 10.01s/it, gpt_loss=0.427, loss_mean=0.319][A[A
+
+Train step of epoch 1:  27%|██▋       | 1245/4533 [3:23:24<9:31:58, 10.44s/it, gpt_loss=0.427, loss_mean=0.319][A[A2026-01-27 05:33:00.076 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  27%|██▋       | 1245/4533 [3:23:33<9:31:58, 10.44s/it, gpt_loss=0.289, loss_mean=0.316][A[A
+
+Train step of epoch 1:  27%|██▋       | 1246/4533 [3:23:33<9:10:46, 10.05s/it, gpt_loss=0.289, loss_mean=0.316][A[A
+[LID Router Debug] Step: 5780
+Batch Size: 14
+Audio Batch Size: 183
+LID Assignments: [4, 5, 9, 4, 2, 9, 0, 9, 2, 2, 4, 3, 3, 3]
+Active Experts in Batch: {0, 2, 3, 4, 5, 9}
+2026-01-27 05:33:09.377 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  27%|██▋       | 1246/4533 [3:23:42<9:10:46, 10.05s/it, gpt_loss=0.234, loss_mean=0.308][A[A
+
+Train step of epoch 1:  28%|██▊       | 1247/4533 [3:23:42<8:53:25,  9.74s/it, gpt_loss=0.234, loss_mean=0.308][A[A2026-01-27 05:33:18.461 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  28%|██▊       | 1247/4533 [3:23:54<8:53:25,  9.74s/it, gpt_loss=0.256, loss_mean=0.303][A[A
+
+Train step of epoch 1:  28%|██▊       | 1248/4533 [3:23:54<9:32:54, 10.46s/it, gpt_loss=0.256, loss_mean=0.303][A[A2026-01-27 05:33:30.501 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  28%|██▊       | 1248/4533 [3:24:03<9:32:54, 10.46s/it, gpt_loss=0.26, loss_mean=0.298] [A[A
+
+Train step of epoch 1:  28%|██▊       | 1249/4533 [3:24:03<9:06:12,  9.98s/it, gpt_loss=0.26, loss_mean=0.298][A[A2026-01-27 05:33:38.964 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  28%|██▊       | 1249/4533 [3:24:11<9:06:12,  9.98s/it, gpt_loss=0.243, loss_mean=0.293][A[A
+
+Train step of epoch 1:  28%|██▊       | 1250/4533 [3:24:11<8:39:22,  9.49s/it, gpt_loss=0.243, loss_mean=0.293][A[A2026-01-27 05:33:47.692 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  28%|██▊       | 1250/4533 [3:24:21<8:39:22,  9.49s/it, gpt_loss=0.366, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  28%|██▊       | 1251/4533 [3:24:21<8:42:41,  9.56s/it, gpt_loss=0.366, loss_mean=0.3][A[A2026-01-27 05:33:57.191 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  28%|██▊       | 1251/4533 [3:24:31<8:42:41,  9.56s/it, gpt_loss=0.311, loss_mean=0.301][A[A
+
+Train step of epoch 1:  28%|██▊       | 1252/4533 [3:24:31<8:40:09,  9.51s/it, gpt_loss=0.311, loss_mean=0.301][A[A2026-01-27 05:34:06.580 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  28%|██▊       | 1252/4533 [3:24:40<8:40:09,  9.51s/it, gpt_loss=0.234, loss_mean=0.294][A[A
+
+Train step of epoch 1:  28%|██▊       | 1253/4533 [3:24:40<8:42:13,  9.55s/it, gpt_loss=0.234, loss_mean=0.294][A[A2026-01-27 05:34:16.473 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  28%|██▊       | 1253/4533 [3:24:52<8:42:13,  9.55s/it, gpt_loss=0.392, loss_mean=0.304][A[A
+
+Train step of epoch 1:  28%|██▊       | 1254/4533 [3:24:52<9:21:57, 10.28s/it, gpt_loss=0.392, loss_mean=0.304][A[A2026-01-27 05:34:28.268 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  28%|██▊       | 1254/4533 [3:25:01<9:21:57, 10.28s/it, gpt_loss=0.21, loss_mean=0.295] [A[A
+
+Train step of epoch 1:  28%|██▊       | 1255/4533 [3:25:01<8:58:58,  9.87s/it, gpt_loss=0.21, loss_mean=0.295][A[A2026-01-27 05:34:37.072 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  28%|██▊       | 1255/4533 [3:25:13<8:58:58,  9.87s/it, gpt_loss=0.33, loss_mean=0.298][A[A
+
+Train step of epoch 1:  28%|██▊       | 1256/4533 [3:25:13<9:25:52, 10.36s/it, gpt_loss=0.33, loss_mean=0.298][A[A
+[LID Router Debug] Step: 5790
+Batch Size: 14
+Audio Batch Size: 136
+LID Assignments: [2, 2, 0, 1, 1, 0, 9, 0, 2, 2, 4, 1, 1, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 9}
+2026-01-27 05:34:48.660 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  28%|██▊       | 1256/4533 [3:25:21<9:25:52, 10.36s/it, gpt_loss=0.279, loss_mean=0.296][A[A
+
+Train step of epoch 1:  28%|██▊       | 1257/4533 [3:25:21<8:57:07,  9.84s/it, gpt_loss=0.279, loss_mean=0.296][A[A2026-01-27 05:34:57.567 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  28%|██▊       | 1257/4533 [3:25:30<8:57:07,  9.84s/it, gpt_loss=0.262, loss_mean=0.293][A[A
+
+Train step of epoch 1:  28%|██▊       | 1258/4533 [3:25:30<8:45:50,  9.63s/it, gpt_loss=0.262, loss_mean=0.293][A[A2026-01-27 05:35:06.667 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  28%|██▊       | 1258/4533 [3:25:39<8:45:50,  9.63s/it, gpt_loss=0.316, loss_mean=0.295][A[A
+
+Train step of epoch 1:  28%|██▊       | 1259/4533 [3:25:39<8:35:12,  9.44s/it, gpt_loss=0.316, loss_mean=0.295][A[A2026-01-27 05:35:15.375 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  28%|██▊       | 1259/4533 [3:25:48<8:35:12,  9.44s/it, gpt_loss=0.169, loss_mean=0.283][A[A
+
+Train step of epoch 1:  28%|██▊       | 1260/4533 [3:25:48<8:27:19,  9.30s/it, gpt_loss=0.169, loss_mean=0.283][A[A2026-01-27 05:35:24.465 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  28%|██▊       | 1260/4533 [3:25:57<8:27:19,  9.30s/it, gpt_loss=0.35, loss_mean=0.289] [A[A
+
+Train step of epoch 1:  28%|██▊       | 1261/4533 [3:25:57<8:18:51,  9.15s/it, gpt_loss=0.35, loss_mean=0.289][A[A2026-01-27 05:35:33.399 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  28%|██▊       | 1261/4533 [3:26:07<8:18:51,  9.15s/it, gpt_loss=0.295, loss_mean=0.29][A[A
+
+Train step of epoch 1:  28%|██▊       | 1262/4533 [3:26:07<8:30:39,  9.37s/it, gpt_loss=0.295, loss_mean=0.29][A[A2026-01-27 05:35:43.072 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  28%|██▊       | 1262/4533 [3:26:16<8:30:39,  9.37s/it, gpt_loss=0.288, loss_mean=0.29][A[A
+
+Train step of epoch 1:  28%|██▊       | 1263/4533 [3:26:16<8:18:31,  9.15s/it, gpt_loss=0.288, loss_mean=0.29][A[A2026-01-27 05:35:51.663 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  28%|██▊       | 1263/4533 [3:26:27<8:18:31,  9.15s/it, gpt_loss=0.32, loss_mean=0.293][A[A
+
+Train step of epoch 1:  28%|██▊       | 1264/4533 [3:26:27<8:58:56,  9.89s/it, gpt_loss=0.32, loss_mean=0.293][A[A2026-01-27 05:36:03.254 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  28%|██▊       | 1264/4533 [3:26:39<8:58:56,  9.89s/it, gpt_loss=0.301, loss_mean=0.294][A[A
+
+Train step of epoch 1:  28%|██▊       | 1265/4533 [3:26:39<9:27:24, 10.42s/it, gpt_loss=0.301, loss_mean=0.294][A[A2026-01-27 05:36:14.988 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  28%|██▊       | 1265/4533 [3:26:48<9:27:24, 10.42s/it, gpt_loss=0.208, loss_mean=0.285][A[A
+
+Train step of epoch 1:  28%|██▊       | 1266/4533 [3:26:48<9:00:09,  9.92s/it, gpt_loss=0.208, loss_mean=0.285][A[A
+[LID Router Debug] Step: 5800
+Batch Size: 14
+Audio Batch Size: 122
+LID Assignments: [9, 5, 9, 0, 9, 6, 1, 3, 0, 5, 1, 6, 9, 9]
+Active Experts in Batch: {0, 1, 3, 5, 6, 9}
+2026-01-27 05:36:23.980 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+[2026-01-27 05:36:32,850] [INFO] [logging.py:96:log_dist] [Rank 0] step=5800, skipped=0, lr=[1.246533051496761e-05, 1.246533051496761e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 05:36:32,851] [INFO] [timer.py:260:stop] epoch=0/micro_step=5800/global_step=5800, RunningAvgSamplesPerSec=5.727229488017394, CurrSamplesPerSec=5.822337192168316, MemAllocated=14.38GB, MaxMemAllocated=53.98GB
+
+
+Train step of epoch 1:  28%|██▊       | 1266/4533 [3:26:57<9:00:09,  9.92s/it, gpt_loss=0.295, loss_mean=0.286][A[A
+
+Train step of epoch 1:  28%|██▊       | 1267/4533 [3:26:57<8:55:20,  9.83s/it, gpt_loss=0.295, loss_mean=0.286][A[A2026-01-27 05:36:33.574 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  28%|██▊       | 1267/4533 [3:27:07<8:55:20,  9.83s/it, gpt_loss=0.36, loss_mean=0.293] [A[A
+
+Train step of epoch 1:  28%|██▊       | 1268/4533 [3:27:07<8:54:07,  9.82s/it, gpt_loss=0.36, loss_mean=0.293][A[A2026-01-27 05:36:43.285 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  28%|██▊       | 1268/4533 [3:27:16<8:54:07,  9.82s/it, gpt_loss=0.238, loss_mean=0.288][A[A
+
+Train step of epoch 1:  28%|██▊       | 1269/4533 [3:27:16<8:43:06,  9.62s/it, gpt_loss=0.238, loss_mean=0.288][A[A2026-01-27 05:36:52.560 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  28%|██▊       | 1269/4533 [3:27:26<8:43:06,  9.62s/it, gpt_loss=0.308, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  28%|██▊       | 1270/4533 [3:27:26<8:44:49,  9.65s/it, gpt_loss=0.308, loss_mean=0.29][A[A2026-01-27 05:37:01.866 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  28%|██▊       | 1270/4533 [3:27:35<8:44:49,  9.65s/it, gpt_loss=0.288, loss_mean=0.29][A[A
+
+Train step of epoch 1:  28%|██▊       | 1271/4533 [3:27:35<8:30:53,  9.40s/it, gpt_loss=0.288, loss_mean=0.29][A[A2026-01-27 05:37:11.060 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  28%|██▊       | 1271/4533 [3:27:44<8:30:53,  9.40s/it, gpt_loss=0.258, loss_mean=0.287][A[A
+
+Train step of epoch 1:  28%|██▊       | 1272/4533 [3:27:44<8:25:53,  9.31s/it, gpt_loss=0.258, loss_mean=0.287][A[A2026-01-27 05:37:20.165 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  28%|██▊       | 1272/4533 [3:27:54<8:25:53,  9.31s/it, gpt_loss=0.248, loss_mean=0.283][A[A
+
+Train step of epoch 1:  28%|██▊       | 1273/4533 [3:27:54<8:36:50,  9.51s/it, gpt_loss=0.248, loss_mean=0.283][A[A2026-01-27 05:37:29.595 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  28%|██▊       | 1273/4533 [3:28:05<8:36:50,  9.51s/it, gpt_loss=0.309, loss_mean=0.285][A[A
+
+Train step of epoch 1:  28%|██▊       | 1274/4533 [3:28:05<9:06:28, 10.06s/it, gpt_loss=0.309, loss_mean=0.285][A[A2026-01-27 05:37:41.265 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  28%|██▊       | 1274/4533 [3:28:15<9:06:28, 10.06s/it, gpt_loss=0.25, loss_mean=0.282] [A[A
+
+Train step of epoch 1:  28%|██▊       | 1275/4533 [3:28:15<8:59:12,  9.93s/it, gpt_loss=0.25, loss_mean=0.282][A[A2026-01-27 05:37:51.101 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  28%|██▊       | 1275/4533 [3:28:25<8:59:12,  9.93s/it, gpt_loss=0.289, loss_mean=0.282][A[A
+
+Train step of epoch 1:  28%|██▊       | 1276/4533 [3:28:25<8:58:02,  9.91s/it, gpt_loss=0.289, loss_mean=0.282][A[A
+[LID Router Debug] Step: 5810
+Batch Size: 14
+Audio Batch Size: 139
+LID Assignments: [0, 1, 5, 9, 9, 2, 9, 9, 3, 5, 0, 1, 6, 6]
+Active Experts in Batch: {0, 1, 2, 3, 5, 6, 9}
+2026-01-27 05:38:00.684 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  28%|██▊       | 1276/4533 [3:28:33<8:58:02,  9.91s/it, gpt_loss=0.312, loss_mean=0.285][A[A
+
+Train step of epoch 1:  28%|██▊       | 1277/4533 [3:28:33<8:34:46,  9.49s/it, gpt_loss=0.312, loss_mean=0.285][A[A2026-01-27 05:38:09.474 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  28%|██▊       | 1277/4533 [3:28:42<8:34:46,  9.49s/it, gpt_loss=0.267, loss_mean=0.284][A[A
+
+Train step of epoch 1:  28%|██▊       | 1278/4533 [3:28:42<8:28:52,  9.38s/it, gpt_loss=0.267, loss_mean=0.284][A[A2026-01-27 05:38:18.664 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  28%|██▊       | 1278/4533 [3:28:54<8:28:52,  9.38s/it, gpt_loss=0.355, loss_mean=0.291][A[A
+
+Train step of epoch 1:  28%|██▊       | 1279/4533 [3:28:54<9:12:03, 10.18s/it, gpt_loss=0.355, loss_mean=0.291][A[A2026-01-27 05:38:30.596 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  28%|██▊       | 1279/4533 [3:29:06<9:12:03, 10.18s/it, gpt_loss=0.357, loss_mean=0.297][A[A
+
+Train step of epoch 1:  28%|██▊       | 1280/4533 [3:29:06<9:39:16, 10.68s/it, gpt_loss=0.357, loss_mean=0.297][A[A2026-01-27 05:38:42.462 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  28%|██▊       | 1280/4533 [3:29:18<9:39:16, 10.68s/it, gpt_loss=0.37, loss_mean=0.305] [A[A
+
+Train step of epoch 1:  28%|██▊       | 1281/4533 [3:29:18<9:59:22, 11.06s/it, gpt_loss=0.37, loss_mean=0.305][A[A2026-01-27 05:38:54.276 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  28%|██▊       | 1281/4533 [3:29:28<9:59:22, 11.06s/it, gpt_loss=0.302, loss_mean=0.304][A[A
+
+Train step of epoch 1:  28%|██▊       | 1282/4533 [3:29:28<9:34:33, 10.60s/it, gpt_loss=0.302, loss_mean=0.304][A[A2026-01-27 05:39:03.766 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  28%|██▊       | 1282/4533 [3:29:39<9:34:33, 10.60s/it, gpt_loss=0.361, loss_mean=0.31] [A[A
+
+Train step of epoch 1:  28%|██▊       | 1283/4533 [3:29:39<9:52:09, 10.93s/it, gpt_loss=0.361, loss_mean=0.31][A[A2026-01-27 05:39:15.775 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  28%|██▊       | 1283/4533 [3:29:52<9:52:09, 10.93s/it, gpt_loss=0.366, loss_mean=0.316][A[A
+
+Train step of epoch 1:  28%|██▊       | 1284/4533 [3:29:52<10:17:09, 11.40s/it, gpt_loss=0.366, loss_mean=0.316][A[A2026-01-27 05:39:27.958 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  28%|██▊       | 1284/4533 [3:30:04<10:17:09, 11.40s/it, gpt_loss=0.357, loss_mean=0.32] [A[A
+
+Train step of epoch 1:  28%|██▊       | 1285/4533 [3:30:04<10:20:37, 11.46s/it, gpt_loss=0.357, loss_mean=0.32][A[A2026-01-27 05:39:39.689 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  28%|██▊       | 1285/4533 [3:30:13<10:20:37, 11.46s/it, gpt_loss=0.32, loss_mean=0.32] [A[A
+
+Train step of epoch 1:  28%|██▊       | 1286/4533 [3:30:13<9:42:47, 10.77s/it, gpt_loss=0.32, loss_mean=0.32] [A[A
+[LID Router Debug] Step: 5820
+Batch Size: 14
+Audio Batch Size: 180
+LID Assignments: [3, 5, 5, 9, 3, 3, 2, 4, 4, 0, 3, 4, 1, 3]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 9}
+2026-01-27 05:39:48.658 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  28%|██▊       | 1286/4533 [3:30:24<9:42:47, 10.77s/it, gpt_loss=0.367, loss_mean=0.325][A[A
+
+Train step of epoch 1:  28%|██▊       | 1287/4533 [3:30:24<9:56:02, 11.02s/it, gpt_loss=0.367, loss_mean=0.325][A[A2026-01-27 05:40:00.477 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  28%|██▊       | 1287/4533 [3:30:33<9:56:02, 11.02s/it, gpt_loss=0.223, loss_mean=0.314][A[A
+
+Train step of epoch 1:  28%|██▊       | 1288/4533 [3:30:33<9:20:46, 10.37s/it, gpt_loss=0.223, loss_mean=0.314][A[A2026-01-27 05:40:09.184 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  28%|██▊       | 1288/4533 [3:30:42<9:20:46, 10.37s/it, gpt_loss=0.276, loss_mean=0.311][A[A
+
+Train step of epoch 1:  28%|██▊       | 1289/4533 [3:30:42<9:03:40, 10.06s/it, gpt_loss=0.276, loss_mean=0.311][A[A2026-01-27 05:40:18.289 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  28%|██▊       | 1289/4533 [3:30:52<9:03:40, 10.06s/it, gpt_loss=0.247, loss_mean=0.304][A[A
+
+Train step of epoch 1:  28%|██▊       | 1290/4533 [3:30:52<8:53:37,  9.87s/it, gpt_loss=0.247, loss_mean=0.304][A[A2026-01-27 05:40:28.166 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  28%|██▊       | 1290/4533 [3:31:04<8:53:37,  9.87s/it, gpt_loss=0.355, loss_mean=0.309][A[A
+
+Train step of epoch 1:  28%|██▊       | 1291/4533 [3:31:04<9:27:56, 10.51s/it, gpt_loss=0.355, loss_mean=0.309][A[A2026-01-27 05:40:40.190 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  28%|██▊       | 1291/4533 [3:31:14<9:27:56, 10.51s/it, gpt_loss=0.295, loss_mean=0.308][A[A
+
+Train step of epoch 1:  29%|██▊       | 1292/4533 [3:31:14<9:15:40, 10.29s/it, gpt_loss=0.295, loss_mean=0.308][A[A2026-01-27 05:40:49.798 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  29%|██▊       | 1292/4533 [3:31:26<9:15:40, 10.29s/it, gpt_loss=0.346, loss_mean=0.312][A[A
+
+Train step of epoch 1:  29%|██▊       | 1293/4533 [3:31:26<9:42:35, 10.79s/it, gpt_loss=0.346, loss_mean=0.312][A[A2026-01-27 05:41:01.578 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  29%|██▊       | 1293/4533 [3:31:34<9:42:35, 10.79s/it, gpt_loss=0.285, loss_mean=0.309][A[A
+
+Train step of epoch 1:  29%|██▊       | 1294/4533 [3:31:34<9:04:35, 10.09s/it, gpt_loss=0.285, loss_mean=0.309][A[A2026-01-27 05:41:10.276 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  29%|██▊       | 1294/4533 [3:31:43<9:04:35, 10.09s/it, gpt_loss=0.248, loss_mean=0.303][A[A
+
+Train step of epoch 1:  29%|██▊       | 1295/4533 [3:31:43<8:44:17,  9.72s/it, gpt_loss=0.248, loss_mean=0.303][A[A2026-01-27 05:41:19.174 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  29%|██▊       | 1295/4533 [3:31:52<8:44:17,  9.72s/it, gpt_loss=0.198, loss_mean=0.292][A[A
+
+Train step of epoch 1:  29%|██▊       | 1296/4533 [3:31:52<8:31:08,  9.47s/it, gpt_loss=0.198, loss_mean=0.292][A[A
+[LID Router Debug] Step: 5830
+Batch Size: 14
+Audio Batch Size: 134
+LID Assignments: [1, 5, 0, 4, 0, 3, 1, 0, 5, 3, 1, 6, 9, 9]
+Active Experts in Batch: {0, 1, 3, 4, 5, 6, 9}
+2026-01-27 05:41:27.966 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  29%|██▊       | 1296/4533 [3:32:01<8:31:08,  9.47s/it, gpt_loss=0.29, loss_mean=0.292] [A[A
+
+Train step of epoch 1:  29%|██▊       | 1297/4533 [3:32:01<8:20:14,  9.28s/it, gpt_loss=0.29, loss_mean=0.292][A[A2026-01-27 05:41:36.895 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  29%|██▊       | 1297/4533 [3:32:10<8:20:14,  9.28s/it, gpt_loss=0.264, loss_mean=0.289][A[A
+
+Train step of epoch 1:  29%|██▊       | 1298/4533 [3:32:10<8:15:06,  9.18s/it, gpt_loss=0.264, loss_mean=0.289][A[A2026-01-27 05:41:45.572 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  29%|██▊       | 1298/4533 [3:32:19<8:15:06,  9.18s/it, gpt_loss=0.252, loss_mean=0.286][A[A
+
+Train step of epoch 1:  29%|██▊       | 1299/4533 [3:32:19<8:18:11,  9.24s/it, gpt_loss=0.252, loss_mean=0.286][A[A2026-01-27 05:41:54.771 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  29%|██▊       | 1299/4533 [3:32:28<8:18:11,  9.24s/it, gpt_loss=0.237, loss_mean=0.281][A[A
+
+Train step of epoch 1:  29%|██▊       | 1300/4533 [3:32:28<8:20:07,  9.28s/it, gpt_loss=0.237, loss_mean=0.281][A[A2026-01-27 05:42:04.171 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  29%|██▊       | 1300/4533 [3:32:38<8:20:07,  9.28s/it, gpt_loss=0.258, loss_mean=0.278][A[A
+
+Train step of epoch 1:  29%|██▊       | 1301/4533 [3:32:38<8:18:41,  9.26s/it, gpt_loss=0.258, loss_mean=0.278][A[A2026-01-27 05:42:13.674 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  29%|██▊       | 1301/4533 [3:32:46<8:18:41,  9.26s/it, gpt_loss=0.246, loss_mean=0.275][A[A
+
+Train step of epoch 1:  29%|██▊       | 1302/4533 [3:32:46<8:09:36,  9.09s/it, gpt_loss=0.246, loss_mean=0.275][A[A2026-01-27 05:42:22.281 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  29%|██▊       | 1302/4533 [3:32:55<8:09:36,  9.09s/it, gpt_loss=0.23, loss_mean=0.271] [A[A
+
+Train step of epoch 1:  29%|██▊       | 1303/4533 [3:32:55<8:03:30,  8.98s/it, gpt_loss=0.23, loss_mean=0.271][A[A2026-01-27 05:42:31.079 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  29%|██▊       | 1303/4533 [3:33:04<8:03:30,  8.98s/it, gpt_loss=0.303, loss_mean=0.274][A[A
+
+Train step of epoch 1:  29%|██▉       | 1304/4533 [3:33:04<8:05:01,  9.01s/it, gpt_loss=0.303, loss_mean=0.274][A[A2026-01-27 05:42:40.299 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  29%|██▉       | 1304/4533 [3:33:16<8:05:01,  9.01s/it, gpt_loss=0.299, loss_mean=0.276][A[A
+
+Train step of epoch 1:  29%|██▉       | 1305/4533 [3:33:16<8:48:25,  9.82s/it, gpt_loss=0.299, loss_mean=0.276][A[A2026-01-27 05:42:51.858 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  29%|██▉       | 1305/4533 [3:33:25<8:48:25,  9.82s/it, gpt_loss=0.292, loss_mean=0.278][A[A
+
+Train step of epoch 1:  29%|██▉       | 1306/4533 [3:33:25<8:31:32,  9.51s/it, gpt_loss=0.292, loss_mean=0.278][A[A
+[LID Router Debug] Step: 5840
+Batch Size: 14
+Audio Batch Size: 196
+LID Assignments: [3, 0, 4, 3, 2, 9, 9, 0, 3, 9, 4, 3, 3, 3]
+Active Experts in Batch: {0, 2, 3, 4, 9}
+2026-01-27 05:43:00.365 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  29%|██▉       | 1306/4533 [3:33:36<8:31:32,  9.51s/it, gpt_loss=0.368, loss_mean=0.287][A[A
+
+Train step of epoch 1:  29%|██▉       | 1307/4533 [3:33:36<8:57:29, 10.00s/it, gpt_loss=0.368, loss_mean=0.287][A[A2026-01-27 05:43:11.889 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  29%|██▉       | 1307/4533 [3:33:45<8:57:29, 10.00s/it, gpt_loss=0.211, loss_mean=0.279][A[A
+
+Train step of epoch 1:  29%|██▉       | 1308/4533 [3:33:45<8:43:16,  9.74s/it, gpt_loss=0.211, loss_mean=0.279][A[A2026-01-27 05:43:21.076 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  29%|██▉       | 1308/4533 [3:33:54<8:43:16,  9.74s/it, gpt_loss=0.381, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  29%|██▉       | 1309/4533 [3:33:54<8:30:22,  9.50s/it, gpt_loss=0.381, loss_mean=0.29][A[A2026-01-27 05:43:29.879 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  29%|██▉       | 1309/4533 [3:34:06<8:30:22,  9.50s/it, gpt_loss=0.319, loss_mean=0.292][A[A
+
+Train step of epoch 1:  29%|██▉       | 1310/4533 [3:34:06<9:06:21, 10.17s/it, gpt_loss=0.319, loss_mean=0.292][A[A2026-01-27 05:43:41.781 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  29%|██▉       | 1310/4533 [3:34:17<9:06:21, 10.17s/it, gpt_loss=0.317, loss_mean=0.295][A[A
+
+Train step of epoch 1:  29%|██▉       | 1311/4533 [3:34:17<9:34:19, 10.69s/it, gpt_loss=0.317, loss_mean=0.295][A[A2026-01-27 05:43:53.490 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  29%|██▉       | 1311/4533 [3:34:29<9:34:19, 10.69s/it, gpt_loss=0.306, loss_mean=0.296][A[A
+
+Train step of epoch 1:  29%|██▉       | 1312/4533 [3:34:29<9:50:46, 11.00s/it, gpt_loss=0.306, loss_mean=0.296][A[A2026-01-27 05:44:04.958 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  29%|██▉       | 1312/4533 [3:34:38<9:50:46, 11.00s/it, gpt_loss=0.233, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  29%|██▉       | 1313/4533 [3:34:38<9:12:57, 10.30s/it, gpt_loss=0.233, loss_mean=0.29][A[A2026-01-27 05:44:13.877 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  29%|██▉       | 1313/4533 [3:34:47<9:12:57, 10.30s/it, gpt_loss=0.306, loss_mean=0.291][A[A
+
+Train step of epoch 1:  29%|██▉       | 1314/4533 [3:34:47<8:49:59,  9.88s/it, gpt_loss=0.306, loss_mean=0.291][A[A2026-01-27 05:44:22.584 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  29%|██▉       | 1314/4533 [3:34:55<8:49:59,  9.88s/it, gpt_loss=0.275, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  29%|██▉       | 1315/4533 [3:34:55<8:27:03,  9.45s/it, gpt_loss=0.275, loss_mean=0.29][A[A2026-01-27 05:44:31.177 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  29%|██▉       | 1315/4533 [3:35:04<8:27:03,  9.45s/it, gpt_loss=0.243, loss_mean=0.285][A[A
+
+Train step of epoch 1:  29%|██▉       | 1316/4533 [3:35:04<8:12:53,  9.19s/it, gpt_loss=0.243, loss_mean=0.285][A[A
+[LID Router Debug] Step: 5850
+Batch Size: 14
+Audio Batch Size: 111
+LID Assignments: [9, 2, 4, 2, 2, 1, 4, 0, 1, 0, 0, 0, 1, 5]
+Active Experts in Batch: {0, 1, 2, 4, 5, 9}
+2026-01-27 05:44:40.063 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  29%|██▉       | 1316/4533 [3:35:13<8:12:53,  9.19s/it, gpt_loss=0.288, loss_mean=0.285][A[A
+
+Train step of epoch 1:  29%|██▉       | 1317/4533 [3:35:13<8:09:22,  9.13s/it, gpt_loss=0.288, loss_mean=0.285][A[A2026-01-27 05:44:48.999 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  29%|██▉       | 1317/4533 [3:35:25<8:09:22,  9.13s/it, gpt_loss=0.347, loss_mean=0.292][A[A
+
+Train step of epoch 1:  29%|██▉       | 1318/4533 [3:35:25<8:57:51, 10.04s/it, gpt_loss=0.347, loss_mean=0.292][A[A2026-01-27 05:45:00.889 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  29%|██▉       | 1318/4533 [3:35:34<8:57:51, 10.04s/it, gpt_loss=0.302, loss_mean=0.293][A[A
+
+Train step of epoch 1:  29%|██▉       | 1319/4533 [3:35:34<8:47:43,  9.85s/it, gpt_loss=0.302, loss_mean=0.293][A[A2026-01-27 05:45:10.577 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  29%|██▉       | 1319/4533 [3:35:43<8:47:43,  9.85s/it, gpt_loss=0.233, loss_mean=0.287][A[A
+
+Train step of epoch 1:  29%|██▉       | 1320/4533 [3:35:43<8:33:58,  9.60s/it, gpt_loss=0.233, loss_mean=0.287][A[A2026-01-27 05:45:19.584 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  29%|██▉       | 1320/4533 [3:35:52<8:33:58,  9.60s/it, gpt_loss=0.248, loss_mean=0.283][A[A
+
+Train step of epoch 1:  29%|██▉       | 1321/4533 [3:35:52<8:21:06,  9.36s/it, gpt_loss=0.248, loss_mean=0.283][A[A2026-01-27 05:45:28.390 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  29%|██▉       | 1321/4533 [3:36:02<8:21:06,  9.36s/it, gpt_loss=0.362, loss_mean=0.291][A[A
+
+Train step of epoch 1:  29%|██▉       | 1322/4533 [3:36:02<8:28:40,  9.51s/it, gpt_loss=0.362, loss_mean=0.291][A[A2026-01-27 05:45:38.103 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  29%|██▉       | 1322/4533 [3:36:14<8:28:40,  9.51s/it, gpt_loss=0.349, loss_mean=0.296][A[A
+
+Train step of epoch 1:  29%|██▉       | 1323/4533 [3:36:14<9:05:34, 10.20s/it, gpt_loss=0.349, loss_mean=0.296][A[A2026-01-27 05:45:49.796 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  29%|██▉       | 1323/4533 [3:36:26<9:05:34, 10.20s/it, gpt_loss=0.303, loss_mean=0.297][A[A
+
+Train step of epoch 1:  29%|██▉       | 1324/4533 [3:36:26<9:32:42, 10.71s/it, gpt_loss=0.303, loss_mean=0.297][A[A2026-01-27 05:46:01.769 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  29%|██▉       | 1324/4533 [3:36:38<9:32:42, 10.71s/it, gpt_loss=0.335, loss_mean=0.301][A[A
+
+Train step of epoch 1:  29%|██▉       | 1325/4533 [3:36:38<9:52:16, 11.08s/it, gpt_loss=0.335, loss_mean=0.301][A[A2026-01-27 05:46:13.895 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  29%|██▉       | 1325/4533 [3:36:50<9:52:16, 11.08s/it, gpt_loss=0.367, loss_mean=0.308][A[A
+
+Train step of epoch 1:  29%|██▉       | 1326/4533 [3:36:50<10:05:36, 11.33s/it, gpt_loss=0.367, loss_mean=0.308][A[A
+[LID Router Debug] Step: 5860
+Batch Size: 14
+Audio Batch Size: 171
+LID Assignments: [2, 9, 2, 9, 9, 3, 4, 3, 3, 5, 1, 1, 2, 1]
+Active Experts in Batch: {1, 2, 3, 4, 5, 9}
+2026-01-27 05:46:25.789 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  29%|██▉       | 1326/4533 [3:36:58<10:05:36, 11.33s/it, gpt_loss=0.229, loss_mean=0.3]  [A[A
+
+Train step of epoch 1:  29%|██▉       | 1327/4533 [3:36:58<9:25:52, 10.59s/it, gpt_loss=0.229, loss_mean=0.3] [A[A2026-01-27 05:46:34.701 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  29%|██▉       | 1327/4533 [3:37:11<9:25:52, 10.59s/it, gpt_loss=0.319, loss_mean=0.302][A[A
+
+Train step of epoch 1:  29%|██▉       | 1328/4533 [3:37:11<9:53:44, 11.12s/it, gpt_loss=0.319, loss_mean=0.302][A[A2026-01-27 05:46:46.864 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  29%|██▉       | 1328/4533 [3:37:20<9:53:44, 11.12s/it, gpt_loss=0.261, loss_mean=0.297][A[A
+
+Train step of epoch 1:  29%|██▉       | 1329/4533 [3:37:20<9:17:59, 10.45s/it, gpt_loss=0.261, loss_mean=0.297][A[A2026-01-27 05:46:55.875 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  29%|██▉       | 1329/4533 [3:37:29<9:17:59, 10.45s/it, gpt_loss=0.252, loss_mean=0.293][A[A
+
+Train step of epoch 1:  29%|██▉       | 1330/4533 [3:37:29<8:56:32, 10.05s/it, gpt_loss=0.252, loss_mean=0.293][A[A2026-01-27 05:47:04.964 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  29%|██▉       | 1330/4533 [3:37:38<8:56:32, 10.05s/it, gpt_loss=0.27, loss_mean=0.291] [A[A
+
+Train step of epoch 1:  29%|██▉       | 1331/4533 [3:37:38<8:48:12,  9.90s/it, gpt_loss=0.27, loss_mean=0.291][A[A2026-01-27 05:47:14.480 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  29%|██▉       | 1331/4533 [3:37:48<8:48:12,  9.90s/it, gpt_loss=0.287, loss_mean=0.29][A[A
+
+Train step of epoch 1:  29%|██▉       | 1332/4533 [3:37:48<8:45:59,  9.86s/it, gpt_loss=0.287, loss_mean=0.29][A[A2026-01-27 05:47:24.372 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  29%|██▉       | 1332/4533 [3:37:58<8:45:59,  9.86s/it, gpt_loss=0.331, loss_mean=0.294][A[A
+
+Train step of epoch 1:  29%|██▉       | 1333/4533 [3:37:58<8:45:11,  9.85s/it, gpt_loss=0.331, loss_mean=0.294][A[A2026-01-27 05:47:33.962 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  29%|██▉       | 1333/4533 [3:38:10<8:45:11,  9.85s/it, gpt_loss=0.325, loss_mean=0.297][A[A
+
+Train step of epoch 1:  29%|██▉       | 1334/4533 [3:38:10<9:16:14, 10.43s/it, gpt_loss=0.325, loss_mean=0.297][A[A2026-01-27 05:47:45.971 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  29%|██▉       | 1334/4533 [3:38:22<9:16:14, 10.43s/it, gpt_loss=0.404, loss_mean=0.308][A[A
+
+Train step of epoch 1:  29%|██▉       | 1335/4533 [3:38:22<9:43:18, 10.94s/it, gpt_loss=0.404, loss_mean=0.308][A[A2026-01-27 05:47:57.865 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  29%|██▉       | 1335/4533 [3:38:30<9:43:18, 10.94s/it, gpt_loss=0.19, loss_mean=0.296] [A[A
+
+Train step of epoch 1:  29%|██▉       | 1336/4533 [3:38:30<9:06:31, 10.26s/it, gpt_loss=0.19, loss_mean=0.296][A[A
+[LID Router Debug] Step: 5870
+Batch Size: 14
+Audio Batch Size: 167
+LID Assignments: [9, 0, 9, 3, 2, 0, 4, 4, 5, 9, 2, 6, 3, 6]
+Active Experts in Batch: {0, 2, 3, 4, 5, 6, 9}
+2026-01-27 05:48:06.775 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  29%|██▉       | 1336/4533 [3:38:43<9:06:31, 10.26s/it, gpt_loss=0.306, loss_mean=0.297][A[A
+
+Train step of epoch 1:  29%|██▉       | 1337/4533 [3:38:43<9:34:41, 10.79s/it, gpt_loss=0.306, loss_mean=0.297][A[A2026-01-27 05:48:18.693 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  29%|██▉       | 1337/4533 [3:38:51<9:34:41, 10.79s/it, gpt_loss=0.249, loss_mean=0.293][A[A
+
+Train step of epoch 1:  30%|██▉       | 1338/4533 [3:38:51<9:04:42, 10.23s/it, gpt_loss=0.249, loss_mean=0.293][A[A2026-01-27 05:48:27.580 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  30%|██▉       | 1338/4533 [3:39:04<9:04:42, 10.23s/it, gpt_loss=0.413, loss_mean=0.305][A[A
+
+Train step of epoch 1:  30%|██▉       | 1339/4533 [3:39:04<9:33:41, 10.78s/it, gpt_loss=0.413, loss_mean=0.305][A[A2026-01-27 05:48:39.768 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  30%|██▉       | 1339/4533 [3:39:12<9:33:41, 10.78s/it, gpt_loss=0.205, loss_mean=0.295][A[A
+
+Train step of epoch 1:  30%|██▉       | 1340/4533 [3:39:12<9:04:35, 10.23s/it, gpt_loss=0.205, loss_mean=0.295][A[A2026-01-27 05:48:48.359 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  30%|██▉       | 1340/4533 [3:39:21<9:04:35, 10.23s/it, gpt_loss=0.277, loss_mean=0.293][A[A
+
+Train step of epoch 1:  30%|██▉       | 1341/4533 [3:39:21<8:35:33,  9.69s/it, gpt_loss=0.277, loss_mean=0.293][A[A2026-01-27 05:48:57.071 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  30%|██▉       | 1341/4533 [3:39:30<8:35:33,  9.69s/it, gpt_loss=0.23, loss_mean=0.287] [A[A
+
+Train step of epoch 1:  30%|██▉       | 1342/4533 [3:39:30<8:21:38,  9.43s/it, gpt_loss=0.23, loss_mean=0.287][A[A2026-01-27 05:49:05.974 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  30%|██▉       | 1342/4533 [3:39:39<8:21:38,  9.43s/it, gpt_loss=0.263, loss_mean=0.284][A[A
+
+Train step of epoch 1:  30%|██▉       | 1343/4533 [3:39:39<8:26:03,  9.52s/it, gpt_loss=0.263, loss_mean=0.284][A[A2026-01-27 05:49:15.570 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  30%|██▉       | 1343/4533 [3:39:49<8:26:03,  9.52s/it, gpt_loss=0.31, loss_mean=0.287] [A[A
+
+Train step of epoch 1:  30%|██▉       | 1344/4533 [3:39:49<8:19:36,  9.40s/it, gpt_loss=0.31, loss_mean=0.287][A[A2026-01-27 05:49:24.568 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  30%|██▉       | 1344/4533 [3:39:58<8:19:36,  9.40s/it, gpt_loss=0.249, loss_mean=0.283][A[A
+
+Train step of epoch 1:  30%|██▉       | 1345/4533 [3:39:58<8:21:02,  9.43s/it, gpt_loss=0.249, loss_mean=0.283][A[A2026-01-27 05:49:34.367 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  30%|██▉       | 1345/4533 [3:40:07<8:21:02,  9.43s/it, gpt_loss=0.293, loss_mean=0.284][A[A
+
+Train step of epoch 1:  30%|██▉       | 1346/4533 [3:40:07<8:11:36,  9.26s/it, gpt_loss=0.293, loss_mean=0.284][A[A
+[LID Router Debug] Step: 5880
+Batch Size: 14
+Audio Batch Size: 118
+LID Assignments: [1, 2, 2, 9, 4, 4, 2, 0, 2, 5, 5, 9, 1, 4]
+Active Experts in Batch: {0, 1, 2, 4, 5, 9}
+2026-01-27 05:49:43.175 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  30%|██▉       | 1346/4533 [3:40:16<8:11:36,  9.26s/it, gpt_loss=0.322, loss_mean=0.288][A[A
+
+Train step of epoch 1:  30%|██▉       | 1347/4533 [3:40:16<8:06:11,  9.16s/it, gpt_loss=0.322, loss_mean=0.288][A[A2026-01-27 05:49:52.161 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  30%|██▉       | 1347/4533 [3:40:25<8:06:11,  9.16s/it, gpt_loss=0.293, loss_mean=0.288][A[A
+
+Train step of epoch 1:  30%|██▉       | 1348/4533 [3:40:25<8:03:01,  9.10s/it, gpt_loss=0.293, loss_mean=0.288][A[A2026-01-27 05:50:01.085 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  30%|██▉       | 1348/4533 [3:40:34<8:03:01,  9.10s/it, gpt_loss=0.274, loss_mean=0.287][A[A
+
+Train step of epoch 1:  30%|██▉       | 1349/4533 [3:40:34<8:02:44,  9.10s/it, gpt_loss=0.274, loss_mean=0.287][A[A2026-01-27 05:50:10.093 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  30%|██▉       | 1349/4533 [3:40:46<8:02:44,  9.10s/it, gpt_loss=0.349, loss_mean=0.293][A[A
+
+Train step of epoch 1:  30%|██▉       | 1350/4533 [3:40:46<8:47:11,  9.94s/it, gpt_loss=0.349, loss_mean=0.293][A[A2026-01-27 05:50:22.000 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  30%|██▉       | 1350/4533 [3:40:57<8:47:11,  9.94s/it, gpt_loss=0.33, loss_mean=0.297] [A[A
+
+Train step of epoch 1:  30%|██▉       | 1351/4533 [3:40:57<9:14:07, 10.45s/it, gpt_loss=0.33, loss_mean=0.297][A[A2026-01-27 05:50:33.680 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  30%|██▉       | 1351/4533 [3:41:06<9:14:07, 10.45s/it, gpt_loss=0.258, loss_mean=0.293][A[A
+
+Train step of epoch 1:  30%|██▉       | 1352/4533 [3:41:06<8:50:12, 10.00s/it, gpt_loss=0.258, loss_mean=0.293][A[A2026-01-27 05:50:42.458 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  30%|██▉       | 1352/4533 [3:41:15<8:50:12, 10.00s/it, gpt_loss=0.219, loss_mean=0.285][A[A
+
+Train step of epoch 1:  30%|██▉       | 1353/4533 [3:41:15<8:33:09,  9.68s/it, gpt_loss=0.219, loss_mean=0.285][A[A2026-01-27 05:50:51.592 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  30%|██▉       | 1353/4533 [3:41:25<8:33:09,  9.68s/it, gpt_loss=0.289, loss_mean=0.286][A[A
+
+Train step of epoch 1:  30%|██▉       | 1354/4533 [3:41:25<8:25:47,  9.55s/it, gpt_loss=0.289, loss_mean=0.286][A[A2026-01-27 05:51:00.390 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  30%|██▉       | 1354/4533 [3:41:33<8:25:47,  9.55s/it, gpt_loss=0.338, loss_mean=0.291][A[A
+
+Train step of epoch 1:  30%|██▉       | 1355/4533 [3:41:33<8:11:51,  9.29s/it, gpt_loss=0.338, loss_mean=0.291][A[A2026-01-27 05:51:09.377 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  30%|██▉       | 1355/4533 [3:41:43<8:11:51,  9.29s/it, gpt_loss=0.221, loss_mean=0.284][A[A
+
+Train step of epoch 1:  30%|██▉       | 1356/4533 [3:41:43<8:15:07,  9.35s/it, gpt_loss=0.221, loss_mean=0.284][A[A
+[LID Router Debug] Step: 5890
+Batch Size: 14
+Audio Batch Size: 148
+LID Assignments: [5, 3, 3, 0, 5, 5, 1, 2, 1, 3, 5, 2, 2, 2]
+Active Experts in Batch: {0, 1, 2, 3, 5}
+2026-01-27 05:51:18.862 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  30%|██▉       | 1356/4533 [3:41:52<8:15:07,  9.35s/it, gpt_loss=0.27, loss_mean=0.283] [A[A
+
+Train step of epoch 1:  30%|██▉       | 1357/4533 [3:41:52<8:13:18,  9.32s/it, gpt_loss=0.27, loss_mean=0.283][A[A2026-01-27 05:51:28.197 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  30%|██▉       | 1357/4533 [3:42:04<8:13:18,  9.32s/it, gpt_loss=0.35, loss_mean=0.289][A[A
+
+Train step of epoch 1:  30%|██▉       | 1358/4533 [3:42:04<8:55:01, 10.11s/it, gpt_loss=0.35, loss_mean=0.289][A[A2026-01-27 05:51:40.176 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  30%|██▉       | 1358/4533 [3:42:13<8:55:01, 10.11s/it, gpt_loss=0.205, loss_mean=0.281][A[A
+
+Train step of epoch 1:  30%|██▉       | 1359/4533 [3:42:13<8:36:43,  9.77s/it, gpt_loss=0.205, loss_mean=0.281][A[A2026-01-27 05:51:48.973 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  30%|██▉       | 1359/4533 [3:42:22<8:36:43,  9.77s/it, gpt_loss=0.313, loss_mean=0.284][A[A
+
+Train step of epoch 1:  30%|███       | 1360/4533 [3:42:22<8:19:34,  9.45s/it, gpt_loss=0.313, loss_mean=0.284][A[A2026-01-27 05:51:57.758 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  30%|███       | 1360/4533 [3:42:30<8:19:34,  9.45s/it, gpt_loss=0.202, loss_mean=0.276][A[A
+
+Train step of epoch 1:  30%|███       | 1361/4533 [3:42:30<8:06:43,  9.21s/it, gpt_loss=0.202, loss_mean=0.276][A[A2026-01-27 05:52:06.254 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  30%|███       | 1361/4533 [3:42:39<8:06:43,  9.21s/it, gpt_loss=0.283, loss_mean=0.277][A[A
+
+Train step of epoch 1:  30%|███       | 1362/4533 [3:42:39<7:57:56,  9.04s/it, gpt_loss=0.283, loss_mean=0.277][A[A2026-01-27 05:52:15.091 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  30%|███       | 1362/4533 [3:42:50<7:57:56,  9.04s/it, gpt_loss=0.321, loss_mean=0.281][A[A
+
+Train step of epoch 1:  30%|███       | 1363/4533 [3:42:50<8:35:30,  9.76s/it, gpt_loss=0.321, loss_mean=0.281][A[A2026-01-27 05:52:26.495 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  30%|███       | 1363/4533 [3:42:59<8:35:30,  9.76s/it, gpt_loss=0.314, loss_mean=0.284][A[A
+
+Train step of epoch 1:  30%|███       | 1364/4533 [3:42:59<8:17:22,  9.42s/it, gpt_loss=0.314, loss_mean=0.284][A[A2026-01-27 05:52:35.001 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  30%|███       | 1364/4533 [3:43:08<8:17:22,  9.42s/it, gpt_loss=0.257, loss_mean=0.282][A[A
+
+Train step of epoch 1:  30%|███       | 1365/4533 [3:43:08<8:07:13,  9.23s/it, gpt_loss=0.257, loss_mean=0.282][A[A2026-01-27 05:52:43.979 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+
+
+Train step of epoch 1:  30%|███       | 1365/4533 [3:43:17<8:07:13,  9.23s/it, gpt_loss=0.298, loss_mean=0.283][A[A
+
+Train step of epoch 1:  30%|███       | 1366/4533 [3:43:17<8:05:41,  9.20s/it, gpt_loss=0.298, loss_mean=0.283][A[A
+[LID Router Debug] Step: 5900
+Batch Size: 14
+Audio Batch Size: 131
+LID Assignments: [4, 9, 4, 9, 1, 5, 0, 4, 6, 5, 5, 3, 5, 2]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 05:52:53.082 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+[2026-01-27 05:53:01,397] [INFO] [logging.py:96:log_dist] [Rank 0] step=5900, skipped=0, lr=[1.2238532230334317e-05, 1.2238532230334317e-05], mom=[(0.9, 0.95), (0.9, 0.95)]
+[2026-01-27 05:53:01,398] [INFO] [timer.py:260:stop] epoch=0/micro_step=5900/global_step=5900, RunningAvgSamplesPerSec=5.726357712868281, CurrSamplesPerSec=6.236022713487998, MemAllocated=14.73GB, MaxMemAllocated=53.98GB
+
+
+Train step of epoch 1:  30%|███       | 1366/4533 [3:43:26<8:05:41,  9.20s/it, gpt_loss=0.285, loss_mean=0.283][A[A
+
+Train step of epoch 1:  30%|███       | 1367/4533 [3:43:26<8:02:19,  9.14s/it, gpt_loss=0.285, loss_mean=0.283][A[A2026-01-27 05:53:01.880 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  30%|███       | 1367/4533 [3:43:35<8:02:19,  9.14s/it, gpt_loss=0.253, loss_mean=0.28] [A[A
+
+Train step of epoch 1:  30%|███       | 1368/4533 [3:43:35<8:07:42,  9.25s/it, gpt_loss=0.253, loss_mean=0.28][A[A2026-01-27 05:53:11.592 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  30%|███       | 1368/4533 [3:43:45<8:07:42,  9.25s/it, gpt_loss=0.346, loss_mean=0.287][A[A
+
+Train step of epoch 1:  30%|███       | 1369/4533 [3:43:45<8:15:51,  9.40s/it, gpt_loss=0.346, loss_mean=0.287][A[A2026-01-27 05:53:21.197 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  30%|███       | 1369/4533 [3:43:55<8:15:51,  9.40s/it, gpt_loss=0.334, loss_mean=0.292][A[A
+
+Train step of epoch 1:  30%|███       | 1370/4533 [3:43:55<8:16:49,  9.42s/it, gpt_loss=0.334, loss_mean=0.292][A[A2026-01-27 05:53:30.800 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  30%|███       | 1370/4533 [3:44:04<8:16:49,  9.42s/it, gpt_loss=0.266, loss_mean=0.289][A[A
+
+Train step of epoch 1:  30%|███       | 1371/4533 [3:44:04<8:18:15,  9.45s/it, gpt_loss=0.266, loss_mean=0.289][A[A2026-01-27 05:53:40.395 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  30%|███       | 1371/4533 [3:44:14<8:18:15,  9.45s/it, gpt_loss=0.29, loss_mean=0.289] [A[A
+
+Train step of epoch 1:  30%|███       | 1372/4533 [3:44:14<8:22:58,  9.55s/it, gpt_loss=0.29, loss_mean=0.289][A[A2026-01-27 05:53:50.189 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  30%|███       | 1372/4533 [3:44:26<8:22:58,  9.55s/it, gpt_loss=0.351, loss_mean=0.295][A[A
+
+Train step of epoch 1:  30%|███       | 1373/4533 [3:44:26<8:58:12, 10.22s/it, gpt_loss=0.351, loss_mean=0.295][A[A2026-01-27 05:54:01.880 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  30%|███       | 1373/4533 [3:44:34<8:58:12, 10.22s/it, gpt_loss=0.294, loss_mean=0.295][A[A
+
+Train step of epoch 1:  30%|███       | 1374/4533 [3:44:34<8:33:33,  9.75s/it, gpt_loss=0.294, loss_mean=0.295][A[A2026-01-27 05:54:10.469 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  30%|███       | 1374/4533 [3:44:43<8:33:33,  9.75s/it, gpt_loss=0.283, loss_mean=0.294][A[A
+
+Train step of epoch 1:  30%|███       | 1375/4533 [3:44:43<8:16:41,  9.44s/it, gpt_loss=0.283, loss_mean=0.294][A[A2026-01-27 05:54:19.286 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  30%|███       | 1375/4533 [3:44:53<8:16:41,  9.44s/it, gpt_loss=0.255, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  30%|███       | 1376/4533 [3:44:53<8:18:58,  9.48s/it, gpt_loss=0.255, loss_mean=0.29][A[A
+[LID Router Debug] Step: 5910
+Batch Size: 14
+Audio Batch Size: 158
+LID Assignments: [5, 5, 3, 3, 9, 2, 9, 0, 6, 2, 4, 1, 5, 5]
+Active Experts in Batch: {0, 1, 2, 3, 4, 5, 6, 9}
+2026-01-27 05:54:28.959 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  30%|███       | 1376/4533 [3:45:02<8:18:58,  9.48s/it, gpt_loss=0.301, loss_mean=0.291][A[A
+
+Train step of epoch 1:  30%|███       | 1377/4533 [3:45:02<8:10:58,  9.33s/it, gpt_loss=0.301, loss_mean=0.291][A[A2026-01-27 05:54:37.879 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 200
+
+
+Train step of epoch 1:  30%|███       | 1377/4533 [3:45:11<8:10:58,  9.33s/it, gpt_loss=0.268, loss_mean=0.289][A[A
+
+Train step of epoch 1:  30%|███       | 1378/4533 [3:45:11<8:09:34,  9.31s/it, gpt_loss=0.268, loss_mean=0.289][A[A2026-01-27 05:54:47.175 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  30%|███       | 1378/4533 [3:45:21<8:09:34,  9.31s/it, gpt_loss=0.295, loss_mean=0.29] [A[A
+
+Train step of epoch 1:  30%|███       | 1379/4533 [3:45:21<8:16:30,  9.45s/it, gpt_loss=0.295, loss_mean=0.29][A[A2026-01-27 05:54:56.857 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  30%|███       | 1379/4533 [3:45:30<8:16:30,  9.45s/it, gpt_loss=0.262, loss_mean=0.287][A[A
+
+Train step of epoch 1:  30%|███       | 1380/4533 [3:45:30<8:18:46,  9.49s/it, gpt_loss=0.262, loss_mean=0.287][A[A2026-01-27 05:55:06.368 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 50
+
+
+Train step of epoch 1:  30%|███       | 1380/4533 [3:45:42<8:18:46,  9.49s/it, gpt_loss=0.355, loss_mean=0.294][A[A
+
+Train step of epoch 1:  30%|███       | 1381/4533 [3:45:42<8:54:33, 10.18s/it, gpt_loss=0.355, loss_mean=0.294][A[A2026-01-27 05:55:18.274 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 100
+
+
+Train step of epoch 1:  30%|███       | 1381/4533 [3:45:51<8:54:33, 10.18s/it, gpt_loss=0.287, loss_mean=0.293][A[A
+
+Train step of epoch 1:  30%|███       | 1382/4533 [3:45:51<8:38:45,  9.88s/it, gpt_loss=0.287, loss_mean=0.293][A[A2026-01-27 05:55:27.088 | INFO     | model.unigpt_audio_models.audio:forward:881 - chunk_n_window: 400
+[2026-01-27 05:55:34,822] [INFO] [launch.py:316:sigkill_handler] Killing subprocess 413693
+[2026-01-27 05:55:45,352] [INFO] [launch.py:316:sigkill_handler] Killing subprocess 413694
+[2026-01-27 05:55:45,358] [INFO] [launch.py:316:sigkill_handler] Killing subprocess 413695
+[2026-01-27 05:55:45,359] [INFO] [launch.py:316:sigkill_handler] Killing subprocess 413696
+[2026-01-27 05:55:45,360] [INFO] [launch.py:325:sigkill_handler] Main process received SIGTERM, exiting
diff --git a/ckpts/qwen3-1.7b-whisper-260126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/tb_logs/events.out.tfevents.1769435283.t-20260126003544-8bk9q-worker-0.413693.0 b/ckpts/qwen3-1.7b-whisper-260126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/tb_logs/events.out.tfevents.1769435283.t-20260126003544-8bk9q-worker-0.413693.0
new file mode 100644
index 0000000000000000000000000000000000000000..f96a8b56dc07544bb3f2b5eb79b3f5f8392bd683
--- /dev/null
+++ b/ckpts/qwen3-1.7b-whisper-260126_12x1000h_lite1h_zipper_soft_lora_audio_init_baseline_with_lid_embedding_fix_init_B/tb_logs/events.out.tfevents.1769435283.t-20260126003544-8bk9q-worker-0.413693.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:98578c8ceef47007530cae1692fc58cbae29cd9ce0ff90d24af332997879969f
+size 561711