============================================================
  TD CLEAN v2
  Research-backed. Every line proven.
============================================================
  System optimization:
    GPU persistent mode: ON (no cold-start delay)
    GPU clocks: MAX (no throttling)
    CPU governor: performance (max frequency)
    OpenMP/MKL threads: 28
    NUMA affinity: pinned to first 8 cores
    Pre-caching datasets from HuggingFace Hub...
  Attempting flash-attn install (optional, ~3-4x faster attention)...
  error: subprocess-exited-with-error
  
  × Building wheel for flash-attn (pyproject.toml) did not run successfully.
  │ exit code: 1
  ╰─> [209 lines of output]
      
      
      torch.__version__  = 2.10.0+cu128
      
      
      /venv/main/lib/python3.10/site-packages/setuptools/dist.py:759: SetuptoolsDeprecationWarning: License classifiers are deprecated.
      !!
      
              ********************************************************************************
              Please consider removing the following classifiers in favor of a SPDX license expression:
      
              License :: OSI Approved :: BSD License
      
              See https://packaging.python.org/en/latest/guides/writing-pyproject-toml/#license for details.
              ********************************************************************************
      
      !!
        self._finalize_license_expression()
      running bdist_wheel
      Guessing wheel URL:  https://github.com/Dao-AILab/flash-attention/releases/download/v2.8.3/flash_attn-2.8.3+cu12torch2.10cxx11abiTRUE-cp310-cp310-linux_x86_64.whl
      Precompiled wheel not found. Building from source...
      running build
      running build_py
      creating build/lib.linux-x86_64-cpython-310/flash_attn
      copying flash_attn/__init__.py -> build/lib.linux-x86_64-cpython-310/flash_attn
      copying flash_attn/bert_padding.py -> build/lib.linux-x86_64-cpython-310/flash_attn
      copying flash_attn/flash_attn_interface.py -> build/lib.linux-x86_64-cpython-310/flash_attn
      copying flash_attn/flash_attn_triton.py -> build/lib.linux-x86_64-cpython-310/flash_attn
      copying flash_attn/flash_attn_triton_og.py -> build/lib.linux-x86_64-cpython-310/flash_attn
      copying flash_attn/flash_blocksparse_attention.py -> build/lib.linux-x86_64-cpython-310/flash_attn
      copying flash_attn/flash_blocksparse_attn_interface.py -> build/lib.linux-x86_64-cpython-310/flash_attn
      creating build/lib.linux-x86_64-cpython-310/hopper
      copying hopper/__init__.py -> build/lib.linux-x86_64-cpython-310/hopper
      copying hopper/benchmark_attn.py -> build/lib.linux-x86_64-cpython-310/hopper
      copying hopper/benchmark_flash_attention_fp8.py -> build/lib.linux-x86_64-cpython-310/hopper
      copying hopper/benchmark_mla_decode.py -> build/lib.linux-x86_64-cpython-310/hopper
      copying hopper/benchmark_split_kv.py -> build/lib.linux-x86_64-cpython-310/hopper
      copying hopper/flash_attn_interface.py -> build/lib.linux-x86_64-cpython-310/hopper
      copying hopper/generate_kernels.py -> build/lib.linux-x86_64-cpython-310/hopper
      copying hopper/padding.py -> build/lib.linux-x86_64-cpython-310/hopper
      copying hopper/setup.py -> build/lib.linux-x86_64-cpython-310/hopper
      copying hopper/test_attn_kvcache.py -> build/lib.linux-x86_64-cpython-310/hopper
      copying hopper/test_flash_attn.py -> build/lib.linux-x86_64-cpython-310/hopper
      copying hopper/test_kvcache.py -> build/lib.linux-x86_64-cpython-310/hopper
      copying hopper/test_util.py -> build/lib.linux-x86_64-cpython-310/hopper
      creating build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/__init__.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/ampere_helpers.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/blackwell_helpers.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/block_info.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/fast_math.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/flash_bwd.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/flash_bwd_postprocess.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/flash_bwd_preprocess.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/flash_fwd.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/flash_fwd_sm100.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/hopper_helpers.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/interface.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/mask.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/mma_sm100_desc.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/named_barrier.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/pack_gqa.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/pipeline.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/seqlen_info.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/softmax.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/tile_scheduler.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      copying flash_attn/cute/utils.py -> build/lib.linux-x86_64-cpython-310/flash_attn/cute
      creating build/lib.linux-x86_64-cpython-310/flash_attn/flash_attn_triton_amd
      copying flash_attn/flash_attn_triton_amd/__init__.py -> build/lib.linux-x86_64-cpython-310/flash_attn/flash_attn_triton_amd
      copying flash_attn/flash_attn_triton_amd/bench.py -> build/lib.linux-x86_64-cpython-310/flash_attn/flash_attn_triton_amd
      copying flash_attn/flash_attn_triton_amd/bwd_prefill.py -> build/lib.linux-x86_64-cpython-310/flash_attn/flash_attn_triton_amd
      copying flash_attn/flash_attn_triton_amd/bwd_prefill_fused.py -> build/lib.linux-x86_64-cpython-310/flash_attn/flash_attn_triton_amd
      copying flash_attn/flash_attn_triton_amd/bwd_prefill_onekernel.py -> build/lib.linux-x86_64-cpython-310/flash_attn/flash_attn_triton_amd
      copying flash_attn/flash_attn_triton_amd/bwd_prefill_split.py -> build/lib.linux-x86_64-cpython-310/flash_attn/flash_attn_triton_amd
      copying flash_attn/flash_attn_triton_amd/bwd_ref.py -> build/lib.linux-x86_64-cpython-310/flash_attn/flash_attn_triton_amd
      copying flash_attn/flash_attn_triton_amd/fp8.py -> build/lib.linux-x86_64-cpython-310/flash_attn/flash_attn_triton_amd
      copying flash_attn/flash_attn_triton_amd/fwd_decode.py -> build/lib.linux-x86_64-cpython-310/flash_attn/flash_attn_triton_amd
      copying flash_attn/flash_attn_triton_amd/fwd_prefill.py -> build/lib.linux-x86_64-cpython-310/flash_attn/flash_attn_triton_amd
      copying flash_attn/flash_attn_triton_amd/fwd_ref.py -> build/lib.linux-x86_64-cpython-310/flash_attn/flash_attn_triton_amd
      copying flash_attn/flash_attn_triton_amd/interface_fa.py -> build/lib.linux-x86_64-cpython-310/flash_attn/flash_attn_triton_amd
      copying flash_attn/flash_attn_triton_amd/test.py -> build/lib.linux-x86_64-cpython-310/flash_attn/flash_attn_triton_amd
      copying flash_attn/flash_attn_triton_amd/train.py -> build/lib.linux-x86_64-cpython-310/flash_attn/flash_attn_triton_amd
      copying flash_attn/flash_attn_triton_amd/utils.py -> build/lib.linux-x86_64-cpython-310/flash_attn/flash_attn_triton_amd
      creating build/lib.linux-x86_64-cpython-310/flash_attn/layers
      copying flash_attn/layers/__init__.py -> build/lib.linux-x86_64-cpython-310/flash_attn/layers
      copying flash_attn/layers/patch_embed.py -> build/lib.linux-x86_64-cpython-310/flash_attn/layers
      copying flash_attn/layers/rotary.py -> build/lib.linux-x86_64-cpython-310/flash_attn/layers
      creating build/lib.linux-x86_64-cpython-310/flash_attn/losses
      copying flash_attn/losses/__init__.py -> build/lib.linux-x86_64-cpython-310/flash_attn/losses
      copying flash_attn/losses/cross_entropy.py -> build/lib.linux-x86_64-cpython-310/flash_attn/losses
      creating build/lib.linux-x86_64-cpython-310/flash_attn/models
      copying flash_attn/models/__init__.py -> build/lib.linux-x86_64-cpython-310/flash_attn/models
      copying flash_attn/models/baichuan.py -> build/lib.linux-x86_64-cpython-310/flash_attn/models
      copying flash_attn/models/bert.py -> build/lib.linux-x86_64-cpython-310/flash_attn/models
      copying flash_attn/models/bigcode.py -> build/lib.linux-x86_64-cpython-310/flash_attn/models
      copying flash_attn/models/btlm.py -> build/lib.linux-x86_64-cpython-310/flash_attn/models
      copying flash_attn/models/falcon.py -> build/lib.linux-x86_64-cpython-310/flash_attn/models
      copying flash_attn/models/gpt.py -> build/lib.linux-x86_64-cpython-310/flash_attn/models
      copying flash_attn/models/gpt_neox.py -> build/lib.linux-x86_64-cpython-310/flash_attn/models
      copying flash_attn/models/gptj.py -> build/lib.linux-x86_64-cpython-310/flash_attn/models
      copying flash_attn/models/llama.py -> build/lib.linux-x86_64-cpython-310/flash_attn/models
      copying flash_attn/models/opt.py -> build/lib.linux-x86_64-cpython-310/flash_attn/models
      copying flash_attn/models/vit.py -> build/lib.linux-x86_64-cpython-310/flash_attn/models
      creating build/lib.linux-x86_64-cpython-310/flash_attn/modules
      copying flash_attn/modules/__init__.py -> build/lib.linux-x86_64-cpython-310/flash_attn/modules
      copying flash_attn/modules/block.py -> build/lib.linux-x86_64-cpython-310/flash_attn/modules
      copying flash_attn/modules/embedding.py -> build/lib.linux-x86_64-cpython-310/flash_attn/modules
      copying flash_attn/modules/mha.py -> build/lib.linux-x86_64-cpython-310/flash_attn/modules
      copying flash_attn/modules/mlp.py -> build/lib.linux-x86_64-cpython-310/flash_attn/modules
      creating build/lib.linux-x86_64-cpython-310/flash_attn/ops
      copying flash_attn/ops/__init__.py -> build/lib.linux-x86_64-cpython-310/flash_attn/ops
      copying flash_attn/ops/activations.py -> build/lib.linux-x86_64-cpython-310/flash_attn/ops
      copying flash_attn/ops/fused_dense.py -> build/lib.linux-x86_64-cpython-310/flash_attn/ops
      copying flash_attn/ops/layer_norm.py -> build/lib.linux-x86_64-cpython-310/flash_attn/ops
      copying flash_attn/ops/rms_norm.py -> build/lib.linux-x86_64-cpython-310/flash_attn/ops
      creating build/lib.linux-x86_64-cpython-310/flash_attn/utils
      copying flash_attn/utils/__init__.py -> build/lib.linux-x86_64-cpython-310/flash_attn/utils
      copying flash_attn/utils/benchmark.py -> build/lib.linux-x86_64-cpython-310/flash_attn/utils
      copying flash_attn/utils/distributed.py -> build/lib.linux-x86_64-cpython-310/flash_attn/utils
      copying flash_attn/utils/generation.py -> build/lib.linux-x86_64-cpython-310/flash_attn/utils
      copying flash_attn/utils/library.py -> build/lib.linux-x86_64-cpython-310/flash_attn/utils
      copying flash_attn/utils/pretrained.py -> build/lib.linux-x86_64-cpython-310/flash_attn/utils
      copying flash_attn/utils/testing.py -> build/lib.linux-x86_64-cpython-310/flash_attn/utils
      copying flash_attn/utils/torch.py -> build/lib.linux-x86_64-cpython-310/flash_attn/utils
      creating build/lib.linux-x86_64-cpython-310/flash_attn/ops/triton
      copying flash_attn/ops/triton/__init__.py -> build/lib.linux-x86_64-cpython-310/flash_attn/ops/triton
      copying flash_attn/ops/triton/cross_entropy.py -> build/lib.linux-x86_64-cpython-310/flash_attn/ops/triton
      copying flash_attn/ops/triton/k_activations.py -> build/lib.linux-x86_64-cpython-310/flash_attn/ops/triton
      copying flash_attn/ops/triton/layer_norm.py -> build/lib.linux-x86_64-cpython-310/flash_attn/ops/triton
      copying flash_attn/ops/triton/linear.py -> build/lib.linux-x86_64-cpython-310/flash_attn/ops/triton
      copying flash_attn/ops/triton/mlp.py -> build/lib.linux-x86_64-cpython-310/flash_attn/ops/triton
      copying flash_attn/ops/triton/rotary.py -> build/lib.linux-x86_64-cpython-310/flash_attn/ops/triton
      running build_ext
      Traceback (most recent call last):
        File "<string>", line 486, in run
        File "/venv/main/lib/python3.10/urllib/request.py", line 241, in urlretrieve
          with contextlib.closing(urlopen(url, data)) as fp:
        File "/venv/main/lib/python3.10/urllib/request.py", line 216, in urlopen
          return opener.open(url, data, timeout)
        File "/venv/main/lib/python3.10/urllib/request.py", line 525, in open
          response = meth(req, response)
        File "/venv/main/lib/python3.10/urllib/request.py", line 634, in http_response
          response = self.parent.error(
        File "/venv/main/lib/python3.10/urllib/request.py", line 563, in error
          return self._call_chain(*args)
        File "/venv/main/lib/python3.10/urllib/request.py", line 496, in _call_chain
          result = func(*args)
        File "/venv/main/lib/python3.10/urllib/request.py", line 643, in http_error_default
          raise HTTPError(req.full_url, code, msg, hdrs, fp)
      urllib.error.HTTPError: HTTP Error 404: Not Found
      
      During handling of the above exception, another exception occurred:
      
      Traceback (most recent call last):
        File "/venv/main/lib/python3.10/site-packages/pip/_vendor/pyproject_hooks/_in_process/_in_process.py", line 389, in <module>
          main()
        File "/venv/main/lib/python3.10/site-packages/pip/_vendor/pyproject_hooks/_in_process/_in_process.py", line 373, in main
          json_out["return_val"] = hook(**hook_input["kwargs"])
        File "/venv/main/lib/python3.10/site-packages/pip/_vendor/pyproject_hooks/_in_process/_in_process.py", line 280, in build_wheel
          return _build_backend().build_wheel(
        File "/venv/main/lib/python3.10/site-packages/setuptools/build_meta.py", line 435, in build_wheel
          return _build(['bdist_wheel', '--dist-info-dir', str(metadata_directory)])
        File "/venv/main/lib/python3.10/site-packages/setuptools/build_meta.py", line 423, in _build
          return self._build_with_temp_dir(
        File "/venv/main/lib/python3.10/site-packages/setuptools/build_meta.py", line 404, in _build_with_temp_dir
          self.run_setup()
        File "/venv/main/lib/python3.10/site-packages/setuptools/build_meta.py", line 512, in run_setup
          super().run_setup(setup_script=setup_script)
        File "/venv/main/lib/python3.10/site-packages/setuptools/build_meta.py", line 317, in run_setup
          exec(code, locals())
        File "<string>", line 526, in <module>
        File "/venv/main/lib/python3.10/site-packages/setuptools/__init__.py", line 115, in setup
          return distutils.core.setup(**attrs)
        File "/venv/main/lib/python3.10/site-packages/setuptools/_distutils/core.py", line 186, in setup
          return run_commands(dist)
        File "/venv/main/lib/python3.10/site-packages/setuptools/_distutils/core.py", line 202, in run_commands
          dist.run_commands()
        File "/venv/main/lib/python3.10/site-packages/setuptools/_distutils/dist.py", line 1002, in run_commands
          self.run_command(cmd)
        File "/venv/main/lib/python3.10/site-packages/setuptools/dist.py", line 1102, in run_command
          super().run_command(command)
        File "/venv/main/lib/python3.10/site-packages/setuptools/_distutils/dist.py", line 1021, in run_command
          cmd_obj.run()
        File "<string>", line 503, in run
        File "/venv/main/lib/python3.10/site-packages/setuptools/command/bdist_wheel.py", line 370, in run
          self.run_command("build")
        File "/venv/main/lib/python3.10/site-packages/setuptools/_distutils/cmd.py", line 357, in run_command
          self.distribution.run_command(command)
        File "/venv/main/lib/python3.10/site-packages/setuptools/dist.py", line 1102, in run_command
          super().run_command(command)
        File "/venv/main/lib/python3.10/site-packages/setuptools/_distutils/dist.py", line 1021, in run_command
          cmd_obj.run()
        File "/venv/main/lib/python3.10/site-packages/setuptools/_distutils/command/build.py", line 135, in run
          self.run_command(cmd_name)
        File "/venv/main/lib/python3.10/site-packages/setuptools/_distutils/cmd.py", line 357, in run_command
          self.distribution.run_command(command)
        File "/venv/main/lib/python3.10/site-packages/setuptools/dist.py", line 1102, in run_command
          super().run_command(command)
        File "/venv/main/lib/python3.10/site-packages/setuptools/_distutils/dist.py", line 1021, in run_command
          cmd_obj.run()
        File "/venv/main/lib/python3.10/site-packages/setuptools/command/build_ext.py", line 96, in run
          _build_ext.run(self)
        File "/venv/main/lib/python3.10/site-packages/setuptools/_distutils/command/build_ext.py", line 368, in run
          self.build_extensions()
        File "/venv/main/lib/python3.10/site-packages/torch/utils/cpp_extension.py", line 695, in build_extensions
          _check_cuda_version(compiler_name, compiler_version)
        File "/venv/main/lib/python3.10/site-packages/torch/utils/cpp_extension.py", line 524, in _check_cuda_version
          raise RuntimeError(CUDA_MISMATCH_MESSAGE, cuda_str_version, torch.version.cuda)
      RuntimeError: ('The detected CUDA version (%s) mismatches the version that was used to compilePyTorch (%s). Please make sure to use the same CUDA versions.', '11.8', '12.8')
      [end of output]
  
  note: This error originates from a subprocess, and is likely not a problem with pip.
  ERROR: Failed building wheel for flash-attn
error: failed-wheel-build-for-install

× Failed to build installable wheels for some pyproject.toml based projects
╰─> flash-attn
  flash-attn not available (will use SDPA fallback — still fast)
🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
🦥 Unsloth Zoo will now patch everything to make training faster!
  Running self-tests...
    ✓ format_training_pair
    ✓ format_error_correction
    ✓ FrontierFactory math
    ✓ ProblemComposer
    ✓ ThompsonBandit
    ✓ StrategySelector
  Tests: 6 passed, 0 failed

  GPU: NVIDIA RTX A6000 (48GB)
  RAM: 283GB
  CPU cores: 28

  Loading model...
==((====))==  Unsloth 2026.3.4: Fast Qwen3_5 patching. Transformers: 5.2.0.
   \\   /|    NVIDIA RTX A6000. Num GPUs = 1. Max memory: 47.536 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.10.0+cu128. CUDA: 8.6. CUDA Toolkit: 12.8. Triton: 3.6.0
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.35. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!
The fast path is not available because one of the required library is not installed. Falling back to torch implementation. To install follow https://github.com/fla-org/flash-linear-attention#installation and https://github.com/Dao-AILab/causal-conv1d
Loading weights:   0%|                                                                                                                        | 0/760 [00:00<?, ?it/s]Loading weights:   0%|                                                                          | 1/760 [00:00<00:00, 7397.36it/s, Materializing param=lm_head.weight]Loading weights:   0%|                                                                          | 1/760 [00:00<00:00, 3799.19it/s, Materializing param=lm_head.weight]Loading weights:   0%|▏                                                                           | 2/760 [00:00<02:34,  4.90it/s, Materializing param=lm_head.weight]Loading weights:   0%|▏                                                 | 2/760 [00:00<02:34,  4.90it/s, Materializing param=model.language_model.embed_tokens.weight]Loading weights:   0%|▏                                                 | 2/760 [00:00<02:34,  4.90it/s, Materializing param=model.language_model.embed_tokens.weight]Loading weights:   0%|▏                                                 | 3/760 [00:00<04:16,  2.95it/s, Materializing param=model.language_model.embed_tokens.weight]Loading weights:   0%|▏                                     | 3/760 [00:00<04:16,  2.95it/s, Materializing param=model.language_model.layers.0.input_layernorm.weight]Loading weights:   0%|▏                                     | 3/760 [00:00<04:16,  2.95it/s, Materializing param=model.language_model.layers.0.input_layernorm.weight]Loading weights:   1%|▏                                          | 4/760 [00:00<04:16,  2.95it/s, Materializing param=model.language_model.layers.0.linear_attn.A_log]Loading weights:   1%|▏                                          | 4/760 [00:00<04:16,  2.95it/s, Materializing param=model.language_model.layers.0.linear_attn.A_log]Loading weights:   1%|▏                                  | 5/760 [00:00<04:16,  2.95it/s, Materializing param=model.language_model.layers.0.linear_attn.conv1d.weight]Loading weights:   1%|▏                                  | 5/760 [00:00<04:16,  2.95it/s, Materializing param=model.language_model.layers.0.linear_attn.conv1d.weight]Loading weights:   1%|▎                                        | 6/760 [00:00<04:15,  2.95it/s, Materializing param=model.language_model.layers.0.linear_attn.dt_bias]Loading weights:   1%|▎                                        | 6/760 [00:00<04:15,  2.95it/s, Materializing param=model.language_model.layers.0.linear_attn.dt_bias]Loading weights:   1%|▎                               | 7/760 [00:00<04:15,  2.95it/s, Materializing param=model.language_model.layers.0.linear_attn.in_proj_a.weight]Loading weights:   1%|▎                               | 7/760 [00:00<04:15,  2.95it/s, Materializing param=model.language_model.layers.0.linear_attn.in_proj_a.weight]Loading weights:   1%|▎                               | 8/760 [00:00<04:15,  2.95it/s, Materializing param=model.language_model.layers.0.linear_attn.in_proj_b.weight]Loading weights:   1%|▎                               | 8/760 [00:00<04:15,  2.95it/s, Materializing param=model.language_model.layers.0.linear_attn.in_proj_b.weight]Loading weights:   1%|▎                             | 9/760 [00:00<04:14,  2.95it/s, Materializing param=model.language_model.layers.0.linear_attn.in_proj_qkv.weight]Loading weights:   1%|▎                             | 9/760 [00:00<04:14,  2.95it/s, Materializing param=model.language_model.layers.0.linear_attn.in_proj_qkv.weight]Loading weights:   1%|▍                              | 10/760 [00:00<04:14,  2.95it/s, Materializing param=model.language_model.layers.0.linear_attn.in_proj_z.weight]Loading weights:   1%|▍                              | 10/760 [00:00<04:14,  2.95it/s, Materializing param=model.language_model.layers.0.linear_attn.in_proj_z.weight]Loading weights:   1%|▌                                   | 11/760 [00:01<04:14,  2.95it/s, Materializing param=model.language_model.layers.0.linear_attn.norm.weight]Loading weights:   1%|▌                                   | 11/760 [00:01<04:14,  2.95it/s, Materializing param=model.language_model.layers.0.linear_attn.norm.weight]Loading weights:   2%|▌                               | 12/760 [00:01<04:13,  2.95it/s, Materializing param=model.language_model.layers.0.linear_attn.out_proj.weight]Loading weights:   2%|▌                               | 12/760 [00:01<04:13,  2.95it/s, Materializing param=model.language_model.layers.0.linear_attn.out_proj.weight]Loading weights:   2%|▋                                      | 13/760 [00:01<04:13,  2.95it/s, Materializing param=model.language_model.layers.0.mlp.down_proj.weight]Loading weights:   2%|▋                                      | 13/760 [00:01<04:13,  2.95it/s, Materializing param=model.language_model.layers.0.mlp.down_proj.weight]Loading weights:   2%|▋                                      | 14/760 [00:01<04:13,  2.95it/s, Materializing param=model.language_model.layers.0.mlp.gate_proj.weight]Loading weights:   2%|▋                                      | 14/760 [00:01<04:13,  2.95it/s, Materializing param=model.language_model.layers.0.mlp.gate_proj.weight]Loading weights:   2%|▊                                        | 15/760 [00:01<04:12,  2.95it/s, Materializing param=model.language_model.layers.0.mlp.up_proj.weight]Loading weights:   2%|▊                                        | 15/760 [00:01<04:12,  2.95it/s, Materializing param=model.language_model.layers.0.mlp.up_proj.weight]Loading weights:   2%|▊                                        | 16/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.0.mlp.up_proj.weight]Loading weights:   2%|▌                           | 16/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.0.post_attention_layernorm.weight]Loading weights:   2%|▌                           | 16/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.0.post_attention_layernorm.weight]Loading weights:   2%|▊                                    | 17/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.input_layernorm.weight]Loading weights:   2%|▊                                    | 17/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.input_layernorm.weight]Loading weights:   2%|▉                                         | 18/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.linear_attn.A_log]Loading weights:   2%|▉                                         | 18/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.linear_attn.A_log]Loading weights:   2%|▊                                 | 19/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.linear_attn.conv1d.weight]Loading weights:   2%|▊                                 | 19/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.linear_attn.conv1d.weight]Loading weights:   3%|█                                       | 20/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.linear_attn.dt_bias]Loading weights:   3%|█                                       | 20/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.linear_attn.dt_bias]Loading weights:   3%|▊                              | 21/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.linear_attn.in_proj_a.weight]Loading weights:   3%|▊                              | 21/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.linear_attn.in_proj_a.weight]Loading weights:   3%|▉                              | 22/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.linear_attn.in_proj_b.weight]Loading weights:   3%|▉                              | 22/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.linear_attn.in_proj_b.weight]Loading weights:   3%|▉                            | 23/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.linear_attn.in_proj_qkv.weight]Loading weights:   3%|▉                            | 23/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.linear_attn.in_proj_qkv.weight]Loading weights:   3%|▉                              | 24/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.linear_attn.in_proj_z.weight]Loading weights:   3%|▉                              | 24/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.linear_attn.in_proj_z.weight]Loading weights:   3%|█▏                                  | 25/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.linear_attn.norm.weight]Loading weights:   3%|█▏                                  | 25/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.linear_attn.norm.weight]Loading weights:   3%|█                               | 26/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.linear_attn.out_proj.weight]Loading weights:   3%|█                               | 26/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.linear_attn.out_proj.weight]Loading weights:   4%|█▍                                     | 27/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.mlp.down_proj.weight]Loading weights:   4%|█▍                                     | 27/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.mlp.down_proj.weight]Loading weights:   4%|█▍                                     | 28/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.mlp.gate_proj.weight]Loading weights:   4%|█▍                                     | 28/760 [00:01<00:34, 21.27it/s, Materializing param=model.language_model.layers.1.mlp.gate_proj.weight]Loading weights:   4%|█▍                                     | 29/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.1.mlp.gate_proj.weight]Loading weights:   4%|█▌                                       | 29/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.1.mlp.up_proj.weight]Loading weights:   4%|█▌                                       | 29/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.1.mlp.up_proj.weight]Loading weights:   4%|█                           | 30/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.1.post_attention_layernorm.weight]Loading weights:   4%|█                           | 30/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.1.post_attention_layernorm.weight]Loading weights:   4%|█▌                                   | 31/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.input_layernorm.weight]Loading weights:   4%|█▌                                   | 31/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.input_layernorm.weight]Loading weights:   4%|█▊                                        | 32/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.linear_attn.A_log]Loading weights:   4%|█▊                                        | 32/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.linear_attn.A_log]Loading weights:   4%|█▍                                | 33/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.linear_attn.conv1d.weight]Loading weights:   4%|█▍                                | 33/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.linear_attn.conv1d.weight]Loading weights:   4%|█▊                                      | 34/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.linear_attn.dt_bias]Loading weights:   4%|█▊                                      | 34/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.linear_attn.dt_bias]Loading weights:   5%|█▍                             | 35/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.linear_attn.in_proj_a.weight]Loading weights:   5%|█▍                             | 35/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.linear_attn.in_proj_a.weight]Loading weights:   5%|█▍                             | 36/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.linear_attn.in_proj_b.weight]Loading weights:   5%|█▍                             | 36/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.linear_attn.in_proj_b.weight]Loading weights:   5%|█▍                           | 37/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.linear_attn.in_proj_qkv.weight]Loading weights:   5%|█▍                           | 37/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.linear_attn.in_proj_qkv.weight]Loading weights:   5%|█▌                             | 38/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.linear_attn.in_proj_z.weight]Loading weights:   5%|█▌                             | 38/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.linear_attn.in_proj_z.weight]Loading weights:   5%|█▊                                  | 39/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.linear_attn.norm.weight]Loading weights:   5%|█▊                                  | 39/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.linear_attn.norm.weight]Loading weights:   5%|█▋                              | 40/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.linear_attn.out_proj.weight]Loading weights:   5%|█▋                              | 40/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.linear_attn.out_proj.weight]Loading weights:   5%|██                                     | 41/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.mlp.down_proj.weight]Loading weights:   5%|██                                     | 41/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.mlp.down_proj.weight]Loading weights:   6%|██▏                                    | 42/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.mlp.gate_proj.weight]Loading weights:   6%|██▏                                    | 42/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.mlp.gate_proj.weight]Loading weights:   6%|██▎                                      | 43/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.mlp.up_proj.weight]Loading weights:   6%|██▎                                      | 43/760 [00:01<00:18, 38.78it/s, Materializing param=model.language_model.layers.2.mlp.up_proj.weight]Loading weights:   6%|██▎                                      | 44/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.2.mlp.up_proj.weight]Loading weights:   6%|█▌                          | 44/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.2.post_attention_layernorm.weight]Loading weights:   6%|█▌                          | 44/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.2.post_attention_layernorm.weight]Loading weights:   6%|██▏                                  | 45/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.input_layernorm.weight]Loading weights:   6%|██▏                                  | 45/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.input_layernorm.weight]Loading weights:   6%|██▎                                    | 46/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.mlp.down_proj.weight]Loading weights:   6%|██▎                                    | 46/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.mlp.down_proj.weight]Loading weights:   6%|██▍                                    | 47/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.mlp.gate_proj.weight]Loading weights:   6%|██▍                                    | 47/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.mlp.gate_proj.weight]Loading weights:   6%|██▌                                      | 48/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.mlp.up_proj.weight]Loading weights:   6%|██▌                                      | 48/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.mlp.up_proj.weight]Loading weights:   6%|█▊                          | 49/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.post_attention_layernorm.weight]Loading weights:   6%|█▊                          | 49/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.post_attention_layernorm.weight]Loading weights:   7%|██▎                                 | 50/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.self_attn.k_norm.weight]Loading weights:   7%|██▎                                 | 50/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.self_attn.k_norm.weight]Loading weights:   7%|██▍                                 | 51/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.self_attn.k_proj.weight]Loading weights:   7%|██▍                                 | 51/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.self_attn.k_proj.weight]Loading weights:   7%|██▍                                 | 52/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.self_attn.o_proj.weight]Loading weights:   7%|██▍                                 | 52/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.self_attn.o_proj.weight]Loading weights:   7%|██▌                                 | 53/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.self_attn.q_norm.weight]Loading weights:   7%|██▌                                 | 53/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.self_attn.q_norm.weight]Loading weights:   7%|██▌                                 | 54/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.self_attn.q_proj.weight]Loading weights:   7%|██▌                                 | 54/760 [00:01<00:12, 58.11it/s, Materializing param=model.language_model.layers.3.self_attn.q_proj.weight]Loading weights:   7%|██▌                                 | 55/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.3.self_attn.q_proj.weight]Loading weights:   7%|██▌                                 | 55/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.3.self_attn.v_proj.weight]Loading weights:   7%|██▌                                 | 55/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.3.self_attn.v_proj.weight]Loading weights:   7%|██▋                                  | 56/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.input_layernorm.weight]Loading weights:   7%|██▋                                  | 56/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.input_layernorm.weight]Loading weights:   8%|███▏                                      | 57/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.linear_attn.A_log]Loading weights:   8%|███▏                                      | 57/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.linear_attn.A_log]Loading weights:   8%|██▌                               | 58/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.linear_attn.conv1d.weight]Loading weights:   8%|██▌                               | 58/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.linear_attn.conv1d.weight]Loading weights:   8%|███                                     | 59/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.linear_attn.dt_bias]Loading weights:   8%|███                                     | 59/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.linear_attn.dt_bias]Loading weights:   8%|██▍                            | 60/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.linear_attn.in_proj_a.weight]Loading weights:   8%|██▍                            | 60/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.linear_attn.in_proj_a.weight]Loading weights:   8%|██▍                            | 61/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.linear_attn.in_proj_b.weight]Loading weights:   8%|██▍                            | 61/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.linear_attn.in_proj_b.weight]Loading weights:   8%|██▎                          | 62/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.linear_attn.in_proj_qkv.weight]Loading weights:   8%|██▎                          | 62/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.linear_attn.in_proj_qkv.weight]Loading weights:   8%|██▌                            | 63/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.linear_attn.in_proj_z.weight]Loading weights:   8%|██▌                            | 63/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.linear_attn.in_proj_z.weight]Loading weights:   8%|███                                 | 64/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.linear_attn.norm.weight]Loading weights:   8%|███                                 | 64/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.linear_attn.norm.weight]Loading weights:   9%|██▋                             | 65/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.linear_attn.out_proj.weight]Loading weights:   9%|██▋                             | 65/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.linear_attn.out_proj.weight]Loading weights:   9%|███▍                                   | 66/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.mlp.down_proj.weight]Loading weights:   9%|███▍                                   | 66/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.mlp.down_proj.weight]Loading weights:   9%|███▍                                   | 67/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.mlp.gate_proj.weight]Loading weights:   9%|███▍                                   | 67/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.mlp.gate_proj.weight]Loading weights:   9%|███▋                                     | 68/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.mlp.up_proj.weight]Loading weights:   9%|███▋                                     | 68/760 [00:01<00:10, 68.34it/s, Materializing param=model.language_model.layers.4.mlp.up_proj.weight]Loading weights:   9%|███▋                                     | 69/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.4.mlp.up_proj.weight]Loading weights:   9%|██▌                         | 69/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.4.post_attention_layernorm.weight]Loading weights:   9%|██▌                         | 69/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.4.post_attention_layernorm.weight]Loading weights:   9%|███▍                                 | 70/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.input_layernorm.weight]Loading weights:   9%|███▍                                 | 70/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.input_layernorm.weight]Loading weights:   9%|███▉                                      | 71/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.linear_attn.A_log]Loading weights:   9%|███▉                                      | 71/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.linear_attn.A_log]Loading weights:   9%|███▏                              | 72/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.linear_attn.conv1d.weight]Loading weights:   9%|███▏                              | 72/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.linear_attn.conv1d.weight]Loading weights:  10%|███▊                                    | 73/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.linear_attn.dt_bias]Loading weights:  10%|███▊                                    | 73/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.linear_attn.dt_bias]Loading weights:  10%|███                            | 74/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.linear_attn.in_proj_a.weight]Loading weights:  10%|███                            | 74/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.linear_attn.in_proj_a.weight]Loading weights:  10%|███                            | 75/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.linear_attn.in_proj_b.weight]Loading weights:  10%|███                            | 75/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.linear_attn.in_proj_b.weight]Loading weights:  10%|██▉                          | 76/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.linear_attn.in_proj_qkv.weight]Loading weights:  10%|██▉                          | 76/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.linear_attn.in_proj_qkv.weight]Loading weights:  10%|███▏                           | 77/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.linear_attn.in_proj_z.weight]Loading weights:  10%|███▏                           | 77/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.linear_attn.in_proj_z.weight]Loading weights:  10%|███▋                                | 78/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.linear_attn.norm.weight]Loading weights:  10%|███▋                                | 78/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.linear_attn.norm.weight]Loading weights:  10%|███▎                            | 79/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.linear_attn.out_proj.weight]Loading weights:  10%|███▎                            | 79/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.linear_attn.out_proj.weight]Loading weights:  11%|████                                   | 80/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.mlp.down_proj.weight]Loading weights:  11%|████                                   | 80/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.mlp.down_proj.weight]Loading weights:  11%|████▏                                  | 81/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.mlp.gate_proj.weight]Loading weights:  11%|████▏                                  | 81/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.mlp.gate_proj.weight]Loading weights:  11%|████▍                                    | 82/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.mlp.up_proj.weight]Loading weights:  11%|████▍                                    | 82/760 [00:01<00:08, 81.89it/s, Materializing param=model.language_model.layers.5.mlp.up_proj.weight]Loading weights:  11%|████▍                                    | 83/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.5.mlp.up_proj.weight]Loading weights:  11%|███                         | 83/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.5.post_attention_layernorm.weight]Loading weights:  11%|███                         | 83/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.5.post_attention_layernorm.weight]Loading weights:  11%|████                                 | 84/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.input_layernorm.weight]Loading weights:  11%|████                                 | 84/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.input_layernorm.weight]Loading weights:  11%|████▋                                     | 85/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.linear_attn.A_log]Loading weights:  11%|████▋                                     | 85/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.linear_attn.A_log]Loading weights:  11%|███▊                              | 86/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.linear_attn.conv1d.weight]Loading weights:  11%|███▊                              | 86/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.linear_attn.conv1d.weight]Loading weights:  11%|████▌                                   | 87/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.linear_attn.dt_bias]Loading weights:  11%|████▌                                   | 87/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.linear_attn.dt_bias]Loading weights:  12%|███▌                           | 88/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.linear_attn.in_proj_a.weight]Loading weights:  12%|███▌                           | 88/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.linear_attn.in_proj_a.weight]Loading weights:  12%|███▋                           | 89/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.linear_attn.in_proj_b.weight]Loading weights:  12%|███▋                           | 89/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.linear_attn.in_proj_b.weight]Loading weights:  12%|███▍                         | 90/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.linear_attn.in_proj_qkv.weight]Loading weights:  12%|███▍                         | 90/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.linear_attn.in_proj_qkv.weight]Loading weights:  12%|███▋                           | 91/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.linear_attn.in_proj_z.weight]Loading weights:  12%|███▋                           | 91/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.linear_attn.in_proj_z.weight]Loading weights:  12%|████▎                               | 92/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.linear_attn.norm.weight]Loading weights:  12%|████▎                               | 92/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.linear_attn.norm.weight]Loading weights:  12%|███▉                            | 93/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.linear_attn.out_proj.weight]Loading weights:  12%|███▉                            | 93/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.linear_attn.out_proj.weight]Loading weights:  12%|████▊                                  | 94/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.mlp.down_proj.weight]Loading weights:  12%|████▊                                  | 94/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.mlp.down_proj.weight]Loading weights:  12%|████▉                                  | 95/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.mlp.gate_proj.weight]Loading weights:  12%|████▉                                  | 95/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.mlp.gate_proj.weight]Loading weights:  13%|█████▏                                   | 96/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.mlp.up_proj.weight]Loading weights:  13%|█████▏                                   | 96/760 [00:01<00:07, 92.58it/s, Materializing param=model.language_model.layers.6.mlp.up_proj.weight]Loading weights:  13%|█████▏                                   | 97/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.6.mlp.up_proj.weight]Loading weights:  13%|███▌                        | 97/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.6.post_attention_layernorm.weight]Loading weights:  13%|███▌                        | 97/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.6.post_attention_layernorm.weight]Loading weights:  13%|████▊                                | 98/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.input_layernorm.weight]Loading weights:  13%|████▊                                | 98/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.input_layernorm.weight]Loading weights:  13%|█████                                  | 99/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.mlp.down_proj.weight]Loading weights:  13%|█████                                  | 99/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.mlp.down_proj.weight]Loading weights:  13%|█████                                 | 100/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.mlp.gate_proj.weight]Loading weights:  13%|█████                                 | 100/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.mlp.gate_proj.weight]Loading weights:  13%|█████▎                                  | 101/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.mlp.up_proj.weight]Loading weights:  13%|█████▎                                  | 101/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.mlp.up_proj.weight]Loading weights:  13%|███▌                       | 102/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.post_attention_layernorm.weight]Loading weights:  13%|███▌                       | 102/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.post_attention_layernorm.weight]Loading weights:  14%|████▋                              | 103/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.self_attn.k_norm.weight]Loading weights:  14%|████▋                              | 103/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.self_attn.k_norm.weight]Loading weights:  14%|████▊                              | 104/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.self_attn.k_proj.weight]Loading weights:  14%|████▊                              | 104/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.self_attn.k_proj.weight]Loading weights:  14%|████▊                              | 105/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.self_attn.o_proj.weight]Loading weights:  14%|████▊                              | 105/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.self_attn.o_proj.weight]Loading weights:  14%|████▉                              | 106/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.self_attn.q_norm.weight]Loading weights:  14%|████▉                              | 106/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.self_attn.q_norm.weight]Loading weights:  14%|████▉                              | 107/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.self_attn.q_proj.weight]Loading weights:  14%|████▉                              | 107/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.self_attn.q_proj.weight]Loading weights:  14%|████▉                              | 108/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.self_attn.v_proj.weight]Loading weights:  14%|████▉                              | 108/760 [00:01<00:06, 99.89it/s, Materializing param=model.language_model.layers.7.self_attn.v_proj.weight]Loading weights:  14%|████▉                             | 109/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.7.self_attn.v_proj.weight]Loading weights:  14%|█████                              | 109/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.input_layernorm.weight]Loading weights:  14%|█████                              | 109/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.input_layernorm.weight]Loading weights:  14%|█████▊                                  | 110/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.linear_attn.A_log]Loading weights:  14%|█████▊                                  | 110/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.linear_attn.A_log]Loading weights:  15%|████▋                           | 111/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.linear_attn.conv1d.weight]Loading weights:  15%|████▋                           | 111/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.linear_attn.conv1d.weight]Loading weights:  15%|█████▌                                | 112/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.linear_attn.dt_bias]Loading weights:  15%|█████▌                                | 112/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.linear_attn.dt_bias]Loading weights:  15%|████▎                        | 113/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.linear_attn.in_proj_a.weight]Loading weights:  15%|████▎                        | 113/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.linear_attn.in_proj_a.weight]Loading weights:  15%|████▎                        | 114/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.linear_attn.in_proj_b.weight]Loading weights:  15%|████▎                        | 114/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.linear_attn.in_proj_b.weight]Loading weights:  15%|████                       | 115/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.linear_attn.in_proj_qkv.weight]Loading weights:  15%|████                       | 115/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.linear_attn.in_proj_qkv.weight]Loading weights:  15%|████▍                        | 116/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.linear_attn.in_proj_z.weight]Loading weights:  15%|████▍                        | 116/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.linear_attn.in_proj_z.weight]Loading weights:  15%|█████▏                            | 117/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.linear_attn.norm.weight]Loading weights:  15%|█████▏                            | 117/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.linear_attn.norm.weight]Loading weights:  16%|████▋                         | 118/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.linear_attn.out_proj.weight]Loading weights:  16%|████▋                         | 118/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.linear_attn.out_proj.weight]Loading weights:  16%|█████▊                               | 119/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.mlp.down_proj.weight]Loading weights:  16%|█████▊                               | 119/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.mlp.down_proj.weight]Loading weights:  16%|█████▊                               | 120/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.mlp.gate_proj.weight]Loading weights:  16%|█████▊                               | 120/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.mlp.gate_proj.weight]Loading weights:  16%|██████▏                                | 121/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.mlp.up_proj.weight]Loading weights:  16%|██████▏                                | 121/760 [00:01<00:06, 100.61it/s, Materializing param=model.language_model.layers.8.mlp.up_proj.weight]Loading weights:  16%|██████▎                                | 122/760 [00:01<00:06, 104.23it/s, Materializing param=model.language_model.layers.8.mlp.up_proj.weight]Loading weights:  16%|████▏                     | 122/760 [00:01<00:06, 104.23it/s, Materializing param=model.language_model.layers.8.post_attention_layernorm.weight]Loading weights:  16%|████▏                     | 122/760 [00:01<00:06, 104.23it/s, Materializing param=model.language_model.layers.8.post_attention_layernorm.weight]Loading weights:  16%|█████▋                             | 123/760 [00:01<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.input_layernorm.weight]Loading weights:  16%|█████▋                             | 123/760 [00:01<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.input_layernorm.weight]Loading weights:  16%|██████▌                                 | 124/760 [00:01<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.linear_attn.A_log]Loading weights:  16%|██████▌                                 | 124/760 [00:01<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.linear_attn.A_log]Loading weights:  16%|█████▎                          | 125/760 [00:01<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.linear_attn.conv1d.weight]Loading weights:  16%|█████▎                          | 125/760 [00:01<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.linear_attn.conv1d.weight]Loading weights:  17%|██████▎                               | 126/760 [00:01<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.linear_attn.dt_bias]Loading weights:  17%|██████▎                               | 126/760 [00:01<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.linear_attn.dt_bias]Loading weights:  17%|████▊                        | 127/760 [00:01<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.linear_attn.in_proj_a.weight]Loading weights:  17%|████▊                        | 127/760 [00:01<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.linear_attn.in_proj_a.weight]Loading weights:  17%|████▉                        | 128/760 [00:01<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.linear_attn.in_proj_b.weight]Loading weights:  17%|████▉                        | 128/760 [00:01<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.linear_attn.in_proj_b.weight]Loading weights:  17%|████▌                      | 129/760 [00:01<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.linear_attn.in_proj_qkv.weight]Loading weights:  17%|████▌                      | 129/760 [00:01<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.linear_attn.in_proj_qkv.weight]Loading weights:  17%|████▉                        | 130/760 [00:02<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.linear_attn.in_proj_z.weight]Loading weights:  17%|████▉                        | 130/760 [00:02<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.linear_attn.in_proj_z.weight]Loading weights:  17%|█████▊                            | 131/760 [00:02<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.linear_attn.norm.weight]Loading weights:  17%|█████▊                            | 131/760 [00:02<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.linear_attn.norm.weight]Loading weights:  17%|█████▏                        | 132/760 [00:02<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.linear_attn.out_proj.weight]Loading weights:  17%|█████▏                        | 132/760 [00:02<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.linear_attn.out_proj.weight]Loading weights:  18%|██████▍                              | 133/760 [00:02<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.mlp.down_proj.weight]Loading weights:  18%|██████▍                              | 133/760 [00:02<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.mlp.down_proj.weight]Loading weights:  18%|██████▌                              | 134/760 [00:02<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.mlp.gate_proj.weight]Loading weights:  18%|██████▌                              | 134/760 [00:02<00:06, 104.23it/s, Materializing param=model.language_model.layers.9.mlp.gate_proj.weight]Loading weights:  18%|██████▉                                | 135/760 [00:02<00:05, 104.23it/s, Materializing param=model.language_model.layers.9.mlp.up_proj.weight]Loading weights:  18%|██████▉                                | 135/760 [00:02<00:05, 104.23it/s, Materializing param=model.language_model.layers.9.mlp.up_proj.weight]Loading weights:  18%|██████▉                                | 136/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.9.mlp.up_proj.weight]Loading weights:  18%|████▋                     | 136/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.9.post_attention_layernorm.weight]Loading weights:  18%|████▋                     | 136/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.9.post_attention_layernorm.weight]Loading weights:  18%|██████▏                           | 137/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.input_layernorm.weight]Loading weights:  18%|██████▏                           | 137/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.input_layernorm.weight]Loading weights:  18%|███████                                | 138/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.linear_attn.A_log]Loading weights:  18%|███████                                | 138/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.linear_attn.A_log]Loading weights:  18%|█████▋                         | 139/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.linear_attn.conv1d.weight]Loading weights:  18%|█████▋                         | 139/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.linear_attn.conv1d.weight]Loading weights:  18%|██████▊                              | 140/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.linear_attn.dt_bias]Loading weights:  18%|██████▊                              | 140/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.linear_attn.dt_bias]Loading weights:  19%|█████▏                      | 141/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.linear_attn.in_proj_a.weight]Loading weights:  19%|█████▏                      | 141/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.linear_attn.in_proj_a.weight]Loading weights:  19%|█████▏                      | 142/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.linear_attn.in_proj_b.weight]Loading weights:  19%|█████▏                      | 142/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.linear_attn.in_proj_b.weight]Loading weights:  19%|████▉                     | 143/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.linear_attn.in_proj_qkv.weight]Loading weights:  19%|████▉                     | 143/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.linear_attn.in_proj_qkv.weight]Loading weights:  19%|█████▎                      | 144/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.linear_attn.in_proj_z.weight]Loading weights:  19%|█████▎                      | 144/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.linear_attn.in_proj_z.weight]Loading weights:  19%|██████▎                          | 145/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.linear_attn.norm.weight]Loading weights:  19%|██████▎                          | 145/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.linear_attn.norm.weight]Loading weights:  19%|█████▌                       | 146/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.linear_attn.out_proj.weight]Loading weights:  19%|█████▌                       | 146/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.linear_attn.out_proj.weight]Loading weights:  19%|██████▉                             | 147/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.mlp.down_proj.weight]Loading weights:  19%|██████▉                             | 147/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.mlp.down_proj.weight]Loading weights:  19%|███████                             | 148/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.mlp.gate_proj.weight]Loading weights:  19%|███████                             | 148/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.mlp.gate_proj.weight]Loading weights:  20%|███████▍                              | 149/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.mlp.up_proj.weight]Loading weights:  20%|███████▍                              | 149/760 [00:02<00:05, 108.55it/s, Materializing param=model.language_model.layers.10.mlp.up_proj.weight]Loading weights:  20%|███████▌                              | 150/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.10.mlp.up_proj.weight]Loading weights:  20%|████▉                    | 150/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.10.post_attention_layernorm.weight]Loading weights:  20%|████▉                    | 150/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.10.post_attention_layernorm.weight]Loading weights:  20%|██████▊                           | 151/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.input_layernorm.weight]Loading weights:  20%|██████▊                           | 151/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.input_layernorm.weight]Loading weights:  20%|███████▏                            | 152/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.mlp.down_proj.weight]Loading weights:  20%|███████▏                            | 152/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.mlp.down_proj.weight]Loading weights:  20%|███████▏                            | 153/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.mlp.gate_proj.weight]Loading weights:  20%|███████▏                            | 153/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.mlp.gate_proj.weight]Loading weights:  20%|███████▋                              | 154/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.mlp.up_proj.weight]Loading weights:  20%|███████▋                              | 154/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.mlp.up_proj.weight]Loading weights:  20%|█████                    | 155/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.post_attention_layernorm.weight]Loading weights:  20%|█████                    | 155/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.post_attention_layernorm.weight]Loading weights:  21%|██████▊                          | 156/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.self_attn.k_norm.weight]Loading weights:  21%|██████▊                          | 156/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.self_attn.k_norm.weight]Loading weights:  21%|██████▊                          | 157/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.self_attn.k_proj.weight]Loading weights:  21%|██████▊                          | 157/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.self_attn.k_proj.weight]Loading weights:  21%|██████▊                          | 158/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.self_attn.o_proj.weight]Loading weights:  21%|██████▊                          | 158/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.self_attn.o_proj.weight]Loading weights:  21%|██████▉                          | 159/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.self_attn.q_norm.weight]Loading weights:  21%|██████▉                          | 159/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.self_attn.q_norm.weight]Loading weights:  21%|██████▉                          | 160/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.self_attn.q_proj.weight]Loading weights:  21%|██████▉                          | 160/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.self_attn.q_proj.weight]Loading weights:  21%|██████▉                          | 161/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.self_attn.v_proj.weight]Loading weights:  21%|██████▉                          | 161/760 [00:02<00:05, 112.51it/s, Materializing param=model.language_model.layers.11.self_attn.v_proj.weight]Loading weights:  21%|███████                          | 162/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.11.self_attn.v_proj.weight]Loading weights:  21%|███████▏                          | 162/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.input_layernorm.weight]Loading weights:  21%|███████▏                          | 162/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.input_layernorm.weight]Loading weights:  21%|████████▎                              | 163/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.linear_attn.A_log]Loading weights:  21%|████████▎                              | 163/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.linear_attn.A_log]Loading weights:  22%|██████▋                        | 164/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.linear_attn.conv1d.weight]Loading weights:  22%|██████▋                        | 164/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.linear_attn.conv1d.weight]Loading weights:  22%|████████                             | 165/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.linear_attn.dt_bias]Loading weights:  22%|████████                             | 165/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.linear_attn.dt_bias]Loading weights:  22%|██████                      | 166/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.linear_attn.in_proj_a.weight]Loading weights:  22%|██████                      | 166/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.linear_attn.in_proj_a.weight]Loading weights:  22%|██████▏                     | 167/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.linear_attn.in_proj_b.weight]Loading weights:  22%|██████▏                     | 167/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.linear_attn.in_proj_b.weight]Loading weights:  22%|█████▋                    | 168/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.linear_attn.in_proj_qkv.weight]Loading weights:  22%|█████▋                    | 168/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.linear_attn.in_proj_qkv.weight]Loading weights:  22%|██████▏                     | 169/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.linear_attn.in_proj_z.weight]Loading weights:  22%|██████▏                     | 169/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.linear_attn.in_proj_z.weight]Loading weights:  22%|███████▍                         | 170/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.linear_attn.norm.weight]Loading weights:  22%|███████▍                         | 170/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.linear_attn.norm.weight]Loading weights:  22%|██████▌                      | 171/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.linear_attn.out_proj.weight]Loading weights:  22%|██████▌                      | 171/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.linear_attn.out_proj.weight]Loading weights:  23%|████████▏                           | 172/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.mlp.down_proj.weight]Loading weights:  23%|████████▏                           | 172/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.mlp.down_proj.weight]Loading weights:  23%|████████▏                           | 173/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.mlp.gate_proj.weight]Loading weights:  23%|████████▏                           | 173/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.mlp.gate_proj.weight]Loading weights:  23%|████████▋                             | 174/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.mlp.up_proj.weight]Loading weights:  23%|████████▋                             | 174/760 [00:02<00:05, 112.34it/s, Materializing param=model.language_model.layers.12.mlp.up_proj.weight]Loading weights:  23%|████████▊                             | 175/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.12.mlp.up_proj.weight]Loading weights:  23%|█████▊                   | 175/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.12.post_attention_layernorm.weight]Loading weights:  23%|█████▊                   | 175/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.12.post_attention_layernorm.weight]Loading weights:  23%|███████▊                          | 176/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.input_layernorm.weight]Loading weights:  23%|███████▊                          | 176/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.input_layernorm.weight]Loading weights:  23%|█████████                              | 177/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.linear_attn.A_log]Loading weights:  23%|█████████                              | 177/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.linear_attn.A_log]Loading weights:  23%|███████▎                       | 178/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.linear_attn.conv1d.weight]Loading weights:  23%|███████▎                       | 178/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.linear_attn.conv1d.weight]Loading weights:  24%|████████▋                            | 179/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.linear_attn.dt_bias]Loading weights:  24%|████████▋                            | 179/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.linear_attn.dt_bias]Loading weights:  24%|██████▋                     | 180/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.linear_attn.in_proj_a.weight]Loading weights:  24%|██████▋                     | 180/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.linear_attn.in_proj_a.weight]Loading weights:  24%|██████▋                     | 181/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.linear_attn.in_proj_b.weight]Loading weights:  24%|██████▋                     | 181/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.linear_attn.in_proj_b.weight]Loading weights:  24%|██████▏                   | 182/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.linear_attn.in_proj_qkv.weight]Loading weights:  24%|██████▏                   | 182/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.linear_attn.in_proj_qkv.weight]Loading weights:  24%|██████▋                     | 183/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.linear_attn.in_proj_z.weight]Loading weights:  24%|██████▋                     | 183/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.linear_attn.in_proj_z.weight]Loading weights:  24%|███████▉                         | 184/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.linear_attn.norm.weight]Loading weights:  24%|███████▉                         | 184/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.linear_attn.norm.weight]Loading weights:  24%|███████                      | 185/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.linear_attn.out_proj.weight]Loading weights:  24%|███████                      | 185/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.linear_attn.out_proj.weight]Loading weights:  24%|████████▊                           | 186/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.mlp.down_proj.weight]Loading weights:  24%|████████▊                           | 186/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.mlp.down_proj.weight]Loading weights:  25%|████████▊                           | 187/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.mlp.gate_proj.weight]Loading weights:  25%|████████▊                           | 187/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.mlp.gate_proj.weight]Loading weights:  25%|█████████▍                            | 188/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.mlp.up_proj.weight]Loading weights:  25%|█████████▍                            | 188/760 [00:02<00:05, 113.85it/s, Materializing param=model.language_model.layers.13.mlp.up_proj.weight]Loading weights:  25%|█████████▍                            | 189/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.13.mlp.up_proj.weight]Loading weights:  25%|██████▏                  | 189/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.13.post_attention_layernorm.weight]Loading weights:  25%|██████▏                  | 189/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.13.post_attention_layernorm.weight]Loading weights:  25%|████████▌                         | 190/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.input_layernorm.weight]Loading weights:  25%|████████▌                         | 190/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.input_layernorm.weight]Loading weights:  25%|█████████▊                             | 191/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.linear_attn.A_log]Loading weights:  25%|█████████▊                             | 191/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.linear_attn.A_log]Loading weights:  25%|███████▊                       | 192/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.linear_attn.conv1d.weight]Loading weights:  25%|███████▊                       | 192/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.linear_attn.conv1d.weight]Loading weights:  25%|█████████▍                           | 193/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.linear_attn.dt_bias]Loading weights:  25%|█████████▍                           | 193/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.linear_attn.dt_bias]Loading weights:  26%|███████▏                    | 194/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.linear_attn.in_proj_a.weight]Loading weights:  26%|███████▏                    | 194/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.linear_attn.in_proj_a.weight]Loading weights:  26%|███████▏                    | 195/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.linear_attn.in_proj_b.weight]Loading weights:  26%|███████▏                    | 195/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.linear_attn.in_proj_b.weight]Loading weights:  26%|██████▋                   | 196/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.linear_attn.in_proj_qkv.weight]Loading weights:  26%|██████▋                   | 196/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.linear_attn.in_proj_qkv.weight]Loading weights:  26%|███████▎                    | 197/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.linear_attn.in_proj_z.weight]Loading weights:  26%|███████▎                    | 197/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.linear_attn.in_proj_z.weight]Loading weights:  26%|████████▌                        | 198/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.linear_attn.norm.weight]Loading weights:  26%|████████▌                        | 198/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.linear_attn.norm.weight]Loading weights:  26%|███████▌                     | 199/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.linear_attn.out_proj.weight]Loading weights:  26%|███████▌                     | 199/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.linear_attn.out_proj.weight]Loading weights:  26%|█████████▍                          | 200/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.mlp.down_proj.weight]Loading weights:  26%|█████████▍                          | 200/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.mlp.down_proj.weight]Loading weights:  26%|█████████▌                          | 201/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.mlp.gate_proj.weight]Loading weights:  26%|█████████▌                          | 201/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.mlp.gate_proj.weight]Loading weights:  27%|██████████                            | 202/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.mlp.up_proj.weight]Loading weights:  27%|██████████                            | 202/760 [00:02<00:04, 116.97it/s, Materializing param=model.language_model.layers.14.mlp.up_proj.weight]Loading weights:  27%|██████████▏                           | 203/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.14.mlp.up_proj.weight]Loading weights:  27%|██████▋                  | 203/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.14.post_attention_layernorm.weight]Loading weights:  27%|██████▋                  | 203/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.14.post_attention_layernorm.weight]Loading weights:  27%|█████████▏                        | 204/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.input_layernorm.weight]Loading weights:  27%|█████████▏                        | 204/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.input_layernorm.weight]Loading weights:  27%|█████████▋                          | 205/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.mlp.down_proj.weight]Loading weights:  27%|█████████▋                          | 205/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.mlp.down_proj.weight]Loading weights:  27%|█████████▊                          | 206/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.mlp.gate_proj.weight]Loading weights:  27%|█████████▊                          | 206/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.mlp.gate_proj.weight]Loading weights:  27%|██████████▎                           | 207/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.mlp.up_proj.weight]Loading weights:  27%|██████████▎                           | 207/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.mlp.up_proj.weight]Loading weights:  27%|██████▊                  | 208/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.post_attention_layernorm.weight]Loading weights:  27%|██████▊                  | 208/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.post_attention_layernorm.weight]Loading weights:  28%|█████████                        | 209/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.self_attn.k_norm.weight]Loading weights:  28%|█████████                        | 209/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.self_attn.k_norm.weight]Loading weights:  28%|█████████                        | 210/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.self_attn.k_proj.weight]Loading weights:  28%|█████████                        | 210/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.self_attn.k_proj.weight]Loading weights:  28%|█████████▏                       | 211/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.self_attn.o_proj.weight]Loading weights:  28%|█████████▏                       | 211/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.self_attn.o_proj.weight]Loading weights:  28%|█████████▏                       | 212/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.self_attn.q_norm.weight]Loading weights:  28%|█████████▏                       | 212/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.self_attn.q_norm.weight]Loading weights:  28%|█████████▏                       | 213/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.self_attn.q_proj.weight]Loading weights:  28%|█████████▏                       | 213/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.self_attn.q_proj.weight]Loading weights:  28%|█████████▎                       | 214/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.self_attn.v_proj.weight]Loading weights:  28%|█████████▎                       | 214/760 [00:02<00:04, 116.18it/s, Materializing param=model.language_model.layers.15.self_attn.v_proj.weight]Loading weights:  28%|█████████▎                       | 215/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.15.self_attn.v_proj.weight]Loading weights:  28%|█████████▌                        | 215/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.input_layernorm.weight]Loading weights:  28%|█████████▌                        | 215/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.input_layernorm.weight]Loading weights:  28%|███████████                            | 216/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.linear_attn.A_log]Loading weights:  28%|███████████                            | 216/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.linear_attn.A_log]Loading weights:  29%|████████▊                      | 217/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.linear_attn.conv1d.weight]Loading weights:  29%|████████▊                      | 217/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.linear_attn.conv1d.weight]Loading weights:  29%|██████████▌                          | 218/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.linear_attn.dt_bias]Loading weights:  29%|██████████▌                          | 218/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.linear_attn.dt_bias]Loading weights:  29%|████████                    | 219/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.linear_attn.in_proj_a.weight]Loading weights:  29%|████████                    | 219/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.linear_attn.in_proj_a.weight]Loading weights:  29%|████████                    | 220/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.linear_attn.in_proj_b.weight]Loading weights:  29%|████████                    | 220/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.linear_attn.in_proj_b.weight]Loading weights:  29%|███████▌                  | 221/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.linear_attn.in_proj_qkv.weight]Loading weights:  29%|███████▌                  | 221/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.linear_attn.in_proj_qkv.weight]Loading weights:  29%|████████▏                   | 222/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.linear_attn.in_proj_z.weight]Loading weights:  29%|████████▏                   | 222/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.linear_attn.in_proj_z.weight]Loading weights:  29%|█████████▋                       | 223/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.linear_attn.norm.weight]Loading weights:  29%|█████████▋                       | 223/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.linear_attn.norm.weight]Loading weights:  29%|████████▌                    | 224/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.linear_attn.out_proj.weight]Loading weights:  29%|████████▌                    | 224/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.linear_attn.out_proj.weight]Loading weights:  30%|██████████▋                         | 225/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.mlp.down_proj.weight]Loading weights:  30%|██████████▋                         | 225/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.mlp.down_proj.weight]Loading weights:  30%|██████████▋                         | 226/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.mlp.gate_proj.weight]Loading weights:  30%|██████████▋                         | 226/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.mlp.gate_proj.weight]Loading weights:  30%|███████████▎                          | 227/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.mlp.up_proj.weight]Loading weights:  30%|███████████▎                          | 227/760 [00:02<00:04, 115.10it/s, Materializing param=model.language_model.layers.16.mlp.up_proj.weight]Loading weights:  30%|███████████▍                          | 228/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.16.mlp.up_proj.weight]Loading weights:  30%|███████▌                 | 228/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.16.post_attention_layernorm.weight]Loading weights:  30%|███████▌                 | 228/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.16.post_attention_layernorm.weight]Loading weights:  30%|██████████▏                       | 229/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.input_layernorm.weight]Loading weights:  30%|██████████▏                       | 229/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.input_layernorm.weight]Loading weights:  30%|███████████▊                           | 230/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.linear_attn.A_log]Loading weights:  30%|███████████▊                           | 230/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.linear_attn.A_log]Loading weights:  30%|█████████▍                     | 231/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.linear_attn.conv1d.weight]Loading weights:  30%|█████████▍                     | 231/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.linear_attn.conv1d.weight]Loading weights:  31%|███████████▎                         | 232/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.linear_attn.dt_bias]Loading weights:  31%|███████████▎                         | 232/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.linear_attn.dt_bias]Loading weights:  31%|████████▌                   | 233/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.linear_attn.in_proj_a.weight]Loading weights:  31%|████████▌                   | 233/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.linear_attn.in_proj_a.weight]Loading weights:  31%|████████▌                   | 234/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.linear_attn.in_proj_b.weight]Loading weights:  31%|████████▌                   | 234/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.linear_attn.in_proj_b.weight]Loading weights:  31%|████████                  | 235/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.linear_attn.in_proj_qkv.weight]Loading weights:  31%|████████                  | 235/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.linear_attn.in_proj_qkv.weight]Loading weights:  31%|████████▋                   | 236/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.linear_attn.in_proj_z.weight]Loading weights:  31%|████████▋                   | 236/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.linear_attn.in_proj_z.weight]Loading weights:  31%|██████████▎                      | 237/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.linear_attn.norm.weight]Loading weights:  31%|██████████▎                      | 237/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.linear_attn.norm.weight]Loading weights:  31%|█████████                    | 238/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.linear_attn.out_proj.weight]Loading weights:  31%|█████████                    | 238/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.linear_attn.out_proj.weight]Loading weights:  31%|███████████▎                        | 239/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.mlp.down_proj.weight]Loading weights:  31%|███████████▎                        | 239/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.mlp.down_proj.weight]Loading weights:  32%|███████████▎                        | 240/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.mlp.gate_proj.weight]Loading weights:  32%|███████████▎                        | 240/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.mlp.gate_proj.weight]Loading weights:  32%|████████████                          | 241/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.mlp.up_proj.weight]Loading weights:  32%|████████████                          | 241/760 [00:02<00:04, 113.95it/s, Materializing param=model.language_model.layers.17.mlp.up_proj.weight]Loading weights:  32%|████████████                          | 242/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.17.mlp.up_proj.weight]Loading weights:  32%|███████▉                 | 242/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.17.post_attention_layernorm.weight]Loading weights:  32%|███████▉                 | 242/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.17.post_attention_layernorm.weight]Loading weights:  32%|██████████▊                       | 243/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.input_layernorm.weight]Loading weights:  32%|██████████▊                       | 243/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.input_layernorm.weight]Loading weights:  32%|████████████▌                          | 244/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.linear_attn.A_log]Loading weights:  32%|████████████▌                          | 244/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.linear_attn.A_log]Loading weights:  32%|█████████▉                     | 245/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.linear_attn.conv1d.weight]Loading weights:  32%|█████████▉                     | 245/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.linear_attn.conv1d.weight]Loading weights:  32%|███████████▉                         | 246/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.linear_attn.dt_bias]Loading weights:  32%|███████████▉                         | 246/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.linear_attn.dt_bias]Loading weights:  32%|█████████                   | 247/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.linear_attn.in_proj_a.weight]Loading weights:  32%|█████████                   | 247/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.linear_attn.in_proj_a.weight]Loading weights:  33%|█████████▏                  | 248/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.linear_attn.in_proj_b.weight]Loading weights:  33%|█████████▏                  | 248/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.linear_attn.in_proj_b.weight]Loading weights:  33%|████████▌                 | 249/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.linear_attn.in_proj_qkv.weight]Loading weights:  33%|████████▌                 | 249/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.linear_attn.in_proj_qkv.weight]Loading weights:  33%|█████████▏                  | 250/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.linear_attn.in_proj_z.weight]Loading weights:  33%|█████████▏                  | 250/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.linear_attn.in_proj_z.weight]Loading weights:  33%|██████████▉                      | 251/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.linear_attn.norm.weight]Loading weights:  33%|██████████▉                      | 251/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.linear_attn.norm.weight]Loading weights:  33%|█████████▌                   | 252/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.linear_attn.out_proj.weight]Loading weights:  33%|█████████▌                   | 252/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.linear_attn.out_proj.weight]Loading weights:  33%|███████████▉                        | 253/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.mlp.down_proj.weight]Loading weights:  33%|███████████▉                        | 253/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.mlp.down_proj.weight]Loading weights:  33%|████████████                        | 254/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.mlp.gate_proj.weight]Loading weights:  33%|████████████                        | 254/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.mlp.gate_proj.weight]Loading weights:  34%|████████████▊                         | 255/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.mlp.up_proj.weight]Loading weights:  34%|████████████▊                         | 255/760 [00:03<00:04, 113.40it/s, Materializing param=model.language_model.layers.18.mlp.up_proj.weight]Loading weights:  34%|████████████▊                         | 256/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.18.mlp.up_proj.weight]Loading weights:  34%|████████▍                | 256/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.18.post_attention_layernorm.weight]Loading weights:  34%|████████▍                | 256/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.18.post_attention_layernorm.weight]Loading weights:  34%|███████████▍                      | 257/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.input_layernorm.weight]Loading weights:  34%|███████████▍                      | 257/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.input_layernorm.weight]Loading weights:  34%|████████████▏                       | 258/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.mlp.down_proj.weight]Loading weights:  34%|████████████▏                       | 258/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.mlp.down_proj.weight]Loading weights:  34%|████████████▎                       | 259/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.mlp.gate_proj.weight]Loading weights:  34%|████████████▎                       | 259/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.mlp.gate_proj.weight]Loading weights:  34%|█████████████                         | 260/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.mlp.up_proj.weight]Loading weights:  34%|█████████████                         | 260/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.mlp.up_proj.weight]Loading weights:  34%|████████▌                | 261/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.post_attention_layernorm.weight]Loading weights:  34%|████████▌                | 261/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.post_attention_layernorm.weight]Loading weights:  34%|███████████▍                     | 262/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.self_attn.k_norm.weight]Loading weights:  34%|███████████▍                     | 262/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.self_attn.k_norm.weight]Loading weights:  35%|███████████▍                     | 263/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.self_attn.k_proj.weight]Loading weights:  35%|███████████▍                     | 263/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.self_attn.k_proj.weight]Loading weights:  35%|███████████▍                     | 264/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.self_attn.o_proj.weight]Loading weights:  35%|███████████▍                     | 264/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.self_attn.o_proj.weight]Loading weights:  35%|███████████▌                     | 265/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.self_attn.q_norm.weight]Loading weights:  35%|███████████▌                     | 265/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.self_attn.q_norm.weight]Loading weights:  35%|███████████▌                     | 266/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.self_attn.q_proj.weight]Loading weights:  35%|███████████▌                     | 266/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.self_attn.q_proj.weight]Loading weights:  35%|███████████▌                     | 267/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.self_attn.v_proj.weight]Loading weights:  35%|███████████▌                     | 267/760 [00:03<00:04, 113.29it/s, Materializing param=model.language_model.layers.19.self_attn.v_proj.weight]Loading weights:  35%|███████████▋                     | 268/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.19.self_attn.v_proj.weight]Loading weights:  35%|███████████▉                      | 268/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.input_layernorm.weight]Loading weights:  35%|███████████▉                      | 268/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.input_layernorm.weight]Loading weights:  35%|█████████████▊                         | 269/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.linear_attn.A_log]Loading weights:  35%|█████████████▊                         | 269/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.linear_attn.A_log]Loading weights:  36%|███████████                    | 270/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.linear_attn.conv1d.weight]Loading weights:  36%|███████████                    | 270/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.linear_attn.conv1d.weight]Loading weights:  36%|█████████████▏                       | 271/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.linear_attn.dt_bias]Loading weights:  36%|█████████████▏                       | 271/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.linear_attn.dt_bias]Loading weights:  36%|██████████                  | 272/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.linear_attn.in_proj_a.weight]Loading weights:  36%|██████████                  | 272/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.linear_attn.in_proj_a.weight]Loading weights:  36%|██████████                  | 273/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.linear_attn.in_proj_b.weight]Loading weights:  36%|██████████                  | 273/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.linear_attn.in_proj_b.weight]Loading weights:  36%|█████████▎                | 274/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.linear_attn.in_proj_qkv.weight]Loading weights:  36%|█████████▎                | 274/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.linear_attn.in_proj_qkv.weight]Loading weights:  36%|██████████▏                 | 275/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.linear_attn.in_proj_z.weight]Loading weights:  36%|██████████▏                 | 275/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.linear_attn.in_proj_z.weight]Loading weights:  36%|███████████▉                     | 276/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.linear_attn.norm.weight]Loading weights:  36%|███████████▉                     | 276/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.linear_attn.norm.weight]Loading weights:  36%|██████████▌                  | 277/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.linear_attn.out_proj.weight]Loading weights:  36%|██████████▌                  | 277/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.linear_attn.out_proj.weight]Loading weights:  37%|█████████████▏                      | 278/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.mlp.down_proj.weight]Loading weights:  37%|█████████████▏                      | 278/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.mlp.down_proj.weight]Loading weights:  37%|█████████████▏                      | 279/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.mlp.gate_proj.weight]Loading weights:  37%|█████████████▏                      | 279/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.mlp.gate_proj.weight]Loading weights:  37%|██████████████                        | 280/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.mlp.up_proj.weight]Loading weights:  37%|██████████████                        | 280/760 [00:03<00:04, 111.41it/s, Materializing param=model.language_model.layers.20.mlp.up_proj.weight]Loading weights:  37%|██████████████                        | 281/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.20.mlp.up_proj.weight]Loading weights:  37%|█████████▏               | 281/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.20.post_attention_layernorm.weight]Loading weights:  37%|█████████▏               | 281/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.20.post_attention_layernorm.weight]Loading weights:  37%|████████████▌                     | 282/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.input_layernorm.weight]Loading weights:  37%|████████████▌                     | 282/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.input_layernorm.weight]Loading weights:  37%|██████████████▌                        | 283/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.linear_attn.A_log]Loading weights:  37%|██████████████▌                        | 283/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.linear_attn.A_log]Loading weights:  37%|███████████▌                   | 284/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.linear_attn.conv1d.weight]Loading weights:  37%|███████████▌                   | 284/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.linear_attn.conv1d.weight]Loading weights:  38%|█████████████▉                       | 285/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.linear_attn.dt_bias]Loading weights:  38%|█████████████▉                       | 285/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.linear_attn.dt_bias]Loading weights:  38%|██████████▌                 | 286/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.linear_attn.in_proj_a.weight]Loading weights:  38%|██████████▌                 | 286/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.linear_attn.in_proj_a.weight]Loading weights:  38%|██████████▌                 | 287/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.linear_attn.in_proj_b.weight]Loading weights:  38%|██████████▌                 | 287/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.linear_attn.in_proj_b.weight]Loading weights:  38%|█████████▊                | 288/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.linear_attn.in_proj_qkv.weight]Loading weights:  38%|█████████▊                | 288/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.linear_attn.in_proj_qkv.weight]Loading weights:  38%|██████████▋                 | 289/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.linear_attn.in_proj_z.weight]Loading weights:  38%|██████████▋                 | 289/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.linear_attn.in_proj_z.weight]Loading weights:  38%|████████████▌                    | 290/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.linear_attn.norm.weight]Loading weights:  38%|████████████▌                    | 290/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.linear_attn.norm.weight]Loading weights:  38%|███████████                  | 291/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.linear_attn.out_proj.weight]Loading weights:  38%|███████████                  | 291/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.linear_attn.out_proj.weight]Loading weights:  38%|█████████████▊                      | 292/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.mlp.down_proj.weight]Loading weights:  38%|█████████████▊                      | 292/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.mlp.down_proj.weight]Loading weights:  39%|█████████████▉                      | 293/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.mlp.gate_proj.weight]Loading weights:  39%|█████████████▉                      | 293/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.mlp.gate_proj.weight]Loading weights:  39%|██████████████▋                       | 294/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.mlp.up_proj.weight]Loading weights:  39%|██████████████▋                       | 294/760 [00:03<00:04, 113.26it/s, Materializing param=model.language_model.layers.21.mlp.up_proj.weight]Loading weights:  39%|██████████████▊                       | 295/760 [00:03<00:04, 115.49it/s, Materializing param=model.language_model.layers.21.mlp.up_proj.weight]Loading weights:  39%|█████████▋               | 295/760 [00:03<00:04, 115.49it/s, Materializing param=model.language_model.layers.21.post_attention_layernorm.weight]Loading weights:  39%|█████████▋               | 295/760 [00:03<00:04, 115.49it/s, Materializing param=model.language_model.layers.21.post_attention_layernorm.weight]Loading weights:  39%|█████████████▏                    | 296/760 [00:03<00:04, 115.49it/s, Materializing param=model.language_model.layers.22.input_layernorm.weight]Loading weights:  39%|█████████████▏                    | 296/760 [00:03<00:04, 115.49it/s, Materializing param=model.language_model.layers.22.input_layernorm.weight]Loading weights:  39%|███████████████▏                       | 297/760 [00:03<00:04, 115.49it/s, Materializing param=model.language_model.layers.22.linear_attn.A_log]Loading weights:  39%|███████████████▏                       | 297/760 [00:03<00:04, 115.49it/s, Materializing param=model.language_model.layers.22.linear_attn.A_log]Loading weights:  39%|████████████▏                  | 298/760 [00:03<00:04, 115.49it/s, Materializing param=model.language_model.layers.22.linear_attn.conv1d.weight]Loading weights:  39%|████████████▏                  | 298/760 [00:03<00:04, 115.49it/s, Materializing param=model.language_model.layers.22.linear_attn.conv1d.weight]Loading weights:  39%|██████████████▌                      | 299/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.linear_attn.dt_bias]Loading weights:  39%|██████████████▌                      | 299/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.linear_attn.dt_bias]Loading weights:  39%|███████████                 | 300/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.linear_attn.in_proj_a.weight]Loading weights:  39%|███████████                 | 300/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.linear_attn.in_proj_a.weight]Loading weights:  40%|███████████                 | 301/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.linear_attn.in_proj_b.weight]Loading weights:  40%|███████████                 | 301/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.linear_attn.in_proj_b.weight]Loading weights:  40%|██████████▎               | 302/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.linear_attn.in_proj_qkv.weight]Loading weights:  40%|██████████▎               | 302/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.linear_attn.in_proj_qkv.weight]Loading weights:  40%|███████████▏                | 303/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.linear_attn.in_proj_z.weight]Loading weights:  40%|███████████▏                | 303/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.linear_attn.in_proj_z.weight]Loading weights:  40%|█████████████▏                   | 304/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.linear_attn.norm.weight]Loading weights:  40%|█████████████▏                   | 304/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.linear_attn.norm.weight]Loading weights:  40%|███████████▋                 | 305/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.linear_attn.out_proj.weight]Loading weights:  40%|███████████▋                 | 305/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.linear_attn.out_proj.weight]Loading weights:  40%|██████████████▍                     | 306/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.mlp.down_proj.weight]Loading weights:  40%|██████████████▍                     | 306/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.mlp.down_proj.weight]Loading weights:  40%|██████████████▌                     | 307/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.mlp.gate_proj.weight]Loading weights:  40%|██████████████▌                     | 307/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.mlp.gate_proj.weight]Loading weights:  41%|███████████████▍                      | 308/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.mlp.up_proj.weight]Loading weights:  41%|███████████████▍                      | 308/760 [00:03<00:03, 115.49it/s, Materializing param=model.language_model.layers.22.mlp.up_proj.weight]Loading weights:  41%|███████████████▍                      | 309/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.22.mlp.up_proj.weight]Loading weights:  41%|██████████▏              | 309/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.22.post_attention_layernorm.weight]Loading weights:  41%|██████████▏              | 309/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.22.post_attention_layernorm.weight]Loading weights:  41%|█████████████▊                    | 310/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.input_layernorm.weight]Loading weights:  41%|█████████████▊                    | 310/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.input_layernorm.weight]Loading weights:  41%|██████████████▋                     | 311/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.mlp.down_proj.weight]Loading weights:  41%|██████████████▋                     | 311/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.mlp.down_proj.weight]Loading weights:  41%|██████████████▊                     | 312/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.mlp.gate_proj.weight]Loading weights:  41%|██████████████▊                     | 312/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.mlp.gate_proj.weight]Loading weights:  41%|███████████████▋                      | 313/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.mlp.up_proj.weight]Loading weights:  41%|███████████████▋                      | 313/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.mlp.up_proj.weight]Loading weights:  41%|██████████▎              | 314/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.post_attention_layernorm.weight]Loading weights:  41%|██████████▎              | 314/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.post_attention_layernorm.weight]Loading weights:  41%|█████████████▋                   | 315/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.self_attn.k_norm.weight]Loading weights:  41%|█████████████▋                   | 315/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.self_attn.k_norm.weight]Loading weights:  42%|█████████████▋                   | 316/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.self_attn.k_proj.weight]Loading weights:  42%|█████████████▋                   | 316/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.self_attn.k_proj.weight]Loading weights:  42%|█████████████▊                   | 317/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.self_attn.o_proj.weight]Loading weights:  42%|█████████████▊                   | 317/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.self_attn.o_proj.weight]Loading weights:  42%|█████████████▊                   | 318/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.self_attn.q_norm.weight]Loading weights:  42%|█████████████▊                   | 318/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.self_attn.q_norm.weight]Loading weights:  42%|█████████████▊                   | 319/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.self_attn.q_proj.weight]Loading weights:  42%|█████████████▊                   | 319/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.self_attn.q_proj.weight]Loading weights:  42%|█████████████▉                   | 320/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.self_attn.v_proj.weight]Loading weights:  42%|█████████████▉                   | 320/760 [00:03<00:03, 115.24it/s, Materializing param=model.language_model.layers.23.self_attn.v_proj.weight]Loading weights:  42%|█████████████▉                   | 321/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.23.self_attn.v_proj.weight]Loading weights:  42%|██████████████▎                   | 321/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.input_layernorm.weight]Loading weights:  42%|██████████████▎                   | 321/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.input_layernorm.weight]Loading weights:  42%|████████████████▌                      | 322/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.linear_attn.A_log]Loading weights:  42%|████████████████▌                      | 322/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.linear_attn.A_log]Loading weights:  42%|█████████████▏                 | 323/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.linear_attn.conv1d.weight]Loading weights:  42%|█████████████▏                 | 323/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.linear_attn.conv1d.weight]Loading weights:  43%|███████████████▊                     | 324/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.linear_attn.dt_bias]Loading weights:  43%|███████████████▊                     | 324/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.linear_attn.dt_bias]Loading weights:  43%|███████████▉                | 325/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.linear_attn.in_proj_a.weight]Loading weights:  43%|███████████▉                | 325/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.linear_attn.in_proj_a.weight]Loading weights:  43%|████████████                | 326/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.linear_attn.in_proj_b.weight]Loading weights:  43%|████████████                | 326/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.linear_attn.in_proj_b.weight]Loading weights:  43%|███████████▏              | 327/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.linear_attn.in_proj_qkv.weight]Loading weights:  43%|███████████▏              | 327/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.linear_attn.in_proj_qkv.weight]Loading weights:  43%|████████████                | 328/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.linear_attn.in_proj_z.weight]Loading weights:  43%|████████████                | 328/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.linear_attn.in_proj_z.weight]Loading weights:  43%|██████████████▎                  | 329/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.linear_attn.norm.weight]Loading weights:  43%|██████████████▎                  | 329/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.linear_attn.norm.weight]Loading weights:  43%|████████████▌                | 330/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.linear_attn.out_proj.weight]Loading weights:  43%|████████████▌                | 330/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.linear_attn.out_proj.weight]Loading weights:  44%|███████████████▋                    | 331/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.mlp.down_proj.weight]Loading weights:  44%|███████████████▋                    | 331/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.mlp.down_proj.weight]Loading weights:  44%|███████████████▋                    | 332/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.mlp.gate_proj.weight]Loading weights:  44%|███████████████▋                    | 332/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.mlp.gate_proj.weight]Loading weights:  44%|████████████████▋                     | 333/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.mlp.up_proj.weight]Loading weights:  44%|████████████████▋                     | 333/760 [00:03<00:03, 113.72it/s, Materializing param=model.language_model.layers.24.mlp.up_proj.weight]Loading weights:  44%|████████████████▋                     | 334/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.24.mlp.up_proj.weight]Loading weights:  44%|██████████▉              | 334/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.24.post_attention_layernorm.weight]Loading weights:  44%|██████████▉              | 334/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.24.post_attention_layernorm.weight]Loading weights:  44%|██████████████▉                   | 335/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.input_layernorm.weight]Loading weights:  44%|██████████████▉                   | 335/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.input_layernorm.weight]Loading weights:  44%|█████████████████▏                     | 336/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.linear_attn.A_log]Loading weights:  44%|█████████████████▏                     | 336/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.linear_attn.A_log]Loading weights:  44%|█████████████▋                 | 337/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.linear_attn.conv1d.weight]Loading weights:  44%|█████████████▋                 | 337/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.linear_attn.conv1d.weight]Loading weights:  44%|████████████████▍                    | 338/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.linear_attn.dt_bias]Loading weights:  44%|████████████████▍                    | 338/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.linear_attn.dt_bias]Loading weights:  45%|████████████▍               | 339/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.linear_attn.in_proj_a.weight]Loading weights:  45%|████████████▍               | 339/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.linear_attn.in_proj_a.weight]Loading weights:  45%|████████████▌               | 340/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.linear_attn.in_proj_b.weight]Loading weights:  45%|████████████▌               | 340/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.linear_attn.in_proj_b.weight]Loading weights:  45%|███████████▋              | 341/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.linear_attn.in_proj_qkv.weight]Loading weights:  45%|███████████▋              | 341/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.linear_attn.in_proj_qkv.weight]Loading weights:  45%|████████████▌               | 342/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.linear_attn.in_proj_z.weight]Loading weights:  45%|████████████▌               | 342/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.linear_attn.in_proj_z.weight]Loading weights:  45%|██████████████▉                  | 343/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.linear_attn.norm.weight]Loading weights:  45%|██████████████▉                  | 343/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.linear_attn.norm.weight]Loading weights:  45%|█████████████▏               | 344/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.linear_attn.out_proj.weight]Loading weights:  45%|█████████████▏               | 344/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.linear_attn.out_proj.weight]Loading weights:  45%|████████████████▎                   | 345/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.mlp.down_proj.weight]Loading weights:  45%|████████████████▎                   | 345/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.mlp.down_proj.weight]Loading weights:  46%|████████████████▍                   | 346/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.mlp.gate_proj.weight]Loading weights:  46%|████████████████▍                   | 346/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.mlp.gate_proj.weight]Loading weights:  46%|█████████████████▎                    | 347/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.mlp.up_proj.weight]Loading weights:  46%|█████████████████▎                    | 347/760 [00:03<00:03, 112.50it/s, Materializing param=model.language_model.layers.25.mlp.up_proj.weight]Loading weights:  46%|█████████████████▍                    | 348/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.25.mlp.up_proj.weight]Loading weights:  46%|███████████▍             | 348/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.25.post_attention_layernorm.weight]Loading weights:  46%|███████████▍             | 348/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.25.post_attention_layernorm.weight]Loading weights:  46%|███████████████▌                  | 349/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.input_layernorm.weight]Loading weights:  46%|███████████████▌                  | 349/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.input_layernorm.weight]Loading weights:  46%|█████████████████▉                     | 350/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.linear_attn.A_log]Loading weights:  46%|█████████████████▉                     | 350/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.linear_attn.A_log]Loading weights:  46%|██████████████▎                | 351/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.linear_attn.conv1d.weight]Loading weights:  46%|██████████████▎                | 351/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.linear_attn.conv1d.weight]Loading weights:  46%|█████████████████▏                   | 352/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.linear_attn.dt_bias]Loading weights:  46%|█████████████████▏                   | 352/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.linear_attn.dt_bias]Loading weights:  46%|█████████████               | 353/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.linear_attn.in_proj_a.weight]Loading weights:  46%|█████████████               | 353/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.linear_attn.in_proj_a.weight]Loading weights:  47%|█████████████               | 354/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.linear_attn.in_proj_b.weight]Loading weights:  47%|█████████████               | 354/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.linear_attn.in_proj_b.weight]Loading weights:  47%|████████████▏             | 355/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.linear_attn.in_proj_qkv.weight]Loading weights:  47%|████████████▏             | 355/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.linear_attn.in_proj_qkv.weight]Loading weights:  47%|█████████████               | 356/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.linear_attn.in_proj_z.weight]Loading weights:  47%|█████████████               | 356/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.linear_attn.in_proj_z.weight]Loading weights:  47%|███████████████▌                 | 357/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.linear_attn.norm.weight]Loading weights:  47%|███████████████▌                 | 357/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.linear_attn.norm.weight]Loading weights:  47%|█████████████▋               | 358/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.linear_attn.out_proj.weight]Loading weights:  47%|█████████████▋               | 358/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.linear_attn.out_proj.weight]Loading weights:  47%|█████████████████                   | 359/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.mlp.down_proj.weight]Loading weights:  47%|█████████████████                   | 359/760 [00:03<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.mlp.down_proj.weight]Loading weights:  47%|█████████████████                   | 360/760 [00:04<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.mlp.gate_proj.weight]Loading weights:  47%|█████████████████                   | 360/760 [00:04<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.mlp.gate_proj.weight]Loading weights:  48%|██████████████████                    | 361/760 [00:04<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.mlp.up_proj.weight]Loading weights:  48%|██████████████████                    | 361/760 [00:04<00:03, 114.83it/s, Materializing param=model.language_model.layers.26.mlp.up_proj.weight]Loading weights:  48%|██████████████████                    | 362/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.26.mlp.up_proj.weight]Loading weights:  48%|███████████▉             | 362/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.26.post_attention_layernorm.weight]Loading weights:  48%|███████████▉             | 362/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.26.post_attention_layernorm.weight]Loading weights:  48%|████████████████▏                 | 363/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.input_layernorm.weight]Loading weights:  48%|████████████████▏                 | 363/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.input_layernorm.weight]Loading weights:  48%|█████████████████▏                  | 364/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.mlp.down_proj.weight]Loading weights:  48%|█████████████████▏                  | 364/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.mlp.down_proj.weight]Loading weights:  48%|█████████████████▎                  | 365/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.mlp.gate_proj.weight]Loading weights:  48%|█████████████████▎                  | 365/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.mlp.gate_proj.weight]Loading weights:  48%|██████████████████▎                   | 366/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.mlp.up_proj.weight]Loading weights:  48%|██████████████████▎                   | 366/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.mlp.up_proj.weight]Loading weights:  48%|████████████             | 367/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.post_attention_layernorm.weight]Loading weights:  48%|████████████             | 367/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.post_attention_layernorm.weight]Loading weights:  48%|███████████████▉                 | 368/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.self_attn.k_norm.weight]Loading weights:  48%|███████████████▉                 | 368/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.self_attn.k_norm.weight]Loading weights:  49%|████████████████                 | 369/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.self_attn.k_proj.weight]Loading weights:  49%|████████████████                 | 369/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.self_attn.k_proj.weight]Loading weights:  49%|████████████████                 | 370/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.self_attn.o_proj.weight]Loading weights:  49%|████████████████                 | 370/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.self_attn.o_proj.weight]Loading weights:  49%|████████████████                 | 371/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.self_attn.q_norm.weight]Loading weights:  49%|████████████████                 | 371/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.self_attn.q_norm.weight]Loading weights:  49%|████████████████▏                | 372/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.self_attn.q_proj.weight]Loading weights:  49%|████████████████▏                | 372/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.self_attn.q_proj.weight]Loading weights:  49%|████████████████▏                | 373/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.self_attn.v_proj.weight]Loading weights:  49%|████████████████▏                | 373/760 [00:04<00:03, 116.11it/s, Materializing param=model.language_model.layers.27.self_attn.v_proj.weight]Loading weights:  49%|████████████████▏                | 374/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.27.self_attn.v_proj.weight]Loading weights:  49%|████████████████▋                 | 374/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.input_layernorm.weight]Loading weights:  49%|████████████████▋                 | 374/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.input_layernorm.weight]Loading weights:  49%|███████████████████▏                   | 375/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.linear_attn.A_log]Loading weights:  49%|███████████████████▏                   | 375/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.linear_attn.A_log]Loading weights:  49%|███████████████▎               | 376/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.linear_attn.conv1d.weight]Loading weights:  49%|███████████████▎               | 376/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.linear_attn.conv1d.weight]Loading weights:  50%|██████████████████▎                  | 377/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.linear_attn.dt_bias]Loading weights:  50%|██████████████████▎                  | 377/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.linear_attn.dt_bias]Loading weights:  50%|█████████████▉              | 378/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.linear_attn.in_proj_a.weight]Loading weights:  50%|█████████████▉              | 378/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.linear_attn.in_proj_a.weight]Loading weights:  50%|█████████████▉              | 379/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.linear_attn.in_proj_b.weight]Loading weights:  50%|█████████████▉              | 379/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.linear_attn.in_proj_b.weight]Loading weights:  50%|█████████████             | 380/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.linear_attn.in_proj_qkv.weight]Loading weights:  50%|█████████████             | 380/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.linear_attn.in_proj_qkv.weight]Loading weights:  50%|██████████████              | 381/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.linear_attn.in_proj_z.weight]Loading weights:  50%|██████████████              | 381/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.linear_attn.in_proj_z.weight]Loading weights:  50%|████████████████▌                | 382/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.linear_attn.norm.weight]Loading weights:  50%|████████████████▌                | 382/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.linear_attn.norm.weight]Loading weights:  50%|██████████████▌              | 383/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.linear_attn.out_proj.weight]Loading weights:  50%|██████████████▌              | 383/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.linear_attn.out_proj.weight]Loading weights:  51%|██████████████████▏                 | 384/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.mlp.down_proj.weight]Loading weights:  51%|██████████████████▏                 | 384/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.mlp.down_proj.weight]Loading weights:  51%|██████████████████▏                 | 385/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.mlp.gate_proj.weight]Loading weights:  51%|██████████████████▏                 | 385/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.mlp.gate_proj.weight]Loading weights:  51%|███████████████████▎                  | 386/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.mlp.up_proj.weight]Loading weights:  51%|███████████████████▎                  | 386/760 [00:04<00:03, 112.87it/s, Materializing param=model.language_model.layers.28.mlp.up_proj.weight]Loading weights:  51%|███████████████████▎                  | 387/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.28.mlp.up_proj.weight]Loading weights:  51%|████████████▋            | 387/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.28.post_attention_layernorm.weight]Loading weights:  51%|████████████▋            | 387/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.28.post_attention_layernorm.weight]Loading weights:  51%|█████████████████▎                | 388/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.input_layernorm.weight]Loading weights:  51%|█████████████████▎                | 388/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.input_layernorm.weight]Loading weights:  51%|███████████████████▉                   | 389/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.linear_attn.A_log]Loading weights:  51%|███████████████████▉                   | 389/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.linear_attn.A_log]Loading weights:  51%|███████████████▉               | 390/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.linear_attn.conv1d.weight]Loading weights:  51%|███████████████▉               | 390/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.linear_attn.conv1d.weight]Loading weights:  51%|███████████████████                  | 391/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.linear_attn.dt_bias]Loading weights:  51%|███████████████████                  | 391/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.linear_attn.dt_bias]Loading weights:  52%|██████████████▍             | 392/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.linear_attn.in_proj_a.weight]Loading weights:  52%|██████████████▍             | 392/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.linear_attn.in_proj_a.weight]Loading weights:  52%|██████████████▍             | 393/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.linear_attn.in_proj_b.weight]Loading weights:  52%|██████████████▍             | 393/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.linear_attn.in_proj_b.weight]Loading weights:  52%|█████████████▍            | 394/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.linear_attn.in_proj_qkv.weight]Loading weights:  52%|█████████████▍            | 394/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.linear_attn.in_proj_qkv.weight]Loading weights:  52%|██████████████▌             | 395/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.linear_attn.in_proj_z.weight]Loading weights:  52%|██████████████▌             | 395/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.linear_attn.in_proj_z.weight]Loading weights:  52%|█████████████████▏               | 396/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.linear_attn.norm.weight]Loading weights:  52%|█████████████████▏               | 396/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.linear_attn.norm.weight]Loading weights:  52%|███████████████▏             | 397/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.linear_attn.out_proj.weight]Loading weights:  52%|███████████████▏             | 397/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.linear_attn.out_proj.weight]Loading weights:  52%|██████████████████▊                 | 398/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.mlp.down_proj.weight]Loading weights:  52%|██████████████████▊                 | 398/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.mlp.down_proj.weight]Loading weights:  52%|██████████████████▉                 | 399/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.mlp.gate_proj.weight]Loading weights:  52%|██████████████████▉                 | 399/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.mlp.gate_proj.weight]Loading weights:  53%|████████████████████                  | 400/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.mlp.up_proj.weight]Loading weights:  53%|████████████████████                  | 400/760 [00:04<00:03, 111.42it/s, Materializing param=model.language_model.layers.29.mlp.up_proj.weight]Loading weights:  53%|████████████████████                  | 401/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.29.mlp.up_proj.weight]Loading weights:  53%|█████████████▏           | 401/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.29.post_attention_layernorm.weight]Loading weights:  53%|█████████████▏           | 401/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.29.post_attention_layernorm.weight]Loading weights:  53%|█████████████████▉                | 402/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.input_layernorm.weight]Loading weights:  53%|█████████████████▉                | 402/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.input_layernorm.weight]Loading weights:  53%|████████████████████▋                  | 403/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.linear_attn.A_log]Loading weights:  53%|████████████████████▋                  | 403/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.linear_attn.A_log]Loading weights:  53%|████████████████▍              | 404/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.linear_attn.conv1d.weight]Loading weights:  53%|████████████████▍              | 404/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.linear_attn.conv1d.weight]Loading weights:  53%|███████████████████▋                 | 405/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.linear_attn.dt_bias]Loading weights:  53%|███████████████████▋                 | 405/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.linear_attn.dt_bias]Loading weights:  53%|██████████████▉             | 406/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.linear_attn.in_proj_a.weight]Loading weights:  53%|██████████████▉             | 406/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.linear_attn.in_proj_a.weight]Loading weights:  54%|██████████████▉             | 407/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.linear_attn.in_proj_b.weight]Loading weights:  54%|██████████████▉             | 407/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.linear_attn.in_proj_b.weight]Loading weights:  54%|█████████████▉            | 408/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.linear_attn.in_proj_qkv.weight]Loading weights:  54%|█████████████▉            | 408/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.linear_attn.in_proj_qkv.weight]Loading weights:  54%|███████████████             | 409/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.linear_attn.in_proj_z.weight]Loading weights:  54%|███████████████             | 409/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.linear_attn.in_proj_z.weight]Loading weights:  54%|█████████████████▊               | 410/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.linear_attn.norm.weight]Loading weights:  54%|█████████████████▊               | 410/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.linear_attn.norm.weight]Loading weights:  54%|███████████████▋             | 411/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.linear_attn.out_proj.weight]Loading weights:  54%|███████████████▋             | 411/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.linear_attn.out_proj.weight]Loading weights:  54%|███████████████████▌                | 412/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.mlp.down_proj.weight]Loading weights:  54%|███████████████████▌                | 412/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.mlp.down_proj.weight]Loading weights:  54%|███████████████████▌                | 413/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.mlp.gate_proj.weight]Loading weights:  54%|███████████████████▌                | 413/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.mlp.gate_proj.weight]Loading weights:  54%|████████████████████▋                 | 414/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.mlp.up_proj.weight]Loading weights:  54%|████████████████████▋                 | 414/760 [00:04<00:03, 113.73it/s, Materializing param=model.language_model.layers.30.mlp.up_proj.weight]Loading weights:  55%|████████████████████▊                 | 415/760 [00:04<00:03, 114.45it/s, Materializing param=model.language_model.layers.30.mlp.up_proj.weight]Loading weights:  55%|█████████████▋           | 415/760 [00:04<00:03, 114.45it/s, Materializing param=model.language_model.layers.30.post_attention_layernorm.weight]Loading weights:  55%|█████████████▋           | 415/760 [00:04<00:03, 114.45it/s, Materializing param=model.language_model.layers.30.post_attention_layernorm.weight]Loading weights:  55%|██████████████████▌               | 416/760 [00:04<00:03, 114.45it/s, Materializing param=model.language_model.layers.31.input_layernorm.weight]Loading weights:  55%|██████████████████▌               | 416/760 [00:04<00:03, 114.45it/s, Materializing param=model.language_model.layers.31.input_layernorm.weight]Loading weights:  55%|███████████████████▊                | 417/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.mlp.down_proj.weight]Loading weights:  55%|███████████████████▊                | 417/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.mlp.down_proj.weight]Loading weights:  55%|███████████████████▊                | 418/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.mlp.gate_proj.weight]Loading weights:  55%|███████████████████▊                | 418/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.mlp.gate_proj.weight]Loading weights:  55%|████████████████████▉                 | 419/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.mlp.up_proj.weight]Loading weights:  55%|████████████████████▉                 | 419/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.mlp.up_proj.weight]Loading weights:  55%|█████████████▊           | 420/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.post_attention_layernorm.weight]Loading weights:  55%|█████████████▊           | 420/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.post_attention_layernorm.weight]Loading weights:  55%|██████████████████▎              | 421/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.self_attn.k_norm.weight]Loading weights:  55%|██████████████████▎              | 421/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.self_attn.k_norm.weight]Loading weights:  56%|██████████████████▎              | 422/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.self_attn.k_proj.weight]Loading weights:  56%|██████████████████▎              | 422/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.self_attn.k_proj.weight]Loading weights:  56%|██████████████████▎              | 423/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.self_attn.o_proj.weight]Loading weights:  56%|██████████████████▎              | 423/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.self_attn.o_proj.weight]Loading weights:  56%|██████████████████▍              | 424/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.self_attn.q_norm.weight]Loading weights:  56%|██████████████████▍              | 424/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.self_attn.q_norm.weight]Loading weights:  56%|██████████████████▍              | 425/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.self_attn.q_proj.weight]Loading weights:  56%|██████████████████▍              | 425/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.self_attn.q_proj.weight]Loading weights:  56%|██████████████████▍              | 426/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.self_attn.v_proj.weight]Loading weights:  56%|██████████████████▍              | 426/760 [00:04<00:02, 114.45it/s, Materializing param=model.language_model.layers.31.self_attn.v_proj.weight]Loading weights:  56%|██████████████████▌              | 427/760 [00:04<00:02, 113.56it/s, Materializing param=model.language_model.layers.31.self_attn.v_proj.weight]Loading weights:  56%|██████████████████████████████▉                        | 427/760 [00:04<00:02, 113.56it/s, Materializing param=model.language_model.norm.weight]Loading weights:  56%|██████████████████████████████▉                        | 427/760 [00:04<00:02, 113.56it/s, Materializing param=model.language_model.norm.weight]Loading weights:  56%|████████████████████████████▋                      | 428/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.attn.proj.bias]Loading weights:  56%|████████████████████████████▋                      | 428/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.attn.proj.bias]Loading weights:  56%|███████████████████████████▋                     | 429/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.attn.proj.weight]Loading weights:  56%|███████████████████████████▋                     | 429/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.attn.proj.weight]Loading weights:  57%|█████████████████████████████▍                      | 430/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.attn.qkv.bias]Loading weights:  57%|█████████████████████████████▍                      | 430/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.attn.qkv.bias]Loading weights:  57%|████████████████████████████▎                     | 431/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.attn.qkv.weight]Loading weights:  57%|████████████████████████████▎                     | 431/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.attn.qkv.weight]Loading weights:  57%|██████████████████████████▏                   | 432/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.mlp.linear_fc1.bias]Loading weights:  57%|██████████████████████████▏                   | 432/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.mlp.linear_fc1.bias]Loading weights:  57%|█████████████████████████                   | 433/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.mlp.linear_fc1.weight]Loading weights:  57%|█████████████████████████                   | 433/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.mlp.linear_fc1.weight]Loading weights:  57%|██████████████████████████▎                   | 434/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.mlp.linear_fc2.bias]Loading weights:  57%|██████████████████████████▎                   | 434/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.mlp.linear_fc2.bias]Loading weights:  57%|█████████████████████████▏                  | 435/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.mlp.linear_fc2.weight]Loading weights:  57%|█████████████████████████▏                  | 435/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.mlp.linear_fc2.weight]Loading weights:  57%|███████████████████████████████▌                       | 436/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.norm1.bias]Loading weights:  57%|███████████████████████████████▌                       | 436/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.norm1.bias]Loading weights:  57%|██████████████████████████████▍                      | 437/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.norm1.weight]Loading weights:  57%|██████████████████████████████▍                      | 437/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.norm1.weight]Loading weights:  58%|███████████████████████████████▋                       | 438/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.norm2.bias]Loading weights:  58%|███████████████████████████████▋                       | 438/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.norm2.bias]Loading weights:  58%|██████████████████████████████▌                      | 439/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.norm2.weight]Loading weights:  58%|██████████████████████████████▌                      | 439/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.0.norm2.weight]Loading weights:  58%|█████████████████████████████▌                     | 440/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.attn.proj.bias]Loading weights:  58%|█████████████████████████████▌                     | 440/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.attn.proj.bias]Loading weights:  58%|████████████████████████████▍                    | 441/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.attn.proj.weight]Loading weights:  58%|████████████████████████████▍                    | 441/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.attn.proj.weight]Loading weights:  58%|██████████████████████████████▏                     | 442/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.attn.qkv.bias]Loading weights:  58%|██████████████████████████████▏                     | 442/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.attn.qkv.bias]Loading weights:  58%|█████████████████████████████▏                    | 443/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.attn.qkv.weight]Loading weights:  58%|█████████████████████████████▏                    | 443/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.attn.qkv.weight]Loading weights:  58%|██████████████████████████▊                   | 444/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.mlp.linear_fc1.bias]Loading weights:  58%|██████████████████████████▊                   | 444/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.mlp.linear_fc1.bias]Loading weights:  59%|█████████████████████████▊                  | 445/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.mlp.linear_fc1.weight]Loading weights:  59%|█████████████████████████▊                  | 445/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.mlp.linear_fc1.weight]Loading weights:  59%|██████████████████████████▉                   | 446/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.mlp.linear_fc2.bias]Loading weights:  59%|██████████████████████████▉                   | 446/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.mlp.linear_fc2.bias]Loading weights:  59%|█████████████████████████▉                  | 447/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.mlp.linear_fc2.weight]Loading weights:  59%|█████████████████████████▉                  | 447/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.mlp.linear_fc2.weight]Loading weights:  59%|████████████████████████████████▍                      | 448/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.norm1.bias]Loading weights:  59%|████████████████████████████████▍                      | 448/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.norm1.bias]Loading weights:  59%|███████████████████████████████▎                     | 449/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.norm1.weight]Loading weights:  59%|███████████████████████████████▎                     | 449/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.norm1.weight]Loading weights:  59%|████████████████████████████████▌                      | 450/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.norm2.bias]Loading weights:  59%|████████████████████████████████▌                      | 450/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.norm2.bias]Loading weights:  59%|███████████████████████████████▍                     | 451/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.norm2.weight]Loading weights:  59%|███████████████████████████████▍                     | 451/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.1.norm2.weight]Loading weights:  59%|██████████████████████████████▎                    | 452/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.attn.proj.bias]Loading weights:  59%|██████████████████████████████▎                    | 452/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.attn.proj.bias]Loading weights:  60%|█████████████████████████████▏                   | 453/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.attn.proj.weight]Loading weights:  60%|█████████████████████████████▏                   | 453/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.attn.proj.weight]Loading weights:  60%|███████████████████████████████                     | 454/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.attn.qkv.bias]Loading weights:  60%|███████████████████████████████                     | 454/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.attn.qkv.bias]Loading weights:  60%|█████████████████████████████▉                    | 455/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.attn.qkv.weight]Loading weights:  60%|█████████████████████████████▉                    | 455/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.attn.qkv.weight]Loading weights:  60%|███████████████████████████▌                  | 456/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.mlp.linear_fc1.bias]Loading weights:  60%|███████████████████████████▌                  | 456/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.mlp.linear_fc1.bias]Loading weights:  60%|██████████████████████████▍                 | 457/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.mlp.linear_fc1.weight]Loading weights:  60%|██████████████████████████▍                 | 457/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.mlp.linear_fc1.weight]Loading weights:  60%|███████████████████████████▋                  | 458/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.mlp.linear_fc2.bias]Loading weights:  60%|███████████████████████████▋                  | 458/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.mlp.linear_fc2.bias]Loading weights:  60%|██████████████████████████▌                 | 459/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.mlp.linear_fc2.weight]Loading weights:  60%|██████████████████████████▌                 | 459/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.mlp.linear_fc2.weight]Loading weights:  61%|█████████████████████████████████▎                     | 460/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.norm1.bias]Loading weights:  61%|█████████████████████████████████▎                     | 460/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.norm1.bias]Loading weights:  61%|████████████████████████████████▏                    | 461/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.norm1.weight]Loading weights:  61%|████████████████████████████████▏                    | 461/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.norm1.weight]Loading weights:  61%|█████████████████████████████████▍                     | 462/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.norm2.bias]Loading weights:  61%|█████████████████████████████████▍                     | 462/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.norm2.bias]Loading weights:  61%|████████████████████████████████▎                    | 463/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.norm2.weight]Loading weights:  61%|████████████████████████████████▎                    | 463/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.2.norm2.weight]Loading weights:  61%|███████████████████████████████▏                   | 464/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.attn.proj.bias]Loading weights:  61%|███████████████████████████████▏                   | 464/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.attn.proj.bias]Loading weights:  61%|█████████████████████████████▉                   | 465/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.attn.proj.weight]Loading weights:  61%|█████████████████████████████▉                   | 465/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.attn.proj.weight]Loading weights:  61%|███████████████████████████████▉                    | 466/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.attn.qkv.bias]Loading weights:  61%|███████████████████████████████▉                    | 466/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.attn.qkv.bias]Loading weights:  61%|██████████████████████████████▋                   | 467/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.attn.qkv.weight]Loading weights:  61%|██████████████████████████████▋                   | 467/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.attn.qkv.weight]Loading weights:  62%|████████████████████████████▎                 | 468/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.mlp.linear_fc1.bias]Loading weights:  62%|████████████████████████████▎                 | 468/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.mlp.linear_fc1.bias]Loading weights:  62%|███████████████████████████▏                | 469/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.mlp.linear_fc1.weight]Loading weights:  62%|███████████████████████████▏                | 469/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.mlp.linear_fc1.weight]Loading weights:  62%|████████████████████████████▍                 | 470/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.mlp.linear_fc2.bias]Loading weights:  62%|████████████████████████████▍                 | 470/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.mlp.linear_fc2.bias]Loading weights:  62%|███████████████████████████▎                | 471/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.mlp.linear_fc2.weight]Loading weights:  62%|███████████████████████████▎                | 471/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.mlp.linear_fc2.weight]Loading weights:  62%|██████████████████████████████████▏                    | 472/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.norm1.bias]Loading weights:  62%|██████████████████████████████████▏                    | 472/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.norm1.bias]Loading weights:  62%|████████████████████████████████▉                    | 473/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.norm1.weight]Loading weights:  62%|████████████████████████████████▉                    | 473/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.norm1.weight]Loading weights:  62%|██████████████████████████████████▎                    | 474/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.norm2.bias]Loading weights:  62%|██████████████████████████████████▎                    | 474/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.norm2.bias]Loading weights:  62%|█████████████████████████████████▏                   | 475/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.norm2.weight]Loading weights:  62%|█████████████████████████████████▏                   | 475/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.3.norm2.weight]Loading weights:  63%|███████████████████████████████▉                   | 476/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.attn.proj.bias]Loading weights:  63%|███████████████████████████████▉                   | 476/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.attn.proj.bias]Loading weights:  63%|██████████████████████████████▊                  | 477/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.attn.proj.weight]Loading weights:  63%|██████████████████████████████▊                  | 477/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.attn.proj.weight]Loading weights:  63%|████████████████████████████████▋                   | 478/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.attn.qkv.bias]Loading weights:  63%|████████████████████████████████▋                   | 478/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.attn.qkv.bias]Loading weights:  63%|███████████████████████████████▌                  | 479/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.attn.qkv.weight]Loading weights:  63%|███████████████████████████████▌                  | 479/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.attn.qkv.weight]Loading weights:  63%|█████████████████████████████                 | 480/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.mlp.linear_fc1.bias]Loading weights:  63%|█████████████████████████████                 | 480/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.mlp.linear_fc1.bias]Loading weights:  63%|███████████████████████████▊                | 481/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.mlp.linear_fc1.weight]Loading weights:  63%|███████████████████████████▊                | 481/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.mlp.linear_fc1.weight]Loading weights:  63%|█████████████████████████████▏                | 482/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.mlp.linear_fc2.bias]Loading weights:  63%|█████████████████████████████▏                | 482/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.mlp.linear_fc2.bias]Loading weights:  64%|███████████████████████████▉                | 483/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.mlp.linear_fc2.weight]Loading weights:  64%|███████████████████████████▉                | 483/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.mlp.linear_fc2.weight]Loading weights:  64%|███████████████████████████████████                    | 484/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.norm1.bias]Loading weights:  64%|███████████████████████████████████                    | 484/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.norm1.bias]Loading weights:  64%|█████████████████████████████████▊                   | 485/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.norm1.weight]Loading weights:  64%|█████████████████████████████████▊                   | 485/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.norm1.weight]Loading weights:  64%|███████████████████████████████████▏                   | 486/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.norm2.bias]Loading weights:  64%|███████████████████████████████████▏                   | 486/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.norm2.bias]Loading weights:  64%|█████████████████████████████████▉                   | 487/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.norm2.weight]Loading weights:  64%|█████████████████████████████████▉                   | 487/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.4.norm2.weight]Loading weights:  64%|████████████████████████████████▋                  | 488/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.attn.proj.bias]Loading weights:  64%|████████████████████████████████▋                  | 488/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.attn.proj.bias]Loading weights:  64%|███████████████████████████████▌                 | 489/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.attn.proj.weight]Loading weights:  64%|███████████████████████████████▌                 | 489/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.attn.proj.weight]Loading weights:  64%|█████████████████████████████████▌                  | 490/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.attn.qkv.bias]Loading weights:  64%|█████████████████████████████████▌                  | 490/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.attn.qkv.bias]Loading weights:  65%|████████████████████████████████▎                 | 491/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.attn.qkv.weight]Loading weights:  65%|████████████████████████████████▎                 | 491/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.attn.qkv.weight]Loading weights:  65%|█████████████████████████████▊                | 492/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.mlp.linear_fc1.bias]Loading weights:  65%|█████████████████████████████▊                | 492/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.mlp.linear_fc1.bias]Loading weights:  65%|████████████████████████████▌               | 493/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.mlp.linear_fc1.weight]Loading weights:  65%|████████████████████████████▌               | 493/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.mlp.linear_fc1.weight]Loading weights:  65%|█████████████████████████████▉                | 494/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.mlp.linear_fc2.bias]Loading weights:  65%|█████████████████████████████▉                | 494/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.mlp.linear_fc2.bias]Loading weights:  65%|████████████████████████████▋               | 495/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.mlp.linear_fc2.weight]Loading weights:  65%|████████████████████████████▋               | 495/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.mlp.linear_fc2.weight]Loading weights:  65%|███████████████████████████████████▉                   | 496/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.norm1.bias]Loading weights:  65%|███████████████████████████████████▉                   | 496/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.norm1.bias]Loading weights:  65%|██████████████████████████████████▋                  | 497/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.norm1.weight]Loading weights:  65%|██████████████████████████████████▋                  | 497/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.norm1.weight]Loading weights:  66%|████████████████████████████████████                   | 498/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.norm2.bias]Loading weights:  66%|████████████████████████████████████                   | 498/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.norm2.bias]Loading weights:  66%|██████████████████████████████████▊                  | 499/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.norm2.weight]Loading weights:  66%|██████████████████████████████████▊                  | 499/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.5.norm2.weight]Loading weights:  66%|█████████████████████████████████▌                 | 500/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.attn.proj.bias]Loading weights:  66%|█████████████████████████████████▌                 | 500/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.attn.proj.bias]Loading weights:  66%|████████████████████████████████▎                | 501/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.attn.proj.weight]Loading weights:  66%|████████████████████████████████▎                | 501/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.attn.proj.weight]Loading weights:  66%|██████████████████████████████████▎                 | 502/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.attn.qkv.bias]Loading weights:  66%|██████████████████████████████████▎                 | 502/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.attn.qkv.bias]Loading weights:  66%|█████████████████████████████████                 | 503/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.attn.qkv.weight]Loading weights:  66%|█████████████████████████████████                 | 503/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.attn.qkv.weight]Loading weights:  66%|██████████████████████████████▌               | 504/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.mlp.linear_fc1.bias]Loading weights:  66%|██████████████████████████████▌               | 504/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.mlp.linear_fc1.bias]Loading weights:  66%|█████████████████████████████▏              | 505/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.mlp.linear_fc1.weight]Loading weights:  66%|█████████████████████████████▏              | 505/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.mlp.linear_fc1.weight]Loading weights:  67%|██████████████████████████████▋               | 506/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.mlp.linear_fc2.bias]Loading weights:  67%|██████████████████████████████▋               | 506/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.mlp.linear_fc2.bias]Loading weights:  67%|█████████████████████████████▎              | 507/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.mlp.linear_fc2.weight]Loading weights:  67%|█████████████████████████████▎              | 507/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.mlp.linear_fc2.weight]Loading weights:  67%|████████████████████████████████████▊                  | 508/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.norm1.bias]Loading weights:  67%|████████████████████████████████████▊                  | 508/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.norm1.bias]Loading weights:  67%|███████████████████████████████████▍                 | 509/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.norm1.weight]Loading weights:  67%|███████████████████████████████████▍                 | 509/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.norm1.weight]Loading weights:  67%|████████████████████████████████████▉                  | 510/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.norm2.bias]Loading weights:  67%|████████████████████████████████████▉                  | 510/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.norm2.bias]Loading weights:  67%|███████████████████████████████████▋                 | 511/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.norm2.weight]Loading weights:  67%|███████████████████████████████████▋                 | 511/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.6.norm2.weight]Loading weights:  67%|██████████████████████████████████▎                | 512/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.attn.proj.bias]Loading weights:  67%|██████████████████████████████████▎                | 512/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.attn.proj.bias]Loading weights:  68%|█████████████████████████████████                | 513/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.attn.proj.weight]Loading weights:  68%|█████████████████████████████████                | 513/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.attn.proj.weight]Loading weights:  68%|███████████████████████████████████▏                | 514/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.attn.qkv.bias]Loading weights:  68%|███████████████████████████████████▏                | 514/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.attn.qkv.bias]Loading weights:  68%|█████████████████████████████████▉                | 515/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.attn.qkv.weight]Loading weights:  68%|█████████████████████████████████▉                | 515/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.attn.qkv.weight]Loading weights:  68%|███████████████████████████████▏              | 516/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.mlp.linear_fc1.bias]Loading weights:  68%|███████████████████████████████▏              | 516/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.mlp.linear_fc1.bias]Loading weights:  68%|█████████████████████████████▉              | 517/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.mlp.linear_fc1.weight]Loading weights:  68%|█████████████████████████████▉              | 517/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.mlp.linear_fc1.weight]Loading weights:  68%|███████████████████████████████▎              | 518/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.mlp.linear_fc2.bias]Loading weights:  68%|███████████████████████████████▎              | 518/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.mlp.linear_fc2.bias]Loading weights:  68%|██████████████████████████████              | 519/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.mlp.linear_fc2.weight]Loading weights:  68%|██████████████████████████████              | 519/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.mlp.linear_fc2.weight]Loading weights:  68%|█████████████████████████████████████▋                 | 520/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.norm1.bias]Loading weights:  68%|█████████████████████████████████████▋                 | 520/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.norm1.bias]Loading weights:  69%|████████████████████████████████████▎                | 521/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.norm1.weight]Loading weights:  69%|████████████████████████████████████▎                | 521/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.norm1.weight]Loading weights:  69%|█████████████████████████████████████▊                 | 522/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.norm2.bias]Loading weights:  69%|█████████████████████████████████████▊                 | 522/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.norm2.bias]Loading weights:  69%|████████████████████████████████████▍                | 523/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.norm2.weight]Loading weights:  69%|████████████████████████████████████▍                | 523/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.7.norm2.weight]Loading weights:  69%|███████████████████████████████████▏               | 524/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.8.attn.proj.bias]Loading weights:  69%|███████████████████████████████████▏               | 524/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.8.attn.proj.bias]Loading weights:  69%|█████████████████████████████████▊               | 525/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.8.attn.proj.weight]Loading weights:  69%|█████████████████████████████████▊               | 525/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.8.attn.proj.weight]Loading weights:  69%|███████████████████████████████████▉                | 526/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.8.attn.qkv.bias]Loading weights:  69%|███████████████████████████████████▉                | 526/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.8.attn.qkv.bias]Loading weights:  69%|██████████████████████████████████▋               | 527/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.8.attn.qkv.weight]Loading weights:  69%|██████████████████████████████████▋               | 527/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.8.attn.qkv.weight]Loading weights:  69%|███████████████████████████████▉              | 528/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.8.mlp.linear_fc1.bias]Loading weights:  69%|███████████████████████████████▉              | 528/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.8.mlp.linear_fc1.bias]Loading weights:  70%|██████████████████████████████▋             | 529/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.8.mlp.linear_fc1.weight]Loading weights:  70%|██████████████████████████████▋             | 529/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.8.mlp.linear_fc1.weight]Loading weights:  70%|████████████████████████████████              | 530/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.8.mlp.linear_fc2.bias]Loading weights:  70%|████████████████████████████████              | 530/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.8.mlp.linear_fc2.bias]Loading weights:  70%|██████████████████████████████▋             | 531/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.8.mlp.linear_fc2.weight]Loading weights:  70%|██████████████████████████████▋             | 531/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.8.mlp.linear_fc2.weight]Loading weights:  70%|██████████████████████████████████████▌                | 532/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.8.norm1.bias]Loading weights:  70%|██████████████████████████████████████▌                | 532/760 [00:04<00:02, 113.56it/s, Materializing param=model.visual.blocks.8.norm1.bias]Loading weights:  70%|█████████████████████████████████████▏               | 533/760 [00:04<00:01, 113.56it/s, Materializing param=model.visual.blocks.8.norm1.weight]Loading weights:  70%|█████████████████████████████████████▏               | 533/760 [00:04<00:01, 113.56it/s, Materializing param=model.visual.blocks.8.norm1.weight]Loading weights:  70%|██████████████████████████████████████▋                | 534/760 [00:04<00:01, 113.56it/s, Materializing param=model.visual.blocks.8.norm2.bias]Loading weights:  70%|██████████████████████████████████████▋                | 534/760 [00:04<00:01, 113.56it/s, Materializing param=model.visual.blocks.8.norm2.bias]Loading weights:  70%|█████████████████████████████████████▎               | 535/760 [00:04<00:01, 113.56it/s, Materializing param=model.visual.blocks.8.norm2.weight]Loading weights:  70%|█████████████████████████████████████▎               | 535/760 [00:04<00:01, 113.56it/s, Materializing param=model.visual.blocks.8.norm2.weight]Loading weights:  71%|███████████████████████████████████▉               | 536/760 [00:04<00:01, 113.56it/s, Materializing param=model.visual.blocks.9.attn.proj.bias]Loading weights:  71%|███████████████████████████████████▉               | 536/760 [00:04<00:01, 113.56it/s, Materializing param=model.visual.blocks.9.attn.proj.bias]Loading weights:  71%|██████████████████████████████████▌              | 537/760 [00:04<00:01, 113.56it/s, Materializing param=model.visual.blocks.9.attn.proj.weight]Loading weights:  71%|██████████████████████████████████▌              | 537/760 [00:04<00:01, 113.56it/s, Materializing param=model.visual.blocks.9.attn.proj.weight]Loading weights:  71%|████████████████████████████████████▊               | 538/760 [00:04<00:01, 113.56it/s, Materializing param=model.visual.blocks.9.attn.qkv.bias]Loading weights:  71%|████████████████████████████████████▊               | 538/760 [00:04<00:01, 113.56it/s, Materializing param=model.visual.blocks.9.attn.qkv.bias]Loading weights:  71%|███████████████████████████████████▍              | 539/760 [00:04<00:01, 113.56it/s, Materializing param=model.visual.blocks.9.attn.qkv.weight]Loading weights:  71%|███████████████████████████████████▍              | 539/760 [00:04<00:01, 113.56it/s, Materializing param=model.visual.blocks.9.attn.qkv.weight]Loading weights:  71%|████████████████████████████████▋             | 540/760 [00:04<00:01, 113.56it/s, Materializing param=model.visual.blocks.9.mlp.linear_fc1.bias]Loading weights:  71%|████████████████████████████████▋             | 540/760 [00:04<00:01, 113.56it/s, Materializing param=model.visual.blocks.9.mlp.linear_fc1.bias]Loading weights:  71%|███████████████████████████████▎            | 541/760 [00:04<00:01, 113.56it/s, Materializing param=model.visual.blocks.9.mlp.linear_fc1.weight]Loading weights:  71%|███████████████████████████████▎            | 541/760 [00:04<00:01, 113.56it/s, Materializing param=model.visual.blocks.9.mlp.linear_fc1.weight]Loading weights:  71%|███████████████████████████████▍            | 542/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.9.mlp.linear_fc1.weight]Loading weights:  71%|████████████████████████████████▊             | 542/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.9.mlp.linear_fc2.bias]Loading weights:  71%|████████████████████████████████▊             | 542/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.9.mlp.linear_fc2.bias]Loading weights:  71%|███████████████████████████████▍            | 543/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.9.mlp.linear_fc2.weight]Loading weights:  71%|███████████████████████████████▍            | 543/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.9.mlp.linear_fc2.weight]Loading weights:  72%|███████████████████████████████████████▎               | 544/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.9.norm1.bias]Loading weights:  72%|███████████████████████████████████████▎               | 544/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.9.norm1.bias]Loading weights:  72%|██████████████████████████████████████               | 545/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.9.norm1.weight]Loading weights:  72%|██████████████████████████████████████               | 545/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.9.norm1.weight]Loading weights:  72%|███████████████████████████████████████▌               | 546/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.9.norm2.bias]Loading weights:  72%|███████████████████████████████████████▌               | 546/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.9.norm2.bias]Loading weights:  72%|██████████████████████████████████████▏              | 547/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.9.norm2.weight]Loading weights:  72%|██████████████████████████████████████▏              | 547/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.9.norm2.weight]Loading weights:  72%|████████████████████████████████████              | 548/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.attn.proj.bias]Loading weights:  72%|████████████████████████████████████              | 548/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.attn.proj.bias]Loading weights:  72%|██████████████████████████████████▋             | 549/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.attn.proj.weight]Loading weights:  72%|██████████████████████████████████▋             | 549/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.attn.proj.weight]Loading weights:  72%|████████████████████████████████████▉              | 550/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.attn.qkv.bias]Loading weights:  72%|████████████████████████████████████▉              | 550/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.attn.qkv.bias]Loading weights:  72%|███████████████████████████████████▌             | 551/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.attn.qkv.weight]Loading weights:  72%|███████████████████████████████████▌             | 551/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.attn.qkv.weight]Loading weights:  73%|████████████████████████████████▋            | 552/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.mlp.linear_fc1.bias]Loading weights:  73%|████████████████████████████████▋            | 552/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.mlp.linear_fc1.bias]Loading weights:  73%|███████████████████████████████▎           | 553/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.mlp.linear_fc1.weight]Loading weights:  73%|███████████████████████████████▎           | 553/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.mlp.linear_fc1.weight]Loading weights:  73%|████████████████████████████████▊            | 554/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.mlp.linear_fc2.bias]Loading weights:  73%|████████████████████████████████▊            | 554/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.mlp.linear_fc2.bias]Loading weights:  73%|███████████████████████████████▍           | 555/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.mlp.linear_fc2.weight]Loading weights:  73%|███████████████████████████████▍           | 555/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.mlp.linear_fc2.weight]Loading weights:  73%|███████████████████████████████████████▌              | 556/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.norm1.bias]Loading weights:  73%|███████████████████████████████████████▌              | 556/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.norm1.bias]Loading weights:  73%|██████████████████████████████████████              | 557/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.norm1.weight]Loading weights:  73%|██████████████████████████████████████              | 557/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.norm1.weight]Loading weights:  73%|███████████████████████████████████████▋              | 558/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.norm2.bias]Loading weights:  73%|███████████████████████████████████████▋              | 558/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.norm2.bias]Loading weights:  74%|██████████████████████████████████████▏             | 559/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.norm2.weight]Loading weights:  74%|██████████████████████████████████████▏             | 559/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.10.norm2.weight]Loading weights:  74%|████████████████████████████████████▊             | 560/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.attn.proj.bias]Loading weights:  74%|████████████████████████████████████▊             | 560/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.attn.proj.bias]Loading weights:  74%|███████████████████████████████████▍            | 561/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.attn.proj.weight]Loading weights:  74%|███████████████████████████████████▍            | 561/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.attn.proj.weight]Loading weights:  74%|█████████████████████████████████████▋             | 562/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.attn.qkv.bias]Loading weights:  74%|█████████████████████████████████████▋             | 562/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.attn.qkv.bias]Loading weights:  74%|████████████████████████████████████▎            | 563/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.attn.qkv.weight]Loading weights:  74%|████████████████████████████████████▎            | 563/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.attn.qkv.weight]Loading weights:  74%|█████████████████████████████████▍           | 564/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.mlp.linear_fc1.bias]Loading weights:  74%|█████████████████████████████████▍           | 564/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.mlp.linear_fc1.bias]Loading weights:  74%|███████████████████████████████▉           | 565/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.mlp.linear_fc1.weight]Loading weights:  74%|███████████████████████████████▉           | 565/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.mlp.linear_fc1.weight]Loading weights:  74%|█████████████████████████████████▌           | 566/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.mlp.linear_fc2.bias]Loading weights:  74%|█████████████████████████████████▌           | 566/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.mlp.linear_fc2.bias]Loading weights:  75%|████████████████████████████████           | 567/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.mlp.linear_fc2.weight]Loading weights:  75%|████████████████████████████████           | 567/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.mlp.linear_fc2.weight]Loading weights:  75%|████████████████████████████████████████▎             | 568/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.norm1.bias]Loading weights:  75%|████████████████████████████████████████▎             | 568/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.norm1.bias]Loading weights:  75%|██████████████████████████████████████▉             | 569/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.norm1.weight]Loading weights:  75%|██████████████████████████████████████▉             | 569/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.norm1.weight]Loading weights:  75%|████████████████████████████████████████▌             | 570/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.norm2.bias]Loading weights:  75%|████████████████████████████████████████▌             | 570/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.norm2.bias]Loading weights:  75%|███████████████████████████████████████             | 571/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.norm2.weight]Loading weights:  75%|███████████████████████████████████████             | 571/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.11.norm2.weight]Loading weights:  75%|█████████████████████████████████████▋            | 572/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.attn.proj.bias]Loading weights:  75%|█████████████████████████████████████▋            | 572/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.attn.proj.bias]Loading weights:  75%|████████████████████████████████████▏           | 573/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.attn.proj.weight]Loading weights:  75%|████████████████████████████████████▏           | 573/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.attn.proj.weight]Loading weights:  76%|██████████████████████████████████████▌            | 574/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.attn.qkv.bias]Loading weights:  76%|██████████████████████████████████████▌            | 574/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.attn.qkv.bias]Loading weights:  76%|█████████████████████████████████████            | 575/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.attn.qkv.weight]Loading weights:  76%|█████████████████████████████████████            | 575/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.attn.qkv.weight]Loading weights:  76%|██████████████████████████████████           | 576/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.mlp.linear_fc1.bias]Loading weights:  76%|██████████████████████████████████           | 576/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.mlp.linear_fc1.bias]Loading weights:  76%|████████████████████████████████▋          | 577/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.mlp.linear_fc1.weight]Loading weights:  76%|████████████████████████████████▋          | 577/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.mlp.linear_fc1.weight]Loading weights:  76%|██████████████████████████████████▏          | 578/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.mlp.linear_fc2.bias]Loading weights:  76%|██████████████████████████████████▏          | 578/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.mlp.linear_fc2.bias]Loading weights:  76%|████████████████████████████████▊          | 579/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.mlp.linear_fc2.weight]Loading weights:  76%|████████████████████████████████▊          | 579/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.mlp.linear_fc2.weight]Loading weights:  76%|█████████████████████████████████████████▏            | 580/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.norm1.bias]Loading weights:  76%|█████████████████████████████████████████▏            | 580/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.norm1.bias]Loading weights:  76%|███████████████████████████████████████▊            | 581/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.norm1.weight]Loading weights:  76%|███████████████████████████████████████▊            | 581/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.norm1.weight]Loading weights:  77%|█████████████████████████████████████████▎            | 582/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.norm2.bias]Loading weights:  77%|█████████████████████████████████████████▎            | 582/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.norm2.bias]Loading weights:  77%|███████████████████████████████████████▉            | 583/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.norm2.weight]Loading weights:  77%|███████████████████████████████████████▉            | 583/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.12.norm2.weight]Loading weights:  77%|██████████████████████████████████████▍           | 584/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.attn.proj.bias]Loading weights:  77%|██████████████████████████████████████▍           | 584/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.attn.proj.bias]Loading weights:  77%|████████████████████████████████████▉           | 585/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.attn.proj.weight]Loading weights:  77%|████████████████████████████████████▉           | 585/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.attn.proj.weight]Loading weights:  77%|███████████████████████████████████████▎           | 586/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.attn.qkv.bias]Loading weights:  77%|███████████████████████████████████████▎           | 586/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.attn.qkv.bias]Loading weights:  77%|█████████████████████████████████████▊           | 587/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.attn.qkv.weight]Loading weights:  77%|█████████████████████████████████████▊           | 587/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.attn.qkv.weight]Loading weights:  77%|██████████████████████████████████▊          | 588/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.mlp.linear_fc1.bias]Loading weights:  77%|██████████████████████████████████▊          | 588/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.mlp.linear_fc1.bias]Loading weights:  78%|█████████████████████████████████▎         | 589/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.mlp.linear_fc1.weight]Loading weights:  78%|█████████████████████████████████▎         | 589/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.mlp.linear_fc1.weight]Loading weights:  78%|██████████████████████████████████▉          | 590/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.mlp.linear_fc2.bias]Loading weights:  78%|██████████████████████████████████▉          | 590/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.mlp.linear_fc2.bias]Loading weights:  78%|█████████████████████████████████▍         | 591/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.mlp.linear_fc2.weight]Loading weights:  78%|█████████████████████████████████▍         | 591/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.mlp.linear_fc2.weight]Loading weights:  78%|██████████████████████████████████████████            | 592/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.norm1.bias]Loading weights:  78%|██████████████████████████████████████████            | 592/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.norm1.bias]Loading weights:  78%|████████████████████████████████████████▌           | 593/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.norm1.weight]Loading weights:  78%|████████████████████████████████████████▌           | 593/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.norm1.weight]Loading weights:  78%|██████████████████████████████████████████▏           | 594/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.norm2.bias]Loading weights:  78%|██████████████████████████████████████████▏           | 594/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.norm2.bias]Loading weights:  78%|████████████████████████████████████████▋           | 595/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.norm2.weight]Loading weights:  78%|████████████████████████████████████████▋           | 595/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.13.norm2.weight]Loading weights:  78%|███████████████████████████████████████▏          | 596/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.attn.proj.bias]Loading weights:  78%|███████████████████████████████████████▏          | 596/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.attn.proj.bias]Loading weights:  79%|█████████████████████████████████████▋          | 597/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.attn.proj.weight]Loading weights:  79%|█████████████████████████████████████▋          | 597/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.attn.proj.weight]Loading weights:  79%|████████████████████████████████████████▏          | 598/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.attn.qkv.bias]Loading weights:  79%|████████████████████████████████████████▏          | 598/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.attn.qkv.bias]Loading weights:  79%|██████████████████████████████████████▌          | 599/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.attn.qkv.weight]Loading weights:  79%|██████████████████████████████████████▌          | 599/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.attn.qkv.weight]Loading weights:  79%|███████████████████████████████████▌         | 600/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.mlp.linear_fc1.bias]Loading weights:  79%|███████████████████████████████████▌         | 600/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.mlp.linear_fc1.bias]Loading weights:  79%|██████████████████████████████████         | 601/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.mlp.linear_fc1.weight]Loading weights:  79%|██████████████████████████████████         | 601/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.mlp.linear_fc1.weight]Loading weights:  79%|███████████████████████████████████▋         | 602/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.mlp.linear_fc2.bias]Loading weights:  79%|███████████████████████████████████▋         | 602/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.mlp.linear_fc2.bias]Loading weights:  79%|██████████████████████████████████         | 603/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.mlp.linear_fc2.weight]Loading weights:  79%|██████████████████████████████████         | 603/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.mlp.linear_fc2.weight]Loading weights:  79%|██████████████████████████████████████████▉           | 604/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.norm1.bias]Loading weights:  79%|██████████████████████████████████████████▉           | 604/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.norm1.bias]Loading weights:  80%|█████████████████████████████████████████▍          | 605/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.norm1.weight]Loading weights:  80%|█████████████████████████████████████████▍          | 605/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.norm1.weight]Loading weights:  80%|███████████████████████████████████████████           | 606/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.norm2.bias]Loading weights:  80%|███████████████████████████████████████████           | 606/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.norm2.bias]Loading weights:  80%|█████████████████████████████████████████▌          | 607/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.norm2.weight]Loading weights:  80%|█████████████████████████████████████████▌          | 607/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.14.norm2.weight]Loading weights:  80%|████████████████████████████████████████          | 608/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.attn.proj.bias]Loading weights:  80%|████████████████████████████████████████          | 608/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.attn.proj.bias]Loading weights:  80%|██████████████████████████████████████▍         | 609/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.attn.proj.weight]Loading weights:  80%|██████████████████████████████████████▍         | 609/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.attn.proj.weight]Loading weights:  80%|████████████████████████████████████████▉          | 610/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.attn.qkv.bias]Loading weights:  80%|████████████████████████████████████████▉          | 610/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.attn.qkv.bias]Loading weights:  80%|███████████████████████████████████████▍         | 611/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.attn.qkv.weight]Loading weights:  80%|███████████████████████████████████████▍         | 611/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.attn.qkv.weight]Loading weights:  81%|████████████████████████████████████▏        | 612/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.mlp.linear_fc1.bias]Loading weights:  81%|████████████████████████████████████▏        | 612/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.mlp.linear_fc1.bias]Loading weights:  81%|██████████████████████████████████▋        | 613/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.mlp.linear_fc1.weight]Loading weights:  81%|██████████████████████████████████▋        | 613/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.mlp.linear_fc1.weight]Loading weights:  81%|████████████████████████████████████▎        | 614/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.mlp.linear_fc2.bias]Loading weights:  81%|████████████████████████████████████▎        | 614/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.mlp.linear_fc2.bias]Loading weights:  81%|██████████████████████████████████▊        | 615/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.mlp.linear_fc2.weight]Loading weights:  81%|██████████████████████████████████▊        | 615/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.mlp.linear_fc2.weight]Loading weights:  81%|███████████████████████████████████████████▊          | 616/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.norm1.bias]Loading weights:  81%|███████████████████████████████████████████▊          | 616/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.norm1.bias]Loading weights:  81%|██████████████████████████████████████████▏         | 617/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.norm1.weight]Loading weights:  81%|██████████████████████████████████████████▏         | 617/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.norm1.weight]Loading weights:  81%|███████████████████████████████████████████▉          | 618/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.norm2.bias]Loading weights:  81%|███████████████████████████████████████████▉          | 618/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.norm2.bias]Loading weights:  81%|██████████████████████████████████████████▎         | 619/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.norm2.weight]Loading weights:  81%|██████████████████████████████████████████▎         | 619/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.15.norm2.weight]Loading weights:  82%|████████████████████████████████████████▊         | 620/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.attn.proj.bias]Loading weights:  82%|████████████████████████████████████████▊         | 620/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.attn.proj.bias]Loading weights:  82%|███████████████████████████████████████▏        | 621/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.attn.proj.weight]Loading weights:  82%|███████████████████████████████████████▏        | 621/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.attn.proj.weight]Loading weights:  82%|█████████████████████████████████████████▋         | 622/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.attn.qkv.bias]Loading weights:  82%|█████████████████████████████████████████▋         | 622/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.attn.qkv.bias]Loading weights:  82%|████████████████████████████████████████▏        | 623/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.attn.qkv.weight]Loading weights:  82%|████████████████████████████████████████▏        | 623/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.attn.qkv.weight]Loading weights:  82%|████████████████████████████████████▉        | 624/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.mlp.linear_fc1.bias]Loading weights:  82%|████████████████████████████████████▉        | 624/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.mlp.linear_fc1.bias]Loading weights:  82%|███████████████████████████████████▎       | 625/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.mlp.linear_fc1.weight]Loading weights:  82%|███████████████████████████████████▎       | 625/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.mlp.linear_fc1.weight]Loading weights:  82%|█████████████████████████████████████        | 626/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.mlp.linear_fc2.bias]Loading weights:  82%|█████████████████████████████████████        | 626/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.mlp.linear_fc2.bias]Loading weights:  82%|███████████████████████████████████▍       | 627/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.mlp.linear_fc2.weight]Loading weights:  82%|███████████████████████████████████▍       | 627/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.mlp.linear_fc2.weight]Loading weights:  83%|████████████████████████████████████████████▌         | 628/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.norm1.bias]Loading weights:  83%|████████████████████████████████████████████▌         | 628/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.norm1.bias]Loading weights:  83%|███████████████████████████████████████████         | 629/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.norm1.weight]Loading weights:  83%|███████████████████████████████████████████         | 629/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.norm1.weight]Loading weights:  83%|████████████████████████████████████████████▊         | 630/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.norm2.bias]Loading weights:  83%|████████████████████████████████████████████▊         | 630/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.norm2.bias]Loading weights:  83%|███████████████████████████████████████████▏        | 631/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.norm2.weight]Loading weights:  83%|███████████████████████████████████████████▏        | 631/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.16.norm2.weight]Loading weights:  83%|█████████████████████████████████████████▌        | 632/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.attn.proj.bias]Loading weights:  83%|█████████████████████████████████████████▌        | 632/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.attn.proj.bias]Loading weights:  83%|███████████████████████████████████████▉        | 633/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.attn.proj.weight]Loading weights:  83%|███████████████████████████████████████▉        | 633/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.attn.proj.weight]Loading weights:  83%|██████████████████████████████████████████▌        | 634/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.attn.qkv.bias]Loading weights:  83%|██████████████████████████████████████████▌        | 634/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.attn.qkv.bias]Loading weights:  84%|████████████████████████████████████████▉        | 635/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.attn.qkv.weight]Loading weights:  84%|████████████████████████████████████████▉        | 635/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.attn.qkv.weight]Loading weights:  84%|█████████████████████████████████████▋       | 636/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.mlp.linear_fc1.bias]Loading weights:  84%|█████████████████████████████████████▋       | 636/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.mlp.linear_fc1.bias]Loading weights:  84%|████████████████████████████████████       | 637/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.mlp.linear_fc1.weight]Loading weights:  84%|████████████████████████████████████       | 637/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.mlp.linear_fc1.weight]Loading weights:  84%|█████████████████████████████████████▊       | 638/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.mlp.linear_fc2.bias]Loading weights:  84%|█████████████████████████████████████▊       | 638/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.mlp.linear_fc2.bias]Loading weights:  84%|████████████████████████████████████▏      | 639/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.mlp.linear_fc2.weight]Loading weights:  84%|████████████████████████████████████▏      | 639/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.mlp.linear_fc2.weight]Loading weights:  84%|█████████████████████████████████████████████▍        | 640/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.norm1.bias]Loading weights:  84%|█████████████████████████████████████████████▍        | 640/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.norm1.bias]Loading weights:  84%|███████████████████████████████████████████▊        | 641/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.norm1.weight]Loading weights:  84%|███████████████████████████████████████████▊        | 641/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.norm1.weight]Loading weights:  84%|█████████████████████████████████████████████▌        | 642/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.norm2.bias]Loading weights:  84%|█████████████████████████████████████████████▌        | 642/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.norm2.bias]Loading weights:  85%|███████████████████████████████████████████▉        | 643/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.norm2.weight]Loading weights:  85%|███████████████████████████████████████████▉        | 643/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.17.norm2.weight]Loading weights:  85%|██████████████████████████████████████████▎       | 644/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.18.attn.proj.bias]Loading weights:  85%|██████████████████████████████████████████▎       | 644/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.18.attn.proj.bias]Loading weights:  85%|████████████████████████████████████████▋       | 645/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.18.attn.proj.weight]Loading weights:  85%|████████████████████████████████████████▋       | 645/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.18.attn.proj.weight]Loading weights:  85%|███████████████████████████████████████████▎       | 646/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.18.attn.qkv.bias]Loading weights:  85%|███████████████████████████████████████████▎       | 646/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.18.attn.qkv.bias]Loading weights:  85%|█████████████████████████████████████████▋       | 647/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.18.attn.qkv.weight]Loading weights:  85%|█████████████████████████████████████████▋       | 647/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.18.attn.qkv.weight]Loading weights:  85%|██████████████████████████████████████▎      | 648/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.18.mlp.linear_fc1.bias]Loading weights:  85%|██████████████████████████████████████▎      | 648/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.18.mlp.linear_fc1.bias]Loading weights:  85%|████████████████████████████████████▋      | 649/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.18.mlp.linear_fc1.weight]Loading weights:  85%|████████████████████████████████████▋      | 649/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.18.mlp.linear_fc1.weight]Loading weights:  86%|██████████████████████████████████████▍      | 650/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.18.mlp.linear_fc2.bias]Loading weights:  86%|██████████████████████████████████████▍      | 650/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.18.mlp.linear_fc2.bias]Loading weights:  86%|████████████████████████████████████▊      | 651/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.18.mlp.linear_fc2.weight]Loading weights:  86%|████████████████████████████████████▊      | 651/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.18.mlp.linear_fc2.weight]Loading weights:  86%|██████████████████████████████████████████████▎       | 652/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.18.norm1.bias]Loading weights:  86%|██████████████████████████████████████████████▎       | 652/760 [00:04<00:00, 393.94it/s, Materializing param=model.visual.blocks.18.norm1.bias]Loading weights:  86%|██████████████████████████████████████████████▍       | 653/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.18.norm1.bias]Loading weights:  86%|████████████████████████████████████████████▋       | 653/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.18.norm1.weight]Loading weights:  86%|████████████████████████████████████████████▋       | 653/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.18.norm1.weight]Loading weights:  86%|██████████████████████████████████████████████▍       | 654/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.18.norm2.bias]Loading weights:  86%|██████████████████████████████████████████████▍       | 654/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.18.norm2.bias]Loading weights:  86%|████████████████████████████████████████████▊       | 655/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.18.norm2.weight]Loading weights:  86%|████████████████████████████████████████████▊       | 655/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.18.norm2.weight]Loading weights:  86%|███████████████████████████████████████████▏      | 656/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.attn.proj.bias]Loading weights:  86%|███████████████████████████████████████████▏      | 656/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.attn.proj.bias]Loading weights:  86%|█████████████████████████████████████████▍      | 657/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.attn.proj.weight]Loading weights:  86%|█████████████████████████████████████████▍      | 657/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.attn.proj.weight]Loading weights:  87%|████████████████████████████████████████████▏      | 658/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.attn.qkv.bias]Loading weights:  87%|████████████████████████████████████████████▏      | 658/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.attn.qkv.bias]Loading weights:  87%|██████████████████████████████████████████▍      | 659/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.attn.qkv.weight]Loading weights:  87%|██████████████████████████████████████████▍      | 659/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.attn.qkv.weight]Loading weights:  87%|███████████████████████████████████████      | 660/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.mlp.linear_fc1.bias]Loading weights:  87%|███████████████████████████████████████      | 660/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.mlp.linear_fc1.bias]Loading weights:  87%|█████████████████████████████████████▍     | 661/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.mlp.linear_fc1.weight]Loading weights:  87%|█████████████████████████████████████▍     | 661/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.mlp.linear_fc1.weight]Loading weights:  87%|███████████████████████████████████████▏     | 662/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.mlp.linear_fc2.bias]Loading weights:  87%|███████████████████████████████████████▏     | 662/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.mlp.linear_fc2.bias]Loading weights:  87%|█████████████████████████████████████▌     | 663/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.mlp.linear_fc2.weight]Loading weights:  87%|█████████████████████████████████████▌     | 663/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.mlp.linear_fc2.weight]Loading weights:  87%|███████████████████████████████████████████████▏      | 664/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.norm1.bias]Loading weights:  87%|███████████████████████████████████████████████▏      | 664/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.norm1.bias]Loading weights:  88%|█████████████████████████████████████████████▌      | 665/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.norm1.weight]Loading weights:  88%|█████████████████████████████████████████████▌      | 665/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.norm1.weight]Loading weights:  88%|███████████████████████████████████████████████▎      | 666/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.norm2.bias]Loading weights:  88%|███████████████████████████████████████████████▎      | 666/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.norm2.bias]Loading weights:  88%|█████████████████████████████████████████████▋      | 667/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.norm2.weight]Loading weights:  88%|█████████████████████████████████████████████▋      | 667/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.19.norm2.weight]Loading weights:  88%|███████████████████████████████████████████▉      | 668/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.attn.proj.bias]Loading weights:  88%|███████████████████████████████████████████▉      | 668/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.attn.proj.bias]Loading weights:  88%|██████████████████████████████████████████▎     | 669/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.attn.proj.weight]Loading weights:  88%|██████████████████████████████████████████▎     | 669/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.attn.proj.weight]Loading weights:  88%|████████████████████████████████████████████▉      | 670/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.attn.qkv.bias]Loading weights:  88%|████████████████████████████████████████████▉      | 670/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.attn.qkv.bias]Loading weights:  88%|███████████████████████████████████████████▎     | 671/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.attn.qkv.weight]Loading weights:  88%|███████████████████████████████████████████▎     | 671/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.attn.qkv.weight]Loading weights:  88%|███████████████████████████████████████▊     | 672/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.mlp.linear_fc1.bias]Loading weights:  88%|███████████████████████████████████████▊     | 672/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.mlp.linear_fc1.bias]Loading weights:  89%|██████████████████████████████████████     | 673/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.mlp.linear_fc1.weight]Loading weights:  89%|██████████████████████████████████████     | 673/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.mlp.linear_fc1.weight]Loading weights:  89%|███████████████████████████████████████▉     | 674/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.mlp.linear_fc2.bias]Loading weights:  89%|███████████████████████████████████████▉     | 674/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.mlp.linear_fc2.bias]Loading weights:  89%|██████████████████████████████████████▏    | 675/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.mlp.linear_fc2.weight]Loading weights:  89%|██████████████████████████████████████▏    | 675/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.mlp.linear_fc2.weight]Loading weights:  89%|████████████████████████████████████████████████      | 676/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.norm1.bias]Loading weights:  89%|████████████████████████████████████████████████      | 676/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.norm1.bias]Loading weights:  89%|██████████████████████████████████████████████▎     | 677/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.norm1.weight]Loading weights:  89%|██████████████████████████████████████████████▎     | 677/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.norm1.weight]Loading weights:  89%|████████████████████████████████████████████████▏     | 678/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.norm2.bias]Loading weights:  89%|████████████████████████████████████████████████▏     | 678/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.norm2.bias]Loading weights:  89%|██████████████████████████████████████████████▍     | 679/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.norm2.weight]Loading weights:  89%|██████████████████████████████████████████████▍     | 679/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.20.norm2.weight]Loading weights:  89%|████████████████████████████████████████████▋     | 680/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.attn.proj.bias]Loading weights:  89%|████████████████████████████████████████████▋     | 680/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.attn.proj.bias]Loading weights:  90%|███████████████████████████████████████████     | 681/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.attn.proj.weight]Loading weights:  90%|███████████████████████████████████████████     | 681/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.attn.proj.weight]Loading weights:  90%|█████████████████████████████████████████████▊     | 682/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.attn.qkv.bias]Loading weights:  90%|█████████████████████████████████████████████▊     | 682/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.attn.qkv.bias]Loading weights:  90%|████████████████████████████████████████████     | 683/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.attn.qkv.weight]Loading weights:  90%|████████████████████████████████████████████     | 683/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.attn.qkv.weight]Loading weights:  90%|████████████████████████████████████████▌    | 684/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.mlp.linear_fc1.bias]Loading weights:  90%|████████████████████████████████████████▌    | 684/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.mlp.linear_fc1.bias]Loading weights:  90%|██████████████████████████████████████▊    | 685/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.mlp.linear_fc1.weight]Loading weights:  90%|██████████████████████████████████████▊    | 685/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.mlp.linear_fc1.weight]Loading weights:  90%|████████████████████████████████████████▌    | 686/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.mlp.linear_fc2.bias]Loading weights:  90%|████████████████████████████████████████▌    | 686/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.mlp.linear_fc2.bias]Loading weights:  90%|██████████████████████████████████████▊    | 687/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.mlp.linear_fc2.weight]Loading weights:  90%|██████████████████████████████████████▊    | 687/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.mlp.linear_fc2.weight]Loading weights:  91%|████████████████████████████████████████████████▉     | 688/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.norm1.bias]Loading weights:  91%|████████████████████████████████████████████████▉     | 688/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.norm1.bias]Loading weights:  91%|███████████████████████████████████████████████▏    | 689/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.norm1.weight]Loading weights:  91%|███████████████████████████████████████████████▏    | 689/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.norm1.weight]Loading weights:  91%|█████████████████████████████████████████████████     | 690/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.norm2.bias]Loading weights:  91%|█████████████████████████████████████████████████     | 690/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.norm2.bias]Loading weights:  91%|███████████████████████████████████████████████▎    | 691/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.norm2.weight]Loading weights:  91%|███████████████████████████████████████████████▎    | 691/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.21.norm2.weight]Loading weights:  91%|█████████████████████████████████████████████▌    | 692/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.attn.proj.bias]Loading weights:  91%|█████████████████████████████████████████████▌    | 692/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.attn.proj.bias]Loading weights:  91%|███████████████████████████████████████████▊    | 693/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.attn.proj.weight]Loading weights:  91%|███████████████████████████████████████████▊    | 693/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.attn.proj.weight]Loading weights:  91%|██████████████████████████████████████████████▌    | 694/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.attn.qkv.bias]Loading weights:  91%|██████████████████████████████████████████████▌    | 694/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.attn.qkv.bias]Loading weights:  91%|████████████████████████████████████████████▊    | 695/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.attn.qkv.weight]Loading weights:  91%|████████████████████████████████████████████▊    | 695/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.attn.qkv.weight]Loading weights:  92%|█████████████████████████████████████████▏   | 696/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.mlp.linear_fc1.bias]Loading weights:  92%|█████████████████████████████████████████▏   | 696/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.mlp.linear_fc1.bias]Loading weights:  92%|███████████████████████████████████████▍   | 697/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.mlp.linear_fc1.weight]Loading weights:  92%|███████████████████████████████████████▍   | 697/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.mlp.linear_fc1.weight]Loading weights:  92%|█████████████████████████████████████████▎   | 698/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.mlp.linear_fc2.bias]Loading weights:  92%|█████████████████████████████████████████▎   | 698/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.mlp.linear_fc2.bias]Loading weights:  92%|███████████████████████████████████████▌   | 699/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.mlp.linear_fc2.weight]Loading weights:  92%|███████████████████████████████████████▌   | 699/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.mlp.linear_fc2.weight]Loading weights:  92%|█████████████████████████████████████████████████▋    | 700/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.norm1.bias]Loading weights:  92%|█████████████████████████████████████████████████▋    | 700/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.norm1.bias]Loading weights:  92%|███████████████████████████████████████████████▉    | 701/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.norm1.weight]Loading weights:  92%|███████████████████████████████████████████████▉    | 701/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.norm1.weight]Loading weights:  92%|█████████████████████████████████████████████████▉    | 702/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.norm2.bias]Loading weights:  92%|█████████████████████████████████████████████████▉    | 702/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.norm2.bias]Loading weights:  92%|████████████████████████████████████████████████    | 703/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.norm2.weight]Loading weights:  92%|████████████████████████████████████████████████    | 703/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.22.norm2.weight]Loading weights:  93%|██████████████████████████████████████████████▎   | 704/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.attn.proj.bias]Loading weights:  93%|██████████████████████████████████████████████▎   | 704/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.attn.proj.bias]Loading weights:  93%|████████████████████████████████████████████▌   | 705/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.attn.proj.weight]Loading weights:  93%|████████████████████████████████████████████▌   | 705/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.attn.proj.weight]Loading weights:  93%|███████████████████████████████████████████████▍   | 706/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.attn.qkv.bias]Loading weights:  93%|███████████████████████████████████████████████▍   | 706/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.attn.qkv.bias]Loading weights:  93%|█████████████████████████████████████████████▌   | 707/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.attn.qkv.weight]Loading weights:  93%|█████████████████████████████████████████████▌   | 707/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.attn.qkv.weight]Loading weights:  93%|█████████████████████████████████████████▉   | 708/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.mlp.linear_fc1.bias]Loading weights:  93%|█████████████████████████████████████████▉   | 708/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.mlp.linear_fc1.bias]Loading weights:  93%|████████████████████████████████████████   | 709/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.mlp.linear_fc1.weight]Loading weights:  93%|████████████████████████████████████████   | 709/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.mlp.linear_fc1.weight]Loading weights:  93%|██████████████████████████████████████████   | 710/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.mlp.linear_fc2.bias]Loading weights:  93%|██████████████████████████████████████████   | 710/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.mlp.linear_fc2.bias]Loading weights:  94%|████████████████████████████████████████▏  | 711/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.mlp.linear_fc2.weight]Loading weights:  94%|████████████████████████████████████████▏  | 711/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.mlp.linear_fc2.weight]Loading weights:  94%|██████████████████████████████████████████████████▌   | 712/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.norm1.bias]Loading weights:  94%|██████████████████████████████████████████████████▌   | 712/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.norm1.bias]Loading weights:  94%|████████████████████████████████████████████████▊   | 713/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.norm1.weight]Loading weights:  94%|████████████████████████████████████████████████▊   | 713/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.norm1.weight]Loading weights:  94%|██████████████████████████████████████████████████▋   | 714/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.norm2.bias]Loading weights:  94%|██████████████████████████████████████████████████▋   | 714/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.norm2.bias]Loading weights:  94%|████████████████████████████████████████████████▉   | 715/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.norm2.weight]Loading weights:  94%|████████████████████████████████████████████████▉   | 715/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.23.norm2.weight]Loading weights:  94%|███████████████████████████████████████████████   | 716/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.attn.proj.bias]Loading weights:  94%|███████████████████████████████████████████████   | 716/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.attn.proj.bias]Loading weights:  94%|█████████████████████████████████████████████▎  | 717/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.attn.proj.weight]Loading weights:  94%|█████████████████████████████████████████████▎  | 717/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.attn.proj.weight]Loading weights:  94%|████████████████████████████████████████████████▏  | 718/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.attn.qkv.bias]Loading weights:  94%|████████████████████████████████████████████████▏  | 718/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.attn.qkv.bias]Loading weights:  95%|██████████████████████████████████████████████▎  | 719/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.attn.qkv.weight]Loading weights:  95%|██████████████████████████████████████████████▎  | 719/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.attn.qkv.weight]Loading weights:  95%|██████████████████████████████████████████▋  | 720/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.mlp.linear_fc1.bias]Loading weights:  95%|██████████████████████████████████████████▋  | 720/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.mlp.linear_fc1.bias]Loading weights:  95%|████████████████████████████████████████▊  | 721/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.mlp.linear_fc1.weight]Loading weights:  95%|████████████████████████████████████████▊  | 721/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.mlp.linear_fc1.weight]Loading weights:  95%|██████████████████████████████████████████▊  | 722/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.mlp.linear_fc2.bias]Loading weights:  95%|██████████████████████████████████████████▊  | 722/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.mlp.linear_fc2.bias]Loading weights:  95%|████████████████████████████████████████▉  | 723/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.mlp.linear_fc2.weight]Loading weights:  95%|████████████████████████████████████████▉  | 723/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.mlp.linear_fc2.weight]Loading weights:  95%|███████████████████████████████████████████████████▍  | 724/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.norm1.bias]Loading weights:  95%|███████████████████████████████████████████████████▍  | 724/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.norm1.bias]Loading weights:  95%|█████████████████████████████████████████████████▌  | 725/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.norm1.weight]Loading weights:  95%|█████████████████████████████████████████████████▌  | 725/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.norm1.weight]Loading weights:  96%|███████████████████████████████████████████████████▌  | 726/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.norm2.bias]Loading weights:  96%|███████████████████████████████████████████████████▌  | 726/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.norm2.bias]Loading weights:  96%|█████████████████████████████████████████████████▋  | 727/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.norm2.weight]Loading weights:  96%|█████████████████████████████████████████████████▋  | 727/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.24.norm2.weight]Loading weights:  96%|███████████████████████████████████████████████▉  | 728/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.attn.proj.bias]Loading weights:  96%|███████████████████████████████████████████████▉  | 728/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.attn.proj.bias]Loading weights:  96%|██████████████████████████████████████████████  | 729/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.attn.proj.weight]Loading weights:  96%|██████████████████████████████████████████████  | 729/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.attn.proj.weight]Loading weights:  96%|████████████████████████████████████████████████▉  | 730/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.attn.qkv.bias]Loading weights:  96%|████████████████████████████████████████████████▉  | 730/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.attn.qkv.bias]Loading weights:  96%|███████████████████████████████████████████████▏ | 731/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.attn.qkv.weight]Loading weights:  96%|███████████████████████████████████████████████▏ | 731/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.attn.qkv.weight]Loading weights:  96%|███████████████████████████████████████████▎ | 732/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.mlp.linear_fc1.bias]Loading weights:  96%|███████████████████████████████████████████▎ | 732/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.mlp.linear_fc1.bias]Loading weights:  96%|█████████████████████████████████████████▍ | 733/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.mlp.linear_fc1.weight]Loading weights:  96%|█████████████████████████████████████████▍ | 733/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.mlp.linear_fc1.weight]Loading weights:  97%|███████████████████████████████████████████▍ | 734/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.mlp.linear_fc2.bias]Loading weights:  97%|███████████████████████████████████████████▍ | 734/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.mlp.linear_fc2.bias]Loading weights:  97%|█████████████████████████████████████████▌ | 735/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.mlp.linear_fc2.weight]Loading weights:  97%|█████████████████████████████████████████▌ | 735/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.mlp.linear_fc2.weight]Loading weights:  97%|████████████████████████████████████████████████████▎ | 736/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.norm1.bias]Loading weights:  97%|████████████████████████████████████████████████████▎ | 736/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.norm1.bias]Loading weights:  97%|██████████████████████████████████████████████████▍ | 737/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.norm1.weight]Loading weights:  97%|██████████████████████████████████████████████████▍ | 737/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.norm1.weight]Loading weights:  97%|████████████████████████████████████████████████████▍ | 738/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.norm2.bias]Loading weights:  97%|████████████████████████████████████████████████████▍ | 738/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.norm2.bias]Loading weights:  97%|██████████████████████████████████████████████████▌ | 739/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.norm2.weight]Loading weights:  97%|██████████████████████████████████████████████████▌ | 739/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.25.norm2.weight]Loading weights:  97%|████████████████████████████████████████████████▋ | 740/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.attn.proj.bias]Loading weights:  97%|████████████████████████████████████████████████▋ | 740/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.attn.proj.bias]Loading weights:  98%|██████████████████████████████████████████████▊ | 741/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.attn.proj.weight]Loading weights:  98%|██████████████████████████████████████████████▊ | 741/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.attn.proj.weight]Loading weights:  98%|█████████████████████████████████████████████████▊ | 742/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.attn.qkv.bias]Loading weights:  98%|█████████████████████████████████████████████████▊ | 742/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.attn.qkv.bias]Loading weights:  98%|███████████████████████████████████████████████▉ | 743/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.attn.qkv.weight]Loading weights:  98%|███████████████████████████████████████████████▉ | 743/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.attn.qkv.weight]Loading weights:  98%|████████████████████████████████████████████ | 744/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.mlp.linear_fc1.bias]Loading weights:  98%|████████████████████████████████████████████ | 744/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.mlp.linear_fc1.bias]Loading weights:  98%|██████████████████████████████████████████▏| 745/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.mlp.linear_fc1.weight]Loading weights:  98%|██████████████████████████████████████████▏| 745/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.mlp.linear_fc1.weight]Loading weights:  98%|████████████████████████████████████████████▏| 746/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.mlp.linear_fc2.bias]Loading weights:  98%|████████████████████████████████████████████▏| 746/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.mlp.linear_fc2.bias]Loading weights:  98%|██████████████████████████████████████████▎| 747/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.mlp.linear_fc2.weight]Loading weights:  98%|██████████████████████████████████████████▎| 747/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.mlp.linear_fc2.weight]Loading weights:  98%|█████████████████████████████████████████████████████▏| 748/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.norm1.bias]Loading weights:  98%|█████████████████████████████████████████████████████▏| 748/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.norm1.bias]Loading weights:  99%|███████████████████████████████████████████████████▏| 749/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.norm1.weight]Loading weights:  99%|███████████████████████████████████████████████████▏| 749/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.norm1.weight]Loading weights:  99%|█████████████████████████████████████████████████████▎| 750/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.norm2.bias]Loading weights:  99%|█████████████████████████████████████████████████████▎| 750/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.norm2.bias]Loading weights:  99%|███████████████████████████████████████████████████▍| 751/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.norm2.weight]Loading weights:  99%|███████████████████████████████████████████████████▍| 751/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.blocks.26.norm2.weight]Loading weights:  99%|███████████████████████████████████████████████████▍| 752/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.merger.linear_fc1.bias]Loading weights:  99%|███████████████████████████████████████████████████▍| 752/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.merger.linear_fc1.bias]Loading weights:  99%|█████████████████████████████████████████████████▌| 753/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.merger.linear_fc1.weight]Loading weights:  99%|█████████████████████████████████████████████████▌| 753/760 [00:04<00:00, 592.16it/s, Materializing param=model.visual.merger.linear_fc1.weight]Loading weights:  99%|█████████████████████████████████████████████████▌| 754/760 [00:04<00:00, 695.55it/s, Materializing param=model.visual.merger.linear_fc1.weight]Loading weights:  99%|███████████████████████████████████████████████████▌| 754/760 [00:04<00:00, 695.55it/s, Materializing param=model.visual.merger.linear_fc2.bias]Loading weights:  99%|███████████████████████████████████████████████████▌| 754/760 [00:04<00:00, 695.55it/s, Materializing param=model.visual.merger.linear_fc2.bias]Loading weights:  99%|█████████████████████████████████████████████████▋| 755/760 [00:04<00:00, 695.55it/s, Materializing param=model.visual.merger.linear_fc2.weight]Loading weights:  99%|█████████████████████████████████████████████████▋| 755/760 [00:04<00:00, 695.55it/s, Materializing param=model.visual.merger.linear_fc2.weight]Loading weights:  99%|█████████████████████████████████████████████████████████▋| 756/760 [00:04<00:00, 695.55it/s, Materializing param=model.visual.merger.norm.bias]Loading weights:  99%|█████████████████████████████████████████████████████████▋| 756/760 [00:04<00:00, 695.55it/s, Materializing param=model.visual.merger.norm.bias]Loading weights: 100%|███████████████████████████████████████████████████████▊| 757/760 [00:04<00:00, 695.55it/s, Materializing param=model.visual.merger.norm.weight]Loading weights: 100%|███████████████████████████████████████████████████████▊| 757/760 [00:04<00:00, 695.55it/s, Materializing param=model.visual.merger.norm.weight]Loading weights: 100%|████████████████████████████████████████████████████▊| 758/760 [00:04<00:00, 695.55it/s, Materializing param=model.visual.patch_embed.proj.bias]Loading weights: 100%|████████████████████████████████████████████████████▊| 758/760 [00:04<00:00, 695.55it/s, Materializing param=model.visual.patch_embed.proj.bias]Loading weights: 100%|██████████████████████████████████████████████████▉| 759/760 [00:04<00:00, 695.55it/s, Materializing param=model.visual.patch_embed.proj.weight]Loading weights: 100%|██████████████████████████████████████████████████▉| 759/760 [00:04<00:00, 695.55it/s, Materializing param=model.visual.patch_embed.proj.weight]Loading weights: 100%|██████████████████████████████████████████████████████████| 760/760 [00:04<00:00, 695.55it/s, Materializing param=model.visual.pos_embed.weight]Loading weights: 100%|██████████████████████████████████████████████████████████| 760/760 [00:04<00:00, 695.55it/s, Materializing param=model.visual.pos_embed.weight]Loading weights: 100%|██████████████████████████████████████████████████████████| 760/760 [00:04<00:00, 153.25it/s, Materializing param=model.visual.pos_embed.weight]
Unsloth: Making `model.base_model.model.model.language_model` require gradients
    Unsloth bf16 LoRA loaded
    SDPA backends: flash=True, mem_efficient=True, math=True
    TF32 + cuDNN benchmark enabled (Ampere optimization)
    torch.compile disabled (breaks SFTTrainer, Unsloth kernels sufficient)

  Loading datasets...
    GSM8K: 7473 math
    MBPP: 374 code
    ARC: 1119 science
    MMLU: 2000 knowledge
    MATH failed: Dataset 'hendrycks/competition_math' doesn't exist on the Hub or cannot be accessed.
    HumanEval: 164 hard code
    BoolQ: 1000 reasoning
    Total: 12130 | Train: 9704 | Test: 2426
    [HOLDOUT] Reserved 120 — never trained on
    Prompt prefix cached: 19 tokens
    [RESUME] Restoring state from: td_state (auto-save)
    [RESUME] Thompson beliefs: 6427 entries
    [RESUME] Few-shot bank: 1371 examples
    [RESUME] Strategy map: 0 entries
    [RESUME] Training step count: 0
    [RESUME] Trained count: 0
    [RESUME] Replay buffer: 1058 items from td_state
    Baseline: 21.3% | M:30 C:0 S:15 K:3
    CLEAN HOLDOUT: 8.3%
    [RESUME] Restored: cycle=9, epoch=450, trained=0, eval_hist=26 entries, buffer=1058, stage=1, code_level=1.33

============================================================
  TRAINING — Stage 1
============================================================

      Gen code: ~54.1s for 29 problems
      Gen knowledge: ~14.9s for 8 problems
      Gen science: ~14.9s for 8 problems
      Gen math: ~14.9s for 8 problems
    🎯 BREAKTHROUGH: First hard code solve!
    [DAPO] Low signal: only 9/53 problems had mixed results
Unsloth: Sample packing skipped (vision-language model detected).
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Unsloth: Tokenizing ["text"] (num_proc=32):   0%|                                                                                     | 0/1023 [00:00<?, ? examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   3%|██▍                                                                         | 32/1023 [00:06<03:30,  4.70 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   6%|████▊                                                                       | 64/1023 [00:07<01:31, 10.47 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   9%|███████▏                                                                    | 96/1023 [00:07<00:53, 17.34 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  13%|█████████▍                                                                 | 128/1023 [00:08<00:35, 25.05 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  16%|███████████▋                                                               | 160/1023 [00:08<00:25, 33.28 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  19%|██████████████                                                             | 192/1023 [00:08<00:19, 41.74 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  22%|████████████████▍                                                          | 224/1023 [00:09<00:16, 49.21 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  25%|██████████████████▊                                                        | 256/1023 [00:09<00:13, 56.25 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  28%|█████████████████████                                                      | 288/1023 [00:10<00:12, 60.73 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  31%|███████████████████████▍                                                   | 320/1023 [00:10<00:10, 66.93 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  34%|█████████████████████████▊                                                 | 352/1023 [00:10<00:09, 70.66 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  38%|████████████████████████████▏                                              | 384/1023 [00:11<00:08, 72.98 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  41%|██████████████████████████████▍                                            | 416/1023 [00:11<00:08, 75.20 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  44%|████████████████████████████████▊                                          | 448/1023 [00:12<00:07, 76.29 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  47%|███████████████████████████████████▏                                       | 480/1023 [00:12<00:06, 77.83 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  50%|█████████████████████████████████████▌                                     | 512/1023 [00:12<00:06, 78.60 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  53%|███████████████████████████████████████▉                                   | 544/1023 [00:13<00:06, 78.64 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  56%|██████████████████████████████████████████▏                                | 576/1023 [00:13<00:05, 78.64 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  59%|████████████████████████████████████████████▌                              | 608/1023 [00:14<00:05, 79.81 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  63%|██████████████████████████████████████████████▉                            | 640/1023 [00:14<00:04, 81.88 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  66%|█████████████████████████████████████████████████▎                         | 672/1023 [00:14<00:04, 81.45 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  69%|███████████████████████████████████████████████████▌                       | 704/1023 [00:15<00:03, 81.22 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  72%|█████████████████████████████████████████████████████▉                     | 736/1023 [00:15<00:03, 82.22 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  75%|████████████████████████████████████████████████████████▎                  | 768/1023 [00:15<00:03, 84.45 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  78%|██████████████████████████████████████████████████████████▋                | 800/1023 [00:16<00:02, 82.74 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  81%|████████████████████████████████████████████████████████████▉              | 832/1023 [00:16<00:02, 81.91 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  84%|███████████████████████████████████████████████████████████████▎           | 864/1023 [00:17<00:01, 81.71 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  91%|███████████████████████████████████████████████████████████████████▏      | 928/1023 [00:17<00:00, 107.41 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  94%|█████████████████████████████████████████████████████████████████████▍    | 960/1023 [00:17<00:00, 104.33 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  97%|███████████████████████████████████████████████████████████████████████▊  | 992/1023 [00:18<00:00, 106.49 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|█████████████████████████████████████████████████████████████████████████| 1023/1023 [00:18<00:00, 108.17 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████| 1023/1023 [00:19<00:00, 52.19 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Map (num_proc=32):   0%|                                                                                                              | 0/1023 [00:00<?, ? examples/s]Map (num_proc=32):   3%|███▏                                                                                                 | 32/1023 [00:05<02:36,  6.33 examples/s]Map (num_proc=32):  16%|███████████████▋                                                                                    | 160/1023 [00:05<00:21, 40.97 examples/s]Map (num_proc=32):  28%|████████████████████████████▏                                                                       | 288/1023 [00:05<00:08, 87.33 examples/s]Map (num_proc=32):  69%|████████████████████████████████████████████████████████████████████▏                              | 704/1023 [00:05<00:01, 292.74 examples/s]Map (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 1023/1023 [00:06<00:00, 153.73 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Filter (num_proc=32):   0%|                                                                                                           | 0/1023 [00:00<?, ? examples/s]Filter (num_proc=32):   3%|███                                                                                               | 32/1023 [00:05<02:37,  6.29 examples/s]Filter (num_proc=32):  25%|████████████████████████▎                                                                        | 256/1023 [00:05<00:11, 67.21 examples/s]Filter (num_proc=32):  44%|██████████████████████████████████████████                                                      | 448/1023 [00:05<00:04, 136.55 examples/s]Filter (num_proc=32): 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 1023/1023 [00:06<00:00, 157.97 examples/s]
Unsloth: Removed 301 out of 1023 samples from train_dataset where all labels were -100 (no response found after truncation). This prevents NaN loss during training.
The tokenizer has new PAD/BOS/EOS tokens that differ from the model config and generation config. The model config and generation config were aligned accordingly, being updated with the tokenizer's values. Updated tokens: {'eos_token_id': 248046}.
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 722 | Num Epochs = 1 | Total steps = 15
O^O/ \_/ \    Batch size per device = 4 | Gradient accumulation steps = 8
\        /    Data Parallel GPUs = 1 | Total batch size (4 x 8 x 1) = 32
 "-____-"     Trainable parameters = 232,783,872 of 9,642,597,616 (2.41% trained)
  0%|                                                                                                                                          | 0/15 [00:00<?, ?it/s]  7%|████████▋                                                                                                                         | 1/15 [00:28<06:35, 28.24s/it] 13%|█████████████████▎                                                                                                                | 2/15 [00:45<04:45, 21.98s/it] 20%|██████████████████████████                                                                                                        | 3/15 [01:05<04:09, 20.77s/it] 27%|██████████████████████████████████▋                                                                                               | 4/15 [01:28<04:01, 21.91s/it] 33%|███████████████████████████████████████████▎                                                                                      | 5/15 [01:49<03:35, 21.55s/it] 40%|████████████████████████████████████████████████████                                                                              | 6/15 [02:10<03:10, 21.20s/it] 47%|████████████████████████████████████████████████████████████▋                                                                     | 7/15 [02:32<02:52, 21.52s/it] 53%|█████████████████████████████████████████████████████████████████████▎                                                            | 8/15 [02:55<02:33, 21.91s/it] 60%|██████████████████████████████████████████████████████████████████████████████                                                    | 9/15 [03:17<02:11, 21.94s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████                                           | 10/15 [03:39<01:50, 22.03s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 11/15 [04:02<01:28, 22.22s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 12/15 [04:24<01:07, 22.42s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 13/15 [04:47<00:45, 22.59s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 14/15 [05:09<00:22, 22.14s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15/15 [05:29<00:00, 21.50s/it]                                                                                                                                                                      {'train_runtime': '331.9', 'train_samples_per_second': '1.446', 'train_steps_per_second': '0.045', 'train_loss': '1.066', 'epoch': '0.663'}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15/15 [05:31<00:00, 21.50s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15/15 [05:31<00:00, 22.12s/it]
    ⚠ [WEIGHT DIFF] Near-zero weight change (0.00e+00) — training may be stuck
      Gen code: ~18.4s for 29 problems
      Gen knowledge: ~5.1s for 8 problems
      Gen science: ~5.1s for 8 problems
      Gen math: ~5.1s for 8 problems
    [DAPO] Low signal: only 11/53 problems had mixed results
A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.
      Gen code: ~20.4s for 29 problems
      Gen knowledge: ~5.6s for 8 problems
      Gen math: ~5.6s for 8 problems
    [DAPO] Low signal: only 3/45 problems had mixed results
      Gen code: ~37.6s for 29 problems
      Gen knowledge: ~10.4s for 8 problems
      Gen science: ~10.4s for 8 problems
      Gen math: ~10.4s for 8 problems
    [DAPO] Low signal: only 8/53 problems had mixed results
      Gen code: ~17.9s for 29 problems
      Gen science: ~4.9s for 8 problems
      Gen knowledge: ~4.9s for 8 problems
      Gen math: ~4.9s for 8 problems
    [DAPO] Low signal: only 5/53 problems had mixed results
  [T+0.7h] S1 E455 C9 | Acc: 23.3% | M:31 C:33 S:0 K:3 | Hold: 0.0% | Code: 1.35x | 55.0 prob/s | LR: 0.0e+00
    [WARN] Collapse detected — restoring best
      Gen code: ~20.2s for 29 problems
      Gen knowledge: ~5.6s for 8 problems
      Gen science: ~5.6s for 8 problems
      Gen math: ~5.6s for 8 problems
    [DAPO] Low signal: only 5/53 problems had mixed results
      Gen code: ~17.3s for 29 problems
      Gen knowledge: ~4.8s for 8 problems
      Gen science: ~4.8s for 8 problems
      Gen math: ~4.8s for 8 problems
    [DAPO] Low signal: only 9/53 problems had mixed results
      Gen code: ~53.2s for 29 problems
      Gen science: ~14.7s for 8 problems
      Gen knowledge: ~14.7s for 8 problems
      Gen math: ~14.7s for 8 problems
    [DAPO] Low signal: only 6/53 problems had mixed results
      Gen code: ~21.4s for 29 problems
      Gen knowledge: ~5.9s for 8 problems
      Gen math: ~5.9s for 8 problems
    [DAPO] Low signal: only 4/45 problems had mixed results
    [REFRESH] Injected 50 original examples (forgetting protection)
    [LADDER] Decomposed hard problem → 3 easier variants
    [THOMPSON] 5469/6815 problems at frontier. Skipping 709 impossible.

  Cycle 10 | Stage 1 | Code: 1.35x | Buffer: 1152 | VRAM: 20.2/51GB (40%)
    ETA: 71.3h remaining | ~1003 more cycles | 14.1 cycles/hr
    [CHECKPOINT] Saved cycle 10 checkpoint (buffer=1152)
    [CYCLE EVAL] Accuracy: 15.3%
      Gen code: ~257.4s for 29 problems
      Gen knowledge: ~71.0s for 8 problems
      Gen math: ~71.0s for 8 problems
    [DAPO] Low signal: only 6/45 problems had mixed results
  [T+1.5h] S1 E460 C10 | Acc: 14.7% | M:24 C:12 S:0 K:2 | Hold: 8.3% | Code: 1.36x | 27.4 prob/s | LR: 0.0e+00
      Gen code: ~34.3s for 29 problems
      Gen knowledge: ~9.4s for 8 problems
      Gen science: ~9.4s for 8 problems
      Gen math: ~9.4s for 8 problems
    [DAPO] Low signal: only 7/53 problems had mixed results
Unsloth: Sample packing skipped (vision-language model detected).
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Unsloth: Tokenizing ["text"] (num_proc=32):   0%|                                                                                      | 0/679 [00:00<?, ? examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   3%|██▍                                                                          | 22/679 [00:11<05:52,  1.86 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   6%|████▉                                                                        | 44/679 [00:12<02:28,  4.27 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  13%|█████████▉                                                                   | 88/679 [00:12<00:55, 10.74 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  16%|████████████▎                                                               | 110/679 [00:13<00:39, 14.27 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  19%|██████████████▊                                                             | 132/679 [00:13<00:29, 18.36 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  23%|█████████████████▏                                                          | 154/679 [00:13<00:22, 23.14 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  26%|███████████████████▌                                                        | 175/679 [00:14<00:18, 27.77 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  29%|█████████████████████▉                                                      | 196/679 [00:15<00:17, 27.51 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  32%|████████████████████████▎                                                   | 217/679 [00:15<00:14, 31.91 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  35%|██████████████████████████▋                                                 | 238/679 [00:15<00:12, 36.07 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  38%|████████████████████████████▉                                               | 259/679 [00:16<00:10, 39.54 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  41%|███████████████████████████████▎                                            | 280/679 [00:16<00:09, 41.13 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  47%|████████████████████████████████████                                        | 322/679 [00:17<00:06, 56.38 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  51%|██████████████████████████████████████▍                                     | 343/679 [00:17<00:06, 55.64 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  54%|████████████████████████████████████████▋                                   | 364/679 [00:17<00:05, 55.03 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  57%|███████████████████████████████████████████                                 | 385/679 [00:18<00:05, 54.43 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  60%|█████████████████████████████████████████████▍                              | 406/679 [00:18<00:05, 52.52 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  63%|███████████████████████████████████████████████▊                            | 427/679 [00:19<00:04, 52.50 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  66%|██████████████████████████████████████████████████▏                         | 448/679 [00:19<00:04, 53.49 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  69%|████████████████████████████████████████████████████▍                       | 469/679 [00:19<00:03, 54.98 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  72%|██████████████████████████████████████████████████████▊                     | 490/679 [00:20<00:04, 42.16 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  75%|█████████████████████████████████████████████████████████▏                  | 511/679 [00:21<00:03, 43.95 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  81%|█████████████████████████████████████████████████████████████▉              | 553/679 [00:21<00:02, 58.19 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  85%|████████████████████████████████████████████████████████████████▏           | 574/679 [00:22<00:01, 55.75 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  88%|██████████████████████████████████████████████████████████████████▌         | 595/679 [00:22<00:01, 54.01 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  91%|████████████████████████████████████████████████████████████████████▉       | 616/679 [00:22<00:01, 56.14 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  94%|███████████████████████████████████████████████████████████████████████▎    | 637/679 [00:23<00:00, 59.86 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  97%|█████████████████████████████████████████████████████████████████████████▋  | 658/679 [00:23<00:00, 62.66 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 679/679 [00:23<00:00, 65.78 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 679/679 [00:26<00:00, 25.97 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Map (num_proc=32):   0%|                                                                                                               | 0/679 [00:00<?, ? examples/s]Map (num_proc=32):   3%|███▎                                                                                                  | 22/679 [00:09<04:50,  2.26 examples/s]Map (num_proc=32):  16%|████████████████▎                                                                                    | 110/679 [00:09<00:38, 14.88 examples/s]Map (num_proc=32):  38%|██████████████████████████████████████▌                                                              | 259/679 [00:09<00:09, 44.39 examples/s]Map (num_proc=32):  81%|█████████████████████████████████████████████████████████████████████████████████▍                  | 553/679 [00:10<00:01, 124.99 examples/s]Map (num_proc=32): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 679/679 [00:12<00:00, 53.64 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Filter (num_proc=32):   0%|                                                                                                            | 0/679 [00:00<?, ? examples/s]Filter (num_proc=32):   3%|███▏                                                                                               | 22/679 [00:09<04:51,  2.25 examples/s]Filter (num_proc=32):  29%|████████████████████████████▎                                                                     | 196/679 [00:09<00:17, 27.22 examples/s]Filter (num_proc=32):  60%|██████████████████████████████████████████████████████████▌                                       | 406/679 [00:09<00:03, 68.92 examples/s]Filter (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 679/679 [00:12<00:00, 53.95 examples/s]
Unsloth: Removed 186 out of 679 samples from train_dataset where all labels were -100 (no response found after truncation). This prevents NaN loss during training.
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 493 | Num Epochs = 1 | Total steps = 10
O^O/ \_/ \    Batch size per device = 4 | Gradient accumulation steps = 8
\        /    Data Parallel GPUs = 1 | Total batch size (4 x 8 x 1) = 32
 "-____-"     Trainable parameters = 232,783,872 of 9,642,597,616 (2.41% trained)
  0%|                                                                                                                                          | 0/10 [00:00<?, ?it/s] 10%|█████████████                                                                                                                     | 1/10 [00:18<02:46, 18.46s/it] 20%|██████████████████████████                                                                                                        | 2/10 [00:36<02:24, 18.01s/it] 30%|███████████████████████████████████████                                                                                           | 3/10 [00:53<02:05, 17.86s/it] 40%|████████████████████████████████████████████████████                                                                              | 4/10 [01:11<01:47, 17.96s/it] 50%|█████████████████████████████████████████████████████████████████                                                                 | 5/10 [01:32<01:33, 18.72s/it] 60%|██████████████████████████████████████████████████████████████████████████████                                                    | 6/10 [01:49<01:13, 18.44s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████                                       | 7/10 [02:06<00:53, 17.90s/it] 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████                          | 8/10 [02:24<00:35, 17.73s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 9/10 [02:42<00:17, 17.87s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [02:59<00:00, 17.82s/it]                                                                                                                                                                      {'train_runtime': '182.5', 'train_samples_per_second': '1.754', 'train_steps_per_second': '0.055', 'train_loss': '1.042', 'epoch': '0.6452'}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:02<00:00, 17.82s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [03:02<00:00, 18.25s/it]
      Gen code: ~18.0s for 29 problems
      Gen science: ~5.0s for 8 problems
      Gen knowledge: ~5.0s for 8 problems
      Gen math: ~5.0s for 8 problems
    [DAPO] Low signal: only 8/53 problems had mixed results
      Gen code: ~53.4s for 29 problems
      Gen knowledge: ~14.7s for 8 problems
      Gen math: ~14.7s for 8 problems
    [DAPO] Low signal: only 4/45 problems had mixed results
      Gen code: ~16.7s for 29 problems
      Gen math: ~4.6s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~17.2s for 29 problems
      Gen math: ~4.7s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
  [T+1.9h] S1 E465 C10 | Acc: 16.0% | M:18 C:33 S:13 K:6 | Hold: 0.0% | Code: 1.39x | 21.4 prob/s | LR: 2.0e-05
    [WARN] Collapse detected — restoring best
      Gen code: ~28.0s for 29 problems
      Gen knowledge: ~7.7s for 8 problems
      Gen math: ~7.7s for 8 problems
    [DAPO] Low signal: only 2/45 problems had mixed results
      Gen code: ~22.3s for 29 problems
      Gen knowledge: ~6.1s for 8 problems
      Gen math: ~6.1s for 8 problems
    [DAPO] Low signal: only 4/45 problems had mixed results
      Gen code: ~55.0s for 29 problems
      Gen knowledge: ~15.2s for 8 problems
      Gen math: ~15.2s for 8 problems
    [DAPO] Low signal: only 4/45 problems had mixed results
      Gen code: ~38.0s for 29 problems
      Gen math: ~10.5s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
    [LADDER] Decomposed hard problem → 3 easier variants

  Cycle 11 | Stage 1 | Code: 1.39x | Buffer: 1192 | VRAM: 20.2/51GB (40%)
    ETA: 70.1h remaining | ~411 more cycles | 5.9 cycles/hr
    [CHECKPOINT] Saved cycle 11 checkpoint (buffer=1192)
      Gen code: ~49.3s for 29 problems
      Gen knowledge: ~13.6s for 8 problems
      Gen science: ~13.6s for 8 problems
      Gen math: ~13.6s for 8 problems
    [DAPO] Low signal: only 4/53 problems had mixed results
      Gen code: ~16.7s for 29 problems
      Gen math: ~4.6s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
Unsloth: Sample packing skipped (vision-language model detected).
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Unsloth: Tokenizing ["text"] (num_proc=32):   0%|                                                                                      | 0/865 [00:00<?, ? examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   3%|██▍                                                                          | 28/865 [00:11<05:46,  2.41 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   9%|███████▎                                                                     | 82/865 [00:12<01:31,  8.57 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  13%|█████████▌                                                                  | 109/865 [00:12<01:01, 12.30 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  16%|███████████▉                                                                | 136/865 [00:12<00:43, 16.81 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  19%|██████████████▎                                                             | 163/865 [00:13<00:34, 20.21 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  22%|████████████████▋                                                           | 190/865 [00:14<00:26, 25.74 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  28%|█████████████████████▍                                                      | 244/865 [00:14<00:15, 41.10 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  31%|███████████████████████▊                                                    | 271/865 [00:14<00:13, 45.05 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  34%|██████████████████████████▏                                                 | 298/865 [00:15<00:11, 49.55 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  38%|████████████████████████████▌                                               | 325/865 [00:15<00:09, 54.03 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  41%|██████████████████████████████▉                                             | 352/865 [00:16<00:08, 57.46 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  44%|█████████████████████████████████▎                                          | 379/865 [00:16<00:08, 58.63 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  47%|███████████████████████████████████▋                                        | 406/865 [00:16<00:07, 60.67 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  50%|██████████████████████████████████████                                      | 433/865 [00:17<00:07, 61.67 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  53%|████████████████████████████████████████▍                                   | 460/865 [00:17<00:06, 64.24 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  56%|██████████████████████████████████████████▊                                 | 487/865 [00:18<00:05, 65.55 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  59%|█████████████████████████████████████████████▏                              | 514/865 [00:18<00:05, 67.95 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  63%|███████████████████████████████████████████████▌                            | 541/865 [00:18<00:04, 67.95 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  66%|█████████████████████████████████████████████████▉                          | 568/865 [00:19<00:05, 53.78 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  72%|██████████████████████████████████████████████████████▋                     | 622/865 [00:20<00:03, 71.57 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  75%|█████████████████████████████████████████████████████████                   | 649/865 [00:20<00:03, 71.01 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  78%|███████████████████████████████████████████████████████████▍                | 676/865 [00:20<00:02, 70.77 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  81%|█████████████████████████████████████████████████████████████▊              | 703/865 [00:21<00:02, 55.56 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  88%|██████████████████████████████████████████████████████████████████▌         | 757/865 [00:22<00:01, 74.17 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  91%|████████████████████████████████████████████████████████████████████▉       | 784/865 [00:22<00:01, 74.63 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  94%|███████████████████████████████████████████████████████████████████████▎    | 811/865 [00:22<00:00, 79.37 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  97%|█████████████████████████████████████████████████████████████████████████▋  | 838/865 [00:22<00:00, 79.46 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 865/865 [00:23<00:00, 83.66 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 865/865 [00:25<00:00, 33.58 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Map (num_proc=32):   0%|                                                                                                               | 0/865 [00:00<?, ? examples/s]Map (num_proc=32):   3%|███▎                                                                                                  | 28/865 [00:09<04:50,  2.88 examples/s]Map (num_proc=32):  13%|████████████▋                                                                                        | 109/865 [00:09<00:52, 14.46 examples/s]Map (num_proc=32):  28%|████████████████████████████▍                                                                        | 244/865 [00:09<00:15, 41.24 examples/s]Map (num_proc=32):  53%|█████████████████████████████████████████████████████▏                                              | 460/865 [00:10<00:04, 100.23 examples/s]Map (num_proc=32): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 865/865 [00:12<00:00, 68.68 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Filter (num_proc=32):   0%|                                                                                                            | 0/865 [00:00<?, ? examples/s]Filter (num_proc=32):   3%|███▏                                                                                               | 28/865 [00:09<04:52,  2.87 examples/s]Filter (num_proc=32):  13%|████████████▎                                                                                     | 109/865 [00:09<00:52, 14.49 examples/s]Filter (num_proc=32):  28%|███████████████████████████▋                                                                      | 244/865 [00:09<00:15, 41.31 examples/s]Filter (num_proc=32):  91%|███████████████████████████████████████████████████████████████████████████████████████▉         | 784/865 [00:10<00:00, 190.35 examples/s]Filter (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 865/865 [00:12<00:00, 68.27 examples/s]
Unsloth: Removed 187 out of 865 samples from train_dataset where all labels were -100 (no response found after truncation). This prevents NaN loss during training.
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 678 | Num Epochs = 1 | Total steps = 13
O^O/ \_/ \    Batch size per device = 4 | Gradient accumulation steps = 8
\        /    Data Parallel GPUs = 1 | Total batch size (4 x 8 x 1) = 32
 "-____-"     Trainable parameters = 232,783,872 of 9,642,597,616 (2.41% trained)
  0%|                                                                                                                                          | 0/13 [00:00<?, ?it/s]  8%|██████████                                                                                                                        | 1/13 [00:17<03:32, 17.69s/it] 15%|████████████████████                                                                                                              | 2/13 [00:34<03:09, 17.27s/it] 23%|██████████████████████████████                                                                                                    | 3/13 [00:51<02:51, 17.19s/it] 31%|████████████████████████████████████████                                                                                          | 4/13 [01:08<02:33, 17.01s/it] 38%|██████████████████████████████████████████████████                                                                                | 5/13 [01:25<02:15, 16.92s/it] 46%|████████████████████████████████████████████████████████████                                                                      | 6/13 [01:42<01:58, 16.93s/it] 54%|██████████████████████████████████████████████████████████████████████                                                            | 7/13 [01:58<01:40, 16.81s/it] 62%|████████████████████████████████████████████████████████████████████████████████                                                  | 8/13 [02:16<01:25, 17.08s/it] 69%|██████████████████████████████████████████████████████████████████████████████████████████                                        | 9/13 [02:33<01:08, 17.12s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 10/13 [02:50<00:51, 17.03s/it] 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 11/13 [03:07<00:33, 16.94s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 12/13 [03:24<00:17, 17.02s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 13/13 [03:41<00:00, 17.17s/it]                                                                                                                                                                      {'train_runtime': '224.4', 'train_samples_per_second': '1.854', 'train_steps_per_second': '0.058', 'train_loss': '0.7805', 'epoch': '0.6118'}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 13/13 [03:44<00:00, 17.17s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 13/13 [03:44<00:00, 17.26s/it]
num_proc must be <= 18. Reducing num_proc to 18 for dataset of size 18.
[datasets.arrow_dataset|WARNING]num_proc must be <= 18. Reducing num_proc to 18 for dataset of size 18.
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Extracting prompt in train dataset (num_proc=18):   0%|                                                                                 | 0/18 [00:00<?, ? examples/s]Extracting prompt in train dataset (num_proc=18):   6%|████                                                                     | 1/18 [00:05<01:35,  5.63s/ examples]Extracting prompt in train dataset (num_proc=18):  83%|████████████████████████████████████████████████████████████            | 15/18 [00:05<00:00,  3.63 examples/s]Extracting prompt in train dataset (num_proc=18): 100%|████████████████████████████████████████████████████████████████████████| 18/18 [00:07<00:00,  2.46 examples/s]
num_proc must be <= 18. Reducing num_proc to 18 for dataset of size 18.
[datasets.arrow_dataset|WARNING]num_proc must be <= 18. Reducing num_proc to 18 for dataset of size 18.
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Applying chat template to train dataset (num_proc=18):   0%|                                                                            | 0/18 [00:00<?, ? examples/s]Applying chat template to train dataset (num_proc=18):   6%|███▊                                                                | 1/18 [00:07<02:07,  7.49s/ examples]Applying chat template to train dataset (num_proc=18):  17%|███████████▎                                                        | 3/18 [00:07<00:31,  2.10s/ examples]Applying chat template to train dataset (num_proc=18):  22%|███████████████                                                     | 4/18 [00:08<00:22,  1.62s/ examples]Applying chat template to train dataset (num_proc=18):  33%|██████████████████████▋                                             | 6/18 [00:09<00:11,  1.09 examples/s]Applying chat template to train dataset (num_proc=18):  39%|██████████████████████████▍                                         | 7/18 [00:09<00:09,  1.14 examples/s]Applying chat template to train dataset (num_proc=18):  44%|██████████████████████████████▏                                     | 8/18 [00:10<00:07,  1.34 examples/s]Applying chat template to train dataset (num_proc=18):  56%|█████████████████████████████████████▏                             | 10/18 [00:10<00:04,  1.99 examples/s]Applying chat template to train dataset (num_proc=18):  61%|████████████████████████████████████████▉                          | 11/18 [00:11<00:04,  1.69 examples/s]Applying chat template to train dataset (num_proc=18):  72%|████████████████████████████████████████████████▍                  | 13/18 [00:11<00:02,  2.30 examples/s]Applying chat template to train dataset (num_proc=18):  78%|████████████████████████████████████████████████████               | 14/18 [00:12<00:01,  2.39 examples/s]Applying chat template to train dataset (num_proc=18):  83%|███████████████████████████████████████████████████████▊           | 15/18 [00:12<00:01,  2.48 examples/s]Applying chat template to train dataset (num_proc=18):  89%|███████████████████████████████████████████████████████████▌       | 16/18 [00:12<00:00,  2.71 examples/s]Applying chat template to train dataset (num_proc=18):  94%|███████████████████████████████████████████████████████████████▎   | 17/18 [00:13<00:00,  2.86 examples/s]Applying chat template to train dataset (num_proc=18): 100%|███████████████████████████████████████████████████████████████████| 18/18 [00:13<00:00,  2.98 examples/s]Applying chat template to train dataset (num_proc=18): 100%|███████████████████████████████████████████████████████████████████| 18/18 [00:15<00:00,  1.19 examples/s]
num_proc must be <= 18. Reducing num_proc to 18 for dataset of size 18.
[datasets.arrow_dataset|WARNING]num_proc must be <= 18. Reducing num_proc to 18 for dataset of size 18.
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Tokenizing train dataset (num_proc=18):   0%|                                                                                           | 0/18 [00:00<?, ? examples/s]Tokenizing train dataset (num_proc=18):   0%|                                                                                           | 0/18 [00:07<?, ? examples/s]Tokenizing train dataset (num_proc=18):   0%|                                                                                           | 0/18 [00:07<?, ? examples/s]Tokenizing train dataset (num_proc=18):   0%|                                                                                           | 0/18 [00:08<?, ? examples/s]Tokenizing train dataset (num_proc=18):   0%|                                                                                           | 0/18 [00:08<?, ? examples/s]Tokenizing train dataset (num_proc=18):   0%|                                                                                           | 0/18 [00:09<?, ? examples/s]Tokenizing train dataset (num_proc=18):   0%|                                                                                           | 0/18 [00:09<?, ? examples/s]Tokenizing train dataset (num_proc=18):   0%|                                                                                           | 0/18 [00:10<?, ? examples/s]Tokenizing train dataset (num_proc=18):   0%|                                                                                           | 0/18 [00:10<?, ? examples/s]Tokenizing train dataset (num_proc=18):   0%|                                                                                           | 0/18 [00:11<?, ? examples/s]Tokenizing train dataset (num_proc=18):   0%|                                                                                           | 0/18 [00:11<?, ? examples/s]Tokenizing train dataset (num_proc=18):   0%|                                                                                           | 0/18 [00:12<?, ? examples/s]Tokenizing train dataset (num_proc=18):   0%|                                                                                           | 0/18 [00:12<?, ? examples/s]Tokenizing train dataset (num_proc=18):   0%|                                                                                           | 0/18 [00:12<?, ? examples/s]Tokenizing train dataset (num_proc=18):   0%|                                                                                           | 0/18 [00:13<?, ? examples/s]Tokenizing train dataset (num_proc=18):   0%|                                                                                           | 0/18 [00:13<?, ? examples/s]Tokenizing train dataset (num_proc=18):   0%|                                                                                           | 0/18 [00:15<?, ? examples/s]
      Gen code: ~42.1s for 29 problems
      Gen knowledge: ~11.6s for 8 problems
      Gen math: ~11.6s for 8 problems
    [DAPO] Low signal: only 5/45 problems had mixed results
      Gen code: ~17.7s for 29 problems
      Gen math: ~4.9s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~19.2s for 29 problems
      Gen math: ~5.3s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~18.3s for 29 problems
      Gen math: ~5.1s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
      Gen code: ~43.4s for 29 problems
      Gen math: ~12.0s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~19.1s for 29 problems
      Gen math: ~5.3s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~19.6s for 29 problems
      Gen knowledge: ~5.4s for 8 problems
      Gen science: ~5.4s for 8 problems
      Gen math: ~5.4s for 8 problems
    [DAPO] Low signal: only 6/53 problems had mixed results
      Gen code: ~32.6s for 29 problems
      Gen math: ~9.0s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
    [SELF-CHALLENGE] Generated 5 new problems (code+math)
    [LADDER] Decomposed hard problem → 3 easier variants

  Cycle 12 | Stage 1 | Code: 1.39x | Buffer: 1229 | VRAM: 22.1/51GB (43%)
    ETA: 69.2h remaining | ~299 more cycles | 4.3 cycles/hr
    [CHECKPOINT] Saved cycle 12 checkpoint (buffer=1229)
    [CYCLE EVAL] Accuracy: 14.0%
      Gen code: ~376.4s for 29 problems
      Gen math: ~103.8s for 8 problems
    [DAPO] Low signal: only 2/37 problems had mixed results
      Gen code: ~21.3s for 29 problems
      Gen math: ~5.9s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
Unsloth: Sample packing skipped (vision-language model detected).
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Unsloth: Tokenizing ["text"] (num_proc=32):   0%|                                                                                      | 0/882 [00:00<?, ? examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   3%|██▍                                                                          | 28/882 [00:11<05:51,  2.43 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   6%|████▉                                                                        | 56/882 [00:11<02:27,  5.60 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  10%|███████▎                                                                     | 84/882 [00:12<01:22,  9.65 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  13%|█████████▋                                                                  | 112/882 [00:12<00:52, 14.65 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  16%|████████████                                                                | 140/882 [00:13<00:36, 20.49 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  19%|██████████████▍                                                             | 168/882 [00:13<00:26, 26.90 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  22%|████████████████▉                                                           | 196/882 [00:14<00:20, 32.81 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  25%|███████████████████▎                                                        | 224/882 [00:14<00:16, 40.63 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  29%|█████████████████████▋                                                      | 252/882 [00:14<00:13, 46.45 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  32%|████████████████████████▏                                                   | 280/882 [00:15<00:11, 51.99 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  35%|██████████████████████████▌                                                 | 308/882 [00:15<00:10, 56.26 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  38%|████████████████████████████▉                                               | 336/882 [00:15<00:09, 60.24 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  41%|███████████████████████████████▎                                            | 364/882 [00:16<00:08, 63.77 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  44%|█████████████████████████████████▊                                          | 392/882 [00:16<00:07, 66.71 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  48%|████████████████████████████████████▏                                       | 420/882 [00:17<00:07, 65.93 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  51%|██████████████████████████████████████▌                                     | 448/882 [00:17<00:06, 66.80 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  54%|█████████████████████████████████████████                                   | 476/882 [00:17<00:06, 67.18 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  57%|███████████████████████████████████████████▍                                | 504/882 [00:18<00:05, 68.51 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  60%|█████████████████████████████████████████████▊                              | 531/882 [00:18<00:05, 68.95 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  63%|████████████████████████████████████████████████                            | 558/882 [00:19<00:04, 69.69 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  66%|██████████████████████████████████████████████████▍                         | 585/882 [00:19<00:04, 67.79 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  69%|████████████████████████████████████████████████████▋                       | 612/882 [00:19<00:04, 67.31 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  72%|███████████████████████████████████████████████████████                     | 639/882 [00:20<00:03, 69.50 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  76%|█████████████████████████████████████████████████████████▍                  | 666/882 [00:20<00:03, 70.08 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  79%|███████████████████████████████████████████████████████████▋                | 693/882 [00:21<00:02, 69.64 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  82%|██████████████████████████████████████████████████████████████              | 720/882 [00:21<00:02, 69.75 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  85%|████████████████████████████████████████████████████████████████▎           | 747/882 [00:21<00:01, 70.56 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  88%|██████████████████████████████████████████████████████████████████▋         | 774/882 [00:22<00:01, 69.80 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  91%|█████████████████████████████████████████████████████████████████████       | 801/882 [00:22<00:01, 74.86 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  94%|███████████████████████████████████████████████████████████████████████▎    | 828/882 [00:22<00:00, 76.63 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  97%|█████████████████████████████████████████████████████████████████████████▋  | 855/882 [00:23<00:00, 77.76 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 882/882 [00:23<00:00, 80.46 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 882/882 [00:26<00:00, 33.81 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Map (num_proc=32):   0%|                                                                                                               | 0/882 [00:00<?, ? examples/s]Map (num_proc=32):   3%|███▏                                                                                                  | 28/882 [00:09<05:03,  2.81 examples/s]Map (num_proc=32):  16%|████████████████                                                                                     | 140/882 [00:10<00:40, 18.41 examples/s]Map (num_proc=32):  35%|███████████████████████████████████▎                                                                 | 308/882 [00:10<00:11, 50.97 examples/s]Map (num_proc=32):  97%|████████████████████████████████████████████████████████████████████████████████████████████████▉   | 855/882 [00:10<00:00, 198.18 examples/s]Map (num_proc=32): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 882/882 [00:12<00:00, 69.27 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Filter (num_proc=32):   0%|                                                                                                            | 0/882 [00:00<?, ? examples/s]Filter (num_proc=32):   3%|███▏                                                                                               | 28/882 [00:09<05:03,  2.82 examples/s]Filter (num_proc=32):  25%|████████████████████████▉                                                                         | 224/882 [00:10<00:21, 30.37 examples/s]Filter (num_proc=32):  54%|████████████████████████████████████████████████████▉                                             | 476/882 [00:10<00:05, 79.43 examples/s]Filter (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 882/882 [00:12<00:00, 69.58 examples/s]
Unsloth: Removed 194 out of 882 samples from train_dataset where all labels were -100 (no response found after truncation). This prevents NaN loss during training.
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 688 | Num Epochs = 1 | Total steps = 13
O^O/ \_/ \    Batch size per device = 4 | Gradient accumulation steps = 8
\        /    Data Parallel GPUs = 1 | Total batch size (4 x 8 x 1) = 32
 "-____-"     Trainable parameters = 232,783,872 of 9,642,597,616 (2.41% trained)
  0%|                                                                                                                                          | 0/13 [00:00<?, ?it/s]  8%|██████████                                                                                                                        | 1/13 [00:17<03:34, 17.84s/it] 15%|████████████████████                                                                                                              | 2/13 [00:35<03:14, 17.69s/it] 23%|██████████████████████████████                                                                                                    | 3/13 [00:52<02:55, 17.54s/it] 31%|████████████████████████████████████████                                                                                          | 4/13 [01:09<02:35, 17.23s/it] 38%|██████████████████████████████████████████████████                                                                                | 5/13 [01:26<02:17, 17.23s/it] 46%|████████████████████████████████████████████████████████████                                                                      | 6/13 [01:44<02:00, 17.26s/it] 54%|██████████████████████████████████████████████████████████████████████                                                            | 7/13 [02:01<01:43, 17.22s/it] 62%|████████████████████████████████████████████████████████████████████████████████                                                  | 8/13 [02:18<01:26, 17.32s/it] 69%|██████████████████████████████████████████████████████████████████████████████████████████                                        | 9/13 [02:35<01:08, 17.19s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 10/13 [02:53<00:52, 17.46s/it] 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 11/13 [03:10<00:34, 17.29s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 12/13 [03:27<00:17, 17.23s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 13/13 [03:44<00:00, 17.04s/it]                                                                                                                                                                      {'train_runtime': '226.9', 'train_samples_per_second': '1.833', 'train_steps_per_second': '0.057', 'train_loss': '0.6396', 'epoch': '0.6047'}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 13/13 [03:46<00:00, 17.04s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 13/13 [03:46<00:00, 17.45s/it]
      Gen code: ~24.5s for 29 problems
      Gen knowledge: ~6.7s for 8 problems
      Gen math: ~6.7s for 8 problems
    [DAPO] Low signal: only 2/45 problems had mixed results
      Gen code: ~19.9s for 29 problems
      Gen math: ~5.5s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~40.2s for 29 problems
      Gen science: ~11.1s for 8 problems
      Gen math: ~11.1s for 8 problems
    [DAPO] Low signal: only 7/45 problems had mixed results
      Gen code: ~17.5s for 29 problems
      Gen math: ~4.8s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~35.5s for 29 problems
      Gen math: ~9.8s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
      Gen code: ~40.2s for 29 problems
      Gen math: ~11.1s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
      Gen code: ~17.8s for 29 problems
      Gen math: ~4.9s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~36.0s for 29 problems
      Gen math: ~9.9s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
    [LADDER] Decomposed hard problem → 3 easier variants

  Cycle 13 | Stage 1 | Code: 1.39x | Buffer: 1258 | VRAM: 22.1/51GB (43%)
    ETA: 68.2h remaining | ~230 more cycles | 3.4 cycles/hr
    [CHECKPOINT] Saved cycle 13 checkpoint (buffer=1258)
      Gen code: ~70.6s for 29 problems
      Gen knowledge: ~19.5s for 8 problems
      Gen math: ~19.5s for 8 problems
    [DAPO] Low signal: only 0/45 problems had mixed results
      Gen code: ~35.3s for 29 problems
      Gen math: ~9.7s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
Unsloth: Sample packing skipped (vision-language model detected).
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Unsloth: Tokenizing ["text"] (num_proc=32):   0%|                                                                                      | 0/910 [00:00<?, ? examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   3%|██▍                                                                          | 29/910 [00:11<05:46,  2.54 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   6%|████▉                                                                        | 58/910 [00:11<02:24,  5.88 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  10%|███████▎                                                                     | 87/910 [00:12<01:21, 10.13 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  13%|█████████▋                                                                  | 116/910 [00:12<00:51, 15.40 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  16%|████████████                                                                | 145/910 [00:12<00:35, 21.67 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  19%|██████████████▌                                                             | 174/910 [00:13<00:26, 28.06 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  22%|████████████████▉                                                           | 203/910 [00:13<00:20, 35.13 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  25%|███████████████████▍                                                        | 232/910 [00:14<00:16, 42.20 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  29%|█████████████████████▊                                                      | 261/910 [00:14<00:13, 48.78 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  32%|████████████████████████▏                                                   | 290/910 [00:14<00:11, 54.21 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  35%|██████████████████████████▋                                                 | 319/910 [00:15<00:09, 59.85 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  38%|█████████████████████████████                                               | 348/910 [00:15<00:08, 63.74 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  41%|███████████████████████████████▍                                            | 377/910 [00:16<00:08, 66.20 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  45%|█████████████████████████████████▉                                          | 406/910 [00:16<00:07, 68.50 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  48%|████████████████████████████████████▏                                       | 434/910 [00:16<00:06, 69.64 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  51%|██████████████████████████████████████▌                                     | 462/910 [00:17<00:06, 70.70 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  54%|████████████████████████████████████████▉                                   | 490/910 [00:17<00:06, 69.94 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  57%|███████████████████████████████████████████▎                                | 518/910 [00:18<00:05, 71.00 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  60%|█████████████████████████████████████████████▌                              | 546/910 [00:18<00:05, 69.75 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  63%|███████████████████████████████████████████████▉                            | 574/910 [00:18<00:04, 70.18 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  66%|██████████████████████████████████████████████████▎                         | 602/910 [00:19<00:04, 70.75 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  69%|████████████████████████████████████████████████████▌                       | 630/910 [00:19<00:03, 72.75 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  72%|██████████████████████████████████████████████████████▉                     | 658/910 [00:20<00:03, 72.86 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  75%|█████████████████████████████████████████████████████████▎                  | 686/910 [00:20<00:03, 70.73 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  78%|███████████████████████████████████████████████████████████▋                | 714/910 [00:20<00:02, 70.72 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  82%|█████████████████████████████████████████████████████████████▉              | 742/910 [00:21<00:02, 70.79 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  85%|████████████████████████████████████████████████████████████████▎           | 770/910 [00:21<00:01, 71.04 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  88%|██████████████████████████████████████████████████████████████████▋         | 798/910 [00:22<00:01, 71.21 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  91%|████████████████████████████████████████████████████████████████████▉       | 826/910 [00:22<00:01, 75.62 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  94%|███████████████████████████████████████████████████████████████████████▎    | 854/910 [00:22<00:00, 79.31 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  97%|█████████████████████████████████████████████████████████████████████████▋  | 882/910 [00:22<00:00, 81.47 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 910/910 [00:23<00:00, 81.28 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 910/910 [00:25<00:00, 35.11 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Map (num_proc=32):   0%|                                                                                                               | 0/910 [00:00<?, ? examples/s]Map (num_proc=32):   3%|███▎                                                                                                  | 29/910 [00:09<05:02,  2.91 examples/s]Map (num_proc=32):  19%|███████████████████▎                                                                                 | 174/910 [00:10<00:31, 23.04 examples/s]Map (num_proc=32):  45%|█████████████████████████████████████████████                                                        | 406/910 [00:10<00:07, 67.87 examples/s]Map (num_proc=32):  97%|████████████████████████████████████████████████████████████████████████████████████████████████▉   | 882/910 [00:10<00:00, 194.85 examples/s]Map (num_proc=32): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 910/910 [00:12<00:00, 71.24 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Filter (num_proc=32):   0%|                                                                                                            | 0/910 [00:00<?, ? examples/s]Filter (num_proc=32):   3%|███▏                                                                                               | 29/910 [00:09<05:02,  2.91 examples/s]Filter (num_proc=32):  22%|█████████████████████▊                                                                            | 203/910 [00:10<00:25, 27.49 examples/s]Filter (num_proc=32):  41%|████████████████████████████████████████▌                                                         | 377/910 [00:10<00:08, 61.12 examples/s]Filter (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 910/910 [00:12<00:00, 71.75 examples/s]
Unsloth: Removed 195 out of 910 samples from train_dataset where all labels were -100 (no response found after truncation). This prevents NaN loss during training.
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 715 | Num Epochs = 1 | Total steps = 14
O^O/ \_/ \    Batch size per device = 4 | Gradient accumulation steps = 8
\        /    Data Parallel GPUs = 1 | Total batch size (4 x 8 x 1) = 32
 "-____-"     Trainable parameters = 232,783,872 of 9,642,597,616 (2.41% trained)
  0%|                                                                                                                                          | 0/14 [00:00<?, ?it/s]  7%|█████████▎                                                                                                                        | 1/14 [00:17<03:48, 17.61s/it] 14%|██████████████████▌                                                                                                               | 2/14 [00:34<03:26, 17.21s/it] 21%|███████████████████████████▊                                                                                                      | 3/14 [00:51<03:06, 16.97s/it] 29%|█████████████████████████████████████▏                                                                                            | 4/14 [01:07<02:48, 16.81s/it] 36%|██████████████████████████████████████████████▍                                                                                   | 5/14 [01:24<02:31, 16.86s/it] 43%|███████████████████████████████████████████████████████▋                                                                          | 6/14 [01:42<02:16, 17.06s/it] 50%|█████████████████████████████████████████████████████████████████                                                                 | 7/14 [01:58<01:58, 16.91s/it] 57%|██████████████████████████████████████████████████████████████████████████▎                                                       | 8/14 [02:16<01:42, 17.08s/it] 64%|███████████████████████████████████████████████████████████████████████████████████▌                                              | 9/14 [02:33<01:25, 17.17s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 10/14 [02:51<01:09, 17.33s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 11/14 [03:08<00:52, 17.44s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 12/14 [03:25<00:34, 17.23s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 13/14 [03:43<00:17, 17.27s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [04:00<00:00, 17.19s/it]                                                                                                                                                                      {'train_runtime': '242.6', 'train_samples_per_second': '1.847', 'train_steps_per_second': '0.058', 'train_loss': '0.5595', 'epoch': '0.6257'}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [04:02<00:00, 17.19s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [04:02<00:00, 17.33s/it]
      Gen code: ~33.9s for 29 problems
      Gen math: ~9.4s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~17.3s for 29 problems
      Gen math: ~4.8s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~18.9s for 29 problems
      Gen science: ~5.2s for 8 problems
      Gen math: ~5.2s for 8 problems
    [DAPO] Low signal: only 2/45 problems had mixed results
      Gen code: ~18.1s for 29 problems
      Gen math: ~5.0s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~42.0s for 29 problems
      Gen math: ~11.6s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~20.0s for 29 problems
      Gen knowledge: ~5.5s for 8 problems
      Gen math: ~5.5s for 8 problems
    [DAPO] Low signal: only 1/45 problems had mixed results
      Gen code: ~28.9s for 29 problems
      Gen knowledge: ~8.0s for 8 problems
      Gen math: ~8.0s for 8 problems
    [DAPO] Low signal: only 3/45 problems had mixed results
      Gen code: ~43.5s for 29 problems
      Gen math: ~12.0s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
    [LADDER] Decomposed hard problem → 3 easier variants

  Cycle 14 | Stage 1 | Code: 1.39x | Buffer: 1296 | VRAM: 22.1/51GB (43%)
    ETA: 67.1h remaining | ~193 more cycles | 2.9 cycles/hr
    [CHECKPOINT] Saved cycle 14 checkpoint (buffer=1296)
    [CYCLE EVAL] Accuracy: 12.7%
      Gen code: ~173.8s for 29 problems
      Gen knowledge: ~47.9s for 8 problems
      Gen science: ~47.9s for 8 problems
      Gen math: ~47.9s for 8 problems
    [DAPO] Low signal: only 7/53 problems had mixed results
    [TIMING] Epoch 500: 1495.9s total | Gen: 317.6s | Verify+Train: 1178.2s
  [T+5.6h] S1 E500 C14 | Acc: 10.7% | M:12 C:0 S:24 K:0 | Hold: 17.5% | Code: 1.39x | 8.0 prob/s | LR: 2.0e-05
    [WARN] Collapse detected — restoring best
      Gen code: ~40.3s for 29 problems
      Gen math: ~11.1s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
Unsloth: Sample packing skipped (vision-language model detected).
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Unsloth: Tokenizing ["text"] (num_proc=32):   0%|                                                                                      | 0/894 [00:00<?, ? examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   3%|██▍                                                                          | 28/894 [00:11<05:56,  2.43 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   6%|████▊                                                                        | 56/894 [00:11<02:28,  5.63 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   9%|███████▏                                                                     | 84/894 [00:12<01:23,  9.75 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  13%|█████████▌                                                                  | 112/894 [00:12<00:52, 14.76 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  16%|███████████▉                                                                | 140/894 [00:13<00:36, 20.73 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  19%|██████████████▎                                                             | 168/894 [00:13<00:26, 27.60 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  22%|████████████████▋                                                           | 196/894 [00:13<00:20, 34.40 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  25%|███████████████████                                                         | 224/894 [00:14<00:19, 34.66 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  31%|███████████████████████▊                                                    | 280/894 [00:15<00:11, 54.20 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  34%|██████████████████████████▏                                                 | 308/894 [00:15<00:10, 58.23 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  38%|████████████████████████████▌                                               | 336/894 [00:15<00:09, 61.43 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  41%|██████████████████████████████▉                                             | 364/894 [00:16<00:08, 64.37 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  44%|█████████████████████████████████▎                                          | 392/894 [00:16<00:07, 67.21 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  47%|███████████████████████████████████▋                                        | 420/894 [00:16<00:06, 68.90 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  50%|██████████████████████████████████████                                      | 448/894 [00:17<00:06, 70.57 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  53%|████████████████████████████████████████▍                                   | 476/894 [00:17<00:05, 71.53 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  56%|██████████████████████████████████████████▊                                 | 504/894 [00:18<00:05, 72.84 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  60%|█████████████████████████████████████████████▏                              | 532/894 [00:18<00:04, 73.14 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  63%|███████████████████████████████████████████████▌                            | 560/894 [00:18<00:04, 72.73 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  66%|█████████████████████████████████████████████████▉                          | 588/894 [00:19<00:04, 73.03 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  69%|████████████████████████████████████████████████████▎                       | 616/894 [00:19<00:03, 72.67 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  72%|██████████████████████████████████████████████████████▋                     | 644/894 [00:19<00:03, 72.65 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  75%|█████████████████████████████████████████████████████████▏                  | 672/894 [00:20<00:03, 73.75 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  78%|███████████████████████████████████████████████████████████▌                | 700/894 [00:20<00:02, 74.12 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  81%|█████████████████████████████████████████████████████████████▉              | 728/894 [00:21<00:02, 74.28 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  85%|████████████████████████████████████████████████████████████████▎           | 756/894 [00:21<00:01, 73.44 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  88%|██████████████████████████████████████████████████████████████████▋         | 784/894 [00:21<00:01, 74.41 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  91%|█████████████████████████████████████████████████████████████████████       | 812/894 [00:22<00:01, 76.78 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  94%|███████████████████████████████████████████████████████████████████████▍    | 840/894 [00:22<00:00, 81.16 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  97%|█████████████████████████████████████████████████████████████████████████▋  | 867/894 [00:22<00:00, 85.52 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 894/894 [00:23<00:00, 87.49 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 894/894 [00:25<00:00, 35.15 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Map (num_proc=32):   0%|                                                                                                               | 0/894 [00:00<?, ? examples/s]Map (num_proc=32):   3%|███▏                                                                                                  | 28/894 [00:09<05:08,  2.81 examples/s]Map (num_proc=32):   9%|█████████▌                                                                                            | 84/894 [00:10<01:15, 10.67 examples/s]Map (num_proc=32):  28%|████████████████████████████▍                                                                        | 252/894 [00:10<00:14, 43.47 examples/s]Map (num_proc=32):  60%|███████████████████████████████████████████████████████████▌                                        | 532/894 [00:10<00:03, 118.73 examples/s]Map (num_proc=32): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 894/894 [00:12<00:00, 69.95 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Filter (num_proc=32):   0%|                                                                                                            | 0/894 [00:00<?, ? examples/s]Filter (num_proc=32):   3%|███                                                                                                | 28/894 [00:09<05:09,  2.80 examples/s]Filter (num_proc=32):  22%|█████████████████████▍                                                                            | 196/894 [00:10<00:26, 26.40 examples/s]Filter (num_proc=32):  38%|████████████████████████████████████▊                                                             | 336/894 [00:10<00:10, 53.40 examples/s]Filter (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 894/894 [00:12<00:00, 69.75 examples/s]
Unsloth: Removed 194 out of 894 samples from train_dataset where all labels were -100 (no response found after truncation). This prevents NaN loss during training.
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 700 | Num Epochs = 1 | Total steps = 13
O^O/ \_/ \    Batch size per device = 4 | Gradient accumulation steps = 8
\        /    Data Parallel GPUs = 1 | Total batch size (4 x 8 x 1) = 32
 "-____-"     Trainable parameters = 232,783,872 of 9,642,597,616 (2.41% trained)
  0%|                                                                                                                                          | 0/13 [00:00<?, ?it/s]  8%|██████████                                                                                                                        | 1/13 [00:17<03:34, 17.85s/it] 15%|████████████████████                                                                                                              | 2/13 [00:34<03:09, 17.21s/it] 23%|██████████████████████████████                                                                                                    | 3/13 [00:51<02:49, 16.97s/it] 31%|████████████████████████████████████████                                                                                          | 4/13 [01:08<02:32, 16.96s/it] 38%|██████████████████████████████████████████████████                                                                                | 5/13 [01:24<02:14, 16.80s/it] 46%|████████████████████████████████████████████████████████████                                                                      | 6/13 [01:41<01:57, 16.75s/it] 54%|██████████████████████████████████████████████████████████████████████                                                            | 7/13 [01:58<01:40, 16.76s/it] 62%|████████████████████████████████████████████████████████████████████████████████                                                  | 8/13 [02:15<01:24, 16.88s/it] 69%|██████████████████████████████████████████████████████████████████████████████████████████                                        | 9/13 [02:31<01:07, 16.79s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 10/13 [02:48<00:50, 16.73s/it] 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 11/13 [03:05<00:33, 16.83s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 12/13 [03:22<00:16, 16.92s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 13/13 [03:39<00:00, 16.84s/it]                                                                                                                                                                      {'train_runtime': '221.8', 'train_samples_per_second': '1.876', 'train_steps_per_second': '0.059', 'train_loss': '0.5186', 'epoch': '0.5943'}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 13/13 [03:41<00:00, 16.84s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 13/13 [03:41<00:00, 17.06s/it]
A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.
      Gen code: ~17.2s for 29 problems
      Gen math: ~4.8s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~41.3s for 29 problems
      Gen math: ~11.4s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
      Gen code: ~18.0s for 29 problems
      Gen math: ~5.0s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~25.7s for 29 problems
      Gen math: ~7.1s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~28.2s for 29 problems
      Gen math: ~7.8s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
      Gen code: ~49.4s for 29 problems
      Gen science: ~13.6s for 8 problems
      Gen knowledge: ~13.6s for 8 problems
      Gen math: ~13.6s for 8 problems
    [DAPO] Low signal: only 8/53 problems had mixed results
      Gen code: ~51.0s for 29 problems
      Gen math: ~14.1s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~21.4s for 29 problems
      Gen math: ~5.9s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
    [LADDER] Decomposed hard problem → 2 easier variants

  Cycle 15 | Stage 1 | Code: 1.39x | Buffer: 1323 | VRAM: 22.1/51GB (43%)
    ETA: 66.1h remaining | ~168 more cycles | 2.5 cycles/hr
    [CHECKPOINT] Saved cycle 15 checkpoint (buffer=1323)
      Gen code: ~48.5s for 29 problems
      Gen math: ~13.4s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.
      Gen code: ~17.3s for 29 problems
      Gen math: ~4.8s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
Unsloth: Sample packing skipped (vision-language model detected).
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Unsloth: Tokenizing ["text"] (num_proc=32):   0%|                                                                                      | 0/948 [00:00<?, ? examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   3%|██▍                                                                          | 30/948 [00:11<05:53,  2.60 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   6%|████▊                                                                        | 60/948 [00:11<02:28,  6.00 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   9%|███████▎                                                                     | 90/948 [00:12<01:22, 10.35 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  13%|█████████▌                                                                  | 120/948 [00:12<00:52, 15.69 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  16%|████████████                                                                | 150/948 [00:13<00:36, 21.92 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  19%|██████████████▍                                                             | 180/948 [00:13<00:26, 28.92 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  22%|████████████████▊                                                           | 210/948 [00:13<00:20, 36.00 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  25%|███████████████████▏                                                        | 240/948 [00:14<00:16, 42.78 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  28%|█████████████████████▋                                                      | 270/948 [00:14<00:13, 49.52 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  32%|████████████████████████                                                    | 300/948 [00:15<00:11, 54.20 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  35%|██████████████████████████▍                                                 | 330/948 [00:15<00:10, 59.47 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  38%|████████████████████████████▊                                               | 360/948 [00:16<00:09, 64.34 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  41%|███████████████████████████████▎                                            | 390/948 [00:16<00:08, 67.21 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  44%|█████████████████████████████████▋                                          | 420/948 [00:16<00:07, 70.26 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  47%|████████████████████████████████████                                        | 450/948 [00:17<00:06, 71.94 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  51%|██████████████████████████████████████▍                                     | 480/948 [00:17<00:06, 74.02 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  54%|████████████████████████████████████████▉                                   | 510/948 [00:17<00:05, 75.30 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  57%|███████████████████████████████████████████▎                                | 540/948 [00:18<00:05, 74.77 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  60%|█████████████████████████████████████████████▋                              | 570/948 [00:18<00:05, 74.85 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  63%|████████████████████████████████████████████████                            | 600/948 [00:19<00:04, 75.62 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  66%|██████████████████████████████████████████████████▍                         | 629/948 [00:19<00:04, 75.04 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  69%|████████████████████████████████████████████████████▊                       | 658/948 [00:19<00:03, 75.60 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  72%|███████████████████████████████████████████████████████                     | 687/948 [00:20<00:03, 74.91 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  76%|█████████████████████████████████████████████████████████▍                  | 716/948 [00:20<00:03, 74.40 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  79%|███████████████████████████████████████████████████████████▋                | 745/948 [00:21<00:02, 73.53 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  82%|██████████████████████████████████████████████████████████████              | 774/948 [00:21<00:02, 71.02 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  85%|████████████████████████████████████████████████████████████████▍           | 803/948 [00:21<00:02, 72.23 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  88%|██████████████████████████████████████████████████████████████████▋         | 832/948 [00:22<00:01, 73.80 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  91%|█████████████████████████████████████████████████████████████████████       | 861/948 [00:22<00:01, 84.40 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  94%|███████████████████████████████████████████████████████████████████████▎    | 890/948 [00:22<00:00, 82.43 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  97%|█████████████████████████████████████████████████████████████████████████▋  | 919/948 [00:23<00:00, 83.02 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 948/948 [00:23<00:00, 84.78 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 948/948 [00:26<00:00, 36.27 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Map (num_proc=32):   0%|                                                                                                               | 0/948 [00:00<?, ? examples/s]Map (num_proc=32):   3%|███▏                                                                                                  | 30/948 [00:09<05:03,  3.02 examples/s]Map (num_proc=32):  16%|███████████████▉                                                                                     | 150/948 [00:10<00:40, 19.81 examples/s]Map (num_proc=32):  44%|████████████████████████████████████████████▋                                                        | 420/948 [00:10<00:07, 72.54 examples/s]Map (num_proc=32):  97%|████████████████████████████████████████████████████████████████████████████████████████████████▉   | 919/948 [00:10<00:00, 206.76 examples/s]Map (num_proc=32): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 948/948 [00:12<00:00, 73.76 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Filter (num_proc=32):   0%|                                                                                                            | 0/948 [00:00<?, ? examples/s]Filter (num_proc=32):   3%|███▏                                                                                               | 30/948 [00:10<05:06,  2.99 examples/s]Filter (num_proc=32):  25%|████████████████████████▊                                                                         | 240/948 [00:10<00:21, 32.28 examples/s]Filter (num_proc=32):  47%|██████████████████████████████████████████████▌                                                   | 450/948 [00:10<00:06, 72.71 examples/s]Filter (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 948/948 [00:13<00:00, 72.92 examples/s]
Unsloth: Removed 196 out of 948 samples from train_dataset where all labels were -100 (no response found after truncation). This prevents NaN loss during training.
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 752 | Num Epochs = 1 | Total steps = 14
O^O/ \_/ \    Batch size per device = 4 | Gradient accumulation steps = 8
\        /    Data Parallel GPUs = 1 | Total batch size (4 x 8 x 1) = 32
 "-____-"     Trainable parameters = 232,783,872 of 9,642,597,616 (2.41% trained)
  0%|                                                                                                                                          | 0/14 [00:00<?, ?it/s]  7%|█████████▎                                                                                                                        | 1/14 [00:17<03:51, 17.77s/it] 14%|██████████████████▌                                                                                                               | 2/14 [00:34<03:28, 17.39s/it] 21%|███████████████████████████▊                                                                                                      | 3/14 [00:52<03:10, 17.30s/it] 29%|█████████████████████████████████████▏                                                                                            | 4/14 [01:08<02:51, 17.10s/it] 36%|██████████████████████████████████████████████▍                                                                                   | 5/14 [01:26<02:35, 17.24s/it] 43%|███████████████████████████████████████████████████████▋                                                                          | 6/14 [01:43<02:16, 17.12s/it] 50%|█████████████████████████████████████████████████████████████████                                                                 | 7/14 [01:59<01:58, 16.92s/it] 57%|██████████████████████████████████████████████████████████████████████████▎                                                       | 8/14 [02:17<01:42, 17.07s/it] 64%|███████████████████████████████████████████████████████████████████████████████████▌                                              | 9/14 [02:35<01:26, 17.37s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 10/14 [02:53<01:10, 17.57s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 11/14 [03:09<00:51, 17.28s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 12/14 [03:27<00:34, 17.30s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 13/14 [03:45<00:17, 17.72s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [04:03<00:00, 17.74s/it]                                                                                                                                                                      {'train_runtime': '246.1', 'train_samples_per_second': '1.82', 'train_steps_per_second': '0.057', 'train_loss': '0.4868', 'epoch': '0.5957'}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [04:06<00:00, 17.74s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [04:06<00:00, 17.58s/it]
      Gen code: ~20.4s for 29 problems
      Gen math: ~5.6s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~33.4s for 29 problems
      Gen math: ~9.2s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
      Gen code: ~18.2s for 29 problems
      Gen math: ~5.0s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~17.6s for 29 problems
      Gen knowledge: ~4.8s for 8 problems
      Gen science: ~4.8s for 8 problems
      Gen math: ~4.8s for 8 problems
    [DAPO] Low signal: only 5/53 problems had mixed results
      Gen code: ~39.8s for 29 problems
      Gen knowledge: ~11.0s for 8 problems
      Gen math: ~11.0s for 8 problems
    [DAPO] Low signal: only 1/45 problems had mixed results
      Gen code: ~18.8s for 29 problems
      Gen math: ~5.2s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~20.0s for 29 problems
      Gen math: ~5.5s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~56.3s for 29 problems
      Gen knowledge: ~15.5s for 8 problems
      Gen math: ~15.5s for 8 problems
    [DAPO] Low signal: only 4/45 problems had mixed results
    [SELF-CHALLENGE] Generated 7 new problems (code+math)

  Cycle 16 | Stage 1 | Code: 1.39x | Buffer: 1350 | VRAM: 22.1/51GB (43%)
    ETA: 65.1h remaining | ~151 more cycles | 2.3 cycles/hr
    [CHECKPOINT] Saved cycle 16 checkpoint (buffer=1350)
    [CYCLE EVAL] Accuracy: 11.3%
      Gen code: ~230.5s for 29 problems
      Gen math: ~63.6s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
      Gen code: ~18.0s for 29 problems
      Gen math: ~5.0s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
Unsloth: Sample packing skipped (vision-language model detected).
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Unsloth: Tokenizing ["text"] (num_proc=32):   0%|                                                                                      | 0/967 [00:00<?, ? examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   3%|██▍                                                                          | 31/967 [00:11<05:58,  2.61 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  10%|███████▍                                                                     | 93/967 [00:12<01:31,  9.60 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  13%|█████████▋                                                                  | 124/967 [00:12<01:01, 13.74 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  16%|████████████▏                                                               | 155/967 [00:13<00:42, 18.92 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  19%|██████████████▌                                                             | 186/967 [00:13<00:31, 24.95 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  22%|█████████████████                                                           | 217/967 [00:13<00:23, 31.79 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  26%|███████████████████▍                                                        | 247/967 [00:14<00:18, 38.30 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  29%|█████████████████████▊                                                      | 277/967 [00:14<00:15, 45.20 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  32%|████████████████████████▏                                                   | 307/967 [00:15<00:12, 51.67 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  35%|██████████████████████████▍                                                 | 337/967 [00:15<00:11, 57.19 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  38%|████████████████████████████▊                                               | 367/967 [00:16<00:12, 49.05 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  44%|█████████████████████████████████▌                                          | 427/967 [00:16<00:07, 71.02 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  47%|███████████████████████████████████▉                                        | 457/967 [00:17<00:07, 72.26 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  50%|██████████████████████████████████████▎                                     | 487/967 [00:17<00:06, 72.80 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  53%|████████████████████████████████████████▋                                   | 517/967 [00:17<00:06, 73.88 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  57%|██████████████████████████████████████████▉                                 | 547/967 [00:18<00:05, 74.66 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  60%|█████████████████████████████████████████████▎                              | 577/967 [00:18<00:05, 75.38 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  63%|███████████████████████████████████████████████▋                            | 607/967 [00:19<00:04, 76.73 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  66%|██████████████████████████████████████████████████                          | 637/967 [00:19<00:04, 76.35 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  69%|████████████████████████████████████████████████████▍                       | 667/967 [00:19<00:03, 75.98 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  72%|██████████████████████████████████████████████████████▊                     | 697/967 [00:20<00:03, 75.68 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  75%|█████████████████████████████████████████████████████████▏                  | 727/967 [00:20<00:03, 77.00 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  78%|███████████████████████████████████████████████████████████▍                | 757/967 [00:21<00:02, 75.17 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  81%|█████████████████████████████████████████████████████████████▊              | 787/967 [00:21<00:02, 76.10 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  84%|████████████████████████████████████████████████████████████████▏           | 817/967 [00:21<00:01, 75.24 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  88%|██████████████████████████████████████████████████████████████████▌         | 847/967 [00:22<00:01, 75.26 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  91%|████████████████████████████████████████████████████████████████████▉       | 877/967 [00:22<00:01, 79.33 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  94%|███████████████████████████████████████████████████████████████████████▎    | 907/967 [00:22<00:00, 85.35 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  97%|█████████████████████████████████████████████████████████████████████████▋  | 937/967 [00:23<00:00, 87.96 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 967/967 [00:23<00:00, 91.08 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 967/967 [00:25<00:00, 37.24 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Map (num_proc=32):   0%|                                                                                                               | 0/967 [00:00<?, ? examples/s]Map (num_proc=32):   3%|███▎                                                                                                  | 31/967 [00:10<05:04,  3.07 examples/s]Map (num_proc=32):  16%|████████████████▏                                                                                    | 155/967 [00:10<00:40, 20.28 examples/s]Map (num_proc=32):  29%|████████████████████████████▉                                                                        | 277/967 [00:10<00:15, 43.51 examples/s]Map (num_proc=32):  57%|████████████████████████████████████████████████████████▌                                           | 547/967 [00:10<00:03, 114.93 examples/s]Map (num_proc=32): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 967/967 [00:13<00:00, 74.37 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Filter (num_proc=32):   0%|                                                                                                            | 0/967 [00:00<?, ? examples/s]Filter (num_proc=32):   3%|███▏                                                                                               | 31/967 [00:09<05:01,  3.11 examples/s]Filter (num_proc=32):  32%|███████████████████████████████                                                                   | 307/967 [00:10<00:15, 41.79 examples/s]Filter (num_proc=32):  53%|████████████████████████████████████████████████████▍                                             | 517/967 [00:10<00:05, 82.20 examples/s]Filter (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 967/967 [00:12<00:00, 75.33 examples/s]
Unsloth: Removed 194 out of 967 samples from train_dataset where all labels were -100 (no response found after truncation). This prevents NaN loss during training.
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 773 | Num Epochs = 1 | Total steps = 15
O^O/ \_/ \    Batch size per device = 4 | Gradient accumulation steps = 8
\        /    Data Parallel GPUs = 1 | Total batch size (4 x 8 x 1) = 32
 "-____-"     Trainable parameters = 232,783,872 of 9,642,597,616 (2.41% trained)
  0%|                                                                                                                                          | 0/15 [00:00<?, ?it/s]  7%|████████▋                                                                                                                         | 1/15 [00:17<04:11, 17.97s/it] 13%|█████████████████▎                                                                                                                | 2/15 [00:35<03:50, 17.74s/it] 20%|██████████████████████████                                                                                                        | 3/15 [00:52<03:28, 17.39s/it] 27%|██████████████████████████████████▋                                                                                               | 4/15 [01:09<03:09, 17.26s/it] 33%|███████████████████████████████████████████▎                                                                                      | 5/15 [01:26<02:52, 17.30s/it] 40%|████████████████████████████████████████████████████                                                                              | 6/15 [01:43<02:34, 17.21s/it] 47%|████████████████████████████████████████████████████████████▋                                                                     | 7/15 [02:00<02:16, 17.11s/it] 53%|█████████████████████████████████████████████████████████████████████▎                                                            | 8/15 [02:18<01:59, 17.12s/it] 60%|██████████████████████████████████████████████████████████████████████████████                                                    | 9/15 [02:34<01:42, 17.02s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████                                           | 10/15 [02:52<01:26, 17.20s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 11/15 [03:10<01:09, 17.37s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 12/15 [03:26<00:51, 17.11s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 13/15 [03:43<00:34, 17.04s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 14/15 [04:00<00:17, 17.12s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15/15 [04:18<00:00, 17.19s/it]                                                                                                                                                                      {'train_runtime': '260.7', 'train_samples_per_second': '1.841', 'train_steps_per_second': '0.058', 'train_loss': '0.4513', 'epoch': '0.6186'}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15/15 [04:20<00:00, 17.19s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15/15 [04:20<00:00, 17.38s/it]
      Gen code: ~20.4s for 29 problems
      Gen math: ~5.6s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~19.0s for 29 problems
      Gen math: ~5.2s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~17.5s for 29 problems
      Gen math: ~4.8s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~20.7s for 29 problems
      Gen science: ~5.7s for 8 problems
      Gen math: ~5.7s for 8 problems
    [DAPO] Low signal: only 3/45 problems had mixed results
      Gen code: ~49.0s for 29 problems
      Gen math: ~13.5s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~18.3s for 29 problems
      Gen knowledge: ~5.1s for 8 problems
      Gen math: ~5.1s for 8 problems
    [DAPO] Low signal: only 4/45 problems had mixed results
      Gen code: ~17.2s for 29 problems
      Gen math: ~4.7s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~18.1s for 29 problems
      Gen math: ~5.0s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
    [LADDER] Decomposed hard problem → 3 easier variants

  Cycle 17 | Stage 1 | Code: 1.39x | Buffer: 1369 | VRAM: 22.1/51GB (43%)
    ETA: 64.1h remaining | ~137 more cycles | 2.1 cycles/hr
    [CHECKPOINT] Saved cycle 17 checkpoint (buffer=1369)
A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.
      Gen code: ~81.1s for 29 problems
      Gen math: ~22.4s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~27.6s for 29 problems
      Gen math: ~7.6s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
Unsloth: Sample packing skipped (vision-language model detected).
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Unsloth: Tokenizing ["text"] (num_proc=32):   0%|                                                                                      | 0/947 [00:00<?, ? examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   3%|██▍                                                                          | 30/947 [00:12<06:29,  2.35 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  10%|███████▎                                                                     | 90/947 [00:13<01:38,  8.68 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  13%|█████████▋                                                                  | 120/947 [00:13<01:09, 11.84 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  19%|██████████████▍                                                             | 180/947 [00:14<00:38, 20.06 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  25%|███████████████████▎                                                        | 240/947 [00:15<00:22, 31.16 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  29%|█████████████████████▋                                                      | 270/947 [00:15<00:18, 36.18 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  32%|████████████████████████                                                    | 300/947 [00:16<00:15, 41.90 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  35%|██████████████████████████▍                                                 | 330/947 [00:16<00:13, 47.21 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  38%|████████████████████████████▉                                               | 360/947 [00:16<00:11, 52.60 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  41%|███████████████████████████████▎                                            | 390/947 [00:17<00:09, 56.58 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  44%|█████████████████████████████████▋                                          | 420/947 [00:17<00:08, 63.02 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  48%|████████████████████████████████████                                        | 450/947 [00:18<00:09, 52.04 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  54%|████████████████████████████████████████▉                                   | 510/947 [00:18<00:05, 75.82 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  57%|███████████████████████████████████████████▎                                | 540/947 [00:19<00:06, 58.92 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  63%|████████████████████████████████████████████████                            | 599/947 [00:20<00:04, 77.96 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  66%|██████████████████████████████████████████████████▍                         | 628/947 [00:20<00:04, 76.23 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  69%|████████████████████████████████████████████████████▋                       | 657/947 [00:20<00:03, 78.67 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  72%|███████████████████████████████████████████████████████                     | 686/947 [00:21<00:03, 78.84 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  76%|█████████████████████████████████████████████████████████▍                  | 715/947 [00:21<00:03, 75.45 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  79%|███████████████████████████████████████████████████████████▋                | 744/947 [00:21<00:02, 75.94 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  82%|██████████████████████████████████████████████████████████████              | 773/947 [00:22<00:03, 55.79 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  88%|██████████████████████████████████████████████████████████████████▋         | 831/947 [00:23<00:01, 77.07 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  91%|█████████████████████████████████████████████████████████████████████       | 860/947 [00:23<00:01, 79.51 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  94%|███████████████████████████████████████████████████████████████████████▎    | 889/947 [00:23<00:00, 90.33 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  97%|█████████████████████████████████████████████████████████████████████████▋  | 918/947 [00:24<00:00, 76.42 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 947/947 [00:24<00:00, 89.10 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 947/947 [00:27<00:00, 34.37 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Map (num_proc=32):   0%|                                                                                                               | 0/947 [00:00<?, ? examples/s]Map (num_proc=32):   3%|███▏                                                                                                  | 30/947 [00:10<05:29,  2.79 examples/s]Map (num_proc=32):  13%|████████████▊                                                                                        | 120/947 [00:10<00:57, 14.46 examples/s]Map (num_proc=32):  51%|███████████████████████████████████████████████████▏                                                 | 480/947 [00:11<00:05, 79.61 examples/s]Map (num_proc=32):  97%|████████████████████████████████████████████████████████████████████████████████████████████████▉   | 918/947 [00:11<00:00, 188.00 examples/s]Map (num_proc=32): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 947/947 [00:13<00:00, 68.01 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Filter (num_proc=32):   0%|                                                                                                            | 0/947 [00:00<?, ? examples/s]Filter (num_proc=32):   3%|███▏                                                                                               | 30/947 [00:10<05:27,  2.80 examples/s]Filter (num_proc=32):  29%|███████████████████████████▉                                                                      | 270/947 [00:10<00:19, 34.23 examples/s]Filter (num_proc=32):  51%|█████████████████████████████████████████████████▋                                                | 480/947 [00:10<00:06, 72.17 examples/s]Filter (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 947/947 [00:13<00:00, 68.77 examples/s]
Unsloth: Removed 193 out of 947 samples from train_dataset where all labels were -100 (no response found after truncation). This prevents NaN loss during training.
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 754 | Num Epochs = 1 | Total steps = 14
O^O/ \_/ \    Batch size per device = 4 | Gradient accumulation steps = 8
\        /    Data Parallel GPUs = 1 | Total batch size (4 x 8 x 1) = 32
 "-____-"     Trainable parameters = 232,783,872 of 9,642,597,616 (2.41% trained)
  0%|                                                                                                                                          | 0/14 [00:00<?, ?it/s]  7%|█████████▎                                                                                                                        | 1/14 [00:17<03:48, 17.60s/it] 14%|██████████████████▌                                                                                                               | 2/14 [00:35<03:36, 18.06s/it] 21%|███████████████████████████▊                                                                                                      | 3/14 [00:53<03:16, 17.87s/it] 29%|█████████████████████████████████████▏                                                                                            | 4/14 [01:10<02:56, 17.66s/it] 36%|██████████████████████████████████████████████▍                                                                                   | 5/14 [01:28<02:37, 17.46s/it] 43%|███████████████████████████████████████████████████████▋                                                                          | 6/14 [01:46<02:20, 17.62s/it] 50%|█████████████████████████████████████████████████████████████████                                                                 | 7/14 [02:03<02:02, 17.46s/it] 57%|██████████████████████████████████████████████████████████████████████████▎                                                       | 8/14 [02:19<01:43, 17.21s/it] 64%|███████████████████████████████████████████████████████████████████████████████████▌                                              | 9/14 [02:36<01:25, 17.14s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 10/14 [02:54<01:08, 17.23s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 11/14 [03:11<00:51, 17.32s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 12/14 [03:28<00:34, 17.10s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 13/14 [03:45<00:17, 17.03s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [04:02<00:00, 17.07s/it]                                                                                                                                                                      {'train_runtime': '244.7', 'train_samples_per_second': '1.831', 'train_steps_per_second': '0.057', 'train_loss': '0.4276', 'epoch': '0.5926'}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [04:04<00:00, 17.07s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [04:04<00:00, 17.48s/it]
      Gen code: ~34.5s for 29 problems
      Gen math: ~9.5s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
      Gen code: ~44.2s for 29 problems
      Gen math: ~12.2s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
      Gen code: ~17.9s for 29 problems
      Gen math: ~4.9s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
      Gen code: ~44.7s for 29 problems
      Gen science: ~12.3s for 8 problems
      Gen knowledge: ~12.3s for 8 problems
      Gen math: ~12.3s for 8 problems
    [DAPO] Low signal: only 3/53 problems had mixed results
      Gen code: ~64.6s for 29 problems
      Gen math: ~17.8s for 8 problems
    [DAPO] Low signal: only 4/37 problems had mixed results
      Gen code: ~18.1s for 29 problems
      Gen math: ~5.0s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~40.5s for 29 problems
      Gen math: ~11.2s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~17.7s for 29 problems
      Gen math: ~4.9s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
    [LADDER] Decomposed hard problem → 3 easier variants

  Cycle 18 | Stage 1 | Code: 1.39x | Buffer: 1396 | VRAM: 22.1/51GB (43%)
    ETA: 62.9h remaining | ~123 more cycles | 2.0 cycles/hr
    [CHECKPOINT] Saved cycle 18 checkpoint (buffer=1396)
    [CYCLE EVAL] Accuracy: 12.7%
      Gen code: ~248.6s for 29 problems
      Gen math: ~68.6s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~70.4s for 29 problems
      Gen knowledge: ~19.4s for 8 problems
      Gen math: ~19.4s for 8 problems
    [DAPO] Low signal: only 1/45 problems had mixed results
Unsloth: Sample packing skipped (vision-language model detected).
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Unsloth: Tokenizing ["text"] (num_proc=32):   0%|                                                                                      | 0/961 [00:00<?, ? examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   3%|██▍                                                                          | 31/961 [00:13<06:37,  2.34 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   6%|████▉                                                                        | 61/961 [00:13<02:49,  5.31 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   9%|███████▎                                                                     | 91/961 [00:14<01:36,  9.06 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  13%|█████████▌                                                                  | 121/961 [00:14<01:00, 13.91 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  16%|███████████▉                                                                | 151/961 [00:14<00:41, 19.63 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  19%|██████████████▎                                                             | 181/961 [00:16<00:35, 21.77 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  25%|███████████████████                                                         | 241/961 [00:16<00:19, 36.50 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  28%|█████████████████████▍                                                      | 271/961 [00:17<00:16, 40.65 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  31%|███████████████████████▊                                                    | 301/961 [00:17<00:14, 44.34 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  34%|██████████████████████████▏                                                 | 331/961 [00:18<00:13, 48.34 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  38%|████████████████████████████▌                                               | 361/961 [00:18<00:11, 53.39 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  41%|██████████████████████████████▉                                             | 391/961 [00:18<00:09, 57.58 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  44%|█████████████████████████████████▎                                          | 421/961 [00:19<00:09, 59.64 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  47%|███████████████████████████████████▋                                        | 451/961 [00:19<00:08, 63.06 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  50%|██████████████████████████████████████                                      | 481/961 [00:20<00:07, 65.32 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  53%|████████████████████████████████████████▍                                   | 511/961 [00:20<00:06, 67.83 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  56%|██████████████████████████████████████████▊                                 | 541/961 [00:21<00:06, 68.49 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  59%|█████████████████████████████████████████████▏                              | 571/961 [00:21<00:05, 69.79 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  63%|███████████████████████████████████████████████▌                            | 601/961 [00:21<00:05, 71.31 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  66%|█████████████████████████████████████████████████▉                          | 631/961 [00:22<00:04, 72.02 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  69%|████████████████████████████████████████████████████▎                       | 661/961 [00:22<00:04, 73.22 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  72%|██████████████████████████████████████████████████████▋                     | 691/961 [00:23<00:03, 73.48 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  75%|█████████████████████████████████████████████████████████                   | 721/961 [00:23<00:03, 74.19 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  78%|███████████████████████████████████████████████████████████▍                | 751/961 [00:23<00:02, 73.15 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  81%|█████████████████████████████████████████████████████████████▊              | 781/961 [00:24<00:02, 69.75 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  84%|████████████████████████████████████████████████████████████████▏           | 811/961 [00:24<00:02, 65.45 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  88%|██████████████████████████████████████████████████████████████████▌         | 841/961 [00:25<00:01, 64.00 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  91%|████████████████████████████████████████████████████████████████████▉       | 871/961 [00:25<00:01, 72.00 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  94%|███████████████████████████████████████████████████████████████████████▎    | 901/961 [00:26<00:00, 74.68 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  97%|█████████████████████████████████████████████████████████████████████████▋  | 931/961 [00:26<00:00, 78.86 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 961/961 [00:26<00:00, 78.84 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 961/961 [00:29<00:00, 32.55 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Map (num_proc=32):   0%|                                                                                                               | 0/961 [00:00<?, ? examples/s]Map (num_proc=32):   3%|███▏                                                                                                  | 30/961 [00:11<05:44,  2.70 examples/s]Map (num_proc=32):  16%|███████████████▊                                                                                     | 151/961 [00:11<00:45, 17.95 examples/s]Map (num_proc=32):  34%|██████████████████████████████████▊                                                                  | 331/961 [00:11<00:12, 49.42 examples/s]Map (num_proc=32):  84%|████████████████████████████████████████████████████████████████████████████████████▍               | 811/961 [00:11<00:00, 165.85 examples/s]Map (num_proc=32): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 961/961 [00:14<00:00, 66.85 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Filter (num_proc=32):   0%|                                                                                                            | 0/961 [00:00<?, ? examples/s]Filter (num_proc=32):   3%|███▏                                                                                               | 31/961 [00:11<05:32,  2.80 examples/s]Filter (num_proc=32):  31%|██████████████████████████████▋                                                                   | 301/961 [00:11<00:17, 36.92 examples/s]Filter (num_proc=32):  53%|████████████████████████████████████████████████████                                              | 511/961 [00:11<00:06, 73.48 examples/s]Filter (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 961/961 [00:14<00:00, 66.46 examples/s]
Unsloth: Removed 193 out of 961 samples from train_dataset where all labels were -100 (no response found after truncation). This prevents NaN loss during training.
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 768 | Num Epochs = 1 | Total steps = 15
O^O/ \_/ \    Batch size per device = 4 | Gradient accumulation steps = 8
\        /    Data Parallel GPUs = 1 | Total batch size (4 x 8 x 1) = 32
 "-____-"     Trainable parameters = 232,783,872 of 9,642,597,616 (2.41% trained)
  0%|                                                                                                                                          | 0/15 [00:00<?, ?it/s]  7%|████████▋                                                                                                                         | 1/15 [00:20<04:44, 20.34s/it] 13%|█████████████████▎                                                                                                                | 2/15 [00:39<04:18, 19.87s/it] 20%|██████████████████████████                                                                                                        | 3/15 [01:00<04:00, 20.04s/it] 27%|██████████████████████████████████▋                                                                                               | 4/15 [01:19<03:38, 19.89s/it] 33%|███████████████████████████████████████████▎                                                                                      | 5/15 [01:38<03:14, 19.44s/it] 40%|████████████████████████████████████████████████████                                                                              | 6/15 [02:03<03:10, 21.21s/it] 47%|████████████████████████████████████████████████████████████▋                                                                     | 7/15 [02:26<02:55, 21.88s/it] 53%|█████████████████████████████████████████████████████████████████████▎                                                            | 8/15 [02:49<02:35, 22.16s/it] 60%|██████████████████████████████████████████████████████████████████████████████                                                    | 9/15 [03:12<02:15, 22.57s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████                                           | 10/15 [03:36<01:54, 22.88s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 11/15 [03:59<01:32, 23.06s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 12/15 [04:24<01:11, 23.69s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 13/15 [04:48<00:47, 23.62s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 14/15 [05:11<00:23, 23.40s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15/15 [05:34<00:00, 23.45s/it]                                                                                                                                                                      {'train_runtime': '337.9', 'train_samples_per_second': '1.42', 'train_steps_per_second': '0.044', 'train_loss': '0.3969', 'epoch': '0.625'}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15/15 [05:37<00:00, 23.45s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15/15 [05:37<00:00, 22.53s/it]
      Gen code: ~28.6s for 29 problems
      Gen math: ~7.9s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~29.5s for 29 problems
      Gen math: ~8.1s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~30.1s for 29 problems
      Gen math: ~8.3s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
      Gen code: ~40.9s for 29 problems
      Gen science: ~11.3s for 8 problems
      Gen math: ~11.3s for 8 problems
    [DAPO] Low signal: only 2/45 problems had mixed results
      Gen code: ~17.7s for 29 problems
      Gen math: ~4.9s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~27.9s for 29 problems
      Gen math: ~7.7s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~18.7s for 29 problems
      Gen math: ~5.2s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
      Gen code: ~46.0s for 29 problems
      Gen knowledge: ~12.7s for 8 problems
      Gen math: ~12.7s for 8 problems
    [DAPO] Low signal: only 1/45 problems had mixed results
    [LADDER] Decomposed hard problem → 3 easier variants
    [REGRESSION] 1 problems declining — boosting 1 to max priority

  Cycle 19 | Stage 1 | Code: 1.39x | Buffer: 1421 | VRAM: 22.1/51GB (43%)
    ETA: 61.7h remaining | ~113 more cycles | 1.8 cycles/hr
    [CHECKPOINT] Saved cycle 19 checkpoint (buffer=1421)
      Gen code: ~62.4s for 29 problems
      Gen math: ~17.2s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
    [TIMING] Epoch 550: 1182.5s total | Gen: 79.6s | Verify+Train: 1102.9s
  [T+11.0h] S1 E550 C19 | Acc: 26.0% | M:39 C:0 S:12 K:0 | Hold: 12.5% | Code: 1.39x | 4.5 prob/s | LR: 2.0e-05
    [WARN] Possible reward hacking — restoring best
    [WARN] Collapse detected — restoring best
      Gen code: ~42.5s for 29 problems
      Gen math: ~11.7s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
Unsloth: Sample packing skipped (vision-language model detected).
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Unsloth: Tokenizing ["text"] (num_proc=32):   0%|                                                                                      | 0/976 [00:00<?, ? examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   3%|██▍                                                                          | 31/976 [00:12<06:24,  2.46 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   6%|████▉                                                                        | 62/976 [00:13<02:40,  5.71 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  10%|███████▎                                                                     | 93/976 [00:13<01:29,  9.91 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  13%|█████████▋                                                                  | 124/976 [00:14<01:00, 14.01 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  19%|██████████████▍                                                             | 186/976 [00:14<00:29, 26.82 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  22%|████████████████▉                                                           | 217/976 [00:15<00:23, 32.83 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  25%|███████████████████▎                                                        | 248/976 [00:15<00:18, 39.60 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  29%|█████████████████████▋                                                      | 279/976 [00:15<00:15, 44.49 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  32%|████████████████████████▏                                                   | 310/976 [00:16<00:12, 51.35 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  35%|██████████████████████████▌                                                 | 341/976 [00:16<00:11, 56.92 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  38%|████████████████████████████▉                                               | 372/976 [00:17<00:09, 61.11 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  41%|███████████████████████████████▍                                            | 403/976 [00:17<00:08, 64.94 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  44%|█████████████████████████████████▊                                          | 434/976 [00:17<00:07, 68.96 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  48%|████████████████████████████████████▏                                       | 465/976 [00:18<00:07, 69.95 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  51%|██████████████████████████████████████▌                                     | 496/976 [00:18<00:06, 73.66 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  54%|████████████████████████████████████████▉                                   | 526/976 [00:19<00:05, 75.20 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  57%|███████████████████████████████████████████▎                                | 556/976 [00:19<00:05, 75.05 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  60%|█████████████████████████████████████████████▋                              | 586/976 [00:19<00:05, 76.36 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  63%|███████████████████████████████████████████████▉                            | 616/976 [00:20<00:04, 76.06 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  66%|██████████████████████████████████████████████████▎                         | 646/976 [00:20<00:04, 77.10 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  69%|████████████████████████████████████████████████████▋                       | 676/976 [00:21<00:05, 56.96 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  75%|█████████████████████████████████████████████████████████▎                  | 736/976 [00:21<00:03, 78.85 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  78%|███████████████████████████████████████████████████████████▋                | 766/976 [00:22<00:02, 78.99 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  82%|█████████████████████████████████████████████████████████████▉              | 796/976 [00:22<00:02, 79.78 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  85%|████████████████████████████████████████████████████████████████▎           | 826/976 [00:23<00:01, 78.78 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  88%|██████████████████████████████████████████████████████████████████▋         | 856/976 [00:23<00:01, 69.32 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  91%|████████████████████████████████████████████████████████████████████▉       | 886/976 [00:23<00:01, 80.46 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  94%|███████████████████████████████████████████████████████████████████████▎    | 916/976 [00:24<00:00, 86.70 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  97%|█████████████████████████████████████████████████████████████████████████▋  | 946/976 [00:24<00:00, 88.42 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 976/976 [00:24<00:00, 89.95 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 976/976 [00:28<00:00, 34.72 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Map (num_proc=32):   0%|                                                                                                               | 0/976 [00:00<?, ? examples/s]Map (num_proc=32):   3%|███▏                                                                                                  | 31/976 [00:11<05:35,  2.81 examples/s]Map (num_proc=32):  13%|████████████▊                                                                                        | 124/976 [00:11<00:58, 14.60 examples/s]Map (num_proc=32):  32%|████████████████████████████████                                                                     | 310/976 [00:11<00:14, 47.52 examples/s]Map (num_proc=32):  72%|████████████████████████████████████████████████████████████████████████▎                           | 706/976 [00:11<00:01, 143.94 examples/s]Map (num_proc=32): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 976/976 [00:14<00:00, 68.54 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Filter (num_proc=32):   0%|                                                                                                            | 0/976 [00:00<?, ? examples/s]Filter (num_proc=32):   3%|███▏                                                                                               | 31/976 [00:11<05:37,  2.80 examples/s]Filter (num_proc=32):  32%|███████████████████████████████▏                                                                  | 310/976 [00:11<00:17, 38.27 examples/s]Filter (num_proc=32):  60%|██████████████████████████████████████████████████████████▊                                       | 586/976 [00:11<00:04, 86.22 examples/s]Filter (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 976/976 [00:14<00:00, 69.23 examples/s]
Unsloth: Removed 193 out of 976 samples from train_dataset where all labels were -100 (no response found after truncation). This prevents NaN loss during training.
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 783 | Num Epochs = 1 | Total steps = 15
O^O/ \_/ \    Batch size per device = 4 | Gradient accumulation steps = 8
\        /    Data Parallel GPUs = 1 | Total batch size (4 x 8 x 1) = 32
 "-____-"     Trainable parameters = 232,783,872 of 9,642,597,616 (2.41% trained)
  0%|                                                                                                                                          | 0/15 [00:00<?, ?it/s]  7%|████████▋                                                                                                                         | 1/15 [00:17<04:07, 17.65s/it] 13%|█████████████████▎                                                                                                                | 2/15 [00:34<03:45, 17.35s/it] 20%|██████████████████████████                                                                                                        | 3/15 [00:51<03:24, 17.04s/it] 27%|██████████████████████████████████▋                                                                                               | 4/15 [01:08<03:07, 17.07s/it] 33%|███████████████████████████████████████████▎                                                                                      | 5/15 [01:25<02:50, 17.05s/it] 40%|████████████████████████████████████████████████████                                                                              | 6/15 [01:42<02:32, 16.99s/it] 47%|████████████████████████████████████████████████████████████▋                                                                     | 7/15 [01:58<02:14, 16.79s/it] 53%|█████████████████████████████████████████████████████████████████████▎                                                            | 8/15 [02:15<01:57, 16.82s/it] 60%|██████████████████████████████████████████████████████████████████████████████                                                    | 9/15 [02:32<01:41, 16.87s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████                                           | 10/15 [02:49<01:24, 16.99s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 11/15 [03:06<01:07, 16.88s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 12/15 [03:23<00:50, 16.86s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 13/15 [03:40<00:33, 16.93s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 14/15 [03:59<00:17, 17.47s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15/15 [04:15<00:00, 17.23s/it]                                                                                                                                                                      {'train_runtime': '258.3', 'train_samples_per_second': '1.858', 'train_steps_per_second': '0.058', 'train_loss': '0.382', 'epoch': '0.6122'}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15/15 [04:18<00:00, 17.23s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15/15 [04:18<00:00, 17.22s/it]
      Gen code: ~17.2s for 29 problems
      Gen math: ~4.7s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~41.1s for 29 problems
      Gen math: ~11.3s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~21.6s for 29 problems
      Gen knowledge: ~6.0s for 8 problems
      Gen math: ~6.0s for 8 problems
    [DAPO] Low signal: only 3/45 problems had mixed results
      Gen code: ~28.0s for 29 problems
      Gen knowledge: ~7.7s for 8 problems
      Gen math: ~7.7s for 8 problems
    [DAPO] Low signal: only 4/45 problems had mixed results
      Gen code: ~38.7s for 29 problems
      Gen science: ~10.7s for 8 problems
      Gen math: ~10.7s for 8 problems
    [DAPO] Low signal: only 2/45 problems had mixed results
      Gen code: ~34.4s for 29 problems
      Gen math: ~9.5s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~40.0s for 29 problems
      Gen math: ~11.0s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~33.6s for 29 problems
      Gen math: ~9.3s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
    [REFRESH] Injected 50 original examples (forgetting protection)
    [TARGETING] Most failures in: code (22 fails)
    [SELF-CHALLENGE] Generated 7 new problems (code+math)
    [LADDER] Decomposed hard problem → 3 easier variants
    [REGRESSION] 1 problems declining — boosting 1 to max priority
    [THOMPSON] 6377/8241 problems at frontier. Skipping 1013 impossible.

  Cycle 20 | Stage 1 | Code: 1.39x | Buffer: 1489 | VRAM: 22.1/51GB (43%)
    ETA: 60.3h remaining | ~102 more cycles | 1.7 cycles/hr
    [CHECKPOINT] Saved cycle 20 checkpoint (buffer=1489)
    [CYCLE EVAL] Accuracy: 2.7%
      Gen code: ~254.6s for 29 problems
      Gen math: ~70.2s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~41.1s for 29 problems
      Gen math: ~11.3s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
Unsloth: Sample packing skipped (vision-language model detected).
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Unsloth: Tokenizing ["text"] (num_proc=32):   0%|                                                                                      | 0/919 [00:00<?, ? examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   3%|██▍                                                                          | 29/919 [00:13<07:01,  2.11 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   6%|████▊                                                                        | 58/919 [00:14<02:54,  4.93 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   9%|███████▎                                                                     | 87/919 [00:14<01:36,  8.61 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  13%|█████████▌                                                                  | 116/919 [00:14<01:00, 13.18 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  16%|███████████▉                                                                | 145/919 [00:15<00:41, 18.72 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  19%|██████████████▍                                                             | 174/919 [00:15<00:29, 24.97 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  22%|████████████████▊                                                           | 203/919 [00:16<00:22, 31.77 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  25%|███████████████████▏                                                        | 232/919 [00:16<00:17, 38.36 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  28%|█████████████████████▌                                                      | 261/919 [00:16<00:14, 45.29 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  32%|███████████████████████▉                                                    | 290/919 [00:17<00:12, 51.54 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  35%|██████████████████████████▍                                                 | 319/919 [00:17<00:10, 56.28 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  38%|████████████████████████████▊                                               | 348/919 [00:18<00:09, 60.19 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  41%|███████████████████████████████▏                                            | 377/919 [00:18<00:08, 64.00 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  44%|█████████████████████████████████▌                                          | 406/919 [00:18<00:07, 64.53 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  47%|███████████████████████████████████▉                                        | 435/919 [00:19<00:07, 67.38 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  50%|██████████████████████████████████████▎                                     | 464/919 [00:19<00:06, 69.86 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  54%|████████████████████████████████████████▊                                   | 493/919 [00:20<00:05, 71.45 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  57%|███████████████████████████████████████████▏                                | 522/919 [00:20<00:05, 73.60 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  60%|█████████████████████████████████████████████▌                              | 551/919 [00:20<00:04, 73.64 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  63%|███████████████████████████████████████████████▉                            | 580/919 [00:21<00:04, 72.33 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  66%|██████████████████████████████████████████████████▎                         | 609/919 [00:21<00:04, 73.05 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  69%|████████████████████████████████████████████████████▊                       | 638/919 [00:22<00:03, 73.55 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  73%|███████████████████████████████████████████████████████▏                    | 667/919 [00:22<00:03, 73.66 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  76%|█████████████████████████████████████████████████████████▍                  | 695/919 [00:22<00:03, 72.44 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  79%|███████████████████████████████████████████████████████████▊                | 723/919 [00:23<00:02, 71.56 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  82%|██████████████████████████████████████████████████████████████              | 751/919 [00:23<00:02, 71.69 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  85%|████████████████████████████████████████████████████████████████▍           | 779/919 [00:24<00:01, 71.65 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  88%|██████████████████████████████████████████████████████████████████▋         | 807/919 [00:24<00:01, 71.72 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  91%|█████████████████████████████████████████████████████████████████████       | 835/919 [00:24<00:01, 79.54 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  94%|███████████████████████████████████████████████████████████████████████▎    | 863/919 [00:25<00:00, 80.64 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  97%|█████████████████████████████████████████████████████████████████████████▋  | 891/919 [00:25<00:00, 79.52 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 919/919 [00:25<00:00, 82.87 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 919/919 [00:28<00:00, 31.91 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Map (num_proc=32):   0%|                                                                                                               | 0/919 [00:00<?, ? examples/s]Map (num_proc=32):   3%|███▏                                                                                                  | 29/919 [00:11<06:08,  2.42 examples/s]Map (num_proc=32):  22%|██████████████████████▎                                                                              | 203/919 [00:12<00:31, 22.79 examples/s]Map (num_proc=32):  38%|██████████████████████████████████████▏                                                              | 348/919 [00:12<00:12, 46.18 examples/s]Map (num_proc=32):  79%|██████████████████████████████████████████████████████████████████████████████▋                     | 723/919 [00:12<00:01, 130.69 examples/s]Map (num_proc=32): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 919/919 [00:15<00:00, 59.17 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Filter (num_proc=32):   0%|                                                                                                            | 0/919 [00:00<?, ? examples/s]Filter (num_proc=32):   3%|███                                                                                                | 29/919 [00:12<06:10,  2.40 examples/s]Filter (num_proc=32):  16%|███████████████▍                                                                                  | 145/919 [00:12<00:48, 15.92 examples/s]Filter (num_proc=32):  38%|█████████████████████████████████████                                                             | 348/919 [00:12<00:11, 48.93 examples/s]Filter (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 919/919 [00:15<00:00, 59.08 examples/s]
Unsloth: Removed 195 out of 919 samples from train_dataset where all labels were -100 (no response found after truncation). This prevents NaN loss during training.
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 724 | Num Epochs = 1 | Total steps = 14
O^O/ \_/ \    Batch size per device = 4 | Gradient accumulation steps = 8
\        /    Data Parallel GPUs = 1 | Total batch size (4 x 8 x 1) = 32
 "-____-"     Trainable parameters = 232,783,872 of 9,642,597,616 (2.41% trained)
  0%|                                                                                                                                          | 0/14 [00:00<?, ?it/s]  7%|█████████▎                                                                                                                        | 1/14 [00:17<03:50, 17.74s/it] 14%|██████████████████▌                                                                                                               | 2/14 [00:34<03:27, 17.28s/it] 21%|███████████████████████████▊                                                                                                      | 3/14 [00:51<03:07, 17.08s/it] 29%|█████████████████████████████████████▏                                                                                            | 4/14 [01:09<02:52, 17.27s/it] 36%|██████████████████████████████████████████████▍                                                                                   | 5/14 [01:26<02:36, 17.41s/it] 43%|███████████████████████████████████████████████████████▋                                                                          | 6/14 [01:43<02:18, 17.27s/it] 50%|█████████████████████████████████████████████████████████████████                                                                 | 7/14 [02:00<02:00, 17.24s/it] 57%|██████████████████████████████████████████████████████████████████████████▎                                                       | 8/14 [02:17<01:42, 17.11s/it] 64%|███████████████████████████████████████████████████████████████████████████████████▌                                              | 9/14 [02:35<01:25, 17.18s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 10/14 [02:52<01:08, 17.14s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 11/14 [03:08<00:51, 17.05s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 12/14 [03:27<00:34, 17.44s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 13/14 [03:44<00:17, 17.34s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [04:01<00:00, 17.36s/it]                                                                                                                                                                      {'train_runtime': '244.5', 'train_samples_per_second': '1.833', 'train_steps_per_second': '0.057', 'train_loss': '0.341', 'epoch': '0.6188'}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [04:04<00:00, 17.36s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [04:04<00:00, 17.46s/it]
      Gen code: ~19.4s for 29 problems
      Gen math: ~5.4s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~41.6s for 29 problems
      Gen math: ~11.5s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~18.7s for 29 problems
      Gen math: ~5.2s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~23.5s for 29 problems
      Gen science: ~6.5s for 8 problems
      Gen math: ~6.5s for 8 problems
    [DAPO] Low signal: only 2/45 problems had mixed results
      Gen code: ~52.4s for 29 problems
      Gen math: ~14.5s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~17.2s for 29 problems
      Gen math: ~4.7s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~40.2s for 29 problems
      Gen math: ~11.1s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
      Gen code: ~17.3s for 29 problems
      Gen math: ~4.8s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
    [LADDER] Decomposed hard problem → 3 easier variants

  Cycle 21 | Stage 1 | Code: 1.39x | Buffer: 1506 | VRAM: 22.1/51GB (43%)
    ETA: 59.1h remaining | ~95 more cycles | 1.6 cycles/hr
    [CHECKPOINT] Saved cycle 21 checkpoint (buffer=1506)
      Gen code: ~59.5s for 29 problems
      Gen math: ~16.4s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~42.2s for 29 problems
      Gen math: ~11.6s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
Unsloth: Sample packing skipped (vision-language model detected).
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Unsloth: Tokenizing ["text"] (num_proc=32):   0%|                                                                                      | 0/940 [00:00<?, ? examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   3%|██▍                                                                          | 30/940 [00:13<06:58,  2.17 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   6%|████▉                                                                        | 60/940 [00:14<02:53,  5.07 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  10%|███████▎                                                                     | 90/940 [00:14<01:36,  8.82 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  13%|█████████▋                                                                  | 120/940 [00:15<01:00, 13.51 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  16%|████████████▏                                                               | 150/940 [00:15<00:41, 19.14 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  19%|██████████████▌                                                             | 180/940 [00:15<00:29, 25.74 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  22%|████████████████▉                                                           | 210/940 [00:16<00:22, 33.00 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  26%|███████████████████▍                                                        | 240/940 [00:16<00:17, 40.18 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  29%|█████████████████████▊                                                      | 270/940 [00:17<00:14, 46.46 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  32%|████████████████████████▎                                                   | 300/940 [00:17<00:12, 52.98 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  35%|██████████████████████████▋                                                 | 330/940 [00:17<00:10, 57.73 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  38%|█████████████████████████████                                               | 360/940 [00:18<00:09, 62.27 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  41%|███████████████████████████████▍                                            | 389/940 [00:18<00:08, 65.20 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  44%|█████████████████████████████████▊                                          | 418/940 [00:19<00:07, 67.63 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  48%|████████████████████████████████████▏                                       | 447/940 [00:19<00:07, 68.82 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  51%|██████████████████████████████████████▍                                     | 476/940 [00:19<00:06, 69.30 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  54%|████████████████████████████████████████▊                                   | 505/940 [00:20<00:06, 70.22 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  57%|███████████████████████████████████████████▏                                | 534/940 [00:20<00:05, 70.25 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  60%|█████████████████████████████████████████████▌                              | 563/940 [00:21<00:05, 70.86 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  63%|███████████████████████████████████████████████▊                            | 592/940 [00:21<00:04, 70.64 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  66%|██████████████████████████████████████████████████▏                         | 621/940 [00:21<00:04, 72.44 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  69%|████████████████████████████████████████████████████▌                       | 650/940 [00:22<00:03, 73.90 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  72%|██████████████████████████████████████████████████████▉                     | 679/940 [00:22<00:03, 73.78 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  75%|█████████████████████████████████████████████████████████▏                  | 708/940 [00:22<00:03, 74.91 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  78%|███████████████████████████████████████████████████████████▌                | 737/940 [00:23<00:02, 72.79 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  81%|█████████████████████████████████████████████████████████████▉              | 766/940 [00:23<00:02, 72.79 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  85%|████████████████████████████████████████████████████████████████▎           | 795/940 [00:24<00:01, 72.82 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  88%|██████████████████████████████████████████████████████████████████▌         | 824/940 [00:24<00:01, 72.52 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  91%|████████████████████████████████████████████████████████████████████▉       | 853/940 [00:24<00:01, 76.25 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  94%|███████████████████████████████████████████████████████████████████████▎    | 882/940 [00:25<00:00, 79.01 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  97%|█████████████████████████████████████████████████████████████████████████▋  | 911/940 [00:25<00:00, 82.45 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 940/940 [00:25<00:00, 87.44 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 940/940 [00:28<00:00, 32.59 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Map (num_proc=32):   0%|                                                                                                               | 0/940 [00:00<?, ? examples/s]Map (num_proc=32):   3%|███▎                                                                                                  | 30/940 [00:12<06:07,  2.48 examples/s]Map (num_proc=32):  22%|██████████████████████▌                                                                              | 210/940 [00:12<00:31, 23.25 examples/s]Map (num_proc=32):  51%|███████████████████████████████████████████████████▏                                                 | 476/940 [00:12<00:07, 65.86 examples/s]Map (num_proc=32): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 940/940 [00:15<00:00, 60.48 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Filter (num_proc=32):   0%|                                                                                                            | 0/940 [00:00<?, ? examples/s]Filter (num_proc=32):   3%|███▏                                                                                               | 30/940 [00:11<06:03,  2.50 examples/s]Filter (num_proc=32):  19%|██████████████████▊                                                                               | 180/940 [00:12<00:37, 20.04 examples/s]Filter (num_proc=32):  38%|█████████████████████████████████████▌                                                            | 360/940 [00:12<00:11, 49.23 examples/s]Filter (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 940/940 [00:15<00:00, 60.61 examples/s]
Unsloth: Removed 195 out of 940 samples from train_dataset where all labels were -100 (no response found after truncation). This prevents NaN loss during training.
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 745 | Num Epochs = 1 | Total steps = 14
O^O/ \_/ \    Batch size per device = 4 | Gradient accumulation steps = 8
\        /    Data Parallel GPUs = 1 | Total batch size (4 x 8 x 1) = 32
 "-____-"     Trainable parameters = 232,783,872 of 9,642,597,616 (2.41% trained)
  0%|                                                                                                                                          | 0/14 [00:00<?, ?it/s]  7%|█████████▎                                                                                                                        | 1/14 [00:18<04:02, 18.62s/it] 14%|██████████████████▌                                                                                                               | 2/14 [00:35<03:33, 17.82s/it] 21%|███████████████████████████▊                                                                                                      | 3/14 [00:53<03:12, 17.52s/it] 29%|█████████████████████████████████████▏                                                                                            | 4/14 [01:09<02:51, 17.19s/it] 36%|██████████████████████████████████████████████▍                                                                                   | 5/14 [01:27<02:35, 17.25s/it] 43%|███████████████████████████████████████████████████████▋                                                                          | 6/14 [01:44<02:17, 17.15s/it] 50%|█████████████████████████████████████████████████████████████████                                                                 | 7/14 [02:00<01:58, 16.99s/it] 57%|██████████████████████████████████████████████████████████████████████████▎                                                       | 8/14 [02:18<01:42, 17.09s/it] 64%|███████████████████████████████████████████████████████████████████████████████████▌                                              | 9/14 [02:34<01:25, 17.05s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 10/14 [02:52<01:09, 17.29s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 11/14 [03:10<00:52, 17.38s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 12/14 [03:28<00:34, 17.46s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 13/14 [03:45<00:17, 17.40s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [04:02<00:00, 17.30s/it]                                                                                                                                                                      {'train_runtime': '244.9', 'train_samples_per_second': '1.829', 'train_steps_per_second': '0.057', 'train_loss': '0.3319', 'epoch': '0.5989'}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [04:04<00:00, 17.30s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [04:04<00:00, 17.49s/it]
      Gen code: ~21.6s for 29 problems
      Gen knowledge: ~6.0s for 8 problems
      Gen math: ~6.0s for 8 problems
    [DAPO] Low signal: only 3/45 problems had mixed results
      Gen code: ~38.9s for 29 problems
      Gen math: ~10.7s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~20.0s for 29 problems
      Gen math: ~5.5s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~73.4s for 29 problems
      Gen science: ~20.2s for 8 problems
      Gen math: ~20.2s for 8 problems
    [DAPO] Low signal: only 2/45 problems had mixed results
      Gen code: ~33.4s for 29 problems
      Gen math: ~9.2s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~17.6s for 29 problems
      Gen math: ~4.9s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~40.9s for 29 problems
      Gen math: ~11.3s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~30.1s for 29 problems
      Gen knowledge: ~8.3s for 8 problems
      Gen math: ~8.3s for 8 problems
    [DAPO] Low signal: only 2/45 problems had mixed results
    [LADDER] Decomposed hard problem → 3 easier variants

  Cycle 22 | Stage 1 | Code: 1.39x | Buffer: 1530 | VRAM: 22.1/51GB (43%)
    ETA: 57.9h remaining | ~90 more cycles | 1.6 cycles/hr
    [CHECKPOINT] Saved cycle 22 checkpoint (buffer=1530)
    [CYCLE EVAL] Accuracy: 14.0%
      Gen code: ~258.2s for 29 problems
      Gen math: ~71.2s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.
      Gen code: ~55.0s for 29 problems
      Gen math: ~15.2s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
Unsloth: Sample packing skipped (vision-language model detected).
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Unsloth: Tokenizing ["text"] (num_proc=32):   0%|                                                                                      | 0/981 [00:00<?, ? examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   3%|██▍                                                                          | 31/981 [00:13<06:41,  2.37 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   6%|████▊                                                                        | 62/981 [00:13<02:46,  5.52 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   9%|███████▎                                                                     | 93/981 [00:13<01:32,  9.56 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  13%|█████████▌                                                                  | 124/981 [00:14<00:58, 14.67 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  16%|████████████                                                                | 155/981 [00:14<00:40, 20.65 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  19%|██████████████▍                                                             | 186/981 [00:15<00:28, 27.50 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  22%|████████████████▊                                                           | 217/981 [00:15<00:21, 34.93 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  25%|███████████████████▏                                                        | 248/981 [00:15<00:17, 42.08 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  28%|█████████████████████▌                                                      | 279/981 [00:16<00:14, 49.26 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  32%|████████████████████████                                                    | 310/981 [00:16<00:11, 56.22 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  35%|██████████████████████████▍                                                 | 341/981 [00:17<00:10, 62.00 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  38%|████████████████████████████▊                                               | 372/981 [00:17<00:09, 66.10 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  41%|███████████████████████████████▏                                            | 403/981 [00:17<00:08, 69.17 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  44%|█████████████████████████████████▌                                          | 434/981 [00:18<00:07, 70.30 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  47%|████████████████████████████████████                                        | 465/981 [00:18<00:07, 72.19 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  51%|██████████████████████████████████████▍                                     | 496/981 [00:19<00:06, 74.87 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  54%|████████████████████████████████████████▊                                   | 527/981 [00:19<00:05, 78.17 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  57%|███████████████████████████████████████████▏                                | 558/981 [00:19<00:05, 79.02 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  60%|█████████████████████████████████████████████▋                              | 589/981 [00:20<00:05, 77.89 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  63%|████████████████████████████████████████████████                            | 620/981 [00:20<00:04, 77.97 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  66%|██████████████████████████████████████████████████▍                         | 651/981 [00:21<00:04, 77.59 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  69%|████████████████████████████████████████████████████▊                       | 681/981 [00:21<00:03, 76.85 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  72%|███████████████████████████████████████████████████████                     | 711/981 [00:21<00:03, 77.62 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  76%|█████████████████████████████████████████████████████████▍                  | 741/981 [00:22<00:03, 74.07 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  79%|███████████████████████████████████████████████████████████▋                | 771/981 [00:22<00:02, 75.78 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  82%|██████████████████████████████████████████████████████████████              | 801/981 [00:23<00:02, 72.61 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  85%|████████████████████████████████████████████████████████████████▍           | 831/981 [00:23<00:02, 74.85 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  88%|██████████████████████████████████████████████████████████████████▋         | 861/981 [00:23<00:01, 75.23 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  91%|█████████████████████████████████████████████████████████████████████       | 891/981 [00:24<00:01, 84.25 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  94%|███████████████████████████████████████████████████████████████████████▎    | 921/981 [00:24<00:00, 81.67 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  97%|█████████████████████████████████████████████████████████████████████████▋  | 951/981 [00:24<00:00, 84.87 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 981/981 [00:25<00:00, 86.68 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 981/981 [00:28<00:00, 34.89 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Map (num_proc=32):   0%|                                                                                                               | 0/981 [00:00<?, ? examples/s]Map (num_proc=32):   3%|███▏                                                                                                  | 31/981 [00:11<05:51,  2.70 examples/s]Map (num_proc=32):  16%|███████████████▉                                                                                     | 155/981 [00:11<00:46, 17.73 examples/s]Map (num_proc=32):  35%|███████████████████████████████████                                                                  | 341/981 [00:11<00:13, 49.16 examples/s]Map (num_proc=32):  79%|██████████████████████████████████████████████████████████████████████████████▌                     | 771/981 [00:11<00:01, 150.11 examples/s]Map (num_proc=32): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 981/981 [00:14<00:00, 65.75 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Filter (num_proc=32):   0%|                                                                                                            | 0/981 [00:00<?, ? examples/s]Filter (num_proc=32):   3%|███▏                                                                                               | 31/981 [00:11<05:49,  2.72 examples/s]Filter (num_proc=32):  28%|███████████████████████████▊                                                                      | 279/981 [00:11<00:21, 33.22 examples/s]Filter (num_proc=32):  76%|█████████████████████████████████████████████████████████████████████████▎                       | 741/981 [00:11<00:02, 112.54 examples/s]Filter (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 981/981 [00:14<00:00, 67.91 examples/s]
Unsloth: Removed 193 out of 981 samples from train_dataset where all labels were -100 (no response found after truncation). This prevents NaN loss during training.
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 788 | Num Epochs = 1 | Total steps = 15
O^O/ \_/ \    Batch size per device = 4 | Gradient accumulation steps = 8
\        /    Data Parallel GPUs = 1 | Total batch size (4 x 8 x 1) = 32
 "-____-"     Trainable parameters = 232,783,872 of 9,642,597,616 (2.41% trained)
  0%|                                                                                                                                          | 0/15 [00:00<?, ?it/s]  7%|████████▋                                                                                                                         | 1/15 [00:17<04:05, 17.55s/it] 13%|█████████████████▎                                                                                                                | 2/15 [00:34<03:43, 17.21s/it] 20%|██████████████████████████                                                                                                        | 3/15 [00:51<03:26, 17.19s/it] 27%|██████████████████████████████████▋                                                                                               | 4/15 [01:10<03:16, 17.83s/it] 33%|███████████████████████████████████████████▎                                                                                      | 5/15 [01:27<02:54, 17.44s/it] 40%|████████████████████████████████████████████████████                                                                              | 6/15 [01:44<02:36, 17.40s/it] 47%|████████████████████████████████████████████████████████████▋                                                                     | 7/15 [02:01<02:17, 17.23s/it] 53%|█████████████████████████████████████████████████████████████████████▎                                                            | 8/15 [02:18<02:00, 17.25s/it] 60%|██████████████████████████████████████████████████████████████████████████████                                                    | 9/15 [02:35<01:43, 17.24s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████                                           | 10/15 [02:54<01:28, 17.67s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 11/15 [03:12<01:11, 17.87s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 12/15 [03:31<00:54, 18.01s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 13/15 [03:49<00:35, 17.95s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 14/15 [04:07<00:18, 18.22s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15/15 [04:25<00:00, 18.00s/it]                                                                                                                                                                      {'train_runtime': '267.8', 'train_samples_per_second': '1.792', 'train_steps_per_second': '0.056', 'train_loss': '0.2835', 'epoch': '0.6091'}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15/15 [04:27<00:00, 18.00s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15/15 [04:27<00:00, 17.85s/it]
      Gen code: ~20.0s for 29 problems
      Gen math: ~5.5s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~29.9s for 29 problems
      Gen science: ~8.3s for 8 problems
      Gen math: ~8.3s for 8 problems
    [DAPO] Low signal: only 1/45 problems had mixed results
      Gen code: ~21.4s for 29 problems
      Gen science: ~5.9s for 8 problems
      Gen math: ~5.9s for 8 problems
    [DAPO] Low signal: only 3/45 problems had mixed results
      Gen code: ~57.2s for 29 problems
      Gen knowledge: ~15.8s for 8 problems
      Gen math: ~15.8s for 8 problems
    [DAPO] Low signal: only 0/45 problems had mixed results
      Gen code: ~19.0s for 29 problems
      Gen math: ~5.2s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~17.9s for 29 problems
      Gen math: ~4.9s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~18.0s for 29 problems
      Gen math: ~5.0s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~43.9s for 29 problems
      Gen knowledge: ~12.1s for 8 problems
      Gen math: ~12.1s for 8 problems
    [DAPO] Low signal: only 3/45 problems had mixed results
    [LADDER] Decomposed hard problem → 2 easier variants
    [REGRESSION] 1 problems declining — boosting 1 to max priority

  Cycle 23 | Stage 1 | Code: 1.39x | Buffer: 1554 | VRAM: 22.1/51GB (43%)
    ETA: 56.8h remaining | ~86 more cycles | 1.5 cycles/hr
    [CHECKPOINT] Saved cycle 23 checkpoint (buffer=1554)
      Gen code: ~76.9s for 29 problems
      Gen math: ~21.2s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~84.7s for 29 problems
      Gen math: ~23.4s for 8 problems
    [DAPO] Low signal: only 2/37 problems had mixed results
Unsloth: Sample packing skipped (vision-language model detected).
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Unsloth: Tokenizing ["text"] (num_proc=32):   0%|                                                                                     | 0/1117 [00:00<?, ? examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   3%|██▍                                                                         | 35/1117 [00:13<06:55,  2.60 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   6%|████▊                                                                       | 70/1117 [00:13<02:52,  6.07 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):   9%|███████                                                                    | 105/1117 [00:14<01:36, 10.54 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  13%|█████████▍                                                                 | 140/1117 [00:14<01:01, 16.00 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  16%|███████████▊                                                               | 175/1117 [00:15<00:42, 22.26 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  19%|██████████████                                                             | 210/1117 [00:15<00:30, 30.15 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  22%|████████████████▍                                                          | 245/1117 [00:15<00:22, 37.93 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  25%|██████████████████▊                                                        | 280/1117 [00:16<00:18, 46.31 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  28%|█████████████████████▏                                                     | 315/1117 [00:16<00:14, 53.86 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  31%|███████████████████████▌                                                   | 350/1117 [00:17<00:13, 57.21 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  34%|█████████████████████████▊                                                 | 385/1117 [00:17<00:11, 66.38 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  38%|████████████████████████████▏                                              | 420/1117 [00:18<00:09, 69.72 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  41%|██████████████████████████████▌                                            | 455/1117 [00:18<00:08, 74.35 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  44%|████████████████████████████████▉                                          | 490/1117 [00:18<00:08, 77.79 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  47%|███████████████████████████████████▎                                       | 525/1117 [00:19<00:07, 74.88 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  50%|█████████████████████████████████████▌                                     | 560/1117 [00:19<00:06, 79.64 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  53%|███████████████████████████████████████▉                                   | 595/1117 [00:20<00:06, 80.78 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  56%|██████████████████████████████████████████▎                                | 630/1117 [00:20<00:06, 79.73 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  60%|████████████████████████████████████████████▋                              | 665/1117 [00:21<00:05, 81.97 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  63%|███████████████████████████████████████████████                            | 700/1117 [00:21<00:05, 80.90 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  66%|█████████████████████████████████████████████████▎                         | 735/1117 [00:21<00:04, 81.67 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  69%|███████████████████████████████████████████████████▋                       | 770/1117 [00:22<00:04, 84.51 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  72%|██████████████████████████████████████████████████████                     | 805/1117 [00:22<00:03, 86.50 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  75%|████████████████████████████████████████████████████████▍                  | 840/1117 [00:23<00:03, 83.78 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  78%|██████████████████████████████████████████████████████████▊                | 875/1117 [00:23<00:02, 87.10 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  81%|█████████████████████████████████████████████████████████████              | 910/1117 [00:23<00:02, 86.28 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  85%|███████████████████████████████████████████████████████████████▍           | 945/1117 [00:24<00:01, 86.50 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  88%|█████████████████████████████████████████████████████████████████▊         | 980/1117 [00:24<00:01, 87.65 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  91%|███████████████████████████████████████████████████████████████████▏      | 1015/1117 [00:24<00:01, 95.06 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  94%|█████████████████████████████████████████████████████████████████████▍    | 1049/1117 [00:25<00:00, 94.69 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32):  97%|███████████████████████████████████████████████████████████████████████▋  | 1083/1117 [00:25<00:00, 96.15 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████| 1117/1117 [00:26<00:00, 97.90 examples/s]Unsloth: Tokenizing ["text"] (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████| 1117/1117 [00:29<00:00, 38.44 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Map (num_proc=32):   0%|                                                                                                              | 0/1117 [00:00<?, ? examples/s]Map (num_proc=32):   3%|███▏                                                                                                 | 35/1117 [00:11<06:02,  2.98 examples/s]Map (num_proc=32):  16%|███████████████▋                                                                                    | 175/1117 [00:11<00:47, 19.75 examples/s]Map (num_proc=32):  31%|███████████████████████████████▎                                                                    | 350/1117 [00:11<00:15, 48.83 examples/s]Map (num_proc=32):  78%|█████████████████████████████████████████████████████████████████████████████▌                     | 875/1117 [00:12<00:01, 170.21 examples/s]Map (num_proc=32): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 1117/1117 [00:15<00:00, 74.31 examples/s]
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Filter (num_proc=32):   0%|                                                                                                           | 0/1117 [00:00<?, ? examples/s]Filter (num_proc=32):   3%|███                                                                                               | 35/1117 [00:11<06:03,  2.98 examples/s]Filter (num_proc=32):  25%|████████████████████████▎                                                                        | 280/1117 [00:11<00:25, 32.37 examples/s]Filter (num_proc=32):  47%|█████████████████████████████████████████████▌                                                   | 525/1117 [00:11<00:08, 73.11 examples/s]Filter (num_proc=32): 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 1117/1117 [00:12<00:00, 210.53 examples/s]Filter (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████████████████████████| 1117/1117 [00:14<00:00, 74.71 examples/s]
Unsloth: Removed 196 out of 1117 samples from train_dataset where all labels were -100 (no response found after truncation). This prevents NaN loss during training.
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 921 | Num Epochs = 1 | Total steps = 17
O^O/ \_/ \    Batch size per device = 4 | Gradient accumulation steps = 8
\        /    Data Parallel GPUs = 1 | Total batch size (4 x 8 x 1) = 32
 "-____-"     Trainable parameters = 232,783,872 of 9,642,597,616 (2.41% trained)
  0%|                                                                                                                                          | 0/17 [00:00<?, ?it/s]  6%|███████▋                                                                                                                          | 1/17 [00:17<04:44, 17.78s/it] 12%|███████████████▎                                                                                                                  | 2/17 [00:35<04:22, 17.52s/it] 18%|██████████████████████▉                                                                                                           | 3/17 [00:53<04:10, 17.88s/it] 24%|██████████████████████████████▌                                                                                                   | 4/17 [01:10<03:49, 17.68s/it] 29%|██████████████████████████████████████▏                                                                                           | 5/17 [01:28<03:32, 17.68s/it] 35%|█████████████████████████████████████████████▉                                                                                    | 6/17 [01:46<03:16, 17.84s/it] 41%|█████████████████████████████████████████████████████▌                                                                            | 7/17 [02:04<02:56, 17.69s/it] 47%|█████████████████████████████████████████████████████████████▏                                                                    | 8/17 [02:21<02:37, 17.51s/it] 53%|████████████████████████████████████████████████████████████████████▊                                                             | 9/17 [02:38<02:18, 17.34s/it] 59%|███████████████████████████████████████████████████████████████████████████▉                                                     | 10/17 [02:55<02:01, 17.34s/it] 65%|███████████████████████████████████████████████████████████████████████████████████▍                                             | 11/17 [03:12<01:43, 17.33s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████                                      | 12/17 [03:30<01:26, 17.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 13/17 [03:47<01:09, 17.40s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 14/17 [04:05<00:52, 17.46s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 15/17 [04:22<00:34, 17.44s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 16/17 [04:40<00:17, 17.52s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 17/17 [04:57<00:00, 17.41s/it]                                                                                                                                                                      {'train_runtime': '300', 'train_samples_per_second': '1.814', 'train_steps_per_second': '0.057', 'train_loss': '0.3242', 'epoch': '0.5887'}
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 17/17 [04:59<00:00, 17.41s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 17/17 [04:59<00:00, 17.64s/it]
num_proc must be <= 21. Reducing num_proc to 21 for dataset of size 21.
[datasets.arrow_dataset|WARNING]num_proc must be <= 21. Reducing num_proc to 21 for dataset of size 21.
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Extracting prompt in train dataset (num_proc=21):   0%|                                                                                 | 0/21 [00:00<?, ? examples/s]Extracting prompt in train dataset (num_proc=21):   5%|███▍                                                                     | 1/21 [00:07<02:36,  7.84s/ examples]Extracting prompt in train dataset (num_proc=21):  43%|███████████████████████████████▎                                         | 9/21 [00:07<00:07,  1.56 examples/s]Extracting prompt in train dataset (num_proc=21): 100%|████████████████████████████████████████████████████████████████████████| 21/21 [00:10<00:00,  2.05 examples/s]
num_proc must be <= 21. Reducing num_proc to 21 for dataset of size 21.
[datasets.arrow_dataset|WARNING]num_proc must be <= 21. Reducing num_proc to 21 for dataset of size 21.
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Applying chat template to train dataset (num_proc=21):   0%|                                                                            | 0/21 [00:00<?, ? examples/s]Applying chat template to train dataset (num_proc=21):   5%|███▏                                                                | 1/21 [00:09<03:10,  9.54s/ examples]Applying chat template to train dataset (num_proc=21):  10%|██████▍                                                             | 2/21 [00:09<01:19,  4.17s/ examples]Applying chat template to train dataset (num_proc=21):  14%|█████████▋                                                          | 3/21 [00:10<00:43,  2.44s/ examples]Applying chat template to train dataset (num_proc=21):  19%|████████████▉                                                       | 4/21 [00:10<00:27,  1.63s/ examples]Applying chat template to train dataset (num_proc=21):  24%|████████████████▏                                                   | 5/21 [00:11<00:19,  1.19s/ examples]Applying chat template to train dataset (num_proc=21):  29%|███████████████████▍                                                | 6/21 [00:11<00:13,  1.09 examples/s]Applying chat template to train dataset (num_proc=21):  33%|██████████████████████▋                                             | 7/21 [00:11<00:10,  1.32 examples/s]Applying chat template to train dataset (num_proc=21):  38%|█████████████████████████▉                                          | 8/21 [00:12<00:08,  1.58 examples/s]Applying chat template to train dataset (num_proc=21):  43%|█████████████████████████████▏                                      | 9/21 [00:12<00:06,  1.78 examples/s]Applying chat template to train dataset (num_proc=21):  48%|███████████████████████████████▉                                   | 10/21 [00:13<00:05,  1.96 examples/s]Applying chat template to train dataset (num_proc=21):  52%|███████████████████████████████████                                | 11/21 [00:13<00:04,  2.11 examples/s]Applying chat template to train dataset (num_proc=21):  57%|██████████████████████████████████████▎                            | 12/21 [00:14<00:05,  1.73 examples/s]Applying chat template to train dataset (num_proc=21):  67%|████████████████████████████████████████████▋                      | 14/21 [00:14<00:02,  2.48 examples/s]Applying chat template to train dataset (num_proc=21):  71%|███████████████████████████████████████████████▊                   | 15/21 [00:15<00:02,  2.50 examples/s]Applying chat template to train dataset (num_proc=21):  76%|███████████████████████████████████████████████████                | 16/21 [00:15<00:02,  2.48 examples/s]Applying chat template to train dataset (num_proc=21):  81%|██████████████████████████████████████████████████████▏            | 17/21 [00:15<00:01,  2.52 examples/s]Applying chat template to train dataset (num_proc=21):  86%|█████████████████████████████████████████████████████████▍         | 18/21 [00:16<00:01,  2.63 examples/s]Applying chat template to train dataset (num_proc=21):  90%|████████████████████████████████████████████████████████████▌      | 19/21 [00:16<00:00,  2.64 examples/s]Applying chat template to train dataset (num_proc=21):  95%|███████████████████████████████████████████████████████████████▊   | 20/21 [00:16<00:00,  3.00 examples/s]Applying chat template to train dataset (num_proc=21): 100%|███████████████████████████████████████████████████████████████████| 21/21 [00:17<00:00,  3.10 examples/s]Applying chat template to train dataset (num_proc=21): 100%|███████████████████████████████████████████████████████████████████| 21/21 [00:19<00:00,  1.09 examples/s]
num_proc must be <= 21. Reducing num_proc to 21 for dataset of size 21.
[datasets.arrow_dataset|WARNING]num_proc must be <= 21. Reducing num_proc to 21 for dataset of size 21.
Setting TOKENIZERS_PARALLELISM=false for forked processes.
[datasets.arrow_dataset|WARNING]Setting TOKENIZERS_PARALLELISM=false for forked processes.
Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:00<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:09<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:09<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:10<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:10<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:10<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:11<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:11<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:12<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:12<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:12<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:13<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:13<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:14<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:14<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:14<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:15<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:15<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:16<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:16<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:16<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:16<?, ? examples/s]Tokenizing train dataset (num_proc=21):   0%|                                                                                           | 0/21 [00:19<?, ? examples/s]
      Gen code: ~20.8s for 29 problems
      Gen math: ~5.7s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~31.7s for 29 problems
      Gen math: ~8.7s for 8 problems
    [DAPO] Low signal: only 1/37 problems had mixed results
      Gen code: ~63.1s for 29 problems
      Gen math: ~17.4s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results
      Gen code: ~22.1s for 29 problems
      Gen math: ~6.1s for 8 problems
    [DAPO] Low signal: only 0/37 problems had mixed results

  SHUTDOWN REQUESTED — finishing current cycle then saving...

  FORCE QUIT

  FORCE QUIT
Exception ignored in: <function WeakSet.__init__.<locals>._remove at 0x7f5281f64550>
Traceback (most recent call last):
  File "/venv/main/lib/python3.10/_weakrefset.py", line 39, in _remove
    def _remove(item, selfref=ref(self)):
  File "/workspace/my-ai/td_clean_v2.py", line 3657, in _handle_shutdown
    sys.exit(1)
SystemExit: 1