ZetangForward commited on Jan 28

Commit

393ba8c

verified ·

1 Parent(s): 90d4408

Synced from ModelScope: LCM_group/moba_qwen3-4b (Auto-fixed license)

Browse files

Files changed (26) hide show

.gitattributes +2 -0
.mdl +0 -0
.msc +0 -0
.mv +1 -0
README.md +48 -0
added_tokens.json +28 -0
all_results.json +8 -0
config.json +35 -0
generation_config.json +13 -0
log_20251217_232021.out +265 -0
log_20251217_232101.out +0 -0
merges.txt +0 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +406 -0
run-20251217_233019-b3ly702fm741dd93khyrv/backup.swanlab +3 -0
run-20251217_233019-b3ly702fm741dd93khyrv/files/config.yaml +976 -0
run-20251217_233019-b3ly702fm741dd93khyrv/files/requirements.txt +346 -0
run-20251217_233019-b3ly702fm741dd93khyrv/files/swanlab-metadata.json +1 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +240 -0
train_results.json +8 -0
trainer_state.json +0 -0
training_args.bin +3 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+run-20251217_233019-b3ly702fm741dd93khyrv/backup.swanlab filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

.mdl ADDED Viewed

Binary file (46 Bytes). View file

.msc ADDED Viewed

Binary file (1.93 kB). View file

.mv ADDED Viewed

	@@ -0,0 +1 @@


1	+ Revision:master,CreatedAt:1768899057

README.md ADDED Viewed

	@@ -0,0 +1,48 @@

+---
+license: other
+tags: []
+#model-type:
+##如 gpt、phi、llama、chatglm、baichuan 等
+#- gpt
+#domain:
+##如 nlp、cv、audio、multi-modal
+#- nlp
+#language:
+##语言代码列表 https://help.aliyun.com/document_detail/215387.html?spm=a2c4g.11186623.0.0.9f8d7467kni6Aa
+#- cn
+#metrics:
+##如 CIDEr、Blue、ROUGE 等
+#- CIDEr
+#tags:
+##各种自定义，包括 pretrained、fine-tuned、instruction-tuned、RL-tuned 等训练方法和其他
+#- pretrained
+#tools:
+##如 vllm、fastchat、llamacpp、AdaSeq 等
+#- vllm
+---
+### 当前模型的贡献者未提供更加详细的模型介绍。模型文件和权重，可浏览“模型文件”页面获取。
+#### 您可以通过如下git clone命令，或者ModelScope SDK来下载模型
+SDK下载
+```bash
+#安装ModelScope
+pip install modelscope
+```
+```python
+#SDK模型下载
+from modelscope import snapshot_download
+model_dir = snapshot_download('tang031223/moba')
+```
+Git下载
+```
+#Git模型下载
+git clone https://www.modelscope.cn/tang031223/moba.git
+```
+<p style="color: lightgrey;">如果您是本模型的贡献者，我们邀请您根据<a href="https://modelscope.cn/docs/ModelScope%E6%A8%A1%E5%9E%8B%E6%8E%A5%E5%85%A5%E6%B5%81%E7%A8%8B%E6%A6%82%E8%A7%88" style="color: lightgrey; text-decoration: underline;">模型贡献文档</a>，及时完善模型卡片内容。</p>

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 0.2249212775528565,
+    "num_input_tokens_seen": 262144000,
+    "train_loss": 1.4907063425183296,
+    "train_runtime": 24201.9893,
+    "train_samples_per_second": 0.331,
+    "train_steps_per_second": 0.041
+}

config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 2560,
+  "initializer_range": 0.02,
+  "intermediate_size": 9728,
+  "max_position_embeddings": 262144,
+  "max_window_layers": 36,
+  "model_type": "qwen3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "factor": 8.0,
+    "original_max_position_embeddings": 40960,
+    "rope_type": "yarn",
+    "type": "yarn"
+  },
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.1",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.6,
+  "top_k": 20,
+  "top_p": 0.95,
+  "transformers_version": "4.51.1"
+}

log_20251217_232021.out ADDED Viewed

	@@ -0,0 +1,265 @@

+Traceback (most recent call last):
+  File "<frozen runpy>", line 198, in _run_module_as_main
+  File "<frozen runpy>", line 88, in _run_code
+  File "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/training/moba_train.py", line 214, in <module>
+    main()
+  File "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/training/moba_train.py", line 48, in main
+    script_args, training_args, data_args = parser.parse_args_into_dataclasses()
+                                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/hf_argparser.py", line 358, in parse_args_into_dataclasses
+    obj = dtype(**inputs)
+          ^^^^^^^^^^^^^^^
+  File "<string>", line 164, in __init__
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 1761, in __post_init__
+    self.device
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 2297, in device
+    return self._setup_devices
+           ^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/utils/generic.py", line 67, in __get__
+    cached = self.fget(obj)
+             ^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 2224, in _setup_devices
+    self.distributed_state = PartialState(**accelerator_state_kwargs)
+                             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/accelerate/state.py", line 207, in __init__
+    raise ImportError(
+ImportError: DeepSpeed is not available => install it using `pip3 install deepspeed` or build it from source
+Traceback (most recent call last):
+  File "<frozen runpy>", line 198, in _run_module_as_main
+  File "<frozen runpy>", line 88, in _run_code
+  File "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/training/moba_train.py", line 214, in <module>
+    main()
+  File "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/training/moba_train.py", line 48, in main
+    script_args, training_args, data_args = parser.parse_args_into_dataclasses()
+                                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/hf_argparser.py", line 358, in parse_args_into_dataclasses
+    obj = dtype(**inputs)
+          ^^^^^^^^^^^^^^^
+  File "<string>", line 164, in __init__
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 1761, in __post_init__
+    self.device
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 2297, in device
+    return self._setup_devices
+           ^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/utils/generic.py", line 67, in __get__
+    cached = self.fget(obj)
+             ^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 2224, in _setup_devices
+    self.distributed_state = PartialState(**accelerator_state_kwargs)
+                             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/accelerate/state.py", line 207, in __init__
+    raise ImportError(
+ImportError: DeepSpeed is not available => install it using `pip3 install deepspeed` or build it from source
+Traceback (most recent call last):
+  File "<frozen runpy>", line 198, in _run_module_as_main
+  File "<frozen runpy>", line 88, in _run_code
+  File "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/training/moba_train.py", line 214, in <module>
+    main()
+  File "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/training/moba_train.py", line 48, in main
+    script_args, training_args, data_args = parser.parse_args_into_dataclasses()
+                                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/hf_argparser.py", line 358, in parse_args_into_dataclasses
+    obj = dtype(**inputs)
+          ^^^^^^^^^^^^^^^
+  File "<string>", line 164, in __init__
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 1761, in __post_init__
+    self.device
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 2297, in device
+    return self._setup_devices
+           ^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/utils/generic.py", line 67, in __get__
+    cached = self.fget(obj)
+             ^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 2224, in _setup_devices
+    self.distributed_state = PartialState(**accelerator_state_kwargs)
+                             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/accelerate/state.py", line 207, in __init__
+    raise ImportError(
+ImportError: DeepSpeed is not available => install it using `pip3 install deepspeed` or build it from source
+Traceback (most recent call last):
+  File "<frozen runpy>", line 198, in _run_module_as_main
+  File "<frozen runpy>", line 88, in _run_code
+  File "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/training/moba_train.py", line 214, in <module>
+    main()
+  File "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/training/moba_train.py", line 48, in main
+    script_args, training_args, data_args = parser.parse_args_into_dataclasses()
+                                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/hf_argparser.py", line 358, in parse_args_into_dataclasses
+    obj = dtype(**inputs)
+          ^^^^^^^^^^^^^^^
+  File "<string>", line 164, in __init__
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 1761, in __post_init__
+    self.device
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 2297, in device
+    return self._setup_devices
+           ^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/utils/generic.py", line 67, in __get__
+    cached = self.fget(obj)
+             ^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 2224, in _setup_devices
+    self.distributed_state = PartialState(**accelerator_state_kwargs)
+                             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/accelerate/state.py", line 207, in __init__
+    raise ImportError(
+ImportError: DeepSpeed is not available => install it using `pip3 install deepspeed` or build it from source
+Traceback (most recent call last):
+  File "<frozen runpy>", line 198, in _run_module_as_main
+  File "<frozen runpy>", line 88, in _run_code
+  File "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/training/moba_train.py", line 214, in <module>
+    main()
+  File "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/training/moba_train.py", line 48, in main
+    script_args, training_args, data_args = parser.parse_args_into_dataclasses()
+                                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/hf_argparser.py", line 358, in parse_args_into_dataclasses
+    obj = dtype(**inputs)
+          ^^^^^^^^^^^^^^^
+  File "<string>", line 164, in __init__
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 1761, in __post_init__
+    self.device
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 2297, in device
+    return self._setup_devices
+           ^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/utils/generic.py", line 67, in __get__
+    cached = self.fget(obj)
+             ^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 2224, in _setup_devices
+    self.distributed_state = PartialState(**accelerator_state_kwargs)
+                             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/accelerate/state.py", line 207, in __init__
+    raise ImportError(
+ImportError: DeepSpeed is not available => install it using `pip3 install deepspeed` or build it from source
+Traceback (most recent call last):
+  File "<frozen runpy>", line 198, in _run_module_as_main
+  File "<frozen runpy>", line 88, in _run_code
+  File "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/training/moba_train.py", line 214, in <module>
+    main()
+  File "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/training/moba_train.py", line 48, in main
+    script_args, training_args, data_args = parser.parse_args_into_dataclasses()
+                                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/hf_argparser.py", line 358, in parse_args_into_dataclasses
+    obj = dtype(**inputs)
+          ^^^^^^^^^^^^^^^
+  File "<string>", line 164, in __init__
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 1761, in __post_init__
+    self.device
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 2297, in device
+    return self._setup_devices
+           ^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/utils/generic.py", line 67, in __get__
+    cached = self.fget(obj)
+             ^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 2224, in _setup_devices
+    self.distributed_state = PartialState(**accelerator_state_kwargs)
+                             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/accelerate/state.py", line 207, in __init__
+    raise ImportError(
+ImportError: DeepSpeed is not available => install it using `pip3 install deepspeed` or build it from source
+Traceback (most recent call last):
+  File "<frozen runpy>", line 198, in _run_module_as_main
+  File "<frozen runpy>", line 88, in _run_code
+  File "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/training/moba_train.py", line 214, in <module>
+    main()
+  File "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/training/moba_train.py", line 48, in main
+    script_args, training_args, data_args = parser.parse_args_into_dataclasses()
+                                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/hf_argparser.py", line 358, in parse_args_into_dataclasses
+    obj = dtype(**inputs)
+          ^^^^^^^^^^^^^^^
+  File "<string>", line 164, in __init__
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 1761, in __post_init__
+    self.device
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 2297, in device
+    return self._setup_devices
+           ^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/utils/generic.py", line 67, in __get__
+    cached = self.fget(obj)
+             ^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 2224, in _setup_devices
+    self.distributed_state = PartialState(**accelerator_state_kwargs)
+                             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/accelerate/state.py", line 207, in __init__
+    raise ImportError(
+ImportError: DeepSpeed is not available => install it using `pip3 install deepspeed` or build it from source
+Traceback (most recent call last):
+  File "<frozen runpy>", line 198, in _run_module_as_main
+  File "<frozen runpy>", line 88, in _run_code
+  File "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/training/moba_train.py", line 214, in <module>
+    main()
+  File "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/training/moba_train.py", line 48, in main
+    script_args, training_args, data_args = parser.parse_args_into_dataclasses()
+                                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/hf_argparser.py", line 358, in parse_args_into_dataclasses
+    obj = dtype(**inputs)
+          ^^^^^^^^^^^^^^^
+  File "<string>", line 164, in __init__
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 1761, in __post_init__
+    self.device
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 2297, in device
+    return self._setup_devices
+           ^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/utils/generic.py", line 67, in __get__
+    cached = self.fget(obj)
+             ^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/transformers/training_args.py", line 2224, in _setup_devices
+    self.distributed_state = PartialState(**accelerator_state_kwargs)
+                             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/accelerate/state.py", line 207, in __init__
+    raise ImportError(
+ImportError: DeepSpeed is not available => install it using `pip3 install deepspeed` or build it from source
+W1217 23:20:28.243000 432111 site-packages/torch/distributed/elastic/multiprocessing/api.py:897] Sending process 432131 closing signal SIGTERM
+W1217 23:20:28.244000 432111 site-packages/torch/distributed/elastic/multiprocessing/api.py:897] Sending process 432132 closing signal SIGTERM
+W1217 23:20:28.244000 432111 site-packages/torch/distributed/elastic/multiprocessing/api.py:897] Sending process 432134 closing signal SIGTERM
+W1217 23:20:28.244000 432111 site-packages/torch/distributed/elastic/multiprocessing/api.py:897] Sending process 432136 closing signal SIGTERM
+E1217 23:20:28.509000 432111 site-packages/torch/distributed/elastic/multiprocessing/api.py:869] failed (exitcode: 1) local_rank: 2 (pid: 432133) of binary: /opt/conda/envs/qqt/bin/python3.11
+Traceback (most recent call last):
+  File "/opt/conda/envs/qqt/bin/torchrun", line 7, in <module>
+    sys.exit(main())
+             ^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/torch/distributed/elastic/multiprocessing/errors/__init__.py", line 355, in wrapper
+    return f(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/torch/distributed/run.py", line 918, in main
+    run(args)
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/torch/distributed/run.py", line 909, in run
+    elastic_launch(
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/torch/distributed/launcher/api.py", line 138, in __call__
+    return launch_agent(self._config, self._entrypoint, list(args))
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/opt/conda/envs/qqt/lib/python3.11/site-packages/torch/distributed/launcher/api.py", line 269, in launch_agent
+    raise ChildFailedError(
+torch.distributed.elastic.multiprocessing.errors.ChildFailedError:
+============================================================
+training.moba_train FAILED
+------------------------------------------------------------
+Failures:
+[1]:
+  time      : 2025-12-17_23:20:28
+  host      : pod-1436390728976789504
+  rank      : 4 (local_rank: 4)
+  exitcode  : 1 (pid: 432135)
+  error_file: <N/A>
+  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
+[2]:
+  time      : 2025-12-17_23:20:28
+  host      : pod-1436390728976789504
+  rank      : 6 (local_rank: 6)
+  exitcode  : 1 (pid: 432137)
+  error_file: <N/A>
+  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
+[3]:
+  time      : 2025-12-17_23:20:28
+  host      : pod-1436390728976789504
+  rank      : 7 (local_rank: 7)
+  exitcode  : 1 (pid: 432138)
+  error_file: <N/A>
+  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
+------------------------------------------------------------
+Root Cause (first observed failure):
+[0]:
+  time      : 2025-12-17_23:20:28
+  host      : pod-1436390728976789504
+  rank      : 2 (local_rank: 2)
+  exitcode  : 1 (pid: 432133)
+  error_file: <N/A>
+  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
+============================================================

log_20251217_232101.out ADDED Viewed

The diff for this file is too large to render. See raw diff

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d61b9729f5448250e9d65b6d229c42a32874c2b23426e821527baf735f041ec8
+size 4967215360

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60d07fa2fdf2a64b10e1bd519a01468ba775a2df4e41321de0c413da4717a465
+size 3855679144

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,406 @@

+{
+  "metadata": {
+    "total_size": 8822848512
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

run-20251217_233019-b3ly702fm741dd93khyrv/backup.swanlab ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df0130e9b68d4ce9b61a88fa90bdc3731a76974ed66df4d793436e904dc15b52
+size 6777820

run-20251217_233019-b3ly702fm741dd93khyrv/files/config.yaml ADDED Viewed

	@@ -0,0 +1,976 @@

+FRAMEWORK:
+  desc: ''
+  sort: 0
+  value: 🤗transformers
+_attn_implementation_autoset:
+  desc: ''
+  sort: 74
+  value: true
+_name_or_path:
+  desc: ''
+  sort: 73
+  value: /workspace/mnt/hf_models/Qwen3-4B
+accelerator_config:
+  desc: ''
+  sort: 156
+  value:
+    dispatch_batches: null
+    even_batches: true
+    gradient_accumulation_kwargs: null
+    non_blocking: false
+    split_batches: false
+    use_seedable_sampler: true
+adafactor:
+  desc: ''
+  sort: 161
+  value: false
+adam_beta1:
+  desc: ''
+  sort: 94
+  value: 0.9
+adam_beta2:
+  desc: ''
+  sort: 95
+  value: 0.95
+adam_epsilon:
+  desc: ''
+  sort: 96
+  value: 1.0e-08
+add_cross_attention:
+  desc: ''
+  sort: 33
+  value: false
+architectures:
+  desc: ''
+  sort: 60
+  value:
+  - Qwen3ForCausalLM
+attention_bias:
+  desc: ''
+  sort: 18
+  value: false
+attention_dropout:
+  desc: ''
+  sort: 19
+  value: 0.0
+attention_type:
+  desc: ''
+  sort: 226
+  value: moba
+auto_find_batch_size:
+  desc: ''
+  sort: 189
+  value: false
+average_tokens_across_devices:
+  desc: ''
+  sort: 205
+  value: false
+bad_words_ids:
+  desc: ''
+  sort: 50
+  value: null
+batch_eval_metrics:
+  desc: ''
+  sort: 201
+  value: false
+begin_suppress_tokens:
+  desc: ''
+  sort: 59
+  value: null
+bf16:
+  desc: ''
+  sort: 126
+  value: true
+bf16_full_eval:
+  desc: ''
+  sort: 130
+  value: false
+bos_token_id:
+  desc: ''
+  sort: 66
+  value: 151643
+chunk_size_feed_forward:
+  desc: ''
+  sort: 29
+  value: 0
+context_window_if_toggled:
+  desc: ''
+  sort: 218
+  value: 4096
+cross_attention_hidden_size:
+  desc: ''
+  sort: 32
+  value: null
+cuda_empty_cache:
+  desc: ''
+  sort: 208
+  value: true
+data_seed:
+  desc: ''
+  sort: 123
+  value: null
+dataloader_drop_last:
+  desc: ''
+  sort: 138
+  value: false
+dataloader_num_workers:
+  desc: ''
+  sort: 140
+  value: 1
+dataloader_persistent_workers:
+  desc: ''
+  sort: 169
+  value: false
+dataloader_pin_memory:
+  desc: ''
+  sort: 168
+  value: true
+dataloader_prefetch_factor:
+  desc: ''
+  sort: 141
+  value: null
+ddp_backend:
+  desc: ''
+  sort: 134
+  value: null
+ddp_broadcast_buffers:
+  desc: ''
+  sort: 167
+  value: null
+ddp_bucket_cap_mb:
+  desc: ''
+  sort: 166
+  value: null
+ddp_find_unused_parameters:
+  desc: ''
+  sort: 165
+  value: false
+ddp_timeout:
+  desc: ''
+  sort: 193
+  value: 1800
+debug:
+  desc: ''
+  sort: 137
+  value: []
+decoder_start_token_id:
+  desc: ''
+  sort: 70
+  value: null
+deepspeed:
+  desc: ''
+  sort: 157
+  value: /workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/deepspeed_stage2.json
+disable_linear_regularization_term:
+  desc: ''
+  sort: 217
+  value: false
+disable_tqdm:
+  desc: ''
+  sort: 144
+  value: true
+diversity_penalty:
+  desc: ''
+  sort: 41
+  value: 0.0
+do_eval:
+  desc: ''
+  sort: 80
+  value: false
+do_predict:
+  desc: ''
+  sort: 81
+  value: false
+do_sample:
+  desc: ''
+  sort: 37
+  value: false
+do_train:
+  desc: ''
+  sort: 79
+  value: true
+early_stopping:
+  desc: ''
+  sort: 38
+  value: false
+enable_ada_sparsity:
+  desc: ''
+  sort: 230
+  value: false
+enable_layerwise_sparsity:
+  desc: ''
+  sort: 231
+  value: false
+encoder_no_repeat_ngram_size:
+  desc: ''
+  sort: 49
+  value: 0
+end_head_sparsity:
+  desc: ''
+  sort: 212
+  value: 0.95
+eos_token_id:
+  desc: ''
+  sort: 68
+  value: 151645
+erank_analysis_path:
+  desc: ''
+  sort: 237
+  value: null
+eval_accumulation_steps:
+  desc: ''
+  sort: 89
+  value: null
+eval_delay:
+  desc: ''
+  sort: 90
+  value: 0
+eval_do_concat_batches:
+  desc: ''
+  sort: 183
+  value: true
+eval_on_start:
+  desc: ''
+  sort: 202
+  value: false
+eval_steps:
+  desc: ''
+  sort: 139
+  value: null
+eval_strategy:
+  desc: ''
+  sort: 82
+  value: 'no'
+eval_use_gather_object:
+  desc: ''
+  sort: 204
+  value: false
+exponential_decay_length_penalty:
+  desc: ''
+  sort: 57
+  value: null
+finetuning_task:
+  desc: ''
+  sort: 61
+  value: null
+forced_bos_token_id:
+  desc: ''
+  sort: 54
+  value: null
+forced_eos_token_id:
+  desc: ''
+  sort: 55
+  value: null
+fp16:
+  desc: ''
+  sort: 127
+  value: false
+fp16_backend:
+  desc: ''
+  sort: 184
+  value: auto
+fp16_full_eval:
+  desc: ''
+  sort: 131
+  value: false
+fp16_opt_level:
+  desc: ''
+  sort: 128
+  value: O1
+freeze_mask_parameters:
+  desc: ''
+  sort: 220
+  value: false
+freeze_non_mask_parameters:
+  desc: ''
+  sort: 219
+  value: false
+fsdp:
+  desc: ''
+  sort: 151
+  value: []
+fsdp_config:
+  desc: ''
+  sort: 153
+  value:
+    min_num_params: 0
+    xla: false
+    xla_fsdp_grad_ckpt: false
+    xla_fsdp_v2: false
+fsdp_min_num_params:
+  desc: ''
+  sort: 152
+  value: 0
+fsdp_transformer_layer_cls_to_wrap:
+  desc: ''
+  sort: 155
+  value: null
+full_determinism:
+  desc: ''
+  sort: 190
+  value: false
+gradient_accumulation_steps:
+  desc: ''
+  sort: 88
+  value: 1
+gradient_checkpointing:
+  desc: ''
+  sort: 179
+  value: true
+gradient_checkpointing_kwargs:
+  desc: ''
+  sort: 180
+  value: null
+greater_is_better:
+  desc: ''
+  sort: 149
+  value: null
+group_by_length:
+  desc: ''
+  sort: 162
+  value: false
+half_precision_backend:
+  desc: ''
+  sort: 129
+  value: auto
+head_dim:
+  desc: ''
+  sort: 11
+  value: 128
+hidden_act:
+  desc: ''
+  sort: 12
+  value: silu
+hidden_size:
+  desc: ''
+  sort: 3
+  value: 2560
+hub_always_push:
+  desc: ''
+  sort: 178
+  value: false
+hub_model_id:
+  desc: ''
+  sort: 174
+  value: null
+hub_private_repo:
+  desc: ''
+  sort: 177
+  value: null
+hub_strategy:
+  desc: ''
+  sort: 175
+  value: every_save
+hub_token:
+  desc: ''
+  sort: 176
+  value: <HUB_TOKEN>
+id2label:
+  desc: ''
+  sort: 62
+  value:
+    '0': LABEL_0
+    '1': LABEL_1
+ignore_data_skip:
+  desc: ''
+  sort: 150
+  value: false
+include_for_metrics:
+  desc: ''
+  sort: 182
+  value: []
+include_inputs_for_metrics:
+  desc: ''
+  sort: 181
+  value: false
+include_num_input_tokens_seen:
+  desc: ''
+  sort: 198
+  value: false
+include_tokens_per_second:
+  desc: ''
+  sort: 197
+  value: false
+initializer_range:
+  desc: ''
+  sort: 13
+  value: 0.02
+intermediate_size:
+  desc: ''
+  sort: 4
+  value: 9728
+is_decoder:
+  desc: ''
+  sort: 31
+  value: false
+is_encoder_decoder:
+  desc: ''
+  sort: 30
+  value: false
+jit_mode_eval:
+  desc: ''
+  sort: 124
+  value: false
+label2id:
+  desc: ''
+  sort: 63
+  value:
+    LABEL_0: 0
+    LABEL_1: 1
+label_names:
+  desc: ''
+  sort: 146
+  value: null
+label_smoothing_factor:
+  desc: ''
+  sort: 158
+  value: 0.0
+layerwise_sparsity_max_ratio:
+  desc: ''
+  sort: 234
+  value: 1.0
+layerwise_sparsity_min_ratio:
+  desc: ''
+  sort: 233
+  value: 0.5
+layerwise_sparsity_power:
+  desc: ''
+  sort: 235
+  value: 1.0
+layerwise_sparsity_schedule:
+  desc: ''
+  sort: 232
+  value: high-low-high
+layerwise_sparsity_weight:
+  desc: ''
+  sort: 236
+  value: 1.0
+learning_rate:
+  desc: ''
+  sort: 92
+  value: 1.0e-05
+length_column_name:
+  desc: ''
+  sort: 163
+  value: length
+length_penalty:
+  desc: ''
+  sort: 47
+  value: 1.0
+load_best_model_at_end:
+  desc: ''
+  sort: 147
+  value: false
+load_masks_from:
+  desc: ''
+  sort: 224
+  value: null
+load_masks_sparsity:
+  desc: ''
+  sort: 225
+  value: null
+local_rank:
+  desc: ''
+  sort: 133
+  value: 0
+log_level:
+  desc: ''
+  sort: 104
+  value: info
+log_level_replica:
+  desc: ''
+  sort: 105
+  value: warning
+log_on_each_node:
+  desc: ''
+  sort: 106
+  value: true
+logging_dir:
+  desc: ''
+  sort: 107
+  value: checkpoints/moba_qwen3_Qwen3-4B_bsz8_steps1000_lr1e-5_warmup0.1_/runs/Dec17_23-21-08_pod-1436390728976789504
+logging_first_step:
+  desc: ''
+  sort: 109
+  value: false
+logging_nan_inf_filter:
+  desc: ''
+  sort: 111
+  value: true
+logging_steps:
+  desc: ''
+  sort: 110
+  value: 1.0
+logging_strategy:
+  desc: ''
+  sort: 108
+  value: steps
+lr_scheduler_kwargs:
+  desc: ''
+  sort: 101
+  value: {}
+lr_scheduler_type:
+  desc: ''
+  sort: 100
+  value: cosine
+mask_learning_rate:
+  desc: ''
+  sort: 213
+  value: 0.001
+max_grad_norm:
+  desc: ''
+  sort: 97
+  value: 1.0
+max_length:
+  desc: ''
+  sort: 35
+  value: 20
+max_position_embeddings:
+  desc: ''
+  sort: 2
+  value: 40960
+max_steps:
+  desc: ''
+  sort: 99
+  value: 1000
+max_window_layers:
+  desc: ''
+  sort: 9
+  value: 36
+metric_for_best_model:
+  desc: ''
+  sort: 148
+  value: null
+min_length:
+  desc: ''
+  sort: 36
+  value: 0
+min_lr_ratio:
+  desc: ''
+  sort: 206
+  value: 0.01
+model_num_parameters:
+  desc: ''
+  sort: 238
+  value: 4022468096
+model_type:
+  desc: ''
+  sort: 76
+  value: qwen3
+mp_parameters:
+  desc: ''
+  sort: 188
+  value: ''
+neftune_noise_alpha:
+  desc: ''
+  sort: 199
+  value: null
+no_cuda:
+  desc: ''
+  sort: 119
+  value: false
+no_repeat_ngram_size:
+  desc: ''
+  sort: 48
+  value: 0
+num_attention_heads:
+  desc: ''
+  sort: 6
+  value: 32
+num_beam_groups:
+  desc: ''
+  sort: 40
+  value: 1
+num_beams:
+  desc: ''
+  sort: 39
+  value: 1
+num_hidden_layers:
+  desc: ''
+  sort: 5
+  value: 36
+num_key_value_heads:
+  desc: ''
+  sort: 10
+  value: 8
+num_return_sequences:
+  desc: ''
+  sort: 51
+  value: 1
+num_train_epochs:
+  desc: ''
+  sort: 98
+  value: 3.0
+optim:
+  desc: ''
+  sort: 159
+  value: adamw_torch
+optim_args:
+  desc: ''
+  sort: 160
+  value: null
+optim_target_modules:
+  desc: ''
+  sort: 200
+  value: null
+ordered:
+  desc: ''
+  sort: 207
+  value: false
+output_attentions:
+  desc: ''
+  sort: 22
+  value: false
+output_dir:
+  desc: ''
+  sort: 77
+  value: checkpoints/moba_qwen3_Qwen3-4B_bsz8_steps1000_lr1e-5_warmup0.1_
+output_hidden_states:
+  desc: ''
+  sort: 21
+  value: false
+output_scores:
+  desc: ''
+  sort: 52
+  value: false
+overwrite_output_dir:
+  desc: ''
+  sort: 78
+  value: false
+pad_token_id:
+  desc: ''
+  sort: 67
+  value: null
+past_index:
+  desc: ''
+  sort: 142
+  value: -1
+per_device_eval_batch_size:
+  desc: ''
+  sort: 85
+  value: 1
+per_device_train_batch_size:
+  desc: ''
+  sort: 84
+  value: 1
+per_gpu_eval_batch_size:
+  desc: ''
+  sort: 87
+  value: null
+per_gpu_train_batch_size:
+  desc: ''
+  sort: 86
+  value: null
+prediction_loss_only:
+  desc: ''
+  sort: 83
+  value: false
+prefix:
+  desc: ''
+  sort: 65
+  value: null
+problem_type:
+  desc: ''
+  sort: 72
+  value: null
+pruned_heads:
+  desc: ''
+  sort: 27
+  value: {}
+push_to_hub:
+  desc: ''
+  sort: 172
+  value: false
+push_to_hub_model_id:
+  desc: ''
+  sort: 185
+  value: null
+push_to_hub_organization:
+  desc: ''
+  sort: 186
+  value: null
+push_to_hub_token:
+  desc: ''
+  sort: 187
+  value: <PUSH_TO_HUB_TOKEN>
+ray_scope:
+  desc: ''
+  sort: 192
+  value: last
+reg_learning_rate:
+  desc: ''
+  sort: 214
+  value: 0.001
+remove_invalid_values:
+  desc: ''
+  sort: 56
+  value: false
+remove_unused_columns:
+  desc: ''
+  sort: 145
+  value: false
+repetition_penalty:
+  desc: ''
+  sort: 46
+  value: 1.0
+report_to:
+  desc: ''
+  sort: 164
+  value:
+  - swanlab
+restore_callback_states_from_checkpoint:
+  desc: ''
+  sort: 118
+  value: false
+resume_from_checkpoint:
+  desc: ''
+  sort: 173
+  value: null
+return_dict:
+  desc: ''
+  sort: 20
+  value: true
+return_dict_in_generate:
+  desc: ''
+  sort: 53
+  value: false
+rms_norm_eps:
+  desc: ''
+  sort: 14
+  value: 1.0e-06
+rope_scaling:
+  desc: ''
+  sort: 17
+  value:
+    factor: 4.0
+    original_max_position_embeddings: 40960
+    rope_type: yarn
+    type: yarn
+rope_theta:
+  desc: ''
+  sort: 16
+  value: 1000000
+run_name:
+  desc: ''
+  sort: 143
+  value: moba_qwen3_Qwen3-4B_bsz8_steps1000_lr1e-5_warmup0.1_
+save_on_each_node:
+  desc: ''
+  sort: 116
+  value: false
+save_only_model:
+  desc: ''
+  sort: 117
+  value: false
+save_safetensors:
+  desc: ''
+  sort: 115
+  value: true
+save_steps:
+  desc: ''
+  sort: 113
+  value: 500
+save_strategy:
+  desc: ''
+  sort: 112
+  value: steps
+save_total_limit:
+  desc: ''
+  sort: 114
+  value: null
+seed:
+  desc: ''
+  sort: 122
+  value: 42
+sep_token_id:
+  desc: ''
+  sort: 69
+  value: null
+seq_parallel_size:
+  desc: ''
+  sort: 210
+  value: 1
+sink_size:
+  desc: ''
+  sort: 228
+  value: 128
+skip_memory_metrics:
+  desc: ''
+  sort: 170
+  value: true
+sliding_window:
+  desc: ''
+  sort: 8
+  value: null
+sparsity_warmup_ratio:
+  desc: ''
+  sort: 216
+  value: 0.05
+start_head_sparsity:
+  desc: ''
+  sort: 211
+  value: 0.0
+streaming_dataset:
+  desc: ''
+  sort: 209
+  value: true
+stripe_init_start_with_keep:
+  desc: ''
+  sort: 223
+  value: false
+stripe_init_width_1:
+  desc: ''
+  sort: 221
+  value: null
+stripe_init_width_2:
+  desc: ''
+  sort: 222
+  value: null
+suppress_tokens:
+  desc: ''
+  sort: 58
+  value: null
+task_specific_params:
+  desc: ''
+  sort: 71
+  value: null
+temperature:
+  desc: ''
+  sort: 42
+  value: 1.0
+tf32:
+  desc: ''
+  sort: 132
+  value: null
+tf_legacy_loss:
+  desc: ''
+  sort: 26
+  value: false
+tie_encoder_decoder:
+  desc: ''
+  sort: 34
+  value: false
+tie_word_embeddings:
+  desc: ''
+  sort: 28
+  value: true
+toggle_type:
+  desc: ''
+  sort: 227
+  value: streaming
+tokenizer_class:
+  desc: ''
+  sort: 64
+  value: null
+top_k:
+  desc: ''
+  sort: 43
+  value: 50
+top_p:
+  desc: ''
+  sort: 44
+  value: 1.0
+topk_k:
+  desc: ''
+  sort: 229
+  value: 2048
+torch_compile:
+  desc: ''
+  sort: 194
+  value: false
+torch_compile_backend:
+  desc: ''
+  sort: 195
+  value: null
+torch_compile_mode:
+  desc: ''
+  sort: 196
+  value: null
+torch_dtype:
+  desc: ''
+  sort: 24
+  value: bfloat16
+torch_empty_cache_steps:
+  desc: ''
+  sort: 91
+  value: null
+torchdynamo:
+  desc: ''
+  sort: 191
+  value: null
+torchscript:
+  desc: ''
+  sort: 23
+  value: false
+tp_size:
+  desc: ''
+  sort: 154
+  value: 0
+tpu_metrics_debug:
+  desc: ''
+  sort: 136
+  value: false
+tpu_num_cores:
+  desc: ''
+  sort: 135
+  value: null
+transformers_version:
+  desc: ''
+  sort: 75
+  value: 4.51.1
+typical_p:
+  desc: ''
+  sort: 45
+  value: 1.0
+use_bfloat16:
+  desc: ''
+  sort: 25
+  value: false
+use_cache:
+  desc: ''
+  sort: 15
+  value: false
+use_cpu:
+  desc: ''
+  sort: 120
+  value: false
+use_ipex:
+  desc: ''
+  sort: 125
+  value: false
+use_legacy_prediction_loop:
+  desc: ''
+  sort: 171
+  value: false
+use_liger_kernel:
+  desc: ''
+  sort: 203
+  value: false
+use_mps_device:
+  desc: ''
+  sort: 121
+  value: false
+use_sliding_window:
+  desc: ''
+  sort: 7
+  value: false
+vocab_size:
+  desc: ''
+  sort: 1
+  value: 151936
+warmup_ratio:
+  desc: ''
+  sort: 102
+  value: 0.1
+warmup_steps:
+  desc: ''
+  sort: 103
+  value: 0
+warmup_type:
+  desc: ''
+  sort: 215
+  value: linear
+weight_decay:
+  desc: ''
+  sort: 93
+  value: 0.1

run-20251217_233019-b3ly702fm741dd93khyrv/files/requirements.txt ADDED Viewed

	@@ -0,0 +1,346 @@

+absl-py==2.3.1
+accelerate==1.9.0
+aiohappyeyeballs==2.6.1
+aiohttp==3.12.14
+aiosignal==1.4.0
+airportsdata==20250706
+annotated-types==0.7.0
+anthropic==0.61.0
+anyio==4.9.0
+argcomplete==3.6.2
+argon2-cffi==25.1.0
+argon2-cffi-bindings==25.1.0
+arrow==1.3.0
+astor==0.8.1
+asttokens==3.0.0
+async-lru==2.0.5
+attrs==25.3.0
+autocommand==2.2.2
+azure-core==1.35.0
+azure-identity==1.23.1
+azure-storage-blob==12.26.0
+azure-storage-file-datalake==12.21.0
+babel==2.17.0
+backcall==0.2.0
+backoff==2.2.1
+backports.tarfile==1.2.0
+bcrypt==4.3.0
+beautifulsoup4==4.13.4
+blake3==1.0.5
+bleach==6.2.0
+blobfile==3.0.0
+block_sparse_attention_triton==0.1.0
+block_sparse_attn==0.0.1
+boto3==1.39.7
+botocore==1.39.7
+Brotli==1.1.0
+cachetools==5.5.2
+certifi==2025.7.14
+cffi==1.17.1
+charset-normalizer==3.4.2
+circuitbreaker==2.1.3
+click==8.2.1
+cloudpickle==3.1.1
+comm==0.2.3
+compressed-tensors==0.9.2
+contourpy==1.3.2
+cramjam==2.10.0
+cryptography==44.0.3
+cuda-bindings==12.9.0
+cuda-python==12.9.0
+cupy-cuda12x==13.5.1
+cycler==0.12.1
+datasets==2.20.0
+datatools-py==0.1
+debugpy==1.8.15
+decorator==5.2.1
+decord==0.6.0
+deepspeed==0.18.3
+defusedxml==0.7.1
+depyf==0.18.0
+dill==0.3.8
+diskcache==5.6.3
+distro==1.9.0
+dnspython==2.7.0
+docker-pycreds==0.4.0
+docopt==0.6.2
+docstring_parser==0.16
+einops==0.8.1
+email_validator==2.2.0
+executing==2.2.0
+fastapi==0.116.1
+fastapi-cli==0.0.8
+fastapi-cloud-cli==0.1.5
+fastjsonschema==2.21.1
+fastrlock==0.8.3
+filelock==3.18.0
+flash-attn==2.6.3
+flashinfer-python==0.2.8
+fonttools==4.59.0
+fqdn==1.5.1
+frozenlist==1.7.0
+fsspec==2024.5.0
+gguf==0.10.0
+gitdb==4.0.12
+GitPython==3.1.44
+google-api-core==2.25.1
+google-auth==2.40.3
+google-cloud-core==2.4.3
+google-cloud-storage==2.10.0
+google-crc32c==1.7.1
+google-resumable-media==2.7.2
+googleapis-common-protos==1.70.0
+gql==3.5.3
+graphql-core==3.2.6
+h11==0.16.0
+hf_transfer==0.1.9
+hf-xet==1.1.5
+hjson==3.1.0
+httpcore==1.0.9
+httptools==0.6.4
+httpx==0.28.1
+huggingface-hub==0.34.3
+idna==3.10
+importlib_metadata==8.7.0
+inflect==7.3.1
+iniconfig==2.1.0
+inquirerpy==0.3.4
+interegular==0.3.3
+ipykernel==6.30.1
+ipython==8.12.3
+ipython_pygments_lexers==1.1.1
+ipywidgets==8.1.7
+isodate==0.7.2
+isoduration==20.11.0
+jaraco.collections==5.1.0
+jaraco.context==5.3.0
+jaraco.functools==4.0.1
+jaraco.text==3.12.1
+jedi==0.19.2
+Jinja2==3.1.6
+jiter==0.10.0
+jmespath==1.0.1
+joblib==1.5.1
+json5==0.12.0
+jsonpointer==3.0.0
+jsonschema==4.25.0
+jsonschema-specifications==2025.4.1
+jupyter==1.1.1
+jupyter_client==8.6.3
+jupyter-console==6.6.3
+jupyter_core==5.8.1
+jupyter-events==0.12.0
+jupyter-lsp==2.2.6
+jupyter_server==2.16.0
+jupyter_server_terminals==0.5.3
+jupyterlab==4.4.5
+jupyterlab_pygments==0.3.0
+jupyterlab_server==2.27.3
+jupyterlab_widgets==3.0.15
+kiwisolver==1.4.8
+lark==1.2.2
+litellm==1.75.0
+llguidance==0.7.30
+llvmlite==0.44.0
+lm-format-enforcer==0.10.12
+lxml==6.0.0
+markdown-it-py==3.0.0
+MarkupSafe==3.0.2
+matplotlib==3.10.3
+matplotlib-inline==0.1.7
+mdurl==0.1.2
+minference==0.1.6.0
+mistral_common==1.8.3
+mistune==3.1.3
+modelscope==1.28.1
+more-itertools==10.3.0
+mosaicml-cli==0.5.34
+mosaicml-streaming==0.8.1
+mpmath==1.3.0
+mptools==0.1.0
+msal==1.32.3
+msal-extensions==1.3.1
+msgpack==1.1.1
+msgspec==0.19.0
+multidict==6.6.3
+multiprocess==0.70.16
+nanobind==2.8.0
+nbclient==0.10.2
+nbconvert==7.16.6
+nbformat==5.10.4
+nest-asyncio==1.6.0
+networkx==3.5
+ninja==1.11.1.1
+nltk==3.9.1
+notebook==7.4.5
+notebook_shim==0.2.4
+numba==0.61.0
+numpy==1.26.4
+nvidia-cublas-cu12==12.4.5.8
+nvidia-cuda-cupti-cu12==12.4.127
+nvidia-cuda-nvrtc-cu12==12.4.127
+nvidia-cuda-runtime-cu12==12.4.127
+nvidia-cudnn-cu12==9.1.0.70
+nvidia-cufft-cu12==11.2.1.3
+nvidia-cufile-cu12==1.13.1.3
+nvidia-curand-cu12==10.3.5.147
+nvidia-cusolver-cu12==11.6.1.9
+nvidia-cusparse-cu12==12.3.1.170
+nvidia-cusparselt-cu12==0.6.2
+nvidia-ml-py==12.575.51
+nvidia-nccl-cu12==2.21.5
+nvidia-nvjitlink-cu12==12.4.127
+nvidia-nvshmem-cu12==3.3.20
+nvidia-nvtx-cu12==12.4.127
+nvitop==1.5.2
+oci==2.155.2
+openai==1.99.1
+opencv-python-headless==4.11.0.86
+orjson==3.11.1
+outlines==0.1.11
+outlines_core==0.1.26
+overrides==7.7.0
+packaging==24.1
+pandas==2.3.1
+pandocfilters==1.5.1
+paramiko==3.5.1
+parso==0.8.4
+partial-json-parser==0.2.1.1.post6
+peewee==3.18.2
+pexpect==4.9.0
+pfzy==0.3.4
+pickleshare==0.7.5
+pillow==11.3.0
+pip==25.3
+pipreqs==0.5.0
+platformdirs==4.3.8
+pluggy==1.6.0
+prettytable==3.16.0
+prometheus_client==0.22.1
+prometheus-fastapi-instrumentator==7.1.0
+prompt_toolkit==3.0.51
+propcache==0.3.2
+proto-plus==1.26.1
+protobuf==4.25.3
+psutil==7.0.0
+ptyprocess==0.7.0
+pure_eval==0.2.3
+py-cpuinfo==9.0.0
+pyarrow==20.0.0
+pyarrow-hotfix==0.7
+pyasn1==0.6.1
+pyasn1_modules==0.4.2
+pycountry==24.6.1
+pycparser==2.22
+pycryptodomex==3.23.0
+pydantic==2.11.7
+pydantic_core==2.33.2
+pydantic-extra-types==2.10.5
+pyecharts==2.0.8
+Pygments==2.19.2
+PyJWT==2.10.1
+PyNaCl==1.5.0
+pynvml==12.0.0
+pyOpenSSL==24.3.0
+pyparsing==3.2.3
+pytest==8.4.1
+python-dateutil==2.9.0
+python-docx==1.2.0
+python-dotenv==1.1.1
+python-json-logger==3.3.0
+python-multipart==0.0.20
+python-snappy==0.7.3
+pytz==2025.2
+PyYAML==6.0.2
+pyzmq==27.0.1
+questionary==2.1.0
+ray==2.48.0
+referencing==0.36.2
+regex==2023.12.25
+requests==2.32.4
+rfc3339-validator==0.1.4
+rfc3986-validator==0.1.1
+rfc3987-syntax==1.1.0
+rich==13.9.4
+rich-toolkit==0.14.9
+rignore==0.6.4
+rouge_score==0.1.2
+rpds-py==0.26.0
+rsa==4.9.1
+ruamel.yaml==0.18.14
+ruamel.yaml.clib==0.2.12
+s3transfer==0.13.0
+safetensors==0.5.3
+scipy==1.16.1
+seaborn==0.13.2
+Send2Trash==1.8.3
+sentencepiece==0.2.0
+sentry-sdk==2.33.0
+setproctitle==1.3.6
+setuptools==80.9.0
+sgl-kernel==0.1.4
+sglang==0.4.6.post5
+shellingham==1.5.4
+simple-parsing==0.1.7
+simplejson==3.20.1
+six==1.17.0
+smmap==5.0.2
+sniffio==1.3.1
+soundfile==0.13.1
+soupsieve==2.7
+sparseattn==0.1.0
+stack-data==0.6.3
+starlette==0.47.2
+swanboard==0.1.8b1
+swankit==0.2.4
+swanlab==0.6.8
+sympy==1.13.1
+tabulate==0.9.0
+tensor-parallel==2.0.0
+terminado==0.18.1
+tiktoken==0.7.0
+tinycss2==1.4.0
+tokenizers==0.21.4
+tomli==2.0.1
+torch==2.6.0+cu124
+torch_memory_saver==0.0.8
+torchao==0.9.0
+torchaudio==2.6.0+cu124
+torchvision==0.21.0+cu124
+tornado==6.5.1
+tqdm==4.66.4
+traitlets==5.14.3
+transformers==4.51.1
+triton==3.2.0
+typeguard==4.3.0
+typer==0.16.0
+types-python-dateutil==2.9.0.20250708
+typing_extensions==4.14.1
+typing-inspection==0.4.1
+tzdata==2025.2
+ujson==5.10.0
+uri-template==1.3.0
+urllib3==2.5.0
+uv==0.7.21
+uvicorn==0.35.0
+uvloop==0.21.0
+validators==0.35.0
+vllm==0.8.3
+wandb==0.17.3
+watchfiles==1.1.0
+wcwidth==0.2.13
+webcolors==24.11.1
+webencodings==0.5.1
+websocket-client==1.8.0
+websockets==11.0.3
+wheel==0.45.1
+widgetsnbextension==4.0.14
+wrapt==1.17.2
+xformers==0.0.29.post2
+xgrammar==0.1.17
+xxhash==3.5.0
+yarg==0.1.9
+yarl==1.20.1
+zipp==3.23.0
+zstandard==0.23.0
+zstd==1.5.5.1

run-20251217_233019-b3ly702fm741dd93khyrv/files/swanlab-metadata.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"memory": "2016", "cpu": {"brand": "Intel(R) Xeon(R) Gold 6348 CPU @ 2.60GHz", "cores": 112}, "gpu": {"nvidia": {"driver": "535.104.12", "cores": 8, "type": ["NVIDIA A800-SXM4-80GB", "NVIDIA A800-SXM4-80GB", "NVIDIA A800-SXM4-80GB", "NVIDIA A800-SXM4-80GB", "NVIDIA A800-SXM4-80GB", "NVIDIA A800-SXM4-80GB", "NVIDIA A800-SXM4-80GB", "NVIDIA A800-SXM4-80GB"], "memory": ["80", "80", "80", "80", "80", "80", "80", "80"], "cuda": "12.4", "architecture": ["Ampere", "Ampere", "Ampere", "Ampere", "Ampere", "Ampere", "Ampere", "Ampere"], "cudacores": [6912, 6912, 6912, 6912, 6912, 6912, 6912, 6912]}}, "os": "Linux-4.19.90-2107.6.0.0192.8.oe1.bclinux.x86_64-x86_64-with-glibc2.35", "os_pretty_name": "Ubuntu 22.04.4 LTS", "hostname": "pod-1436390728976789504", "pid": 432541, "cwd": "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn", "python": "3.11.0", "python_verbose": "3.11.0 | packaged by conda-forge | (main, Jan 14 2023, 12:27:40) [GCC 11.3.0]", "executable": "/opt/conda/envs/qqt/bin/python3.11", "command": "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/training/moba_train.py --report_to swanlab --do_train --model_name_or_path /workspace/mnt/hf_models/Qwen3-4B --tokenizer_name /workspace/mnt/hf_models/Qwen3-4B --run_name moba_qwen3_Qwen3-4B_bsz8_steps1000_lr1e-5_warmup0.1_ --output_dir checkpoints/moba_qwen3_Qwen3-4B_bsz8_steps1000_lr1e-5_warmup0.1_ --config_overrides_json --gradient_accumulation_steps 1 --per_device_train_batch_size 1 --per_device_eval_batch_size 1 --per_device_max_tokens 32768 --bf16 --learning_rate 1e-5 --min_lr_ratio 0.01 --lr_scheduler_type cosine --max_grad_norm 1.0 --adam_beta1 0.9 --adam_beta2 0.95 --weight_decay 0.1 --warmup_ratio 0.1 --optim adamw_torch --logging_steps 1 --log_level info --max_steps 1000 --save_steps 500 --dataloader_num_workers 1 --disable_tqdm true --use_fast_tokenizer false --remove_unused_columns false --ddp_find_unused_parameters false --cuda_empty_cache --tokenized_mds_train /workspace/mnt/qqt/public_data/qwen_mix_sft_64K3 --attention_type moba --deepspeed /workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/deepspeed_stage2.json --gradient_checkpointing", "git_remote": "https://gitee.com/lcm_lab/SparseAttn", "git_info": ["", ""], "swanlab": {"version": "0.6.8", "_monitor": 5, "logdir": "/workspace/mnt/qqt/project/NSA/SparseAttn/sparseattn/checkpoints/moba_qwen3_Qwen3-4B_bsz8_steps1000_lr1e-5_warmup0.1_/run-20251217_233019-b3ly702fm741dd93khyrv"}}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,240 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0].role == 'system' %}\n        {{- messages[0].content + '\\n\\n' }}\n    {%- endif %}\n    {{- \"# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0].role == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0].content + '<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}\n{%- for message in messages[::-1] %}\n    {%- set index = (messages|length - 1) - loop.index0 %}\n    {%- if ns.multi_step_tool and message.role == \"user\" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}\n        {%- set ns.multi_step_tool = false %}\n        {%- set ns.last_query_index = index %}\n    {%- endif %}\n{%- endfor %}\n{%- for message in messages %}\n    {%- if message.content is string %}\n        {%- set content = message.content %}\n    {%- else %}\n        {%- set content = '' %}\n    {%- endif %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) %}\n        {{- '<|im_start|>' + message.role + '\\n' + content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {%- set reasoning_content = '' %}\n        {%- if message.reasoning_content is string %}\n            {%- set reasoning_content = message.reasoning_content %}\n        {%- else %}\n            {%- if '</think>' in content %}\n                {%- set reasoning_content = content.split('</think>')[0].rstrip('\\n').split('<think>')[-1].lstrip('\\n') %}\n                {%- set content = content.split('</think>')[-1].lstrip('\\n') %}\n            {%- endif %}\n        {%- endif %}\n        {%- if loop.index0 > ns.last_query_index %}\n            {%- if loop.last or (not loop.last and reasoning_content) %}\n                {{- '<|im_start|>' + message.role + '\\n<think>\\n' + reasoning_content.strip('\\n') + '\\n</think>\\n\\n' + content.lstrip('\\n') }}\n            {%- else %}\n                {{- '<|im_start|>' + message.role + '\\n' + content }}\n            {%- endif %}\n        {%- else %}\n            {{- '<|im_start|>' + message.role + '\\n' + content }}\n        {%- endif %}\n        {%- if message.tool_calls %}\n            {%- for tool_call in message.tool_calls %}\n                {%- if (loop.first and content) or (not loop.first) %}\n                    {{- '\\n' }}\n                {%- endif %}\n                {%- if tool_call.function %}\n                    {%- set tool_call = tool_call.function %}\n                {%- endif %}\n                {{- '<tool_call>\\n{\"name\": \"' }}\n                {{- tool_call.name }}\n                {{- '\", \"arguments\": ' }}\n                {%- if tool_call.arguments is string %}\n                    {{- tool_call.arguments }}\n                {%- else %}\n                    {{- tool_call.arguments | tojson }}\n                {%- endif %}\n                {{- '}\\n</tool_call>' }}\n            {%- endfor %}\n        {%- endif %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if loop.first or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n    {%- if enable_thinking is defined and enable_thinking is false %}\n        {{- '<think>\\n\\n</think>\\n\\n' }}\n    {%- endif %}\n{%- endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 0.2249212775528565,
+    "num_input_tokens_seen": 262144000,
+    "train_loss": 1.4907063425183296,
+    "train_runtime": 24201.9893,
+    "train_samples_per_second": 0.331,
+    "train_steps_per_second": 0.041
+}

trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17200aec4291ed92d4b4ca90c01cf19251e0275c0fb72c676135f06fee0303f4
+size 8376

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff