Training in progress, step 215

Browse files

Files changed (16) hide show

chat_template.jinja +5 -0
config.json +60 -0
model-00001-of-00007.safetensors +3 -0
model-00002-of-00007.safetensors +3 -0
model-00003-of-00007.safetensors +3 -0
model-00004-of-00007.safetensors +3 -0
model-00005-of-00007.safetensors +3 -0
model-00006-of-00007.safetensors +3 -0
model-00007-of-00007.safetensors +3 -0
model.safetensors.index.json +0 -0
special_tokens_map.json +17 -0
tokenizer.json +0 -0
tokenizer_config.json +163 -0
top_32_experts_HectorHe_math7k.json +1 -0
training.log +1010 -0
training_args.bin +3 -0

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,5 @@

+{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{{ bos_token }}{% for message in messages %}{% if message['role'] == 'user' %}{{ 'User: ' + message['content'] + '
+' }}{% elif message['role'] == 'assistant' %}{{ 'Assistant: ' + message['content'] + eos_token }}{% elif message['role'] == 'system' %}{{ message['content'] + '
+' }}{% endif %}{% endfor %}{% if add_generation_prompt %}{{ 'Assistant:' }}{% endif %}

config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "architectures": [
+    "DeepseekV2ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "configuration_deepseek.DeepseekV2Config",
+    "AutoModel": "deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct--modeling_deepseek.DeepseekV2Model",
+    "AutoModelForCausalLM": "deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct--modeling_deepseek.DeepseekV2ForCausalLM"
+  },
+  "aux_loss_alpha": 0.001,
+  "bos_token_id": 100000,
+  "eos_token_id": 100001,
+  "ep_size": 1,
+  "first_k_dense_replace": 1,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 10944,
+  "kv_lora_rank": 512,
+  "max_position_embeddings": 163840,
+  "model_type": "deepseek_v2",
+  "moe_intermediate_size": 1408,
+  "moe_layer_freq": 1,
+  "n_group": 1,
+  "n_routed_experts": 64,
+  "n_shared_experts": 2,
+  "norm_topk_prob": false,
+  "num_attention_heads": 16,
+  "num_experts_per_tok": 6,
+  "num_hidden_layers": 27,
+  "num_key_value_heads": 16,
+  "pretraining_tp": 1,
+  "q_lora_rank": null,
+  "qk_nope_head_dim": 128,
+  "qk_rope_head_dim": 64,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "beta_fast": 32,
+    "beta_slow": 1,
+    "factor": 40,
+    "mscale": 0.707,
+    "mscale_all_dim": 0.707,
+    "original_max_position_embeddings": 4096,
+    "type": "yarn"
+  },
+  "rope_theta": 10000,
+  "routed_scaling_factor": 1.0,
+  "scoring_func": "softmax",
+  "seq_aux": true,
+  "tie_word_embeddings": false,
+  "topk_group": 1,
+  "topk_method": "greedy",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.1",
+  "use_cache": false,
+  "v_head_dim": 128,
+  "vocab_size": 102400
+}

model-00001-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ede7b9a1baa04dcfb3d95fc819e555e9b704d0a2f8bdfe50a5354c1d91ba3e48
+size 4994763632

model-00002-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bcde095f0aa079b334de9cc12f35f36e03c7b40f03e62e9509892d3ee3e92867
+size 4995044944

model-00003-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:276736686f8a0b07046b9a0e02ba779fad9eb46330f3af44399fabcb372c52be
+size 4996085000

model-00004-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b916ed24d1fdd164a9f5c9da023ee3cbf7dd9148e75db8199aad589d642b08fa
+size 4996085224

model-00005-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dcb0643b310fc40b388050f89efc6dfba98e0e6dcd401546c42830faa67add75
+size 4996085224

model-00006-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d7325ce0e000a6bc5b1373edfc6cde78ddec02ea3318bac3d082db778662edac
+size 4995045792

model-00007-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a8ebe2dba57567865dacc6a205d43b71a31e5ece1cc5071ff0057a5e29b1c55
+size 1440515736

model.safetensors.index.json ADDED Viewed

The diff for this file is too large to render. See raw diff

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+  "bos_token": {
+    "content": "<｜begin▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<｜end▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<｜end▁of▁sentence｜>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,163 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "100000": {
+      "content": "<｜begin▁of▁sentence｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100001": {
+      "content": "<｜end▁of▁sentence｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100002": {
+      "content": "<｜fim▁hole｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100003": {
+      "content": "<｜fim▁begin｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100004": {
+      "content": "<｜fim▁end｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100005": {
+      "content": "<｜completion｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100006": {
+      "content": "<｜User｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100007": {
+      "content": "<｜Assistant｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100008": {
+      "content": "<|EOT|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100009": {
+      "content": "<｜tool▁calls▁begin｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100010": {
+      "content": "<｜tool▁calls▁end｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100011": {
+      "content": "<｜tool▁call▁begin｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100012": {
+      "content": "<｜tool▁call▁end｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100013": {
+      "content": "<｜tool▁outputs▁begin｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100014": {
+      "content": "<｜tool▁outputs▁end｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100015": {
+      "content": "<｜tool▁output▁begin｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100016": {
+      "content": "<｜tool▁output▁end｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100017": {
+      "content": "<｜tool▁sep｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<｜begin▁of▁sentence｜>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<｜end▁of▁sentence｜>",
+  "extra_special_tokens": {},
+  "fast_tokenizer": true,
+  "legacy": true,
+  "model_max_length": 16384,
+  "pad_token": "<｜end▁of▁sentence｜>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizerFast",
+  "unk_token": null,
+  "use_default_system_prompt": false
+}

top_32_experts_HectorHe_math7k.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"model.layers.1.mlp": [61, 51, 44, 14, 45, 22, 8, 43, 57, 0, 4, 7, 13, 19, 31, 18, 37, 40, 5, 52, 27, 59, 48, 2, 9, 42, 41, 54, 21, 24, 10, 56], "model.layers.2.mlp": [27, 25, 18, 3, 23, 13, 17, 45, 7, 15, 46, 24, 63, 62, 5, 8, 56, 16, 0, 61, 26, 9, 58, 49, 14, 52, 42, 20, 38, 59, 47, 31], "model.layers.3.mlp": [54, 25, 57, 28, 41, 23, 26, 4, 2, 12, 33, 22, 24, 43, 50, 21, 55, 6, 0, 16, 62, 20, 30, 5, 47, 53, 51, 60, 48, 8, 59, 7], "model.layers.4.mlp": [11, 37, 21, 49, 33, 14, 47, 29, 32, 17, 0, 5, 31, 34, 7, 8, 30, 22, 61, 44, 57, 27, 55, 62, 38, 20, 54, 39, 52, 18, 43, 36], "model.layers.5.mlp": [54, 47, 20, 35, 9, 52, 14, 59, 45, 51, 33, 61, 42, 34, 29, 27, 40, 60, 12, 24, 43, 16, 36, 58, 22, 18, 38, 8, 13, 62, 57, 56], "model.layers.6.mlp": [22, 13, 1, 42, 45, 47, 28, 27, 8, 38, 61, 54, 36, 40, 7, 25, 14, 52, 49, 16, 21, 44, 51, 56, 3, 18, 15, 20, 0, 46, 37, 12], "model.layers.7.mlp": [58, 18, 43, 24, 44, 62, 2, 14, 53, 63, 51, 60, 35, 45, 42, 40, 23, 36, 30, 7, 22, 8, 26, 21, 46, 39, 50, 52, 0, 33, 6, 5], "model.layers.8.mlp": [47, 39, 30, 54, 56, 58, 17, 37, 36, 7, 24, 22, 19, 5, 45, 62, 42, 51, 29, 44, 21, 1, 10, 20, 33, 6, 34, 3, 46, 31, 9, 60], "model.layers.9.mlp": [12, 13, 31, 22, 32, 24, 56, 28, 37, 57, 11, 21, 30, 51, 36, 34, 54, 60, 35, 58, 39, 48, 46, 63, 6, 1, 42, 3, 15, 41, 45, 4], "model.layers.10.mlp": [47, 19, 42, 2, 13, 22, 43, 21, 28, 33, 38, 31, 62, 15, 60, 4, 53, 14, 55, 26, 16, 29, 41, 52, 11, 24, 3, 57, 58, 59, 27, 40], "model.layers.11.mlp": [29, 11, 17, 59, 10, 22, 14, 3, 40, 33, 30, 8, 37, 6, 35, 44, 13, 50, 57, 61, 52, 36, 41, 12, 43, 27, 21, 60, 0, 23, 31, 56], "model.layers.12.mlp": [5, 56, 59, 3, 4, 6, 26, 40, 49, 53, 52, 13, 51, 16, 25, 63, 11, 18, 22, 33, 29, 37, 50, 31, 43, 7, 38, 20, 34, 17, 48, 27], "model.layers.13.mlp": [10, 58, 42, 47, 14, 17, 4, 39, 51, 52, 8, 0, 22, 50, 62, 63, 61, 6, 40, 60, 21, 35, 33, 29, 7, 32, 38, 26, 31, 25, 16, 1], "model.layers.14.mlp": [7, 27, 51, 31, 18, 61, 40, 16, 6, 54, 29, 49, 39, 25, 37, 8, 10, 52, 47, 42, 41, 15, 32, 45, 30, 55, 50, 2, 4, 28, 63, 56], "model.layers.15.mlp": [24, 55, 5, 17, 41, 14, 3, 59, 56, 27, 51, 21, 12, 46, 49, 31, 25, 10, 43, 45, 62, 47, 60, 52, 53, 37, 19, 63, 2, 8, 58, 13], "model.layers.16.mlp": [33, 61, 63, 49, 19, 9, 51, 21, 56, 8, 11, 58, 23, 1, 27, 17, 42, 15, 25, 57, 60, 6, 7, 52, 41, 46, 30, 3, 45, 35, 36, 38], "model.layers.17.mlp": [0, 43, 26, 27, 32, 29, 63, 25, 39, 14, 47, 35, 48, 8, 58, 52, 55, 34, 13, 33, 9, 40, 30, 51, 16, 37, 56, 31, 3, 42, 50, 60], "model.layers.18.mlp": [5, 56, 42, 36, 2, 1, 38, 62, 47, 45, 12, 20, 46, 52, 11, 32, 22, 57, 51, 19, 3, 7, 34, 49, 4, 53, 18, 55, 13, 16, 41, 54], "model.layers.19.mlp": [23, 2, 24, 40, 36, 0, 51, 59, 44, 7, 45, 21, 31, 47, 53, 57, 20, 49, 3, 14, 30, 56, 48, 52, 9, 19, 39, 8, 55, 33, 37, 34], "model.layers.20.mlp": [56, 1, 48, 38, 20, 58, 5, 46, 19, 3, 26, 6, 59, 42, 52, 53, 24, 22, 21, 36, 45, 11, 23, 41, 17, 25, 62, 44, 57, 43, 28, 35], "model.layers.21.mlp": [5, 15, 13, 10, 19, 28, 40, 31, 46, 57, 43, 20, 30, 29, 22, 62, 9, 58, 23, 24, 14, 47, 50, 27, 41, 38, 32, 61, 33, 63, 51, 1], "model.layers.22.mlp": [32, 58, 3, 31, 45, 14, 8, 26, 10, 4, 12, 30, 16, 2, 40, 60, 59, 38, 28, 42, 21, 25, 56, 39, 18, 51, 47, 36, 46, 24, 48, 0], "model.layers.23.mlp": [20, 0, 45, 58, 33, 42, 19, 26, 59, 35, 18, 6, 40, 36, 48, 29, 61, 17, 43, 39, 14, 41, 27, 8, 23, 56, 62, 28, 38, 57, 22, 2], "model.layers.24.mlp": [62, 10, 42, 7, 47, 63, 30, 20, 6, 5, 9, 21, 13, 56, 51, 55, 49, 14, 58, 39, 33, 23, 37, 61, 28, 1, 60, 12, 35, 50, 27, 29], "model.layers.25.mlp": [45, 48, 39, 11, 46, 38, 51, 16, 58, 15, 50, 1, 35, 14, 20, 40, 12, 0, 5, 47, 25, 18, 10, 27, 29, 60, 17, 24, 61, 31, 4, 63], "model.layers.26.mlp": [49, 6, 46, 13, 57, 11, 41, 35, 60, 20, 25, 32, 63, 27, 4, 52, 14, 2, 19, 16, 36, 45, 53, 56, 15, 38, 1, 30, 43, 50, 8, 58]}

training.log ADDED Viewed

	@@ -0,0 +1,1010 @@

+2025-08-18 17:38:04 - INFO - __main__ - Model parameters ModelConfig(model_name_or_path='/home/ubuntu/efs/hector/data/DeepSeek-Coder-V2-Lite-Instruct/sft/math7k/checkpoint-645', model_revision='main', torch_dtype='bfloat16', trust_remote_code=True, attn_implementation='flash_attention_2', use_peft=False, lora_r=16, lora_alpha=32, lora_dropout=0.05, lora_target_modules=None, lora_modules_to_save=None, lora_task_type='CAUSAL_LM', use_rslora=False, use_dora=False, load_in_8bit=False, load_in_4bit=False, bnb_4bit_quant_type='nf4', use_bnb_nested_quant=False)
+2025-08-18 17:38:04 - INFO - __main__ - Script parameters ScriptArguments(dataset_name='HectorHe/math7k', dataset_config=None, dataset_train_split='train', dataset_test_split='test', gradient_checkpointing_use_reentrant=False, ignore_bias_buffers=False)
+2025-08-18 17:38:04 - INFO - __main__ - Training parameters EfficientDistillationConfig(
+_n_gpu=1,
+accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False},
+adafactor=False,
+adam_beta1=0.9,
+adam_beta2=0.999,
+adam_epsilon=1e-08,
+alpha=0.45,
+auto_find_batch_size=False,
+average_tokens_across_devices=False,
+batch_eval_metrics=False,
+benchmarks=[],
+bf16=True,
+bf16_full_eval=False,
+callbacks=[],
+ce_loss_scale=1.0,
+chars_per_token=<CHARS_PER_TOKEN>,
+chat_template=None,
+completion_only_loss=None,
+data_seed=None,
+dataloader_drop_last=False,
+dataloader_num_workers=0,
+dataloader_persistent_workers=False,
+dataloader_pin_memory=True,
+dataloader_prefetch_factor=None,
+dataset_batch_size=None,
+dataset_kwargs=None,
+dataset_num_proc=None,
+dataset_text_field=text,
+ddp_backend=None,
+ddp_broadcast_buffers=None,
+ddp_bucket_cap_mb=None,
+ddp_find_unused_parameters=None,
+ddp_timeout=1800000000,
+debug=[],
+deepspeed=None,
+delta=0.05,
+disable_dropout=True,
+disable_tqdm=False,
+do_eval=True,
+do_predict=False,
+do_train=False,
+enhance_type=subset_expert_moe,
+eos_token=<EOS_TOKEN>,
+eval_accumulation_steps=None,
+eval_delay=0,
+eval_do_concat_batches=True,
+eval_on_start=False,
+eval_packing=None,
+eval_steps=None,
+eval_strategy=IntervalStrategy.NO,
+eval_use_gather_object=False,
+expert_num=32,
+fp16=False,
+fp16_backend=auto,
+fp16_full_eval=False,
+fp16_opt_level=O1,
+fsdp=[],
+fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False},
+fsdp_min_num_params=0,
+fsdp_transformer_layer_cls_to_wrap=None,
+full_determinism=False,
+gradient_accumulation_steps=1,
+gradient_checkpointing=True,
+gradient_checkpointing_kwargs={'use_reentrant': False},
+greater_is_better=None,
+group_by_length=False,
+half_precision_backend=auto,
+hub_always_push=False,
+hub_model_id=Deepseek-V2-13B-Math7K-Expert-Enhance-Subset-Expert-MoE-32-experts,
+hub_model_revision=main,
+hub_private_repo=None,
+hub_strategy=HubStrategy.EVERY_SAVE,
+hub_token=<HUB_TOKEN>,
+ignore_data_skip=False,
+include_for_metrics=[],
+include_inputs_for_metrics=False,
+include_num_input_tokens_seen=False,
+include_tokens_per_second=False,
+jit_mode_eval=False,
+kl_loss_scale=1.0,
+label_names=None,
+label_smoothing_factor=0.0,
+learning_rate=5e-06,
+length_column_name=length,
+lmbda=0.0,
+load_best_model_at_end=False,
+local_rank=0,
+log_level=info,
+log_level_replica=warning,
+log_on_each_node=True,
+logging_dir=data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts/runs/Aug18_17-38-04_ip-172-31-35-162,
+logging_first_step=False,
+logging_nan_inf_filter=True,
+logging_steps=1,
+logging_strategy=IntervalStrategy.STEPS,
+loss_type=mixture,
+lr_scheduler_kwargs={'min_lr_rate': 0.1},
+lr_scheduler_type=SchedulerType.COSINE_WITH_MIN_LR,
+max_grad_norm=1.0,
+max_length=4096,
+max_new_tokens=512,
+max_seq_length=None,
+max_steps=-1,
+metric_for_best_model=None,
+model_init_kwargs=None,
+mp_parameters=,
+neftune_noise_alpha=None,
+no_cuda=False,
+num_of_sequences=None,
+num_train_epochs=1,
+optim=OptimizerNames.ADAMW_TORCH,
+optim_args=None,
+optim_target_modules=None,
+output_dir=data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts,
+overwrite_hub_revision=False,
+overwrite_output_dir=True,
+packing=False,
+pad_to_multiple_of=None,
+pad_token=<PAD_TOKEN>,
+padding_free=False,
+past_index=-1,
+per_device_eval_batch_size=16,
+per_device_train_batch_size=4,
+prediction_loss_only=False,
+push_to_hub=True,
+push_to_hub_model_id=None,
+push_to_hub_organization=None,
+push_to_hub_revision=False,
+push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
+ray_scope=last,
+reduction=batchmean,
+remove_unused_columns=True,
+report_to=['wandb'],
+restore_callback_states_from_checkpoint=False,
+resume_from_checkpoint=None,
+run_name=data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts,
+save_on_each_node=False,
+save_only_model=False,
+save_safetensors=True,
+save_steps=500,
+save_strategy=SaveStrategy.STEPS,
+save_total_limit=1,
+seed=1234,
+skip_memory_metrics=True,
+system_prompt=None,
+teacher_model_init_kwargs=None,
+teacher_model_name_or_path=None,
+temperature=0.9,
+tf32=None,
+torch_compile=False,
+torch_compile_backend=None,
+torch_compile_mode=None,
+torch_empty_cache_steps=None,
+torchdynamo=None,
+tpu_metrics_debug=False,
+tpu_num_cores=None,
+use_cpu=False,
+use_ipex=False,
+use_legacy_prediction_loop=False,
+use_liger=False,
+use_liger_kernel=False,
+use_mps_device=False,
+wandb_entity=None,
+wandb_project=None,
+warmup_ratio=0.1,
+warmup_steps=0,
+weight_decay=0.0,
+)
+2025-08-18 17:38:05 - ERROR - __main__ - Top k experts file not found at data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts/top_32_experts_HectorHe_math7k.json. Run part 1 first.
+2025-08-18 17:38:05 - ERROR - __main__ - Top k experts file not found at data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts/top_32_experts_HectorHe_math7k.json. Run part 1 first.
+2025-08-18 17:38:05 - ERROR - __main__ - Top k experts file not found at data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts/top_32_experts_HectorHe_math7k.json. Run part 1 first.
+2025-08-18 17:38:05 - INFO - __main__ - *** Initializing model kwargs ***
+2025-08-18 17:38:05 - ERROR - __main__ - Top k experts file not found at data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts/top_32_experts_HectorHe_math7k.json. Run part 1 first.
+2025-08-18 17:38:05 - ERROR - __main__ - Top k experts file not found at data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts/top_32_experts_HectorHe_math7k.json. Run part 1 first.
+2025-08-18 17:38:05 - ERROR - __main__ - Top k experts file not found at data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts/top_32_experts_HectorHe_math7k.json. Run part 1 first.
+2025-08-18 17:38:05 - ERROR - __main__ - Top k experts file not found at data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts/top_32_experts_HectorHe_math7k.json. Run part 1 first.
+2025-08-18 17:38:06 - ERROR - __main__ - Top k experts file not found at data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts/top_32_experts_HectorHe_math7k.json. Run part 1 first.
+2025-08-18 17:38:57 - INFO - __main__ - Model parameters ModelConfig(model_name_or_path='/home/ubuntu/efs/hector/data/DeepSeek-Coder-V2-Lite-Instruct/sft/math7k/checkpoint-645', model_revision='main', torch_dtype='bfloat16', trust_remote_code=True, attn_implementation='flash_attention_2', use_peft=False, lora_r=16, lora_alpha=32, lora_dropout=0.05, lora_target_modules=None, lora_modules_to_save=None, lora_task_type='CAUSAL_LM', use_rslora=False, use_dora=False, load_in_8bit=False, load_in_4bit=False, bnb_4bit_quant_type='nf4', use_bnb_nested_quant=False)
+2025-08-18 17:38:57 - INFO - __main__ - Script parameters ScriptArguments(dataset_name='HectorHe/math7k', dataset_config=None, dataset_train_split='train', dataset_test_split='test', gradient_checkpointing_use_reentrant=False, ignore_bias_buffers=False)
+2025-08-18 17:38:57 - INFO - __main__ - Training parameters EfficientDistillationConfig(
+_n_gpu=1,
+accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False},
+adafactor=False,
+adam_beta1=0.9,
+adam_beta2=0.999,
+adam_epsilon=1e-08,
+alpha=0.45,
+auto_find_batch_size=False,
+average_tokens_across_devices=False,
+batch_eval_metrics=False,
+benchmarks=[],
+bf16=True,
+bf16_full_eval=False,
+callbacks=[],
+ce_loss_scale=1.0,
+chars_per_token=<CHARS_PER_TOKEN>,
+chat_template=None,
+completion_only_loss=None,
+data_seed=None,
+dataloader_drop_last=False,
+dataloader_num_workers=0,
+dataloader_persistent_workers=False,
+dataloader_pin_memory=True,
+dataloader_prefetch_factor=None,
+dataset_batch_size=None,
+dataset_kwargs=None,
+dataset_num_proc=None,
+dataset_text_field=text,
+ddp_backend=None,
+ddp_broadcast_buffers=None,
+ddp_bucket_cap_mb=None,
+ddp_find_unused_parameters=None,
+ddp_timeout=1800000000,
+debug=[],
+deepspeed=None,
+delta=0.05,
+disable_dropout=True,
+disable_tqdm=False,
+do_eval=True,
+do_predict=False,
+do_train=False,
+enhance_type=subset_expert_moe,
+eos_token=<EOS_TOKEN>,
+eval_accumulation_steps=None,
+eval_delay=0,
+eval_do_concat_batches=True,
+eval_on_start=False,
+eval_packing=None,
+eval_steps=None,
+eval_strategy=IntervalStrategy.NO,
+eval_use_gather_object=False,
+expert_num=32,
+fp16=False,
+fp16_backend=auto,
+fp16_full_eval=False,
+fp16_opt_level=O1,
+fsdp=[],
+fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False},
+fsdp_min_num_params=0,
+fsdp_transformer_layer_cls_to_wrap=None,
+full_determinism=False,
+gradient_accumulation_steps=1,
+gradient_checkpointing=True,
+gradient_checkpointing_kwargs={'use_reentrant': False},
+greater_is_better=None,
+group_by_length=False,
+half_precision_backend=auto,
+hub_always_push=False,
+hub_model_id=Deepseek-V2-13B-Math7K-Expert-Enhance-Subset-Expert-MoE-32-experts,
+hub_model_revision=main,
+hub_private_repo=None,
+hub_strategy=HubStrategy.EVERY_SAVE,
+hub_token=<HUB_TOKEN>,
+ignore_data_skip=False,
+include_for_metrics=[],
+include_inputs_for_metrics=False,
+include_num_input_tokens_seen=False,
+include_tokens_per_second=False,
+jit_mode_eval=False,
+kl_loss_scale=1.0,
+label_names=None,
+label_smoothing_factor=0.0,
+learning_rate=5e-06,
+length_column_name=length,
+lmbda=0.0,
+load_best_model_at_end=False,
+local_rank=0,
+log_level=info,
+log_level_replica=warning,
+log_on_each_node=True,
+logging_dir=data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts/runs/Aug18_17-38-57_ip-172-31-35-162,
+logging_first_step=False,
+logging_nan_inf_filter=True,
+logging_steps=1,
+logging_strategy=IntervalStrategy.STEPS,
+loss_type=mixture,
+lr_scheduler_kwargs={'min_lr_rate': 0.1},
+lr_scheduler_type=SchedulerType.COSINE_WITH_MIN_LR,
+max_grad_norm=1.0,
+max_length=4096,
+max_new_tokens=512,
+max_seq_length=None,
+max_steps=-1,
+metric_for_best_model=None,
+model_init_kwargs=None,
+mp_parameters=,
+neftune_noise_alpha=None,
+no_cuda=False,
+num_of_sequences=None,
+num_train_epochs=1,
+optim=OptimizerNames.ADAMW_TORCH,
+optim_args=None,
+optim_target_modules=None,
+output_dir=data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts,
+overwrite_hub_revision=False,
+overwrite_output_dir=True,
+packing=False,
+pad_to_multiple_of=None,
+pad_token=<PAD_TOKEN>,
+padding_free=False,
+past_index=-1,
+per_device_eval_batch_size=16,
+per_device_train_batch_size=4,
+prediction_loss_only=False,
+push_to_hub=True,
+push_to_hub_model_id=None,
+push_to_hub_organization=None,
+push_to_hub_revision=False,
+push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
+ray_scope=last,
+reduction=batchmean,
+remove_unused_columns=True,
+report_to=['wandb'],
+restore_callback_states_from_checkpoint=False,
+resume_from_checkpoint=None,
+run_name=data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts,
+save_on_each_node=False,
+save_only_model=False,
+save_safetensors=True,
+save_steps=500,
+save_strategy=SaveStrategy.STEPS,
+save_total_limit=1,
+seed=1234,
+skip_memory_metrics=True,
+system_prompt=None,
+teacher_model_init_kwargs=None,
+teacher_model_name_or_path=None,
+temperature=0.9,
+tf32=None,
+torch_compile=False,
+torch_compile_backend=None,
+torch_compile_mode=None,
+torch_empty_cache_steps=None,
+torchdynamo=None,
+tpu_metrics_debug=False,
+tpu_num_cores=None,
+use_cpu=False,
+use_ipex=False,
+use_legacy_prediction_loop=False,
+use_liger=False,
+use_liger_kernel=False,
+use_mps_device=False,
+wandb_entity=None,
+wandb_project=None,
+warmup_ratio=0.1,
+warmup_steps=0,
+weight_decay=0.0,
+)
+2025-08-18 17:38:58 - INFO - __main__ - *** Initializing model kwargs ***
+2025-08-18 17:38:58 - INFO - __main__ - Loaded top k experts from data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts/top_32_experts_HectorHe_math7k.json: {'model.layers.1.mlp': [61, 51, 44, 14, 45, 22, 8, 43, 57, 0, 4, 7, 13, 19, 31, 18, 37, 40, 5, 52, 27, 59, 48, 2, 9, 42, 41, 54, 21, 24, 10, 56], 'model.layers.2.mlp': [27, 25, 18, 3, 23, 13, 17, 45, 7, 15, 46, 24, 63, 62, 5, 8, 56, 16, 0, 61, 26, 9, 58, 49, 14, 52, 42, 20, 38, 59, 47, 31], 'model.layers.3.mlp': [54, 25, 57, 28, 41, 23, 26, 4, 2, 12, 33, 22, 24, 43, 50, 21, 55, 6, 0, 16, 62, 20, 30, 5, 47, 53, 51, 60, 48, 8, 59, 7], 'model.layers.4.mlp': [11, 37, 21, 49, 33, 14, 47, 29, 32, 17, 0, 5, 31, 34, 7, 8, 30, 22, 61, 44, 57, 27, 55, 62, 38, 20, 54, 39, 52, 18, 43, 36], 'model.layers.5.mlp': [54, 47, 20, 35, 9, 52, 14, 59, 45, 51, 33, 61, 42, 34, 29, 27, 40, 60, 12, 24, 43, 16, 36, 58, 22, 18, 38, 8, 13, 62, 57, 56], 'model.layers.6.mlp': [22, 13, 1, 42, 45, 47, 28, 27, 8, 38, 61, 54, 36, 40, 7, 25, 14, 52, 49, 16, 21, 44, 51, 56, 3, 18, 15, 20, 0, 46, 37, 12], 'model.layers.7.mlp': [58, 18, 43, 24, 44, 62, 2, 14, 53, 63, 51, 60, 35, 45, 42, 40, 23, 36, 30, 7, 22, 8, 26, 21, 46, 39, 50, 52, 0, 33, 6, 5], 'model.layers.8.mlp': [47, 39, 30, 54, 56, 58, 17, 37, 36, 7, 24, 22, 19, 5, 45, 62, 42, 51, 29, 44, 21, 1, 10, 20, 33, 6, 34, 3, 46, 31, 9, 60], 'model.layers.9.mlp': [12, 13, 31, 22, 32, 24, 56, 28, 37, 57, 11, 21, 30, 51, 36, 34, 54, 60, 35, 58, 39, 48, 46, 63, 6, 1, 42, 3, 15, 41, 45, 4], 'model.layers.10.mlp': [47, 19, 42, 2, 13, 22, 43, 21, 28, 33, 38, 31, 62, 15, 60, 4, 53, 14, 55, 26, 16, 29, 41, 52, 11, 24, 3, 57, 58, 59, 27, 40], 'model.layers.11.mlp': [29, 11, 17, 59, 10, 22, 14, 3, 40, 33, 30, 8, 37, 6, 35, 44, 13, 50, 57, 61, 52, 36, 41, 12, 43, 27, 21, 60, 0, 23, 31, 56], 'model.layers.12.mlp': [5, 56, 59, 3, 4, 6, 26, 40, 49, 53, 52, 13, 51, 16, 25, 63, 11, 18, 22, 33, 29, 37, 50, 31, 43, 7, 38, 20, 34, 17, 48, 27], 'model.layers.13.mlp': [10, 58, 42, 47, 14, 17, 4, 39, 51, 52, 8, 0, 22, 50, 62, 63, 61, 6, 40, 60, 21, 35, 33, 29, 7, 32, 38, 26, 31, 25, 16, 1], 'model.layers.14.mlp': [7, 27, 51, 31, 18, 61, 40, 16, 6, 54, 29, 49, 39, 25, 37, 8, 10, 52, 47, 42, 41, 15, 32, 45, 30, 55, 50, 2, 4, 28, 63, 56], 'model.layers.15.mlp': [24, 55, 5, 17, 41, 14, 3, 59, 56, 27, 51, 21, 12, 46, 49, 31, 25, 10, 43, 45, 62, 47, 60, 52, 53, 37, 19, 63, 2, 8, 58, 13], 'model.layers.16.mlp': [33, 61, 63, 49, 19, 9, 51, 21, 56, 8, 11, 58, 23, 1, 27, 17, 42, 15, 25, 57, 60, 6, 7, 52, 41, 46, 30, 3, 45, 35, 36, 38], 'model.layers.17.mlp': [0, 43, 26, 27, 32, 29, 63, 25, 39, 14, 47, 35, 48, 8, 58, 52, 55, 34, 13, 33, 9, 40, 30, 51, 16, 37, 56, 31, 3, 42, 50, 60], 'model.layers.18.mlp': [5, 56, 42, 36, 2, 1, 38, 62, 47, 45, 12, 20, 46, 52, 11, 32, 22, 57, 51, 19, 3, 7, 34, 49, 4, 53, 18, 55, 13, 16, 41, 54], 'model.layers.19.mlp': [23, 2, 24, 40, 36, 0, 51, 59, 44, 7, 45, 21, 31, 47, 53, 57, 20, 49, 3, 14, 30, 56, 48, 52, 9, 19, 39, 8, 55, 33, 37, 34], 'model.layers.20.mlp': [56, 1, 48, 38, 20, 58, 5, 46, 19, 3, 26, 6, 59, 42, 52, 53, 24, 22, 21, 36, 45, 11, 23, 41, 17, 25, 62, 44, 57, 43, 28, 35], 'model.layers.21.mlp': [5, 15, 13, 10, 19, 28, 40, 31, 46, 57, 43, 20, 30, 29, 22, 62, 9, 58, 23, 24, 14, 47, 50, 27, 41, 38, 32, 61, 33, 63, 51, 1], 'model.layers.22.mlp': [32, 58, 3, 31, 45, 14, 8, 26, 10, 4, 12, 30, 16, 2, 40, 60, 59, 38, 28, 42, 21, 25, 56, 39, 18, 51, 47, 36, 46, 24, 48, 0], 'model.layers.23.mlp': [20, 0, 45, 58, 33, 42, 19, 26, 59, 35, 18, 6, 40, 36, 48, 29, 61, 17, 43, 39, 14, 41, 27, 8, 23, 56, 62, 28, 38, 57, 22, 2], 'model.layers.24.mlp': [62, 10, 42, 7, 47, 63, 30, 20, 6, 5, 9, 21, 13, 56, 51, 55, 49, 14, 58, 39, 33, 23, 37, 61, 28, 1, 60, 12, 35, 50, 27, 29], 'model.layers.25.mlp': [45, 48, 39, 11, 46, 38, 51, 16, 58, 15, 50, 1, 35, 14, 20, 40, 12, 0, 5, 47, 25, 18, 10, 27, 29, 60, 17, 24, 61, 31, 4, 63], 'model.layers.26.mlp': [49, 6, 46, 13, 57, 11, 41, 35, 60, 20, 25, 32, 63, 27, 4, 52, 14, 2, 19, 16, 36, 45, 53, 56, 15, 38, 1, 30, 43, 50, 8, 58]}
+2025-08-18 17:38:58 - INFO - __main__ - Model memory before loading model:Memory allocated: 0.0
+Memory reserved: 0.0
+2025-08-18 17:40:57 - INFO - __main__ - Model parameters ModelConfig(model_name_or_path='/home/ubuntu/efs/hector/data/DeepSeek-Coder-V2-Lite-Instruct/sft/math7k/checkpoint-645', model_revision='main', torch_dtype='bfloat16', trust_remote_code=True, attn_implementation='flash_attention_2', use_peft=False, lora_r=16, lora_alpha=32, lora_dropout=0.05, lora_target_modules=None, lora_modules_to_save=None, lora_task_type='CAUSAL_LM', use_rslora=False, use_dora=False, load_in_8bit=False, load_in_4bit=False, bnb_4bit_quant_type='nf4', use_bnb_nested_quant=False)
+2025-08-18 17:40:57 - INFO - __main__ - Script parameters ScriptArguments(dataset_name='HectorHe/math7k', dataset_config=None, dataset_train_split='train', dataset_test_split='test', gradient_checkpointing_use_reentrant=False, ignore_bias_buffers=False)
+2025-08-18 17:40:57 - INFO - __main__ - Training parameters EfficientDistillationConfig(
+_n_gpu=1,
+accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False},
+adafactor=False,
+adam_beta1=0.9,
+adam_beta2=0.999,
+adam_epsilon=1e-08,
+alpha=0.45,
+auto_find_batch_size=False,
+average_tokens_across_devices=False,
+batch_eval_metrics=False,
+benchmarks=[],
+bf16=True,
+bf16_full_eval=False,
+callbacks=[],
+ce_loss_scale=1.0,
+chars_per_token=<CHARS_PER_TOKEN>,
+chat_template=None,
+completion_only_loss=None,
+data_seed=None,
+dataloader_drop_last=False,
+dataloader_num_workers=0,
+dataloader_persistent_workers=False,
+dataloader_pin_memory=True,
+dataloader_prefetch_factor=None,
+dataset_batch_size=None,
+dataset_kwargs=None,
+dataset_num_proc=None,
+dataset_text_field=text,
+ddp_backend=None,
+ddp_broadcast_buffers=None,
+ddp_bucket_cap_mb=None,
+ddp_find_unused_parameters=None,
+ddp_timeout=1800000000,
+debug=[],
+deepspeed=None,
+delta=0.05,
+disable_dropout=True,
+disable_tqdm=False,
+do_eval=True,
+do_predict=False,
+do_train=False,
+enhance_type=subset_expert_moe,
+eos_token=<EOS_TOKEN>,
+eval_accumulation_steps=None,
+eval_delay=0,
+eval_do_concat_batches=True,
+eval_on_start=False,
+eval_packing=None,
+eval_steps=None,
+eval_strategy=IntervalStrategy.NO,
+eval_use_gather_object=False,
+expert_num=32,
+fp16=False,
+fp16_backend=auto,
+fp16_full_eval=False,
+fp16_opt_level=O1,
+fsdp=[],
+fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False},
+fsdp_min_num_params=0,
+fsdp_transformer_layer_cls_to_wrap=None,
+full_determinism=False,
+gradient_accumulation_steps=1,
+gradient_checkpointing=True,
+gradient_checkpointing_kwargs={'use_reentrant': False},
+greater_is_better=None,
+group_by_length=False,
+half_precision_backend=auto,
+hub_always_push=False,
+hub_model_id=Deepseek-V2-13B-Math7K-Expert-Enhance-Subset-Expert-MoE-32-experts,
+hub_model_revision=main,
+hub_private_repo=None,
+hub_strategy=HubStrategy.EVERY_SAVE,
+hub_token=<HUB_TOKEN>,
+ignore_data_skip=False,
+include_for_metrics=[],
+include_inputs_for_metrics=False,
+include_num_input_tokens_seen=False,
+include_tokens_per_second=False,
+jit_mode_eval=False,
+kl_loss_scale=1.0,
+label_names=None,
+label_smoothing_factor=0.0,
+learning_rate=5e-06,
+length_column_name=length,
+lmbda=0.0,
+load_best_model_at_end=False,
+local_rank=0,
+log_level=info,
+log_level_replica=warning,
+log_on_each_node=True,
+logging_dir=data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts/runs/Aug18_17-40-57_ip-172-31-35-162,
+logging_first_step=False,
+logging_nan_inf_filter=True,
+logging_steps=1,
+logging_strategy=IntervalStrategy.STEPS,
+loss_type=mixture,
+lr_scheduler_kwargs={'min_lr_rate': 0.1},
+lr_scheduler_type=SchedulerType.COSINE_WITH_MIN_LR,
+max_grad_norm=1.0,
+max_length=4096,
+max_new_tokens=512,
+max_seq_length=None,
+max_steps=-1,
+metric_for_best_model=None,
+model_init_kwargs=None,
+mp_parameters=,
+neftune_noise_alpha=None,
+no_cuda=False,
+num_of_sequences=None,
+num_train_epochs=1,
+optim=OptimizerNames.ADAMW_TORCH,
+optim_args=None,
+optim_target_modules=None,
+output_dir=data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts,
+overwrite_hub_revision=False,
+overwrite_output_dir=True,
+packing=False,
+pad_to_multiple_of=None,
+pad_token=<PAD_TOKEN>,
+padding_free=False,
+past_index=-1,
+per_device_eval_batch_size=16,
+per_device_train_batch_size=4,
+prediction_loss_only=False,
+push_to_hub=True,
+push_to_hub_model_id=None,
+push_to_hub_organization=None,
+push_to_hub_revision=False,
+push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
+ray_scope=last,
+reduction=batchmean,
+remove_unused_columns=True,
+report_to=['wandb'],
+restore_callback_states_from_checkpoint=False,
+resume_from_checkpoint=None,
+run_name=data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts,
+save_on_each_node=False,
+save_only_model=False,
+save_safetensors=True,
+save_steps=500,
+save_strategy=SaveStrategy.STEPS,
+save_total_limit=1,
+seed=1234,
+skip_memory_metrics=True,
+system_prompt=None,
+teacher_model_init_kwargs=None,
+teacher_model_name_or_path=None,
+temperature=0.9,
+tf32=None,
+torch_compile=False,
+torch_compile_backend=None,
+torch_compile_mode=None,
+torch_empty_cache_steps=None,
+torchdynamo=None,
+tpu_metrics_debug=False,
+tpu_num_cores=None,
+use_cpu=False,
+use_ipex=False,
+use_legacy_prediction_loop=False,
+use_liger=False,
+use_liger_kernel=False,
+use_mps_device=False,
+wandb_entity=None,
+wandb_project=None,
+warmup_ratio=0.1,
+warmup_steps=0,
+weight_decay=0.0,
+)
+2025-08-18 17:40:58 - INFO - __main__ - *** Initializing model kwargs ***
+2025-08-18 17:40:58 - INFO - __main__ - Loaded top k experts from data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts/top_32_experts_HectorHe_math7k.json: {'model.layers.1.mlp': [61, 51, 44, 14, 45, 22, 8, 43, 57, 0, 4, 7, 13, 19, 31, 18, 37, 40, 5, 52, 27, 59, 48, 2, 9, 42, 41, 54, 21, 24, 10, 56], 'model.layers.2.mlp': [27, 25, 18, 3, 23, 13, 17, 45, 7, 15, 46, 24, 63, 62, 5, 8, 56, 16, 0, 61, 26, 9, 58, 49, 14, 52, 42, 20, 38, 59, 47, 31], 'model.layers.3.mlp': [54, 25, 57, 28, 41, 23, 26, 4, 2, 12, 33, 22, 24, 43, 50, 21, 55, 6, 0, 16, 62, 20, 30, 5, 47, 53, 51, 60, 48, 8, 59, 7], 'model.layers.4.mlp': [11, 37, 21, 49, 33, 14, 47, 29, 32, 17, 0, 5, 31, 34, 7, 8, 30, 22, 61, 44, 57, 27, 55, 62, 38, 20, 54, 39, 52, 18, 43, 36], 'model.layers.5.mlp': [54, 47, 20, 35, 9, 52, 14, 59, 45, 51, 33, 61, 42, 34, 29, 27, 40, 60, 12, 24, 43, 16, 36, 58, 22, 18, 38, 8, 13, 62, 57, 56], 'model.layers.6.mlp': [22, 13, 1, 42, 45, 47, 28, 27, 8, 38, 61, 54, 36, 40, 7, 25, 14, 52, 49, 16, 21, 44, 51, 56, 3, 18, 15, 20, 0, 46, 37, 12], 'model.layers.7.mlp': [58, 18, 43, 24, 44, 62, 2, 14, 53, 63, 51, 60, 35, 45, 42, 40, 23, 36, 30, 7, 22, 8, 26, 21, 46, 39, 50, 52, 0, 33, 6, 5], 'model.layers.8.mlp': [47, 39, 30, 54, 56, 58, 17, 37, 36, 7, 24, 22, 19, 5, 45, 62, 42, 51, 29, 44, 21, 1, 10, 20, 33, 6, 34, 3, 46, 31, 9, 60], 'model.layers.9.mlp': [12, 13, 31, 22, 32, 24, 56, 28, 37, 57, 11, 21, 30, 51, 36, 34, 54, 60, 35, 58, 39, 48, 46, 63, 6, 1, 42, 3, 15, 41, 45, 4], 'model.layers.10.mlp': [47, 19, 42, 2, 13, 22, 43, 21, 28, 33, 38, 31, 62, 15, 60, 4, 53, 14, 55, 26, 16, 29, 41, 52, 11, 24, 3, 57, 58, 59, 27, 40], 'model.layers.11.mlp': [29, 11, 17, 59, 10, 22, 14, 3, 40, 33, 30, 8, 37, 6, 35, 44, 13, 50, 57, 61, 52, 36, 41, 12, 43, 27, 21, 60, 0, 23, 31, 56], 'model.layers.12.mlp': [5, 56, 59, 3, 4, 6, 26, 40, 49, 53, 52, 13, 51, 16, 25, 63, 11, 18, 22, 33, 29, 37, 50, 31, 43, 7, 38, 20, 34, 17, 48, 27], 'model.layers.13.mlp': [10, 58, 42, 47, 14, 17, 4, 39, 51, 52, 8, 0, 22, 50, 62, 63, 61, 6, 40, 60, 21, 35, 33, 29, 7, 32, 38, 26, 31, 25, 16, 1], 'model.layers.14.mlp': [7, 27, 51, 31, 18, 61, 40, 16, 6, 54, 29, 49, 39, 25, 37, 8, 10, 52, 47, 42, 41, 15, 32, 45, 30, 55, 50, 2, 4, 28, 63, 56], 'model.layers.15.mlp': [24, 55, 5, 17, 41, 14, 3, 59, 56, 27, 51, 21, 12, 46, 49, 31, 25, 10, 43, 45, 62, 47, 60, 52, 53, 37, 19, 63, 2, 8, 58, 13], 'model.layers.16.mlp': [33, 61, 63, 49, 19, 9, 51, 21, 56, 8, 11, 58, 23, 1, 27, 17, 42, 15, 25, 57, 60, 6, 7, 52, 41, 46, 30, 3, 45, 35, 36, 38], 'model.layers.17.mlp': [0, 43, 26, 27, 32, 29, 63, 25, 39, 14, 47, 35, 48, 8, 58, 52, 55, 34, 13, 33, 9, 40, 30, 51, 16, 37, 56, 31, 3, 42, 50, 60], 'model.layers.18.mlp': [5, 56, 42, 36, 2, 1, 38, 62, 47, 45, 12, 20, 46, 52, 11, 32, 22, 57, 51, 19, 3, 7, 34, 49, 4, 53, 18, 55, 13, 16, 41, 54], 'model.layers.19.mlp': [23, 2, 24, 40, 36, 0, 51, 59, 44, 7, 45, 21, 31, 47, 53, 57, 20, 49, 3, 14, 30, 56, 48, 52, 9, 19, 39, 8, 55, 33, 37, 34], 'model.layers.20.mlp': [56, 1, 48, 38, 20, 58, 5, 46, 19, 3, 26, 6, 59, 42, 52, 53, 24, 22, 21, 36, 45, 11, 23, 41, 17, 25, 62, 44, 57, 43, 28, 35], 'model.layers.21.mlp': [5, 15, 13, 10, 19, 28, 40, 31, 46, 57, 43, 20, 30, 29, 22, 62, 9, 58, 23, 24, 14, 47, 50, 27, 41, 38, 32, 61, 33, 63, 51, 1], 'model.layers.22.mlp': [32, 58, 3, 31, 45, 14, 8, 26, 10, 4, 12, 30, 16, 2, 40, 60, 59, 38, 28, 42, 21, 25, 56, 39, 18, 51, 47, 36, 46, 24, 48, 0], 'model.layers.23.mlp': [20, 0, 45, 58, 33, 42, 19, 26, 59, 35, 18, 6, 40, 36, 48, 29, 61, 17, 43, 39, 14, 41, 27, 8, 23, 56, 62, 28, 38, 57, 22, 2], 'model.layers.24.mlp': [62, 10, 42, 7, 47, 63, 30, 20, 6, 5, 9, 21, 13, 56, 51, 55, 49, 14, 58, 39, 33, 23, 37, 61, 28, 1, 60, 12, 35, 50, 27, 29], 'model.layers.25.mlp': [45, 48, 39, 11, 46, 38, 51, 16, 58, 15, 50, 1, 35, 14, 20, 40, 12, 0, 5, 47, 25, 18, 10, 27, 29, 60, 17, 24, 61, 31, 4, 63], 'model.layers.26.mlp': [49, 6, 46, 13, 57, 11, 41, 35, 60, 20, 25, 32, 63, 27, 4, 52, 14, 2, 19, 16, 36, 45, 53, 56, 15, 38, 1, 30, 43, 50, 8, 58]}
+2025-08-18 17:40:58 - INFO - __main__ - Model memory before loading model:Memory allocated: 0.0
+Memory reserved: 0.0
+2025-08-18 17:41:33 - INFO - __main__ - Model parameters ModelConfig(model_name_or_path='/home/ubuntu/efs/hector/data/DeepSeek-Coder-V2-Lite-Instruct/sft/math7k/checkpoint-645', model_revision='main', torch_dtype='bfloat16', trust_remote_code=True, attn_implementation='flash_attention_2', use_peft=False, lora_r=16, lora_alpha=32, lora_dropout=0.05, lora_target_modules=None, lora_modules_to_save=None, lora_task_type='CAUSAL_LM', use_rslora=False, use_dora=False, load_in_8bit=False, load_in_4bit=False, bnb_4bit_quant_type='nf4', use_bnb_nested_quant=False)
+2025-08-18 17:41:33 - INFO - __main__ - Script parameters ScriptArguments(dataset_name='HectorHe/math7k', dataset_config=None, dataset_train_split='train', dataset_test_split='test', gradient_checkpointing_use_reentrant=False, ignore_bias_buffers=False)
+2025-08-18 17:41:33 - INFO - __main__ - Training parameters EfficientDistillationConfig(
+_n_gpu=1,
+accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False},
+adafactor=False,
+adam_beta1=0.9,
+adam_beta2=0.999,
+adam_epsilon=1e-08,
+alpha=0.45,
+auto_find_batch_size=False,
+average_tokens_across_devices=False,
+batch_eval_metrics=False,
+benchmarks=[],
+bf16=True,
+bf16_full_eval=False,
+callbacks=[],
+ce_loss_scale=1.0,
+chars_per_token=<CHARS_PER_TOKEN>,
+chat_template=None,
+completion_only_loss=None,
+data_seed=None,
+dataloader_drop_last=False,
+dataloader_num_workers=0,
+dataloader_persistent_workers=False,
+dataloader_pin_memory=True,
+dataloader_prefetch_factor=None,
+dataset_batch_size=None,
+dataset_kwargs=None,
+dataset_num_proc=None,
+dataset_text_field=text,
+ddp_backend=None,
+ddp_broadcast_buffers=None,
+ddp_bucket_cap_mb=None,
+ddp_find_unused_parameters=None,
+ddp_timeout=1800000000,
+debug=[],
+deepspeed=None,
+delta=0.05,
+disable_dropout=True,
+disable_tqdm=False,
+do_eval=True,
+do_predict=False,
+do_train=False,
+enhance_type=subset_expert_moe,
+eos_token=<EOS_TOKEN>,
+eval_accumulation_steps=None,
+eval_delay=0,
+eval_do_concat_batches=True,
+eval_on_start=False,
+eval_packing=None,
+eval_steps=None,
+eval_strategy=IntervalStrategy.NO,
+eval_use_gather_object=False,
+expert_num=32,
+fp16=False,
+fp16_backend=auto,
+fp16_full_eval=False,
+fp16_opt_level=O1,
+fsdp=[],
+fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False},
+fsdp_min_num_params=0,
+fsdp_transformer_layer_cls_to_wrap=None,
+full_determinism=False,
+gradient_accumulation_steps=1,
+gradient_checkpointing=True,
+gradient_checkpointing_kwargs={'use_reentrant': False},
+greater_is_better=None,
+group_by_length=False,
+half_precision_backend=auto,
+hub_always_push=False,
+hub_model_id=Deepseek-V2-13B-Math7K-Expert-Enhance-Subset-Expert-MoE-32-experts,
+hub_model_revision=main,
+hub_private_repo=None,
+hub_strategy=HubStrategy.EVERY_SAVE,
+hub_token=<HUB_TOKEN>,
+ignore_data_skip=False,
+include_for_metrics=[],
+include_inputs_for_metrics=False,
+include_num_input_tokens_seen=False,
+include_tokens_per_second=False,
+jit_mode_eval=False,
+kl_loss_scale=1.0,
+label_names=None,
+label_smoothing_factor=0.0,
+learning_rate=5e-06,
+length_column_name=length,
+lmbda=0.0,
+load_best_model_at_end=False,
+local_rank=0,
+log_level=info,
+log_level_replica=warning,
+log_on_each_node=True,
+logging_dir=data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts/runs/Aug18_17-41-33_ip-172-31-35-162,
+logging_first_step=False,
+logging_nan_inf_filter=True,
+logging_steps=1,
+logging_strategy=IntervalStrategy.STEPS,
+loss_type=mixture,
+lr_scheduler_kwargs={'min_lr_rate': 0.1},
+lr_scheduler_type=SchedulerType.COSINE_WITH_MIN_LR,
+max_grad_norm=1.0,
+max_length=4096,
+max_new_tokens=512,
+max_seq_length=None,
+max_steps=-1,
+metric_for_best_model=None,
+model_init_kwargs=None,
+mp_parameters=,
+neftune_noise_alpha=None,
+no_cuda=False,
+num_of_sequences=None,
+num_train_epochs=1,
+optim=OptimizerNames.ADAMW_TORCH,
+optim_args=None,
+optim_target_modules=None,
+output_dir=data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts,
+overwrite_hub_revision=False,
+overwrite_output_dir=True,
+packing=False,
+pad_to_multiple_of=None,
+pad_token=<PAD_TOKEN>,
+padding_free=False,
+past_index=-1,
+per_device_eval_batch_size=16,
+per_device_train_batch_size=4,
+prediction_loss_only=False,
+push_to_hub=True,
+push_to_hub_model_id=None,
+push_to_hub_organization=None,
+push_to_hub_revision=False,
+push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
+ray_scope=last,
+reduction=batchmean,
+remove_unused_columns=True,
+report_to=['wandb'],
+restore_callback_states_from_checkpoint=False,
+resume_from_checkpoint=None,
+run_name=data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts,
+save_on_each_node=False,
+save_only_model=False,
+save_safetensors=True,
+save_steps=500,
+save_strategy=SaveStrategy.STEPS,
+save_total_limit=1,
+seed=1234,
+skip_memory_metrics=True,
+system_prompt=None,
+teacher_model_init_kwargs=None,
+teacher_model_name_or_path=None,
+temperature=0.9,
+tf32=None,
+torch_compile=False,
+torch_compile_backend=None,
+torch_compile_mode=None,
+torch_empty_cache_steps=None,
+torchdynamo=None,
+tpu_metrics_debug=False,
+tpu_num_cores=None,
+use_cpu=False,
+use_ipex=False,
+use_legacy_prediction_loop=False,
+use_liger=False,
+use_liger_kernel=False,
+use_mps_device=False,
+wandb_entity=None,
+wandb_project=None,
+warmup_ratio=0.1,
+warmup_steps=0,
+weight_decay=0.0,
+)
+2025-08-18 17:41:35 - INFO - __main__ - *** Initializing model kwargs ***
+2025-08-18 17:41:35 - INFO - __main__ - Loaded top k experts from data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts/top_32_experts_HectorHe_math7k.json: {'model.layers.1.mlp': [61, 51, 44, 14, 45, 22, 8, 43, 57, 0, 4, 7, 13, 19, 31, 18, 37, 40, 5, 52, 27, 59, 48, 2, 9, 42, 41, 54, 21, 24, 10, 56], 'model.layers.2.mlp': [27, 25, 18, 3, 23, 13, 17, 45, 7, 15, 46, 24, 63, 62, 5, 8, 56, 16, 0, 61, 26, 9, 58, 49, 14, 52, 42, 20, 38, 59, 47, 31], 'model.layers.3.mlp': [54, 25, 57, 28, 41, 23, 26, 4, 2, 12, 33, 22, 24, 43, 50, 21, 55, 6, 0, 16, 62, 20, 30, 5, 47, 53, 51, 60, 48, 8, 59, 7], 'model.layers.4.mlp': [11, 37, 21, 49, 33, 14, 47, 29, 32, 17, 0, 5, 31, 34, 7, 8, 30, 22, 61, 44, 57, 27, 55, 62, 38, 20, 54, 39, 52, 18, 43, 36], 'model.layers.5.mlp': [54, 47, 20, 35, 9, 52, 14, 59, 45, 51, 33, 61, 42, 34, 29, 27, 40, 60, 12, 24, 43, 16, 36, 58, 22, 18, 38, 8, 13, 62, 57, 56], 'model.layers.6.mlp': [22, 13, 1, 42, 45, 47, 28, 27, 8, 38, 61, 54, 36, 40, 7, 25, 14, 52, 49, 16, 21, 44, 51, 56, 3, 18, 15, 20, 0, 46, 37, 12], 'model.layers.7.mlp': [58, 18, 43, 24, 44, 62, 2, 14, 53, 63, 51, 60, 35, 45, 42, 40, 23, 36, 30, 7, 22, 8, 26, 21, 46, 39, 50, 52, 0, 33, 6, 5], 'model.layers.8.mlp': [47, 39, 30, 54, 56, 58, 17, 37, 36, 7, 24, 22, 19, 5, 45, 62, 42, 51, 29, 44, 21, 1, 10, 20, 33, 6, 34, 3, 46, 31, 9, 60], 'model.layers.9.mlp': [12, 13, 31, 22, 32, 24, 56, 28, 37, 57, 11, 21, 30, 51, 36, 34, 54, 60, 35, 58, 39, 48, 46, 63, 6, 1, 42, 3, 15, 41, 45, 4], 'model.layers.10.mlp': [47, 19, 42, 2, 13, 22, 43, 21, 28, 33, 38, 31, 62, 15, 60, 4, 53, 14, 55, 26, 16, 29, 41, 52, 11, 24, 3, 57, 58, 59, 27, 40], 'model.layers.11.mlp': [29, 11, 17, 59, 10, 22, 14, 3, 40, 33, 30, 8, 37, 6, 35, 44, 13, 50, 57, 61, 52, 36, 41, 12, 43, 27, 21, 60, 0, 23, 31, 56], 'model.layers.12.mlp': [5, 56, 59, 3, 4, 6, 26, 40, 49, 53, 52, 13, 51, 16, 25, 63, 11, 18, 22, 33, 29, 37, 50, 31, 43, 7, 38, 20, 34, 17, 48, 27], 'model.layers.13.mlp': [10, 58, 42, 47, 14, 17, 4, 39, 51, 52, 8, 0, 22, 50, 62, 63, 61, 6, 40, 60, 21, 35, 33, 29, 7, 32, 38, 26, 31, 25, 16, 1], 'model.layers.14.mlp': [7, 27, 51, 31, 18, 61, 40, 16, 6, 54, 29, 49, 39, 25, 37, 8, 10, 52, 47, 42, 41, 15, 32, 45, 30, 55, 50, 2, 4, 28, 63, 56], 'model.layers.15.mlp': [24, 55, 5, 17, 41, 14, 3, 59, 56, 27, 51, 21, 12, 46, 49, 31, 25, 10, 43, 45, 62, 47, 60, 52, 53, 37, 19, 63, 2, 8, 58, 13], 'model.layers.16.mlp': [33, 61, 63, 49, 19, 9, 51, 21, 56, 8, 11, 58, 23, 1, 27, 17, 42, 15, 25, 57, 60, 6, 7, 52, 41, 46, 30, 3, 45, 35, 36, 38], 'model.layers.17.mlp': [0, 43, 26, 27, 32, 29, 63, 25, 39, 14, 47, 35, 48, 8, 58, 52, 55, 34, 13, 33, 9, 40, 30, 51, 16, 37, 56, 31, 3, 42, 50, 60], 'model.layers.18.mlp': [5, 56, 42, 36, 2, 1, 38, 62, 47, 45, 12, 20, 46, 52, 11, 32, 22, 57, 51, 19, 3, 7, 34, 49, 4, 53, 18, 55, 13, 16, 41, 54], 'model.layers.19.mlp': [23, 2, 24, 40, 36, 0, 51, 59, 44, 7, 45, 21, 31, 47, 53, 57, 20, 49, 3, 14, 30, 56, 48, 52, 9, 19, 39, 8, 55, 33, 37, 34], 'model.layers.20.mlp': [56, 1, 48, 38, 20, 58, 5, 46, 19, 3, 26, 6, 59, 42, 52, 53, 24, 22, 21, 36, 45, 11, 23, 41, 17, 25, 62, 44, 57, 43, 28, 35], 'model.layers.21.mlp': [5, 15, 13, 10, 19, 28, 40, 31, 46, 57, 43, 20, 30, 29, 22, 62, 9, 58, 23, 24, 14, 47, 50, 27, 41, 38, 32, 61, 33, 63, 51, 1], 'model.layers.22.mlp': [32, 58, 3, 31, 45, 14, 8, 26, 10, 4, 12, 30, 16, 2, 40, 60, 59, 38, 28, 42, 21, 25, 56, 39, 18, 51, 47, 36, 46, 24, 48, 0], 'model.layers.23.mlp': [20, 0, 45, 58, 33, 42, 19, 26, 59, 35, 18, 6, 40, 36, 48, 29, 61, 17, 43, 39, 14, 41, 27, 8, 23, 56, 62, 28, 38, 57, 22, 2], 'model.layers.24.mlp': [62, 10, 42, 7, 47, 63, 30, 20, 6, 5, 9, 21, 13, 56, 51, 55, 49, 14, 58, 39, 33, 23, 37, 61, 28, 1, 60, 12, 35, 50, 27, 29], 'model.layers.25.mlp': [45, 48, 39, 11, 46, 38, 51, 16, 58, 15, 50, 1, 35, 14, 20, 40, 12, 0, 5, 47, 25, 18, 10, 27, 29, 60, 17, 24, 61, 31, 4, 63], 'model.layers.26.mlp': [49, 6, 46, 13, 57, 11, 41, 35, 60, 20, 25, 32, 63, 27, 4, 52, 14, 2, 19, 16, 36, 45, 53, 56, 15, 38, 1, 30, 43, 50, 8, 58]}
+2025-08-18 17:41:35 - INFO - __main__ - Model memory before loading model:Memory allocated: 0.0
+Memory reserved: 0.0
+2025-08-18 17:42:04 - INFO - __main__ - Model memory after loading model:Memory allocated: 4836.39697265625
+Memory reserved: 7322.0
+2025-08-18 17:42:04 - INFO - __main__ - MoE layers replaced with dense expert update backward
+2025-08-18 17:42:04 - INFO - __main__ - Model memory after replacing MoE with dense:Memory allocated: 4836.39697265625
+Memory reserved: 7322.0
+2025-08-18 17:42:04 - INFO - __main__ - Initializing EfficientDistillationTrainer...
+2025-08-18 17:42:34 - INFO - __main__ - Model memory after trainer initialization:Memory allocated: 9670.79443359375
+Memory reserved: 13710.0
+2025-08-18 17:42:34 - INFO - __main__ - *** Starting training ***
+2025-08-18 17:42:34 - INFO - __main__ - Model architecture: DeepseekV2ForCausalLM(
+  (model): DeepseekV2Model(
+    (embed_tokens): Embedding(102400, 2048)
+    (layers): ModuleList(
+      (0): DeepseekV2DecoderLayer(
+        (self_attn): DeepseekV2FlashAttention2(
+          (q_proj): Linear(in_features=2048, out_features=3072, bias=False)
+          (kv_a_proj_with_mqa): Linear(in_features=2048, out_features=576, bias=False)
+          (kv_a_layernorm): DeepseekV2RMSNorm()
+          (kv_b_proj): Linear(in_features=512, out_features=4096, bias=False)
+          (o_proj): Linear(in_features=2048, out_features=2048, bias=False)
+          (rotary_emb): DeepseekV2YarnRotaryEmbedding()
+        )
+        (mlp): DeepseekV2MLP(
+          (gate_proj): Linear(in_features=2048, out_features=10944, bias=False)
+          (up_proj): Linear(in_features=2048, out_features=10944, bias=False)
+          (down_proj): Linear(in_features=10944, out_features=2048, bias=False)
+          (act_fn): SiLU()
+        )
+        (input_layernorm): DeepseekV2RMSNorm()
+        (post_attention_layernorm): DeepseekV2RMSNorm()
+      )
+      (1-26): 26 x DeepseekV2DecoderLayer(
+        (self_attn): DeepseekV2FlashAttention2(
+          (q_proj): Linear(in_features=2048, out_features=3072, bias=False)
+          (kv_a_proj_with_mqa): Linear(in_features=2048, out_features=576, bias=False)
+          (kv_a_layernorm): DeepseekV2RMSNorm()
+          (kv_b_proj): Linear(in_features=512, out_features=4096, bias=False)
+          (o_proj): Linear(in_features=2048, out_features=2048, bias=False)
+          (rotary_emb): DeepseekV2YarnRotaryEmbedding()
+        )
+        (mlp): DeepseekV2MoE(
+          (experts): ModuleList(
+            (0-63): 64 x DeepseekV2MLP(
+              (gate_proj): Linear(in_features=2048, out_features=1408, bias=False)
+              (up_proj): Linear(in_features=2048, out_features=1408, bias=False)
+              (down_proj): Linear(in_features=1408, out_features=2048, bias=False)
+              (act_fn): SiLU()
+            )
+          )
+          (gate): MoEGate()
+          (shared_experts): DeepseekV2MLP(
+            (gate_proj): Linear(in_features=2048, out_features=2816, bias=False)
+            (up_proj): Linear(in_features=2048, out_features=2816, bias=False)
+            (down_proj): Linear(in_features=2816, out_features=2048, bias=False)
+            (act_fn): SiLU()
+          )
+        )
+        (input_layernorm): DeepseekV2RMSNorm()
+        (post_attention_layernorm): DeepseekV2RMSNorm()
+      )
+    )
+    (norm): DeepseekV2RMSNorm()
+  )
+  (lm_head): Linear(in_features=2048, out_features=102400, bias=False)
+)
+2025-08-18 17:44:00 - INFO - __main__ - Model parameters ModelConfig(model_name_or_path='/home/ubuntu/efs/hector/data/DeepSeek-Coder-V2-Lite-Instruct/sft/math7k/checkpoint-645', model_revision='main', torch_dtype='bfloat16', trust_remote_code=True, attn_implementation='flash_attention_2', use_peft=False, lora_r=16, lora_alpha=32, lora_dropout=0.05, lora_target_modules=None, lora_modules_to_save=None, lora_task_type='CAUSAL_LM', use_rslora=False, use_dora=False, load_in_8bit=False, load_in_4bit=False, bnb_4bit_quant_type='nf4', use_bnb_nested_quant=False)
+2025-08-18 17:44:00 - INFO - __main__ - Script parameters ScriptArguments(dataset_name='HectorHe/math7k', dataset_config=None, dataset_train_split='train', dataset_test_split='test', gradient_checkpointing_use_reentrant=False, ignore_bias_buffers=False)
+2025-08-18 17:44:00 - INFO - __main__ - Training parameters EfficientDistillationConfig(
+_n_gpu=1,
+accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False},
+adafactor=False,
+adam_beta1=0.9,
+adam_beta2=0.999,
+adam_epsilon=1e-08,
+alpha=0.45,
+auto_find_batch_size=False,
+average_tokens_across_devices=False,
+batch_eval_metrics=False,
+benchmarks=[],
+bf16=True,
+bf16_full_eval=False,
+callbacks=[],
+ce_loss_scale=1.0,
+chars_per_token=<CHARS_PER_TOKEN>,
+chat_template=None,
+completion_only_loss=None,
+data_seed=None,
+dataloader_drop_last=False,
+dataloader_num_workers=0,
+dataloader_persistent_workers=False,
+dataloader_pin_memory=True,
+dataloader_prefetch_factor=None,
+dataset_batch_size=None,
+dataset_kwargs=None,
+dataset_num_proc=None,
+dataset_text_field=text,
+ddp_backend=None,
+ddp_broadcast_buffers=None,
+ddp_bucket_cap_mb=None,
+ddp_find_unused_parameters=None,
+ddp_timeout=1800000000,
+debug=[],
+deepspeed=None,
+delta=0.05,
+disable_dropout=True,
+disable_tqdm=False,
+do_eval=True,
+do_predict=False,
+do_train=False,
+enhance_type=subset_expert_moe,
+eos_token=<EOS_TOKEN>,
+eval_accumulation_steps=None,
+eval_delay=0,
+eval_do_concat_batches=True,
+eval_on_start=False,
+eval_packing=None,
+eval_steps=None,
+eval_strategy=IntervalStrategy.NO,
+eval_use_gather_object=False,
+expert_num=32,
+fp16=False,
+fp16_backend=auto,
+fp16_full_eval=False,
+fp16_opt_level=O1,
+fsdp=[],
+fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False},
+fsdp_min_num_params=0,
+fsdp_transformer_layer_cls_to_wrap=None,
+full_determinism=False,
+gradient_accumulation_steps=1,
+gradient_checkpointing=True,
+gradient_checkpointing_kwargs={'use_reentrant': False},
+greater_is_better=None,
+group_by_length=False,
+half_precision_backend=auto,
+hub_always_push=False,
+hub_model_id=Deepseek-V2-13B-Math7K-Expert-Enhance-Subset-Expert-MoE-32-experts,
+hub_model_revision=main,
+hub_private_repo=None,
+hub_strategy=HubStrategy.EVERY_SAVE,
+hub_token=<HUB_TOKEN>,
+ignore_data_skip=False,
+include_for_metrics=[],
+include_inputs_for_metrics=False,
+include_num_input_tokens_seen=False,
+include_tokens_per_second=False,
+jit_mode_eval=False,
+kl_loss_scale=1.0,
+label_names=None,
+label_smoothing_factor=0.0,
+learning_rate=5e-06,
+length_column_name=length,
+lmbda=0.0,
+load_best_model_at_end=False,
+local_rank=0,
+log_level=info,
+log_level_replica=warning,
+log_on_each_node=True,
+logging_dir=data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts/runs/Aug18_17-44-00_ip-172-31-35-162,
+logging_first_step=False,
+logging_nan_inf_filter=True,
+logging_steps=1,
+logging_strategy=IntervalStrategy.STEPS,
+loss_type=mixture,
+lr_scheduler_kwargs={'min_lr_rate': 0.1},
+lr_scheduler_type=SchedulerType.COSINE_WITH_MIN_LR,
+max_grad_norm=1.0,
+max_length=4096,
+max_new_tokens=512,
+max_seq_length=None,
+max_steps=-1,
+metric_for_best_model=None,
+model_init_kwargs=None,
+mp_parameters=,
+neftune_noise_alpha=None,
+no_cuda=False,
+num_of_sequences=None,
+num_train_epochs=1,
+optim=OptimizerNames.ADAMW_TORCH,
+optim_args=None,
+optim_target_modules=None,
+output_dir=data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts,
+overwrite_hub_revision=False,
+overwrite_output_dir=True,
+packing=False,
+pad_to_multiple_of=None,
+pad_token=<PAD_TOKEN>,
+padding_free=False,
+past_index=-1,
+per_device_eval_batch_size=16,
+per_device_train_batch_size=4,
+prediction_loss_only=False,
+push_to_hub=True,
+push_to_hub_model_id=None,
+push_to_hub_organization=None,
+push_to_hub_revision=False,
+push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
+ray_scope=last,
+reduction=batchmean,
+remove_unused_columns=True,
+report_to=['wandb'],
+restore_callback_states_from_checkpoint=False,
+resume_from_checkpoint=None,
+run_name=data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts,
+save_on_each_node=False,
+save_only_model=False,
+save_safetensors=True,
+save_steps=500,
+save_strategy=SaveStrategy.STEPS,
+save_total_limit=1,
+seed=1234,
+skip_memory_metrics=True,
+system_prompt=None,
+teacher_model_init_kwargs=None,
+teacher_model_name_or_path=None,
+temperature=0.9,
+tf32=None,
+torch_compile=False,
+torch_compile_backend=None,
+torch_compile_mode=None,
+torch_empty_cache_steps=None,
+torchdynamo=None,
+tpu_metrics_debug=False,
+tpu_num_cores=None,
+use_cpu=False,
+use_ipex=False,
+use_legacy_prediction_loop=False,
+use_liger=False,
+use_liger_kernel=False,
+use_mps_device=False,
+wandb_entity=None,
+wandb_project=None,
+warmup_ratio=0.1,
+warmup_steps=0,
+weight_decay=0.0,
+)
+2025-08-18 17:44:01 - INFO - __main__ - *** Initializing model kwargs ***
+2025-08-18 17:44:01 - INFO - __main__ - Loaded top k experts from data/DeepSeek-Coder-V2-Lite-Instruct/expert_enhance/subset_expert_moe/math7K/32_experts/top_32_experts_HectorHe_math7k.json: {'model.layers.1.mlp': [61, 51, 44, 14, 45, 22, 8, 43, 57, 0, 4, 7, 13, 19, 31, 18, 37, 40, 5, 52, 27, 59, 48, 2, 9, 42, 41, 54, 21, 24, 10, 56], 'model.layers.2.mlp': [27, 25, 18, 3, 23, 13, 17, 45, 7, 15, 46, 24, 63, 62, 5, 8, 56, 16, 0, 61, 26, 9, 58, 49, 14, 52, 42, 20, 38, 59, 47, 31], 'model.layers.3.mlp': [54, 25, 57, 28, 41, 23, 26, 4, 2, 12, 33, 22, 24, 43, 50, 21, 55, 6, 0, 16, 62, 20, 30, 5, 47, 53, 51, 60, 48, 8, 59, 7], 'model.layers.4.mlp': [11, 37, 21, 49, 33, 14, 47, 29, 32, 17, 0, 5, 31, 34, 7, 8, 30, 22, 61, 44, 57, 27, 55, 62, 38, 20, 54, 39, 52, 18, 43, 36], 'model.layers.5.mlp': [54, 47, 20, 35, 9, 52, 14, 59, 45, 51, 33, 61, 42, 34, 29, 27, 40, 60, 12, 24, 43, 16, 36, 58, 22, 18, 38, 8, 13, 62, 57, 56], 'model.layers.6.mlp': [22, 13, 1, 42, 45, 47, 28, 27, 8, 38, 61, 54, 36, 40, 7, 25, 14, 52, 49, 16, 21, 44, 51, 56, 3, 18, 15, 20, 0, 46, 37, 12], 'model.layers.7.mlp': [58, 18, 43, 24, 44, 62, 2, 14, 53, 63, 51, 60, 35, 45, 42, 40, 23, 36, 30, 7, 22, 8, 26, 21, 46, 39, 50, 52, 0, 33, 6, 5], 'model.layers.8.mlp': [47, 39, 30, 54, 56, 58, 17, 37, 36, 7, 24, 22, 19, 5, 45, 62, 42, 51, 29, 44, 21, 1, 10, 20, 33, 6, 34, 3, 46, 31, 9, 60], 'model.layers.9.mlp': [12, 13, 31, 22, 32, 24, 56, 28, 37, 57, 11, 21, 30, 51, 36, 34, 54, 60, 35, 58, 39, 48, 46, 63, 6, 1, 42, 3, 15, 41, 45, 4], 'model.layers.10.mlp': [47, 19, 42, 2, 13, 22, 43, 21, 28, 33, 38, 31, 62, 15, 60, 4, 53, 14, 55, 26, 16, 29, 41, 52, 11, 24, 3, 57, 58, 59, 27, 40], 'model.layers.11.mlp': [29, 11, 17, 59, 10, 22, 14, 3, 40, 33, 30, 8, 37, 6, 35, 44, 13, 50, 57, 61, 52, 36, 41, 12, 43, 27, 21, 60, 0, 23, 31, 56], 'model.layers.12.mlp': [5, 56, 59, 3, 4, 6, 26, 40, 49, 53, 52, 13, 51, 16, 25, 63, 11, 18, 22, 33, 29, 37, 50, 31, 43, 7, 38, 20, 34, 17, 48, 27], 'model.layers.13.mlp': [10, 58, 42, 47, 14, 17, 4, 39, 51, 52, 8, 0, 22, 50, 62, 63, 61, 6, 40, 60, 21, 35, 33, 29, 7, 32, 38, 26, 31, 25, 16, 1], 'model.layers.14.mlp': [7, 27, 51, 31, 18, 61, 40, 16, 6, 54, 29, 49, 39, 25, 37, 8, 10, 52, 47, 42, 41, 15, 32, 45, 30, 55, 50, 2, 4, 28, 63, 56], 'model.layers.15.mlp': [24, 55, 5, 17, 41, 14, 3, 59, 56, 27, 51, 21, 12, 46, 49, 31, 25, 10, 43, 45, 62, 47, 60, 52, 53, 37, 19, 63, 2, 8, 58, 13], 'model.layers.16.mlp': [33, 61, 63, 49, 19, 9, 51, 21, 56, 8, 11, 58, 23, 1, 27, 17, 42, 15, 25, 57, 60, 6, 7, 52, 41, 46, 30, 3, 45, 35, 36, 38], 'model.layers.17.mlp': [0, 43, 26, 27, 32, 29, 63, 25, 39, 14, 47, 35, 48, 8, 58, 52, 55, 34, 13, 33, 9, 40, 30, 51, 16, 37, 56, 31, 3, 42, 50, 60], 'model.layers.18.mlp': [5, 56, 42, 36, 2, 1, 38, 62, 47, 45, 12, 20, 46, 52, 11, 32, 22, 57, 51, 19, 3, 7, 34, 49, 4, 53, 18, 55, 13, 16, 41, 54], 'model.layers.19.mlp': [23, 2, 24, 40, 36, 0, 51, 59, 44, 7, 45, 21, 31, 47, 53, 57, 20, 49, 3, 14, 30, 56, 48, 52, 9, 19, 39, 8, 55, 33, 37, 34], 'model.layers.20.mlp': [56, 1, 48, 38, 20, 58, 5, 46, 19, 3, 26, 6, 59, 42, 52, 53, 24, 22, 21, 36, 45, 11, 23, 41, 17, 25, 62, 44, 57, 43, 28, 35], 'model.layers.21.mlp': [5, 15, 13, 10, 19, 28, 40, 31, 46, 57, 43, 20, 30, 29, 22, 62, 9, 58, 23, 24, 14, 47, 50, 27, 41, 38, 32, 61, 33, 63, 51, 1], 'model.layers.22.mlp': [32, 58, 3, 31, 45, 14, 8, 26, 10, 4, 12, 30, 16, 2, 40, 60, 59, 38, 28, 42, 21, 25, 56, 39, 18, 51, 47, 36, 46, 24, 48, 0], 'model.layers.23.mlp': [20, 0, 45, 58, 33, 42, 19, 26, 59, 35, 18, 6, 40, 36, 48, 29, 61, 17, 43, 39, 14, 41, 27, 8, 23, 56, 62, 28, 38, 57, 22, 2], 'model.layers.24.mlp': [62, 10, 42, 7, 47, 63, 30, 20, 6, 5, 9, 21, 13, 56, 51, 55, 49, 14, 58, 39, 33, 23, 37, 61, 28, 1, 60, 12, 35, 50, 27, 29], 'model.layers.25.mlp': [45, 48, 39, 11, 46, 38, 51, 16, 58, 15, 50, 1, 35, 14, 20, 40, 12, 0, 5, 47, 25, 18, 10, 27, 29, 60, 17, 24, 61, 31, 4, 63], 'model.layers.26.mlp': [49, 6, 46, 13, 57, 11, 41, 35, 60, 20, 25, 32, 63, 27, 4, 52, 14, 2, 19, 16, 36, 45, 53, 56, 15, 38, 1, 30, 43, 50, 8, 58]}
+2025-08-18 17:44:01 - INFO - __main__ - Model memory before loading model:Memory allocated: 0.0
+Memory reserved: 0.0
+2025-08-18 17:44:30 - INFO - __main__ - Model memory after loading model:Memory allocated: 4836.39697265625
+Memory reserved: 7322.0
+2025-08-18 17:44:30 - INFO - __main__ - MoE layers replaced with dense expert update backward
+2025-08-18 17:44:30 - INFO - __main__ - Model memory after replacing MoE with dense:Memory allocated: 4836.39697265625
+Memory reserved: 7322.0
+2025-08-18 17:44:30 - INFO - __main__ - Initializing EfficientDistillationTrainer...
+2025-08-18 17:45:01 - INFO - __main__ - Model memory after trainer initialization:Memory allocated: 9670.79443359375
+Memory reserved: 13710.0
+2025-08-18 17:45:01 - INFO - __main__ - *** Starting training ***
+2025-08-18 17:45:01 - INFO - __main__ - Model architecture: DeepseekV2ForCausalLM(
+  (model): DeepseekV2Model(
+    (embed_tokens): Embedding(102400, 2048)
+    (layers): ModuleList(
+      (0): DeepseekV2DecoderLayer(
+        (self_attn): DeepseekV2FlashAttention2(
+          (q_proj): Linear(in_features=2048, out_features=3072, bias=False)
+          (kv_a_proj_with_mqa): Linear(in_features=2048, out_features=576, bias=False)
+          (kv_a_layernorm): DeepseekV2RMSNorm()
+          (kv_b_proj): Linear(in_features=512, out_features=4096, bias=False)
+          (o_proj): Linear(in_features=2048, out_features=2048, bias=False)
+          (rotary_emb): DeepseekV2YarnRotaryEmbedding()
+        )
+        (mlp): DeepseekV2MLP(
+          (gate_proj): Linear(in_features=2048, out_features=10944, bias=False)
+          (up_proj): Linear(in_features=2048, out_features=10944, bias=False)
+          (down_proj): Linear(in_features=10944, out_features=2048, bias=False)
+          (act_fn): SiLU()
+        )
+        (input_layernorm): DeepseekV2RMSNorm()
+        (post_attention_layernorm): DeepseekV2RMSNorm()
+      )
+      (1-26): 26 x DeepseekV2DecoderLayer(
+        (self_attn): DeepseekV2FlashAttention2(
+          (q_proj): Linear(in_features=2048, out_features=3072, bias=False)
+          (kv_a_proj_with_mqa): Linear(in_features=2048, out_features=576, bias=False)
+          (kv_a_layernorm): DeepseekV2RMSNorm()
+          (kv_b_proj): Linear(in_features=512, out_features=4096, bias=False)
+          (o_proj): Linear(in_features=2048, out_features=2048, bias=False)
+          (rotary_emb): DeepseekV2YarnRotaryEmbedding()
+        )
+        (mlp): DeepseekV2MoE(
+          (experts): ModuleList(
+            (0-63): 64 x DeepseekV2MLP(
+              (gate_proj): Linear(in_features=2048, out_features=1408, bias=False)
+              (up_proj): Linear(in_features=2048, out_features=1408, bias=False)
+              (down_proj): Linear(in_features=1408, out_features=2048, bias=False)
+              (act_fn): SiLU()
+            )
+          )
+          (gate): MoEGate()
+          (shared_experts): DeepseekV2MLP(
+            (gate_proj): Linear(in_features=2048, out_features=2816, bias=False)
+            (up_proj): Linear(in_features=2048, out_features=2816, bias=False)
+            (down_proj): Linear(in_features=2816, out_features=2048, bias=False)
+            (act_fn): SiLU()
+          )
+        )
+        (input_layernorm): DeepseekV2RMSNorm()
+        (post_attention_layernorm): DeepseekV2RMSNorm()
+      )
+    )
+    (norm): DeepseekV2RMSNorm()
+  )
+  (lm_head): Linear(in_features=2048, out_features=102400, bias=False)
+)

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:79ae4c6788c02b9e5b0ba16f7a3f5c6938c7cf51397346c67c70a8192052504b
+size 8184