HyperCLOVAX-SEED-Omni-8B / patch_vuvlm.py

Init

3169f6c 9 days ago

47.7 kB

	import contextlib
	import gc
	import inspect
	import json
	import os
	import time
	from functools import partial
	from pathlib import Path
	from typing import List, Optional, Tuple, Union

	import torch
	import torch.distributed as dist
	import torch.nn as nn
	from liger_kernel.transformers import (
	LigerCrossEntropyLoss,
	LigerFusedLinearCrossEntropyLoss,
	)
	from torch.nn import CrossEntropyLoss
	from transformers import AutoTokenizer
	from transformers.integrations.deepspeed import is_deepspeed_zero3_enabled
	from transformers.modeling_outputs import CausalLMOutputWithPast
	from transformers.modeling_utils import is_fsdp_enabled, is_local_dist_rank_0

	from hcxvlm.models.ulysses.sp_utils import (
	gather_outputs_and_unpad,
	get_ulysses_sequence_parallel_group,
	get_ulysses_sequence_parallel_rank,
	get_ulysses_sequence_parallel_world_size,
	slice_input_tensor,
	)

	from .configuration_vlm import HCXVisionConfig
	from .modeling_vlm import HCXVisionForCausalLM, get_rank

	extra_special_tokens = {
	"image_token": "<\|IMAGE_PAD\|>",
	"discrete_image_token": "<\|DISCRETE_IMAGE_PAD\|>",
	"discrete_image_unit_0_id": "<\|vision00000\|>",
	"video_token": "<\|VIDEO_PAD\|>",
	"video_audio_token": "<\|VIDEO_AUDIO_PAD\|>",
	"audio_token": "<\|AUDIO_PAD\|>",
	"discrete_audio_token": "<\|DISCRETE_AUDIO_PAD\|>",
	"discrete_audio_unit_0_id": "<\|audio0000\|>",
	}


	def load_state_dict_into_model(model_to_load, state_dict, strict=True, start_prefix=""):
	old_keys = []
	new_keys = []
	for key in state_dict.keys():
	new_key = None
	if "gamma" in key:
	new_key = key.replace("gamma", "weight")
	if "beta" in key:
	new_key = key.replace("beta", "bias")
	if new_key:
	old_keys.append(key)
	new_keys.append(new_key)
	for old_key, new_key in zip(old_keys, new_keys):
	state_dict[new_key] = state_dict.pop(old_key)

	metadata = getattr(state_dict, "_metadata", None)
	state_dict = state_dict.copy()
	if metadata is not None:
	state_dict._metadata = metadata

	error_msgs = []

	def load(module: nn.Module, state_dict, prefix=""):
	local_metadata = {} if metadata is None else metadata.get(prefix[:-1], {})
	args = (state_dict, prefix, local_metadata, strict, [], [], error_msgs)
	if len([key for key in state_dict if key.startswith(prefix)]) > 0:
	if is_deepspeed_zero3_enabled():
	import deepspeed

	named_parameters = dict(
	module.named_parameters(prefix=prefix[:-1], recurse=False)
	)
	params_to_gather = [
	named_parameters[k]
	for k in state_dict.keys()
	if k in named_parameters
	]
	if len(params_to_gather) > 0:
	with deepspeed.zero.GatheredParameters(
	params_to_gather, modifier_rank=0
	):
	if torch.distributed.get_rank() == 0:
	module._load_from_state_dict(*args)
	else:
	module._load_from_state_dict(*args)

	for name, child in module._modules.items():
	if child is not None:
	load(child, state_dict, prefix + name + ".")

	load(model_to_load, state_dict, prefix=start_prefix)
	del state_dict

	return error_msgs


	def load_sharded_checkpoint(
	model,
	folder,
	pick_prefix="",
	replace_prefix_list=[],
	replace_prefix_dict={},
	print_info=True,
	):
	if folder is None:
	return {}

	files = os.listdir(folder)

	pytorch_bin_files = [
	file
	for file in files
	if file.startswith("pytorch_model") and file.endswith(".bin")
	]
	safetensor_files = [file for file in files if file.endswith(".safetensors")]
	shard_index_file = [file for file in files if file.endswith(".index.json")]

	index_present = len(shard_index_file) > 0
	index_file = os.path.join(folder, shard_index_file[0]) if index_present else []

	is_safetensor = len(safetensor_files) > 0

	model_keys = model.state_dict().keys()

	if is_safetensor:
	from safetensors.torch import load_file

	load_function = load_file
	shard_files = safetensor_files
	else:
	load_function = partial(torch.load, map_location="cpu")
	shard_files = pytorch_bin_files

	if index_present:
	with open(index_file, "r", encoding="utf-8") as f:
	index = json.load(f)
	loaded_keys = index["weight_map"].keys()
	if pick_prefix:
	loaded_keys = [
	k[len(pick_prefix) :] for k in loaded_keys if k.startswith(pick_prefix)
	]
	if replace_prefix_list:
	for rep_prefix in replace_prefix_list:
	loaded_keys = [
	k[len(rep_prefix) :] if k.startswith(rep_prefix) else k
	for k in loaded_keys
	]
	if replace_prefix_dict:
	for rep_prefix in replace_prefix_dict:
	loaded_keys = [
	(
	k.replace(rep_prefix, replace_prefix_dict[rep_prefix])
	if k.startswith(rep_prefix)
	else k
	)
	for k in loaded_keys
	]

	for i, shard_file in enumerate(shard_files):
	state_dict = load_function(os.path.join(folder, shard_file))

	if pick_prefix:
	state_dict = {
	k[len(pick_prefix) :]: v
	for k, v in state_dict.items()
	if k.startswith(pick_prefix)
	}

	for rep_prefix in replace_prefix_list:
	state_dict = {
	k[len(rep_prefix) :] if k.startswith(rep_prefix) else k: v
	for k, v in state_dict.items()
	}

	for rep_prefix in replace_prefix_dict:
	state_dict = {
	(
	k.replace(rep_prefix, replace_prefix_dict[rep_prefix])
	if k.startswith(rep_prefix)
	else k
	): v
	for k, v in state_dict.items()
	}

	if is_deepspeed_zero3_enabled():
	rank = torch.distributed.get_rank()
	print(f"# [info] ZeRo3 - load sharded no {i}, rank {rank}")
	load_state_dict_into_model(model, state_dict, strict=False)
	elif is_fsdp_enabled():
	if is_local_dist_rank_0():
	model.load_state_dict(state_dict, strict=False)
	else:
	model.load_state_dict(state_dict, strict=False)

	if not index_present:
	loaded_keys = state_dict.keys()

	del state_dict
	gc.collect()

	missing_keys = [key for key in model_keys if key not in loaded_keys]
	unexpected_keys = [key for key in loaded_keys if key not in model_keys]

	if get_rank() == 0 and print_info:
	print(f"[info] missing_keys: {missing_keys}")
	print(f"[info] unexpected_keys: {unexpected_keys}")

	return {"missing_keys": missing_keys, "unexpected_keys": unexpected_keys}


	class HCXVisionForCausalLM_VU(HCXVisionForCausalLM):
	def __init__(self, config, **kwargs):
	self.use_liger = kwargs.pop("use_liger", True)
	self.use_fused_ce = kwargs.pop("use_fused_ce", True)
	self.use_meansum_loss = kwargs.pop("use_meansum_loss", True)
	self.use_turnmeansum_loss = kwargs.pop("use_turnmeansum_loss", False)
	self.use_sqrtsum_loss = kwargs.pop("use_sqrtsum_loss", False)
	use_sum_loss = True if kwargs.pop("use_sum_loss", False) else False

	self.sequence_parallel_size = kwargs.pop("sequence_parallel_size", 1)
	self.sp_manager = kwargs.pop("sp_manager", None)
	self.train_video = kwargs.pop("train_video", False)

	assert (
	int(self.use_meansum_loss)
	+ int(self.use_turnmeansum_loss)
	+ int(self.use_sqrtsum_loss)
	) <= 1, "use_meansum_loss, use_turnmeansum_loss, use_sqrtsum_loss 중 둘 이상을 동시에 True로 설정할 수 없습니다."

	if self.use_meansum_loss or self.use_turnmeansum_loss or self.use_sqrtsum_loss:
	self.reduction = "none"
	elif use_sum_loss:
	self.reduction = "sum"
	else:
	self.reduction = "mean"

	super().__init__(config, **kwargs)
	if config.text_config.model_type == "hyperclovax" and self.use_liger:
	self.language_model._get_apply_liger_kernel_converter()(
	model=self.language_model
	)
	print("[info] use liger kernel for hcx 24b")
	if config.freeze_encoder:
	for param in self.vision_model.parameters():
	param.requires_grad = False
	assert (
	all(param.requires_grad for param in self.vision_model.parameters())
	== False
	)

	@classmethod
	def from_pretrained(
	cls,
	pretrained_model_name_or_path: Optional[Union[str, os.PathLike]] = None,
	text_model_name_or_path: Optional[Union[str, os.PathLike]] = None,
	vision_model_name_or_path: Optional[Union[str, os.PathLike]] = None,
	discrete_vision_model_name_or_path: Optional[Union[str, os.PathLike]] = None,
	audio_model_name_or_path: Optional[Union[str, os.PathLike]] = None,
	discrete_audio_model_name_or_path: Optional[Union[str, os.PathLike]] = None,
	q_former_model_name_or_path: Optional[Union[str, os.PathLike]] = None,
	without_llm: bool = False,
	*model_args,
	**kwargs,
	):
	"""
	:param pretrained_model_name_or_path: Optional[Union[str, os.PathLike]] : pre-trained path for LLM(text_model_name_or_path) e.g. /path/to/model/
	:param vision_model_name_or_path: Optional[Union[str, os.PathLike]] : pre-trained path for VisionModule(HyperClova-VisionModule) e.g. /path/to/vision/module/
	:param q_former_model_name_or_path: Optional[Union[str, os.PathLike]] : pre-trained path for VLM e.g. /path/to/vlm/checkpoint/
	:param without_llm: Bool: False: init/load llm weight from pre-trained True: init/load llm weight from dummy file
	:param model_args:
	:param kwargs:
	:return:
	"""
	assert pretrained_model_name_or_path is not None or (
	text_model_name_or_path is not None
	and vision_model_name_or_path is not None
	)

	cache_dirpath = kwargs.pop("cache_dirpath", None)
	if cache_dirpath is None:
	cache_dirpath = "~/.cache"

	runtime_only_keys = {
	"use_liger",
	"use_fused_ce",
	"use_meansum_loss",
	"use_turnmeansum_loss",
	"use_sqrtsum_loss",
	"use_sum_loss",
	"sequence_parallel_size",
	"sp_manager",
	"train_video",
	}
	runtime_kwargs = {}
	for k in list(runtime_only_keys):
	if k in kwargs:
	runtime_kwargs[k] = kwargs.pop(k)

	kwargs["vision_model_name_or_path"] = vision_model_name_or_path
	kwargs["discrete_vision_model_name_or_path"] = (
	discrete_vision_model_name_or_path
	)
	kwargs["audio_model_name_or_path"] = audio_model_name_or_path
	kwargs["discrete_audio_model_name_or_path"] = discrete_audio_model_name_or_path

	save_only_vision = (
	kwargs.pop("save_only_vision") if "save_only_vision" in kwargs else False
	)
	save_only_qformer = (
	kwargs.pop("save_only_qformer") if "save_only_qformer" in kwargs else False
	)
	save_shard_size = (
	kwargs.pop("save_shard_size") if "save_shard_size" in kwargs else "5GB"
	)

	def _purge_runtime_from_config(cfg):
	for rk in runtime_only_keys:
	if hasattr(cfg, rk):
	delattr(cfg, rk)

	template_path = "hcxvlm/dataset/chat_template.jinja"
	with open(template_path, "r", encoding="utf-8") as f:
	chat_template_str = f.read()
	if without_llm:
	assert pretrained_model_name_or_path is not None and os.path.exists(
	pretrained_model_name_or_path
	)

	dummy_config = HCXVisionConfig.from_pretrained(
	pretrained_model_name_or_path=pretrained_model_name_or_path,
	*model_args,
	**kwargs,
	)
	_purge_runtime_from_config(dummy_config)
	dummy_config.text_config.num_hidden_layers = 0
	dummy_config.text_config.num_attention_heads = 1

	if isinstance(
	dummy_config.vision_model_name_or_path, str
	) and os.path.exists(dummy_config.vision_model_name_or_path):
	vision_model_name_or_path = dummy_config.vision_model_name_or_path
	assert isinstance(vision_model_name_or_path, str) and os.path.exists(
	vision_model_name_or_path
	), f"# [error] invalid vision_model_name_or_path: {vision_model_name_or_path}"
	dummy_config.vision_model_name_or_path = vision_model_name_or_path
	dummy_config.vision_config._name_or_path = vision_model_name_or_path
	dummy_config.vision_config.vison_pretrained_name_or_path = (
	vision_model_name_or_path
	)

	model = super().from_pretrained(
	pretrained_model_name_or_path=pretrained_model_name_or_path,
	without_llm=True,
	config=dummy_config,
	*model_args,
	{kwargs, **runtime_kwargs},
	)
	model.tokenizer = AutoTokenizer.from_pretrained(
	pretrained_model_name_or_path
	)
	model.tokenizer.chat_template = chat_template_str
	model.transformer = None
	else:
	if pretrained_model_name_or_path is not None and (
	audio_model_name_or_path is not None
	or discrete_audio_model_name_or_path is not None
	or discrete_vision_model_name_or_path is not None
	):
	assert (
	audio_model_name_or_path is not None
	and discrete_audio_model_name_or_path is not None
	and discrete_vision_model_name_or_path is not None
	)
	print(f"[DEBUG] image stage2 끝난 시점에서 audio 를 stage3 로 붙일때.")
	pt_config = HCXVisionConfig.from_pretrained(
	pretrained_model_name_or_path
	)
	_purge_runtime_from_config(pt_config)
	config_dict = pt_config.to_dict()
	config_dict["audio_model_name_or_path"] = audio_model_name_or_path
	config_dict["discrete_audio_model_name_or_path"] = (
	discrete_audio_model_name_or_path
	)
	config_dict["discrete_vision_model_name_or_path"] = (
	discrete_vision_model_name_or_path
	)
	config = HCXVisionConfig.from_dict(config_dict)
	print(f"config: {config}")
	model = super().from_pretrained(
	pretrained_model_name_or_path,
	without_llm=False,
	config=config,
	_fast_init=False,
	*model_args,
	**kwargs,
	)
	model.tokenizer = AutoTokenizer.from_pretrained(
	pretrained_model_name_or_path
	)
	model.tokenizer.chat_template = chat_template_str
	elif isinstance(q_former_model_name_or_path, str):
	config = HCXVisionConfig.from_dict(
	{"text_model_name_or_path": text_model_name_or_path, **kwargs}
	)
	_purge_runtime_from_config(config)
	model = super().from_pretrained(
	q_former_model_name_or_path,
	without_llm=False,
	config=config,
	_fast_init=False,
	*model_args,
	{kwargs, **runtime_kwargs},
	)
	model.tokenizer = AutoTokenizer.from_pretrained(
	q_former_model_name_or_path
	)
	model.tokenizer.chat_template = chat_template_str
	elif pretrained_model_name_or_path is not None:
	config = HCXVisionConfig.from_pretrained(
	pretrained_model_name_or_path, model_args, *kwargs
	)
	_purge_runtime_from_config(config)
	model = super().from_pretrained(
	pretrained_model_name_or_path,
	*model_args,
	config=config,
	**runtime_kwargs,
	)
	model.tokenizer = AutoTokenizer.from_pretrained(
	pretrained_model_name_or_path
	)
	model.tokenizer.chat_template = chat_template_str
	else:
	config = HCXVisionConfig.from_dict(
	{"text_model_name_or_path": text_model_name_or_path, **kwargs}
	)
	_purge_runtime_from_config(config)
	model = HCXVisionForCausalLM_VU(
	config, model_args, {kwargs, *runtime_kwargs}
	)
	model.tokenizer = AutoTokenizer.from_pretrained(text_model_name_or_path)
	model.tokenizer.chat_template = chat_template_str
	model.mm_projector.apply(model._init_weights)

	img_start_id = model.tokenizer.encode(
	extra_special_tokens["image_token"], add_special_tokens=False
	)
	assert (
	len(img_start_id) == 1
	), f'{extra_special_tokens["image_token"]} was not encoded into a single special token. Encoding result: {img_start_id}'
	model.config.img_start_id = img_start_id[0]
	model.config.image_token_id = img_start_id[0]

	video_start_id = model.tokenizer.encode(
	extra_special_tokens["video_token"], add_special_tokens=False
	)
	assert (
	len(video_start_id) == 1
	), f"video_token was not encoded into a single special token. Encoding result: {video_start_id}"
	model.config.video_start_id = video_start_id[0]
	model.config.video_token_id = video_start_id[0]

	video_audio_start_id = model.tokenizer.encode(
	extra_special_tokens["video_audio_token"], add_special_tokens=False
	)
	assert (
	len(video_audio_start_id) == 1
	), f"video_audio_token was not encoded into a single special token. Encoding result: {video_audio_start_id}"
	model.config.video_audio_start_id = video_audio_start_id[0]
	model.config.video_audio_token_id = video_audio_start_id[0]

	if (
	audio_model_name_or_path is not None
	or discrete_audio_model_name_or_path is not None
	or discrete_vision_model_name_or_path is not None
	):
	audio_start_id = model.tokenizer.encode(
	extra_special_tokens["audio_token"], add_special_tokens=False
	)
	assert (
	len(audio_start_id) == 1
	), f"audio_token was not encoded into a single special token. Encoding result: {audio_start_id}"
	model.config.audio_start_id = audio_start_id[0]
	model.config.audio_token_id = audio_start_id[0]

	discrete_audio_start_id = model.tokenizer.encode(
	extra_special_tokens["discrete_audio_token"], add_special_tokens=False
	)
	assert (
	len(discrete_audio_start_id) == 1
	), f"discrete_audio_token was not encoded into a single special token. Encoding result: {discrete_audio_start_id}"
	model.config.discrete_audio_start_id = discrete_audio_start_id[0]
	model.config.discrete_audio_token_id = discrete_audio_start_id[0]
	discrete_audio_unit_0_id = model.tokenizer.encode(
	extra_special_tokens["discrete_audio_unit_0_id"],
	add_special_tokens=False,
	)
	assert (
	len(discrete_audio_unit_0_id) == 1
	), f'{extra_special_tokens["discrete_audio_unit_0_id"]} was not encoded into a single special token. Encoding result: {discrete_audio_unit_0_id}'
	model.config.discrete_audio_unit_0_id = discrete_audio_unit_0_id[0]

	discrete_image_start_id = model.tokenizer.encode(
	extra_special_tokens["discrete_image_token"], add_special_tokens=False
	)
	assert (
	len(discrete_image_start_id) == 1
	), f'{extra_special_tokens["discrete_image_token"]} was not encoded into a single special token. Encoding result: {discrete_image_start_id}'
	model.config.discrete_image_start_id = discrete_image_start_id[0]
	model.config.discrete_image_token_id = discrete_image_start_id[0]
	discrete_image_unit_0_id = model.tokenizer.encode(
	extra_special_tokens["discrete_image_unit_0_id"],
	add_special_tokens=False,
	)
	assert (
	len(discrete_image_unit_0_id) == 1
	), f'{extra_special_tokens["discrete_image_unit_0_id"]} was not encoded into a single special token. Encoding result: {discrete_image_unit_0_id}'
	model.config.discrete_image_unit_0_id = discrete_image_unit_0_id[0]

	model.save_only_vision = save_only_vision
	model.save_only_qformer = save_only_qformer
	model.save_shard_size = save_shard_size

	if pretrained_model_name_or_path is None or (
	pretrained_model_name_or_path is not None
	and audio_model_name_or_path is not None
	):
	vision_model_name_or_path = kwargs.get("vision_model_name_or_path", None)
	if vision_model_name_or_path is not None:
	load_sharded_checkpoint(model.vision_model, vision_model_name_or_path)
	if get_rank() == 0:
	print("[info] vision model loading complete")

	discrete_vision_model_name_or_path = kwargs.get(
	"discrete_vision_model_name_or_path", None
	)
	if discrete_vision_model_name_or_path is not None:

	model.discrete_vision_model.load_state_dict(
	torch.load(
	discrete_vision_model_name_or_path,
	map_location=model.device,
	weights_only=False,
	)["model"]["sd"],
	strict=True,
	)
	if get_rank() == 0:
	print("[info] discrete vision model loading complete")

	audio_model_name_or_path = kwargs.get("audio_model_name_or_path", None)
	if audio_model_name_or_path is not None:
	load_sharded_checkpoint(model.audio_model, audio_model_name_or_path)
	if get_rank() == 0:
	print("[info] audio model loading complete")

	discrete_audio_model_name_or_path = kwargs.get(
	"discrete_audio_model_name_or_path", None
	)
	if discrete_audio_model_name_or_path is not None:

	model.discrete_audio_model.load_state_dict(
	torch.load(
	discrete_audio_model_name_or_path,
	map_location=model.device,
	weights_only=False,
	),
	strict=True,
	)
	if get_rank() == 0:
	print("[info] discrete audio model loading complete")

	if text_model_name_or_path is not None:
	load_sharded_checkpoint(model.language_model, text_model_name_or_path)
	if get_rank() == 0:
	print("[info] text model loading complete")

	if isinstance(q_former_model_name_or_path, str):
	assert Path(
	q_former_model_name_or_path
	).exists(), f"# [error] given q_former_name_or_path not exist: {q_former_model_name_or_path}"

	load_result = load_sharded_checkpoint(
	model,
	q_former_model_name_or_path,
	replace_prefix_dict={
	"vision_model.image_encoder.model.vision_tower": "vision_model",
	"model": "language_model.model",
	"lm_head.weight": "language_model.lm_head.weight",
	},
	print_info=False,
	)

	if get_rank() == 0:
	missing_keys_summary = dict()
	for key in load_result["missing_keys"]:
	if key.split(".")[0] in missing_keys_summary:
	missing_keys_summary[key.split(".")[0]] += 1
	else:
	missing_keys_summary[key.split(".")[0]] = 1
	print(f"[info] missing_keys summary : {missing_keys_summary}")
	print("[info] q_former model loading complete")

	config: HCXVisionConfig = model.config
	if config.model_type != "vlm":
	model.config.model_type = "vlm"

	return model

	def _pad_sequence_for_sp(
	self,
	inputs_embeds: torch.Tensor,
	labels: Optional[torch.Tensor],
	sp_world_size: int,
	) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
	"""
	Ensure sequence length is divisible by the SP group size by padding on the sequence dimension.
	Returns the possibly padded (inputs_embeds, labels).
	"""
	batch_size, seqlen, hidden_size = inputs_embeds.shape
	remainder = seqlen % sp_world_size
	if remainder != 0:
	print(
	f"[info] Padding sequence dimension to make it divisible by {sp_world_size}"
	)
	pad_len = sp_world_size - remainder
	pad_embeds = torch.zeros(
	(batch_size, pad_len, hidden_size),
	dtype=inputs_embeds.dtype,
	device=inputs_embeds.device,
	)
	inputs_embeds = torch.cat([inputs_embeds, pad_embeds], dim=1)

	if labels is not None:
	ignore_index = getattr(self.config, "ignore_index", -100)
	pad_labels = torch.full(
	(batch_size, pad_len),
	fill_value=ignore_index,
	dtype=labels.dtype,
	device=labels.device,
	)
	labels = torch.cat([labels, pad_labels], dim=1)

	return inputs_embeds, labels

	def forward(
	self,
	input_ids: Optional[torch.LongTensor] = None,
	pixel_values: Optional[List[List[torch.FloatTensor]]] = None,
	discrete_pixel_values: Optional[List[List[torch.FloatTensor]]] = None,
	past_key_values: Optional[Tuple[Tuple[torch.Tensor]]] = None,
	attention_mask: Optional[torch.FloatTensor] = None,
	position_ids: Optional[torch.LongTensor] = None,
	inputs_embeds: Optional[torch.FloatTensor] = None,
	labels: Optional[torch.LongTensor] = None,
	use_cache: Optional[bool] = None,
	output_attentions: Optional[bool] = None,
	output_hidden_states: Optional[bool] = None,
	return_dict: Optional[bool] = None,
	image_sizes: Optional[List[List[List[int]]]] = None,
	mm_query_lengths: Optional[List[List[int]]] = None,
	non_mm_query_lengths: Optional[List[List[int]]] = None,
	img_start_ids_list: Optional[List[List[int]]] = None,
	num_queries_vis_abstractors: Optional[List[List[int]]] = None,
	num_queries_vis_abstractors_slow: Optional[List[List[int]]] = None,
	first_last_frames_slows: Optional[List[List[bool]]] = None,
	is_videos: Optional[List[List[bool]]] = None,
	image_grid_thw: Optional[torch.LongTensor] = None,
	pixel_values_videos: Optional[torch.FloatTensor] = None,
	video_grid_thw: Optional[torch.LongTensor] = None,
	video_audio_values: Optional[torch.FloatTensor] = None,
	video_audio_masks: Optional[torch.FloatTensor] = None,
	audio_values: Optional[torch.FloatTensor] = None,
	discrete_audio_values: Optional[torch.FloatTensor] = None,
	discrete_audio_value_num_per_sample: Optional[torch.LongTensor] = None,
	audio_masks: Optional[torch.LongTensor] = None,
	**kwargs,
	) -> Union[Tuple, CausalLMOutputWithPast]:
	"""
	:param input_ids: torch.int64 : torch.size([batchsize, variable)]) : SystemPrompt with Question text token indices for tokenizer.
	In positions where images are inputted, the value is replaced by config.img_start_id, which is a vocabulary index used to indicate the start of image data.
	:param pixel_values: List of List of 4D tensor (torch.float32)
	Each outer list corresponds to a batch and contains inner lists, each holding tensors for images in a sample. The structure accounts for samples with multiple images.
	:param past_key_values: None
	:param inputs_embeds: None
	:param labels: Optional[torch.int64] : [batchsize, variable (input_ids.size(1)+ num visual tokens)] visual token 들은 모두 IGNORE_INDEX
	:param use_cache: None
	:param output_attentions: Optional[bool] : get attention weights of each layers of transformer network (true: 결과값에 포함, false: 결과값에 미포함)
	:param output_hidden_states: Optional[bool] : get hidden states of each layers of transformer network (true: 결과값에 포함, false: 결과값에 미포함)
	:param return_dict: Optional[bool] : True - return dict, Fasle - return tensor
	:param image_sizes: Stacked as a List of List, representing image sizes (width, height).
	In cases where a sample contains no images, a single dummy image is included.
	:param mm_query_lengths: A List of List that stores the lengths when each image is converted into visual tokens for LLM input.
	In cases where a sample does not contain any images, an empty list is included.
	:param non_mm_query_lengths: contains the lengths of text tokens (excluding visual tokens) for each sample in a batch.
	:img_start_ids_list: contains the indices of the img_start_id tokens for each sample.
	:num_queries_vis_abstractors: A List of List that contains the number of visual tokens for each image grid.
	:num_queries_vis_abstractors_slow: A List of List that contains the number of visual tokens for the slow part when applying the slowfast algorithm to video frames. If the slowfast algorithm is not applied, it will have a value of None.
	:first_last_frames_slows: A List of List that contains the only first and last frames slow mode for each sample in a batch.
	:is_videos: A List of List that contains the boolean value indicating whether each sample in a batch is a video.
	:image_grid_thw: A 3D tensor (torch.int64) for qwen2.5-vl visual encoder.
	:pixel_values_videos: A 2D tensor (torch.float32) for qwen2.5-vl visual encoder.
	:video_grid_thw: A 3D tensor (torch.int64) for qwen2.5-vl visual encoder.
	:return:
	"""

	if self.sp_manager is not None and self.train_video:
	sp_group = get_ulysses_sequence_parallel_group()
	if sp_group is not None:
	sp_rank = get_ulysses_sequence_parallel_rank(sp_group)
	sp_world_size = get_ulysses_sequence_parallel_world_size(sp_group)
	if sp_rank == 0:
	payload = {
	"input_ids": input_ids,
	"labels": labels,
	"pixel_values": pixel_values,
	"image_grid_thw": image_grid_thw,
	"pixel_values_videos": pixel_values_videos,
	"video_grid_thw": video_grid_thw,
	"video_audio_values": video_audio_values,
	"video_audio_masks": video_audio_masks,
	}
	else:
	payload = {
	"input_ids": None,
	"labels": None,
	"pixel_values": None,
	"image_grid_thw": None,
	"pixel_values_videos": None,
	"video_grid_thw": None,
	"video_audio_values": None,
	"video_audio_masks": None,
	}

	obj_list = [payload]
	src_global_rank = dist.get_global_rank(sp_group, 0)
	dist.broadcast_object_list(
	obj_list, src=src_global_rank, group=sp_group
	)
	payload = obj_list[0]

	if sp_rank != 0:
	device = input_ids.device

	input_ids = payload["input_ids"]
	if isinstance(input_ids, torch.Tensor):
	input_ids = input_ids.to(device)

	labels = payload["labels"]
	if isinstance(labels, torch.Tensor):
	labels = labels.to(device)

	image_grid_thw = payload["image_grid_thw"]
	if isinstance(image_grid_thw, torch.Tensor):
	image_grid_thw = image_grid_thw.to(device)

	pixel_values_videos = payload["pixel_values_videos"]
	if isinstance(pixel_values_videos, torch.Tensor):
	pixel_values_videos = pixel_values_videos.to(device)

	video_grid_thw = payload["video_grid_thw"]
	if isinstance(video_grid_thw, torch.Tensor):
	video_grid_thw = video_grid_thw.to(device)

	video_audio_values = payload["video_audio_values"]
	if isinstance(video_audio_values, torch.Tensor):
	video_audio_values = video_audio_values.to(device)

	video_audio_masks = payload["video_audio_masks"]
	if isinstance(video_audio_masks, torch.Tensor):
	video_audio_masks = video_audio_masks.to(device)

	pixel_values = payload["pixel_values"]
	if isinstance(pixel_values, torch.Tensor):
	pixel_values = pixel_values.to(device)

	attention_mask = None
	output_attentions = (
	output_attentions
	if output_attentions is not None
	else self.config.vision_config.output_attentions
	)
	output_hidden_states = (
	output_hidden_states
	if output_hidden_states is not None
	else self.config.vision_config.output_hidden_states
	)
	return_dict = (
	return_dict if return_dict is not None else self.config.use_return_dict
	)

	if inputs_embeds is None and past_key_values is None:
	inputs_embeds, labels = self.model.extract_inputs_embeds(
	input_ids=input_ids,
	labels=labels,
	pixel_values=pixel_values,
	discrete_pixel_values=discrete_pixel_values,
	past_key_values=past_key_values,
	image_sizes=image_sizes,
	mm_query_lengths=mm_query_lengths,
	non_mm_query_lengths=non_mm_query_lengths,
	img_start_ids_list=img_start_ids_list,
	num_queries_vis_abstractors=num_queries_vis_abstractors,
	num_queries_vis_abstractors_slow=num_queries_vis_abstractors_slow,
	first_last_frames_slows=first_last_frames_slows,
	is_videos=is_videos,
	image_grid_thw=image_grid_thw,
	pixel_values_videos=pixel_values_videos,
	video_grid_thw=video_grid_thw,
	video_audio_values=video_audio_values,
	video_audio_masks=video_audio_masks,
	audio_values=audio_values,
	discrete_audio_values=discrete_audio_values,
	discrete_audio_value_num_per_sample=discrete_audio_value_num_per_sample,
	audio_masks=audio_masks,
	)

	if labels is not None and labels.size(1) > 32768:
	print(
	f"[RANK {rank} debug] ❌ labels.size(1) > 32768. labels.size(): {labels.size()}"
	)

	if inputs_embeds is not None:
	input_ids = None

	import os

	rank = int(os.environ.get("RANK", -1))

	if inputs_embeds is not None:
	expected_hidden_size = self.config.text_config.hidden_size
	if inputs_embeds.shape[-1] != expected_hidden_size:
	print(f"[RANK {rank}] ❌ inputs_embeds dimension mismatch!")
	print(
	f" Expected: {expected_hidden_size}, Got: {inputs_embeds.shape[-1]}"
	)

	if labels is not None:
	vocab_size = self.get_input_embeddings().num_embeddings
	valid_labels = labels[labels != -100]
	if len(valid_labels) > 0:
	if (valid_labels >= vocab_size).any() or (valid_labels < 0).any():
	print(f"[RANK {rank}] ❌ CRITICAL: labels out of vocab range!")
	print(
	f" labels min/max: {valid_labels.min().item()}/{valid_labels.max().item()}"
	)
	print(f" vocab_size: {vocab_size}")
	print(
	f" Out-of-range count: {(valid_labels >= vocab_size).sum().item()}"
	)

	if attention_mask is not None and inputs_embeds is not None:
	if attention_mask.shape[1] != inputs_embeds.shape[1]:
	print(f"[RANK {rank}] ❌ attention_mask shape mismatch!")
	print(
	f" attention_mask: {attention_mask.shape}, inputs_embeds: {inputs_embeds.shape}"
	)

	if position_ids is not None:
	max_position = position_ids.max().item()
	if hasattr(self.language_model.config, "max_position_embeddings"):
	max_allowed = self.language_model.config.max_position_embeddings
	if max_position >= max_allowed:
	print(f"[RANK {rank}] ❌ position_ids out of range!")
	print(f" max_position: {max_position}, max_allowed: {max_allowed}")

	if self.sp_manager is not None:

	batch_size, seqlen, hidden_size = inputs_embeds.shape

	sp_group = get_ulysses_sequence_parallel_group()
	sp_world_size = get_ulysses_sequence_parallel_world_size(sp_group)

	inputs_embeds, labels = self._pad_sequence_for_sp(
	inputs_embeds, labels, sp_world_size
	)

	if position_ids is None:
	position_ids = torch.arange(
	seqlen, device=inputs_embeds.device, dtype=torch.long
	)
	position_ids = (
	position_ids.unsqueeze(0).expand(batch_size, -1).contiguous()
	)

	inputs_embeds = slice_input_tensor(
	inputs_embeds, 1, padding=False, group=sp_group
	)
	labels = slice_input_tensor(labels, 1, padding=False, group=sp_group)
	use_cache = False

	outputs = self.language_model.base_model(
	input_ids=input_ids,
	inputs_embeds=inputs_embeds,
	attention_mask=attention_mask,
	position_ids=position_ids,
	past_key_values=past_key_values,
	use_cache=use_cache,
	output_attentions=output_attentions,
	output_hidden_states=output_hidden_states,
	return_dict=return_dict,
	)

	hidden_states = outputs[0]
	hidden_states = hidden_states * self.config.text_config.logits_scaling

	loss = None
	logits = None

	if labels is not None:
	if self.use_liger and self.use_fused_ce:
	shift_labels = labels[..., 1:].contiguous()
	shift_labels = shift_labels.view(-1)

	hidden_states = hidden_states[..., :-1, :].contiguous()
	hidden_states = hidden_states.view(
	-1, self.language_model.config.hidden_size
	).to(self.language_model.lm_head.weight.dtype)

	import os

	rank = int(os.environ.get("RANK", -1))

	vocab_size = self.language_model.lm_head.weight.shape[0]
	valid_labels = shift_labels[shift_labels != -100]
	if len(valid_labels) > 0 and (
	(valid_labels >= vocab_size).any() or (valid_labels < 0).any()
	):
	print(
	f"[RANK {rank}] ❌ CRITICAL: shift_labels out of vocab range!"
	)
	print(
	f" min/max: {valid_labels.min().item()}/{valid_labels.max().item()}, vocab: {vocab_size}"
	)
	print(
	f" Out-of-range count: {(valid_labels >= vocab_size).sum().item()}"
	)

	lce = LigerFusedLinearCrossEntropyLoss(reduction=self.reduction)
	try:
	loss = lce(
	self.language_model.lm_head.weight, hidden_states, shift_labels
	)
	except RuntimeError as e:
	print(
	f"[RANK {rank}] ❌ FATAL: LigerFusedLinearCrossEntropyLoss failed!"
	)
	print(f" Error: {e}")
	print(
	f" hidden_states: shape={hidden_states.shape}, dtype={hidden_states.dtype}"
	)
	print(
	f" shift_labels: shape={shift_labels.shape}, unique_values={torch.unique(shift_labels).tolist()[:20]}"
	)
	print(
	f" lm_head.weight: shape={self.language_model.lm_head.weight.shape}"
	)
	raise
	elif self.use_liger:
	logits = self.language_model.lm_head(hidden_states)

	shift_logits = logits[..., :-1, :].contiguous()
	shift_labels = labels[..., 1:].contiguous()

	loss_fct = LigerCrossEntropyLoss(reduction=self.reduction)
	shift_logits = shift_logits.view(-1, self.config.text_config.vocab_size)
	shift_labels = shift_labels.view(-1)
	shift_labels = shift_labels.to(shift_logits.device)
	loss = loss_fct(shift_logits, shift_labels)
	else:
	logits = self.language_model.lm_head(hidden_states)

	shift_logits = logits[..., :-1, :].contiguous()
	shift_labels = labels[..., 1:].contiguous()

	loss_fct = CrossEntropyLoss(reduction=self.reduction)
	shift_logits = shift_logits.view(-1, self.config.text_config.vocab_size)
	shift_labels = shift_labels.view(-1)
	shift_labels = shift_labels.to(shift_logits.device)
	loss = loss_fct(shift_logits, shift_labels)

	if self.sp_manager is not None:
	loss = gather_outputs_and_unpad(
	loss, gather_dim=0, unpad_dim=0, padding_size=0, group=sp_group
	)

	if self.use_meansum_loss:
	loss = loss.view(labels.size(0), -1).mean(dim=1).sum()

	elif self.use_sqrtsum_loss:
	per_token = loss.view(labels.size(0), -1)
	per_sample_mean = per_token.mean(dim=1)

	with torch.no_grad():
	labels_2d = labels.view(labels.size(0), -1)
	ignore_index = getattr(self.config, "ignore_index", -100)
	valid_mask = labels_2d.ne(ignore_index)
	valid_count = valid_mask.sum(dim=1).clamp(min=1).float()
	raw_w = valid_count.sqrt()
	w_mean = raw_w.mean().clamp(min=1e-6)
	norm_w = raw_w / w_mean

	loss = (per_sample_mean * norm_w).sum()

	elif self.use_turnmeansum_loss:
	with torch.no_grad():
	mask = shift_labels.view(labels.size(0), -1).ne(
	self.config.ignore_index
	)
	prev_mask = mask.roll(shifts=1, dims=1)
	prev_mask[:, 0] = False

	turn_starts = mask & (~prev_mask)

	turn_count = turn_starts.sum(dim=1).clamp(min=1).float()

	loss = (loss.view(labels.size(0), -1).mean(dim=1) * turn_count).sum()

	if self.sp_manager is not None:
	loss = loss / self.sp_manager.device_mesh.shape[1]
	if not return_dict:
	output = (logits,) + outputs[1:]
	return (loss,) + output if loss is not None else output

	return CausalLMOutputWithPast(
	loss=loss,
	logits=logits,
	past_key_values=outputs.past_key_values,
	hidden_states=outputs.hidden_states,
	attentions=outputs.attentions,
	)

	def save_pretrained(
	self,
	save_directory: Union[str, os.PathLike],
	*args,
	**kwargs,
	):

	state_dict = (
	kwargs["state_dict"]
	if kwargs.get("state_dict", None)
	else self.state_dict()
	)
	partial_state_dict = self.get_pretrained_state_dict(
	state_dict,
	)
	kwargs["state_dict"] = partial_state_dict
	kwargs["safe_serialization"] = self.is_safetensor_save
	kwargs.setdefault("max_shard_size", self.save_shard_size)
	super().save_pretrained(save_directory, args, *kwargs)
	if self.is_qwen_visual:
	self.config.architectures = ["HCXVisionV2ForCausalLM"]
	else:
	self.config.architectures = ["HCXVisionForCausalLM"]
	self.config.auto_map["AutoModelForCausalLM"] = (
	"modeling_vlm.HCXVisionForCausalLM"
	)
	self.config.auto_map["AutoModelForSequenceClassification"] = (
	"modeling_vlm.HCXVisionForSequenceClassification"
	)
	self.config.save_pretrained(save_directory)

	def get_pretrained_state_dict(self, state_dict):
	vision_key = "vision_model."
	llm_keys = ["language_model."]
	head_key = "lm_head."

	for key in list(state_dict.keys()):
	if self.save_only_vision:
	for llm_key in llm_keys:
	if llm_key in key:
	state_dict.pop(key)
	if key.startswith(head_key):
	state_dict.pop(key)
	elif self.save_only_qformer:
	if f"{vision_key}" in key:
	state_dict.pop(key)

	return state_dict