jiang-cc
/

AD-Copilot-Thinking

Feature Extraction

Model card Files Files and versions

jiang-cc commited on Sep 4, 2025

Commit

944bddc

·

verified ·

1 Parent(s): 1ad2fd0

Upload processor

Files changed (1) hide show

modeling_yangjian.py +1 -46

modeling_yangjian.py CHANGED Viewed

@@ -759,49 +759,4 @@ class YangJianVLForConditionalGeneration(Qwen2_5_VLForConditionalGeneration):
     def __init__(self, config):
         super().__init__(config)
-        self.model = YangJianVLModel(config)
-    # def _prepare_generation_config(self, generation_config, use_model_defaults, **kwargs: dict):
-    #     model_kwargs = super()._prepare_generation_config(generation_config, use_model_defaults, **kwargs)
-    #     compare_token_size = self.config.vision_config.compare_token_size
-    #     input_dict = model_kwargs[1]
-    #     input_ids = model_kwargs[1]["input_ids"]
-    #     attention_mask = model_kwargs[1]["attention_mask"]
-    #     if "pixel_values" in input_dict and input_dict["pixel_values"] is not None:
-    #         image_grid_thw = input_dict["image_grid_thw"]
-    #         # 计算每张图片的token数量
-    #         image_token_counts = (image_grid_thw.prod(-1) // self.config.vision_config.spatial_merge_size**2).tolist()
-    #         image_token_positions = (input_ids == self.config.image_token_id).nonzero(as_tuple=True)[1]
-    #         # 倒序遍历图片,这样插入时不会影响前面图片的位置
-    #         current_end = len(image_token_positions)  # 最后一个图片token的结束位置
-    #         for i in range(len(image_token_counts) - 1, -1, -1):
-    #             count = image_token_counts[i]
-    #             # 计算当前图片的结束位置
-    #             start = current_end - count  # 当前图片的起始位置
-    #             end_index = image_token_positions[current_end - 1]  # 当前图片的最后一个token位置
-    #             # 在第i张图片的末尾插入 self.compare_token_size 个图像对比的token
-    #             # 获取插入位置的token的值
-    #             prev_token = input_ids[:, end_index]
-    #             input_ids = torch.cat([
-    #                 input_ids[:, :end_index + 1],
-    #                 prev_token.repeat(input_ids.shape[0], compare_token_size),
-    #                 input_ids[:, end_index + 1:]
-    #             ], dim=1)
-    #             # 同步更新attention_mask和position_ids
-    #             if attention_mask is not None:
-    #                 prev_mask = attention_mask[:, end_index]
-    #                 attention_mask = torch.cat([
-    #                     attention_mask[:, :end_index + 1],
-    #                     prev_mask.repeat(input_ids.shape[0], compare_token_size),
-    #                     attention_mask[:, end_index + 1:]
-    #                 ], dim=1)
-    #             current_end = start  # 更新结束位置为当前图片的起始位置
-    #     model_kwargs[1]["input_ids"] = input_ids
-    #     model_kwargs[1]["attention_mask"] = attention_mask
-    #     return model_kwargs

     def __init__(self, config):
         super().__init__(config)
+        self.model = YangJianVLModel(config)