OpenGVLab
/

InternVideo2-Stage2_6B

Video Classification

Safetensors

custom_code

Model card Files Files and versions

xet

Community

shepnerd commited on Feb 11, 2025

Commit

1f40ad7

verified ·

1 Parent(s): 7fc435d

Update modeling_internvideo2.py

Browse files

Files changed (1) hide show

modeling_internvideo2.py +4 -17

modeling_internvideo2.py CHANGED Viewed

@@ -1056,11 +1056,6 @@ def pretrain_internvideo2_1b_patch14_224(config):
         clip_return_layer=config.vision_encoder.clip_return_layer,
         clip_student_return_interval=config.vision_encoder.clip_student_return_interval,
     )
-    # if config.vision_encoder.pretrained is not None:
-    #     state_dict = torch.load(config.vision_encoder.pretrained, map_location='cpu')
-    #     interpolate_pos_embed_internvideo2(state_dict, model, orig_t_size=8)
-    #     message = model.load_state_dict(state_dict, strict=False)
     return model
@@ -1071,8 +1066,10 @@ def pretrain_internvideo2_6b_patch14_224(config):
         embed_dim=3200, depth=48, num_heads=25, mlp_ratio=4,
         clip_embed_dim=config.vision_encoder.clip_embed_dim,
         attn_pool_num_heads=16, qkv_bias=False,
-        drop_path_rate=0.3,
-        init_values=0.00001,
         qk_normalization=True,
         use_flash_attn=config.vision_encoder.use_flash_attn,
         use_fused_rmsnorm=config.vision_encoder.use_fused_rmsnorm,
@@ -1091,12 +1088,6 @@ def pretrain_internvideo2_6b_patch14_224(config):
         clip_return_layer=config.vision_encoder.clip_return_layer,
         clip_student_return_interval=config.vision_encoder.clip_student_return_interval,
     )
-    # if config.vision_encoder.pretrained is not None:
-    #     state_dict = torch.load(config.vision_encoder.pretrained, map_location='cpu')
-    #     interpolate_pos_embed_internvideo2(state_dict, model, orig_t_size=8)
-    #     msg = model.load_state_dict(state_dict, strict=False)
     return model
@@ -3155,7 +3146,6 @@ class InternVideo2_Stage2(
     def __init__(self,
                  config: InternVideo2_Stage2_Config,
-                #  tokenizer,
                  is_pretrain: bool=True):
         super(InternVideo2_Stage2, self).__init__(config)
@@ -3172,10 +3162,7 @@ class InternVideo2_Stage2(
         # create modules.
         self.vision_encoder = self.build_vision_encoder()
-        self.freeze_vision()
         self.text_encoder = self.build_text_encoder()
-        self.freeze_text()
         self.vision_proj = nn.Linear(self.vision_width, self.embed_dim)
         self.text_proj = nn.Linear(self.text_width, self.embed_dim)

         clip_return_layer=config.vision_encoder.clip_return_layer,
         clip_student_return_interval=config.vision_encoder.clip_student_return_interval,
     )
     return model
         embed_dim=3200, depth=48, num_heads=25, mlp_ratio=4,
         clip_embed_dim=config.vision_encoder.clip_embed_dim,
         attn_pool_num_heads=16, qkv_bias=False,
+        # drop_path_rate=0.3,
+        # init_values=0.00001,
+        drop_path_rate=0,
+        init_values=None,
         qk_normalization=True,
         use_flash_attn=config.vision_encoder.use_flash_attn,
         use_fused_rmsnorm=config.vision_encoder.use_fused_rmsnorm,
         clip_return_layer=config.vision_encoder.clip_return_layer,
         clip_student_return_interval=config.vision_encoder.clip_student_return_interval,
     )
     return model
     def __init__(self,
                  config: InternVideo2_Stage2_Config,
                  is_pretrain: bool=True):
         super(InternVideo2_Stage2, self).__init__(config)
         # create modules.
         self.vision_encoder = self.build_vision_encoder()
         self.text_encoder = self.build_text_encoder()
         self.vision_proj = nn.Linear(self.vision_width, self.embed_dim)
         self.text_proj = nn.Linear(self.text_width, self.embed_dim)