Junho330
/

dinov2-dual

Model card Files Files and versions

Junho330 commited on Aug 18, 2025

Commit

bc1967c

·

verified ·

1 Parent(s): 92f540d

Delete mdoel_dinov2_dual.py

Files changed (1) hide show

mdoel_dinov2_dual.py +0 -89

mdoel_dinov2_dual.py DELETED Viewed

@@ -1,89 +0,0 @@
-import torch
-import torch.nn as nn
-import copy
-from transformers import Dinov2Model, Dinov2Config
-class DualChannelDINOv2Model(Dinov2Model):
-    """
-    A modified DINOv2 model that uses DualChannelDINOv2Attention
-    for each self-attention layer.
-    """
-    config_class = Dinov2Config
-    def __init__(self, config: Dinov2Config):
-        super().__init__(config)
-        self.encoder = add_dual_channel_attention_to_dino(self.encoder)
-def add_dual_channel_attention_to_dino(dino_encoder: nn.Module):
-    config = dino_encoder.config
-    for idx, layer in enumerate(dino_encoder.layer):
-        old_attn = layer.attention
-        dual_attn = DualChannelDINOv2Attention(
-            attention_base=old_attn,
-            config=config,
-        )
-        layer.attention = dual_attn
-    return dino_encoder
-class DualChannelDINOv2Attention(nn.Module):
-    """
-    A wrapper that keeps two instances of DINOv2Attention:
-      1) attention_base (frozen)
-      2) attention_plus (trainable)
-    and fuses their outputs via a learnable alpha.
-    """
-    def __init__(self, attention_base: nn.Module, config):
-        super().__init__()
-        self.attention_base = attention_base
-        self.attention_plus = copy.deepcopy(attention_base)
-        # A learnable alpha parameter (vector of size [hidden_size])
-        self.alpha_param = nn.Parameter(torch.zeros(config.hidden_size))
-    def forward(
-        self,
-        hidden_states: torch.Tensor,
-        head_mask: torch.Tensor = None,
-        output_attentions: bool = False
-    ):
-        """
-        Runs both attention_base and attention_plus, fuses results.
-        """
-        # ---- base branch ----
-        base_ret = self.attention_base(
-            hidden_states,
-            head_mask=head_mask,
-            output_attentions=output_attentions
-        )
-        if isinstance(base_ret, tuple):
-            base_out = base_ret[0]
-            base_attn = base_ret[1] if len(base_ret) > 1 else None
-        else:
-            base_out, base_attn = base_ret, None
-        # ---- plus branch ----
-        plus_ret = self.attention_plus(
-            hidden_states,
-            head_mask=head_mask,
-            output_attentions=output_attentions
-        )
-        if isinstance(plus_ret, tuple):
-            plus_out = plus_ret[0]
-            plus_attn = plus_ret[1] if len(plus_ret) > 1 else None
-        else:
-            plus_out, plus_attn = plus_ret, None
-        # ---- fuse outputs ----
-        alpha = torch.sigmoid(self.alpha_param).view(1, 1, -1).to(dtype=base_out.dtype)
-        fused_out = alpha * base_out + (1.0 - alpha) * plus_out
-        if output_attentions:
-            # Base의 attention map을 그대로 반환 (가장 안전한 호환 방식)
-            return fused_out, base_attn
-        else:
-            # Hugging Face 규약: 길이 1짜리 튜플
-            return (fused_out,)