File size: 16,527 Bytes

826f659

"""
Multimodal Vision Module for MiniMind Max2
Adapter-based approach using SigLIP/DINOv2 vision encoders.
"""

from dataclasses import dataclass, field
from typing import List, Optional, Dict, Any, Tuple, Union
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader
import math


@dataclass
class VisionConfig:
    """Configuration for vision adapter."""
    # Vision encoder settings
    vision_encoder: str = "siglip-so400m"  # siglip-so400m, dinov2-small, clip-vit-base
    vision_hidden_size: int = 1152  # SigLIP-So400M hidden size
    image_size: int = 384
    patch_size: int = 14
    num_image_tokens: int = 729  # (384/14)^2 = 729 patches

    # Projector settings
    projector_type: str = "mlp"  # mlp, linear, resampler
    projector_hidden_size: int = 2048
    projector_num_layers: int = 2

    # LLM settings (to match MiniMind)
    llm_hidden_size: int = 1024  # MiniMind hidden size

    # Training settings
    freeze_vision_encoder: bool = True
    freeze_llm: bool = True
    train_projector_only: bool = True

    # Special tokens
    image_start_token: str = "<image>"
    image_end_token: str = "</image>"
    image_pad_token: str = "<image_pad>"


class MLPProjector(nn.Module):
    """
    Multi-Layer Perceptron projector for vision-language alignment.
    Maps vision encoder outputs to LLM embedding space.
    """

    def __init__(self, config: VisionConfig):
        super().__init__()
        self.config = config

        layers = []
        input_size = config.vision_hidden_size

        for i in range(config.projector_num_layers):
            if i == config.projector_num_layers - 1:
                # Last layer projects to LLM size
                layers.extend([
                    nn.Linear(input_size, config.llm_hidden_size),
                ])
            else:
                # Hidden layers
                layers.extend([
                    nn.Linear(input_size, config.projector_hidden_size),
                    nn.GELU(),
                    nn.LayerNorm(config.projector_hidden_size),
                ])
                input_size = config.projector_hidden_size

        self.projector = nn.Sequential(*layers)

    def forward(self, vision_features: torch.Tensor) -> torch.Tensor:
        """
        Project vision features to LLM space.

        Args:
            vision_features: [batch, num_patches, vision_hidden_size]

        Returns:
            Projected features: [batch, num_patches, llm_hidden_size]
        """
        return self.projector(vision_features)


class Resampler(nn.Module):
    """
    Perceiver-style resampler for compressing vision tokens.
    Reduces number of image tokens while preserving information.
    """

    def __init__(
        self,
        config: VisionConfig,
        num_queries: int = 64,
        num_heads: int = 8,
        num_layers: int = 2,
    ):
        super().__init__()
        self.config = config
        self.num_queries = num_queries

        # Learnable query tokens
        self.queries = nn.Parameter(torch.randn(1, num_queries, config.llm_hidden_size))

        # Input projection
        self.input_proj = nn.Linear(config.vision_hidden_size, config.llm_hidden_size)

        # Cross-attention layers
        self.layers = nn.ModuleList([
            nn.TransformerDecoderLayer(
                d_model=config.llm_hidden_size,
                nhead=num_heads,
                dim_feedforward=config.llm_hidden_size * 4,
                batch_first=True,
            )
            for _ in range(num_layers)
        ])

        self.norm = nn.LayerNorm(config.llm_hidden_size)

    def forward(self, vision_features: torch.Tensor) -> torch.Tensor:
        """
        Resample vision features using learned queries.

        Args:
            vision_features: [batch, num_patches, vision_hidden_size]

        Returns:
            Resampled features: [batch, num_queries, llm_hidden_size]
        """
        batch_size = vision_features.shape[0]

        # Project vision features
        vision_features = self.input_proj(vision_features)

        # Expand queries for batch
        queries = self.queries.expand(batch_size, -1, -1)

        # Cross-attend to vision features
        for layer in self.layers:
            queries = layer(queries, vision_features)

        return self.norm(queries)


class VisionEncoder(nn.Module):
    """
    Wrapper for pre-trained vision encoders.
    Supports SigLIP, DINOv2, and CLIP.
    """

    def __init__(self, config: VisionConfig):
        super().__init__()
        self.config = config
        self.encoder = None
        self.processor = None

        # Placeholder for actual encoder loading
        # In practice, load from HuggingFace
        self._build_dummy_encoder()

    def _build_dummy_encoder(self):
        """Build a dummy encoder for testing."""
        # Simple ViT-like encoder
        patch_dim = 3 * (self.config.patch_size ** 2)
        num_patches = (self.config.image_size // self.config.patch_size) ** 2

        self.patch_embed = nn.Linear(patch_dim, self.config.vision_hidden_size)
        self.pos_embed = nn.Parameter(
            torch.randn(1, num_patches + 1, self.config.vision_hidden_size) * 0.02
        )
        self.cls_token = nn.Parameter(
            torch.randn(1, 1, self.config.vision_hidden_size) * 0.02
        )

        # Transformer layers
        self.layers = nn.ModuleList([
            nn.TransformerEncoderLayer(
                d_model=self.config.vision_hidden_size,
                nhead=8,
                dim_feedforward=self.config.vision_hidden_size * 4,
                batch_first=True,
            )
            for _ in range(6)
        ])
        self.norm = nn.LayerNorm(self.config.vision_hidden_size)

    def patchify(self, images: torch.Tensor) -> torch.Tensor:
        """Convert images to patches."""
        batch_size, c, h, w = images.shape
        p = self.config.patch_size

        # [B, C, H, W] -> [B, num_patches, patch_dim]
        patches = images.unfold(2, p, p).unfold(3, p, p)
        patches = patches.contiguous().view(batch_size, c, -1, p, p)
        patches = patches.permute(0, 2, 1, 3, 4).contiguous()
        patches = patches.view(batch_size, -1, c * p * p)

        return patches

    def forward(self, images: torch.Tensor) -> torch.Tensor:
        """
        Encode images to feature vectors.

        Args:
            images: [batch, 3, height, width] normalized images

        Returns:
            Vision features: [batch, num_patches, vision_hidden_size]
        """
        batch_size = images.shape[0]

        # Patchify and embed
        patches = self.patchify(images)
        x = self.patch_embed(patches)

        # Add CLS token
        cls_tokens = self.cls_token.expand(batch_size, -1, -1)
        x = torch.cat([cls_tokens, x], dim=1)

        # Add positional embeddings
        x = x + self.pos_embed[:, :x.shape[1], :]

        # Transformer
        for layer in self.layers:
            x = layer(x)

        x = self.norm(x)

        # Return patch features (exclude CLS)
        return x[:, 1:, :]

    @classmethod
    def from_pretrained(cls, model_name: str, config: VisionConfig) -> "VisionEncoder":
        """Load pre-trained vision encoder."""
        encoder = cls(config)

        # In practice, load weights from HuggingFace
        # try:
        #     from transformers import SiglipVisionModel, AutoProcessor
        #     encoder.encoder = SiglipVisionModel.from_pretrained(model_name)
        #     encoder.processor = AutoProcessor.from_pretrained(model_name)
        # except ImportError:
        #     pass

        return encoder


class VisionAdapter(nn.Module):
    """
    Complete vision adapter for MiniMind Max2.
    Connects vision encoder to LLM via projector.
    """

    def __init__(self, config: VisionConfig):
        super().__init__()
        self.config = config

        # Vision encoder
        self.vision_encoder = VisionEncoder(config)

        # Projector
        if config.projector_type == "mlp":
            self.projector = MLPProjector(config)
        elif config.projector_type == "resampler":
            self.projector = Resampler(config)
        else:
            self.projector = nn.Linear(config.vision_hidden_size, config.llm_hidden_size)

        # Freeze components as needed
        if config.freeze_vision_encoder:
            for param in self.vision_encoder.parameters():
                param.requires_grad = False

    def forward(
        self,
        images: torch.Tensor,
        return_features: bool = False,
    ) -> Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]]:
        """
        Process images and project to LLM space.

        Args:
            images: [batch, 3, height, width]
            return_features: Also return raw vision features

        Returns:
            Projected features: [batch, num_tokens, llm_hidden_size]
        """
        # Encode images
        vision_features = self.vision_encoder(images)

        # Project to LLM space
        projected = self.projector(vision_features)

        if return_features:
            return projected, vision_features
        return projected

    def get_num_image_tokens(self) -> int:
        """Get number of tokens per image."""
        if isinstance(self.projector, Resampler):
            return self.projector.num_queries
        return self.config.num_image_tokens


class MiniMindVision(nn.Module):
    """
    Complete vision-language model combining MiniMind Max2 with vision adapter.
    """

    def __init__(
        self,
        llm_model: nn.Module,
        vision_config: Optional[VisionConfig] = None,
    ):
        super().__init__()

        # Get LLM config
        if hasattr(llm_model, 'config'):
            llm_hidden_size = llm_model.config.hidden_size
        else:
            llm_hidden_size = 1024

        # Vision config
        self.vision_config = vision_config or VisionConfig(llm_hidden_size=llm_hidden_size)

        # Components
        self.llm = llm_model
        self.vision_adapter = VisionAdapter(self.vision_config)

        # Freeze LLM if needed
        if self.vision_config.freeze_llm:
            for param in self.llm.parameters():
                param.requires_grad = False

    def merge_vision_text_embeddings(
        self,
        text_embeddings: torch.Tensor,
        vision_embeddings: torch.Tensor,
        image_positions: torch.Tensor,
    ) -> torch.Tensor:
        """
        Merge vision embeddings into text embedding sequence.

        Args:
            text_embeddings: [batch, text_seq_len, hidden_size]
            vision_embeddings: [batch, num_image_tokens, hidden_size]
            image_positions: [batch] position indices for image tokens

        Returns:
            Merged embeddings: [batch, total_seq_len, hidden_size]
        """
        batch_size = text_embeddings.shape[0]
        num_image_tokens = vision_embeddings.shape[1]

        # Calculate output sequence length
        text_len = text_embeddings.shape[1]
        total_len = text_len + num_image_tokens

        # Create output tensor
        merged = torch.zeros(
            batch_size, total_len, text_embeddings.shape[-1],
            device=text_embeddings.device,
            dtype=text_embeddings.dtype,
        )

        for i in range(batch_size):
            pos = image_positions[i].item()

            # Text before image
            if pos > 0:
                merged[i, :pos] = text_embeddings[i, :pos]

            # Image tokens
            merged[i, pos:pos + num_image_tokens] = vision_embeddings[i]

            # Text after image
            if pos < text_len:
                merged[i, pos + num_image_tokens:] = text_embeddings[i, pos:]

        return merged

    def forward(
        self,
        input_ids: torch.LongTensor,
        images: Optional[torch.Tensor] = None,
        image_positions: Optional[torch.Tensor] = None,
        attention_mask: Optional[torch.Tensor] = None,
        labels: Optional[torch.LongTensor] = None,
    ) -> Tuple[Optional[torch.Tensor], torch.Tensor]:
        """
        Forward pass with optional images.

        Args:
            input_ids: Text token IDs
            images: Optional batch of images
            image_positions: Where to insert image tokens
            attention_mask: Attention mask for text
            labels: Labels for language modeling

        Returns:
            Loss (if labels provided) and logits
        """
        # Get text embeddings from LLM
        if hasattr(self.llm, 'model'):
            text_embeddings = self.llm.model.embed_tokens(input_ids)
        else:
            text_embeddings = self.llm.embed_tokens(input_ids)

        # Process images if provided
        if images is not None:
            vision_embeddings = self.vision_adapter(images)

            if image_positions is None:
                # Default: insert at beginning
                image_positions = torch.zeros(images.shape[0], dtype=torch.long, device=images.device)

            # Merge embeddings
            merged_embeddings = self.merge_vision_text_embeddings(
                text_embeddings, vision_embeddings, image_positions
            )

            # Update attention mask
            if attention_mask is not None:
                num_image_tokens = vision_embeddings.shape[1]
                image_mask = torch.ones(
                    images.shape[0], num_image_tokens,
                    device=attention_mask.device,
                    dtype=attention_mask.dtype,
                )
                attention_mask = torch.cat([image_mask, attention_mask], dim=1)
        else:
            merged_embeddings = text_embeddings

        # Forward through LLM (need to modify to accept embeddings directly)
        # This is a simplified version
        loss, logits, _, _ = self.llm(
            input_ids=input_ids,
            attention_mask=attention_mask,
            labels=labels,
        )

        return loss, logits

    @torch.no_grad()
    def caption_image(
        self,
        image: torch.Tensor,
        prompt: str = "Describe this image:",
        max_new_tokens: int = 100,
        tokenizer = None,
    ) -> str:
        """Generate caption for an image."""
        self.eval()

        # Encode image
        vision_embeddings = self.vision_adapter(image.unsqueeze(0))

        # Tokenize prompt
        if tokenizer is not None:
            input_ids = tokenizer.encode(prompt, return_tensors="pt").to(image.device)
        else:
            # Dummy for testing
            input_ids = torch.randint(0, 1000, (1, 10), device=image.device)

        # Generate (simplified)
        # In practice, would use the merged embeddings
        generated = self.llm.generate(
            input_ids,
            max_new_tokens=max_new_tokens,
        )

        if tokenizer is not None:
            return tokenizer.decode(generated[0], skip_special_tokens=True)
        return "Generated caption placeholder"


class VisionDataset(Dataset):
    """Dataset for vision-language training."""

    def __init__(
        self,
        data_path: str,
        tokenizer,
        image_processor,
        max_length: int = 512,
    ):
        self.tokenizer = tokenizer
        self.image_processor = image_processor
        self.max_length = max_length
        self.examples = []

        # Load data (e.g., LLaVA-150k format)
        import json
        with open(data_path, 'r') as f:
            self.examples = json.load(f)

    def __len__(self) -> int:
        return len(self.examples)

    def __getitem__(self, idx: int) -> Dict[str, Any]:
        example = self.examples[idx]

        # Load and process image
        # In practice: image = Image.open(example["image"]).convert("RGB")
        # image = self.image_processor(image)

        # Dummy image for now
        image = torch.randn(3, 384, 384)

        # Tokenize text
        text = example.get("conversations", [{"value": "Describe the image."}])[0]["value"]
        encodings = self.tokenizer(
            text,
            max_length=self.max_length,
            truncation=True,
            padding="max_length",
            return_tensors="pt",
        )

        return {
            "image": image,
            "input_ids": encodings["input_ids"].squeeze(0),
            "attention_mask": encodings["attention_mask"].squeeze(0),
            "labels": encodings["input_ids"].squeeze(0),
        }