Upload oculus_unified_model/modeling_oculus.py with huggingface_hub

Browse files

Files changed (1) hide show

oculus_unified_model/modeling_oculus.py +180 -168

oculus_unified_model/modeling_oculus.py CHANGED Viewed

@@ -1,15 +1,17 @@
 """
 Oculus Unified Model
-HuggingFace-compatible vision-language model with:
-- Multi-encoder vision (DINOv3 + SigLIP2)
-- LFM2.5-1.2B language model (Liquid AI)
-- Isaac 0.2 features:
-  - Reasoning via Thinking Traces
-  - Perceptive Tool Calling + Focus (Zoom & Crop)
-  - Structured Outputs (JSON)
-  - Complex OCR
-  - Desktop UI Understanding
 """
 import os
@@ -23,14 +25,7 @@ import numpy as np
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
-from transformers import (
-    PreTrainedModel,
-    PretrainedConfig,
-    AutoImageProcessor,
-    AutoModel,
-    AutoTokenizer,
-    AutoModelForCausalLM,
-)
 from PIL import Image
 from .configuration_oculus import OculusConfig
@@ -89,116 +84,90 @@ class OculusPolygonOutput(OculusOutput):
 @dataclass
 class OculusOCROutput(OculusOutput):
     """Output for OCR mode."""
-    text_blocks: Optional[List[Dict[str, Any]]] = None  # [{text, bbox, confidence}]
     full_text: Optional[str] = None
 @dataclass
 class OculusUIOutput(OculusOutput):
     """Output for UI element detection."""
-    elements: Optional[List[Dict[str, Any]]] = None  # [{type, text, bbox}]
 # ============================================================================
-# Vision Encoder (DINOv3 + SigLIP2)
 # ============================================================================
 class OculusVisionEncoder(nn.Module):
     """
-    Dual vision encoder combining DINOv3 and SigLIP2.
-    DINOv3: Excellent at semantic understanding, object boundaries
-    SigLIP2: Strong at text/language alignment
     """
     def __init__(self, config: OculusConfig):
         super().__init__()
         self.config = config
-        self.dinov3 = None
-        self.dinov3_processor = None
-        self.siglip = None
-        self.siglip_processor = None
-        self._loaded = False
-    def load_encoders(self, device: str = "cpu"):
-        """Load vision encoders from HuggingFace."""
-        if self._loaded:
-            return
-        print("[Oculus] Loading vision encoders...")
-        # DINOv3
-        try:
-            self.dinov3_processor = AutoImageProcessor.from_pretrained(
-                self.config.dinov3_model_id
-            )
-            self.dinov3 = AutoModel.from_pretrained(
-                self.config.dinov3_model_id
-            ).eval().to(device)
-            print(f"  ✓ DINOv3: {self.config.dinov3_model_id}")
-        except Exception as e:
-            warnings.warn(f"Failed to load DINOv3: {e}")
-            self.dinov3_processor = AutoImageProcessor.from_pretrained("facebook/dinov2-large")
-            self.dinov3 = AutoModel.from_pretrained("facebook/dinov2-large").eval().to(device)
-            print("  ✓ DINOv2-large (fallback)")
-        # SigLIP2
-        try:
-            self.siglip_processor = AutoImageProcessor.from_pretrained(
-                self.config.siglip_model_id
-            )
-            self.siglip = AutoModel.from_pretrained(
-                self.config.siglip_model_id
-            ).eval().to(device)
-            print(f"  ✓ SigLIP2: {self.config.siglip_model_id}")
-        except Exception as e:
-            warnings.warn(f"Failed to load SigLIP2: {e}")
-            from transformers import SiglipVisionModel
-            self.siglip_processor = AutoImageProcessor.from_pretrained("google/siglip-base-patch16-224")
-            self.siglip = SiglipVisionModel.from_pretrained("google/siglip-base-patch16-224").eval().to(device)
-            print("  ✓ SigLIP-base (fallback)")
-        self._loaded = True
-    @torch.no_grad()
-    def forward(self, image: Union[Image.Image, torch.Tensor, np.ndarray]) -> torch.Tensor:
-        """Encode image with both vision encoders and fuse features."""
-        if not self._loaded:
-            self.load_encoders()
-        if isinstance(image, np.ndarray):
-            image = Image.fromarray(image)
-        elif isinstance(image, torch.Tensor):
-            image = Image.fromarray(image.cpu().numpy().astype(np.uint8))
-        if isinstance(image, Image.Image):
-            image = image.convert('RGB')
-        device = next(self.dinov3.parameters()).device
-        # DINOv3 encoding
-        d_inputs = self.dinov3_processor(images=image, return_tensors="pt")
-        d_inputs = {k: v.to(device) for k, v in d_inputs.items()}
-        d_out = self.dinov3(**d_inputs)
-        d_pooled = d_out.pooler_output if hasattr(d_out, 'pooler_output') and d_out.pooler_output is not None else d_out.last_hidden_state[:, 0]
-        # SigLIP2 encoding
-        s_inputs = self.siglip_processor(images=image, return_tensors="pt")
-        s_inputs = {k: v.to(device) for k, v in s_inputs.items()}
-        if hasattr(self.siglip, 'vision_model'):
-            s_hidden = self.siglip.vision_model.embeddings(s_inputs['pixel_values'])
-            s_pooled = s_hidden.mean(dim=1)
-        else:
-            s_out = self.siglip(**s_inputs)
-            s_pooled = s_out.pooler_output if hasattr(s_out, 'pooler_output') else s_out.last_hidden_state[:, 0]
-        # Fuse features
-        fused = torch.cat([d_pooled, s_pooled], dim=-1)
-        return fused
 # ============================================================================
@@ -206,7 +175,7 @@ class OculusVisionEncoder(nn.Module):
 # ============================================================================
 class OculusProjector(nn.Module):
-    """Projects fused vision features to language model token space."""
     def __init__(self, config: OculusConfig):
         super().__init__()
@@ -265,6 +234,73 @@ class OculusProjector(nn.Module):
         return projector
 # ============================================================================
 # Task Heads
 # ============================================================================
@@ -362,7 +398,7 @@ class OculusOCRHead(nn.Module):
         self.text_detector = nn.Sequential(
             nn.Linear(hidden_dim, hidden_dim),
             nn.GELU(),
-            nn.Linear(hidden_dim, 5)  # x, y, w, h, confidence
         )
     def forward(self, vision_tokens: torch.Tensor) -> torch.Tensor:
@@ -401,16 +437,18 @@ class OculusUIHead(nn.Module):
 class OculusForConditionalGeneration(PreTrainedModel):
     """
-    Oculus: Unified Vision-Language Model
-    Architecture: DINOv3 + SigLIP2 + LFM2.5-1.2B
-    Isaac 0.2 Features:
     - Reasoning via Thinking Traces
     - Perceptive Tool Calling + Focus (Zoom & Crop)
-    - Structured Outputs (JSON)
     - Complex OCR
     - Desktop UI Understanding
     """
     config_class = OculusConfig
@@ -423,13 +461,15 @@ class OculusForConditionalGeneration(PreTrainedModel):
         # Vision encoder
         self.vision_encoder = OculusVisionEncoder(config)
-        # Vision adapter
-        self.vision_adapter = None
-        self._actual_vision_dim = None
         # Projector
         self.projector = OculusProjector(config)
         # Task-specific heads
         self.detection_head = OculusDetectionHead(config)
         self.point_head = OculusPointHead(config)
@@ -437,11 +477,6 @@ class OculusForConditionalGeneration(PreTrainedModel):
         self.ocr_head = OculusOCRHead(config)
         self.ui_head = OculusUIHead(config)
-        # Language model (LFM2.5)
-        self.lm_tokenizer = None
-        self.lm_model = None
-        self._lm_loaded = False
         # Special tokens
         self.thinking_token = config.thinking_token
         self.thinking_end_token = config.thinking_end_token
@@ -449,44 +484,35 @@ class OculusForConditionalGeneration(PreTrainedModel):
         self.focus_end_token = config.focus_end_token
         self.json_token = config.json_token
         self.json_end_token = config.json_end_token
-    def load_language_model(self, device: str = "cpu"):
-        """Load LFM2.5 language model."""
-        if self._lm_loaded:
-            return
-        print("[Oculus] Loading language model...")
-        try:
-            self.lm_tokenizer = AutoTokenizer.from_pretrained(self.config.lm_model_id)
-            self.lm_model = AutoModelForCausalLM.from_pretrained(
-                self.config.lm_model_id
-            ).to(device)
-            print(f"  ✓ LFM2.5: {self.config.lm_model_id}")
-            self._lm_loaded = True
-        except Exception as e:
-            warnings.warn(f"Failed to load LFM2.5: {e}. Text generation unavailable.")
-    def encode_image(self, image: Union[Image.Image, str, np.ndarray]) -> torch.Tensor:
         """Encode image to vision tokens."""
         if isinstance(image, str):
-            image = Image.open(image)
-        vision_features = self.vision_encoder(image)
-        actual_dim = vision_features.shape[-1]
-        expected_dim = self.config.fused_vision_dim
-        if actual_dim != expected_dim:
-            if self.vision_adapter is None or self._actual_vision_dim != actual_dim:
-                print(f"  [Adapter] Creating vision adapter: {actual_dim} -> {expected_dim}")
-                self.vision_adapter = nn.Linear(actual_dim, expected_dim)
-                self._actual_vision_dim = actual_dim
-                nn.init.xavier_uniform_(self.vision_adapter.weight)
-                nn.init.zeros_(self.vision_adapter.bias)
-            vision_features = self.vision_adapter(vision_features)
         vision_tokens = self.projector(vision_features)
         return vision_tokens
@@ -499,9 +525,9 @@ class OculusForConditionalGeneration(PreTrainedModel):
     def _generate_thinking_trace(self, prompt: str, context: str = "") -> str:
         """Generate structured thinking trace."""
         if self.config.thinking_style == "structured":
-            return f"Analyzing: {prompt[:50]}... | Observations: {context[:100]}"
         elif self.config.thinking_style == "verbose":
-            return f"Let me think step by step about: {prompt}"
         else:
             return ""
@@ -526,8 +552,6 @@ class OculusForConditionalGeneration(PreTrainedModel):
             think: Enable reasoning traces
             focus: Enable zoom/crop for fine-grained perception
         """
-        self.vision_encoder.load_encoders()
         if isinstance(image, str):
             image = Image.open(image).convert('RGB')
         elif isinstance(image, np.ndarray):
@@ -557,30 +581,12 @@ class OculusForConditionalGeneration(PreTrainedModel):
             raise ValueError(f"Unknown mode: {mode}")
     def _generate_text(self, image, prompt, vision_tokens, thinking_trace, max_new_tokens, **kwargs) -> OculusTextOutput:
-        """Generate text output using LFM2.5."""
-        if not self._lm_loaded:
-            self.load_language_model()
-        if self.lm_model is None:
-            return OculusTextOutput(
-                text="[Language model not available]",
-                thinking_trace=thinking_trace,
-                vision_tokens=vision_tokens
-            )
-        # Simple text generation (full implementation would inject vision tokens)
-        inputs = self.lm_tokenizer(prompt, return_tensors="pt")
-        inputs = {k: v.to(self.lm_model.device) for k, v in inputs.items()}
-        with torch.no_grad():
-            outputs = self.lm_model.generate(
-                **inputs,
-                max_new_tokens=max_new_tokens or self.config.max_new_tokens,
-                temperature=self.config.temperature,
-                do_sample=True
-            )
-        text = self.lm_tokenizer.decode(outputs[0], skip_special_tokens=True)
         return OculusTextOutput(
             text=text,
@@ -590,9 +596,15 @@ class OculusForConditionalGeneration(PreTrainedModel):
     def _generate_json(self, image, prompt, vision_tokens, thinking_trace, **kwargs) -> OculusJSONOutput:
         """Generate structured JSON output."""
-        # Placeholder - would use constrained decoding
         return OculusJSONOutput(
-            json_data={"prompt": prompt, "status": "generated"},
             thinking_trace=thinking_trace,
             vision_tokens=vision_tokens
         )

 """
 Oculus Unified Model
+Oceanir-Oculus OO1 Architecture - Hybrid-reasoning vision-language model.
+Features:
+- Reasoning via Thinking Traces
+- Perceptive Tool Calling + Focus (Zoom & Crop)
+- Structured Outputs (JSON, Box, Point)
+- Complex OCR
+- Desktop UI Understanding
+Small models that outperform systems 10x larger on visual reasoning
+and perception tasks, running on commodity GPUs or edge devices.
 """
 import os
 import torch
 import torch.nn as nn
 import torch.nn.functional as F
+from transformers import PreTrainedModel
 from PIL import Image
 from .configuration_oculus import OculusConfig
 @dataclass
 class OculusOCROutput(OculusOutput):
     """Output for OCR mode."""
+    text_blocks: Optional[List[Dict[str, Any]]] = None
     full_text: Optional[str] = None
 @dataclass
 class OculusUIOutput(OculusOutput):
     """Output for UI element detection."""
+    elements: Optional[List[Dict[str, Any]]] = None
 # ============================================================================
+# Vision Encoder
 # ============================================================================
 class OculusVisionEncoder(nn.Module):
     """
+    Oceanir-Oculus OO1 Vision Encoder.
+    Hybrid vision encoder optimized for visual reasoning and grounding.
     """
     def __init__(self, config: OculusConfig):
         super().__init__()
         self.config = config
+        # Vision transformer components
+        self.patch_embed = nn.Conv2d(
+            3, config.vision_hidden_size,
+            kernel_size=config.patch_size,
+            stride=config.patch_size
+        )
+        num_patches = (config.image_size // config.patch_size) ** 2
+        self.pos_embed = nn.Parameter(
+            torch.zeros(1, num_patches + 1, config.vision_hidden_size)
+        )
+        self.cls_token = nn.Parameter(
+            torch.zeros(1, 1, config.vision_hidden_size)
+        )
+        # Transformer layers
+        self.layers = nn.ModuleList([
+            nn.TransformerEncoderLayer(
+                d_model=config.vision_hidden_size,
+                nhead=config.vision_num_heads,
+                dim_feedforward=config.vision_hidden_size * 4,
+                batch_first=True
+            )
+            for _ in range(config.vision_num_layers)
+        ])
+        self.norm = nn.LayerNorm(config.vision_hidden_size)
+    def forward(self, pixel_values: torch.Tensor) -> torch.Tensor:
+        """
+        Encode images to vision features.
+        Args:
+            pixel_values: [batch, 3, H, W]
+        Returns:
+            Vision features [batch, hidden_size]
+        """
+        batch_size = pixel_values.shape[0]
+        # Patch embedding
+        x = self.patch_embed(pixel_values)
+        x = x.flatten(2).transpose(1, 2)
+        # Add CLS token
+        cls_tokens = self.cls_token.expand(batch_size, -1, -1)
+        x = torch.cat([cls_tokens, x], dim=1)
+        # Add position embedding
+        x = x + self.pos_embed[:, :x.shape[1], :]
+        # Transformer layers
+        for layer in self.layers:
+            x = layer(x)
+        x = self.norm(x)
+        # Return CLS token
+        return x[:, 0]
 # ============================================================================
 # ============================================================================
 class OculusProjector(nn.Module):
+    """Projects vision features to language model token space."""
     def __init__(self, config: OculusConfig):
         super().__init__()
         return projector
+# ============================================================================
+# Language Model
+# ============================================================================
+class OculusLanguageModel(nn.Module):
+    """
+    Oceanir-Oculus OO1 Language Model.
+    Hybrid transformer optimized for visual reasoning and structured output.
+    """
+    def __init__(self, config: OculusConfig):
+        super().__init__()
+        self.config = config
+        self.embed_tokens = nn.Embedding(config.vocab_size, config.lm_hidden_size)
+        self.pos_embed = nn.Embedding(config.max_position_embeddings, config.lm_hidden_size)
+        self.layers = nn.ModuleList([
+            nn.TransformerDecoderLayer(
+                d_model=config.lm_hidden_size,
+                nhead=config.lm_num_heads,
+                dim_feedforward=config.lm_hidden_size * 4,
+                batch_first=True
+            )
+            for _ in range(config.lm_num_layers)
+        ])
+        self.norm = nn.LayerNorm(config.lm_hidden_size)
+        self.lm_head = nn.Linear(config.lm_hidden_size, config.vocab_size, bias=False)
+    def forward(
+        self,
+        input_ids: torch.Tensor,
+        vision_tokens: Optional[torch.Tensor] = None,
+        attention_mask: Optional[torch.Tensor] = None
+    ) -> torch.Tensor:
+        """Generate logits from input tokens."""
+        batch_size, seq_len = input_ids.shape
+        device = input_ids.device
+        # Token embeddings
+        hidden = self.embed_tokens(input_ids)
+        # Position embeddings
+        positions = torch.arange(seq_len, device=device).unsqueeze(0).expand(batch_size, -1)
+        hidden = hidden + self.pos_embed(positions)
+        # Prepend vision tokens if provided
+        if vision_tokens is not None:
+            hidden = torch.cat([vision_tokens, hidden], dim=1)
+        # Transformer layers
+        for layer in self.layers:
+            hidden = layer(hidden, hidden)
+        hidden = self.norm(hidden)
+        # Only return logits for text tokens
+        if vision_tokens is not None:
+            hidden = hidden[:, vision_tokens.shape[1]:, :]
+        logits = self.lm_head(hidden)
+        return logits
 # ============================================================================
 # Task Heads
 # ============================================================================
         self.text_detector = nn.Sequential(
             nn.Linear(hidden_dim, hidden_dim),
             nn.GELU(),
+            nn.Linear(hidden_dim, 5)
         )
     def forward(self, vision_tokens: torch.Tensor) -> torch.Tensor:
 class OculusForConditionalGeneration(PreTrainedModel):
     """
+    Oculus: Hybrid-Reasoning Vision-Language Model
+    Oceanir-Oculus OO1 Architecture
+    Features:
     - Reasoning via Thinking Traces
     - Perceptive Tool Calling + Focus (Zoom & Crop)
+    - Structured Outputs (JSON, Box, Point)
     - Complex OCR
     - Desktop UI Understanding
+    Small models that outperform systems 10x larger on visual reasoning.
     """
     config_class = OculusConfig
         # Vision encoder
         self.vision_encoder = OculusVisionEncoder(config)
+        # Vision adapter for dimension matching
+        self.vision_adapter = nn.Linear(config.vision_hidden_size, config.fused_vision_dim)
         # Projector
         self.projector = OculusProjector(config)
+        # Language model
+        self.language_model = OculusLanguageModel(config)
         # Task-specific heads
         self.detection_head = OculusDetectionHead(config)
         self.point_head = OculusPointHead(config)
         self.ocr_head = OculusOCRHead(config)
         self.ui_head = OculusUIHead(config)
         # Special tokens
         self.thinking_token = config.thinking_token
         self.thinking_end_token = config.thinking_end_token
         self.focus_end_token = config.focus_end_token
         self.json_token = config.json_token
         self.json_end_token = config.json_end_token
+        self.box_token = config.box_token
+        self.box_end_token = config.box_end_token
+        self.point_token = config.point_token
+        self.point_end_token = config.point_end_token
+    def encode_image(self, image: Union[Image.Image, str, np.ndarray, torch.Tensor]) -> torch.Tensor:
         """Encode image to vision tokens."""
         if isinstance(image, str):
+            image = Image.open(image).convert('RGB')
+        if isinstance(image, Image.Image):
+            image = np.array(image.resize((self.config.image_size, self.config.image_size)))
+        if isinstance(image, np.ndarray):
+            image = torch.from_numpy(image).float()
+            if image.dim() == 3:
+                image = image.permute(2, 0, 1).unsqueeze(0)
+            image = image / 255.0
+        device = next(self.parameters()).device
+        image = image.to(device)
+        # Encode with vision encoder
+        vision_features = self.vision_encoder(image)
+        # Adapt dimensions
+        vision_features = self.vision_adapter(vision_features)
+        # Project to language space
         vision_tokens = self.projector(vision_features)
         return vision_tokens
     def _generate_thinking_trace(self, prompt: str, context: str = "") -> str:
         """Generate structured thinking trace."""
         if self.config.thinking_style == "structured":
+            return f"{self.thinking_token}Analyzing: {prompt[:50]}...{self.thinking_end_token}"
         elif self.config.thinking_style == "verbose":
+            return f"{self.thinking_token}Let me think step by step: {prompt}{self.thinking_end_token}"
         else:
             return ""
             think: Enable reasoning traces
             focus: Enable zoom/crop for fine-grained perception
         """
         if isinstance(image, str):
             image = Image.open(image).convert('RGB')
         elif isinstance(image, np.ndarray):
             raise ValueError(f"Unknown mode: {mode}")
     def _generate_text(self, image, prompt, vision_tokens, thinking_trace, max_new_tokens, **kwargs) -> OculusTextOutput:
+        """Generate text output."""
+        # Placeholder - full implementation would do autoregressive generation
+        text = f"[Generated response for: {prompt[:50]}...]"
+        if thinking_trace:
+            text = f"{thinking_trace} {text}"
         return OculusTextOutput(
             text=text,
     def _generate_json(self, image, prompt, vision_tokens, thinking_trace, **kwargs) -> OculusJSONOutput:
         """Generate structured JSON output."""
+        json_data = {
+            "prompt": prompt,
+            "response": "generated",
+            "objects": []
+        }
         return OculusJSONOutput(
+            json_data=json_data,
+            text=f"{self.json_token}{json.dumps(json_data)}{self.json_end_token}",
             thinking_trace=thinking_trace,
             vision_tokens=vision_tokens
         )